JP2013125374A - Information processing method, device, and program - Google Patents

Information processing method, device, and program Download PDF

Info

Publication number
JP2013125374A
JP2013125374A JP2011273037A JP2011273037A JP2013125374A JP 2013125374 A JP2013125374 A JP 2013125374A JP 2011273037 A JP2011273037 A JP 2011273037A JP 2011273037 A JP2011273037 A JP 2011273037A JP 2013125374 A JP2013125374 A JP 2013125374A
Authority
JP
Japan
Prior art keywords
attribute
records
data
attribute value
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011273037A
Other languages
Japanese (ja)
Other versions
JP5772563B2 (en
Inventor
Yuji Yamaoka
裕司 山岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011273037A priority Critical patent/JP5772563B2/en
Publication of JP2013125374A publication Critical patent/JP2013125374A/en
Application granted granted Critical
Publication of JP5772563B2 publication Critical patent/JP5772563B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To protect privacy while leaving an inclination of appearance distribution of an original value.SOLUTION: The information processing method includes steps of: determining, for every type of attribute values of a first attribute that is included in a plurality of records and designated as an object of ambiguity, whether or not a distribution of the number of records satisfies a condition representing to have a large deviation, from data stored in a data storage part for storing the number of records in which the attribute values of the first attribute appear, in the plurality of records; and when the distribution of the number of records satisfies the condition representing to have the large deviation, replacing the attribute value of the first attribute of at least one record of the plurality of records, by ambiguity data, and storing them in the data storage part.

Description

本技術は、データを匿名化する技術に関する。   The present technology relates to a technology for anonymizing data.

プライバシーに関わるデータの統計値を開示するとき、データの分布によってはプライバシーが侵害される場合がある。たとえば、4人の従業員に対しアンケート調査をおこない、その統計結果を従業員に開示することを考える。   When disclosing statistical values of data related to privacy, privacy may be infringed depending on the distribution of data. For example, consider conducting a questionnaire survey of four employees and disclosing the statistical results to the employees.

図1に、アンケート結果例を示す。3つの質問に対し、それぞれ4人が回答し、その統計結果が示されている。ここで、それぞれの回答はプライバシー情報であるものとする。すなわち、それぞれの質問につき、各従業員は自分が何と回答したか他の従業員に知られたくないと考えているものとする。また、各従業員は誰がこのアンケートに回答したか知っているものとする。   FIG. 1 shows an example of a questionnaire result. Four people answered each of the three questions, and the statistical results are shown. Here, it is assumed that each answer is privacy information. That is, for each question, each employee thinks that he / she does not want other employees to know what he / she answered. Each employee also knows who answered this questionnaire.

このとき、質問1の回答は、全員が「不満」であるため、各従業員が何と回答したか他の従業員に知られてしまうという問題がある。また、質問2の回答は、1人以外の全員が「不満」であるため、どの従業員が「不満」と回答したか、その1人に知られてしまうという問題がある。なお、質問3の回答は偏りが小さく、結託をしない限り、どの従業員にも他の従業員の回答を一意に知ることができない。   At this time, since all of the answers to question 1 are “dissatisfied”, there is a problem that other employees know what each employee answered. Further, since the answer to question 2 is that all but one person is “dissatisfied”, there is a problem that which one of the employees answered “dissatisfied” is known. Note that the answers to question 3 are small in bias, and no employee can uniquely know the answers of other employees unless collusion is made.

ところで、k−匿名化技術という匿名化技術が知られている。k−匿名化技術とは、例えば表データについて、プライバシー上あまり問題とならない属性の値が全て同じレコードが k個以上となるようにデータを変更する技術である。   By the way, the anonymization technique called k-anonymization technique is known. The k-anonymization technique is a technique for changing data so that, for example, table data has k or more records having the same attribute values that do not cause much privacy.

たとえば、部署や年齢とともに、従業員8人に対し図1のような質問についてアンケート調査を行うことを考える。   For example, consider a questionnaire survey on questions such as those shown in FIG.

図2に、このアンケート回答例を示す。各レコード(すなわち行)が各従業員の回答内容である。各属性(すなわち列)は調査項目で、「部署」及び「年齢」はプライバシー上あまり問題とならない属性とし、「回答」内容はプライバシー情報であるものとする。また、前と同様に、各従業員は誰がこのアンケートに回答したかを知っているものとする。   FIG. 2 shows an example of this questionnaire response. Each record (that is, a row) is the response content of each employee. Each attribute (that is, column) is a survey item, “Department” and “Age” are attributes that do not cause much privacy, and “Reply” content is privacy information. Also, as before, each employee knows who answered this questionnaire.

さらに、今度は、アンケート結果を開示する際に、全体の統計値だけでなく、できるだけ詳細な統計値も開示したいとする。それにより、例えば「開発部」は不満率が高いとか、「若い者」は不満率が高いといった、多くの情報を提供できる可能性がある。   Furthermore, this time, when disclosing the questionnaire results, it is assumed that not only the overall statistical values but also the statistical values as detailed as possible are disclosed. As a result, for example, the “development department” may be able to provide a lot of information, such as a high dissatisfaction rate, or a “young person” having a high dissatisfaction rate.

但し、図2のデータをそのまま開示することはプライバシー上問題がある。そのまま開示すると、例えば企画部26歳の太郎さんが「回答」したことを知っている者には、最初のレコードが太郎さんだということが分かるので、太郎さんが不満を抱いていることが分かってしまう。   However, disclosing the data of FIG. 2 as it is has a privacy problem. If it is disclosed as it is, for example, those who know that Taro, 26-year-old Planning Department answered, will know that the first record is Taro, so I know that Taro is dissatisfied End up.

そこで、k-匿名化技術により変更したデータを開示することが考えられる。k-匿名化技術を使うと、プライバシー上あまり問題とならない属性である、「部署」及び「年齢」の値が変更対象となる。   Therefore, it is conceivable to disclose data changed by the k-anonymization technique. When k-anonymization technology is used, the values of “department” and “age”, which are attributes that do not cause much privacy problems, are changed.

図3に、k−匿名化技術(k=4)を適用し、データを変更した例を示す。この表を見ても、企画部26歳の太郎さんのレコードは最初の1乃至4番目のどれかということまでしかわからない。一方、企画部/開発部は不満率が高い傾向があるという情報が得られる。   FIG. 3 shows an example in which data is changed by applying the k-anonymization technique (k = 4). Even if you look at this chart, you can only tell if the record of Taro, 26 years old, is one of the first to fourth. On the other hand, information that the planning department / development department tends to have a high dissatisfaction rate is obtained.

このように、ある程度情報を残しつつ、任意の個人(一般的には人に限らない)のレコードがどれか少なくともkレコードまでしか絞れないようにするのが、k−匿名化技術の効果である。   As described above, it is an effect of the k-anonymization technology that allows any individual (generally not limited to) records to be limited to at least k records while leaving some information. .

しかし、k−匿名化技術を適用したからといって、開示してもプライバシー問題がない表に変更されるとは限らない。   However, just because the k-anonymization technology is applied does not necessarily change to a table that does not have a privacy problem even if disclosed.

上で述べた例では、例えば企画部42歳で「普通」と回答した次郎さんが図3のデータを見た場合、自分のレコードは2番目であるから企画部26歳の太郎さんのレコードは1番目か3番目か4番目であることが分かる。そうすると、太郎さんが不満と回答していることが分かってしまう。これは、(部署, 年齢)=(企画部/開発部,25/26/28/42)であるグループにおける回答の統計値{不満:3,普通:1}の偏りが大きいことによる。   In the example described above, for example, when Jiro who answered “normal” at the planning department 42 years old looks at the data in FIG. 3, his record is second, so the record of Mr. Taro 26 years old at the planning department is It turns out that it is 1st, 3rd, or 4th. Then, it turns out that Taro responded that he was dissatisfied. This is because there is a large bias in the statistical values {dissatisfaction: 3, normal: 1} of responses in the group where (department, age) = (planning department / development department, 25/26/28/42).

このように、k−匿名化技術を適用した表を開示することは、少ないレコード数での統計値を複数開示することに相当し、偏りの大きい統計値が生じやすい。   Thus, disclosing a table to which the k-anonymization technique is applied corresponds to disclosing a plurality of statistical values with a small number of records, and a statistical value with a large bias tends to occur.

また、プライバシー情報となる属性の値の偏りを小さくするk−匿名化技術として、l−多様性を満たすk−匿名化技術がある。   Moreover, there is a k-anonymization technique that satisfies l-diversity as a k-anonymization technique that reduces the bias of attribute values that serve as privacy information.

l−多様性とは、k−匿名化により作られる各グループ(プライバシー上あまり問題とならない属性の値が全て同じレコード群)のプライバシー情報となる属性の統計に、l種類以上の属性値が含まれる性質である。例えば、図3のデータは2−多様性を満たす。なぜなら、(部署,年齢)=(企画部/開発部,25/26/28/42)であるグループの回答は不満と普通の2種類があり、(部署,年齢)=(管理部/営業部,24/35/36/44)であるグループの回答は不満と普通と満足の3種類があり、他にグループはないからである。   l-diversity is an attribute statistic that is privacy information for each group created by k-anonymization (records with the same attribute values that do not cause much privacy). It is a property. For example, the data in FIG. 3 satisfies 2-diversity. Because there are two types of responses, dissatisfied and normal, (Department, Age) = (Management Department / Sales Department), (Department, Age) = (Planning Department / Development Department, 25/26/28/42) , 24/35/36/44), there are three types of responses, dissatisfied, normal and satisfied, and there are no other groups.

図3のデータは2−多様性を満たすが、上で述べたようにプライバシー保護が不十分である。よって、一般的に 2−多様性を満たすだけではプライバシー保護が不十分であるといえる。   The data in FIG. 3 satisfies 2-diversity, but as mentioned above, privacy protection is insufficient. Therefore, it can be said that privacy protection is generally insufficient simply by satisfying 2-diversity.

そこでl≧3とすることが考えられるが、lを大きくすると開示できる情報が少なくなるという問題がある。   Therefore, it is conceivable that l ≧ 3. However, there is a problem that if l is increased, less information can be disclosed.

図4は図2に示すデータに対してl−多様性(l=3)を満たすk−匿名化技術(k=4)を適用し、データを変更した例である。この表を開示しても、自身の回答以外は、誰がどんな回答をしたのか誰にも一意に決められない。   FIG. 4 shows an example in which the data shown in FIG. 2 is changed by applying k-anonymization technology (k = 4) that satisfies l-diversity (l = 3). Even if this table is disclosed, no one can uniquely determine who made what other than his own.

しかし、図4の表からは、もはや全体の統計値以上に意味がありそうな情報を得るのが難しい。たとえば、開発部は(平均より)不満率が高いとか、若い者は不満率が高いといった情報は得られない。   However, from the table in FIG. 4, it is difficult to obtain information that seems to be more meaningful than the overall statistics. For example, the development department cannot get information that the dissatisfaction rate is higher (than the average) or that young people have a high dissatisfaction rate.

このように、l−多様性を満たすk−匿名化技術は、得られる情報を多くするには l を小さくしたいが、l≦2にするとプライバシー保護が不十分の場合があるという問題がある。   As described above, the k-anonymization technique satisfying l-diversity has a problem that privacy protection may be insufficient when l ≦ 2 although it is desired to reduce l in order to increase the obtained information.

また、別の技術として、従来から、プライバシー上あまり問題とならない属性の値を確率的に変更することで、開示してもプライバシー上あまり問題とならない表にする、撹乱技術がある。しかしながら、このような技術を用いると、誰がどんな回答をしたのか推定するのは難しいが、もはや全体の統計値以上に意味がありそうな情報を得るのが難しい。すなわち、開発部は不満率が高いとか、若い者は不満率が高いといった情報は得られない。確率的な情報を得ることができるはずだが、その確率を計算するのは難しく、計算できたとしても多くの情報は望めないと考えられる。   As another technique, conventionally, there is a disturbance technique in which the value of an attribute that does not cause much privacy is probabilistically changed to a table that does not cause much privacy even if disclosed. However, using such a technique, it is difficult to estimate who answered what, but it is difficult to obtain information that is more meaningful than the overall statistics. In other words, there is no information that the development department has a high dissatisfaction rate or that young people have a high dissatisfaction rate. Although probabilistic information should be obtained, it is difficult to calculate the probability, and even if it can be calculated, it is thought that a lot of information cannot be expected.

特開2011−128862号公報JP 2011-128862 A 特開2011−100116号公報JP 2011-100116 A

L. Sweeney. Achieving k-Anonymity Privacy Protection using Generalization and Suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, Vol. 10, No. 5, pp. 571-588, 2002.L. Sweeney. Achieving k-Anonymity Privacy Protection using Generalization and Suppression.International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, Vol. 10, No. 5, pp. 571-588, 2002. K. LeFevre, D. J. DeWitt, R. Ramakrishnan. Incognito: Efficient Full-Domain k-Anonymity. In Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data, pp. 49-60, 2005.K. LeFevre, D. J. DeWitt, R. Ramakrishnan. Incognito: Efficient Full-Domain k-Anonymity. In Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data, pp. 49-60, 2005. K. LeFevre, D. J. DeWitt, R. Ramakrishnan. Mondrian Multidimensional k-Anonymity. In Proceedings of the 22nd International Conference on Data Engineering, pp. 25-, 2006.K. LeFevre, D. J. DeWitt, R. Ramakrishnan. Mondrian Multidimensional k-Anonymity. In Proceedings of the 22nd International Conference on Data Engineering, pp. 25-, 2006. A. Machanavajjhala, J. Gehrke, D. Kifer, M. Venkitasubramaniam. l-Diversity: Privacy Beyond k-Anonymity. ACM Transactions on Knowledge Discovery from Data, Vol. 1, Issue 1, Article No. 3, 2007.A. Machanavajjhala, J. Gehrke, D. Kifer, M. Venkitasubramaniam. L-Diversity: Privacy Beyond k-Anonymity. ACM Transactions on Knowledge Discovery from Data, Vol. 1, Issue 1, Article No. 3, 2007.

従って、本技術の目的は、一側面によれば、元の値の出現分布の傾向を残しつつプライバシー保護を行う技術を提供することである。   Accordingly, an object of the present technology is, according to one aspect, to provide a technology that protects privacy while leaving a tendency of an appearance distribution of original values.

本技術に係る情報処理方法は、(A)複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、レコードの数の分布が、偏りが大きいことを表す条件を満たしているか判断するステップと、(B)レコードの数の分布が、偏りが大きいことを表す条件を満たしている場合には、複数のレコードのうち少なくとも1のレコードにおける第1の属性の属性値を、曖昧化データに置換し、データ格納部に格納するステップとを含む。   The information processing method according to the present technology includes (A) the attribute of the first attribute among the plurality of records for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. A step of determining whether or not the distribution of the number of records satisfies a condition indicating that the deviation is large from data stored in the data storage unit in which the number of records in which the value appears is stored; If the distribution of the number satisfies the condition indicating that the bias is large, the attribute value of the first attribute in at least one of the plurality of records is replaced with the ambiguous data, and the data storage unit And storing in the.

元の値の出現分布の傾向を残しつつプライバシー保護を行うことができる。   Privacy protection can be performed while leaving the trend of the appearance distribution of the original values.

図1は、背景技術を説明するための図である。FIG. 1 is a diagram for explaining the background art. 図2は、背景技術を説明するための図である。FIG. 2 is a diagram for explaining the background art. 図3は、背景技術を説明するための図である。FIG. 3 is a diagram for explaining the background art. 図4は、背景技術を説明するための図である。FIG. 4 is a diagram for explaining the background art. 図5は、第1の実施の形態における情報処理装置の機能ブロック図である。FIG. 5 is a functional block diagram of the information processing apparatus according to the first embodiment. 図6は、頻度表の一例を示す図である。FIG. 6 is a diagram illustrating an example of a frequency table. 図7は、第1の実施の形態に係る処理の処理フローを示す図である。FIG. 7 is a diagram illustrating a processing flow of processing according to the first embodiment. 図8は、変更後の頻度表の一例を示す図である。FIG. 8 is a diagram illustrating an example of the frequency table after the change. 図9は、変更後のレコード群の一例を示す図である。FIG. 9 is a diagram illustrating an example of the record group after the change. 図10は、第2の実施の形態における情報処理装置の機能ブロック図である。FIG. 10 is a functional block diagram of the information processing apparatus according to the second embodiment. 図11は、第2の実施の形態におけるメインの処理フローを示す図である。FIG. 11 is a diagram illustrating a main processing flow in the second embodiment. 図12は、レコード群の一例を示す図である。FIG. 12 is a diagram illustrating an example of a record group. 図13は、第2の実施の形態における頻度表の一例を示す図である。FIG. 13 is a diagram illustrating an example of a frequency table according to the second embodiment. 図14は、曖昧化処理の処理フローを示す図である。FIG. 14 is a diagram illustrating a processing flow of the obfuscation processing. 図15は、確率算出処理の処理フローを示す図である。FIG. 15 is a diagram illustrating a processing flow of the probability calculation processing. 図16は、曖昧化処理の処理フローを示す図である。FIG. 16 is a diagram illustrating a processing flow of the obscuring processing. 図17は、変更後の頻度表の一例を示す図である。FIG. 17 is a diagram illustrating an example of the changed frequency table. 図18は、変更後の頻度表に従って変更されたレコード群の一例を示す図である。FIG. 18 is a diagram illustrating an example of a record group changed according to the changed frequency table. 図19は、変更後の頻度表の他の例を示す図である。FIG. 19 is a diagram illustrating another example of the changed frequency table. 図20は、変更後の頻度表に従って変更されたレコード群の一例を示す図である。FIG. 20 is a diagram illustrating an example of a record group changed according to the changed frequency table. 図21は、変更後の元データの一例を示す図である。FIG. 21 is a diagram illustrating an example of the original data after the change. 図22は、第3の実施の形態に係る曖昧化処理の処理フローを示す図である。FIG. 22 is a diagram illustrating a processing flow of the obfuscation processing according to the third embodiment. 図23は、第3の実施の形態に係る曖昧化処理で処理されたデータの一例を示す図である。FIG. 23 is a diagram illustrating an example of data processed in the obfuscation process according to the third embodiment. 図24は、コンピュータの機能ブロック図である。FIG. 24 is a functional block diagram of a computer.

[実施の形態1]
本実施の形態に係る情報処理装置の構成例を図5に示す。図5に示すように、情報処理装置100は、第1データ格納部110と、判断部120と、曖昧化処理部130と、第2データ格納部140とを有する。
[Embodiment 1]
FIG. 5 shows a configuration example of the information processing apparatus according to this embodiment. As illustrated in FIG. 5, the information processing apparatus 100 includes a first data storage unit 110, a determination unit 120, an ambiguity processing unit 130, and a second data storage unit 140.

第1データ格納部110は、例えば図6に示すように、あるレコード群についてプライバシー情報となるため曖昧化対象の属性について、当該レコード群において出現する属性値毎にその出現頻度が格納されている。図6の例では、値「不満」の出現頻度が「3」であり、値「普通」の出現頻度が「1」である。このようなデータを、頻度表と呼ぶことにする。また、第1データ格納部110は、属性値として取り得る値の種類mの値についても格納する。   For example, as shown in FIG. 6, the first data storage unit 110 becomes privacy information for a certain record group, and therefore, for the attribute to be obfuscated, the appearance frequency is stored for each attribute value that appears in the record group. . In the example of FIG. 6, the appearance frequency of the value “unsatisfied” is “3”, and the appearance frequency of the value “normal” is “1”. Such data is called a frequency table. The first data storage unit 110 also stores values of the value type m that can be taken as attribute values.

判断部120は、第1データ格納部110に格納されている頻度表を基に、出現頻度の分布に偏りが発生しているか判断する。判断部120が偏り発生を検出すると、曖昧化処理部130に処理を指示する。曖昧化処理部130は、判断部120からの指示に応じて、第2データ格納部140に格納されているレコード群(第1データ格納部110に格納されているデータの元データ)の少なくとも1つのレコードにおける曖昧化対象の属性の属性値を、曖昧化データで置換し、置換結果を第2データ格納部140に格納する。   Based on the frequency table stored in the first data storage unit 110, the determination unit 120 determines whether there is a bias in the appearance frequency distribution. When the determination unit 120 detects the occurrence of bias, the determination unit 120 instructs the obscuration processing unit 130 to perform processing. In accordance with an instruction from the determination unit 120, the ambiguity processing unit 130 is at least one of a record group (original data of data stored in the first data storage unit 110) stored in the second data storage unit 140. The attribute value of the attribute to be obfuscated in one record is replaced with the obfuscation data, and the replacement result is stored in the second data storage unit 140.

次に、本実施の形態に係る情報処理装置100の処理内容について、図7を用いて説明する。まず、判断部120は、第1データ格納部110から処理対象のレコードについての頻度表を読み出す(ステップS1)。そして、判断部120は、頻度表から、出現頻度の分布に偏りが大きいか判断する(ステップS3)。   Next, processing contents of the information processing apparatus 100 according to the present embodiment will be described with reference to FIG. First, the determination unit 120 reads a frequency table for a record to be processed from the first data storage unit 110 (step S1). Then, the determination unit 120 determines whether the appearance frequency distribution is largely biased from the frequency table (step S3).

例えば、頻度表において2種類しか属性値が出現しておらず且つ出現頻度が少ない方の属性値の出現頻度が1又は2となっている場合、又は1種類しか属性値が出現していない場合には、出現頻度の分布に偏りが大きいと判断する。回答者自身が結果を見る場合には、他の回答者の回答を一意に識別できないようにするためには、このような条件を採用する。また、この場合には、ステップS5では、多くとも2つのレコードの属性値を曖昧化する。   For example, when only two types of attribute values appear in the frequency table and the appearance frequency of the attribute value with the lower appearance frequency is 1 or 2, or when only one type of attribute value appears Therefore, it is determined that the distribution of the appearance frequency is largely biased. When the respondent himself / herself sees the result, such a condition is adopted in order to make it impossible to uniquely identify the answers of other respondents. In this case, in step S5, attribute values of at most two records are obscured.

また、回答した人が結果を見ないという前提がある場合には、例えば、頻度表において2種類しか属性値が出現しておらず且つ出現頻度が少ない方の属性値の出現頻度が1となっている場合、又は1種類しか属性値が出現していない場合に、出現頻度の分布に偏りが大きいと判断する。このような場合には、ステップS5では、多くとも1つのレコードの属性値を曖昧化する。   If there is a premise that the responding person does not see the result, for example, only two types of attribute values appear in the frequency table, and the appearance frequency of the attribute value with the lower appearance frequency is 1. If only one type of attribute value appears, it is determined that the distribution of the appearance frequency is largely biased. In such a case, in step S5, the attribute value of at most one record is obscured.

このほかにも予め基準を設定しておき、出現頻度の偏りを表す指標値が、予め設定されている基準以上であれば、出現頻度の偏りが大きいと判断する。   In addition to this, a reference is set in advance, and if the index value representing the appearance frequency deviation is equal to or greater than the preset reference, it is determined that the appearance frequency deviation is large.

出現頻度の分布に偏りが大きいと判断されなかった場合には処理を終了する。一方、出現頻度の分布に偏りが大きいと判断された場合には、判断部120は、曖昧化処理部130に処理を指示する。曖昧化処理部130は、判断部120からの指示に応じて、出現頻度の偏りに応じて頻度表における1以上の属性値を確率的に曖昧化する(ステップS5)。曖昧化処理部130は、変更後の頻度表を、第1データ格納部110に格納する。   If it is not determined that the appearance frequency distribution is largely biased, the process ends. On the other hand, when it is determined that the distribution of appearance frequencies is largely biased, the determination unit 120 instructs the obscuration processing unit 130 to perform processing. In accordance with the instruction from the determination unit 120, the ambiguity processing unit 130 probabilistically obfuscates one or more attribute values in the frequency table in accordance with the appearance frequency bias (step S5). The ambiguity processing unit 130 stores the changed frequency table in the first data storage unit 110.

例えば、本実施の形態では、例えば出現頻度の偏り(例えば2種類しか属性値が出現しておらず且つ出現頻度が少ない方の属性値の出現頻度が1である場合、2である場合)及びnに応じて複数の曖昧化態様が用意されている。そして、各曖昧化態様においては、例えばmと出現頻度の総和nの値とに応じて決定される確率に応じて、1又は2の属性値を曖昧化データに置換する複数のパターンのいずれかを選択する。なお、1種類しか属性値が出現しない場合には出現頻度の分布に偏りが大きいと言えるが、曖昧化できるのはその1種類の属性値しかないので、そのままその属性値を曖昧化することになる。   For example, in the present embodiment, for example, the appearance frequency is biased (for example, when only two types of attribute values appear and the appearance frequency of the attribute value with the lower appearance frequency is 1, the case is 2) and A plurality of obscuring modes are prepared according to n. And in each obfuscation mode, for example, one of a plurality of patterns that replace the attribute value of 1 or 2 with the obfuscation data according to the probability determined according to the value of m and the sum n of the appearance frequencies. Select. If only one type of attribute value appears, it can be said that the distribution of the appearance frequency is largely biased. However, since only one type of attribute value can be obscured, the attribute value is obscured as it is. Become.

例えば、図6に示すように出現している属性値が不満と普通の2種類で、出現頻度が少ない方である普通の出現頻度が1である場合、m=3でn=4であれば、1つの曖昧化態様として、以下のような曖昧化パターンを規定しておく。
A:確率11%で、不満1レコードと普通1レコードを曖昧化
B:それ以外(89%)で、不満1レコードを曖昧化
For example, as shown in FIG. 6, when there are two types of attribute values that appear, dissatisfied and normal, and the normal appearance frequency that is the lower appearance frequency is 1, if m = 3 and n = 4 The following obscuration pattern is defined as one obscuration mode.
A: Ambiguity of 1 record of dissatisfaction and 1 record of ordinary with 11% probability B: Disambiguation of 1 record of dissatisfaction with other (89%)

従って、曖昧化処理部130は、乱数を発生させて、パターンA又はBを選択して、頻度表を変更する。例えば、パターンBが選択された場合には、頻度表は図8に示すように変更される。図8の例では、曖昧化データとして「?」が用いられている。このように、どのような属性値かを特定できないようなデータに置換する。但し、「?」だけではなく、元の値の確率分布情報を含むようにしても良い。具体的には、この例では(不満=57%,普通=43%)というデータをも含むようにしても良い。   Therefore, the ambiguity processing unit 130 generates a random number, selects the pattern A or B, and changes the frequency table. For example, when the pattern B is selected, the frequency table is changed as shown in FIG. In the example of FIG. 8, “?” Is used as the ambiguous data. In this way, the attribute value is replaced with data that cannot be specified. However, not only “?” But also the probability distribution information of the original value may be included. Specifically, in this example, the data (dissatisfaction = 57%, normal = 43%) may be included.

その後、曖昧化処理部130は、第2データ格納部140に格納されているレコード群の一部のレコードを、変更後の頻度表に従って変更し、変更後のレコードを第2データ格納部140に格納する(ステップS7)。図8に示すような頻度表に変更する場合には、属性値「不満」のレコードを1つ選択して曖昧化データに置換する。上で述べた例では、図3の1行目から4行目についての頻度表を処理していたので、図3の1行目から4行目が変更対象であり、その中で曖昧化対象の属性「回答」の属性値「不満」の3レコードのいずれかをランダムに選択して、曖昧化データに置換する。例えば、図9に示すようなデータに変更される。図9の例では、上で述べたように、図3の1行目から4行目のうち3行目のレコードの属性「回答」の属性値「不満」が「?(不満=57%,普通=43%)」に置換されている。   Thereafter, the ambiguity processing unit 130 changes some records of the record group stored in the second data storage unit 140 according to the changed frequency table, and the changed records are stored in the second data storage unit 140. Store (step S7). When changing to the frequency table as shown in FIG. 8, one record with the attribute value “dissatisfied” is selected and replaced with the ambiguous data. In the example described above, since the frequency table for the first to fourth lines in FIG. 3 is processed, the first to fourth lines in FIG. One of the three records having the attribute value “dissatisfied” of the attribute “answer” is randomly selected and replaced with the ambiguous data. For example, the data is changed as shown in FIG. In the example of FIG. 9, as described above, the attribute value “dissatisfied” of the attribute “answer” of the third line of the first to fourth lines of FIG. 3 is “? (Dissatisfaction = 57%, Normal = 43%) ”.

このようにすれば、回答者が図9の結果を見たとしても、他の回答者がどのように回答したかを一意に特定できない。一方、「企画部/開発部」は不満の数又は割合が高い傾向があることも把握できる。すなわち、出現頻度に偏りが大きい場合であっても、元の値の出現頻度の傾向を保持しつつプライバシー保護が図られるようになる。   In this way, even if the respondent sees the result of FIG. 9, it is not possible to uniquely identify how other respondents answered. On the other hand, the “planning department / development department” can also grasp that the number or ratio of dissatisfaction tends to be high. That is, even when the appearance frequency is largely biased, privacy protection can be achieved while maintaining the tendency of the appearance frequency of the original value.

なお、頻度表を変更することなく、ステップS7でいずれの属性値を曖昧化データに置換するかを決定できれば、直接レコードにおける曖昧化対象の属性の属性値を曖昧化データに置換しても良い。   It should be noted that the attribute value of the attribute to be obfuscated in the direct record may be replaced with the ambiguous data as long as it can be determined in step S7 which attribute value is to be replaced with the ambiguous data without changing the frequency table. .

[実施の形態2]
本実施の形態に係る情報処理装置の構成例を、図10に示す。図10に示すように、情報処理装置200は、第1データ格納部210と、k−匿名化処理部220と、グループ化処理部230と、出力部240と、入力部250と、曖昧化処理部260と、第2データ格納部270とを有する。
[Embodiment 2]
FIG. 10 shows a configuration example of the information processing apparatus according to this embodiment. As illustrated in FIG. 10, the information processing device 200 includes a first data storage unit 210, a k-anonymization processing unit 220, a grouping processing unit 230, an output unit 240, an input unit 250, and an ambiguity process. Unit 260 and a second data storage unit 270.

第1データ格納部210には、処理の対象となるレコード群が格納されている。k−匿名化処理部220は、第1データ格納部210に格納されているレコード群について、よく知られたk−匿名化処理を実施する。   The first data storage unit 210 stores a group of records to be processed. The k-anonymization processing unit 220 performs a well-known k-anonymization process on the record group stored in the first data storage unit 210.

入力部250は、プライバシー保護上あまり問題とならない属性と、ユーザから曖昧化対象の属性及びその属性の取り得る属性値の種類数mの組み合わせの入力を受け付け、第1データ格納部210に格納する。   The input unit 250 accepts an input of a combination of an attribute that does not matter much in terms of privacy protection and an obfuscation target attribute and the number m of attribute values that the attribute can take, and stores the input in the first data storage unit 210. .

グループ化処理部230は、k−匿名化処理後のレコード群について、プライバシー保護の上であまり問題のない属性の属性値が同じレコードをグループ化する。グループ化処理部230は、グループ化についてのデータを第1データ格納部210に格納する。   The grouping processing unit 230 groups records having the same attribute value with no problem in terms of privacy protection for the record group after the k-anonymization processing. The grouping processing unit 230 stores data regarding grouping in the first data storage unit 210.

曖昧化処理部260は、各グループについて、曖昧化処理を実施し、曖昧化の処理結果を第1データ格納部210に格納する。なお、曖昧化処理部260は、頻度表などの処理途中のデータについては第2データ格納部270に格納する。出力部240は、第1データ格納部210に格納されているデータを、出力装置(表示装置や印刷装置など)に出力する。   The obscuring processing unit 260 performs the obscuring processing for each group, and stores the obscuring processing result in the first data storage unit 210. Note that the obscuration processing unit 260 stores data in the middle of processing such as a frequency table in the second data storage unit 270. The output unit 240 outputs the data stored in the first data storage unit 210 to an output device (such as a display device or a printing device).

次に、図11乃至図21を用いて、情報処理装置200の処理内容を説明する。既に、入力部250は、ユーザから、第1データ格納部210に格納されているレコード群における曖昧化対象の属性及びその属性の取り得る属性値の種類数mの組み合わせの入力を受け付け、第1データ格納部210に格納しているものとする。例えば、レコード群において部署、年齢、アンケートの回答1及び回答2が属性となっており、部署及び年齢が、プライバシー保護をあまり問題としない属性として指定されているものとする。そして、プライバシー情報である曖昧化対象属性は回答1及び回答2とする。そして、回答1については、属性値「不満」、「普通」及び「満足」という3種類の取り得る属性値が存在しており、{回答1:3}というような入力がなされる。すなわち、回答1についてはm=3である。また、回答2についても、属性値「不満」、「普通」及び「満足」という3種類の取り得る属性値が存在しており、{回答2:3}というような入力がなされる。すなわち、回答2についても、m=3である。   Next, processing contents of the information processing apparatus 200 will be described with reference to FIGS. 11 to 21. The input unit 250 has already received an input from the user of a combination of the attribute to be obfuscated in the record group stored in the first data storage unit 210 and the number m of types of attribute values that the attribute can take. Assume that the data is stored in the data storage unit 210. For example, it is assumed that the department, age, and questionnaire responses 1 and 2 are attributes in the record group, and the department and age are designated as attributes that do not matter much about privacy protection. The obfuscation target attribute which is privacy information is assumed to be answer 1 and answer 2. For the answer 1, there are three possible attribute values of attribute values “dissatisfied”, “normal”, and “satisfied”, and an input such as {answer 1: 3} is made. That is, for answer 1, m = 3. Also, there are three possible attribute values for the answer 2, which are attribute values “dissatisfied”, “normal”, and “satisfied”, and an input such as {answer 2: 3} is made. That is, for answer 2, m = 3.

そして、k−匿名化処理部220は、第1データ格納部210に格納されているレコード群に対して、よく知られたk−匿名化処理を実施することで、プライバシー保護上あまり問題とならない属性の属性値がkレコード以上同じになるようにその属性値を変更し、変更後のデータを第1データ格納部210に格納する(図11:ステップS11)。本実施の形態では、この段階で図12に示すようなデータが第1データ格納部210に格納されているものとする。図12の例では、k=4であり、部署「製造部門」及び年齢「25−42」というレコードが4レコードになるように、そして部署「営業部門」及び年齢「24−44」というレコードが4レコードになるように、年齢属性の属性値が変更されている。   Then, the k-anonymization processing unit 220 performs a well-known k-anonymization process on the record group stored in the first data storage unit 210, so that there is not much problem in terms of privacy protection. The attribute value is changed so that the attribute value of the attribute is the same for k records or more, and the changed data is stored in the first data storage unit 210 (FIG. 11: step S11). In this embodiment, it is assumed that data shown in FIG. 12 is stored in the first data storage unit 210 at this stage. In the example of FIG. 12, k = 4, so that the record of the department “manufacturing department” and the age “25-42” becomes four records, and the record of the department “sales department” and the age “24-44” The attribute value of the age attribute is changed so as to be 4 records.

その後、グループ化処理部230は、第1データ格納部210に格納されているk−匿名化処理後のレコード群について、曖昧化対象属性以外の属性の属性値に基づき、レコードをグループ化する(ステップS13)。図12の例では、部署及び年齢の属性値が同じレコード同士を同じグループに分類する。上でも述べたように、部署「製造部門」及び年齢「25−42」という4レコードと、部署「営業部門」及び年齢「24−44」という4レコードとがグループとして特定され、グループ分けのデータが第1データ格納部210に格納される。例えば、レコード1乃至4が第1のグループであり、レコード5乃至8が第2のグループであることを表すデータが格納される。   Thereafter, the grouping processing unit 230 groups the records based on the attribute values of attributes other than the obfuscation target attribute for the record group after the k-anonymization processing stored in the first data storage unit 210 ( Step S13). In the example of FIG. 12, records having the same department and age attribute values are classified into the same group. As described above, the four records of the department “manufacturing department” and age “25-42” and the four records of the department “sales department” and age “24-44” are specified as a group, and data for grouping Is stored in the first data storage unit 210. For example, data indicating that records 1 to 4 are a first group and records 5 to 8 are a second group is stored.

その後、曖昧化処理部260は、第1データ格納部210に格納されているグループ分けのデータに基づき、未処理のグループを1つ特定する(ステップS15)。さらに、曖昧化処理部260は、未処理の曖昧化対象属性を1つ特定する(ステップS16)。そして、曖昧化処理部260は、特定されたグループ及び曖昧化対象属性について、頻度表を生成し、第2データ格納部270に格納する(ステップS17)。例えば、レコード1乃至4のグループの属性「回答1」について頻度表を生成すると、図13に示すような頻度表が得られる。   Thereafter, the ambiguity processing unit 260 identifies one unprocessed group based on the grouping data stored in the first data storage unit 210 (step S15). Furthermore, the obscuration processing unit 260 identifies one unprocessed obscuration target attribute (step S16). Then, the obfuscation processing unit 260 generates a frequency table for the specified group and the obfuscation target attribute, and stores it in the second data storage unit 270 (step S17). For example, when a frequency table is generated for the attribute “answer 1” of the group of records 1 to 4, a frequency table as shown in FIG. 13 is obtained.

そして、曖昧化処理部260は、曖昧化処理を実施する(ステップS19)。曖昧化処理については、図14乃至図21を用いて説明する。   Then, the obscuring processing unit 260 performs the obscuring processing (step S19). The obfuscation process will be described with reference to FIGS.

曖昧化処理部260は、第2データ格納部270から頻度表を読み出し、第1データ格納部210から、特定されたグループ及び曖昧化対象属性についての取り得る属性値の種類数mを読み出す(図14:ステップS31)。また、曖昧化処理部260は、変数nに頻度表における総頻度(出現頻度の総和)を設定する(ステップS33)。そして、曖昧化処理部260は、nが3以上であるか判断する(ステップS35)。nが3未満、すなわち1又は2の場合には、曖昧化処理部260は、頻度表において全ての要素を曖昧化する(ステップS37)。そのまま公開するには総頻度が低すぎてプライバシー保護が図れないため、いずれの属性値についても曖昧化データに置換する。例えば「?」に置換する。なお、確率分布情報を付加するようにしても良い。この場合には、各属性値について確率1/mずつというようなデータを付加する。処理は端子Bを介して図16のステップS65に移行する。   The obfuscation processing unit 260 reads the frequency table from the second data storage unit 270, and reads from the first data storage unit 210 the number m of attribute value types that can be taken for the specified group and the attribute to be obfuscated (see FIG. 14: Step S31). Further, the obscuration processing unit 260 sets the total frequency (total appearance frequency) in the frequency table for the variable n (step S33). Then, the ambiguity processing unit 260 determines whether n is 3 or more (step S35). When n is less than 3, that is, 1 or 2, the obscuring processing unit 260 obscures all elements in the frequency table (step S37). Since the total frequency is too low to publish as it is and privacy protection cannot be achieved, any attribute value is replaced with ambiguous data. For example, replace with “?”. Note that probability distribution information may be added. In this case, data with a probability of 1 / m is added for each attribute value. The process proceeds to step S65 in FIG.

一方、nが3以上であれば、曖昧化処理部260は、頻度表のレコード数が2であるか判断する(ステップS39)。頻度表のレコード数が2以外であれば、曖昧化処理部260は、頻度表のレコード数が1であるか判断する(ステップS41)。頻度表のレコード数が1以外、すなわち3以上である場合には、曖昧化データに置換しなくてもプライバシー保護上あまり問題とならないので、何もせず端子Cを介して、呼び出し元の処理に戻る。   On the other hand, if n is 3 or more, the ambiguity processing unit 260 determines whether the number of records in the frequency table is 2 (step S39). If the number of records in the frequency table is other than 2, the ambiguity processing unit 260 determines whether the number of records in the frequency table is 1 (step S41). When the number of records in the frequency table is other than 1, that is, 3 or more, there is no problem in terms of privacy protection without replacing with obfuscated data. Return.

一方、頻度表のレコード数が1であれば、曖昧化処理部260は、頻度表における唯一のレコードの出現頻度nのうち2つを曖昧化する(ステップS43)。このように取り得る属性値の種類がmであるにも拘わらず、1種類しか出現していない場合には、出現頻度に偏りが大きいと判断して、出現頻度nのうち2つを曖昧化データで置換する。そうすると、元々ある属性値の出現頻度がn−2となり、曖昧化データの出現頻度が2となる。曖昧化データは、例えば「?(a=確率P,a以外=(1−P)/(m−1)ずつ)」とする。aは、曖昧化データで置換した属性値であり、Pはn=4の場合には4/7、それ以外の場合には2/(n+1)である。これについては詳しくは以下で述べる。その後処理は端子Bを介して図16のステップS65に移行する。   On the other hand, if the number of records in the frequency table is 1, the obfuscation processing unit 260 obfuscates two of the appearance frequencies n of the only records in the frequency table (step S43). When only one type appears even though the type of attribute value that can be taken is m in this way, it is determined that there is a large bias in the appearance frequency, and two of the appearance frequencies n are obscured. Replace with data. Then, the appearance frequency of the original attribute value is n-2, and the appearance frequency of the ambiguous data is 2. The ambiguous data is, for example, “? (A = probability P, other than a = (1-P) / (m−1) each)”. a is an attribute value replaced with obfuscated data, and P is 4/7 when n = 4, and 2 / (n + 1) otherwise. This will be described in detail below. Thereafter, the processing shifts to step S65 in FIG.

また、頻度表のレコード数が2であれば、曖昧化処理部260は、頻度表においてレコードを出現頻度順に並べ替え、多い方をa、少ない方をbと設定する(ステップS45)。そして、曖昧化処理部260は、bの出現頻度は2以下であるか判断する(ステップS47)。bの出現頻度は3以上であれば、曖昧化データに置換しなくてもプライバシ保護上あまり問題とならないので、何もせず端子Cを介して、呼び出し元の処理に戻る。   If the number of records in the frequency table is 2, the obfuscation processing unit 260 rearranges the records in the frequency table in the order of appearance frequency, and sets a greater number as a and a smaller number as b (step S45). Then, the ambiguity processing unit 260 determines whether the appearance frequency of b is 2 or less (step S47). If the appearance frequency of b is 3 or more, there is no problem in privacy protection even if it is not replaced with obfuscated data, so nothing is done and the process returns to the caller process via terminal C.

一方、bの出現頻度が2であれば、曖昧化処理部260は、確率算出処理を実施する(ステップS49)。確率算出処理では、m及びnから、確率x及びpが算出される。処理は端子Aを介して図16のステップS51に移行する。   On the other hand, if the appearance frequency of b is 2, the ambiguity processing unit 260 performs a probability calculation process (step S49). In the probability calculation process, probabilities x and p are calculated from m and n. The process proceeds to step S51 in FIG.

確率算出処理について、図15を用いて説明する。但し、具体的な処理を説明する前に、n≧3の場合の考え方について説明する。   The probability calculation process will be described with reference to FIG. However, the concept in the case of n ≧ 3 will be described before describing specific processing.

まず、頻度表が{a:n}(属性値aの出現頻度がn)のとき、特定の人がaであることを他者に一意に決められないようにするには、少なくとも2個を曖昧化すると、プライバシー保護上問題が無くなる。一方、多くの情報を提示するため曖昧化は最小限にしたいので、{a:n−2,?:2}と曖昧化すべきである。「?」は曖昧化データである。   First, when the frequency table is {a: n} (the appearance frequency of the attribute value a is n), in order to prevent a specific person from uniquely determining that a specific person is a, at least two are used. If it becomes ambiguous, there will be no problem in privacy protection. On the other hand, since a lot of information is presented, we want to minimize ambiguity, so {a: n-2,? : 2} should be obscured. “?” Is obfuscated data.

{a:n−2,?:2}の元の頻度表が {a:n}であると決められないようにするために、確率x,y,p,qを次のように定める。
頻度表が{a:n−1,b:1}のとき、{a:n−2,?:2}とする確率をxとする。
頻度表が{a:n−1,b:1}のとき、{a:n−2,b:1,?:1}とする確率をyとする。
頻度表が{a:n−2,b:2}のとき、{a:n−2,?:2}とする確率をpとする。
頻度表が{a:n−2,b:2}のとき、{a:n−2,b:1,?:1}とする確率をqとする。
ここで、0≦x,0≦y,0≦p,0≦q,x+y≦1,p+q≦1である。
{A: n-2,? : 2} In order to prevent the original frequency table of {2: n} from being determined to be {a: n}, the probabilities x, y, p, and q are determined as follows.
When the frequency table is {a: n-1, b: 1}, {a: n-2,? : 2} is assumed to be x.
When the frequency table is {a: n-1, b: 1}, {a: n-2, b: 1,? : 1} is y.
When the frequency table is {a: n-2, b: 2}, {a: n-2 ,? : 2} is assumed to be p.
When the frequency table is {a: n-2, b: 2}, {a: n-2, b: 1,? : 1} is assumed to be q.
Here, 0 ≦ x, 0 ≦ y, 0 ≦ p, 0 ≦ q, x + y ≦ 1, and p + q ≦ 1.

このとき、取り得る属性値(a及びbなど)の出現確率を全て等しいとすると、{a:n−2,?:2}の元の頻度表が{a:n}である確率をA、bの人から見た時{a:n−2,?:2}の元の頻度表が{a:n−1,b:1}である確率をB、bの人から見た時{a:n−2,b:1,?:1}の頻度表が{a:n−1,b:1}である確率をCとすると、A,B及びCは、以下の式で表される。なお、v=m−1である。   At this time, if the appearance probabilities of possible attribute values (such as a and b) are all equal, {a: n−2,? : 2} When the probability that the original frequency table of {a: n} is {a: n-2 ,? : 2} when the probability that the original frequency table of {a: n-1, b: 1} is viewed from the persons B and b {a: n-2, b: 1 ,? : 1}, where C is the probability that the frequency table is {a: n−1, b: 1}, A, B and C are expressed by the following equations. Note that v = m−1.

Figure 2013125374
Figure 2013125374

このとき、{a:n−2,?:2}の元の頻度表で2つの?に対応するaの個数の期待値をE、{a:n−2,b:1,?:1}の元の頻度表で?がaである確率をPとすると、それらは次の式となる。   At this time, {a: n-2,? : 2} in the original frequency table? The expected value of the number of a corresponding to E, {a: n-2, b: 1,? : 1} in the original frequency table? If the probability that A is a is P, they are as follows.

Figure 2013125374
Figure 2013125374

プライバシー保護を最大限にするため、A=B=C且つその値が最小となるx,y,p,qを求めることを考える。なお、A,B,Cのいずれかが1になると、特定の人がaであることが他者に一意に決められてしまう。   In order to maximize privacy protection, consider obtaining x, y, p, and q where A = B = C and the value is minimized. When any one of A, B, and C is 1, it is uniquely determined by the other person that the specific person is a.

A=B=Cより、pは次の式によりxで表される。   From A = B = C, p is represented by x by the following equation.

Figure 2013125374
Figure 2013125374

ここで、n≧5の場合、x+y=p+q=1のときA,B,Cは最小になり、x,A,P,Eは次の式になる。   Here, when n ≧ 5, when x + y = p + q = 1, A, B, and C are minimum, and x, A, P, and E are as follows.

Figure 2013125374
Figure 2013125374

n=4の場合、{a:2,b:2}を曖昧化する際、{a:2,?:2}と{b:2,?:2}、{a:2,b:1,?:1}と{a:1,b:2,?:1}の確率をそれぞれ等しくしたいため、x+y=1,p+q=1/2の時、A,B,Cは最小になり、x,
A,P,Eは次の式になる。
When n = 4, when obscuring {a: 2, b: 2}, {a: 2,? : 2} and {b: 2 ,? : 2}, {a: 2, b: 1,? : 1} and {a: 1, b: 2,? : 1} to equalize, respectively, when x + y = 1 and p + q = 1/2, A, B, and C are minimized, and x,
A, P, and E are as follows.

Figure 2013125374
Figure 2013125374

n=3の場合、n=4の場合と同じように対称性を考え、x+y+p=1,q=yとし、x,A,P,Eは次の式になる。   In the case of n = 3, symmetry is considered in the same manner as in the case of n = 4, x + y + p = 1, q = y, and x, A, P, E are as follows.

Figure 2013125374
Figure 2013125374

以上のような考え方からすると、図15に示すような処理を実施する。すなわち、曖昧化処理部260は、v=m−1と設定する(ステップS61)。そして、曖昧化処理部260は、n=4であるか判断する(ステップS63)。n=4であれば、上で述べたように、曖昧化処理部260は、x=3/14v及びP=4/7を算出する(ステップS67)。処理はステップS69に移行する。一方、n=4以外であれば、上で述べたように、曖昧化処理部260は、x=2(n−1)/(vn(n+1))及びP=2/(n+1)を算出する(ステップS65)。そして処理はステップS69に移行する。   From the above view, the processing as shown in FIG. 15 is performed. That is, the ambiguity processing unit 260 sets v = m−1 (step S61). Then, the ambiguity processing unit 260 determines whether n = 4 (step S63). If n = 4, as described above, the ambiguity processing unit 260 calculates x = 3 / 14v and P = 4/7 (step S67). The process proceeds to step S69. On the other hand, if other than n = 4, as described above, the ambiguity processing unit 260 calculates x = 2 (n−1) / (vn (n + 1)) and P = 2 / (n + 1). (Step S65). Then, the process proceeds to step S69.

そして、曖昧化処理部260は、p=2vnx2/((n−1)(2−vnx))を算出する(ステップS69)。そして呼び出し元の処理に戻る。 Then, the ambiguity processing unit 260 calculates p = 2vnx 2 / ((n−1) (2-vnx)) (step S69). Then, the process returns to the calling process.

なお、図14の処理では、総頻度nが2以下というように少ない場合、nは3以上でも出現する属性値の数が1である場合に、プライバシー保護を図るために画一的に曖昧化する曖昧化態様を示している。   In the process of FIG. 14, when the total frequency n is as small as 2 or less, even when n is 3 or more and the number of appearing attribute values is 1, it is uniformly obscured to protect privacy. The obscuration mode is shown.

次に、図16を用いて端子A以降の処理を説明する。図16では、最も少ない出現頻度の属性値の出現頻度が1の場合と2の場合といった出現頻度の偏りとnに従って、複数の曖昧化態様のいずれかを選択するようになっており、各曖昧化態様では、図15で算出した確率x及びpに従って確率的に複数の曖昧化パターンのうちいずれかを選択するようになっている。   Next, the processing after the terminal A will be described with reference to FIG. In FIG. 16, one of a plurality of ambiguities is selected according to the appearance frequency bias and n when the appearance frequency of the attribute value having the lowest appearance frequency is 1 and 2. In the conversion mode, one of a plurality of obscuring patterns is selected stochastically according to the probabilities x and p calculated in FIG.

すなわち、曖昧化処理部260は、bの出現頻度が2であるか判断する(ステップS51)。bの出現頻度が2ではない、すなわち1であれば、曖昧化処理部260は、n=3であるか判断する(ステップS53)。n=3であれば、曖昧化処理部260は、乱数により、以下の曖昧化パターンのいずれかを選択して、実行する(ステップS57)。すなわち、(1)確率xで、a1個と、b1個を曖昧化する。この場合、bの出現頻度は1であるが、このbも曖昧化されて{a:1,?:2}となるので、確率分布情報については、「a=確率1/2(=2/(3+1))、a以外=確率(1−1/2)/vずつ」という情報となる。(2)確率pで、a2個を曖昧化する。この場合、{b:1,?:2}となるので、確率分布情報については、「b=確率1/2、b以外=確率(1−1/2)/vずつ」という情報となる。(3)それ以外で、a1個を曖昧化する。この場合、{a:1,b:1,?:1}となるので、「a=確率1/2、b=確率1/2(=1−1/2)」という情報となる。そして処理はステップS65に移行する。   That is, the ambiguity processing unit 260 determines whether the appearance frequency of b is 2 (step S51). If the appearance frequency of b is not 2, that is, 1, the obfuscation processing unit 260 determines whether n = 3 (step S53). If n = 3, the obscuring processing unit 260 selects and executes one of the following obscuring patterns using a random number (step S57). That is, (1) obscure a1 and b1 with probability x. In this case, the appearance frequency of b is 1, but this b is also obscured and {a: 1,? : 2}, the probability distribution information is information “a = probability 1/2 (= 2 / (3 + 1)), other than a = probability (1-1 / 2) / v each”. (2) Obscure a2 with probability p. In this case, {b: 1,? : 2}, the probability distribution information is information “b = probability 1/2, other than b = probability (1-1 / 2) / v each”. (3) Otherwise, obscure a1. In this case, {a: 1, b: 1,? 1}, the information is “a = probability ½, b = probability ½ (= 1−1 / 2)”. Then, the process proceeds to step S65.

一方、n=3以外の場合(n=4以上)には、曖昧化処理部260は、乱数により、以下の曖昧化パターンのいずれかを選択し、実行する(ステップS55)。すなわち、(1)確率xで、a1個とb1個を曖昧化する。この場合、bの出現頻度は1であるが、このbも曖昧化されて{a:n−2,?:2}となるので、確率分布情報については、m=5以上であれば「a=確率2/(n+2)、a以外=確率(1−2/(n+2))/vずつ」という情報となる。m=4であれば「a=確率4/7、a以外=確率(1−4/7)/vずつ」という情報になる。(2)それ以外で、a1個を曖昧化する。この場合、{a:n−2,b:1,?:1}となるので、確率分布情報については、「a=確率1/2、b=確率1/2(=1−1/2)」という情報となる。そして処理はステップS65に移行する。   On the other hand, when n is not 3 (n = 4 or more), the obscuration processing unit 260 selects and executes one of the following obscuration patterns using a random number (step S55). That is, (1) obscure a1 and b1 with probability x. In this case, the appearance frequency of b is 1, but this b is also obscured and {a: n-2,? Therefore, the probability distribution information is “a = probability 2 / (n + 2), other than a = probability (1-2 / (n + 2)) / v each” if m = 5 or more. Become. If m = 4, the information is “a = probability 4/7, other than a = probability (1-4 / 7) / v”. (2) Otherwise, obscure a1. In this case, {a: n-2, b: 1,? 1}, the probability distribution information is “a = probability 1/2, b = probability 1/2 (= 1−1 / 2)”. Then, the process proceeds to step S65.

また、bの出現頻度が2であれば、曖昧化処理部260は、n=4であるか判断する(ステップS59)。n=4であれば、曖昧化処理部260は、乱数により、以下の曖昧化パターンのいずれかを選択し、実行する(ステップS63)。すなわち、(1)確率pで、a2個を曖昧化する。この場合、{b:2,?:2}となるので、確率分布情報については、「b=確率4/7、b以外=確率(1−4/7)/vずつ」という情報となる。(2)確率pで、b2個を曖昧化する。この場合、{a:n−2,?:2}となるので、確率分布情報については、「a=確率4/7、a以外=確率(1−4/7)/vずつ」という情報となる。(3)確率0.5−pで、a1個を曖昧化する。この場合、{a:1,b:2,?:1}となるので、確率分布情報については、「b=確率4/7、a=確率3/7(=1−4/7)」という情報となる。(4)それ以外で、b1個を曖昧化する。この場合、{a:2,b:1,?:1}となるので、確率分布情報については、「a=確率4/7、b=確率3/7(=1−4/7)」という情報となる。そして処理はステップS65に移行する。   If the appearance frequency of b is 2, the ambiguity processing unit 260 determines whether n = 4 (step S59). If n = 4, the obscuring processing unit 260 selects and executes one of the following obscuring patterns using a random number (step S63). That is, (1) The a2 items are obscured with probability p. In this case, {b: 2 ,? : 2}, the probability distribution information is “b = probability 4/7, other than b = probability (1−4 / 7) / v”. (2) Obscure b2 with probability p. In this case, {a: n-2,? : 2}, the probability distribution information is information “a = probability 4/7, other than a = probability (1-4 / 7) / v”. (3) Obscure a1 with probability 0.5-p. In this case, {a: 1, b: 2,? 1}, the probability distribution information is “b = probability 4/7, a = probability 3/7 (= 1−4 / 7)”. (4) Otherwise, obscure b1. In this case, {a: 2, b: 1,? 1}, the probability distribution information is information “a = probability 4/7, b = probability 3/7 (= 1−4 / 7)”. Then, the process proceeds to step S65.

一方、n=4以外の場合(n=5以上)、曖昧化処理部260は、乱数により、以下の曖昧化パターンのいずれかを選択し、実行する(ステップS61)。すなわち、(1)確率pで、b2個を曖昧化する。この場合、{a:n−2,?:2}となるので、確率分布情報については、「a=確率2/(n+1)、a以外=確率(1−2/(n+1))/vずつ」という情報となる。(2)それ以外で、b1個を曖昧化する。この場合、{a:n−2,b:1,?:1}となるので、確率分布情報については、「a=確率2/(n+1)、b=確率1−2(n+1)」という情報になる。そして処理はステップS65に移行する。   On the other hand, when other than n = 4 (n = 5 or more), the obscuration processing unit 260 selects and executes one of the following obscuration patterns using a random number (step S61). That is, (1) b2 items are obscured with probability p. In this case, {a: n-2,? : 2}, the probability distribution information is information that “a = probability 2 / (n + 1), other than a = probability (1-2 / (n + 1)) / v each”. (2) Otherwise, obscure b1. In this case, {a: n-2, b: 1,? 1}, the probability distribution information is “a = probability 2 / (n + 1), b = probability 1-2 (n + 1)”. Then, the process proceeds to step S65.

その後、曖昧化処理部260は、変更後の頻度表を、第2データ格納部270に格納する(ステップS65)。そして、呼び出し元の処理に戻る。   Thereafter, the ambiguity processing unit 260 stores the changed frequency table in the second data storage unit 270 (step S65). Then, the process returns to the caller process.

図11の処理の説明に戻って、曖昧化処理部260は、第2データ格納部270に変更後の頻度表が格納されている場合には、変更前の頻度表との差を、第1データ格納部210に格納されており且つステップS15で特定されたグループに属するレコード群の属性値を変更する(ステップS21)。そして、曖昧化処理部260は、未処理の曖昧化対象属性が存在するか判断する(ステップS22)。未処理の曖昧化対象属性が存在する場合には、ステップS16に戻る。一方、未処理の曖昧化対象属性が存在しない場合には、曖昧化処理部260は、未処理のグループが存在するか判断する(ステップS23)。未処理のグループが存在する場合には、ステップS15に戻る。一方、未処理のグループが存在しない場合には、出力部240は、第1データ格納部210に格納されている修正後の元データを、出力装置(例えば表示装置、印刷装置、又はネットワークで接続されている他のコンピュータなど)に出力する(ステップS25)。   Returning to the description of the processing in FIG. 11, when the frequency table after the change is stored in the second data storage unit 270, the ambiguity processing unit 260 calculates the difference from the frequency table before the change as the first frequency table. The attribute value of the record group that is stored in the data storage unit 210 and belongs to the group specified in step S15 is changed (step S21). Then, the obscuration processing unit 260 determines whether there is an unprocessed obscuration target attribute (step S22). If there is an unprocessed obfuscation target attribute, the process returns to step S16. On the other hand, when there is no unprocessed obfuscation target attribute, the obfuscation processing unit 260 determines whether there is an unprocessed group (step S23). If there is an unprocessed group, the process returns to step S15. On the other hand, when there is no unprocessed group, the output unit 240 connects the corrected original data stored in the first data storage unit 210 with an output device (for example, a display device, a printing device, or a network). To another computer that is being used (step S25).

例えば、図12の例でグループが部署「製造部門」且つ年齢「25−42」で、曖昧化対象属性「回答1」を処理対象とする場合、図13に示すような頻度表が得られる。このような場合、bの出力頻度は「1」で、n=4であるからステップS55の曖昧化態様が選択される。また、図15の処理フローからすると、x=3/28、p=3/56となる。そうすると、確率xで、a1個とb1個を曖昧化するか、それ以外でa1個を曖昧化する。後者が選択されると、図17に示すように頻度表が変更される。aは「不満」であるから、「不満」の出現頻度が1減少し、その分「?(不満=57%、普通=43%)」が追加される。このような変更後の頻度表によれば、図12の元データの関連部分は、図18に示すようになる。図18の例では、aである「不満」が回答1となっているレコードをランダムに1つ選択して、「?(不満=57%、普通=43%)」に変更する。   For example, in the example of FIG. 12, when the group is the department “manufacturing department” and the age is “25-42” and the ambiguity target attribute “answer 1” is the processing target, the frequency table as shown in FIG. 13 is obtained. In such a case, since the output frequency of b is “1” and n = 4, the obscuration mode in step S55 is selected. Further, according to the processing flow of FIG. 15, x = 3/28 and p = 3/56. Then, a1 and b1 are obfuscated with probability x, or a1 is obfuscated otherwise. When the latter is selected, the frequency table is changed as shown in FIG. Since a is “dissatisfied”, the appearance frequency of “dissatisfaction” is decreased by 1, and “? (dissatisfaction = 57%, normal = 43%)” is added accordingly. According to the frequency table after such change, the relevant portion of the original data in FIG. 12 is as shown in FIG. In the example of FIG. 18, one record in which “dissatisfied” is a response 1 is selected at random, and is changed to “? (Dissatisfied = 57%, normal = 43%)”.

一方、前者が選択されると、図19に示すように頻度表が変更される。この場合、「不満」の出現頻度が1減少し、「普通」の出現頻度は1だったのでレコード自体が消去される。このような変更後の頻度表によれば、図12の元データの関連部分は、図20に示すようになる。回答1が「普通」のレコードは1つだけなのでそのレコードの属性値を「?(不満=57%、不満以外=21%ずつ)」に変更する。さらに、回答1が「不満」のレコードは3つあるのでランダムに1つ選択して「?(不満=57%、不満以外=21%ずつ)」に変更する。   On the other hand, when the former is selected, the frequency table is changed as shown in FIG. In this case, the appearance frequency of “unsatisfied” is decreased by 1, and the appearance frequency of “normal” is 1, so the record itself is deleted. According to the frequency table after such change, the relevant portion of the original data in FIG. 12 is as shown in FIG. Since there is only one record whose answer 1 is “normal”, the attribute value of the record is changed to “? (Dissatisfaction = 57%, non-satisfaction = 21% each)”. Further, since there are three records whose answer 1 is “dissatisfied”, one is selected at random and is changed to “? (Dissatisfaction = 57%, non-satisfaction = 21% each)”.

なお、図12の元データ全体については、例えば図21に示すようなデータに変換され、ステップS25で出力される。部署「営業部門」且つ年齢「24−44」というグループの回答1という曖昧化対象属性については、3種類の属性値が出現するので曖昧化することなく、そのまま出力することになる。また、部署「営業部門」且つ年齢「24−44」というグループの回答2という曖昧化対象属性については、属性値「普通」が1種類しか出現していないので、ランダムに2つのレコードを選択して曖昧化データで置換している。その他のグループ及び曖昧化対象属性については、確率的にいずれかの曖昧化パターンが選択される。   Note that the entire original data in FIG. 12 is converted into data as shown in FIG. 21, for example, and output in step S25. As for the obfuscation target attribute of the answer “1” of the group “sales department” and age “24-44”, since three types of attribute values appear, they are output without being obfuscated. Also, for the obfuscation target attribute “answer 2” of the group “sales department” and age “24-44”, only one type of attribute value “normal” appears, so two records are selected at random. Are replaced with obfuscated data. For other groups and obscuring target attributes, any obscuring pattern is selected probabilistically.

[実施の形態3]
第2の実施の形態では、回答者が変更後の元データを見たとしても、他の回答者の回答を一意に特定できないようにしていたが、回答者が曖昧化後のデータを見ることがないということであれば、図14及び図16の曖昧化処理については、図22に示すような曖昧化処理を行えばよい。
[Embodiment 3]
In the second embodiment, even if the respondent sees the original data after the change, the answer of other respondents cannot be specified uniquely, but the respondent sees the data after ambiguity. If there is no ambiguity, the obscuring process of FIGS. 14 and 16 may be performed as shown in FIG.

但し、nが3以上の場合には、以下のように考える。すなわち、頻度表が{a:n}(頻度が多い方の属性値aの出現頻度が総頻度と同じnである)である場合、特定の人がaであることを頻度表と無関係な他者に一意に決められないようにするには、少なくとも1個を曖昧化することになる。一方、曖昧化は最小限にしたいため、{a:n−1,?:1}と曖昧化すべきである。   However, when n is 3 or more, it is considered as follows. In other words, if the frequency table is {a: n} (the appearance frequency of the attribute value a having the higher frequency is n, which is the same as the total frequency), the fact that the specific person is a is not related to the frequency table. In order not to be uniquely determined by a person, at least one is obfuscated. On the other hand, because we want to minimize ambiguity, {a: n-1 ,? : 1} should be obscured.

{a:n−1,?:1}の元の頻度表が{a:n}であると決められないようにするために、確率xを次のように定める。   {A: n-1,? In order to prevent the original frequency table of 1: 1 from being determined to be {a: n}, the probability x is determined as follows.

すなわち、頻度表が{a:n−1,b:1}のとき、{a:n−1,?:1}とする確率をxとする。ここで0≦x≦1である。   That is, when the frequency table is {a: n-1, b: 1}, {a: n-1,? : 1} is assumed to be x. Here, 0 ≦ x ≦ 1.

このとき、取り得る属性値(a及びbなど)の出現確率を全て等しいとすると、{a:n−1,?:1}の元の頻度表が{a:n}である確率をPとすると、これは次の式となる。   At this time, if the appearance probabilities of possible attribute values (such as a and b) are all equal, {a: n−1,? : 1}, where P is the probability that the original frequency table is {a: n}, this is

Figure 2013125374
Figure 2013125374

プライバシー保護を最大限にするため、Pが最小となるxを求めることを考える。なお、Pが1になると、特定の人がaであることが頻度表と無関係な他者にも一意に決められてしまう。   In order to maximize privacy protection, consider finding x that minimizes P. In addition, when P becomes 1, it is uniquely determined by other persons unrelated to the frequency table that the specific person is a.

従って、n≧3の場合、x=1のときPは最小になり、Pは次の式になる。   Therefore, when n ≧ 3, when x = 1, P is minimum, and P is given by

Figure 2013125374
Figure 2013125374

また、n=2の場合、{a:1,b:1}を曖昧化する際、{a:1,?:1}と{b:1,?:1}の確率を等しくしたいため、x=1/2のときPは最小になり、Pは次の式になる。   In addition, when n = 2, when {a: 1, b: 1} is obscured, {a: 1,? : 1} and {b: 1,? : 1} to equalize the probability, P is minimum when x = 1/2, and P is given by the following equation.

Figure 2013125374
Figure 2013125374

以上のような考え方に基づき、以下のような処理を実施する。   Based on the above concept, the following processing is implemented.

まず、曖昧化処理部260は、第2データ格納部270から頻度表を読み出す(図22:ステップS101)。また、曖昧化処理部260は、nに総頻度(出現頻度の総和)を設定する(ステップS103)。   First, the ambiguity processing unit 260 reads the frequency table from the second data storage unit 270 (FIG. 22: step S101). Further, the obscuring processing unit 260 sets the total frequency (total appearance frequency) to n (step S103).

そして、曖昧化処理部260は、頻度表のレコード数が2であるか判断する(ステップS105)。頻度表のレコード数が2以外である場合(1又は3以上の場合)、曖昧化処理部260は、頻度表のレコード数が1であるか判断する(ステップS119)。頻度表のレコード数が1ではない、即ち3以上である場合には曖昧化することなく呼び出し元の処理に戻る。   Then, the ambiguity processing unit 260 determines whether the number of records in the frequency table is 2 (step S105). When the number of records in the frequency table is other than 2 (1 or 3 or more), the ambiguity processing unit 260 determines whether the number of records in the frequency table is 1 (step S119). If the number of records in the frequency table is not 1, that is, 3 or more, the process returns to the caller process without ambiguity.

一方、頻度表のレコード数が1である場合には、曖昧化処理部260は、唯一のレコードの出現頻度のうち1つを曖昧化する(ステップS121)。ステップS43と同趣旨である。上で述べたように、nが3以上であれば、確率分布情報については、「?(a=確率P、a以外=確率(1−P)/v)ずつ」という情報になる。m=3及びn=4であれば、P=1/(vn+1)=1/((3−1)*4+1)=11%となる。そして処理はステップS117に移行する。   On the other hand, when the number of records in the frequency table is 1, the ambiguity processing unit 260 obscures one of the appearance frequencies of only one record (step S121). This is the same as step S43. As described above, if n is 3 or more, the probability distribution information is “? (A = probability P, other than a = probability (1-P) / v)”. If m = 3 and n = 4, then P = 1 / (vn + 1) = 1 / ((3-1) * 4 + 1) = 11%. Then, the process proceeds to step S117.

また、頻度表のレコード数が2である場合には、曖昧化処理部260は、頻度表においてレコードを頻度順に並べ替え、多い方をa、少ない方をbに設定する(ステップS107)。そして、曖昧化処理部260は、bの頻度は1であるか判断する(ステップS109)。bの頻度が2以上であれば、上記の前提の下では問題がないので、曖昧化することなく呼び出し元の処理に戻る。   If the number of records in the frequency table is 2, the ambiguity processing unit 260 rearranges the records in the frequency table in the order of frequency, and sets a greater number to a and a smaller number to b (step S107). Then, the ambiguity processing unit 260 determines whether the frequency of b is 1 (step S109). If the frequency of b is 2 or more, there is no problem under the above assumption, and the process returns to the caller process without ambiguity.

一方、bの頻度が1である場合には、曖昧化処理部260は、n=2であるか判断する(ステップS111)。nが2以外の場合には、曖昧化処理部260は、b1個を曖昧化する(ステップS115)。この場合、{a:n−1,?:1}であるから、確率分布情報については、nが3以上であれば「a=確率P(=1/(vn+1))、a以外の属性値=確率((1−P)/v)ずつ」となる。そして処理はステップS117に移行する。   On the other hand, when the frequency of b is 1, the ambiguity processing unit 260 determines whether n = 2 (step S111). When n is other than 2, the ambiguity processing unit 260 obscures b1 (step S115). In this case, {a: n-1,? 1}, for probability distribution information, if n is 3 or more, “a = probability P (= 1 / (vn + 1)), attribute value other than a = probability ((1−P) / v) ” Then, the process proceeds to step S117.

また、n=2である場合には、曖昧化処理部260は、乱数により、次のいずれかの曖昧化パターンのうちいずれかを選択して、実行する(ステップS113)。すなわち、(1)確率1/2で、a1個を曖昧化する。この場合、確率分布情報については、{b:1,?:1}であるから、「?(b=確率1/(v+1),b以外=確率(1−1/(v+1))/vずつ)」という情報である。(2)それ以外で、b1個を曖昧化する。この場合、確率分布情報については、{a:1,?:1}であるから、「?(a=確率1/(v+1),a以外=確率(1−1/(v+1))/vずつ)」という情報である。そして、ステップS117に移行する。   If n = 2, the obscuring processing unit 260 selects and executes one of the following obscuring patterns using a random number (step S113). That is, (1) a1 is made ambiguous with probability 1/2. In this case, for probability distribution information, {b: 1,? 1}, the information is “? (B = probability 1 / (v + 1), other than b = probability (1-1 / (v + 1)) / v)”. (2) Otherwise, obscure b1. In this case, for probability distribution information, {a: 1,? 1}, the information is “? (A = probability 1 / (v + 1), other than a = probability (1-1 / (v + 1)) / v each)”. Then, the process proceeds to step S117.

その後、曖昧化処理部260は、変更後の頻度表を第2データ格納部270に格納する(ステップS117)。   Thereafter, the ambiguity processing unit 260 stores the changed frequency table in the second data storage unit 270 (step S117).

例えば図12に示した例を図22の処理フローで処理すると、図23のようなデータが得られる。すなわち、部署「製造部門」且つ年齢「25−42」というグループの曖昧化対象属性「回答2」については、第2の実施の形態では曖昧化されていたが、本実施の形態では曖昧化されない。また、部署「製造部門」且つ年齢「25−42」というグループの曖昧化対象属性「回答1」については、ステップS115において、回答1が「普通」であるレコードの属性値が「?(不満=11%、不満以外=44%ずつ)」という曖昧化データに置換される。また、部署「営業部門」且つ年齢「24−44」というグループの曖昧化対象属性「回答1」を処理する場合には、曖昧化されない。部署「営業部門」且つ年齢「24−44」というグループの曖昧化対象属性「回答2」を処理する場合に、ステップS121で曖昧化データに置換される。すなわち、「?(不満=11%、不満以外=44%ずつ」)となる。   For example, when the example shown in FIG. 12 is processed by the processing flow of FIG. 22, data as shown in FIG. 23 is obtained. In other words, the obfuscation target attribute “answer 2” of the group “manufacturing department” and age “25-42” has been obscured in the second embodiment, but is not obscured in the present embodiment. . In addition, regarding the obfuscation target attribute “answer 1” of the group “manufacturing department” and age “25-42”, the attribute value of the record whose answer 1 is “normal” is “? 11%, other than dissatisfaction = 44% each) ”. Further, in the case where the ambiguity target attribute “answer 1” of the group “sales department” and age “24-44” is processed, it is not obscured. When the obfuscation target attribute “answer 2” of the department “sales department” and age “24-44” is processed, it is replaced with obfuscation data in step S121. That is, “? (Dissatisfaction = 11%, non-satisfaction = 44% each”).

以上本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。機能ブロック構成については、一例であって、必ずしも実際のプログラムモジュール構成と一致しない場合もある。また、処理フローについても、処理結果が変わらない限り、処理順番を入れ替えたり、複数のステップを並列実行しても良い。   Although the embodiment of the present technology has been described above, the present technology is not limited to this. The functional block configuration is an example, and may not necessarily match the actual program module configuration. As for the processing flow, as long as the processing result does not change, the processing order may be changed or a plurality of steps may be executed in parallel.

また、上で述べた実施の形態では、全ての属性値を平等に扱ったが、属性値によってはプライバシー上あまり問題にならないような値を特別扱いするなどしても良い。たとえば、各人について「回答」が普通であることは開示して問題ない場合は、[普通, 普通, 普通, 普通] や [普通, 普通, 満足, 普通] などは、偏りが大きいと判定される場合においても曖昧化しない、といったアルゴリズムにしても良い。   In the embodiment described above, all attribute values are treated equally. However, depending on the attribute value, a value that does not cause much privacy may be treated specially. For example, if there is no problem in disclosing that “answer” is normal for each person, [normal, normal, normal, normal] and [normal, normal, satisfied, normal] etc. are judged to have a large bias. In such a case, an algorithm that does not obfuscate the case may be used.

なお、上で述べた情報処理装置100及び200は、コンピュータ装置であって、図24に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。   The information processing apparatuses 100 and 200 described above are computer apparatuses, and as shown in FIG. 24, a memory 2501, a CPU (Central Processing Unit) 2503, a hard disk drive (HDD: Hard Disk Drive) 2505, A display control unit 2507 connected to the display device 2509, a drive device 2513 for a removable disk 2511, an input device 2515, and a communication control unit 2517 for connecting to a network are connected by a bus 2519. An operating system (OS: Operating System) and an application program for executing the processing in this embodiment are stored in the HDD 2505, and are read from the HDD 2505 to the memory 2501 when executed by the CPU 2503. The CPU 2503 controls the display control unit 2507, the communication control unit 2517, and the drive device 2513 according to the processing content of the application program, and performs a predetermined operation. Further, data in the middle of processing is mainly stored in the memory 2501, but may be stored in the HDD 2505. In an embodiment of the present technology, an application program for performing the above-described processing is stored in a computer-readable removable disk 2511 and distributed, and installed from the drive device 2513 to the HDD 2505. In some cases, the HDD 2505 may be installed via a network such as the Internet and the communication control unit 2517. Such a computer apparatus realizes various functions as described above by organically cooperating hardware such as the CPU 2503 and the memory 2501 described above and programs such as the OS and application programs. .

以上述べた本実施の形態をまとめると、以下のようになる。   The above-described embodiment can be summarized as follows.

本実施の形態に係る情報処理方法は、(A)複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、レコードの数の分布が、偏りが大きいことを表す条件を満たしているか判断するステップと、(B)レコードの数の分布が偏りが大きいことを表す条件を満たしている場合には、複数のレコードのうち少なくとも1のレコードにおける第1の属性の属性値を、曖昧化データに置換し、データ格納部に格納するステップとを含む。   In the information processing method according to the present embodiment, (A) the first attribute of the plurality of records is included for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether the distribution of the number of records satisfies a condition indicating that the deviation is large, from data stored in a data storage unit in which the number of records in which the attribute value appears is stored (B ) When the condition indicating that the distribution of the number of records has a large deviation is satisfied, the attribute value of the first attribute in at least one of the plurality of records is replaced with the ambiguous data, and the data is stored. Storing in the section.

このように曖昧化対象の第1の属性の属性値を曖昧化データと置換することで、元の値の出現分布の傾向を残しつつプライバシー保護を図ることができるようになる。   Thus, by replacing the attribute value of the first attribute to be obfuscated with the ambiguous data, privacy protection can be achieved while leaving the tendency of the appearance distribution of the original value.

また、本実施の形態に係る情報処理方法が、(C)データ格納部に格納されているレコードを、第1の属性とは異なる第2の属性(又は第2の属性群)の属性値が同じレコードにグループ化することで、複数のレコードを抽出する抽出ステップと、(D)複数のレコードにおける第1の属性の属性値毎に、当該第1の属性の属性値を含むレコードの数を計数し、データ格納部に格納するステップとをさらに含むようにしても良い。このように、曖昧化対象属性の属性値毎に、レコード数を算出するようにしても良い。   Further, in the information processing method according to the present embodiment, (C) a record stored in the data storage unit has an attribute value of a second attribute (or second attribute group) different from the first attribute. The extraction step of extracting a plurality of records by grouping into the same record, and (D) the number of records including the attribute value of the first attribute for each attribute value of the first attribute in the plurality of records And counting and storing in the data storage unit. In this way, the number of records may be calculated for each attribute value of the obfuscation target attribute.

さらに、上で述べた曖昧化データが、少なくとも第1の属性の属性値のうち頻度が最も多い属性値である確率のデータを含むようにしても良い。このような確率のデータが提示されれば、より元の値の傾向を把握することが容易になる。   Further, the obscuration data described above may include data having a probability that the attribute value has the highest frequency among the attribute values of the first attribute. If such probability data is presented, it becomes easier to grasp the tendency of the original value.

また、上で述べた抽出ステップが、第2の属性(又は第2の属性群)の属性値が、k個以上同じ値となるように匿名化する処理を行った後に実施される場合もある。すなわちk−匿名化処理を実施すれば、基礎的なプライバシー保護を実現できるようになる。   In addition, the extraction step described above may be performed after performing anonymization processing so that the attribute value of the second attribute (or the second attribute group) is equal to k or more. . That is, if the k-anonymization process is performed, basic privacy protection can be realized.

さらに、上で述べた偏りが大きいことを表す条件が、第1の属性の属性値が2種類しか出現しておらず頻度が少ない方の属性値の頻度が1又は2であるという条件と、第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である場合もある。回答者自身が処理結果を見ても他の回答者の回答内容を一意に識別できないようにしつつ、曖昧化するデータを最小限に抑えるには、このような条件を採用する。なお、この場合、曖昧化データと置換するレコードの数は多くとも2となる。   Further, the above-described condition indicating that the bias is large is that the attribute value of the first attribute appears only in two types and the frequency of the attribute value with the lower frequency is 1 or 2, In some cases, the determination condition satisfies either one of the conditions that the attribute value of the first attribute has only one type. Such a condition is adopted in order to minimize the data to be obscured while making it impossible for the respondent himself / herself to uniquely identify the reply contents of other respondents even when viewing the processing result. In this case, the number of records to be replaced with the ambiguous data is at most two.

また、複数のレコードのレコード数が2以下である場合に、曖昧化ステップを実施するようにしても良い。このように、元々の回答者の数が少ない場合には曖昧化を行ってプライバシー保護を図る。   Further, when the number of records of the plurality of records is 2 or less, the ambiguity step may be performed. Thus, when the number of original respondents is small, obfuscation is performed to protect privacy.

また、上で述べた曖昧化ステップが、複数のレコードのレコード数と第1の属性の属性値の取り得る種類の数とに応じて算出される確率に従い、複数のレコードのうち1又は2のレコードにおける第1の属性の属性値を曖昧化する複数の曖昧化パターンのうちいずれかを特定するステップと、特定された曖昧化パターンに従って、第1の属性の属性値を曖昧化データで置換するステップとを含むようにしても良い。このような処理を行うと効果的にプライバシー保護が図られる。   In addition, the ambiguity step described above may include one or two of the plurality of records according to the probability calculated according to the number of records of the plurality of records and the number of types that the attribute value of the first attribute can take. The step of identifying any one of a plurality of obfuscation patterns for obfuscating the attribute value of the first attribute in the record, and replacing the attribute value of the first attribute with the obfuscation data according to the identified obfuscation pattern Steps may be included. When such processing is performed, privacy protection is effectively achieved.

さらに、上で述べた偏りが大きいことを表す条件が、第1の属性の属性値が2種類しか出現しておらず且つ頻度が少ない方の属性の頻度が1であるという条件と、第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である場合もある。例えば、回答者自身が処理結果を見ることがない場合には、このような条件でもプライバシー保護が図られる。この場合、曖昧化データと置換されるレコードの数は1となる。   Further, the above-described condition indicating that the bias is large includes the condition that only two types of attribute values of the first attribute appear and the frequency of the attribute with the lower frequency is 1, In some cases, the determination condition satisfies one of the conditions that only one type of attribute value exists. For example, when the respondent himself does not see the processing result, privacy protection can be achieved even under such conditions. In this case, the number of records replaced with the ambiguous data is 1.

さらに、複数のレコードにおける第1の属性の属性値が、第1の属性値と当該第1の属性値より頻度が低い第2の属性値とを含み、複数のレコードのレコード数をnとする場合、例えば以下のようにして上で述べた確率を算出するようにしても良い。すなわち、第1の属性値が(n−2)個出現し、2レコード分前記曖昧化データに置換されたことを表す情報が生成されている場合において実際には第1の属性値がn個出現していた場合の確率Aと、第2の属性値に該当する人から見て第1の属性値が(n−2)個出現し、2レコード分曖昧化データに置換されたことを表す情報が生成されている場合において実際には第1の属性値が(n−1)個出現しており且つ第2の属性が1つ出現していた場合の確率Bと、第2の属性値に該当する人から見て第1の属性値が(n−2)個出現し、第2の属性値が1個出現し、1レコード分曖昧化データに置換されたことを表す情報が生成されている場合において実際には第1の属性値が(n−1)個出現しており且つ第2の属性が1つ出現していた場合の確率Cと、が等しく且つ最小になるという条件を満たすように、上で述べた確率が算出されるようにしても良い。適切な確率を算出できる。   Furthermore, the attribute value of the first attribute in the plurality of records includes the first attribute value and the second attribute value having a lower frequency than the first attribute value, and the number of records of the plurality of records is n. In this case, for example, the probability described above may be calculated as follows. That is, when (n−2) first attribute values appear and information indicating that two records have been replaced with the obfuscation data is generated, the first attribute value is actually n first. The probability A when it appears, and the fact that (n-2) first attribute values appear from the viewpoint of the person corresponding to the second attribute value, and that two records have been replaced with obfuscation data When information is generated, the probability B in the case where (n−1) first attribute values actually appear and one second attribute appears, and the second attribute value Information indicating that (n-2) first attribute values appear, one second attribute value appears, and one record has been replaced with obfuscation data as viewed from the person corresponding to In practice, (n-1) first attribute values appear and one second attribute appears. Probability C of cases, to satisfy the condition that is equal and minimum, may be the probability mentioned above is calculated. An appropriate probability can be calculated.

なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。   It is possible to create a program for causing a computer to carry out the processing described above, such as a flexible disk, an optical disk such as a CD-ROM, a magneto-optical disk, and a semiconductor memory (for example, ROM). Or a computer-readable storage medium such as a hard disk or a storage device.

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。   The following supplementary notes are further disclosed with respect to the embodiments including the above examples.

(付記1)
複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断するステップと、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納するステップと、
を含み、コンピュータにより実行される情報処理方法。
(Appendix 1)
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from the data stored in the data storage unit,
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And storing in the data storage unit;
An information processing method executed by a computer.

(付記2)
前記データ格納部に格納されているレコードを、前記第1の属性とは異なる第2の属性の属性値が同じレコードにグループ化することで、前記複数のレコードを抽出する抽出ステップと、
前記複数のレコードにおける前記第1の属性の属性値毎に、当該第1の属性の属性値を含むレコードの数を計数し、前記データ格納部に格納するステップと、
をさらに含む付記1記載の情報処理方法。
(Appendix 2)
An extraction step of extracting the plurality of records by grouping records stored in the data storage unit into records having the same attribute value of a second attribute different from the first attribute;
For each attribute value of the first attribute in the plurality of records, counting the number of records including the attribute value of the first attribute, and storing in the data storage unit;
The information processing method according to appendix 1, further comprising:

(付記3)
前記曖昧化データが、少なくとも前記第1の属性の属性値のうち頻度が最も多い属性値である確率のデータを含む
付記1又は2記載の情報処理方法。
(Appendix 3)
The information processing method according to claim 1 or 2, wherein the obfuscation data includes data having a probability that the attribute value has the highest frequency among the attribute values of the first attribute.

(付記4)
前記抽出ステップが、前記第2の属性の属性値が、k個以上同じ値となるように匿名化する処理を行った後に実施される
付記1又は2記載の情報処理方法。
(Appendix 4)
The information processing method according to claim 1 or 2, wherein the extraction step is performed after performing anonymization processing such that k or more attribute values of the second attribute have the same value.

(付記5)
前記偏りが大きいことを表す条件が、前記第1の属性の属性値が2種類しか出現しておらず且つ頻度が少ない方の属性値の頻度が1又は2であるという条件と、前記第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である
付記1乃至4のいずれか1つ記載の情報処理方法。
(Appendix 5)
The condition indicating that the bias is large includes a condition that only two types of attribute values of the first attribute appear and the frequency of the attribute value having a lower frequency is 1 or 2, and the first The information processing method according to any one of appendices 1 to 4, wherein the determination condition satisfies any one of a condition that only one type of attribute value of the attribute exists.

(付記6)
前記複数のレコードのレコード数が2以下である場合に、前記曖昧化ステップを実施する
付記5記載の情報処理方法。
(Appendix 6)
The information processing method according to claim 5, wherein the obfuscation step is performed when the number of records of the plurality of records is 2 or less.

(付記7)
前記曖昧化ステップが、
前記複数のレコードのレコード数と前記第1の属性の属性値の取り得る種類の数とに応じて算出される確率に従い、前記複数のレコードのうち1又は2のレコードにおける第1の属性の属性値を曖昧化する複数の曖昧化パターンのうちいずれかを特定するステップと、
特定された前記曖昧化パターンに従って、前記第1の属性の属性値を前記曖昧化データで置換するステップと、
を含む付記1乃至6のいずれか記載の情報処理方法。
(Appendix 7)
The obscuring step comprises:
The attribute of the first attribute in one or two of the plurality of records according to the probability calculated according to the number of records of the plurality of records and the number of types of attribute values of the first attribute Identifying any one of a plurality of obfuscation patterns that obfuscate values;
Replacing the attribute value of the first attribute with the obfuscation data according to the identified obfuscation pattern;
The information processing method according to any one of appendices 1 to 6, including:

(付記8)
前記偏りが大きいことを表す条件が、前記第1の属性の属性値が2種類しか出現しておらず且つ頻度が少ない方の属性の頻度が1であるという条件と、前記第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である
付記1乃至4記載のいずれか1つ記載の情報処理方法。
(Appendix 8)
The condition indicating that the bias is large includes a condition that only two types of attribute values of the first attribute appear and the frequency of the attribute with the lower frequency is 1, and the first attribute The information processing method according to any one of supplementary notes 1 to 4, which is a determination condition that satisfies any one of a condition that only one type of attribute value exists.

(付記9)
前記複数のレコードにおける前記第1の属性の属性値が、第1の属性値と当該第1の属性値より頻度が低い前記第2の属性値とを含み、
前記複数のレコードのレコード数をnとし、
前記第1の属性値が(n−2)個出現し、2レコード分前記曖昧化データに置換されたことを表す情報が生成されている場合において実際には前記第1の属性値がn個出現していた場合の確率Aと、前記第2の属性値に該当する人から見て前記第1の属性値が(n−2)個出現し、2レコード分前記曖昧化データに置換されたことを表す情報が生成されている場合において実際には前記第1の属性値が(n−1)個出現しており且つ前記第2の属性が1つ出現していた場合の確率Bと、前記第2の属性値に該当する人から見て前記第1の属性値が(n−2)個出現し、前記第2の属性値が1個出現し、1レコード分前記曖昧化データに置換されたことを表す情報が生成されている場合において実際には前記第1の属性値が(n−1)個出現しており且つ前記第2の属性が1つ出現していた場合の確率Cと、が等しく且つ最小になるという条件を満たすように、前記確率が算出される
付記7記載の情報処理方法。
(Appendix 9)
The attribute value of the first attribute in the plurality of records includes a first attribute value and the second attribute value having a frequency lower than that of the first attribute value,
The number of records of the plurality of records is n,
In the case where (n-2) first attribute values appear and information indicating that two records have been replaced with the obfuscation data is generated, the first attribute value is actually n. (N−2) first attribute values appearing from the viewpoint of the person corresponding to the second attribute value and the probability A in the case of appearing, two records were replaced with the obfuscation data. In the case where information indicating that is generated, the probability B in the case where (n−1) first attribute values actually appear and one second attribute appears, From the viewpoint of the person corresponding to the second attribute value, (n−2) first attribute values appear, one second attribute value appears, and one record is replaced with the ambiguous data. In the case where the information indicating that it has been generated is actually generated, (n-1) first attribute values appear. Cage and the probability C of when the second attribute that has emerged one so as to satisfy the condition that is equal and minimum, the information processing method according to Note 7, wherein the probability is calculated.

(付記10)
複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断するステップと、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納するステップと、
を、コンピュータに実行させるプログラム。
(Appendix 10)
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from the data stored in the data storage unit,
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And storing in the data storage unit;
A program that causes a computer to execute.

(付記11)
複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断する判断部と、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納する曖昧化処理部と、
を有する情報処理装置。
(Appendix 11)
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. A determination unit that determines whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from data stored in a data storage unit;
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And an ambiguity processing unit stored in the data storage unit,
An information processing apparatus.

100,200 情報処理装置
110 第1データ格納部
120 判断部
130 曖昧化処理部
140 第2データ格納部
210 第1データ格納部
220 k−匿名化処理部
230 グループ化処理部
240 出力部
250 入力部
260 曖昧化処理部
270 第2データ格納部
100, 200 Information processing device 110 First data storage unit 120 Determination unit 130 Ambiguization processing unit 140 Second data storage unit 210 First data storage unit 220 k-anonymization processing unit 230 Grouping processing unit 240 Output unit 250 Input unit 260 Ambiguity processing unit 270 Second data storage unit

Claims (9)

複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断するステップと、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納するステップと、
を含み、コンピュータに実行される情報処理方法。
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from the data stored in the data storage unit,
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And storing in the data storage unit;
An information processing method executed on a computer.
前記データ格納部に格納されているレコードを、前記第1の属性とは異なる第2の属性の属性値が同じレコードにグループ化することで、前記複数のレコードを抽出する抽出ステップと、
前記複数のレコードにおける前記第1の属性の属性値毎に、当該第1の属性の属性値を含むレコードの数を計数し、前記データ格納部に格納するステップと、
をさらに含む請求項1記載の情報処理方法。
An extraction step of extracting the plurality of records by grouping records stored in the data storage unit into records having the same attribute value of a second attribute different from the first attribute;
For each attribute value of the first attribute in the plurality of records, counting the number of records including the attribute value of the first attribute, and storing in the data storage unit;
The information processing method according to claim 1, further comprising:
前記曖昧化データが、少なくとも前記第1の属性の属性値のうち頻度が最も多い属性値である確率のデータを含む
請求項1又は2記載の情報処理方法。
The information processing method according to claim 1, wherein the obfuscation data includes data having a probability that the attribute value has the highest frequency among the attribute values of the first attribute.
前記抽出ステップが、前記第2の属性の属性値が、k個以上同じ値となるように匿名化する処理を行った後に実施される
請求項1又は2記載の情報処理方法。
The information processing method according to claim 1 or 2, wherein the extraction step is performed after performing anonymization processing so that attribute values of the second attributes are equal to k or more.
前記偏りが大きいことを表す条件が、前記第1の属性の属性値が2種類しか出現しておらず且つ頻度が少ない方の属性値の頻度が1又は2であるという条件と、前記第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である
請求項1乃至4のいずれか1つ記載の情報処理方法。
The condition indicating that the bias is large includes a condition that only two types of attribute values of the first attribute appear and the frequency of the attribute value having a lower frequency is 1 or 2, and the first The information processing method according to any one of claims 1 to 4, wherein the determination condition satisfies any one of a condition that only one type of attribute value of the attribute exists.
前記曖昧化ステップが、
前記複数のレコードのレコード数と前記第1の属性の属性値の取り得る種類の数とに応じて算出される確率に従い、前記複数のレコードのうち1又は2のレコードにおける第1の属性の属性値を曖昧化する複数の曖昧化パターンのうちいずれかを特定するステップと、
特定された前記曖昧化パターンに従って、前記第1の属性の属性値を前記曖昧化データで置換するステップと、
を含む請求項1乃至5のいずれか記載の情報処理方法。
The obscuring step comprises:
The attribute of the first attribute in one or two of the plurality of records according to the probability calculated according to the number of records of the plurality of records and the number of types of attribute values of the first attribute Identifying any one of a plurality of obfuscation patterns that obfuscate values;
Replacing the attribute value of the first attribute with the obfuscation data according to the identified obfuscation pattern;
The information processing method according to claim 1, comprising:
前記偏りが大きいことを表す条件が、前記第1の属性の属性値が2種類しか出現しておらず且つ頻度が少ない方の属性の頻度が1であるという条件と、前記第1の属性の属性値が1種類しか存在しないという条件とのいずれかを満たすという判断条件である
請求項1乃至4記載のいずれか1つ記載の情報処理方法。
The condition indicating that the bias is large includes a condition that only two types of attribute values of the first attribute appear and the frequency of the attribute with the lower frequency is 1, and the first attribute The information processing method according to any one of claims 1 to 4, wherein the determination condition satisfies any one of a condition that only one kind of attribute value exists.
複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断するステップと、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納するステップと、
を、コンピュータに実行させるプログラム。
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. Determining whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from the data stored in the data storage unit,
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And storing in the data storage unit;
A program that causes a computer to execute.
複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に前記複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、前記レコードの数の分布に、偏りが大きいことを表す条件を満たしているか判断する判断部と、
前記レコードの数の分布に、前記偏りが大きいことを表す条件を満たしている場合には、前記複数のレコードのうち少なくとも1のレコードにおける前記第1の属性の属性値を、曖昧化データに置換し、前記データ格納部に格納する曖昧化処理部と、
を有する情報処理装置。
The number of records in which the attribute value of the first attribute appears among the plurality of records is stored for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obfuscated. A determination unit that determines whether or not a condition indicating a large deviation is satisfied in the distribution of the number of records from data stored in a data storage unit;
When the condition indicating that the deviation is large is satisfied in the distribution of the number of records, the attribute value of the first attribute in at least one of the plurality of records is replaced with ambiguous data And an ambiguity processing unit stored in the data storage unit,
An information processing apparatus.
JP2011273037A 2011-12-14 2011-12-14 Information processing method, apparatus and program Expired - Fee Related JP5772563B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011273037A JP5772563B2 (en) 2011-12-14 2011-12-14 Information processing method, apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011273037A JP5772563B2 (en) 2011-12-14 2011-12-14 Information processing method, apparatus and program

Publications (2)

Publication Number Publication Date
JP2013125374A true JP2013125374A (en) 2013-06-24
JP5772563B2 JP5772563B2 (en) 2015-09-02

Family

ID=48776579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011273037A Expired - Fee Related JP5772563B2 (en) 2011-12-14 2011-12-14 Information processing method, apparatus and program

Country Status (1)

Country Link
JP (1) JP5772563B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114807A (en) * 2013-12-11 2015-06-22 株式会社日立システムズ Data classification device, data classification method, and data classification program
WO2016092830A1 (en) * 2014-12-09 2016-06-16 日本電気株式会社 Information processing device, information processing method, and recording medium
JP2016126579A (en) * 2015-01-05 2016-07-11 富士通株式会社 Data secrecy device, data secrecy program and data secrecy method
JP2017073022A (en) * 2015-10-08 2017-04-13 日本電信電話株式会社 Anonymization device, anonymization method, and program
CN107426441A (en) * 2017-08-31 2017-12-01 努比亚技术有限公司 A kind of displaying method of terminal, terminal and computer-readable recording medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169793A1 (en) * 2001-04-10 2002-11-14 Latanya Sweeney Systems and methods for deidentifying entries in a data source
JP2008217425A (en) * 2007-03-05 2008-09-18 Hitachi Ltd Information output device, information output method, and information output program
JP2011100116A (en) * 2009-10-07 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> Disturbance device, disturbance method, and program therefor
JPWO2011142327A1 (en) * 2010-05-10 2013-07-22 日本電気株式会社 Information processing apparatus, control method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169793A1 (en) * 2001-04-10 2002-11-14 Latanya Sweeney Systems and methods for deidentifying entries in a data source
JP2008217425A (en) * 2007-03-05 2008-09-18 Hitachi Ltd Information output device, information output method, and information output program
JP2011100116A (en) * 2009-10-07 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> Disturbance device, disturbance method, and program therefor
JPWO2011142327A1 (en) * 2010-05-10 2013-07-22 日本電気株式会社 Information processing apparatus, control method, and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114807A (en) * 2013-12-11 2015-06-22 株式会社日立システムズ Data classification device, data classification method, and data classification program
WO2016092830A1 (en) * 2014-12-09 2016-06-16 日本電気株式会社 Information processing device, information processing method, and recording medium
JP2016126579A (en) * 2015-01-05 2016-07-11 富士通株式会社 Data secrecy device, data secrecy program and data secrecy method
JP2017073022A (en) * 2015-10-08 2017-04-13 日本電信電話株式会社 Anonymization device, anonymization method, and program
CN107426441A (en) * 2017-08-31 2017-12-01 努比亚技术有限公司 A kind of displaying method of terminal, terminal and computer-readable recording medium

Also Published As

Publication number Publication date
JP5772563B2 (en) 2015-09-02

Similar Documents

Publication Publication Date Title
Verykios et al. Association rule hiding
US10467433B2 (en) Event processing system
Xu et al. Anonymizing transaction databases for publication
Tai et al. Privacy-preserving social network publication against friendship attacks
US20220398338A1 (en) Data privacy pipeline providing collaborative intelligence and constraint computing
JP5772563B2 (en) Information processing method, apparatus and program
Taha et al. SIIMCO: A forensic investigation tool for identifying the influential members of a criminal organization
WO2012127572A1 (en) Secret data processing method, program and device
CA3069908A1 (en) Differentially private query budget refunding
Yao et al. Sensitive label privacy preservation with anatomization for data publishing
Li et al. A top-down approach for approximate data anonymisation
Chicha et al. A user-centric mechanism for sequentially releasing graph datasets under blowfish privacy
US10817479B2 (en) Recommending data providers&#39; datasets based on database value densities
CN110929172B (en) Information selection method and device, electronic equipment and readable storage medium
Tai et al. Structural diversity for resisting community identification in published social networks
Xie et al. Auditing the sensitivity of graph-based ranking with visual analytics
Mohsen et al. Countering intrusiveness using new security-centric ranking algorithm built on top of elasticsearch
Zhang et al. A crowd wisdom management framework for crowdsourcing systems
Riboni et al. Incremental release of differentially-private check-in data
CN116166820A (en) Visualized knowledge graph generation method and device based on provider data
Dai et al. Privacy-preserving assessment of social network data trustworthiness
Mohsen et al. Security‐centric ranking algorithm and two privacy scores to mitigate intrusive apps
Sathiya Devi et al. A study on privacy-preserving approaches in online social network for data publishing
US20100036865A1 (en) Method For Generating Score-Optimal R-Trees
Liao et al. Uncovering multiple diffusion networks using the first-hand sharing pattern

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150615

R150 Certificate of patent or registration of utility model

Ref document number: 5772563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees