JP6214150B2 - Information processing apparatus, information processing method, and information processing program - Google Patents

Information processing apparatus, information processing method, and information processing program Download PDF

Info

Publication number
JP6214150B2
JP6214150B2 JP2012253602A JP2012253602A JP6214150B2 JP 6214150 B2 JP6214150 B2 JP 6214150B2 JP 2012253602 A JP2012253602 A JP 2012253602A JP 2012253602 A JP2012253602 A JP 2012253602A JP 6214150 B2 JP6214150 B2 JP 6214150B2
Authority
JP
Japan
Prior art keywords
value
candidate data
word
abstraction candidate
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012253602A
Other languages
Japanese (ja)
Other versions
JP2014102643A (en
Inventor
くにお 松井
くにお 松井
秀暢 小栗
秀暢 小栗
Original Assignee
富士通クラウドテクノロジーズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通クラウドテクノロジーズ株式会社 filed Critical 富士通クラウドテクノロジーズ株式会社
Priority to JP2012253602A priority Critical patent/JP6214150B2/en
Publication of JP2014102643A publication Critical patent/JP2014102643A/en
Application granted granted Critical
Publication of JP6214150B2 publication Critical patent/JP6214150B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、個人情報を匿名化又は多様化する技術に関する。   The present invention relates to a technique for anonymizing or diversifying personal information.

情報処理技術の発展に伴い、日常の多くの場面で情報が収集され、この収集された情報を用いた処理が行われている。例えば、消費者が店舗の会員となって商品を購入する場合、会員登録時に消費者の氏名、年齢、性別、住所、メールアドレス等を登録することが多い。そして、消費者が商品を購入すると、店舗側のシステムが、この消費者と購入した商品の情報を対応付けて記録する。このように購入した商品の情報を蓄積して分析すると、当該消費者の嗜好が推定でき、この消費者が好む新商品が発売されたような場合にダイレクトメールを発送するといったサービスを行うことができる。更に、多くの消費者の情報について分析することで、20代女性の好む商品や関東エリアで好まれる商品といった情報を導くことができ、マーケティング等に利用される。   With the development of information processing technology, information is collected in many everyday situations, and processing using the collected information is performed. For example, when a consumer purchases a product as a member of a store, the consumer's name, age, gender, address, e-mail address, etc. are often registered at the time of membership registration. When a consumer purchases a product, the store-side system records the consumer and the purchased product information in association with each other. By accumulating and analyzing information on purchased products in this way, it is possible to estimate the consumer's preferences and perform a service such as sending a direct mail when a new product preferred by the consumer is released. it can. Furthermore, by analyzing information of many consumers, information such as products preferred by women in their 20s and products preferred in the Kanto area can be derived and used for marketing and the like.

また、これらの情報は、当該店舗だけでなく、商品を製造するメーカや、他の企業にとっても新商品の開発や安全性の向上などに用いることができ、価値を有することがある。   In addition, the information can be used not only for the store but also for the manufacturer of the product and other companies for the development of new products and the improvement of safety, and may have value.

しかし、店舗が有する消費者の個人情報を各消費者の許諾を得ずに、他者へ提供することはできない。このため、上記消費者に関する情報を他者へ提供する場合には、個人を特定できないように、匿名化する必要がある。   However, the consumer's personal information in the store cannot be provided to others without obtaining the consent of each consumer. For this reason, when providing information related to the consumer to others, it is necessary to anonymize so that individuals cannot be identified.

例えば、年齢が記載されている会員リストに25歳の人が一人だけであると、25歳の知人がその会員であることを知った時点で、その人を特定できることになる。即ち、25歳の会員という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性が高い。   For example, if there is only one person 25 years old in the member list in which the age is described, the person can be identified when he / she knows that the 25-year-old acquaintance is the member. That is, if there is only one person with the attribute of a 25-year-old member, there is a high possibility that an individual can be specified by comparing with other information.

そこで、会員リストの年齢の記載を10歳区切りに抽象化し、20代が3人のように同じ属性を持つ人が複数人となるようにすれば、3人のうちの誰であるかを特定できなくなる。このように同じ属性を持つ人がk人以上いる状態を、「k-匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。   Therefore, if the age description in the member list is abstracted into 10-year breaks, and there are multiple people with the same attribute, such as three in their 20s, who of the three is identified become unable. A state in which there are k or more people having the same attribute in this way is referred to as “k-anonymity” and processing such data is referred to as “k-anonymization”.

特開2012−133451号公報JP 2012-133451 A 特開2011−108195号公報JP 2011-108195 A 特開2011−128862号公報JP 2011-128862 A 特開2012−78932号公報JP 2012-78932 A

従来の匿名化を行う装置では、k-匿名性を満たすように各項目の値を抽象化する場合、単に同じ属性値が複数となるようにデータを区切るため、例え匿名性を満たしても利用価値の無いデータとなってしまうことがある。例えば、ファッションの傾向を知るためにデータを利用する場合、年齢の項目は重要であり、匿名化のために年齢の項目を抽象化し過ぎると、利用価値が無くなってしまう。この場合、操作者が抽象化する項目の優先度を指定し、年齢以外の項目を抽象化することで匿名性を満たすようにする。また、匿名化のため、年齢の項目を17歳以上22歳未満のように区切ると、同一グループに成年と未成年
が混在したり、高校生と社会人が混在したりすることになり、利用価値が無くなってしまう。この場合、操作者が年齢の項目の区切りを指定し、他の項目を抽象化することで匿名性を満たすようにする。
In conventional anonymization devices, when abstracting the value of each item to satisfy k-anonymity, data is simply separated so that the same attribute value becomes multiple, so even if anonymity is satisfied Sometimes it becomes worthless data. For example, when data is used to know a fashion trend, the age item is important. If the age item is excessively abstracted for anonymization, the utility value is lost. In this case, the priority of the items to be abstracted by the operator is specified, and anonymity is satisfied by abstracting items other than the age. For anonymization, if the age item is divided into 17 years old or older and less than 22 years old, adults and minors may be mixed in the same group, and high school students and working adults may be mixed. Will disappear. In this case, the operator specifies the age item separator and abstracts the other items so as to satisfy anonymity.

このように従来の匿名化を行う装置では、操作者の判断を必要とする機会が多く、実用的ではなかった。特にインターネット上の店舗(ネットショップ)や、SNS(ソーシャル・ネットワーキング・サービス)の会員情報のような所謂ビッグデータを従来の装置で匿名化するのは困難であった。
そこで本発明は、対象データを抽象化後の価値に基づいて処理し、匿名化する技術を提供する。
As described above, the conventional anonymization apparatus is not practical because there are many opportunities to require the operator's judgment. In particular, it has been difficult to anonymize so-called big data such as membership information of a store on the Internet (net shop) and SNS (social networking service) with a conventional device.
Therefore, the present invention provides a technique for processing target data based on the value after abstraction and making it anonymous.

上記課題を解決するため、本発明の情報処理装置は、
個人と対応付けられた複数の項目を含む対象データを受信するデータ受付部と、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成する抽象化部と、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求める価値判定部と、
前記抽象化候補データの一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定する検定部と、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択する選択部と
を備える。
In order to solve the above problems, an information processing apparatus of the present invention provides:
A data receiving unit that receives target data including a plurality of items associated with an individual;
An abstraction unit that generates abstraction candidate data by replacing a word that is a value of an item in the target data with an abstracted word;
A value determination unit that receives the value of the word included in the abstraction candidate data and obtains the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
A test unit that tests on condition that a combination of values of items corresponding to one individual of the abstraction candidate data is not single in the abstraction candidate data;
A selection unit that selects the abstraction candidate data based on the value of the abstraction candidate data that satisfies the test condition.

前記検定部は、前記抽象化候補データの一個人と対応付けられた異なる項目の値の組み合わせが前記抽象化候補データ中で単一でないことを条件として匿名性を検定しても良い。   The test unit may test anonymity on condition that a combination of values of different items associated with one individual of the abstraction candidate data is not single in the abstraction candidate data.

前記検定部は、前記抽象化候補データの一個人と対応付けられた同じ項目の値の組み合わせが前記抽象化候補データ中で単一でないことを条件として多様性を検定しても良い。
前記語の価値は、ウェブサイト上で使用された語の統計情報に基づく値であっても良い。
上記課題を解決するため、本発明の情報処理装置は、
個人と対応付けられた複数の項目を含む対象データを受信するステップと、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求めるステップと、
前記抽象化候補データの一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定するステップと、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択するステップと
をコンピュータが実行する。
The test unit may test diversity on condition that a combination of values of the same item associated with one individual of the abstraction candidate data is not single in the abstraction candidate data.
The value of the word may be a value based on statistical information of the word used on the website.
In order to solve the above problems, an information processing apparatus of the present invention provides:
Receiving target data including a plurality of items associated with an individual;
Generating abstract candidate data by replacing words that are values of items in the target data with abstract words;
Receiving the value of the word included in the abstraction candidate data, and determining the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
Testing a condition that a combination of values of items corresponding to one individual of the abstraction candidate data is not single in the abstraction candidate data;
The computer executes a step of selecting the abstraction candidate data based on the value of the abstraction candidate data satisfying the test condition.

また、本発明は、上記方法をコンピュータに実行させるためのプログラムであっても良い。更に、前記プログラムは、コンピュータが読み取り可能な記録媒体に記録されていても良い。   The present invention may be a program for causing a computer to execute the above method. Furthermore, the program may be recorded on a computer-readable recording medium.

ここで、コンピュータが読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから
読み取ることができる記録媒体をいう。このような記録媒体の内コンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。
また、コンピュータに固定された記録媒体としてハードディスクやROM(リードオンリーメモリ)等がある。
Here, the computer-readable recording medium refers to a recording medium that accumulates information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from the computer. . Examples of such a recording medium that can be removed from the computer include a flexible disk, a magneto-optical disk, a CD-ROM, a CD-R / W, a DVD, a DAT, an 8 mm tape, and a memory card.
Further, there are a hard disk, a ROM (read only memory), and the like as a recording medium fixed to the computer.

本発明は、対象データを抽象化後の価値に基づいて処理し、匿名化する技術を提供できる。   The present invention can provide a technique for processing and anonymizing target data based on the value after abstraction.

図1は、情報処理装置の機能ブロック図である。FIG. 1 is a functional block diagram of the information processing apparatus. 図2は、匿名化処理の説明図である。FIG. 2 is an explanatory diagram of the anonymization process. 図3は、多様化処理の説明図である。FIG. 3 is an explanatory diagram of the diversification process. 図4は、情報処理装置のハードウェア構成を示す図である。FIG. 4 is a diagram illustrating a hardware configuration of the information processing apparatus. 図5は、抽象化後のデータの価値を用いた匿名化処理の説明図である。FIG. 5 is an explanatory diagram of anonymization processing using the value of data after abstraction. 図6は、候補パターンの説明図である。FIG. 6 is an explanatory diagram of candidate patterns. 図7は、対象データにおける年齢の項目の一部の例を示す図である。FIG. 7 is a diagram illustrating an example of a part of the age item in the target data. 図8は、年齢について取得する価値データの一例を示す図である。FIG. 8 is a diagram illustrating an example of value data acquired for age. 図9は、年齢の項目の価値を示す図である。FIG. 9 is a diagram illustrating the value of the age item. 図10は、年齢の項目の価値を示す表である。FIG. 10 is a table showing the value of the item of age. 図11は、抽象化候補データにおける年齢の項目の一部の例を示す図である。FIG. 11 is a diagram illustrating an example of a part of the age item in the abstraction candidate data. 図12は、年代について取得する各ワードの価値データを示すである。FIG. 12 shows the value data of each word acquired for the age. 図13は、年代の項目の価値を示す図である。FIG. 13 is a diagram illustrating the value of the item of the age. 図14は、年齢の項目の価値を示す図である。FIG. 14 is a diagram illustrating the value of the age item. 図15は、実施形態1の変形例を示す匿名化処理の説明図である。FIG. 15 is an explanatory diagram of anonymization processing showing a modification of the first embodiment. 図16は、実施形態2を示す匿名化処理の説明図である。FIG. 16 is an explanatory diagram of the anonymization process according to the second embodiment. 図17は、未知語からカテゴリを取得する処理の説明図である。FIG. 17 is an explanatory diagram of processing for acquiring a category from an unknown word. 図18は、実施形態2の変形例を示す匿名化処理の説明図である。FIG. 18 is an explanatory diagram of anonymization processing showing a modification of the second embodiment.

以下、図面を参照して本発明を実施するための形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。
〈実施形態1〉
図1は、情報処理装置の機能ブロック図、図2は匿名化処理の説明図、図3は多様化処理の説明図である。本実施形態1の情報処理装置10は、処理対象の個人情報から個人が特定できないように匿名化を行うものである。
Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. The configuration of the following embodiment is an exemplification, and the present invention is not limited to the configuration of the embodiment.
<Embodiment 1>
FIG. 1 is a functional block diagram of the information processing apparatus, FIG. 2 is an explanatory diagram of anonymization processing, and FIG. 3 is an explanatory diagram of diversification processing. The information processing apparatus 10 according to the first embodiment performs anonymization so that an individual cannot be specified from personal information to be processed.

図2(A)は、姓、年齢、性別の項目を含む会員情報から姓の項目を削除した例を示す。図2(A)に示すように年齢が記載されている会員情報に16歳の女性が一人だけであると、16歳の女性が、この会員であることが分かった時点で、その人を特定できる。即ち、16歳・女性という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性がある。   FIG. 2A shows an example in which the last name item is deleted from the member information including the last name, age, and gender items. As shown in Fig. 2 (A), if there is only one 16-year-old woman in the member information in which the age is described, the person is identified when it turns out that the 16-year-old woman is this member. it can. That is, if there is only one person with the attribute of 16 years old and female, there is a possibility that an individual can be identified by comparing with other information.

図2(B)では、会員リストの年齢の記載を抽象化し、0代(10歳未満)、10代、20代のように年代別とした。しかし、この場合でも10代女性は一人だけであり、図2(A)と同様に個人が特定できてしまい匿名化としては不十分である。   In FIG. 2 (B), the description of the age in the member list is abstracted and classified by age, such as 0's (under 10 years), 10's, and 20's. However, even in this case, there is only one female teenager, and an individual can be specified as in FIG. 2A, which is insufficient for anonymization.

そこで、図2(C)では、更に抽象化し、10代以下(19歳以下)と20代のように
年代の区切りを変更した。図2(C)の場合、10代以下の女性が2人であり、[10代以下]及び[女性]という属性が単一では無くなる。このため前述のように16歳の女性が、この会員であることが分かったとしても、どちらが当該16歳女性のデータであるかは特定できない。このように同じ属性を持つ人がk人以上いる状態を、「k-匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。
Therefore, in FIG. 2 (C), it is further abstracted, and the age divisions are changed as in the teens and under (19 years old and under) and the 20s. In the case of FIG. 2 (C), there are two women in their teens and under, and the attributes of “under 10s” and [female] are not single. For this reason, even if it turns out that a 16-year-old woman is this member as mentioned above, it cannot be specified which is the data of the 16-year-old woman. A state in which there are k or more people having the same attribute in this way is referred to as “k-anonymity” and processing such data is referred to as “k-anonymization”.

図3は、ユーザ毎の利用駅のデータを抽象化し、ユーザ毎の利用駅が属する区のデータとした例を示す。抽象化前のデータでは、駅が特定されているために、住居が新宿駅付近で勤務地が東京駅付近といったデータと照らし合わせることでユーザを特定できる可能性がある。このため利用駅を抽象化して、利用駅が属する区とすることで、新宿区内の駅と千代田区内の駅を利用するユーザが複数となり、利用者が特定されなくなる。このように「新宿区内の駅と千代田区内の駅を利用する」のように属性値がl種類の可能性を持つよう抽象化することをl−多様化と称する。   FIG. 3 shows an example in which the data of the use station for each user is abstracted and used as the data of the ward to which the use station for each user belongs. In the pre-abstraction data, since the station is specified, there is a possibility that the user can be specified by comparing the data such as the residence near Shinjuku Station and the work place near Tokyo Station. For this reason, by abstracting the use station and making it a ward to which the use station belongs, there are a plurality of users who use stations in Shinjuku ward and stations in Chiyoda ward, and the user is not specified. The abstraction that attribute values have l types of possibilities, such as “use stations in Shinjuku ward and stations in Chiyoda ward” is called l-diversification.

情報処理装置10は、図1に示すように、抽象化部11、価値判定部12、検定部13選択部14、データ更新部15、データ受付部16、価値データ取得部17、ワードカテゴリ分析部18、ワード価値計算部19、データ出力部40を備えている。   As shown in FIG. 1, the information processing apparatus 10 includes an abstraction unit 11, a value determination unit 12, a test unit 13 selection unit 14, a data update unit 15, a data reception unit 16, a value data acquisition unit 17, and a word category analysis unit. 18, a word value calculator 19 and a data output unit 40 are provided.

データ受付部16は、個人と対応付けられた複数の項目を含む対象データを受信し、検定用DB(データベース)41に記憶させる。   The data receiving unit 16 receives target data including a plurality of items associated with an individual, and stores the data in a test DB (database) 41.

抽象化部11は、対象データを匿名化或いは多様化する際に、対象データ中の項目の値であるワード(語)を抽象化したワードに替えて抽象化候補データを生成する。本実施形態においてワード(語)は、単語や句など、一まとまりの言葉であり、位置情報や電話番号等の数値、メールアドレスやIPアドレス等の識別情報、言葉と同様の意味を持つ記号等を含んでも良い。
価値判定部12は、抽象化候補データに含まれるワードの価値に基づいて当該抽象化候補データの価値を求める。
When the target data is anonymized or diversified, the abstraction unit 11 generates abstract candidate data by replacing words (words) that are values of items in the target data with abstracted words. In this embodiment, a word (word) is a group of words such as a word or a phrase, a numerical value such as location information or a telephone number, identification information such as an e-mail address or an IP address, a symbol having the same meaning as the word, or the like. May be included.
The value determination unit 12 obtains the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data.

検定部13は、抽象化候補データの一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定する。例えば検定部13は、抽象化候補データがk−匿名性を満たしているか、l−多様性を満たしているかを検定する。   The test unit 13 performs test on the condition that the combination of the values of items corresponding to one individual of the abstraction candidate data is not single in the abstraction candidate data. For example, the test unit 13 tests whether the abstraction candidate data satisfies k-anonymity or l-diversity.

選択部14は、前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択する。例えば、選択部14は、k−匿名性やl−多様性を満たした抽象化候補データを価値が高い順に所定数選択する。また、選択部14は、k−匿名性やl−多様性を満たした抽象化候補データのうち、最も価値が高い抽象化候補データを選択しても良い。   The selection unit 14 selects the abstraction candidate data based on the value of the abstraction candidate data that satisfies the test condition. For example, the selection unit 14 selects a predetermined number of abstraction candidate data satisfying k-anonymity and l-diversity in descending order of value. The selection unit 14 may select abstraction candidate data having the highest value among the abstraction candidate data satisfying k-anonymity and l-diversity.

データ更新部15は、選択部14で選択された抽象化候補データに基づき、検定用DB41の個人情報のうち個人が特定される項目の値を抽象化した値に更新して匿名化情報とする。   Based on the abstraction candidate data selected by the selection unit 14, the data update unit 15 updates the value of the item that identifies the individual in the personal information in the test DB 41 to an abstracted value to obtain anonymized information. .

価値データ取得部17は、抽象化候補データに含まれるワードの価値データを検索情報蓄積DBから取得(受信)する。また、価値データ取得部17は、検索情報蓄積DBに前記ワードの価値データが登録されていない場合に、他の装置にリクエストし、取得した価値データを検索情報蓄積DBに登録する機能(データリクエスト)や、定期的に他の装置を巡回して最新の価値データを取得し、検索情報蓄積DBに登録されている価値データを更新する機能(データクローラ)を有する。本実施形態では、この価値データとして検索エンジン20から各ワードの統計情報を受信する。ここで、各ワードの統計情報は、例え
ばSEMの広告単価(クリック単価)や、クリック率、平均掲載順位、1日の表示回数、1日のクリック数等である。なお、価値の取得先は、検索エンジンに限らず、ウェブページやSNS等であっても良い。この場合、例えばウェブページやSNSにおける各ワードの使用頻度を価値としても良い。
The value data acquisition unit 17 acquires (receives) word value data included in the abstraction candidate data from the search information storage DB. Further, the value data acquisition unit 17 makes a request to another device when the value data of the word is not registered in the search information storage DB, and registers the acquired value data in the search information storage DB (data request ) And periodically visit other devices to acquire the latest value data and update the value data registered in the search information storage DB (data crawler). In this embodiment, the statistical information of each word is received from the search engine 20 as this value data. Here, the statistical information of each word includes, for example, an SEM advertising unit price (unit price per click), a click rate, an average ranking, the number of display times per day, the number of clicks per day, and the like. Note that the value acquisition destination is not limited to a search engine, and may be a web page, an SNS, or the like. In this case, for example, the use frequency of each word in a web page or SNS may be used as the value.

ワードカテゴリ分析部18は、ウェブサイト等のデータを分析して、新規のワードや、当該ワードを抽象化したワード(カテゴリ)を求め、検索情報蓄積DBに登録する。   The word category analysis unit 18 analyzes data on a website or the like to obtain a new word or a word (category) obtained by abstracting the word and registers it in the search information storage DB.

価値計算部19は、価値データ取得部17で取得したワードの価値に基づき、ワードの価値の年平均や月平均、週平均など、ワードの価値の統計情報を求める。   Based on the value of the word acquired by the value data acquisition unit 17, the value calculation unit 19 obtains statistical information on the value of the word such as an annual average, a monthly average, and a weekly average of the word value.

データ出力部40は、検定用DB41から匿名化情報を読み出して出力する。ここで、匿名化情報の出力とは、表示装置による表示出力や、プリンタによる印刷出力、他のコンピュータへの送信、記憶媒体への書き込み等である。例えばデータ更新部15は、リクエストに応じてユーザの端末へ匿名化情報を配信することや、所定の配信先に匿名化情報を配信すること等を行う。なお、データ出力部40は、匿名化の処理が完了した時点で匿名化情報を匿名化完了DB(不図示)にコピーし、匿名化完了DBから読み出して出力しても良い。   The data output unit 40 reads out anonymization information from the test DB 41 and outputs it. Here, the output of anonymization information includes display output by a display device, print output by a printer, transmission to another computer, writing to a storage medium, and the like. For example, the data update unit 15 distributes the anonymized information to the user terminal in response to the request, distributes the anonymized information to a predetermined distribution destination, and the like. Note that the data output unit 40 may copy the anonymization information to the anonymization completion DB (not shown) when the anonymization process is completed, and read and output the anonymization completion DB from the anonymization completion DB.

検定用DB41は、個人情報(対象データ)が入力され、当該個人情報を検定用に供すと共に、データ更新部15により個人が特定されるデータが書き換えられ、匿名化した匿名化情報を保持する。   The verification DB 41 receives personal information (target data), provides the personal information for verification, and retains anonymized information that is anonymized by rewriting data that identifies the individual by the data update unit 15.

検索情報蓄積DB42は、価値データ取得部17で取得したワードの価値や、ワードカテゴリ分析部18で求めたワードやカテゴリの情報、価値計算部19で求めた価値の統計情報などを記憶する。   The search information storage DB 42 stores the value of the word acquired by the value data acquisition unit 17, information of the word and category obtained by the word category analysis unit 18, statistical information of the value obtained by the value calculation unit 19, and the like.

また、図1中、検索エンジン20は、インターネット等のネットワーク上に存在する情報の検索機能を提供するサイト(コンピュータ)である。即ち、検索エンジン20は、ユーザ端末から検索するキーワードを受信すると、このキーワードを含むウェブページのURL等のリストを検索結果として提供し、ユーザ端末に表示させる。   In FIG. 1, a search engine 20 is a site (computer) that provides a search function for information existing on a network such as the Internet. That is, when the search engine 20 receives a keyword to be searched from the user terminal, the search engine 20 provides a list such as a URL of a web page including the keyword as a search result, and displays it on the user terminal.

また、検索エンジン20は、この検索機能を利用し、検索結果にキーワードと連動した広告を表示させることや、キーワードに応じた広告料を支払ったスポンサーサイトへのリンクを表示させることも行う。このため、検索エンジン20は、検索されたワード毎に、1日の検索回数(表示回数)、検索結果の広告がクリックされた回数(クリック数)、1クリック当たりの広告料(クリック単価)等をワードの統計情報として記憶する。   In addition, the search engine 20 uses this search function to display an advertisement linked to a keyword in a search result, or to display a link to a sponsor site that has paid an advertisement fee according to the keyword. For this reason, the search engine 20 uses the number of searches per day (display count), the number of clicks on the search result advertisement (clicks), the advertising fee per click (cost per click), etc. Are stored as word statistics.

また、これらの情報に基づき、検索エンジン20は、表示回数をクリック数で除したクリック率や、1日のクリック数にクリック単価を乗じた値(1日の費用)、広告の申し込み時(広告オークション時)に提示した費用に応じた広告の掲載順位等も求める。   Based on this information, the search engine 20 determines the click rate obtained by dividing the number of display times by the number of clicks, the value obtained by multiplying the number of clicks per day by the cost per click (cost per day), the time of application for an advertisement (advertisement) Also ask for the ranking of the advertisement according to the cost presented at the time of the auction.

検索エンジン20は、情報処理装置10に対し、上記クリック数、表示回数、掲載順位、1日の費用、クリック率、クリック単価等の情報を提供するデータ出力部21や、これらワードに関する情報を記憶する検索ワード蓄積DB22、検索結果と共に配信する広告の情報を記憶する検索広告配信DB23を備える。   The search engine 20 stores information related to the word, such as the number of clicks, the number of times of display, the ranking, the cost of the day, the click rate, the unit price of clicks, etc. A search word storage DB 22 that stores information on advertisements distributed together with search results.

図4は情報処理装置のハードウェア構成を示す図である。情報処理装置10は、CPU1、メモリ2、通信制御部3、記憶装置4、入出力インタフェース5を有する所謂コンピュータである。   FIG. 4 is a diagram illustrating a hardware configuration of the information processing apparatus. The information processing apparatus 10 is a so-called computer having a CPU 1, a memory 2, a communication control unit 3, a storage device 4, and an input / output interface 5.

CPU1は、メモリ2に実行可能に展開されたプログラムを実行し、前述の抽象化部11、価値判定部12、検定部13、選択部14、データ更新部15、データ受付部16、価値データ取得部17、ワードカテゴリ分析部18、ワード価値計算部19、データ出力部40の機能を提供する。   The CPU 1 executes the program expanded in an executable manner in the memory 2, and the above-described abstraction unit 11, value determination unit 12, test unit 13, selection unit 14, data update unit 15, data reception unit 16, value data acquisition The function of the part 17, the word category analysis part 18, the word value calculation part 19, and the data output part 40 is provided.

メモリ2は、主記憶装置ということもできる。メモリ2は、例えば、CPU1が実行するプログラムや、通信制御部3を介して受信したデータ、記憶装置4から読み出したデータ、その他のデータ等を記憶する。   The memory 2 can also be called a main storage device. The memory 2 stores, for example, a program executed by the CPU 1, data received via the communication control unit 3, data read from the storage device 4, other data, and the like.

通信制御部3は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース5は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、USBメモリを接続するUSBのアダプタ等である。また、着脱可能な記憶媒体は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray Disc(登録商標))等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置4に格納する。 The communication control unit 3 is connected to another device via a network and controls communication with the device. The input / output interface 5 is appropriately connected to output means such as a display device and a printer, input means such as a keyboard and pointing device, and input / output means such as a drive device. The drive device is a removable storage medium read / write device, such as an input / output device for a flash memory card, a USB adapter for connecting a USB memory, or the like. Further, the removable storage medium may be a disk medium such as a CD (Compact Disc), a DVD (Digital Versatile Disk), or a Blu-ray Disc (registered trademark) . The drive device reads the program from the removable storage medium and stores it in the storage device 4.

記憶装置4は、外部記憶装置ということもできる。記憶装置4としては、SSD(Solid State Drive)やHDD等であってもよい。記憶装置4は、ドライブ装置との間で、デ
ータを授受する。例えば、記憶装置4は、ドライブ装置からインストールされる情報処理プログラム等を記憶する。また、記憶装置4は、プログラムを読み出し、メモリ2に引き渡す。本実施形態では、記憶装置4が前述の検定用DB41や検索情報蓄積DB42を格納している。
The storage device 4 can also be called an external storage device. The storage device 4 may be an SSD (Solid State Drive), an HDD, or the like. The storage device 4 exchanges data with the drive device. For example, the storage device 4 stores an information processing program installed from the drive device. The storage device 4 reads out the program and delivers it to the memory 2. In the present embodiment, the storage device 4 stores the test DB 41 and the search information accumulation DB 42 described above.

図5は、抽象化後のデータの価値を用いた匿名化処理の説明図である。情報処理装置10は、先ず他のコンピュータ或いは記憶装置から対象データを取得(受信)し(ステップS10)、対象データが所定形式となるよう正規化して、検定用DB41に登録する(ステップS20)。   FIG. 5 is an explanatory diagram of anonymization processing using the value of data after abstraction. The information processing apparatus 10 first acquires (receives) target data from another computer or storage device (step S10), normalizes the target data to be in a predetermined format, and registers it in the verification DB 41 (step S20).

情報処理装置10は、検定用DB41から対象データを読み出し(ステップS30)、対象データ中の各ワードについて、価値データが検索情報蓄積DB42に存在するか否かを判定する(ステップS40)。情報処理装置10は、全てのワードの価値データが検索情報蓄積DB42に存在する場合にはステップS60へ移行し(ステップS40,Yes)、足りない価値データがある場合(ステップS40,No)、当該ワードの価値データを外部の装置、本例では検索エンジン20から取得する(ステップS50)。なお、検索エンジンから取得した価値データ以外、即ち検索情報蓄積DB42に存在したワードの価値情報は、検索情報蓄積DB42から取得する(ステップS60)。   The information processing apparatus 10 reads the target data from the verification DB 41 (step S30), and determines whether or not value data exists in the search information storage DB 42 for each word in the target data (step S40). The information processing apparatus 10 proceeds to step S60 when all word value data exists in the search information storage DB 42 (step S40, Yes), and when there is insufficient value data (step S40, No), Word value data is obtained from an external device, in this example, the search engine 20 (step S50). Note that the value information of the words existing in the search information storage DB 42 other than the value data acquired from the search engine is acquired from the search information storage DB 42 (step S60).

また、情報処理装置10は、匿名性を満たすため対象データの各項目を抽象化したワード(カテゴリ)に置き換えて抽象化候補データを作成する(ステップS70)。なお、抽象化可能な項目が複数存在する場合には、各項目を抽象化した場合と抽象化しない場合の全てのパターンを作成する。例えば対象データに三つの項目A,B,Cが含まれ、全項目について抽象化が可能で、抽象化した項目をA´,B´,C´とした場合、図6に示すように、項目Aだけを抽象化した場合A´,B,C、項目A,Bを抽象化した場合A´,B´,Cなど、六つの候補パターンが作成できる。   Further, the information processing apparatus 10 creates abstraction candidate data by replacing each item of the target data with an abstracted word (category) in order to satisfy anonymity (step S70). When there are a plurality of items that can be abstracted, all patterns are created when each item is abstracted and when it is not abstracted. For example, if the target data includes three items A, B, and C and all items can be abstracted, and the abstracted items are A ′, B ′, and C ′, as shown in FIG. Six candidate patterns can be created, such as A ′, B, C when only A is abstracted, and A ′, B ′, C when items A and B are abstracted.

次に情報処理装置10は、抽象化候補データに含まれる各ワードの価値データに基づいて各パターンの抽象化候補データの価値を算出し(ステップS80)、この抽象化候補デ
ータの価値に基づいて検定の順番を決定する(ステップS90)。例えばこの価値が高い順(降順)に検定の順番を決定する。なお、全ての候補パターンについて検定を行うことが望ましいが、この抽象化候補データの価値に基づき、価値の低過ぎる抽象化候補データを順番から外しても良い。例えば、価値の高い順番で、所定番目以降或いは半分未満など所定割合未満の抽象化候補データを外しても良い。また、抽象化候補データの価値が対象データの価値に対して所定割合未満となった抽象化候補データを外しても良い。これにより検定数が少なくなり、処理時間の短縮化が図れる。
Next, the information processing apparatus 10 calculates the value of the abstraction candidate data of each pattern based on the value data of each word included in the abstraction candidate data (step S80), and based on the value of this abstraction candidate data. The order of testing is determined (step S90). For example, the test order is determined in descending order of the value. Although it is desirable to test all candidate patterns, abstract candidate data that is too low in value may be removed from the order based on the value of the abstract candidate data. For example, abstract candidate data less than a predetermined ratio, such as after a predetermined value or less than half, may be removed in order of value. Further, the abstraction candidate data whose value is less than a predetermined ratio with respect to the value of the target data may be excluded. This reduces the number of tests and shortens the processing time.

この検定の順番に従い、情報処理装置10は、抽象化候補データの匿名性を検定する(ステップS100)。例えば、k−匿名性を検定するため、一個人と対応付けられた異なる項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。或いは、l多様性を検定するため、一個人と対応付けられた同じ項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。そして、この存在数のうち最小のものを最低出現数(k値/l値)として求め(ステップS110)、この最低出現数が1を超えているか否かを判定する(ステップS120)。即ち、ここでk値が1を超えていればk−匿名性を満たし、1であればk−匿名性を満たさない。同様にl値が1を超えていればl−多様性を満たし、1であればl−多様性を満たさない。   In accordance with the order of this test, the information processing apparatus 10 tests the anonymity of the abstraction candidate data (step S100). For example, in order to test k-anonymity, the number (existence number) of combinations of values of different items associated with one individual is present in the abstraction candidate data. Alternatively, in order to test 1 diversity, the number (existence number) in which the combination of values of the same item associated with one individual exists in the abstraction candidate data is obtained. Then, the smallest of the existence numbers is obtained as the minimum number of appearances (k value / l value) (step S110), and it is determined whether or not the minimum number of appearances exceeds 1 (step S120). That is, if the k value exceeds 1, k-anonymity is satisfied, and if it is 1, k-anonymity is not satisfied. Similarly, if the l value exceeds 1, l-diversity is satisfied, and if l value is 1, l-diversity is not satisfied.

最低出現数(k値/l値)が1を超えていない場合(ステップS120,No)、情報処理装置10は、抽象化候補データのうち、少なくとも一つの項目の値を更に抽象化する、即ち抽象化したワードに置き換え(ステップS130)、ステップS100に戻る。   When the minimum number of appearances (k value / l value) does not exceed 1 (step S120, No), the information processing apparatus 10 further abstracts the value of at least one item of the abstraction candidate data. Replacing with the abstracted word (step S130), the process returns to step S100.

一方、最低出現数(k値/l値)が1を超えている場合(ステップS120,Yes)、情報処理装置10は、当該抽象化候補データの価値と元の対象データの価値との差分を求め(ステップS140)、この差分や、この差分に基づく値、例えば対象データの価値に対する差分の割合、対象データの価値に対する抽象化候補データの価値の割合を当該抽象化候補データの価値として決定する(ステップS150)。   On the other hand, when the minimum number of appearances (k value / l value) exceeds 1 (step S120, Yes), the information processing apparatus 10 calculates the difference between the value of the abstraction candidate data and the value of the original target data. Obtain (Step S140), and determine the difference, a value based on the difference, for example, the ratio of the difference to the value of the target data, and the ratio of the value of the abstract candidate data to the value of the target data as the value of the abstract candidate data. (Step S150).

また、情報処理装置10は、検定していない候補パターンがあるか否かを判定し(ステップS160)、検定していない候補パターンがあれば(ステップS160,Yes)、ステップS90で決定した順番に従って、次の順番の抽象化候補データを特定し(ステップS170)、ステップS100に戻って次の抽象化候補データについて検定を行う。   Further, the information processing apparatus 10 determines whether there is a candidate pattern that has not been verified (step S160). If there is a candidate pattern that has not been verified (step S160, Yes), the information processing apparatus 10 follows the order determined in step S90. Then, the next abstraction candidate data is specified (step S170), and the process returns to step S100 to test the next abstraction candidate data.

このように各パターンの抽象化候補データについて検定を繰り返し、次の候補パターンが無くなった場合(ステップS160,No)、情報処理装置10は、ステップS150で求各抽象化候補データの価値に基づいて、採用すべき抽象化候補データを選択し(ステップS180)、選択した抽象化候補データに基づいて検定用DB41の対象データを更新して(ステップS190)、処理を終了する。   Thus, when the test is repeated for the abstraction candidate data of each pattern and the next candidate pattern disappears (step S160, No), the information processing apparatus 10 determines based on the value of each abstraction candidate data obtained in step S150. Then, the abstraction candidate data to be adopted is selected (step S180), the target data in the test DB 41 is updated based on the selected abstraction candidate data (step S190), and the process ends.

抽象化候補データの選択は、例えば、全候補パターンの中で最も価値の高い抽象化候補データを選択する。また、情報処理装置10は、全候補パターンの中から価値の高い順に複数の抽象化候補データを出力し、この出力された抽象化候補データの中から操作者が適切だと思う抽象化候補データを指定し、この指定された抽象化候補データを選択しても良い。なお、検定用DB41の更新は、選択された抽象化候補データで対象データを上書きして匿名化データとしても良いし、対象データ中のワードを選択された抽象化候補データと同じように抽象化することで匿名化データとしても良い。   In the selection of the abstraction candidate data, for example, the abstraction candidate data having the highest value among all candidate patterns is selected. The information processing apparatus 10 outputs a plurality of abstraction candidate data in descending order of value from all candidate patterns, and the abstraction candidate data that the operator thinks is appropriate from the output abstraction candidate data May be selected, and the specified abstraction candidate data may be selected. The test DB 41 may be updated by overwriting the target data with the selected abstraction candidate data to be anonymized data, or a word in the target data may be abstracted in the same way as the selected abstraction candidate data. It is good also as anonymized data by doing.

次に図7−図14を用いて本実施形態におけるデータの価値について説明する。図7は対象データにおける年齢の項目の一部の例を示す図である。図7に示すように対象データは、年齢si毎に人数ciを有している。例えば、18歳(s1)の人数(c1)が30
人、19歳(s2)の人数(c2)が10人である。
Next, the value of data in the present embodiment will be described with reference to FIGS. FIG. 7 is a diagram illustrating an example of a part of the age item in the target data. As shown in FIG. 7, the target data has the number of people ci for each age si. For example, the number of people (c1) who are 18 years old (s1) is 30
There are 10 people (c2) who are 19 years old (s2).

図8は、年齢siについて取得する価値データの一例を示す。図8の価値データは、年齢si毎にSEM単価eiを有している。
この年齢siの価値は、SEM単価eiに人数ciを乗じた値であり、式1で示される。
si=ci×ei ・・・(式1)
そして、図9に示すように年齢の項目S(e)の価値は、各年齢siの総計であり、式2で示される。なお、図9においてnは5である。従って、年齢の項目S(e)の価値は、図10に示すように、2446円である。また、対象データにおける全ての項目の価値を合計したものが対象データの価値である。
FIG. 8 shows an example of value data acquired for the age si. The value data in FIG. 8 has a SEM unit price ei for each age si.
The value of this age si is a value obtained by multiplying the SEM unit price ei by the number of people ci, and is represented by Equation 1.
si = ci × ei (Formula 1)
As shown in FIG. 9, the value of the age item S (e) is the total of each age si, and is expressed by Equation 2. In FIG. 9, n is 5. Therefore, the value of the age item S (e) is 2446 yen as shown in FIG. The value of the target data is the sum of the values of all items in the target data.

一方、図11は抽象化候補データにおける年齢の項目の一部の例を示す図である。図11に示すように抽象化候補データは、年代ki毎に人数ciを有している。例えば、10代(k1)の人数(c1)が40人、20代(k2)の人数(c2)が22人である。   On the other hand, FIG. 11 is a diagram showing an example of a part of the age item in the abstraction candidate data. As shown in FIG. 11, the abstraction candidate data has the number of people ci for each age ki. For example, the number of teenagers (k1) (c1) is 40, and the number of people in their 20s (k2) (c2) is 22.

図12は、年代kiについて取得する各ワードの価値データの一例を示す。図12の価値データは、年代ki毎にSEM単価eiを有している。
この年代kiの価値は、SEM単価eiに人数ciを乗じた値であり、式3で示される。
ki=ci×ei ・・・(式3)
そして、図13に示すように年代の項目S(k)の価値は、各年代kiの総計であり、式4で示される。なお、図13においてnは2である。従って、年齢の項目S(k)の価値は、図14に示すように、2134円である。即ち、年齢の項目を年代に抽象化したことにより、価値が312円減損したことになる。また、抽象化候補データにおける全ての項目の価値を合計したものが抽象化候補データの価値である。
FIG. 12 shows an example of value data of each word acquired for the age ki. The value data in FIG. 12 has a SEM unit price ei for each age ki.
The value of this age ki is a value obtained by multiplying the SEM unit price ei by the number of people ci, and is expressed by Equation 3.
ki = ci × ei (Formula 3)
Then, as shown in FIG. 13, the value of the item S (k) of the age is the total of each age ki, and is expressed by Equation 4. In FIG. 13, n is 2. Therefore, the value of the age item S (k) is 2134 yen as shown in FIG. In other words, the value was lost by 312 yen by abstracting the age item into the age. Further, the sum of the values of all items in the abstraction candidate data is the value of the abstraction candidate data.

そして、ステップS150で求める抽象化候補データの価値として、例えば式5に示すように、抽象化候補データの価値を抽象化候補データの価値と対象データの価値の合計で除した減損率M(k)を求める。
M(k)=S(k)/(S(k)+S(e)) ・・・(式5)
このように本実施形態の情報処理装置10は、各抽象化候補データの価値を抽象化したワードの価値に基づいて評価することにより、精度良く各抽象化候補データの価値を評価でき、抽象化後も高い価値を有する抽象化候補データを選択できるので、適切な匿名化処理を行うことができる。
〈変形例〉
上記実施形態1では、検定用DBに登録されている対象データを更新する処理を示したが、これに限らず受信した対象データを順次処理して配信する構成としても良い。図15は、この変形例を示す匿名化処理の説明図である。なお、本変形例は、前述の実施形態1と比べ、図15に示す匿名化処理の流れが異なり、その他の構成は同じである。例えば情報処理装置10のハードウェア構成などは同じであり再度の説明は省略する。
Then, as the value of the abstraction candidate data obtained in step S150, for example, as shown in Equation 5, an impairment rate M (k that is obtained by dividing the value of the abstraction candidate data by the sum of the value of the abstraction candidate data and the value of the target data. )
M (k) = S (k) / (S (k) + S (e)) (Formula 5)
As described above, the information processing apparatus 10 according to the present embodiment can evaluate the value of each abstraction candidate data with high accuracy by evaluating the value of each abstraction candidate data based on the value of the abstracted word. Since abstract candidate data having high value can be selected later, appropriate anonymization processing can be performed.
<Modification>
In the first embodiment, the process of updating the target data registered in the verification DB is shown. However, the present invention is not limited to this, and the received target data may be sequentially processed and distributed. FIG. 15 is an explanatory diagram of anonymization processing showing this modification. In addition, this modification differs in the flow of the anonymization process shown in FIG. 15 compared with the above-mentioned Embodiment 1, and the other structure is the same. For example, the hardware configuration of the information processing apparatus 10 is the same, and the description thereof is omitted.

情報処理装置10は、先ずユーザ端末或いは他のコンピュータから対象データを取得(受信)し(ステップS10)、対象データが所定形式となるよう正規化して、メモリ2に格納する(ステップS25)。   The information processing apparatus 10 first acquires (receives) target data from the user terminal or another computer (step S10), normalizes the target data into a predetermined format, and stores it in the memory 2 (step S25).

情報処理装置10は、メモリ2から対象データを読み出し(ステップS30)、対象データ中の各ワードについて、価値データが検索情報蓄積DB42に存在するか否かを判定する(ステップS40)。情報処理装置10は、全てのワードの価値データが検索情報蓄積DB42に存在する場合にはステップS60へ移行し(ステップS40,Yes)、足
りない価値データがある場合(ステップS40,No)、当該ワードの価値データを外部の装置、本例では検索エンジン20から取得する(ステップS50)。なお、検索エンジンから取得した価値データ以外、即ち検索情報蓄積DB42に存在したワードの価値情報は、検索情報蓄積DB42から取得する(ステップS60)。
The information processing apparatus 10 reads the target data from the memory 2 (step S30), and determines whether value data exists in the search information storage DB 42 for each word in the target data (step S40). The information processing apparatus 10 proceeds to step S60 when all word value data exists in the search information storage DB 42 (step S40, Yes), and when there is insufficient value data (step S40, No), Word value data is obtained from an external device, in this example, the search engine 20 (step S50). Note that the value information of the words existing in the search information storage DB 42 other than the value data acquired from the search engine is acquired from the search information storage DB 42 (step S60).

また、情報処理装置10は、匿名性を満たすため対象データの各項目を抽象化したワード(カテゴリ)に置き換えて抽象化候補データを作成する(ステップS70)。なお、抽象化可能な項目が複数存在する場合には、各項目を抽象化した場合と抽象化しない場合の全てのパターンを作成する。   Further, the information processing apparatus 10 creates abstraction candidate data by replacing each item of the target data with an abstracted word (category) in order to satisfy anonymity (step S70). When there are a plurality of items that can be abstracted, all patterns are created when each item is abstracted and when it is not abstracted.

次に情報処理装置10は、抽象化候補データに含まれる各ワードの価値データに基づいて各パターンの抽象化候補データの価値を算出し(ステップS80)、この抽象化候補データの価値に基づいて検定を行う抽象化候補データを決定する(ステップS95)。抽象化候補データの決定は、例えば、全候補パターンの中で最も価値の高い抽象化候補データに決定する。また、情報処理装置10は、全候補パターンの中から価値の高い順に複数の抽象化候補データを出力し、この出力された抽象化候補データの中から操作者が適切だと思う抽象化候補データを指定し、この指定された抽象化候補データに決定しても良い。   Next, the information processing apparatus 10 calculates the value of the abstraction candidate data of each pattern based on the value data of each word included in the abstraction candidate data (step S80), and based on the value of this abstraction candidate data. Abstraction candidate data to be tested is determined (step S95). The abstraction candidate data is determined, for example, as abstraction candidate data having the highest value among all candidate patterns. The information processing apparatus 10 outputs a plurality of abstraction candidate data in descending order of value from all candidate patterns, and the abstraction candidate data that the operator thinks is appropriate from the output abstraction candidate data May be specified, and the specified abstraction candidate data may be determined.

この検定の順番に従い、情報処理装置10は、抽象化候補データの匿名性を検定する(ステップS100)。例えば、k−匿名性を検定するため、一個人と対応付けられた異なる項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。或いは、l多様性を検定するため、一個人と対応付けられた同じ項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。そして、この存在数のうち最小のものを最低出現数(k値/l値)として求め(ステップS110)、この最低出現数が1を超えているか否かを判定する(ステップS120)。   In accordance with the order of this test, the information processing apparatus 10 tests the anonymity of the abstraction candidate data (step S100). For example, in order to test k-anonymity, the number (existence number) of combinations of values of different items associated with one individual is present in the abstraction candidate data. Alternatively, in order to test 1 diversity, the number (existence number) in which the combination of values of the same item associated with one individual exists in the abstraction candidate data is obtained. Then, the smallest of the existence numbers is obtained as the minimum number of appearances (k value / l value) (step S110), and it is determined whether or not the minimum number of appearances exceeds 1 (step S120).

最低出現数(k値/l値)が1を超えていない場合(ステップS120,No)、情報処理装置10は、抽象化候補データのうち、少なくとも一つの項目の値を更に抽象化する、即ち抽象化したワードに置き換え(ステップS130)、ステップS100に戻る。   When the minimum number of appearances (k value / l value) does not exceed 1 (step S120, No), the information processing apparatus 10 further abstracts the value of at least one item of the abstraction candidate data. Replacing with the abstracted word (step S130), the process returns to step S100.

一方、最低出現数(k値/l値)が1を超えている場合(ステップS120,Yes)、情報処理装置10は、当該抽象化候補データを匿名化データとして配信する(ステップS145)。
このように本変形例によれば、適切な価値を有した匿名化データを即時に配信できる。
On the other hand, when the minimum appearance number (k value / l value) exceeds 1 (step S120, Yes), the information processing apparatus 10 distributes the abstraction candidate data as anonymized data (step S145).
As described above, according to the present modification, anonymized data having an appropriate value can be immediately distributed.

〈実施形態2〉
上記実施形態1では、検索情報蓄積DBに登録されているワードを用いて抽象化する処理を示したが、これに限らず検索情報蓄積DBに登録されていないワードを受信した場合に外部の装置から取得して抽象化する構成としても良い。図16は、この実施形態2を示す匿名化処理の説明図である。なお、本実施形態2は、前述の実施形態1と比べ、図16に示す匿名化処理の流れが異なり、その他の構成は同じである。例えば情報処理装置10のハードウェア構成などは同じであり再度の説明は省略する。
<Embodiment 2>
In the first embodiment, the abstraction process using the words registered in the search information storage DB has been described. However, the present invention is not limited to this, and an external device can be used when a word not registered in the search information storage DB is received. It is good also as a structure which acquires from and abstracts. FIG. 16 is an explanatory diagram of the anonymization process showing the second embodiment. In addition, this Embodiment 2 differs in the flow of the anonymization process shown in FIG. 16 compared with above-mentioned Embodiment 1, and the other structure is the same. For example, the hardware configuration of the information processing apparatus 10 is the same, and the description thereof is omitted.

情報処理装置10は、先ず他のコンピュータ或いは記憶装置から対象データを取得(受信)し(ステップS210)、対象データが所定形式となるよう正規化して、検定用DB41に登録する(ステップS220)。   The information processing apparatus 10 first acquires (receives) target data from another computer or storage device (step S210), normalizes the target data to be in a predetermined format, and registers it in the verification DB 41 (step S220).

情報処理装置10は、検定用DB41から対象データを読み出し(ステップS230)、対象データ中の各ワードが検索情報蓄積DB42に存在するか否かを判定する(ステップS240)。情報処理装置10は、全てのワードが検索情報蓄積DB42に存在する場
合にはステップS260へ移行し(ステップS240,Yes)、足りないワードがある場合(ステップS240,No)、当該ワードを抽象化したワード(カテゴリ)のデータを外部の装置、本例では検索エンジン20から取得する(ステップS250)。図17は、未知語からカテゴリを取得する処理の説明図である。図17に示すように、例えば「日本 太郎」という未知の氏名が対象データに含まれていた場合、この未知語を検索エンジ
ン20で検索し、検索結果のウェブページにおいて共起数の多いワードや距離の近いワードを抽出する。例えば「ドラマ」「退団」「チーム48」「俳優」「アイドル」「芸能人」などのワードが抽出された場合に、既知のシソーラスとの照合や自然語解析によりこれらのワードの関係を求め、前記未知語を抽象化したカテゴリを判定し、更にこのカテゴリを抽象化したカテゴリを判定する。例えば、「日本 太郎」→「チーム48」→「俳優」
→「芸能人」のように抽象化のレベルを定義する。
The information processing apparatus 10 reads the target data from the verification DB 41 (step S230), and determines whether each word in the target data exists in the search information storage DB 42 (step S240). When all the words exist in the search information storage DB 42, the information processing apparatus 10 proceeds to step S260 (step S240, Yes), and when there is a missing word (step S240, No), abstracts the word. The acquired word (category) data is acquired from an external device, in this example, the search engine 20 (step S250). FIG. 17 is an explanatory diagram of processing for acquiring a category from an unknown word. As shown in FIG. 17, for example, when an unknown name “Nippon Taro” is included in the target data, this unknown word is searched by the search engine 20, and a word with a large number of co-occurrence in the search result web page Extract words that are close to each other. For example, when words such as “drama”, “departure”, “team 48”, “actor”, “idol”, and “entertainer” are extracted, the relationship between these words is obtained by collation with a known thesaurus or natural language analysis. A category that abstracts an unknown word is determined, and a category that abstracts this category is determined. For example, “Taro Nihon” → “Team 48” → “Actor”
→ Define the level of abstraction like “celebrity”.

なお、検索エンジン20から取得したカテゴリ以外、即ち検索情報蓄積DB42に存在したカテゴリは、検索情報蓄積DB42から取得し、匿名性を満たすため対象データの各項目を抽象化したワード(カテゴリ)に置き換えて抽象化候補データを作成する(ステップS260)。なお、抽象化可能な項目が複数存在する場合には、各項目を抽象化した場合と抽象化しない場合の全てのパターンを作成する。   Note that categories other than the categories acquired from the search engine 20, that is, categories that existed in the search information storage DB 42, are acquired from the search information storage DB 42, and each item of the target data is replaced with an abstract word (category) to satisfy anonymity. Abstraction candidate data is created (step S260). When there are a plurality of items that can be abstracted, all patterns are created when each item is abstracted and when it is not abstracted.

次に情報処理装置10は、抽象化候補データに含まれる各ワードの価値データに基づいて各パターンの抽象化候補データの価値を算出し、この抽象化候補データの価値に基づいて検定の順番を決定する(ステップS270)。例えばこの価値が高い順(降順)に検定の順番を決定する。   Next, the information processing apparatus 10 calculates the value of the abstraction candidate data of each pattern based on the value data of each word included in the abstraction candidate data, and determines the order of the tests based on the value of the abstraction candidate data. Determine (step S270). For example, the test order is determined in descending order of the value.

この検定の順番に従い、情報処理装置10は、抽象化候補データの匿名性を検定する(ステップS280)。例えば、k−匿名性を検定するため、一個人と対応付けられた異なる項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。或いは、l多様性を検定するため、一個人と対応付けられた同じ項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。そして、この存在数のうち最小のものを最低出現数(k値/l値)として求め(ステップS290)、この最低出現数が1を超えているか否かを判定する(ステップS300)。   In accordance with the order of the verification, the information processing apparatus 10 verifies the anonymity of the abstraction candidate data (step S280). For example, in order to test k-anonymity, the number (existence number) of combinations of values of different items associated with one individual is present in the abstraction candidate data. Alternatively, in order to test 1 diversity, the number (existence number) in which the combination of values of the same item associated with one individual exists in the abstraction candidate data is obtained. Then, the smallest of the existence numbers is obtained as the minimum number of appearances (k value / l value) (step S290), and it is determined whether or not the minimum number of appearances exceeds 1 (step S300).

最低出現数(k値/l値)が1を超えていない場合(ステップS300,No)、情報処理装置10は、抽象化候補データのうち、少なくとも一つの項目の値を更に抽象化する、即ち抽象化したワードに置き換え(ステップS310)、ステップS280に戻る。   When the minimum number of appearances (k value / l value) does not exceed 1 (step S300, No), the information processing apparatus 10 further abstracts the value of at least one item of the abstraction candidate data, that is, Replacement with the abstracted word (step S310), the process returns to step S280.

一方、最低出現数(k値/l値)が1を超えている場合(ステップS300,Yes)、情報処理装置10は、当該抽象化候補データの価値と元の対象データの価値との差分や、この差分に基づく値、例えば対象データの価値に対する差分の割合、対象データの価値に対する抽象化候補データの価値の割合を当該抽象化候補データの価値として決定する(ステップS320)。   On the other hand, when the minimum number of appearances (k value / l value) exceeds 1 (step S300, Yes), the information processing apparatus 10 determines the difference between the value of the abstract candidate data and the value of the original target data, Then, a value based on the difference, for example, a ratio of the difference to the value of the target data and a ratio of the value of the abstraction candidate data to the value of the target data are determined as the value of the abstraction candidate data (step S320).

また、情報処理装置10は、検定していない候補パターンがあるか否かを判定し(ステップS330)、検定していない候補パターンがあれば(ステップS330,Yes)、ステップS270で決定した順番に従って、次の順番の抽象化候補データを特定し(ステップS340)、ステップS280に戻って次の抽象化候補データについて検定を行う。   Further, the information processing apparatus 10 determines whether there is a candidate pattern that has not been verified (step S330). If there is a candidate pattern that has not been verified (step S330, Yes), the information processing apparatus 10 follows the order determined in step S270. Next, the abstraction candidate data in the next order is specified (step S340), and the process returns to step S280 to test the next abstraction candidate data.

このように各パターンの抽象化候補データについて検定を繰り返し、次の候補パターンが無くなった場合(ステップS330,No)、情報処理装置10は、ステップS320で求めた各抽象化候補データの価値に基づいて、採用すべき抽象化候補データを選択し(ステップS340)、選択した抽象化候補データに基づいて検定用DB41の対象データ
を更新して(ステップS350)、処理を終了する。
In this way, when the test is repeated for the abstraction candidate data of each pattern and there is no next candidate pattern (No in step S330), the information processing apparatus 10 is based on the value of each abstraction candidate data obtained in step S320. Then, the abstraction candidate data to be adopted is selected (step S340), the target data of the test DB 41 is updated based on the selected abstraction candidate data (step S350), and the process is terminated.

このように本実施形態によれば、未知の項目についても他の装置からカテゴリを取得して抽象化を行うことができる。   As described above, according to the present embodiment, it is possible to abstract the unknown item by acquiring the category from another device.

〈変形例〉
上記実施形態2では、検定用DBに登録されている対象データを更新する処理を示したが、これに限らず受信した対象データを順次処理して配信する構成としても良い。図18は、この変形例を示す匿名化処理の説明図である。なお、本変形例は、前述の実施形態2と比べ、図18に示す匿名化処理の流れが異なり、その他の構成は同じである。例えば情報処理装置10のハードウェア構成などは同じであり再度の説明は省略する。
<Modification>
In the second embodiment, the process of updating the target data registered in the verification DB is shown. However, the present invention is not limited to this, and the received target data may be sequentially processed and distributed. FIG. 18 is an explanatory diagram of anonymization processing showing this modification. In addition, this modification differs in the flow of the anonymization process shown in FIG. 18 compared with the above-mentioned Embodiment 2, and the other structure is the same. For example, the hardware configuration of the information processing apparatus 10 is the same, and the description thereof is omitted.

情報処理装置10は、先ず他のコンピュータ或いは記憶装置から対象データを取得(受信)し(ステップS210)、対象データが所定形式となるよう正規化して、メモリ2に登録する(ステップS225)。   The information processing apparatus 10 first acquires (receives) target data from another computer or storage device (step S210), normalizes the target data to be in a predetermined format, and registers it in the memory 2 (step S225).

情報処理装置10は、検定用DB41から対象データを読み出し(ステップS230)、対象データ中の各ワードが検索情報蓄積DB42に存在するか否かを判定する(ステップS240)。情報処理装置10は、全てのワードが検索情報蓄積DB42に存在する場合にはステップS260へ移行し(ステップS240,Yes)、足りないワードがある場合(ステップS240,No)、当該ワードを抽象化したワード(カテゴリ)のデータを外部の装置、本例では検索エンジン20から取得する(ステップS250)。   The information processing apparatus 10 reads the target data from the verification DB 41 (step S230), and determines whether each word in the target data exists in the search information storage DB 42 (step S240). When all the words exist in the search information storage DB 42, the information processing apparatus 10 proceeds to step S260 (step S240, Yes), and when there is a missing word (step S240, No), abstracts the word. The acquired word (category) data is acquired from an external device, in this example, the search engine 20 (step S250).

なお、検索エンジン20から取得したカテゴリ以外、即ち検索情報蓄積DB42に存在したカテゴリは、検索情報蓄積DB42から取得し、匿名性を満たすため対象データの各項目を抽象化したワード(カテゴリ)に置き換えて抽象化候補データを作成する(ステップS260)。なお、抽象化可能な項目が複数存在する場合には、各項目を抽象化した場合と抽象化しない場合の全てのパターンを作成する。   Note that categories other than the categories acquired from the search engine 20, that is, categories that existed in the search information storage DB 42, are acquired from the search information storage DB 42, and each item of the target data is replaced with an abstract word (category) to satisfy anonymity. Abstraction candidate data is created (step S260). When there are a plurality of items that can be abstracted, all patterns are created when each item is abstracted and when it is not abstracted.

次に情報処理装置10は、抽象化候補データに含まれる各ワードの価値データに基づいて各パターンの抽象化候補データの価値を算出し、この抽象化候補データの価値に基づいて検定を行う抽象化候補データを決定する(ステップS275)。抽象化候補データの決定は、例えば、全候補パターンの中で最も価値の高い抽象化候補データに決定する。また、情報処理装置10は、全候補パターンの中から価値の高い順に複数の抽象化候補データを出力し、この出力された抽象化候補データの中から操作者が適切だと思う抽象化候補データを指定し、この指定された抽象化候補データに決定しても良い。   Next, the information processing apparatus 10 calculates the value of the abstraction candidate data of each pattern based on the value data of each word included in the abstraction candidate data, and performs the test based on the value of the abstraction candidate data. Candidate data is determined (step S275). The abstraction candidate data is determined, for example, as abstraction candidate data having the highest value among all candidate patterns. The information processing apparatus 10 outputs a plurality of abstraction candidate data in descending order of value from all candidate patterns, and the abstraction candidate data that the operator thinks is appropriate from the output abstraction candidate data May be specified, and the specified abstraction candidate data may be determined.

この検定の順番に従い、情報処理装置10は、抽象化候補データの匿名性を検定する(ステップS280)。例えば、k−匿名性を検定するため、一個人と対応付けられた異なる項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。或いは、l多様性を検定するため、一個人と対応付けられた同じ項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。そして、この存在数のうち最小のものを最低出現数(k値/l値)として求め(ステップS290)、この最低出現数が1を超えているか否かを判定する(ステップS300)。   In accordance with the order of the verification, the information processing apparatus 10 verifies the anonymity of the abstraction candidate data (step S280). For example, in order to test k-anonymity, the number (existence number) of combinations of values of different items associated with one individual is present in the abstraction candidate data. Alternatively, in order to test 1 diversity, the number (existence number) in which the combination of values of the same item associated with one individual exists in the abstraction candidate data is obtained. Then, the smallest of the existence numbers is obtained as the minimum number of appearances (k value / l value) (step S290), and it is determined whether or not the minimum number of appearances exceeds 1 (step S300).

最低出現数(k値/l値)が1を超えていない場合(ステップS300,No)、情報処理装置10は、抽象化候補データのうち、少なくとも一つの項目の値を更に抽象化する、即ち抽象化したワードに置き換え(ステップS310)、ステップS280に戻る。   When the minimum number of appearances (k value / l value) does not exceed 1 (step S300, No), the information processing apparatus 10 further abstracts the value of at least one item of the abstraction candidate data, that is, Replacement with the abstracted word (step S310), the process returns to step S280.

一方、最低出現数(k値/l値)が1を超えている場合(ステップS300,Yes)
、情報処理装置10は、当該抽象化候補データを匿名化データとして配信する(ステップS325)。
このように本変形例によれば、未知の項目についても他の装置からカテゴリを取得して抽象化を行い、適切な価値を有した匿名化データを即時に配信できる。
On the other hand, when the minimum number of appearances (k value / l value) exceeds 1 (step S300, Yes)
The information processing apparatus 10 distributes the abstraction candidate data as anonymized data (step S325).
As described above, according to the present modification, anonymized data having an appropriate value can be immediately distributed by acquiring a category from another device for abstracting an unknown item.

〈その他〉
本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
<Others>
The present invention is not limited to the illustrated examples described above, and various modifications can be made without departing from the scope of the present invention.

1 情報処理装置
2 メモリ
3 通信制御部
4 記憶装置
5 入出力インタフェース
10 情報処理装置
11 抽象化部
12 価値判定部
13 検定部
14 選択部
15 データ更新部
16 データ受付部
17 価値データ取得部
18 ワードカテゴリ分析
9 価値計算
0 検索エンジン
21 データ出力
0 データ出力部
DESCRIPTION OF SYMBOLS 1 Information processing apparatus 2 Memory 3 Communication control part 4 Storage apparatus 5 Input / output interface 10 Information processing apparatus 11 Abstraction part 12 Value determination part 13 Test part 14 Selection part 15 Data update part 16 Data reception part 17 Value data acquisition part 18 Word Category analysis department
1 9 Value Calculation Department
2 0 Search engine 21 Data output part
4 0 Data output section

Claims (9)

個人と対応付けられた複数の項目を含む対象データを受信するデータ受付部と、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成する抽象化部と、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの第1の価値を求める価値判定部と、
前記抽象化候補データのうち、前記第1の価値の高い所定割合の前記抽象化候補データ又は前記第1の価値の高い順に一部の前記抽象化候補データについて、一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定する検定部と、
前記検定の条件を満たした抽象化候補データに含まれる語の価値に当該語を属性値として持つ人数を乗じて合計した第2の価値に基づいて抽象化候補データを選択する選択部とを備える情報処理装置。
A data receiving unit that receives target data including a plurality of items associated with an individual;
An abstraction unit that generates abstraction candidate data by replacing a word that is a value of an item in the target data with an abstracted word;
A value determination unit that receives a value of a word included in the abstraction candidate data and obtains a first value of the abstraction candidate data based on a value of the word included in the abstraction candidate data;
Among the abstraction candidate data, a predetermined percentage of the abstraction candidate data having the first high value or a part of the abstraction candidate data in order of the first value, the value of the item corresponding to one individual A test unit that tests on condition that the combination is not single in the abstraction candidate data; and
A selection unit that selects the abstraction candidate data based on a second value obtained by multiplying the value of the word included in the abstraction candidate data satisfying the test condition by the number of persons having the word as an attribute value. Information processing device.
個人と対応付けられた複数の項目を含む対象データを受信するデータ受付部と、
前記対象データ中の項目の値である語について抽象化した語がデータベースに存在しない場合には、当該抽象化した語が存在しない対象データ中の語を未知語とし、当該未知語を外部の装置である検索エンジンで検索し、検索結果としてウェブページを取得して、当該ウェブページで共起した語を自然語解析することにより前記未知語を抽象化した語を求め、前記抽象化した語が前記データベースに存在する場合には前記データベースから抽象化した語を取得して前記対象データ中の語を抽象化した語に替えて抽象化候補データを生成する抽象化部と、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求める価値判定部と、
前記抽象化候補データの一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定する検定部と、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択する選択部と
を備える情報処理装置。
A data receiving unit that receives target data including a plurality of items associated with an individual;
Wherein when the word is the value of the item in the target data does not exist in the abstract word is de database is a word in the target data words and the abstract does not exist and unknown words, external the unknown word A search engine that is a device searches for a web page as a search result, and a word that co-occurs on the web page is analyzed in natural language to obtain a word that abstracts the unknown word, and the abstract word and abstraction unit but which generates an abstracted candidate data instead of abstracting word a word in the target data to obtain the abstracted words from the database, if present in the database,
A value determination unit that receives the value of the word included in the abstraction candidate data and obtains the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
A test unit that tests on condition that a combination of values of items corresponding to one individual of the abstraction candidate data is not single in the abstraction candidate data;
An information processing apparatus comprising: a selection unit that selects abstraction candidate data based on the value of the abstraction candidate data that satisfies the test condition.
前記検定部は、前記抽象化候補データの一個人と対応付けられた異なる項目の値の組み合わせが前記抽象化候補データ中で単一でないことを条件として匿名性を検定する請求項1又は2に記載の情報処理装置。   The said test | inspection part tests anonymity on condition that the combination of the value of the different item matched with one individual of the said abstraction candidate data is not single in the said abstraction candidate data. Information processing device. 前記検定部は、前記抽象化候補データの一個人と対応付けられた同じ項目の値の組み合わせが前記抽象化候補データ中で単一でないことを条件として多様性を検定する請求項1〜3の何れか1項に記載の情報処理装置。   The test unit according to any one of claims 1 to 3, wherein the test unit tests diversity on condition that a combination of values of the same item associated with one individual of the abstraction candidate data is not single in the abstraction candidate data. The information processing apparatus according to claim 1. 前記語の価値が、ウェブサイト上で使用された語の統計情報に基づく値である請求項1から4の何れか1項に記載の情報処理装置。   The information processing apparatus according to any one of claims 1 to 4, wherein the value of the word is a value based on statistical information of a word used on a website. 個人と対応付けられた複数の項目を含む対象データを受信するステップと、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの第1の価値を求めるステップと、
前記抽象化候補データのうち、前記第1の価値の高い所定割合の前記抽象化候補データ又は前記第1の価値の高い順に一部の前記抽象化候補データについて、一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定するステップと、
前記検定の条件を満たした抽象化候補データに含まれる語の価値に当該語を属性値として持つ人数を乗じて合計した第2の価値に基づいて抽象化候補データを選択するステップと
をコンピュータが実行する情報処理方法。
Receiving target data including a plurality of items associated with an individual;
Generating abstract candidate data by replacing words that are values of items in the target data with abstract words;
Receiving a value of a word included in the abstraction candidate data, and determining a first value of the abstraction candidate data based on a value of the word included in the abstraction candidate data;
Among the abstraction candidate data, a predetermined percentage of the abstraction candidate data having the first high value or a part of the abstraction candidate data in order of the first value, the value of the item corresponding to one individual Testing the condition that the combination is not single in the abstraction candidate data; and
A computer selecting abstraction candidate data based on a second value obtained by multiplying the value of a word included in the abstraction candidate data satisfying the test condition by the number of persons having the word as an attribute value; Information processing method to be executed.
個人と対応付けられた複数の項目を含む対象データを受信するステップと、
前記対象データ中の項目の値である語について抽象化した語がデータベースに存在しない場合には、当該抽象化した語が存在しない対象データ中の語を未知語とし、当該未知語を外部の装置である検索エンジンで検索し、検索結果としてウェブページを取得して、当該ウェブページで共起した語を自然語解析することにより前記未知語を抽象化した語を求め、前記抽象化した語が前記データベースに存在する場合には前記データベースから抽象化した語を取得して前記対象データ中の語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求めるステップと、
前記抽象化候補データの一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定するステップと、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択するステップと
をコンピュータが実行する情報処理方法。
Receiving target data including a plurality of items associated with an individual;
Wherein when the word is the value of the item in the target data does not exist in the abstract word is de database is a word in the target data words and the abstract does not exist and unknown words, external the unknown word A search engine that is a device searches for a web page as a search result, and a word that co-occurs on the web page is analyzed in natural language to obtain a word that abstracts the unknown word, and the abstract word a step but generating the abstracted candidate data instead of abstracting word a word in the target data to obtain the abstracted words from the database, if present in the database,
Receiving the value of the word included in the abstraction candidate data, and determining the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
Testing a condition that a combination of values of items corresponding to one individual of the abstraction candidate data is not single in the abstraction candidate data;
An information processing method in which a computer executes a step of selecting abstraction candidate data based on a value of abstraction candidate data satisfying the test condition.
個人と対応付けられた複数の項目を含む対象データを受信するステップと、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの第1の価値を求めるステップと、
前記抽象化候補データのうち、前記第1の価値の高い所定割合の前記抽象化候補データ又は前記第1の価値の高い順に一部の前記抽象化候補データについて、一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定するステップと、
前記検定の条件を満たした抽象化候補データに含まれる語の価値に当該語を属性値として持つ人数を乗じて合計した第2の価値に基づいて抽象化候補データを選択するステップとをコンピュータに実行させるための情報処理プログラム。
Receiving target data including a plurality of items associated with an individual;
Generating abstract candidate data by replacing words that are values of items in the target data with abstract words;
Receiving a value of a word included in the abstraction candidate data, and determining a first value of the abstraction candidate data based on a value of the word included in the abstraction candidate data;
Among the abstraction candidate data, a predetermined percentage of the abstraction candidate data having the first high value or a part of the abstraction candidate data in order of the first value, the value of the item corresponding to one individual Testing the condition that the combination is not single in the abstraction candidate data; and
Selecting abstraction candidate data based on a second value obtained by multiplying the value of a word included in the abstraction candidate data satisfying the test condition by the number of persons having the word as an attribute value, An information processing program for execution.
個人と対応付けられた複数の項目を含む対象データを受信するステップと、
前記対象データ中の項目の値である語について抽象化した語がデータベースに存在しない場合には、当該抽象化した語が存在しない対象データ中の語を未知語とし、当該未知語を外部の装置である検索エンジンで検索し、検索結果としてウェブページを取得して、当該ウェブページで共起した語を自然語解析することにより前記未知語を抽象化した語を求め、前記抽象化した語が前記データベースに存在する場合には前記データベースから抽象化した語を取得して前記対象データ中の語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求めるステップと、
前記抽象化候補データの一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定するステップと、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択するステップと
をコンピュータに実行させるための情報処理プログラム。
Receiving target data including a plurality of items associated with an individual;
Wherein when the word is the value of the item in the target data does not exist in the abstract word is de database is a word in the target data words and the abstract does not exist and unknown words, external the unknown word A search engine that is a device searches for a web page as a search result, and a word that co-occurs on the web page is analyzed in natural language to obtain a word that abstracts the unknown word, and the abstract word a step but generating the abstracted candidate data instead of abstracting word a word in the target data to obtain the abstracted words from the database, if present in the database,
Receiving the value of the word included in the abstraction candidate data, and determining the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
Testing a condition that a combination of values of items corresponding to one individual of the abstraction candidate data is not single in the abstraction candidate data;
An information processing program for causing a computer to execute a step of selecting abstraction candidate data based on a value of abstraction candidate data satisfying the test condition.
JP2012253602A 2012-11-19 2012-11-19 Information processing apparatus, information processing method, and information processing program Active JP6214150B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012253602A JP6214150B2 (en) 2012-11-19 2012-11-19 Information processing apparatus, information processing method, and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012253602A JP6214150B2 (en) 2012-11-19 2012-11-19 Information processing apparatus, information processing method, and information processing program

Publications (2)

Publication Number Publication Date
JP2014102643A JP2014102643A (en) 2014-06-05
JP6214150B2 true JP6214150B2 (en) 2017-10-18

Family

ID=51025108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012253602A Active JP6214150B2 (en) 2012-11-19 2012-11-19 Information processing apparatus, information processing method, and information processing program

Country Status (1)

Country Link
JP (1) JP6214150B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6214167B2 (en) * 2013-02-08 2017-10-18 富士通クラウドテクノロジーズ株式会社 Information processing system, information processing method, and information processing program
JP6313944B2 (en) * 2013-09-30 2018-04-18 富士通クラウドテクノロジーズ株式会社 Anonymization system, anonymization method and anonymization program
JP5860116B2 (en) * 2014-06-13 2016-02-16 ニフティ株式会社 Reduction coefficient calculation device, anonymous processing device, method and program using the same
JP6270756B2 (en) * 2015-02-17 2018-01-31 富士通クラウドテクノロジーズ株式会社 Anonymized data providing device, anonymized data providing method, and anonymized data providing program
EP3500971B1 (en) * 2016-09-22 2019-12-25 Mitsubishi Electric Corporation Data disturbance device and data disturbance system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03186094A (en) * 1989-12-15 1991-08-14 Nec Corp Private branch exchange
JP5511532B2 (en) * 2010-06-16 2014-06-04 Kddi株式会社 Public information privacy protection device, public information privacy protection method and program

Also Published As

Publication number Publication date
JP2014102643A (en) 2014-06-05

Similar Documents

Publication Publication Date Title
KR101871747B1 (en) Similarity tendency based user-sightseeing recommendation system and method thereof
US9760735B2 (en) Anonymous information exchange
US20160140627A1 (en) Generating high quality leads for marketing campaigns
JP5615857B2 (en) Analysis apparatus, analysis method, and analysis program
JP6214150B2 (en) Information processing apparatus, information processing method, and information processing program
US20160012511A1 (en) Methods and systems for generating recommendation list with diversity
US20130204822A1 (en) Tools and methods for determining relationship values
KR20110032878A (en) Keyword ad. method and system for social networking service
CN102385727A (en) ID-value assessment device, ID-value assessment system, and ID-value assessment method
JP6177536B2 (en) Information processing device
Wiścicka-Fernando The use of mobile technologies in online shopping during the Covid-19 pandemic-An empirical study
US8452768B2 (en) Using user search behavior to plan online advertising campaigns
JP6872258B2 (en) A recording medium that can be read by a computer that embodies the Internet content providing server and its method.
CN110334356A (en) Article matter method for determination of amount, article screening technique and corresponding device
Esmaeilpour et al. Investigating the impact of viral message appeal and message credibility on consumer attitude toward the brand
KR20090017268A (en) Method for updating interest keyword of user and system for executing the method
JP2018045553A (en) Selection device, selection method, and selection program
US20130262355A1 (en) Tools and methods for determining semantic relationship indexes
Shaari et al. Millennials' response toward luxury fashion brands: The balance theory's perspective
JP6214167B2 (en) Information processing system, information processing method, and information processing program
JP2014199589A (en) Anonymous information distribution system, anonymous information distribution method and anonymous information distribution program
KR20200063348A (en) Blogger and advertiser recommendation system based on bigdata collaborative filtering and method thereof
Wang et al. Assessing the effects of mobile service quality on customer satisfaction and the continued usage intention of mobile service: a study of non-gaming mobile apps
JP6334915B2 (en) Anonymization system
JPWO2014050837A1 (en) Determination apparatus, determination method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150824

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20150824

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20151124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160531

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160609

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20160624

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170623

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170919

R150 Certificate of patent or registration of utility model

Ref document number: 6214150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350