JP6313944B2 - Anonymization system, anonymization method and anonymization program - Google Patents
Anonymization system, anonymization method and anonymization program Download PDFInfo
- Publication number
- JP6313944B2 JP6313944B2 JP2013204823A JP2013204823A JP6313944B2 JP 6313944 B2 JP6313944 B2 JP 6313944B2 JP 2013204823 A JP2013204823 A JP 2013204823A JP 2013204823 A JP2013204823 A JP 2013204823A JP 6313944 B2 JP6313944 B2 JP 6313944B2
- Authority
- JP
- Japan
- Prior art keywords
- anonymization
- value
- information
- word
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、個人情報を匿名化又は多様化して利用する技術に関する。 The present invention relates to a technique for using personal information by making it anonymous or diversified.
情報処理技術の発展に伴い、日常の多くの場面で情報が収集され、この収集された情報を用いた処理が行われている。例えば、消費者が店舗の会員となって商品を購入する場合、会員登録時に消費者の氏名、年齢、性別、住所、メールアドレス等を登録することが多い。そして、消費者が商品を購入すると、店舗側のシステムが、この消費者と購入した商品の情報を対応付けて記録する。このように購入した商品の情報を蓄積して分析すると、当該消費者の嗜好が推定でき、この消費者が好む新商品が発売されたような場合にダイレクトメールを発送するといったサービスを行うことができる。更に、多くの消費者の情報について分析することで、20代女性の好む商品や関東エリアで好まれる商品といった情報を導くことができ、マーケティング等に利用される。 With the development of information processing technology, information is collected in many everyday situations, and processing using the collected information is performed. For example, when a consumer purchases a product as a member of a store, the consumer's name, age, gender, address, e-mail address, etc. are often registered at the time of membership registration. When a consumer purchases a product, the store-side system records the consumer and the purchased product information in association with each other. By accumulating and analyzing information on purchased products in this way, it is possible to estimate the consumer's preferences and perform a service such as sending a direct mail when a new product preferred by the consumer is released. it can. Furthermore, by analyzing information of many consumers, information such as products preferred by women in their 20s and products preferred in the Kanto area can be derived and used for marketing and the like.
これらの情報は、当該店舗だけでなく、商品を製造するメーカや、他の事業者にとっても利用価値が高く、例えば広告やクーポン等のレコメンドに用いたいという要求があった。 Such information has high use value not only for the store but also for the manufacturer of the product and other business operators, and there has been a demand to use it for recommendations such as advertisements and coupons.
しかし、店舗が有する消費者の個人情報を各消費者の許諾を得ずに、他者へ提供することはできない。このため、上記消費者に関する情報を他者へ提供する場合には、個人を特定できないように、匿名化する必要がある。 However, the consumer's personal information in the store cannot be provided to others without obtaining the consent of each consumer. For this reason, when providing information related to the consumer to others, it is necessary to anonymize so that individuals cannot be identified.
例えば、年齢が記載されている会員リストに25歳の人が一人だけであると、25歳の知人がその会員であることを知った時点で、その人を特定できることになる。即ち、25歳の会員という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性が高い。
For example, if there is only one
そこで、会員リストの年齢の記載を10歳区切りに抽象化し、20代が3人のように同じ属性を持つ人が複数人となるようにすれば、3人のうちの誰であるかを特定できなくなる。このように同じ属性を持つ人がk人以上いる状態を、「k-匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。 Therefore, if the age description in the member list is abstracted into 10-year breaks, and there are multiple people with the same attribute, such as three in their 20s, who of the three is identified become unable. A state in which there are k or more people having the same attribute in this way is referred to as “k-anonymity” and processing such data is referred to as “k-anonymization”.
ショッピングモールや展示会等、複数の店舗や事業者が出店・出展している状況において、来場者の情報を各店舗や事業者でマーケティング等に利用したいという要求があり、各店舗や事業者が収集した個人情報をk-匿名化することで他の店舗や事業者に提供することが検討されている。 In the situation where multiple stores and businesses are opening and exhibiting, such as shopping malls and exhibitions, there is a demand to use information of visitors for marketing etc. at each store and business. It is being considered to provide personal information collected to other stores and businesses by k-anonymizing.
しかし、k-匿名化の処理は、年令や性別、職業等のデータのうち、どのデータを匿名化する項目に採用するか、また、これらのデータをどのように抽象化するかといった匿名化の条件を決めて匿名化処理を行った後、k−匿名性を満たしているか否かを確認し、k−匿名性を満たしていない場合には、抽象化の程度を上げるように匿名化の条件を変えて処理を繰り返す。このためk-匿名化の処理には、手間と時間がかかってしまう。 However, the k-anonymization process is anonymized, such as which data to use for anonymizing items, such as age, gender, and occupation, and how to abstract these data. After determining the conditions of the anonymization process, it is checked whether k-anonymity is satisfied, and if k-anonymity is not satisfied, anonymization is performed so as to increase the degree of abstraction. Repeat the process under different conditions. For this reason, the k-anonymization process takes time and effort.
一方、匿名情報を利用する店舗や事業者は、匿名情報を必要とするタイミングが夫々異なっていた。例えば、事業者Aは10分毎の匿名情報を必要とし、事業者Bは1時間毎の匿名情報を必要とし、事業者Cは1日毎の匿名情報を必要とする。この場合、それぞれの事業者が必要とするタイミングで匿名化処理を行って匿名情報を提供するのが望ましいが、匿名化するタイミングが異なると、その都度適切な匿名化の条件を決める手間がかかってしまう。例えば、1時間毎に匿名化を行った場合に「20代,女性,コーヒー購入」という属性値を持つデータがk−匿名性を満たしていたとしても、10分毎に匿名化を行った場合に「20代,女性,コーヒー購入」という当該データがk−匿名性を満たしていなかった場合、「30未満,女性,コーヒー購入」のように抽象化の程度を上げるか、「20代,女性」のように採用する項目を少なくするなど、匿名化の条件を変えてk-匿名化を行う必要がある。即ち、匿名化処理の対象とする期間が短く、対象データが少ないと、k-匿名化したデータ(匿名情報)は、概略的なデータとなる。反対に、1日毎に匿名化を行う場合、「20代前半,女性,レギュラーコーヒー購入」のように抽象化の程度を下げるか、「20代前半,女性,コーヒー及びミルク購入」のように採用する項目を多くするように匿名化の条件を変えてもk-匿名性を満たす可能性がある。即ち、匿名化処理の対象とする期間が長く、対象データが多いと、k-匿名化したデータ(匿名情報)は、詳細なデータとなる。 On the other hand, stores and businesses that use anonymous information have different timings that require anonymous information. For example, business operator A needs anonymous information every 10 minutes, business operator B needs anonymous information every hour, and business operator C needs anonymous information every day. In this case, it is desirable to provide anonymization information by performing anonymization processing at the timing required by each business operator, but if the timing of anonymization is different, it will take time and effort to determine appropriate anonymization conditions each time End up. For example, when anonymization is performed every hour, anonymization is performed every 10 minutes even if data having the attribute value “20s, women, coffee purchase” satisfies k-anonymity If the data “20s, women, coffee purchases” does not satisfy k-anonymity, the level of abstraction is increased to “less than 30, women, coffee purchases” or “20s, women purchases”. It is necessary to change the conditions for anonymization, such as reducing the number of items to be adopted, as in “K-anonymization”. That is, if the period to be anonymized is short and the target data is small, the k-anonymized data (anonymous information) becomes schematic data. On the other hand, if anonymization is performed every day, the degree of abstraction is reduced, such as “early 20s, women, regular coffee purchase” or adopted as “early 20s, women, coffee and milk purchase”. Even if the condition of anonymization is changed so as to increase the number of items to be performed, there is a possibility of satisfying k-anonymity. That is, if the period to be anonymized is long and the target data is large, the k-anonymized data (anonymous information) becomes detailed data.
このようにk-匿名化の処理には、手間と時間がかかり、各事業者が要求するタイミング毎に匿名化の条件を決定して匿名化を行うのは現実的ではないため、所定のタイミング、例えば1時間毎に匿名化を行い、この匿名情報を各事業者に提供することになる。この場合、10分毎の匿名情報を必要とする事業者Aにとっては、必要なタイミングで匿名情報が得られないという問題があり、1日毎の匿名情報を必要とする事業者Cにとっては、詳細な匿名情報が得られないという問題があった。 In this way, the k-anonymization process takes time and effort, and it is not realistic to determine the anonymization conditions for each timing requested by each operator, so it is not realistic, so the predetermined timing For example, anonymization is performed every hour, and this anonymous information is provided to each business operator. In this case, for the business operator A who needs anonymous information every 10 minutes, there is a problem that anonymous information cannot be obtained at a necessary timing, and for the business operator C who needs anonymous information every day, details There was a problem that no anonymous information could be obtained.
これに対し、匿名化の条件を情報処理装置が機械的に決定して各事業者の必要とするタイミングで匿名化を行うことも考えられる。 On the other hand, it is conceivable that the information processing apparatus mechanically determines anonymization conditions and performs anonymization at a timing required by each operator.
しかし、従来の情報処理装置で、k-匿名性を満たすように各項目の値を抽象化する場合、単に同じ属性値が複数となるように機械的にデータを区切るため、例えk-匿名性を満たしても利用価値の無いデータとなってしまうことがある。例えば、ファッションの傾向を知るためにデータを利用する場合、年齢の項目は重要であり、匿名化のために年齢の項目を抽象化し過ぎると、利用価値が無くなってしまう。また、匿名化のため、年齢の項目を17歳以上22歳未満のように機械的に区切ったとすると、同一グループに成年と未成年が混在したり、高校生と社会人が混在したりすることになり、マーケティング等への利用が難くなり、利用価値が無くなってしまう。 However, when abstracting the value of each item so as to satisfy k-anonymity in a conventional information processing device, the data is simply separated so that the same attribute value becomes multiple, so for example k-anonymity Even if the above is satisfied, the data may become useless. For example, when data is used to know a fashion trend, the age item is important. If the age item is excessively abstracted for anonymization, the utility value is lost. Also, for anonymization, if the age items are mechanically separated such as 17 years old or older and less than 22 years old, adults and minors may be mixed in the same group, high school students and adults may be mixed. It becomes difficult to use for marketing and the use value is lost.
そこで本発明は、匿名化を行う対象の期間内のデータを抽象化後の価値に基づいて匿名化する技術を提供する。 Therefore, the present invention provides a technique for anonymizing data within a period to be anonymized based on a value after abstraction.
上記課題を解決するため、本発明の匿名化システムは、
匿名化を行う対象の期間を取得する期間取得部と、
個人と対応付けられた複数の項目を含む対象データのうち、前記期間に該当する対象デ
ータを取得するデータ取得部と、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成する抽象化部と、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求める価値判定部と、
前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定する検定部と、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択する選択部と、
前記価値に基づいて選択された抽象化候補データを匿名情報として出力する出力部と、を備える。
In order to solve the above problems, the anonymization system of the present invention is:
A period acquisition unit for acquiring a period for anonymization;
Of the target data including a plurality of items associated with individuals, a data acquisition unit that acquires target data corresponding to the period;
An abstraction unit that generates abstraction candidate data by replacing a word that is a value of an item in the target data with an abstracted word;
A value determination unit that receives the value of the word included in the abstraction candidate data and obtains the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
A test unit that tests on condition that a combination of values of items of the abstraction candidate data is not limited to one individual of the target data;
A selection unit that selects the abstraction candidate data based on the value of the abstraction candidate data that satisfies the test condition;
An output unit that outputs the abstraction candidate data selected based on the value as anonymous information.
前記匿名化システムは、対象データに含まれる語を抽象化した語に替えて匿名化するため、前記語と前記抽象化した語とを対応付けて記憶した匿名化辞書を複数取得する辞書取得部と、
前記複数の匿名化辞書に含まれる各語の対応関係に基づいて、抽象化した語を上位、抽象化前の語を下位とし、前記複数の匿名化辞書に含まれる各語と、前記複数の匿名化辞書に存在する上位及び下位の語とを対応付け、対応する上位の語が存在しない最上位の語をルートとして対応する下位の語が存在しない最下位の語までをツリー状に対応付けて当該ツリー状の対応関係を一つの次元とし、前記複数の匿名化辞書に含まれる複数の前記最上位の語毎に前記次元を求め、前記最上位の語毎に求めた前記複数の次元を統合匿名化辞書とする統合部と、
前記次元の夫々について、当該次元に含まれる語に基づいて優先度を決定する優先度決定部と、
前記複数の次元のうち、前記統合匿名化辞書として採用する次元と採用しない次元とを前記優先度に基づいて選択する次元選択部と、を備え、
前記抽象化部が、前記統合匿名化辞書を参照し、前記対象データ中の項目の値である語を抽象化した語に替えて匿名化候補データを生成しても良い。
The anonymization system obtains a plurality of anonymization dictionaries that store the word and the abstracted word in association with each other in order to anonymize the word contained in the target data instead of the abstracted word. When,
Based on the correspondence of each word included in the plurality of anonymization dictionaries, the abstracted word is higher and the word before abstraction is lower, each word included in the plurality of anonymization dictionaries, Corresponds to upper and lower words that exist in the anonymization dictionary, and associates the highest word that does not have a corresponding higher word as a root to the lowest word that does not have a corresponding lower word in a tree shape The tree-like correspondence is set as one dimension, the dimension is obtained for each of the plurality of top words included in the plurality of anonymization dictionaries, and the plurality of dimensions obtained for each top word are determined. An integration part to be an integrated anonymization dictionary;
For each of the dimensions, a priority determination unit that determines the priority based on words included in the dimension;
A dimension selection unit that selects a dimension to be adopted as the integrated anonymization dictionary and a dimension not to be adopted among the plurality of dimensions based on the priority;
The abstraction unit may refer to the integrated anonymization dictionary and generate anonymization candidate data by replacing words that are values of items in the target data with abstracted words.
前記出力部は、前記匿名情報が所定条件を満たした場合に配信を行っても良い。 The output unit may perform distribution when the anonymous information satisfies a predetermined condition.
上記課題を解決するため、本発明の匿名化方法は、
匿名化を行う対象の期間を取得するステップと、
個人と対応付けられた複数の項目を含む対象データのうち、前記期間に該当する対象データを取得するステップと、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求めるステップと、
前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定するステップと、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択するステップと、
前記価値に基づいて選択された抽象化候補データを匿名情報として出力するステップと、
をコンピュータが実行する。
In order to solve the above problems, the anonymization method of the present invention is:
Obtaining a period for which anonymization is performed;
Of the target data including a plurality of items associated with an individual, obtaining target data corresponding to the period; and
Generating abstract candidate data by replacing words that are values of items in the target data with abstract words;
Receiving the value of the word included in the abstraction candidate data, and determining the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
Testing a condition that a combination of values of the abstraction candidate data items is not limited to one individual of the target data;
Selecting abstraction candidate data based on the value of the abstraction candidate data satisfying the test condition;
Outputting abstraction candidate data selected based on the value as anonymous information;
Is executed by the computer.
また、本発明は、上記匿名化方法をコンピュータに実行させるための匿名化プログラムであっても良い。更に、前記匿名化プログラムは、コンピュータが読み取り可能な記憶媒体に記録されていても良い。 Further, the present invention may be an anonymization program for causing a computer to execute the above anonymization method. Further, the anonymization program may be recorded on a computer-readable storage medium.
ここで、コンピュータが読み取り可能な記憶媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記憶媒体をいう。このような記憶媒体の内コンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。また、コンピュータに固定された記憶媒体としてハードディスクやROM(リードオンリーメモリ)等がある。 Here, the computer-readable storage medium refers to a storage medium that stores information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from the computer. . Examples of such storage media that can be removed from the computer include a flexible disk, a magneto-optical disk, a CD-ROM, a CD-R / W, a DVD, a DAT, an 8 mm tape, and a memory card. Further, there are a hard disk, a ROM (read only memory) and the like as a storage medium fixed to the computer.
本発明は、匿名化を行う対象の期間内のデータを抽象化後の価値に基づいて匿名化する技術を提供できる。 The present invention can provide a technique for anonymizing data within a period to be anonymized based on a value after abstraction.
以下、図面を参照して本発明を実施するための形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。 Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. The configuration of the following embodiment is an exemplification, and the present invention is not limited to the configuration of the embodiment.
〈実施形態1〉
§1.匿名化
図1はk−匿名化の説明図であり、図1(A)は、姓、年齢、性別の項目を含む会員情
報から姓の項目を削除した例を示す。
<
§1. Anonymization FIG. 1 is an explanatory diagram of k-anonymization, and FIG. 1A shows an example in which the last name item is deleted from the member information including the last name, age, and sex items.
図1(A)に示すように年齢が記載されている会員情報に16歳の女性が一人だけであると、16歳の女性が、この会員であることが分かった時点で、その人を特定できる。即ち、16歳・女性という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性がある。 As shown in Fig. 1 (A), if there is only one 16-year-old woman in the member information in which the age is described, when the 16-year-old woman is found to be this member, the person is identified. it can. That is, if there is only one person with the attribute of 16 years old and female, there is a possibility that an individual can be identified by comparing with other information.
図1(B)では、会員リストの年齢の記載を抽象化し、0代(10歳未満)、10代、20代のように年代別とした。しかし、この場合でも10代女性は一人だけであり、図1(A)と同様に個人が特定できてしまい匿名化としては不十分である。 In FIG. 1 (B), the description of the age in the member list is abstracted and classified by age, such as 0's (under 10 years), 10's, and 20's. However, even in this case, there is only one female teenager, and an individual can be identified as in FIG. 1A, which is insufficient for anonymization.
そこで、図1(C)では、更に抽象化し、10代以下(19歳以下)と20代のように年代の区切りを変更した。図1(C)の場合、10代以下の女性が2人であり、[10代以下]及び[女性]という属性が単一では無くなる。このため前述のように16歳の女性が、この会員であることが分かったとしても、どちらが当該16歳女性のデータであるかは特定できない。このように同じ属性を持つ人がk人(本例では2人)以上いる状態を、「k-匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。 Therefore, in FIG. 1 (C), it was further abstracted and the age divisions were changed to those in their teens (under 19 years old) and those in their 20s. In the case of FIG. 1C, there are two women in their teens or less, and the attributes of “10 or less” and [female] are not single. For this reason, even if it turns out that a 16-year-old woman is this member as mentioned above, it cannot be specified which is the data of the 16-year-old woman. In this way, the state where there are more than k people (2 people in this example) with the same attribute is called “k-anonymity”, and processing such data as “k-anonymization” Called.
図2は、l−多様化の説明図であり、ユーザ毎の利用駅のデータを抽象化し、ユーザ毎
の利用駅が属する区のデータとした例を示す。
FIG. 2 is an explanatory diagram of l-diversification, and shows an example in which the data of the used station for each user is abstracted and used as the data of the ward to which the used station for each user belongs.
抽象化前のデータでは、駅が特定されているために、住居が新宿駅付近で勤務地が東京駅付近といったデータと照らし合わせることでユーザを特定できる可能性がある。このため利用駅を抽象化して、利用駅が属する区とすることで、新宿区内の駅と千代田区内の駅を利用するユーザが複数となり、利用者が特定されなくなる。このように「新宿区内の駅と千代田区内の駅を利用する」のように属性値がl種類の可能性を持つ状態を、「l-多
様性」を満たすと称し、そのようにデータを加工することを「l-多様化」と称する。
In the pre-abstraction data, since the station is specified, there is a possibility that the user can be specified by comparing the data such as the residence near Shinjuku Station and the work place near Tokyo Station. For this reason, by abstracting the use station and making it a ward to which the use station belongs, there are a plurality of users who use stations in Shinjuku ward and stations in Chiyoda ward, and the user is not specified. In this way, the state where the attribute value has the possibility of l types, such as “Use stations in Shinjuku ward and Chiyoda ward” is called “I-diversity” and data like that Is called “l-diversification”.
本実施形態1の匿名化システム10は、この「k-匿名性」や「l-多様性」を満たすよ
うに対象データを抽象化する、即ちデータの項目の値の組み合わせが、対象データの一個人に限定されないように抽象化することにより匿名化を行う。
The
§2.システム構成
図3は匿名化システムの機能ブロック図である。本実施形態1の匿名化システム10は、複数の事業者(本例では店舗とも称す)が出店するショッピングモールにおいて、各店舗で収集した個人情報を集約して匿名化を行い、匿名情報を各店舗や他の利用者の端末30に対して配信する。
§2. System Configuration FIG. 3 is a functional block diagram of the anonymization system. The
匿名化システム10は、図3に示すように、データ取得部101、抽象化部102、検定部103、選択部104、価値判定部105、匿名情報登録部106、価値データ取得部107、ワードカテゴリ分析部108、ワード価値計算部109、データ出力部120、設定情報登録部121、期間取得部122、予測部123、匿名化DB(データベース)144、検索情報蓄積DB145、設定情報DB146を備えている。
As shown in FIG. 3, the
設定情報登録部121は、利用者又は事業者(以下、単にユーザとも称す)の端末30から匿名化を行う対象の期間や、配信条件などの設定情報を受信して設定情報DB146に登録する。なお、本実施形態において設定情報DB146は、設定情報記憶部の一形態である。
The setting
期間取得部122は、匿名化を行う対象の期間を取得する。例えば、ユーザからのリクエストと共に対象の期間を受信することや、予め設定された対象の期間を設定情報DB146から読み出すことにより取得する。
The
予測部123は、端末30から受信した個人情報等に基づいて予測結果を求める。例えば、所定期間内の属性値の変化の推移に基づいて、所定時間後の属性値を予測結果として求める。また、所定時間後の属性値が閾値を超えた場合に警告を予測結果としても良い。具体的には、1時間当たりの車による来店者数(即ち駐車場への入庫車数)と平均滞在時間に基づいて2時間後・3時間後の入庫車数を予測結果として求め、入庫車数が駐車場の容量(収容車数)の70%(閾値)を超える場合に、誘導員の配置を促す警告と前記2時間後・3時間後の入庫車数を予測結果とする。また、複数属性の値の組み合わせと予測結果とを対応付けて記憶した予測DBを備え、端末30から受信した個人情報の属性値の組み合わせと対応する予測結果を予測DBから求める。具体的には、車以外で来店した女性が40%を超え、雨が降り出した場合に、1時間後に飲食店が混雑するのであれば、「車以外で来店した女性が40%以上,雨」といった属性値の組み合わせと対応付けて「1時間後に女性をターゲットとしたタイムセールの実施」といった混雑緩和の為のメッセージを予測DBに記憶させておき、この属性値と対応するメッセージを予測結果として求める。
The
データ取得部101は、個人と対応付けられた複数の項目を含む個人情報のうち、前記
対象期間に該当するものを対象データとして取得する。例えば、データ取得部101は、各店舗の端末30から個人情報を受信して匿名化DB144に記憶させ、匿名化DB144から前記対象の期間に該当するデータを対象データとして読み出す。
The
抽象化部102は、対象データを匿名化或いは多様化する際に、対象データ中の項目の値であるワード(語)を抽象化したワードに替えて抽象化候補データを生成する。本実施形態においてワード(語)は、単語や句など、一まとまりの言葉であり、位置情報や電話番号等の数値、メールアドレスやIPアドレス等の識別情報、言葉と同様の意味を持つ記号等を含んでも良い。
When the target data is anonymized or diversified, the
価値判定部105は、抽象化候補データに含まれるワードの価値に基づいて当該抽象化候補データの価値を求める。
The
検定部103は、抽象化候補データの一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定する。例えば検定部103は、抽象化候補データがk−匿名性を満たしているか、l−多様性を満たしているかを検定する。
The
選択部104は、前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択する。例えば、選択部104は、k−匿名性やl−多様性を満たした抽象化候補データを価値が高い順に所定数選択する。また、選択部104は、k−匿名性やl−多様性を満たした抽象化候補データのうち、最も価値が高い抽象化候補データを選択しても良い。
The
匿名情報登録部106は、選択部104で選択された抽象化候補データを匿名情報として匿名化DB144に登録する。
The anonymous
価値データ取得部107は、抽象化候補データに含まれるワードの価値データを検索情報蓄積DB145から取得(受信)する。また、価値データ取得部107は、検索情報蓄積DB145に前記ワードの価値データが登録されていない場合に、他の装置にリクエストし、取得した価値データを検索情報蓄積DB145に登録する機能(データリクエスト)や、定期的に他の装置を巡回して最新の価値データを取得し、検索情報蓄積DB145に登録されている価値データを更新する機能(データクローラ)を有する。本実施形態では、この価値データとして検索エンジン70から各ワードの統計情報を受信する。ここで、各ワードの統計情報は、例えばSEMの広告単価(クリック単価)や、クリック率、平均掲載順位、1日の表示回数、1日のクリック数等である。なお、価値の取得先は、検索エンジンに限らず、ウェブページやSNS等であっても良い。この場合、例えばウェブページやSNSにおける各ワードの使用頻度を価値としても良い。
The value
ワードカテゴリ分析部108は、ウェブサイト等のデータを分析して、新規のワードや、当該ワードを抽象化したワード(カテゴリ)を求め、検索情報蓄積DBに登録する。
The word
価値計算部19は、価値データ取得部107で取得したワードの価値に基づき、ワードの価値の年平均や月平均、週平均など、ワードの価値の統計情報を求める。特に、対象期間内の価値、例えば最高値や最低値、平均値であっても良い。
Based on the value of the word acquired by the value
データ出力部120は、匿名化DB144から匿名情報を読み出して出力する。ここで、匿名情報の出力とは、表示装置による表示出力や、プリンタによる印刷出力、他のコンピュータへの送信、記憶媒体への書き込み等である。
The
また、本実施形態1のデータ出力部120は、配信条件に基づいて匿名情報を店舗等の端末30へ情報の配信を行う。例えば、女性の割合が60%を超えた場合や、20代の来店者が100人を超えた場合、30代男性の割合が20%未満となった場合等、所定の属性値を持つ人数(当該属性値と一致する個人の数)が所定値に達することを配信条件とし、所定値に達した場合に情報の配信を行う。この配信条件を満たした場合に配信する情報は、単に配信条件を満たした旨の通知であっても良いし、配信条件を満たした状態の匿名情報であっても良い。
In addition, the
匿名化DB144は、個人情報(対象データ)を記憶し、当該個人情報を検定用に供すると共に、個人情報を対象期間毎に匿名化した匿名情報を保持する。
The
検索情報蓄積DB145は、価値データ取得部107で取得したワードの価値や、ワードカテゴリ分析部108で求めたワードやカテゴリの情報、価値計算部19で求めた価値の統計情報などを記憶する。
The search
設定情報DB146は、ユーザの端末30から匿名化を行う対象の期間や、配信条件などの設定情報を受信して、当該ユーザの識別情報(ユーザID)と対応付けて記憶する。
The setting
また、図1中、検索エンジン70は、インターネット等のネットワーク上に存在する情報の検索機能を提供するサイト(コンピュータ)である。即ち、検索エンジン70は、ユーザ端末から検索するキーワードを受信すると、このキーワードを含むウェブページのURL等のリストを検索結果として提供し、ユーザ端末に表示させる。
In FIG. 1, a
また、検索エンジン70は、この検索機能を利用し、検索結果にキーワードと連動した広告を表示させることや、キーワードに応じた広告料を支払ったスポンサーサイトへのリンクを表示させることも行う。このため、検索エンジン70は、検索されたワード毎に、1日の検索回数(表示回数)、検索結果の広告がクリックされた回数(クリック数)、1クリック当たりの広告料(クリック単価)等をワードの統計情報として記憶する。
In addition, the
また、これらの情報に基づき、検索エンジン70は、表示回数をクリック数で除したクリック率や、1日のクリック数にクリック単価を乗じた値(1日の費用)、広告の申し込み時(広告オークション時)に提示した費用に応じた広告の掲載順位等も求める。
Also, based on this information, the
検索エンジン70は、匿名化システム10に対し、上記クリック数、表示回数、掲載順位、1日の費用、クリック率、クリック単価等の情報を提供するデータ出力部71や、これらワードに関する情報を記憶する検索ワード蓄積DB72、検索結果と共に配信する広告の情報を記憶する検索広告配信DB73を備える。
The
図4は匿名化システム10のハードウェア構成を示す図である。匿名化システム10は、CPU1、メモリ2、通信制御部3、記憶装置4、入出力インタフェース5を有する所謂コンピュータである。
FIG. 4 is a diagram illustrating a hardware configuration of the
CPU1は、記憶装置4からプログラムを読み出し、メモリ2に展開して実行し、前述の抽象化部102、価値判定部105、検定部103、選択部104、匿名情報登録部106、データ取得部101、価値データ取得部107、ワードカテゴリ分析部108、ワード価値計算部109、データ出力部120、期間取得部122の機能を提供する。
The
メモリ2は、主記憶装置ということもできる。メモリ2は、例えば、CPU1が実行するプログラムや、通信制御部3を介して受信したデータ、記憶装置4から読み出したデータ、その他のデータ等を記憶する。
The
通信制御部3は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース5は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、USBメモリを接続するUSBのアダプタ等である。また、着脱可能な記憶媒体は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray(登録商標) Disc)等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置4に格納する。
The
記憶装置4は、外部記憶装置ということもできる。記憶装置4としては、SSD(Solid State Drive)やHDD等であってもよい。記憶装置4は、ドライブ装置との間で、デ
ータを授受する。例えば、記憶装置4は、ドライブ装置からインストールされる情報処理プログラム等を記憶する。また、記憶装置4は、プログラムを読み出し、メモリ2に引き渡す。本実施形態では、記憶装置4が前述の匿名化DB144や検索情報蓄積DB145を格納している。
The
また、端末30は、CPU、メモリ、通信制御部、記憶装置、入出力インタフェースを有する所謂コンピュータである。 The terminal 30 is a so-called computer having a CPU, a memory, a communication control unit, a storage device, and an input / output interface.
端末30のCPUは、記憶装置からプログラムを読み出し、メモリに展開して実行し、前述の個人情報や設定情報を匿名化システム10へ送信する機能や、匿名化システム10から配信情報を受信し、表示等の出力を行う機能を提供する。
The CPU of the terminal 30 reads the program from the storage device, expands and executes the program in the memory, receives the distribution information from the
図5は、匿名化システム10が各店舗の端末30から取得する個人情報の一例である。図5の例では、各店舗の端末30から利用日時と、年齢、性別、購入商品等の情報を取得し、利用店舗名と共に記憶している。
FIG. 5 is an example of personal information that the
利用日時は、消費者が当該店舗を利用した時刻を示している。なお、図5の例では、利用日時として、利用した日付と時刻を記録したが、日付が必須でない場合には、利用した時刻(利用時刻)のみとしても良い。 The use date indicates the time when the consumer uses the store. In the example of FIG. 5, the use date and time are recorded as the use date and time, but when the date is not essential, only the use time (use time) may be used.
図6は、対象期間の一例を示す図である。対象期間としては、例えば、10分毎、1時間毎、1日毎、1週間毎のように所定の間隔で対象期間が設定される。また、10:00〜12:00、12:00〜14:00等のように所定の開始時刻と所定の終了時刻によって対象期間が設定される。更に、曜日、祝祭日、平日、休日、祝祭日、週末、月初、月末等によって対象期間が設定されても良い。なお、これらは、平日の10:00〜18:00、休日の12:00〜20:00、月末の3日間のように組み合わせて設定しても良い。 FIG. 6 is a diagram illustrating an example of the target period. As the target period, for example, the target period is set at predetermined intervals such as every 10 minutes, every hour, every day, and every week. Further, the target period is set by a predetermined start time and a predetermined end time such as 10:00 to 12:00, 12: 0 to 14:00, and the like. Further, the target period may be set according to a day of the week, a holiday, a weekday, a holiday, a holiday, a weekend, the beginning of the month, the end of the month, or the like. These may be set in combination such as 10:00 to 18:00 on weekdays, 12:00 to 20:00 on holidays, and 3 days at the end of the month.
図7は、配信条件の説明図である。図7の例では、配信条件として、配信パターンや、配信種別、配信タイミング、配信情報、配信先を有し、配信タイミングと配信情報に応じた6つの配信パターンを示している。配信種別は、配信タイミングが所定時間間隔で定期的に配信を行うこととなっている定期配信と、配信タイミングが所定情報の取得等のイベントを契機に配信を行うこととなっているイベント配信とを示す。図7の例では、配信パターン1,2が定期配信であり、配信パターン3−6がイベント配信である。
FIG. 7 is an explanatory diagram of distribution conditions. In the example of FIG. 7, the distribution conditions include a distribution pattern, a distribution type, a distribution timing, distribution information, and a distribution destination, and six distribution patterns corresponding to the distribution timing and the distribution information are shown. The distribution type includes regular distribution whose distribution timing is to be distributed periodically at a predetermined time interval, and event distribution whose distribution timing is to be triggered by an event such as acquisition of predetermined information Indicates. In the example of FIG. 7,
配信タイミングは、配信の契機を示す情報であり、所定時間間隔やイベント等が設定されている。所定時間間隔は、前述の対象期間と同様に10分毎、1時間毎、1日毎、1週間毎のように所定の間隔が設定される。また、所定時間間隔は、10:00〜12:00
、12:00〜14:00等のように所定の開始時刻と所定の終了時刻によって設定されても良い。更に、曜日、祝祭日、平日、休日、祝祭日、週末、月初、月末等によって所定時間間隔が設定されても良い。なお、これらは、平日の10:00〜18:00、休日の12:00〜20:00、月末の3日間のように組み合わせて設定しても良い。
The distribution timing is information indicating an opportunity for distribution, and a predetermined time interval, an event, and the like are set. The predetermined time interval is set such as every 10 minutes, every hour, every day, every week, as in the above-described target period. The predetermined time interval is 10:00 to 12:00.
, 12:00 to 14:00, etc., may be set by a predetermined start time and a predetermined end time. Furthermore, a predetermined time interval may be set according to a day of the week, a holiday, a weekday, a holiday, a holiday, a weekend, the beginning of the month, the end of the month, or the like. These may be set in combination such as 10:00 to 18:00 on weekdays, 12:00 to 20:00 on holidays, and 3 days at the end of the month.
また、配信の契機とするイベントは、例えば、所定の情報を取得した場合(パターン3)や、匿名情報が基準とする時点から所定値以上乖離した場合(パターン4)、匿名情報における所定の属性値(所定情報)の出現数や出現率が所定値に達した場合(パターン5)、匿名情報の順位が変動した場合(パターン6)などである。 In addition, an event that triggers distribution is, for example, when predetermined information is acquired (pattern 3), or when anonymity information deviates by more than a predetermined value from the reference time (pattern 4), and predetermined attributes in anonymous information This is the case when the number of occurrences of the value (predetermined information) and the appearance rate reach a predetermined value (pattern 5), when the rank of the anonymous information changes (pattern 6), and the like.
配信パターン1の場合、配信タイミングに設定した時間間隔で、匿名情報や匿名化した情報の順位を配信情報として配信する。
In the case of the
配信パターン2の場合、匿名情報に基づく予測情報を求め、この予測情報を配信情報として配信タイミングに設定した時間間隔で配信する。
In the case of
配信パターン3の場合、所定情報の取得時に、匿名情報や匿名化した情報の順位を配信情報として配信する。
In the case of the
配信パターン4の場合、配信タイミングを満たした場合に、配信情報配信タイミングを満たした旨の通知、即ち履歴情報との差分が所定値以上乖離した旨の通知や、匿名情報、匿名化した情報の順位を配信情報として配信する。
In the case of the
配信パターン5の場合、配信タイミングを満たした場合に、配信情報配信タイミングを満たした旨の通知、即ち匿名情報の出現数や出現率が所定値に達した旨の通知や、匿名情報、匿名化した情報の順位を配信情報として配信する。
In the case of the
配信パターン6の場合、配信タイミングを満たした場合に、配信情報配信タイミングを満たした旨の通知、即ち匿名情報の順位が変動した旨の通知や、匿名情報、匿名化した情報の順位を配信情報として配信する。
In the case of the
配信先は、端末のメールアドレスなど、配信情報の宛先を示す情報である。なお、配信手法は、電子メールに限らず、ショートメッセージサービスや、メッセンジャーソフト間のメッセージ等、電子的に情報を送信できるものであれば良い。 The distribution destination is information indicating a destination of distribution information such as a mail address of a terminal. Note that the delivery method is not limited to e-mail, and any method can be used as long as information can be transmitted electronically, such as a short message service or a message between messenger software.
なお、配信タイミングや配信情報の組み合わせは、この6パターンに限定されるものではなく、コンピュータによる判定が可能な配信タイミングや電子的に配信可能な配信情報であれば任意に採用できる。 The combination of distribution timing and distribution information is not limited to these six patterns, and any distribution timing that can be determined by a computer or distribution information that can be distributed electronically can be arbitrarily adopted.
図8は、対象期間及び配信条件を記憶した設定情報DB146の具体例を示す図である。図8の例では、設定情報DB146が、ユーザIDと、対象期間と、配信条件(配信パターン、配信タイミング、配信情報、配信先)とを対応付けて記憶している。
FIG. 8 is a diagram illustrating a specific example of the setting
ユーザIDは、設定情報(対象期間や配信条件)毎に付した識別情報であり、本例では当該設定情報を設定したユーザの識別情報としている。なお、設定情報の識別情報は、ユーザIDに限らず、リクエスト毎に付した識別情報(リクエストID)や、シリアル番号等の任意の識別情報であっても良い。 The user ID is identification information given for each setting information (target period and distribution condition). In this example, the user ID is the identification information of the user who set the setting information. Note that the identification information of the setting information is not limited to the user ID, but may be arbitrary identification information such as identification information (request ID) attached to each request or a serial number.
対象期間は、10分毎や1週間毎など、ユーザによって設定された任意の期間が記憶されている。 As the target period, an arbitrary period set by the user such as every 10 minutes or every week is stored.
配信条件は、以下のように配信パターン1〜6の例を示した。
配信パターン1の例では、1時間毎の配信タイミングで、20代25人、30代48人・・・のような匿名情報が、配信情報としてB店舗端末へ配信される。
Examples of distribution conditions are as follows for
In the example of
配信パターン2の例では、15分毎に予測処理が行われ、来場者の推移等から13時に駐車場が混雑することが予測された場合に、この予測情報が配信情報としてC店舗端末へ配信される。
In the example of the
配信パターン3の例では、商品Aを販売したという所定情報が取得された場合に、商品Aを購入した人の年代と性別の順位が配信情報としてA店舗の端末へ配信される。
In the example of the
配信パターン4の例では、先週の土曜日を基準として40代女性が20%減少した場合に、「先週の土曜日と比べて女性の来店者が減少しています。」といった通知が配信情報として全店舗の端末へ配信される。
In the example of
配信パターン5の例では、20代のコーヒー購入者が100人以上となった場合に、20代女性25人、20代男性76人・・・といった匿名情報が配信情報としてA店舗端末へ配信される。
In the example of
配信パターン6の例では、年代と性別の順位が変動した場合に、1位20代女性、2位30代男性といった順位が配信情報としてB店舗端末へ配信される。
In the example of
〈匿名化方法〉
図9−図12は、匿名化システム10が、匿名化プログラムに従って実行する匿名化方法の説明図であり、図9は、個人情報を受信して蓄積する処理を示す図、図10は、所定時間間隔及び履歴を用いた配信タイミングで配信を行う場合の処理を示す図、図11は、リアルタイムに配信を実行する処理を示す図、図12は、匿名化処理を示す図である。
<Anonymization method>
9 to 12 are explanatory diagrams of the anonymization method executed by the
匿名化システム10は、図9に示す蓄積処理を定期的に起動させ、端末30から個人情報を受信したか否かを確認する(ステップS1010)。ここで匿名化システム10は、個人情報を受信していなければ(ステップS1010,No)、図9の処理を終了させ、個人情報を受信していれば(ステップS1010,Yes)、受信した個人情報を匿名化DB144に登録し(ステップS1020)、蓄積処理を終了する。このように匿名化システム10は、図9の蓄積処理を繰り返し実行し、受信した個人情報を随時匿名化DB144に登録する。
The
また、匿名化システム10は、図10に示す処理を定期的に起動させ、先ず、各ユーザの設定情報を設定情報DB146から読み出す(ステップS1030)。
Moreover, the
次に、匿名化システム10は、読み出した設定情報に処理を行っていない対象期間があるか否かを判定する(ステップS1035)。匿名化システム10は、例えば、対象期間に該当する個人情報の取得を完了し、当該個人情報の匿名化を行っていない場合に、未処理の対象期間があると判定し、対象期間に該当する個人情報の取得が完了していない、及び当該個人情報の匿名化が完了しているものだけの場合に、未処理の対象期間が無いと判定する。未処理の対象期間が無ければ(ステップS1035,No)、匿名化システム10は、図10の処理を終了し、未処理の対象期間が有れば(ステップS1035,Yes)、当該対象期間と対応付けられた配信情報が予測情報か否か、即ち当該対象期間と対応付けられた配信パターンが2か否かを判定する(ステップS1040)。ここで配信パターン2と判定した場合(ステップS1040,Yes)、匿名化システム10は、対象期
間の個人情報を対象データとして求め、この対象データ等に基づいて予測処理を行い、予測結果を求める(ステップS1045)。
Next, the
そして、匿名化システム10は、当該対象期間に該当する個人情報を対象情報として匿名化する(ステップS1050)。例えば、予測情報が個人情報(対象データ)を含む場合には、この予測情報に含まれる個人情報を匿名化する。また、予測情報と共に配信する場合には、予測の対象とした対象データを匿名化する。
Then, the
一方、ステップS1040で配信パターン2では無いと判定した場合(ステップS1040,No)、予測処理を行わずに対象データの匿名化を行う(ステップS1050)。なお、匿名化の処理の詳細については、後述する。
On the other hand, when it determines with it not being the
匿名化後、匿名化システム10は、現在時刻が所定期間毎に定められた配信タイミングに該当するか否か、即ち配信パターン1,2の配信タイミングか否かを判定する(ステップS1055)。所定期間毎の配信タイミングに該当する場合(ステップS1055,Yes)、匿名化システム10は、配信情報を配信先へ配信する(ステップS1060)。匿名化システム10は、例えば、配信パターン1の場合、配信情報として順位や匿名情報を配信し、配信パターン2の場合、予測情報や匿名情報を配信する。
After anonymization, the
また、ステップS1055で、配信パターン1,2の配信タイミングでは無いと判定した場合(ステップS1055,No)、匿名化システム10は、履歴情報を用いた配信タイミングか否か、即ち配信パターン4〜6か否かを判定する(ステップS1065)。ここで匿名化システム10は、配信パターン4〜6でないと判定した場合には(ステップS1065,No)、図10の処理を終了し、配信パターン4〜6であると判定した場合には(ステップS1065,Yes)、履歴情報(過去の匿名情報)を匿名化DB144から読み出し(ステップS1070)、匿名情報と比較して配信条件を満たしているか否かを判定する(ステップS1075)。
If it is determined in step S1055 that it is not the distribution timing of
配信条件を満たしていなければ(ステップS1075,No)、匿名化システム10は、図10の処理を終了させ、配信条件を満たしていれば(ステップS1075,Yes)、通知や順位、匿名情報を配信情報として配信する(ステップS1080)。
If the distribution condition is not satisfied (step S1075, No), the
また、匿名化システム10は、図11に示すリアルタイム配信の処理を定期的に起動させ、先ず、各ユーザの設定情報を設定情報DB146から読み出す(ステップS1082)。また、匿名化システム10は、リアルタイム配信を行う所定情報を取得したか否かを判定する(ステップS1085)。
Further, the
匿名化システム10は、所定情報を取得していない場合(ステップS1085,No)、図11の処理を終了し、所定情報を取得した場合(ステップS1085,Yes)、対象データの匿名化処理を行う(ステップS1090)。
When the
匿名化後、匿名化システム10は、匿名情報をリアルタイムに配信先の端末30へ配信する(ステップS1095)。
After anonymization, the
図12は、ステップS1050における匿名化の処理の説明図である。匿名化システム10は、ステップS1035で未処理と判定した対象期間に該当する個人情報を匿名化DB144から読み出して取得する(ステップS1130)。例えば、10分毎、1時間毎、1日毎のように所定の間隔で対象期間が設定されている場合には、前回の匿名化の処理から当該間隔毎に対象データを読み出す。また、8:00〜13:00、13:00〜18:00等のように所定の開始時刻と所定の終了時刻によって対象期間が設定されている
場合には、当該期間に取得された個人情報を対象データとして読み出す。
FIG. 12 is an explanatory diagram of the anonymization process in step S1050. The
次に匿名化システム10は、対象データ中の各ワードについて、価値データが検索情報蓄積DB145に存在するか否かを判定する(ステップS1140)。匿名化システム10は、全てのワードの価値データが検索情報蓄積DB145に存在する場合にはステップS1160へ移行し(ステップS1140,Yes)、足りない価値データがある場合(ステップS1140,No)、当該ワードの価値データを外部の装置、本例では検索エンジン70から取得する(ステップS1150)。なお、検索エンジンから取得した価値データ以外、即ち検索情報蓄積DB145に存在したワードの価値情報は、検索情報蓄積DB145から取得する(ステップS1160)。
Next, the
また、匿名化システム10は、匿名性を満たすため対象データの各項目を抽象化したワード(カテゴリ)に置き換えて抽象化候補データを作成する(ステップS1170)。なお、抽象化可能な項目が複数存在する場合には、各項目を抽象化した場合と抽象化しない場合の全てのパターンを作成する。例えば対象データに三つの項目A,B,Cが含まれ、全項目について抽象化が可能で、抽象化した項目をA´,B´,C´とした場合、図13に示すように、項目Aだけを抽象化した場合A´,B,Cや、項目A,Bを抽象化した場合A´,B´,Cなど、七つの候補パターンが作成できる。また、対象データに含まれる項目A,B,Cのうち一部を省略した候補パターンを作成しても良い。例えば、項目A,B、項目A´,B、項目A,B´、項目A´,B´や、項目B,C、項目B´,C、項目B,C´、項目B´,C´、項目A,C、項目A´,C、項目A,C´、項目A´,C´のような候補を作成しても良い。このとき省略しない項目(必須項目)を予め設定しておき、この必須項目以外の項目を省略した候補パターンを作成しても良い。なお、匿名化システム10は、候補パターンの項目数をステップS1125で取得した対象期間の長さに応じて定めても良い。例えば、対象期間が10分であれば項目数1〜3、1時間であれば項目数2〜5、1日以上であれば項目数5〜8のように、対象期間毎に候補パターンの項目数の範囲を定めて記憶部に記憶しておき、ステップS1125で取得した対象期間と対応する項目数の範囲を読み出し、この項目数の範囲で候補パターンを作成しても良い。
Also, the
次に匿名化システム10は、抽象化候補データに含まれる各ワードの価値データに基づいて各パターンの抽象化候補データの価値を算出し(ステップS1180)、この抽象化候補データの価値に基づいて検定の順番を決定する(ステップS1190)。例えばこの価値が高い順(降順)に検定の順番を決定する。なお、全ての候補パターンについて検定を行うことが望ましいが、この抽象化候補データの価値に基づき、価値の低過ぎる抽象化候補データを順番から外しても良い。例えば、価値の高い順番で、所定番目以降或いは半分未満など所定割合未満の抽象化候補データを外しても良い。また、抽象化候補データの価値が対象データの価値に対して所定割合未満となった抽象化候補データを外しても良い。これにより検定数が少なくなり、処理時間の短縮化が図れる。
Next, the
この検定の順番に従い、匿名化システム10は、抽象化候補データの匿名性を検定する(ステップS1200)。例えば、k−匿名性を検定するため、一個人と対応付けられた異なる項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。或いは、l多様性を検定するため、一個人と対応付けられた同じ項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。そして、この存在数のうち最小のものを最低出現数(k値/l値)として求め(ステップS1210)、この最低出現数が1を超えているか否かを判定する(ステップS1220)。即ち、ここでk値が1を超えていればk−匿名性を満たし、1であればk−匿名性を満たさない。同様にl値が1を超えていればl−多様性を満たし、1であればl−多様性を満たさない。
In accordance with the order of this test, the
最低出現数(k値/l値)が1を超えていない場合(ステップS1220,No)、匿
名化システム10は、抽象化候補データのうち、少なくとも一つの項目の値を更に抽象化する、即ち抽象化したワードに置き換え(ステップS1230)、ステップS1200に戻る。
When the minimum appearance number (k value / l value) does not exceed 1 (step S1220, No), the
一方、最低出現数(k値/l値)が1を超えている場合(ステップS1220,Yes)、匿名化システム10は、当該抽象化候補データの価値と元の対象データの価値との差分を求め(ステップS1240)、この差分や、この差分に基づく値、例えば対象データの価値に対する差分の割合、対象データの価値に対する抽象化候補データの価値の割合を当該抽象化候補データの価値として決定する(ステップS1250)。
On the other hand, when the minimum number of appearances (k value / l value) exceeds 1 (step S1220, Yes), the
また、匿名化システム10は、検定していない候補パターンがあるか否かを判定し(ステップS1260)、検定していない候補パターンがあれば(ステップS1260,Yes)、ステップS1190で決定した順番に従って、次の順番の抽象化候補データを特定し(ステップS1270)、ステップS1200に戻って次の抽象化候補データについて検定を行う。
Further, the
このように各パターンの抽象化候補データについて検定を繰り返し、次の候補パターンが無くなった場合(ステップS1260,No)、匿名化システム10は、ステップS1250で求各抽象化候補データの価値に基づいて、採用すべき抽象化候補データを選択し(ステップS1280)、選択した抽象化候補データを匿名情報としてステップS1125で取得した対象期間と対応付けて匿名化DB144に登録し(ステップS1290)、匿名化の処理を終了する。
In this way, when the test is repeated for the abstraction candidate data of each pattern and there is no next candidate pattern (No in step S1260), the
このように抽象化候補データの選択は、例えば、全候補パターンの中で最も価値の高い抽象化候補データを選択する。また、匿名化システム10は、全候補パターンの中から価値の高い順に複数の抽象化候補データを出力し、この出力された抽象化候補データの中から操作者が適切だと思う抽象化候補データを指定し、この指定された抽象化候補データを選択しても良い。
Thus, the abstraction candidate data is selected, for example, by selecting the abstraction candidate data having the highest value among all candidate patterns. Further, the
次に図14−図21を用いて本実施形態におけるデータの価値について説明する。図14は対象データにおける年齢の項目の一部の例を示す図である。図14に示すように対象データは、年齢si毎に人数ciを有している。例えば、18歳(s1)の人数(c1)が30人、19歳(s2)の人数(c2)が10人である。 Next, the value of data in the present embodiment will be described with reference to FIGS. FIG. 14 is a diagram illustrating an example of a part of the age item in the target data. As shown in FIG. 14, the target data has the number of people ci for each age si. For example, the number of people (c1) at the age of 18 (s1) is 30, and the number of people (c2) at the age of 19 (s2) is 10.
図15は、年齢siについて取得する価値データの一例を示す。図15の価値データは、年齢si毎にSEM単価eiを有している。 FIG. 15 shows an example of value data acquired for the age si. The value data in FIG. 15 has a SEM unit price ei for each age si.
この年齢siの価値は、SEM単価eiに人数ciを乗じた値であり、式1で示される。
The value of this age si is a value obtained by multiplying the SEM unit price ei by the number of people ci, and is represented by
si=ci×ei ・・・(式1)
そして、図16に示すように年齢の項目S(e)の価値は、各年齢siの総計であり、式2で示される。なお、図16においてnは5である。従って、年齢の項目S(e)の価値は、図17に示すように、2446円である。また、対象データにおける全ての項目の価値を合計したものが対象データの価値である。
si = ci × ei (Formula 1)
As shown in FIG. 16, the value of the age item S (e) is the total of each age si, and is expressed by
一方、図18は抽象化候補データにおける年齢の項目の一部の例を示す図である。図18に示すように抽象化候補データは、年代ki毎に人数ciを有している。例えば、10代(k1)の人数(c1)が40人、20代(k2)の人数(c2)が22人である。 On the other hand, FIG. 18 is a diagram illustrating an example of a part of the age item in the abstraction candidate data. As shown in FIG. 18, the abstraction candidate data has the number of people ci for each age ki. For example, the number of teenagers (k1) (c1) is 40, and the number of people in their 20s (k2) (c2) is 22.
図19は、年代kiについて取得する各ワードの価値データの一例を示す。図19の価値データは、年代ki毎にSEM単価eiを有している。 FIG. 19 shows an example of value data of each word acquired for the age ki. The value data in FIG. 19 has a SEM unit price ei for each age ki.
この年代kiの価値は、SEM単価eiに人数ciを乗じた値であり、式3で示される。
The value of this age ki is a value obtained by multiplying the SEM unit price ei by the number of people ci, and is expressed by
ki=ci×ei ・・・(式3)
そして、図20に示すように年代の項目S(k)の価値は、各年代kiの総計であり、式4で示される。なお、図20においてnは2である。従って、年齢の項目S(k)の価値は、図21に示すように、2134円である。即ち、年齢の項目を年代に抽象化したことにより、価値が312円減損したことになる。また、抽象化候補データにおける全ての項目の価値を合計したものが抽象化候補データの価値である。
ki = ci × ei (Formula 3)
Then, as shown in FIG. 20, the value of the item S (k) of the age is the total of each age ki, and is expressed by
そして、ステップS1250で求める抽象化候補データの価値として、例えば式5に示すように、抽象化候補データの価値を抽象化候補データの価値と対象データの価値の合計で除した減損率M(k)を求める。
Then, as the value of the abstraction candidate data obtained in step S1250, for example, as shown in
M(k)=S(k)/(S(k)+S(e)) ・・・(式5)
このように本実施形態1の匿名化システム10は、各抽象化候補データの価値を抽象化したワードの価値に基づいて評価することにより、精度良く各抽象化候補データの価値を評価でき、抽象化後も高い価値を有する抽象化候補データを選択できる。
M (k) = S (k) / (S (k) + S (e)) (Formula 5)
As described above, the
また、本実施形態1の匿名化システム10は、利用者側の指定する対象期間内の個人情報を対象データとして匿名化を行うので、対象期間の長さによって匿名化するための抽象化の程度が異ならせている。例えば、対象期間が10分のように短い期間であると、個人情報の数が少なく、k−匿名性又はl−匿名性を満たすためには抽象化の程度を高める必要があり、対象期間が1日のように比較的長い期間であると、個人情報の数が多く、抽象化の程度が低くてもk−匿名性又はl−匿名性を満たすことができる。このように利用者の指定する対象期間によって抽象化の程度が変化する場合であっても、本実施形態1の匿名化システム10によれば、抽象化後の価値に基づいて抽象化候補を選択でき、対象期間と抽象化後の価値に基づいた適切な匿名化処理を行うことができる。
Moreover, since the
〈実施形態2〉
図22は、実施形態2に係る匿名化システム100の機能ブロック図である。本実施形態2の匿名化システム100は、複数の事業者が出展する展示会において、各事業者が来場者から収集した個人情報の匿名化を行うシステムであり、各事業者の匿名化装置50や、各事業者で匿名化した匿名情報を管理する管理サーバ20を有する。なお、本実施形態2において、前述の実施形態1と同じ要素には同符号を付す等して一部記載を省略する。
<
FIG. 22 is a functional block diagram of the anonymization system 100 according to the second embodiment. The anonymization system 100 according to the second embodiment is a system that anonymizes personal information collected by each business operator from an exhibitor at an exhibition where a plurality of business operators exhibit. Or it has the
本実施形態2の匿名化システム100では、管理サーバ20が、各事業者の匿名化装置50から夫々匿名化辞書を取得し、各事業者の匿名化辞書を統合して統合匿名化辞書を生成し、各事業者の匿名化装置50へ配信する。また、管理サーバ20が、各事業者の匿名化装置50から設定情報を受信し、受信した設定情報を各事業者の匿名化装置50へ夫々配信する。そして、各事業者の匿名化装置50が、設定情報の対象期間に該当する対象データを取得し、当該対象データを各事業者共通の統合匿名化辞書を用いて匿名化して匿名情報とし、この匿名情報を配信条件に基づいて配信することで、各事業者がそれぞれ匿名化した匿名情報を他の事業者が所望の条件で利用できるようにしている。
In the anonymization system 100 of the second embodiment, the
図22に示すように、管理サーバ20は、辞書取得部201や、統合部202、優先度決定部203、辞書管理部204、匿名情報登録部205、匿名情報制御部206、次元
選択部207、設定情報管理部208、配信部209、辞書DB231、優先度DB232、共通DB233、設定情報DB236を備えている。即ち、本実施形態2の管理サーバ20は、辞書取得部201、統合部202、優先度決定部203及び次元選択部207を備えた辞書作成装置でもある。
As shown in FIG. 22, the
辞書取得部201は、対象データに含まれる語を抽象化した語に替えて匿名化するため、前記語と前記抽象化した語とを対応付けて記憶した複数の匿名化辞書を各事業者の匿名化装置50から取得する。本実施形態では、各事業者の匿名化装置50から送信された匿名化辞書を辞書取得部201が受信し、辞書DB231に登録する。
In order to anonymize the word included in the target data by replacing the word included in the target data with the
統合部202は、各事業者の匿名化装置50から取得した複数の匿名化辞書を統合して統合匿名化辞書を作成する。例えば統合部202は、複数の匿名化辞書に含まれる各語の対応関係に基づいて、抽象化した語を上位、抽象化前の語を下位とし、前記複数の匿名化辞書に含まれる各語と、前記複数の匿名化辞書に存在する上位及び下位の語とを対応付け、対応する上位の語が存在しない最上位の語をルートとして対応する下位の語が存在しない最下位の語までのツリー状の対応関係にある語の次元を前記最上位の語毎に生成し、統合匿名化辞書として辞書DB231に記憶させる。この各最上位の語をルートとするツリー状の語の次元が統合匿名化辞書を構成する。
The
優先度決定部203は、前記統合匿名化辞書を構成する次元の夫々について、当該次元に含まれる語に基づいて優先度を決定する。例えば、優先度決定部203は、各次元に含まれる語の数、各次元に含まれる語について上位と下位の関係にある段階の数、各次元に含まれる語の価値のうち少なくとも一つに基づいて前記優先度を決定する。なお、前記語について予め定めた値を、例えば優先度DB232が記憶しておき、優先度決定部203は、優先度DB232を参照して優先度を決定する。
The
次元選択部207は、前記統合部202で生成した複数の次元のうち、統合匿名化辞書として採用する次元と採用しない次元とを前記優先度に基づいて選択する。
The
辞書管理部204は、統合部202で作成された統合匿名化辞書を管理する。例えば辞書管理部204は、統合匿名化辞書を辞書DB231から読み出して各事業者の匿名化装置50へ配信する。
The
匿名情報登録部205は、各事業者の匿名化装置50から匿名情報を取得し、共通DB233に登録する。
The anonymous
匿名情報制御部206は、共通DB233に登録された匿名情報の出力処理等を制御する。例えば、匿名化装置50等の情報処理装置から匿名情報の取得要求を受けた場合に、該当する匿名情報を要求元の情報処理装置へ配信する。本実施形態2において、匿名情報制御部206は、出力部の一形態である。
The anonymous
設定情報管理部208は、各事業者の匿名化装置50から設定情報を受信し、設定情報DB236に記憶させると共に、受信した設定情報(対象期間)を他の事業者の匿名化装置50に配信する。設定情報DB236が記憶するデータの構成は、図8と略同じであり、ユーザID、対象期間、配信条件(配信パターン、配信タイミング、配信情報、配信先)等の情報を有するが、配信条件等の具体的内容については、処理する個人情報の内容に応じて適宜設定される。なお、管理サーバ20は、受信した設定情報のうち、対象期間を他の事業者へ配信した後は保持する必要がなく、設定情報DB236に記憶しなくても良い。
The setting
配信部209は、設定情報DB236の配信条件に基づき、匿名情報等の配信情報を各事業者の匿名化装置50等の配信先へ配信する。
The
図23は辞書DB231の例を示す図である。辞書DB231は、抽象化前のワード(以下、下位のワードとも称す)と、当該ワードを抽象化した後のワード(以下、上位のワ
ードとも称す)とを対応付けて記憶している。
FIG. 23 is a diagram illustrating an example of the
図24は、優先度DB232の例を示す図である。優先度DB232は、各ワードについて、優先度を決定するための値(価値)を記憶している。図24の例では、各ワードに対して、1日当たりのクリック数、1日当たりの表示回数、参入企業数、1日当たりのコスト、クリック率、SEM価格(獲得価格)など、SEMに用いられる値が記憶されている。
FIG. 24 is a diagram illustrating an example of the
図25は、共通DB233の例を示す図である。共通DB233は、各事業者の匿名化装置50で統合匿名化辞書を用いて匿名化した匿名情報を記憶している。図25の例では、来訪ブース、年齢、性別、所属企業、役職、興味を示した商品、ステータスなどの項目のデータを記憶している。この項目や各項目の抽象化の程度は、後述のように統合匿名化辞書や検定の結果等によって決まる。
FIG. 25 is a diagram illustrating an example of the
また、各事業者の匿名化装置50は、図22に示すように、データ取得部101や、抽象化部102、検定部103、選択部104、匿名情報登録部106、価値データ取得部107、ワードカテゴリ分析部108、ワード価値計算部109、出力制御部110、設定情報登録部121、期間取得部122、予測部123、個人情報DB131、検索情報蓄積DB145、設定情報DB146を備えている。
Further, as shown in FIG. 22, each business
データ取得部101は、個人と対応付けられた複数の項目を含むデータ、即ち個人情報を取得し、この個人情報のうち、対象期間に該当するものを対象データとして取得する。例えば、データ取得部101は、来場者が記載したアンケートや来場者から聞き取った個人情報をキーボード等から入力を受けて個人情報DB131に記憶しておき、この個人情報DB131から10分・1時間・1日などの対象期間に該当する個人情報を対象データとして読み出す。また、データ取得部101は、来場者の名刺やアンケートに記載された事項をOCR(Optical Character Recognition)によって読み取り、個人情報として記
憶しても良いし、来場者のRF−IDタグやICチップ等から当該来場者の個人情報を取得して記憶しても良い。
The
抽象化部102は、前記次元からなる統合匿名化辞書を参照し、前記対象データ中の項目の値である語を前記優先度に基づいて抽象化した語に替えて匿名化候補データを生成する。
The
検定部103は、前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定する。例えば、検定部103は、抽象化候補データの項目の値の組み合わせが、k−匿名性を満たすこと、或いはl−多様性を満たすことを条件として検定する。
The
出力制御部110は、前記検定の条件を満たした抽象化候補データを匿名情報として出力する。例えば、出力制御部110は、匿名情報を管理サーバ20へ送信する。
The
設定情報登録部121は、当該事業者(ユーザ)によって入力された設定情報を設定情報DB146に記憶させると共に管理サーバ20へ送信する。また、設定情報登録部121は、管理サーバ20から配信される他の事業者の設定情報(対象期間)を受信して設定
情報DB146に登録する。なお、設定情報DB146に記憶される設定情報(対象期間)は、図6の例と同様である。
The setting
期間取得部122は、匿名化を行う対象の期間を取得する。例えば、期間取得部122は、対象期間を設定情報DB146から読み出すことにより取得する。
The
予測部123は、取得した個人情報等に基づいて予測結果を求める。例えば、所定期間内の属性値の変化の推移に基づいて、所定時間後の属性値を予測結果として求める。また、所定時間後の属性値が閾値を超えた場合に警告を予測結果としても良い。
The
図26は、個人情報DB131の例を示す図である。個人情報DB131は、データ取得部101で取得した個人情報を記憶している。図26の例では氏名、メール、所属企業名、役職、興味、ステータス等を記憶している。
FIG. 26 is a diagram illustrating an example of the
図27は管理サーバ20のハードウェア構成を示す図である。管理サーバ20は、CPU21、メモリ22、通信制御部23、記憶装置24、入出力インタフェース25を有する所謂コンピュータである。
FIG. 27 is a diagram illustrating a hardware configuration of the
CPU21は、メモリ22に実行可能に展開されたプログラムを実行し、前述の辞書取得部201や、統合部202、優先度決定部203、辞書管理部204、匿名情報登録部205、匿名情報制御部206、次元選択部207、設定情報管理部208、配信部209の機能を提供する。
The
メモリ22は、主記憶装置ということもできる。メモリ22は、例えば、CPU21が実行するプログラムや、通信制御部23を介して受信したデータ、記憶装置24から読み出したデータ、その他のデータ等を記憶する。
The
通信制御部23は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース25は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、USBメモリを接続するUSBのアダプタ等である。また、着脱可能な記憶媒体は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray Disc)等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置24に格納する。
The
記憶装置24は、外部記憶装置ということもできる。記憶装置24としては、SSD(Solid State Drive)やHDD等であってもよい。記憶装置24は、ドライブ装置との間
で、データを授受する。例えば、記憶装置24は、ドライブ装置からインストールされる情報処理プログラム等を記憶する。また、記憶装置24は、プログラムを読み出し、メモリ22に引き渡す。本実施形態では、記憶装置24が前述の辞書DB231、優先度DB232、共通DB233を格納している。
The
図28は匿名化装置50のハードウェア構成を示す図である。匿名化装置50は、CPU51、メモリ52、通信制御部53、記憶装置54、入出力インタフェース55を有する所謂コンピュータである。
FIG. 28 is a diagram illustrating a hardware configuration of the
CPU51は、メモリ52に実行可能に展開されたプログラムを実行し、前述のデータ取得部101や、抽象化部102、検定部103、選択部104、匿名情報登録部106、価値データ取得部107、ワードカテゴリ分析部108、ワード価値計算部109、出
力制御部110、設定情報登録部121、期間取得部122、予測部123の機能を提供する。
The
メモリ52は、主記憶装置ということもできる。メモリ52は、例えば、CPU51が実行するプログラムや、通信制御部53を介して受信したデータ、記憶装置54から読み出したデータ、その他のデータ等を記憶する。
The
通信制御部53は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース55は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、USBメモリを接続するUSBのアダプタ等である。また、着脱可能な記憶媒体は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray Disc)等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置54に格納する。
The
記憶装置54は、外部記憶装置ということもできる。記憶装置54としては、SSD(Solid State Drive)やHDD等であってもよい。記憶装置54は、ドライブ装置との間
で、データを授受する。例えば、記憶装置54は、ドライブ装置からインストールされるプログラム等を記憶する。また、記憶装置54は、プログラムを読み出し、メモリ52に引き渡す。本実施形態では、記憶装置54が前述の個人情報DB131を格納している。
The
§3.匿名化方法
次に図29〜図32を用いて本実施形態2の匿名化方法について説明する。
§3. Anonymization method Next, the anonymization method of the second embodiment will be described with reference to FIGS.
(3−1)設定情報に基づく処理
匿名化装置50は、図29に示す処理を定期的に起動させ、先ず、設定情報(対象期間)を設定情報DB146から読み出す(ステップS1030)。
(3-1) Processing Based on Setting Information The
次に、匿名化装置50は、読み出した対象期間に未処理のものがあるか否かを判定し(ステップS1035)、未処理の対象期間が無ければ(ステップS1035,No)、図29の処理を終了し、未処理の対象期間が有れば(ステップS1035,Yes)、当該対象期間と対応付けられた配信情報が予測情報か否か、即ち当該対象期間と対応付けられた配信パターンが2か否かを判定する(ステップS1040)。ここで配信パターン2と判定した場合(ステップS1040,Yes)、匿名化システム10は、対象期間の個人情報を対象データとして求め、この対象データ等に基づいて予測処理を行い、予測結果を求める(ステップS1045)。
Next, the
当該対象期間に該当する個人情報を対象情報として匿名化DB144から読み出す(ステップS1040)。そして、匿名化システム10は、予測情報や対象データを匿名化する(ステップS1050)。例えば、予測情報が個人情報(対象データ)を含む場合には、この予測情報に含まれる個人情報を匿名化する。また、予測情報と共に配信する場合には、予測の対象とした対象データを匿名化する。
The personal information corresponding to the target period is read out from the
一方、ステップS1040で配信パターン2では無いと判定した場合(ステップS1040,No)、予測処理を行わずに対象データの匿名化を行う(ステップS1050)。なお、匿名化の処理の詳細については、後述する。
On the other hand, when it determines with it not being the
匿名化後、匿名化装置50は、匿名情報を管理サーバ20へ送信する(ステップS1052)。なお、匿名情報とは別にステップS45で予測情報を生成した場合、匿名化装置
50は、匿名情報と共に予測情報を管理サーバ20へ送信する。この匿名情報や予測情報を受信した管理サーバ20は、共通DB233に蓄積する。
After anonymization, the
また、匿名化装置50は、図30に示すリアルタイム配信の処理を定期的に起動させ、先ず、各ユーザの設定情報を設定情報DB146から読み出す(ステップS1082)。また、匿名化装置50は、リアルタイム配信を行う所定情報を取得したか否かを判定する(ステップS1085)。
Further, the
匿名化装置50は、所定情報を取得していない場合(ステップS1085,No)、図30の処理を終了し、所定情報を取得した場合(ステップS1085,Yes)、対象データの匿名化処理を行う(ステップS1090)。
When the
匿名化後、匿名化装置50は、リアルタイム配信を示す情報を匿名情報と共に管理サーバ20へ送信する(ステップS1092)。
After anonymization, the
一方、管理サーバ20は、図31に示す配信の処理を定期的に起動させ、先ず、各ユーザの設定情報を設定情報DB236から読み出す(ステップS1032)。また、管理サーバ20は、リアルタイム配信を示す情報を取得したか否かを判定する(ステップS1037)。リアルタイム配信を示す情報を取得した場合(ステップS1037,Yes)、管理サーバ20は、当該情報と共に受信した匿名情報を設定情報に基づいて匿名化装置50等の配信先に配信する(ステップS1097)。
On the other hand, the
また、ステップS1037でリアルタイム配信を示す情報を取得していないと判定した場合(ステップS1037,No)、管理サーバ20は、設定情報に基づき、現在時刻が所定期間毎に定められた配信タイミングに該当するか否か、即ち配信パターン1,2の配信タイミングか否かを判定する(ステップS1055)。所定期間毎の配信タイミングに該当する場合(ステップS1055,Yes)、管理サーバ20は、ステップS1050で匿名化装置50から受信した匿名情報等の配信情報を配信先へ配信する(ステップS1060)。管理サーバ20は、例えば、配信パターン1の場合、配信情報として順位や匿名情報を配信し、配信パターン2の場合、予測情報や匿名情報を配信する。
If it is determined in step S1037 that information indicating real-time delivery has not been acquired (step S1037, No), the
また、ステップS1055で、配信パターン1,2の配信タイミングでは無いと判定した場合(ステップS1055,No)、匿名化システム10は、履歴情報を用いた配信タイミングか否か、即ち配信パターン4〜6か否かを判定する(ステップS1065)。ここで管理サーバ20は、配信パターン4〜6でないと判定した場合には(ステップS1065,No)、図31の処理を終了し、配信パターン4〜6であると判定した場合には(ステップS1065,Yes)、履歴情報を共通DB233から読み出し(ステップS1070)、匿名情報と比較して配信条件を満たしているか否かを判定する(ステップS1075)。
If it is determined in step S1055 that it is not the distribution timing of
配信条件を満たしていなければ(ステップS1075,No)、匿名化システム10は、図31の処理を終了させ、配信条件を満たしていれば(ステップS1075,Yes)、通知や順位、匿名情報を配信情報として匿名化装置50等の配信先へ配信する(ステップS1080)。
図32は、管理サーバ20がプログラムに従って実行する統合匿名化辞書を作成する処理の説明図である。
If the distribution condition is not satisfied (step S1075, No), the
FIG. 32 is an explanatory diagram of processing for creating an integrated anonymization dictionary that the
(3−2)統合匿名化辞書の作成
まず、管理サーバ20は、各事業者の匿名化装置50から各事業者の匿名化辞書を受信する(ステップS10)。
(3-2) Creation of Integrated Anonymization Dictionary First, the
次に管理サーバ20は、各事業者の匿名化辞書を統合する(ステップS20)。なお、匿名化辞書を統合する際の具体的な処理については後述する。
Next, the
また、管理サーバ20は、統合匿名化辞書を構成するワードの次元について、優先度を決定し(ステップS30)、この優先度に基づいて統合匿名化辞書に採用する次元と採用しない次元とを選択する(ステップS40)。
In addition, the
そして、管理サーバ20は、ステップS40で選択した次元から構成される統合匿名化辞書を各匿名化装置50へ配信する(ステップS50)。
And the
図33は、ステップS20における匿名化辞書を統合する処理の説明図である。管理サーバ20は、先ず、各事業者の匿名化辞書を記憶した辞書DB231から最下位のワードを抽出する(ステップS110)。例えば各事業者の匿名化辞書には、図23に示すように「ソフトA」を抽象化した語が「伝票ソフト」と記憶されており、「ソフトA」に対して一段階上位のワードが「伝票ソフト」であることがわかる。同様に、「ソフトZ」を抽象化した語が「伝票ソフト」であり、「ソフトB」を抽象化した語が「会計ソフト」である。
FIG. 33 is an explanatory diagram of the process of integrating the anonymization dictionary in step S20. The
更に、「ソフトA」や「ソフトZ」に対して一段階上位のワードである「伝票ソフト」についても一段階上位のワードが「業務ソフト」と記憶されている。 In addition, for “slip software” which is a word one level higher than “soft A” and “soft Z”, the word one level higher is stored as “business software”.
このように辞書DB231に上位・下位の関係と共に記憶されているワードのうち、下位のワードと対応付けられていないワード、即ち最も下位のワードを一つ抽出する。
In this way, out of the words stored in the
次に管理サーバ20は、ステップS110で抽出したワードより一つ上位のワードを求め、一つ上位の段階(抽象化レベル)を設定する(ステップS120)。例えば、ステップS110で抽出したワードが「ソフトA」であれば、「伝票ソフト」を一段階上位のワードとして抽出する。
Next, the
管理サーバ20は、ステップS120で抽出したワードと対応する一つ下位のワードと同じ段階(抽象化レベル)のワードを抽出する(ステップS130)。例えば、ステップS120で抽出したワードが「伝票ソフト」であれば、「ソフトA」と同じ段階の「ソフトZ」が抽出される。
The
更に、管理サーバ20は、ステップS130で抽出したワードと対応する下位のワードがあれば抽出し、対応する下位のワードが無くなるまで下位のワードの抽出を繰り返す(ステップS140)。
Furthermore, the
ステップS140で、下位のワードが出尽くした場合に、管理サーバ20は、直前のステップS120又はステップS160で設定した段階が最上位か否か、即ち更に上位のワードが存在するか否かを判定し、最上位でなければ(ステップS150,No)、一つ上位のワードを求め、一つ上位の段階(抽象化レベル)を設定してステップS130に戻る(ステップS160)。例えば、ステップS120で設定したワードが「伝票ソフト」であった場合、一つ上位のワード「業務ソフト」を求め、一つ上位の段階として設定する。
When the lower word is exhausted in step S140, the
そして、ステップS130へ戻り、ステップS130,S140の処理を行った後、ステップS150で、直前のステップS120又はステップS160で設定した段階が最上位と判定した場合(ステップS150,Yes)、前記複数の匿名化辞書に含まれる全てのワードの処理が終了したか否かを判定し(ステップS170)、残りのワードがあれば
(ステップS170,No)、ステップS110に戻って処理を繰り返し、全てのワードの処理が終了したならば(ステップS170,Yes)図33の処理を終了する。
Then, after returning to step S130 and performing the processing of steps S130 and S140, if it is determined in step S150 that the stage set in the immediately preceding step S120 or step S160 is the highest (step S150, Yes), the plurality of It is determined whether or not all the words included in the anonymization dictionary have been processed (step S170), and if there are remaining words (step S170, No), the process returns to step S110 to repeat the process, If the above process is completed (step S170, Yes), the process of FIG. 33 is terminated.
(3−3)次元の説明
図34は、図33の処理によって作成される各次元の説明図である。図34の例では、「IT製品」をルートとする次元について示している。即ち、図34の次元において、「IT製品」が最上位の段階のワードである。
(3-3) Description of Dimensions FIG. 34 is an explanatory diagram of each dimension created by the process of FIG. In the example of FIG. 34, a dimension having “IT product” as a root is shown. That is, in the dimension of FIG. 34, “IT product” is the word at the highest level.
「IT製品」は、その一つ下位の段階(図34の例では段階4)のワードとして「ソフト」「ハード」が対応付けられている。そして、「ソフト」は、その一つ下位の段階(図34の例では段階3)のワードとして「業務ソフト」「個人ソフト」が対応付けられている。
In “IT product”, “software” and “hardware” are associated as words in the next lower stage (
また、「業務ソフト」は、その一つ下位の段階(図34の例では段階2)のワードとして「伝票ソフト」「会計ソフト」「顧客管理ソフト」が対応付けられ、「伝票ソフト」は、その一つ下位の段階(図34の例では段階1、最下位の段階)のワードとして「ソフトA」「ソフトZ」が対応付けられている。なお、「個人ソフト」は、その一つ下位の段階のワードとして「ソフトV」「ソフトU」と対応付けられ、「ハード」は、その一つ下位の段階のワードとして「サーバD」「サーバE」と対応付けられている。
In addition, “business software” is associated with “slip software”, “accounting software”, and “customer management software” as the words of the next lower stage (
このように本実施形態の統合部は、各事業者の匿名化辞書に基づいて図34に示すような次元を複数作成する。ここで次元は、最上位のワードをルートとし、最下位のワードにかけて樹状に対応付けられた対応関係であり、最上位のワード毎に生成される。即ち統合部は、各事業者の匿名化辞書に含まれる全てのワードをまとめて樹状に対応つけて複数の次元とすることにより匿名化辞書を統合化している。そして、この複数の次元が、統合匿名化辞書である。 As described above, the integration unit of the present embodiment creates a plurality of dimensions as shown in FIG. 34 based on the anonymization dictionary of each business operator. Here, the dimension is a correspondence relationship in which the highest word is rooted and associated with the lowest word in a tree form, and is generated for each highest word. That is, the integration unit integrates the anonymization dictionary by combining all words included in the anonymization dictionary of each business operator into a plurality of dimensions by associating them with a tree. The plurality of dimensions is an integrated anonymization dictionary.
図35は複数の次元の説明図である。図35に示すように、あるワードを抽象化する次元は複数存在し得る。例えば、図35の次元aでは、「ソフトウェアA」を「会計ソフト」、「業務ソフト」に抽象化し、次元cでは、「ソフトウェアA」を「a社製品」、「パッケージ」に抽象化する。また、次元bや次元dでもそれぞれ異なるワードに抽象化する。 FIG. 35 is an explanatory diagram of a plurality of dimensions. As shown in FIG. 35, there can be multiple dimensions for abstracting a word. For example, in dimension a in FIG. 35, “software A” is abstracted into “accounting software” and “business software”, and in dimension c, “software A” is abstracted into “a company product” and “package”. Also, the dimension b and dimension d are abstracted into different words.
特に本実施形態の統合匿名化辞書は、多数の事業者の匿名化辞書を統合しているので、例えば数十〜数百の次元を含むことになり、全ての次元を用いて抽象化を行うと、データ量が膨大になってしまう。このため、本実施形態では、統合匿名化辞書の各次元について、抽象化に採用する次元の優先度を決定している。 In particular, since the integrated anonymization dictionary of this embodiment integrates anonymization dictionaries of a large number of operators, for example, it includes tens to hundreds of dimensions, and abstraction is performed using all dimensions. And the amount of data becomes enormous. For this reason, in this embodiment, the priority of the dimension employ | adopted for abstraction is determined about each dimension of an integrated anonymization dictionary.
(3−4)優先度の説明
次に、図35〜図37を用いてステップS30における優先度の決定処理の詳細について説明する。図36は、図35に示した次元に含まれる各ワードに重み付けをした例を示す図である。図36の例では、各次元に含まれるワードの夫々が、当該ワードの段階と対応付けて記憶されると共に、三種類の重み付けが行われる。重み付け1では、重要フラグの有無を付し、重み付け2では、検索回数を付し、重み付け3では、SEM(Search Engine Marketing)価格を付している。ここで重要フラグは、ユーザが重要か否かを入力し
た値であり、重要なワード、即ち抽象化に利用したいワードには重要と記録する(重要フラグを立てる)。
(3-4) Description of Priority Next, details of the priority determination process in step S30 will be described with reference to FIGS. FIG. 36 is a diagram showing an example in which each word included in the dimension shown in FIG. 35 is weighted. In the example of FIG. 36, each word included in each dimension is stored in association with the stage of the word, and three types of weighting are performed.
また、優先度決定部203は、図24に示す優先度DB232からワードの価値を読み出し、図35に示すように対応するワードに重み付けとして付加する。
Also, the
そして図35に示した次元のワードの数や、段階の和、各ワードの重み付けを次元毎に集計して、優先度を決定する。 Then, the number of words in the dimension shown in FIG. 35, the sum of steps, and the weight of each word are totaled for each dimension, and the priority is determined.
図37は、各ワードの重みを集計して各次元の優先度を求める処理の説明図である。図37において、次元aの各ワードについて、ワード数、段階数の和、重み付け1、重み付け2、重み付け3を集計したものが表51Aである。同様に次元bを集計した表が51B、次元cを集計した表が51Cである。
FIG. 37 is an explanatory diagram of processing for calculating the priority of each dimension by adding up the weights of the respective words. In FIG. 37, for each word of dimension a, Table 51A is a summation of the number of words, the sum of the number of steps,
ワード数は、各次元に含まれるワードの総数であり、図37の例では、次元aが25、次元bが50、次元cが9である。このワード数が多いと、抽象化のバリエーションが多く、l−多様性を満たし難くなる、即ち安全性が低くなることが考えられるが、データとしての詳細性は高いため、ワード数が多いものを優先する。 The number of words is the total number of words included in each dimension. In the example of FIG. 37, dimension a is 25, dimension b is 50, and dimension c is 9. If this number of words is large, there will be many variations of abstraction, and it will be difficult to satisfy 1-diversity, that is, safety will be low. Prioritize.
段階数の和とは、段階の数に、当該段階に属するワードの数を乗じ、総計を求めたものであり、例えば(段階数5×ワード数1)+(段階数4×ワード数2)+(段階数3×ワード数2)+(段階数2×ワード数3)+(段階数1×ワード数9)=34と求める。この段階数の和が多いと、上位の段階が多く存在し、抽象度の高い選択肢が多く存在することになり、適切な抽象化レベルで抽象化可能で、安全性が高いため、段階数の和が多いものを優先する。
The sum of the number of stages is obtained by multiplying the number of stages by the number of words belonging to the stage and obtaining a total, for example, (number of
同様に、重み付け1〜3についても、重要フラグの数や、検索回数、SEM価格の総計を求め、この値の高い、即ち価値の高いものを優先する。
Similarly, for the
そして、これらワード数、段階数の和、重み付け1〜3について、次式に基づいて全体出現率(全体数に対する割合)を求める。 And about these word number, the sum of the number of steps, and the weights 1-3, the whole appearance rate (ratio with respect to the whole number) is calculated | required based on following Formula.
全体出現率=tf/idf
=次元aの値/(次元aの値+次元bの値+次元cの値+・・・)
この全体出現率を各次元について比較したものが表52である。表52の各次元について、ワード数、段階数の和、重み付け1〜3の全体出現率を合計して全体優先度を定めている。
Overall appearance rate = tf / idf
= Value of dimension a / (value of dimension a + value of dimension b + value of dimension c +...)
Table 52 shows a comparison of the overall appearance rate for each dimension. For each dimension in Table 52, the total priority is determined by summing the number of words, the sum of the number of stages, and the overall appearance rates of
このように各次元について全体優先度を求め、この全体優先度に基づいて次元選択部207が統合匿名化辞書に採用する次元と採用しない次元とを選択する。例えば、次元選択部207が表52の全体優先度を参照し、全体優先度が高い順に所定数の次元を採用し、これ以外の全体優先度が低い次元は採用しない。
In this way, the overall priority is obtained for each dimension, and the dimension that the
なお、選択の基準は、全体優先度の順だけでなく、重要フラグを含む次元は採用し、重要フラグを含まない次元については全体優先度が高い順に所定数の次元を採用するといったように選択条件を設定しても良い。 The selection criteria are not only the order of the overall priority, but the dimension including the important flag is adopted, and the dimension not including the important flag is selected such that a predetermined number of dimensions are adopted in descending order of the overall priority. Conditions may be set.
また、選択の対象は、例えば統合匿名化辞書に含まれる全ての次元を選択の対象とし、全体優先度に基づいて所定数の次元を採用しても良いし、同じワードを含む次元毎に選択の対象とし、全体優先度に基づいて所定数の次元を採用しても良い。 The selection target may be, for example, all dimensions included in the integrated anonymization dictionary, and a predetermined number of dimensions may be adopted based on the overall priority, or may be selected for each dimension including the same word. And a predetermined number of dimensions may be adopted based on the overall priority.
(3−5)匿名化方法
図38は、ステップS1050において、統合匿名化辞書を用いて匿名化装置が実行する匿名化の処理の説明図である。匿名化装置50は、ステップS1035で未処理と判定した対象期間に該当する個人情報を個人情報DB131から読み出して取得し(ステップ
S210)、対象データ中の各ワードについて、価値データが検索情報蓄積DB142に存在するか否かを判定する(ステップS220)。匿名化装置50は、全てのワードの価値データが検索情報蓄積DB142に存在する場合にはステップS230へ移行し(ステップS220,Yes)、足りない価値データがある場合(ステップS220,No)、当該ワードの価値データを外部の装置、本例では検索エンジンから取得する(ステップS240)。そして、匿名化装置50は、検索情報蓄積DB142に存在するワードの価値情報を検索情報蓄積DB142から取得する(ステップS230)。
(3-5) Anonymization Method FIG. 38 is an explanatory diagram of the anonymization process executed by the anonymization device using the integrated anonymization dictionary in step S1050. The
また、匿名化装置50は、匿名性を満たすため対象データの各項目を抽象化したワード(カテゴリ)に置き換えて抽象化候補データを作成する(ステップS250)。なお、抽象化可能な項目が複数存在する場合には、各項目を抽象化した場合と抽象化しない場合の全てのパターンを作成する。
Further, the
例えば対象データに三つの項目A,B,Cが含まれ、全項目について抽象化が可能で、抽象化した項目をA´,B´,C´とした場合、図13に示すように、項目Aだけを抽象化した場合A´,B,Cや、項目A,Bを抽象化した場合A´,B´,Cなど、七つの候補パターンが作成できる。また、全項目を用いるものに限らず、A´,BやB´,Cなど、一部の項目を用いた候補パターンを作成しても良い。例えば、項目A,B、項目A´,B、項目A,B´、項目A´,B´や、項目B,C、項目B´,C、項目B,C´、項目B´,C´、項目A,C、項目A´,C、項目A,C´、項目A´,C´のような候補を作成しても良い。このとき省略しない項目(必須項目)を予め設定しておき、この必須項目以外の項目を省略した候補パターンを作成しても良い。なお、匿名化システム10は、候補パターンの項目数をステップS1125で取得した対象期間の長さに応じて定めても良い。例えば、対象期間が10分であれば項目数1〜3、1時間であれば項目数2〜5、1日以上であれば項目数5〜8のように、対象期間毎に候補パターンの項目数の範囲を定めて記憶部に記憶しておき、ステップS1125で取得した対象期間と対応する項目数の範囲を読み出し、この項目数の範囲で候補パターンを作成しても良い。
For example, if the target data includes three items A, B, and C and all items can be abstracted, and the abstracted items are A ′, B ′, and C ′, as shown in FIG. Seven candidate patterns can be created, such as A ′, B, and C when only A is abstracted, and A ′, B ′, and C when items A and B are abstracted. Moreover, you may create the candidate pattern using some items, such as A ', B, B', and C, without using all items. For example, item A, B, item A ′, B, item A, B ′, item A ′, B ′, item B, C, item B ′, C, item B, C ′, item B ′, C ′ Candidates such as item A, C, item A ′, C, item A, C ′, item A ′, C ′ may be created. At this time, items that are not omitted (essential items) may be set in advance, and a candidate pattern may be created in which items other than the essential items are omitted. Note that the
また、一つの項目について、抽象化可能な次元が、統合匿名化辞書に複数存在する場合には、当該項目を複数に増やして、それぞれの次元で抽象化を行う。例えば所属企業の項目について、上場企業又は非上場企業に抽象化する次元pと、IT関連企業、教育関連企業、出版業のように業種に抽象化する次元qとが存在する場合、所属企業の項目を次元pで抽象化した所属企業(上場/非上場)の項目と、次元qで抽象化した所属企業(業種)の項目とに、それぞれ抽象化する。換言すれば、三つの項目A,B,Cのうち、項目Bについて抽象化可能な次元が二つ存在する場合に、項目A,B1´,B2´,Cのように四つの項目に抽象化する。即ち図13の例では、項目B´に代えて項目B1´,B2´に抽象化する七つの候補パタンーンが作成できる。 Further, when there are a plurality of dimensions that can be abstracted for one item in the integrated anonymization dictionary, the number of the items is increased to a plurality of dimensions and the abstraction is performed in each dimension. For example, if there is a dimension p that is abstracted to a listed company or unlisted company and a dimension q that is abstracted to a business type such as an IT-related company, an education-related company, or a publishing business, The items are abstracted into the item of the affiliated company (listed / unlisted) whose items are abstracted with dimension p and the item of the affiliated company (business type) abstracted with dimensions q. In other words, when there are two dimensions that can be abstracted for item B among the three items A, B, and C, abstraction is made into four items such as items A, B1 ′, B2 ′, and C. To do. That is, in the example of FIG. 13, seven candidate patterns to be abstracted into items B1 ′ and B2 ′ can be created instead of the item B ′.
次に匿名化装置50は、抽象化候補データに含まれる各ワードの価値データに基づいて各パターンの抽象化候補データの価値を算出し(ステップS260)、この抽象化候補データの価値に基づいて検定の順番を決定する(ステップS270)。例えばこの価値が高い順(降順)に検定の順番を決定する。なお、全ての候補パターンについて検定を行うことが望ましいが、この抽象化候補データの価値に基づき、価値の低過ぎる抽象化候補データを順番から外しても良い。例えば、価値の高い順番で、所定番目以降或いは全体数の半分より価値の低い順番など、価値の順番が候補パターンの全数と比べて所定割合より低い価値の抽象化候補データを外しても良い。また、抽象化候補データの価値が対象データの価値に対して所定割合未満となった抽象化候補データを外しても良い。これにより検定数が少なくなり、処理時間の短縮化が図れる。
Next, the
この検定の順番に従い、匿名化装置50は、抽象化候補データの匿名性を検定する(ス
テップS280)。例えば、k−匿名性を検定するため、一個人と対応付けられた異なる項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。或いは、l多様性を検定するため、一個人と対応付けられた同じ項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。そして、この存在数のうち最小のものを最低出現数(k値/l値)として求め(ステップS290)、この最低出現数が1を超えているか否かを判定する(ステップS300)。即ち、ここでk値が1を超えていればk−匿名性を満たし、1であればk−匿名性を満たさない。同様にl値が1を超えていればl−多様性を満たし、1であればl−多様性を満たさない。
In accordance with the order of this test, the
最低出現数(k値/l値)が1を超えていない場合(ステップS300,No)、匿名化装置50は、抽象化候補データのうち、少なくとも一つの項目の値を更に抽象化する、即ち抽象化したワードに置き換え(ステップS310)、ステップS280に戻る。
When the minimum appearance number (k value / l value) does not exceed 1 (step S300, No), the
一方、最低出現数(k値/l値)が1を超えている場合(ステップS300,Yes)、匿名化装置50は、当該抽象化候補データの価値と元の対象データの価値との差分を求め(ステップS320)、この差分や、この差分に基づく値、例えば対象データの価値に対する差分の割合、対象データの価値に対する抽象化候補データの価値の割合を当該抽象化候補データの価値として決定する(ステップS330)。
On the other hand, when the minimum number of appearances (k value / l value) exceeds 1 (step S300, Yes), the
また、匿名化装置50は、検定していない候補パターンがあるか否かを判定し(ステップS340)、検定していない候補パターンがあれば(ステップS340,Yes)、ステップS270で決定した順番に従って、次の順番の抽象化候補データを特定し(ステップS350)、ステップS280に戻って次の抽象化候補データについて検定を行う。
Further, the
このように各パターンの抽象化候補データについて検定を繰り返し、次の候補パターンが無くなった場合(ステップS340,No)、匿名化装置50は、ステップS320で各抽象化候補データの価値に基づいて、採用すべき抽象化候補データを選択し(ステップS360)、選択した抽象化候補データを匿名情報として管理サーバ20へ送信して(ステップS370)、図38の処理を終了する。
Thus, when the test is repeated for the abstraction candidate data of each pattern and the next candidate pattern disappears (step S340, No), the
抽象化候補データの選択は、例えば、全候補パターンの中で最も価値の高い抽象化候補データを選択する。また、匿名化装置50は、全候補パターンの中から価値の高い順に複数の抽象化候補データを出力し、この出力された抽象化候補データの中から操作者が適切だと思う抽象化候補データを指定し、この指定された抽象化候補データを選択しても良い。
In the selection of the abstraction candidate data, for example, the abstraction candidate data having the highest value among all candidate patterns is selected. The
§4.匿名情報の具体例
次に図39,図40を用いて匿名情報の具体例について説明する。図39は、A社における匿名化の例を示す図であり、図39(a)は、A社が収集した個人情報、図39(b)は、図39(a)の個人情報をA社独自の匿名化辞書で匿名化した場合の匿名情報の例を示す図、図39(c)は、図39(a)の個人情報を統合匿名化辞書で匿名化した場合の匿名情報の例を示す図である。
§4. Specific Example of Anonymous Information Next, a specific example of anonymous information will be described with reference to FIGS. 39 and 40. FIG. 39 is a diagram showing an example of anonymization in company A, FIG. 39A shows personal information collected by company A, and FIG. 39B shows personal information in FIG. The figure which shows the example of the anonymous information at the time of anonymizing with an original anonymization dictionary, FIG.39 (c) is an example of the anonymous information at the time of anonymizing the personal information of FIG.39 (a) with an integrated anonymization dictionary. FIG.
A社の匿名化装置50は、図39(a)の個人情報を独自の匿名化辞書で匿名化した場合、図39(b)に示すように、氏名とメールアドレスの項目を削除し、年齢を年代に、所属企業を上場企業又は非上場企業に、役職を管理職や社員、アルバイトに抽象化する。
When the
これに対して、A社の匿名化装置50は、図39(a)の個人情報を統合匿名化辞書で匿名化した場合、図39(c)に示すように、氏名とメールアドレスの項目を削除し、年齢を年代に、所属企業を上場企業又は非上場企業、及び所属企業を業種に抽象化する。ま
た、A社の匿名化装置50は、統合匿名化辞書を用いた場合、役職をマネージャやスタッフに、興味を示した商品を伝票ソフトやサーバに抽象化すると共に、来訪ブースの項目を追加して、A社に来訪した人のデータであることを示す値「A社」を入力する。
On the other hand, when the
一方、図40は、B社における匿名化の例を示す図であり、図40(a)は、B社が収集した個人情報、図40(b)は、図40(a)の個人情報をB社独自の匿名化辞書で匿名化した場合の匿名情報の例を示す図、図40(c)は、図40(a)の個人情報を統合匿名化辞書で匿名化した場合の匿名情報の例を示す図である。 On the other hand, FIG. 40 is a diagram showing an example of anonymization in company B, FIG. 40A shows personal information collected by company B, and FIG. 40B shows personal information in FIG. The figure which shows the example of the anonymized information at the time of anonymizing with B company original anonymization dictionary, FIG.40 (c) is anonymity information at the time of anonymizing the personal information of Fig.40 (a) with an integrated anonymization dictionary. It is a figure which shows an example.
B社の匿名化装置50は、図40(a)の個人情報を独自の匿名化辞書で匿名化した場合、図40(b)に示すように、氏名とメールアドレスの項目を削除し、年齢を年代に、所属企業を業種に、職種を開発や総務に抽象化する。
When the
これに対して、B社の匿名化装置50は、図40(a)の個人情報を統合匿名化辞書で匿名化した場合、図40(c)に示すように、氏名とメールアドレスの項目を削除し、年齢を年代に、所属企業を上場企業又は非上場企業、及び所属企業を業種に抽象化する。また、B社の匿名化装置50は、統合匿名化辞書を用いた場合、職種を技術職や事務に、興味を示した商品を会計ソフトやサーバに抽象化すると共に、来訪ブースの項目を追加して、B社に来訪した人のデータであることを示す値「B社」を入力する。
On the other hand, when the
このように各事業者の匿名化装置50は、統合匿名化辞書に基づいて所属企業の項目を複数の次元で抽象化する。前述のように統合匿名化辞書には優先度の高い次元が採用されているので、この統合匿名化辞書に存在する次元で抽象化することにより、各事業者にとって有用な抽象化を行うことができる。
As described above, the
また、前述のように匿名化辞書を統合したことにより、抽象化する際のワードの対応関係が再編され、A社の役職やB社の職種のように独自の項目についても共通の次元で抽象化されるので、類似の項目を有する他社のデータと比較することができる。 In addition, by integrating the anonymization dictionary as described above, the correspondence relationship of words at the time of abstraction is reorganized, and unique items such as the positions of company A and company B are also abstracted in a common dimension. Therefore, it can be compared with data from other companies that have similar items.
§5.実施形態の効果
以上のように本実施形態2によれば、利用者側の指定する対象期間内の個人情報を対象データとして匿名化を行うので、対象期間の長さによって匿名化するための抽象化の程度を異ならせて、対象期間と抽象化後の価値に基づいた適切な匿名化処理を行うことができる。また、複数の事業者の匿名化装置が、匿名化辞書を統合した共通の統合匿名化辞書を用いて匿名化を行うことで、この匿名情報を各事業者が一元的に利用できる。
§5. Advantages of the Embodiment As described above, according to the second embodiment, personal information within the target period specified by the user is anonymized as the target data, so abstraction for anonymizing according to the length of the target period It is possible to perform appropriate anonymization processing based on the target period and the value after abstraction by varying the degree of conversion. Moreover, each provider can use this anonymous information centrally by anonymizing using the common integrated anonymization dictionary which integrated the anonymization dictionary by the anonymization apparatus of a some provider.
特に、各事業者で匿名化したワードの抽象化レベルが異なっていたとしても、共通の匿名化辞書を用いているので、抽象化レベルをそろえて集計などに利用でき、利便性が高い。 In particular, even if the level of abstraction of anonymized words by each business operator is different, since a common anonymization dictionary is used, the level of abstraction can be set and used for tabulation and the like, which is highly convenient.
また、各事業者で用いられている匿名化辞書を統合した統合匿名化辞書で匿名化された匿名情報、即ち共通DB233に登録された匿名情報は、各事業者で利用している匿名化の情報を反映しているため、共通DB233の匿名情報から他社の動向を知ることができる。例えば、各事業者の匿名化辞書で共通して用いられている次元の場合、統合匿名化辞書を作成する際、当該次元に属するワードや段階が各事業者の匿名化辞書から集まるため、必然的に多くなり、優先度が高くなって当該次元が統合匿名化辞書に採用される。このため、統合匿名化辞書に採用された次元で匿名化された匿名情報は、各事業者で利用度の高い情報であることが分かる。
Moreover, the anonymous information anonymized by the integrated anonymization dictionary integrated with the anonymization dictionary used by each company, that is, the anonymous information registered in the
また、匿名情報が所定条件を満たしたことを契機に配信を行うことにより、他の事業者
の匿名情報を含めた匿名情報全体に基づいて所定の処理を開始させるための契機を提供できる。例えば、複数の事業者が収集した匿名情報に基づいて、キャンペーンを行うことやデジタルサイネージに表示するコンテンツを変更するなど、展示会に参加している複数事業者全体に係る処理を適切に行うことができる。
Moreover, the opportunity for starting a predetermined | prescribed process based on the whole anonymous information including the anonymous information of another provider can be provided by delivering on the occasion that anonymous information satisfy | filled the predetermined condition. For example, based on anonymous information collected by multiple business operators, appropriately performing processing related to the entire multiple business operators participating in the exhibition, such as conducting campaigns and changing the content displayed on digital signage Can do.
§7.変形例
上記の例では、展示会における個人情報の匿名化の例を示したが、本実施形態2の匿名化システム100は、ショッピングモールや商店街における各店舗で収集された個人情報の匿名化に適用しても良い。
§7. Modification In the above example, an example of anonymization of personal information in an exhibition has been shown. However, the anonymization system 100 of the second embodiment is anonymization of personal information collected at each store in a shopping mall or a shopping street. You may apply to.
図41はショッピングモールの各店舗で収集された個人情報の匿名化の例を示す図である。図41の例では、同じショッピングモールに出店している店舗(事業者)D〜Fの匿名化装置50が、夫々個人情報を匿名化して管理サーバ20の共通DBに登録する。なお、図41のシステムにおいても統合匿名化辞書の作成方法や統合匿名化辞書を用いた匿名化の方法、配信方法は、前述の実施形態2と同じである。
FIG. 41 is a diagram illustrating an example of anonymization of personal information collected at each store of a shopping mall. In the example of FIG. 41, the
店舗Dは、飲食店であり、事前に顧客のメールアドレスや性別、年齢を記憶部に登録しておき、メールでの予約の受け付けやメールクーポンの送信を行う。そして、顧客が来店時に予約のメールやメールクーポンを提示した場合に、このメールから匿名化装置50が顧客のIDやメールアドレスを取得し、対応する顧客の情報を記憶部から読み出し、来店者情報として記憶部に記憶する。なお、顧客のIDやメールアドレスの取得は、例えばメール中に二次元バーコード等を含めておき、この二次元バーコードを読み取り機で読み取って匿名化装置50に送信する。また、顧客のIDやメールアドレスを店舗の担当者が聞き取って匿名化装置50に入力しても良い。また、来店者情報には、前記顧客の情報に加えて、来店人数(大人の人数、子供の人数)や、購入商品、金額等を入力しても良い。
The store D is a restaurant, and registers the customer's email address, gender, and age in advance in the storage unit, and accepts reservations by email and sends email coupons. When the customer presents a reservation email or email coupon when visiting the store, the
図41において、D1は店舗Dが取得した個人情報を示し、D2がD1の個人情報を統合匿名化辞書で匿名化した匿名情報を示す。図41に示すように匿名情報D2は、年代、性別、購入商品、購入金額を有している。 In FIG. 41, D1 represents personal information acquired by the store D, and D2 represents anonymous information obtained by anonymizing the personal information of D1 with the integrated anonymization dictionary. As shown in FIG. 41, the anonymous information D2 has an age, sex, purchased product, and purchase price.
店舗Eは、クリーニング店であり、顧客にスタンプカードを配布し、クリーニングの代金に応じてスタンプを押し、スタンプが10個たまった場合に景品を提供する。この景品の提供時に顧客の性別や年齢等の情報を聞き取って匿名化装置50へ入力する。なお、景品の提供時に限らず、スタンプカードの配布時に顧客の氏名や性別、年齢を記憶部に登録しておき、顧客が来店時にスタンプカードを提示した場合に、このスタンプカードから匿名化装置50が顧客のIDや氏名を取得して、対応する顧客の情報を記憶部から読み出し、来店者情報として記憶部に記憶する。なお、顧客のIDや氏名の取得は、例えばスタンプカードに二次元バーコード等を付しておき、この二次元バーコードを読み取り機で読み取って匿名化装置50に送信する。また、顧客のIDや氏名を店舗の担当者が聞き取って匿名化装置50に入力しても良い。また、来店者情報には、前記顧客の情報に加えて、来店人数(大人の人数、子供の人数)や、クリーニング種類、金額等を入力しても良い。
Store E is a cleaning store, distributes stamp cards to customers, presses stamps according to the cleaning fee, and provides prizes when 10 stamps are collected. When providing the prize, information such as the sex and age of the customer is heard and input to the
図41において、E1は店舗Eが取得した個人情報を示し、E2がE1の個人情報を統合匿名化辞書で匿名化した匿名情報を示す。 In FIG. 41, E1 indicates personal information acquired by the store E, and E2 indicates anonymous information obtained by anonymizing the personal information of E1 with the integrated anonymization dictionary.
また、店舗Fは、スーパーマーケットであり、事前に顧客のメールアドレスや氏名、性別、年齢を記憶部に登録し、顧客に会員カードを配布しておく。そして、顧客が会計時に会員カードを提示すると代金を5%割引し、このとき会員カードから匿名化装置50が顧客のIDや氏名を取得して、対応する顧客の情報を記憶部から読み出し、来店者情報として記憶部に記憶する。なお、顧客のIDや氏名の取得は、例えば会員カードに二次元バー
コードやRFIDタグ等を付しておき、この二次元バーコードやRFIDタグを読み取り機で読み取って匿名化装置50に送信する。また、来店者情報には、前記顧客の情報に加えて、子連れか否かや、購入商品、金額等を入力しても良い。
The store F is a supermarket, and the customer's e-mail address, name, gender, and age are registered in the storage unit in advance, and a membership card is distributed to the customer. When the customer presents the membership card at the time of payment, the price is discounted by 5%. At this time, the
図41において、F1は店舗Fが取得した個人情報を示し、F2がF1の個人情報を統合匿名化辞書で匿名化した匿名情報を示す。 In FIG. 41, F1 indicates personal information acquired by the store F, and F2 indicates anonymous information obtained by anonymizing the personal information of F1 using the integrated anonymization dictionary.
このようにショッピングモールにおいても、複数の店舗がそれぞれに収集した個人情報を共通の統合匿名化辞書を用いて匿名化を行い、匿名情報を共通DB233に登録することで、この匿名情報を一元的に利用することができる。
As described above, even in the shopping mall, personal information collected by a plurality of stores is anonymized using a common integrated anonymization dictionary, and the anonymous information is registered in the
例えば、ある店舗で女性を優遇するキャンペーンを行った結果、女性の来店者が増えた場合に、他の店舗においても共通DBの匿名情報から女性客の増加を知ることができ、女性向けメニューを増やすことで相乗効果を狙うといったマーケティングに利用できる。 For example, if the number of female customers increases as a result of a campaign that preferentially treats women at certain stores, the increase in female customers can be known from the anonymous information in the common DB at other stores, and a menu for women It can be used for marketing to increase the synergistic effect.
また、子供連れの顧客の割合が所定値以上となった場合に、デジタルサイネージに表示するコンテンツを子供向けに変更するなど、ショッピングモール全体に係る処理を適切に行うことができる。 In addition, when the proportion of customers with children is equal to or greater than a predetermined value, processing related to the entire shopping mall can be appropriately performed, such as changing the content displayed on the digital signage for children.
一方、図42はナビゲーションシステムの位置情報(個人情報)を匿名化する例を示す図である。図42の例では、各車両のナビゲーションシステム61から事業者G〜Iの匿名化装置50へ位置情報を送信し、各事業者G〜Iの匿名化装置50が、夫々個人情報を匿名化して管理サーバ20の共通DBに登録する。なお、図42のシステムにおいても統合匿名化辞書の作成方法や統合匿名化辞書を用いた匿名化の方法、配信方法は、前述の実施形態2と同じである。
On the other hand, FIG. 42 is a figure which shows the example which anonymizes the positional information (personal information) of a navigation system. In the example of FIG. 42, the position information is transmitted from the navigation system 61 of each vehicle to the
事業者Gは、予め各運転者にIDを割り当て、この運転者IDと共に運転者のメールアドレスや性別、年齢等を運転者情報として記憶部に登録しておく。そして、車両に搭載したナビゲーションシステム61が、定期的に車両の位置情報を運転者IDと共に事業者Gの匿名化装置50へ送信する。
The operator G assigns an ID to each driver in advance, and registers the driver's e-mail address, gender, age, and the like together with the driver ID in the storage unit as driver information. And the navigation system 61 mounted in the vehicle periodically transmits the position information of the vehicle to the
位置情報及び運転者IDを受診した匿名化装置50は、運転者のIDと対応する運転者情報を記憶部から読み出して位置情報と共に記憶する。そして匿名化装置50は、この位置情報及び運転者情報を統合匿名化辞書を用いて匿名化する。図42において、G1は事業者Gが取得した個人情報を示し、G2がG1の個人情報を統合匿名化辞書で匿名化した匿名情報を示す。なお、図42の例では、位置情報を統合匿名化辞書に基づきメッシュコードや行政区に抽象化している。例えば、ナビゲーションシステム61から車両の位置情報として緯度及び経度を受信した場合に、当該緯度及び経度が示す地点を含む標準地域メッシュのメッシュコードや、前記地点を含む行政区に抽象化する。図42において匿名情報D2は、年代、性別、メッシュコード、行政区を有している。
The
事業者H,Iについても上記事業者Gと同様に、予め運転者情報を登録しておき、各車両のナビゲーションシステム61から位置情報及び運転者IDを受診した場合に匿名化装置50が、運転者IDと対応する運転者情報を記憶部から読み出して位置情報と共に記憶する。そして匿名化装置50は、この位置情報及び運転者情報を統合匿名化辞書を用いて匿名化する。図42において、H1は事業者Hが取得した個人情報を示し、H2がH1の個人情報を統合匿名化辞書で匿名化した匿名情報を示す。また、I1は事業者Iが取得した個人情報を示し、I2がI1の個人情報を統合匿名化辞書で匿名化した匿名情報を示す。
As with the business operator G, the operator information is registered in advance for the business operators H and I, and when the location information and the driver ID are received from the navigation system 61 of each vehicle, the
このように車両の位置情報についても、複数の事業者がそれぞれに収集した位置情報を共通の統合匿名化辞書を用いて匿名化を行い、匿名情報を共通DB233に登録することで、この匿名情報を一元的に利用することができる。
As described above, the position information of the vehicle is also made anonymous by using the common integrated anonymization dictionary for the position information collected by a plurality of business operators, and the anonymous information is registered in the
〈実施形態3〉
前述の実施形態2では、複数の事業者がそれぞれ個人情報を取得して匿名化を行った例を示したが、これに限らず展示会の主催者が個人情報を一括して記憶部に蓄積し、統合匿名化辞書を用いて匿名化する構成であっても良い。本実施形態3は、前述の実施形態2と比べて、個人情報を主催者側の装置で匿名化する構成が異なり、その他の構成は同じである。このため、実施形態1,2と異なる構成を主に説明し、同一の要素には同符号を付す等して再度の説明を省略する。
<
In the second embodiment described above, an example has been shown in which a plurality of business operators have acquired personal information and anonymized, but the present invention is not limited to this, and the organizer of the exhibition accumulates the personal information in the storage unit. And the structure which anonymizes using an integrated anonymization dictionary may be sufficient. The third embodiment is different from the second embodiment in the configuration in which the personal information is anonymized by the apparatus on the organizer side, and the other configurations are the same. For this reason, configurations different from those of the first and second embodiments will be mainly described, and the same elements will be denoted by the same reference numerals and the description thereof will be omitted.
図43は本実施形態3の匿名化システム300の機能ブロック図である。匿名化システム300は、複数の事業者が出展する展示会において、各事業者が来場者から収集した個人情報の匿名化を行うシステムであり、統合匿名化辞書の作成や個人情報の匿名化及び匿名情報の配信を行う。
FIG. 43 is a functional block diagram of the
本実施形態3では、各事業者が取得した個人情報を事業者端末30から匿名化システム300へ送信し、匿名化システム300が各事業者で取得した個人情報を一括して記憶部に記憶する。即ち主催者は、個人情報を取得した夫々の事業者との間で当該個人情報を共有し、他の事業者に対しては個人情報を匿名化して提供する。例えば、事業者Aが取得した個人情報を事業者B,Cを含む他の事業者に提供する場合には、匿名化して提供する。
In the third embodiment, the personal information acquired by each operator is transmitted from the
図43に示すように、匿名化システム300は、辞書取得部201や、統合部202、優先度決定部203、匿名情報制御部206、次元選択部207、配信部209、データ取得部101、抽象化部102、検定部103、選択部104、匿名情報登録部106、価値データ取得部107、ワードカテゴリ分析部108、ワード価値計算部109、設定情報登録部121、期間取得部122、予測部123、検索情報蓄積DB145、設定情報DB146、辞書DB231、優先度DB232、共通DB233、個人情報DB234を備えている。即ち、本実施形態3の匿名化システム300は、辞書取得部201、統合部202、優先度決定部203及び次元選択部207を備えた辞書作成装置であり、抽象化部102、検定部103、匿名情報制御部206を備えた匿名化装置でもある。
As shown in FIG. 43, the
辞書取得部201は、対象データに含まれる語を抽象化した語に替えて匿名化するため、前記語と前記抽象化した語とを対応付けて記憶した複数の匿名化辞書を各事業者の事業者端末30から取得する。本実施形態では、各事業者の事業者端末30から送信された匿名化辞書を辞書取得部201が受信し、辞書DB231に登録する。
In order to anonymize the word included in the target data by replacing the word included in the target data with the
統合部202は、各事業者の事業者端末30から取得した複数の匿名化辞書を統合して統合匿名化辞書を作成し、辞書DB231に記憶させる。
The
優先度決定部203は、前記統合匿名化辞書を構成する次元の夫々について、当該次元に含まれる語に基づいて優先度を決定する。例えば、優先度決定部203は、各次元に含まれる語の数、各次元に含まれる語について上位と下位の関係にある段階の数、各次元に含まれる語の価値のうち少なくとも一つに基づいて前記優先度を決定する。なお、前記語について予め定めた値を、例えば優先度DB232が記憶しておき、優先度決定部203は、優先度DB232を参照して優先度を決定する。
The
次元選択部207は、前記統合部202で生成した複数の次元のうち、統合匿名化辞書として採用する次元と採用しない次元とを前記優先度に基づいて選択する。
The
データ取得部101は、事業者端末30から個人情報を取得して個人情報DB234に記憶させる。また、データ取得部101は、匿名化の際、この個人情報DB234の個人情報のうち対象期間に該当するものを対象データとして読み出す。
The
抽象化部102は、記憶部から個人情報を読み出して対象データとし、統合匿名化辞書を参照して前記対象データ中の項目の値である語を前記優先度に基づいて抽象化した語に替えて匿名化候補データを生成する。
The
検定部103は、前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定する。例えば、検定部103は、抽象化候補データの項目の値の組み合わせが、k−匿名性を満たすこと、或いはl−多様性を満たすことを条件として検定する。
The
匿名情報制御部206は、匿名情報の出力処理等を制御する。例えば、匿名情報制御部206は、前記検定の条件を満たした抽象化候補データを匿名情報として共通DB233に登録する、即ち共通DB233に記憶させる。また、匿名情報制御部206は、事業者端末30等の情報処理装置から匿名情報の取得要求を受けた場合に、該当する匿名情報を要求元の情報処理装置へ配信する。本実施形態3において、匿名情報制御部206は、出力部の一形態である。
The anonymous
また、事業者端末30は、図43に示すように、データ入力部311や、匿名情報取得部312、設定情報送信部313を備えている。
Further, as shown in FIG. 43, the
データ入力部311は、個人と対応付けられた複数の項目を含むデータ、即ち個人情報を取得する。例えば来場者が記載したアンケートや来場者から聞き取った個人情報をキーボード等から入力を受け、匿名化システム300へ送信する。また、データ入力部31は、来場者の名刺やアンケートに記載された事項を読み取り、OCR(Optical Character Recognition)により電子データとして取得する、又は来場者のRF−IDタグやICチ
ップ等から当該来場者の情報を取得し、匿名化システム300へ送信しても良い。
The
匿名情報取得部312は、匿名化システム300から匿名情報を取得し、表示部への表示や記憶部への記憶といった出力を行う。
The anonymous
設定情報送信部313は、ユーザによって入力された対象期間や配信条件等の設定情報を匿名化システム300へ送信する。
The setting information transmission unit 313 transmits setting information such as a target period and distribution conditions input by the user to the
図44は匿名化システム300のハードウェア構成を示す図である。管理サーバ20は、CPU21、メモリ22、通信制御部23、記憶装置24、入出力インタフェース25を有する所謂コンピュータである。
FIG. 44 is a diagram illustrating a hardware configuration of the
CPU21は、メモリ22に実行可能に展開されたプログラムを実行し、前述の辞書取得部201や、統合部202、優先度決定部203、匿名情報制御部206、次元選択部207、配信部209、データ取得部101、抽象化部102、検定部103、選択部104、匿名情報登録部106、価値データ取得部107、ワードカテゴリ分析部108、ワード価値計算部109、設定情報登録部121、期間取得部122、予測部123の機能を提供する。
The
メモリ22は、主記憶装置ということもできる。メモリ22は、例えば、CPU21が実行するプログラムや、通信制御部23を介して受信したデータ、記憶装置24から読み
出したデータ、その他のデータ等を記憶する。
The
通信制御部23は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース25は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。
The
記憶装置24は、プログラム、個人情報、設定情報等の情報を記憶する。また、記憶装置24は、ドライブ装置やメモリ22との間で、データを授受する。本実施形態3では、記憶装置24が前述の辞書DB231、優先度DB232、共通DB233、個人情報DB234、検索情報蓄積DB145、設定情報DB146を格納している。
The
図45は事業者端末30のハードウェア構成を示す図である。事業者端末30は、CPU31、メモリ32、通信制御部33、記憶装置34、入出力インタフェース35を有する所謂コンピュータである。
FIG. 45 is a diagram illustrating a hardware configuration of the
CPU31は、メモリ32に実行可能に展開されたプログラムを実行し、前述のデータ入力部311や匿名情報取得部312、設定情報送信部313の機能を提供する。
The
メモリ32は、主記憶装置ということもできる。メモリ32は、例えば、CPU31が実行するプログラムや、通信制御部33を介して受信したデータ、記憶装置34から読み出したデータ、その他のデータ等を記憶する。
The
通信制御部33は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース35は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、USBメモリを接続するUSBのアダプタ等である。また、着脱可能な記憶媒体は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray Disc)等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置34に格納する。
The
記憶装置34は、外部記憶装置ということもできる。記憶装置34としては、SSD(Solid State Drive)やHDD等であってもよい。記憶装置34は、ドライブ装置との間
で、データを授受する。例えば、記憶装置34は、ドライブ装置からインストールされる情報処理プログラム等を記憶する。
The
次に本実施形態3に係る匿名化方法について説明する。匿名化システム300は、図9に示す蓄積処理を定期的に起動させ、事業者端末30から個人情報を受信したか否かを確認する(ステップS1010)。ここで匿名化システム300は、個人情報を受信していなければ(ステップS1010,No)、図9の処理を終了させ、個人情報を受信していれば(ステップS1010,Yes)、受信した個人情報を個人情報DB234に登録し(ステップS1020)、蓄積処理を終了する。このように匿名化システム300は、図9の蓄積処理を繰り返し実行し、各事業者の端末30から受信した個人情報を随時個人情報DB234に登録する。
Next, the anonymization method according to the third embodiment will be described. The
また、匿名化システム300は、図10に示す処理を定期的に起動させ、先ず、各ユーザの設定情報を設定情報DB146から読み出す(ステップS1030)。
Moreover, the
次に、匿名化システム300は、読み出した設定情報に処理を行っていない対象期間があるか否かを判定する(ステップS1035)。未処理の対象期間が無ければ(ステップ
S1035,No)、匿名化システム300は、図10の処理を終了し、未処理の対象期間が有れば(ステップS1035,Yes)、当該対象期間と対応付けられた配信情報が予測情報か否か、即ち当該対象期間と対応付けられた配信パターンが2か否かを判定する(ステップS1040)。ここで配信パターン2と判定した場合(ステップS1040,Yes)、匿名化システム300は、対象期間の個人情報を対象データとして求め、この対象データ等に基づいて予測処理を行い、予測結果を求める(ステップS1045)。
Next, the
当該対象期間に該当する個人情報を対象情報として個人情報DB234から読み出す(ステップS1040)。そして、匿名化システム300は、予測情報や対象データを匿名化する(ステップS1050)。例えば、予測情報が個人情報(対象データ)を含む場合には、この予測情報に含まれる個人情報を匿名化する。また、予測情報と共に配信する場合には、予測の対象とした対象データを匿名化する。
The personal information corresponding to the target period is read out from the
一方、ステップS1040で配信パターン2では無いと判定した場合(ステップS1040,No)、予測処理を行わずに対象データの匿名化を行う(ステップS1050)。なお、匿名化の処理の詳細については、後述する。
On the other hand, when it determines with it not being the
匿名化後、匿名化システム300は、現在時刻が所定期間毎に定められた配信タイミングに該当するか否か、即ち配信パターン1,2の配信タイミングか否かを判定する(ステップS1055)。所定期間毎の配信タイミングに該当する場合(ステップS1055,Yes)、匿名化システム300は、配信情報を配信先へ配信する(ステップS1060)。匿名化システム300は、例えば、配信パターン1の場合、配信情報として順位や匿名情報を配信し、配信パターン2の場合、予測情報や匿名情報を配信する。
After anonymization, the
また、ステップS1055で、配信パターン1,2の配信タイミングでは無いと判定した場合(ステップS1055,No)、匿名化システム300は、履歴情報を用いた配信タイミングか否か、即ち配信パターン4〜6か否かを判定する(ステップS1065)。ここで匿名化システム300は、配信パターン4〜6でないと判定した場合には(ステップS1065,No)、図10の処理を終了し、配信パターン4〜6であると判定した場合には(ステップS1065,Yes)、履歴情報(過去の匿名情報)を共通DB233から読み出し(ステップS1070)、匿名情報と比較して配信条件を満たしているか否かを判定する(ステップS1075)。
If it is determined in step S1055 that it is not the distribution timing of
配信条件を満たしていなければ(ステップS1075,No)、匿名化システム300は、図10の処理を終了させ、配信条件を満たしていれば(ステップS1075,Yes)、通知や順位、匿名情報を配信情報として配信する(ステップS1080)。
If the distribution condition is not satisfied (step S1075, No), the
また、匿名化システム300は、図11に示すリアルタイム配信の処理を定期的に起動させ、先ず、各ユーザの設定情報を設定情報DB146から読み出す(ステップS1082)。次に匿名化システム300は、リアルタイム配信を行う所定情報を取得したか否かを判定する(ステップS1085)。
Further, the
匿名化システム300は、所定情報を取得していない場合(ステップS1085,No)、図11の処理を終了し、所定情報を取得した場合(ステップS1085,Yes)、対象データの匿名化処理を行う(ステップS1090)。
When the
匿名化後、匿名化システム300は、匿名情報をリアルタイムに配信先の端末30へ配信する(ステップS1095)。
After anonymization, the
次に図46を用いてステップS1050における匿名化の処理について説明する。なお
、本実施形態3の匿名化システム300は、各事業者の事業者端末30から各事業者の匿名化辞書を受信して統合匿名化辞書を作成するが、この統合の処理は、図32の処理と同じであるため、再度の説明を省略する。
Next, the anonymization process in step S1050 will be described with reference to FIG. The
匿名化システム300は、匿名化装置50は、ステップS1035で未処理と判定した対象期間に該当する個人情報を個人情報DB131から読み出して取得し(ステップS610)、対象データ中の各ワードについて、価値データが検索情報蓄積DB142に存在するか否かを判定する(ステップS620)。匿名化システム300は、全てのワードの価値データが検索情報蓄積DB142に存在する場合にはステップS630へ移行し(ステップS620,Yes)、足りない価値データがある場合(ステップS620,No)、当該ワードの価値データを外部の装置、本例では検索エンジンから取得する(ステップS640)。そして、匿名化システム300は、検索情報蓄積DB142に存在するワードの価値情報を検索情報蓄積DB142から取得する(ステップS630)。
In the
また、匿名化システム300は、匿名性を満たすため対象データの各項目を抽象化したワード(カテゴリ)に置き換えて抽象化候補データを作成する(ステップS650)。なお、抽象化可能な項目が複数存在する場合には、各項目を抽象化した場合と抽象化しない場合の全てのパターンを作成する。
Further, the
次に匿名化システム300は、抽象化候補データに含まれる各ワードの価値データに基づいて各パターンの抽象化候補データの価値を算出し(ステップS660)、この抽象化候補データの価値に基づいて検定の順番を決定する(ステップS670)。
Next, the
この検定の順番に従い、匿名化システム300は、抽象化候補データの匿名性を検定する(ステップS680)。例えば、k−匿名性を検定するため、一個人と対応付けられた異なる項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。或いは、l多様性を検定するため、一個人と対応付けられた同じ項目の値の組み合わせが当該抽象化候補データ中に存在する数(存在数)を求める。そして、この存在数のうち最小のものを最低出現数(k値/l値)として求め(ステップS690)、この最低出現数が1を超えているか否かを判定する(ステップS700)。即ち、ここでk値が1を超えていればk−匿名性を満たし、1であればk−匿名性を満たさない。同様にl値が1を超えていればl−多様性を満たし、1であればl−多様性を満たさない。
In accordance with the order of this test, the
最低出現数(k値/l値)が1を超えていない場合(ステップS700,No)、匿名化システム300は、抽象化候補データのうち、少なくとも一つの項目の値を更に抽象化する、即ち抽象化したワードに置き換え(ステップS710)、ステップS680に戻る。
When the minimum appearance number (k value / l value) does not exceed 1 (step S700, No), the
一方、最低出現数(k値/l値)が1を超えている場合(ステップS700,Yes)、匿名化システム300は、当該抽象化候補データの価値と元の対象データの価値との差分を求め(ステップS720)、この差分や、この差分に基づく値、例えば対象データの価値に対する差分の割合、対象データの価値に対する抽象化候補データの価値の割合を当該抽象化候補データの価値として決定する(ステップS730)。
On the other hand, when the minimum number of appearances (k value / l value) exceeds 1 (step S700, Yes), the
また、匿名化システム300は、検定していない候補パターンがあるか否かを判定し(ステップS740)、検定していない候補パターンがあれば(ステップS740,Yes)、ステップS670で決定した順番に従って、次の順番の抽象化候補データを特定し(ステップS750)、ステップS680に戻って次の抽象化候補データについて検定を行う。
Further, the
このように各パターンの抽象化候補データについて検定を繰り返し、次の候補パターンが無くなった場合(ステップS740,No)、匿名化システム300は、ステップS720で各抽象化候補データの価値に基づいて、採用すべき抽象化候補データを選択し(ステップS760)、選択した抽象化候補データを匿名情報として共通DB233へ登録する(ステップS770)。
As described above, when the test is repeated for the abstraction candidate data of each pattern and the next candidate pattern is lost (No in step S740), the
以上のように本実施形態3によれば、利用者側の指定する対象期間内の個人情報を対象データとして匿名化を行うので、対象期間の長さによって匿名化するための抽象化の程度を異ならせて、対象期間と抽象化後の価値に基づいた適切な匿名化処理を行うことができる。また、匿名化システム300が、複数の事業者の匿名化辞書を統合した統合匿名化辞書を用いて匿名化を行うことで、各事業者に適合した匿名情報を提供することができる。
As described above, according to the third embodiment, personal information within the target period designated by the user is anonymized as target data, and therefore the degree of abstraction for anonymization according to the length of the target period is set. Differently, appropriate anonymization processing based on the target period and the value after abstraction can be performed. Moreover, the
また、匿名情報が所定条件を満たしたことを契機に配信を行うことにより、他の事業者の匿名情報を含めた匿名情報全体に基づいて所定の処理を開始させるための契機を提供できる。 Moreover, the opportunity for starting a predetermined | prescribed process based on the whole anonymous information including the anonymous information of another provider can be provided by delivering on the occasion that anonymous information satisfy | filled the predetermined condition.
〈実施形態4〉
前述の実施形態2では、複数の事業者がそれぞれ匿名化装置を備え、展示会の主催者が管理サーバ(辞書作成装置)を備える構成を示したが、これに限らず複数の事業者がそれぞれ辞書作成装置と匿名化装置を含む匿名化システムを備えた構成であっても良い。本実施形態4は、前述の実施形態2と比べて、各事業者がそれぞれ匿名化システム400を備えた構成が異なり、その他の構成は同じである。このため、実施形態1,2と異なる構成を主に説明し、同一の要素には同符号を付す等して再度の説明を省略する。
<
In the second embodiment described above, a configuration has been described in which a plurality of business operators are each provided with an anonymization device, and an exhibition organizer is provided with a management server (dictionary creation device). The structure provided with the anonymization system containing a dictionary creation apparatus and an anonymization apparatus may be sufficient. Compared with the above-described second embodiment, the fourth embodiment is different in the configuration in which each operator includes the
図47に示すように、匿名化システム400は、辞書取得部201や、統合部202、優先度決定部203、匿名情報制御部206、次元選択部207、配信部209、データ取得部101、抽象化部102、検定部103、選択部104、匿名情報登録部106、価値データ取得部107、ワードカテゴリ分析部108、ワード価値計算部109、設定情報登録部121、期間取得部122、予測部123、検索情報蓄積DB145、設定情報DB146、辞書DB231、優先度DB232、共通DB233、個人情報DB234を備えている。即ち、本実施形態4の匿名化システム400は、辞書取得部201、統合部202、優先度決定部203及び次元選択部207を備えた辞書作成装置であると共に、データ取得部101や、抽象化部102、検定部103、出力制御部110を備えた匿名化装置でもある。
As shown in FIG. 47, the
辞書取得部201は、対象データに含まれる語を抽象化した語に替えて匿名化するため、前記語と前記抽象化した語とを対応付けて記憶した複数の匿名化辞書を他の事業者の匿名化システム400から取得する。本実施形態4では、他の事業者の匿名化システム400から送信された匿名化辞書を辞書取得部201が受信し、辞書DB231に登録する。
The
統合部202は、各事業者の匿名化装置50から取得した匿名化辞書及び自社の匿名化辞書を統合して統合匿名化辞書を作成する。
The
優先度決定部203は、前記統合匿名化辞書を構成する次元の夫々について、当該次元に含まれる語に基づいて優先度を決定する。
The
次元選択部207は、前記統合部202で生成した複数の次元のうち、統合匿名化辞書として採用する次元と採用しない次元とを前記優先度に基づいて選択する。
The
辞書管理部204は、統合部202で作成された統合匿名化辞書を管理する。例えば辞
書管理部204は、統合匿名化辞書を辞書DB231から読み出して他の事業者の匿名化システム400へ送信する。
The
匿名情報制御部206は、匿名情報の出力処理等を制御する。例えば、匿名情報を他の事業者の匿名化システム400へ送信する。本実施形態4において、匿名情報制御部206は、出力部の一形態である。
The anonymous
データ取得部101は、個人と対応付けられた複数の項目を含むデータ、即ち個人情報を対象データとして取得する。
The
抽象化部102は、前記次元からなる統合匿名化辞書を参照し、前記対象データ中の項目の値である語を前記優先度に基づいて抽象化した語に替えて匿名化候補データを生成する。
The
検定部103は、前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定する。
The
図48は匿名化システム400のハードウェア構成を示す図である。匿名化システム400は、CPU21、メモリ22、通信制御部23、記憶装置24、入出力インタフェース25を有する所謂コンピュータである。
FIG. 48 is a diagram illustrating a hardware configuration of the
CPU21は、メモリ22に実行可能に展開されたプログラムを実行し、前述の辞書取得部201や、統合部202、優先度決定部203、匿名情報制御部206、次元選択部207、配信部209、データ取得部101、抽象化部102、検定部103、選択部104、匿名情報登録部106、価値データ取得部107、ワードカテゴリ分析部108、ワード価値計算部109、設定情報登録部121、期間取得部122、予測部123の機能を提供する。
The
本実施形態4の匿名化システム400では、匿名情報を交換する事業者へ匿名化辞書を渡して統合匿名化辞書を作成し、自社の個人情報を統合匿名化辞書で匿名化して他の事業者へ提供する。
In the
なお、統合匿名化辞書の作成の処理や、統合匿名化辞書を用いた匿名化の処理は、前述の実施形態と同様である。 Note that the process of creating the integrated anonymization dictionary and the process of anonymization using the integrated anonymization dictionary are the same as in the above-described embodiment.
このように各事業者が匿名化システム400を備えることで、展示会の主催者のように複数の事業者を取りまとめるものが存在しなくても事業者間で匿名情報を交換できる。
Thus, by providing each company with the
これにより複数の事業者間で夫々の顧客の個人情報を匿名化して交換し、業務提携やマーケティング等の分析に用いることができる。 Thereby, the personal information of each customer can be anonymized and exchanged between a plurality of business operators, and can be used for business tie-ups and marketing analysis.
〈その他〉
本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
<Others>
The present invention is not limited to the illustrated examples described above, and various modifications can be made without departing from the scope of the present invention.
1 CPU
2 メモリ
4 記憶装置
5 入出力インタフェース
10 匿名化システム
19 価値計算部
20 管理サーバ
22 メモリ
23 通信制御部
24 記憶装置
25 入出力インタフェース
30 端末
31 データ入力部
32 メモリ
33 通信制御部
34 記憶装置
35 入出力インタフェース
50 匿名化装置
52 メモリ
53 通信制御部
54 記憶装置
55 入出力インタフェース
61 ナビゲーションシステム
70 検索エンジン
71 データ出力部
72 検索ワード蓄積DB
73 検索広告配信DB
100 匿名化システム
101 データ取得部
102 抽象化部
103 検定部
104 選択部
105 価値判定部
106 匿名情報登録部
107 価値データ取得部
108 ワードカテゴリ分析部
109 ワード価値計算部
110 出力制御部
120 データ出力部
121 設定情報登録部
122 期間取得部
123 予測部
131 個人情報DB
142 検索情報蓄積DB
144 匿名化DB
145 検索情報蓄積DB
146 設定情報DB
231 辞書DB
232 優先度DB
233 共通DB
234 個人情報DB
236 設定情報DB
201 辞書取得部
202 統合部
203 優先度決定部
204 辞書管理部
205 匿名情報登録部
206 匿名情報制御部
207 次元選択部
208 設定情報管理部
209 配信部
300 匿名化システム
311 データ入力部
312 匿名情報取得部
313 設定情報送信部
400 匿名化システム
1 CPU
2
73 Search advertisement distribution DB
DESCRIPTION OF SYMBOLS 100
142 Search information storage DB
144 Anonymization DB
145 Search information storage DB
146 Setting information DB
231 Dictionary DB
232 Priority DB
233 common DB
234 Personal Information DB
236 Setting information DB
201
Claims (4)
個人と対応付けられた複数の項目を含む対象データのうち、前記期間に該当する対象データを取得するデータ取得部と、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成する抽象化部と、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求める価値判定部と、
前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定する検定部と、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択する選択部と、
前記価値に基づいて選択された抽象化候補データを匿名情報とし、当該匿名情報を配信するタイミング、前記対象データに基づく予測情報、前記匿名情報における基準からの乖離度、前記匿名情報における属性値の出現数、前記匿名情報における属性値の出現率、又は前記匿名情報の順位が、ユーザによって設定された条件を満たした場合に、当該匿名情報を出力する出力部と、を備える匿名化システム。 A period acquisition unit for acquiring a period for anonymization;
Of the target data including a plurality of items associated with individuals, a data acquisition unit that acquires target data corresponding to the period;
An abstraction unit that generates abstraction candidate data by replacing a word that is a value of an item in the target data with an abstracted word;
A value determination unit that receives the value of the word included in the abstraction candidate data and obtains the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
A test unit that tests on condition that a combination of values of items of the abstraction candidate data is not limited to one individual of the target data;
A selection unit that selects the abstraction candidate data based on the value of the abstraction candidate data that satisfies the test condition;
The abstraction candidate data selected based on the value is anonymous information, the timing of distributing the anonymous information, the prediction information based on the target data, the degree of deviation from the reference in the anonymous information, the attribute value in the anonymous information An anonymization system provided with the output part which outputs the said anonymous information, when the appearance number, the appearance rate of the attribute value in the said anonymous information, or the order | rank of the said anonymous information satisfy | fills the conditions set by the user .
個人と対応付けられた複数の項目を含む対象データのうち、前記期間に該当する対象データを取得するデータ取得部と、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成する抽象化部と、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求める価値判定部と、
前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定する検定部と、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択する選択部と、
前記価値に基づいて選択された抽象化候補データを匿名情報として出力する出力部と、
対象データに含まれる語を抽象化した語に替えて匿名化するため、前記語と前記抽象化
した語とを対応付けて記憶した匿名化辞書を複数取得する辞書取得部と、
前記複数の匿名化辞書に含まれる各語の対応関係に基づいて、抽象化した語を上位、抽象化前の語を下位とし、前記複数の匿名化辞書に含まれる各語と、前記複数の匿名化辞書に存在する上位及び下位の語とを対応付け、対応する上位の語が存在しない最上位の語をルートとして対応する下位の語が存在しない最下位の語までをツリー状に対応付けて当該ツリー状の対応関係を一つの次元とし、前記複数の匿名化辞書に含まれる複数の前記最上位の語毎に前記次元を求め、前記最上位の語毎に求めた前記複数の次元を統合匿名化辞書とする統合部と、
前記次元の夫々について、当該次元に含まれる語に基づいて優先度を決定する優先度決定部と、
前記複数の次元のうち、前記統合匿名化辞書として採用する次元と採用しない次元とを前記優先度に基づいて選択する次元選択部と、を備え、
前記抽象化部が、前記統合匿名化辞書を参照し、前記対象データ中の項目の値である語を抽象化した語に替えて匿名化候補データを生成することを特徴とする匿名化システム。 A period acquisition unit for acquiring a period for anonymization;
Of the target data including a plurality of items associated with individuals, a data acquisition unit that acquires target data corresponding to the period;
An abstraction unit that generates abstraction candidate data by replacing a word that is a value of an item in the target data with an abstracted word;
A value determination unit that receives the value of the word included in the abstraction candidate data and obtains the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
A test unit that tests on condition that a combination of values of items of the abstraction candidate data is not limited to one individual of the target data;
A selection unit that selects the abstraction candidate data based on the value of the abstraction candidate data that satisfies the test condition;
An output unit that outputs the abstraction candidate data selected based on the value as anonymous information;
In order to anonymize the word included in the target data instead of the abstracted word, a dictionary acquiring unit that acquires a plurality of anonymized dictionaries in which the word and the abstracted word are stored in association with each other;
Based on the correspondence of each word included in the plurality of anonymization dictionaries, the abstracted word is higher and the word before abstraction is lower, each word included in the plurality of anonymization dictionaries, Corresponds to upper and lower words that exist in the anonymization dictionary, and associates the highest word that does not have a corresponding higher word as a root to the lowest word that does not have a corresponding lower word in a tree shape The tree-like correspondence is set as one dimension, the dimension is obtained for each of the plurality of top words included in the plurality of anonymization dictionaries, and the plurality of dimensions obtained for each top word are determined. An integration part to be an integrated anonymization dictionary;
For each of the dimensions, a priority determination unit that determines the priority based on words included in the dimension;
A dimension selection unit that selects a dimension to be adopted as the integrated anonymization dictionary and a dimension not to be adopted among the plurality of dimensions based on the priority;
The anonymization system, wherein the abstraction unit refers to the integrated anonymization dictionary and generates anonymization candidate data by replacing the word that is the value of the item in the target data with an abstracted word.
個人と対応付けられた複数の項目を含む対象データのうち、前記期間に該当する対象データを取得するステップと、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求めるステップと、
前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定するステップと、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択するステップと、
前記価値に基づいて選択された抽象化候補データを匿名情報とし、当該匿名情報を配信するタイミング、前記対象データに基づく予測情報、前記匿名情報における基準からの乖離度、前記匿名情報における属性値の出現数、前記匿名情報における属性値の出現率、又は前記匿名情報の順位が、ユーザによって設定された条件を満たした場合に、当該匿名情報を出力するステップと、
をコンピュータが実行する匿名化方法。 Obtaining a period for which anonymization is performed;
Of the target data including a plurality of items associated with an individual, obtaining target data corresponding to the period; and
Generating abstract candidate data by replacing words that are values of items in the target data with abstract words;
Receiving the value of the word included in the abstraction candidate data, and determining the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
Testing a condition that a combination of values of the abstraction candidate data items is not limited to one individual of the target data;
Selecting abstraction candidate data based on the value of the abstraction candidate data satisfying the test condition;
The abstraction candidate data selected based on the value is anonymous information, the timing of distributing the anonymous information, the prediction information based on the target data, the degree of deviation from the reference in the anonymous information, the attribute value in the anonymous information When the number of appearances, the appearance rate of attribute values in the anonymous information, or the rank of the anonymous information satisfies the conditions set by the user, the step of outputting the anonymous information ;
Anonymization method that the computer performs.
個人と対応付けられた複数の項目を含む対象データのうち、前記期間に該当する対象データを取得するステップと、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データに含まれる語の価値を受信し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求めるステップと、
前記抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定するステップと、
前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択するステップと、
前記価値に基づいて選択された抽象化候補データを匿名情報とし、当該匿名情報を配信するタイミング、前記対象データに基づく予測情報、前記匿名情報における基準からの乖離度、前記匿名情報における属性値の出現数、前記匿名情報における属性値の出現率、又は前記匿名情報の順位が、ユーザによって設定された条件を満たした場合に、当該匿名情報を出力するステップと、
をコンピュータに実行させるための匿名化プログラム。 Obtaining a period for which anonymization is performed;
Of the target data including a plurality of items associated with an individual, obtaining target data corresponding to the period; and
Generating abstract candidate data by replacing words that are values of items in the target data with abstract words;
Receiving the value of the word included in the abstraction candidate data, and determining the value of the abstraction candidate data based on the value of the word included in the abstraction candidate data;
Testing a condition that a combination of values of the abstraction candidate data items is not limited to one individual of the target data;
Selecting abstraction candidate data based on the value of the abstraction candidate data satisfying the test condition;
The abstraction candidate data selected based on the value is anonymous information, the timing of distributing the anonymous information, the prediction information based on the target data, the degree of deviation from the reference in the anonymous information, the attribute value in the anonymous information When the number of appearances, the appearance rate of attribute values in the anonymous information, or the rank of the anonymous information satisfies the conditions set by the user, the step of outputting the anonymous information ;
Anonymization program to make computer run.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204823A JP6313944B2 (en) | 2013-09-30 | 2013-09-30 | Anonymization system, anonymization method and anonymization program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204823A JP6313944B2 (en) | 2013-09-30 | 2013-09-30 | Anonymization system, anonymization method and anonymization program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015069532A JP2015069532A (en) | 2015-04-13 |
JP6313944B2 true JP6313944B2 (en) | 2018-04-18 |
Family
ID=52836094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013204823A Active JP6313944B2 (en) | 2013-09-30 | 2013-09-30 | Anonymization system, anonymization method and anonymization program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6313944B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475392B (en) | 2020-04-08 | 2022-05-20 | 北京字节跳动网络技术有限公司 | Method, device, electronic equipment and computer readable medium for generating prediction information |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002260169A (en) * | 2001-03-02 | 2002-09-13 | Toyota Motor Corp | Method and computer for distributing traffic information |
JP2007272515A (en) * | 2006-03-31 | 2007-10-18 | Nec Corp | Commodity management system, management server, commodity management method, and commodity management program |
JP5511532B2 (en) * | 2010-06-16 | 2014-06-04 | Kddi株式会社 | Public information privacy protection device, public information privacy protection method and program |
JP5917173B2 (en) * | 2012-01-31 | 2016-05-11 | 株式会社ゼンリンデータコム | Information processing system and information processing method |
JP5836152B2 (en) * | 2012-02-21 | 2015-12-24 | 三菱電機株式会社 | Confidential counting system, confidential counting method, confidential counting program, data disturbing device, data disturbing method, and data disturbing program |
JP6214150B2 (en) * | 2012-11-19 | 2017-10-18 | 富士通クラウドテクノロジーズ株式会社 | Information processing apparatus, information processing method, and information processing program |
JP6169444B2 (en) * | 2013-08-30 | 2017-07-26 | 富士通クラウドテクノロジーズ株式会社 | Anonymization system |
-
2013
- 2013-09-30 JP JP2013204823A patent/JP6313944B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015069532A (en) | 2015-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101071997B1 (en) | Contactpoint navigation system and method | |
US20100262456A1 (en) | System and Method for Deep Targeting Advertisement Based on Social Behaviors | |
JP6027122B2 (en) | Information analysis system and information analysis method | |
US11436639B2 (en) | Behavioral analysis device, advertisement distribution device, behavioral analysis method, advertisement distribution method, behavioral analysis program, and advertisement distribution program | |
KR20110032878A (en) | Keyword ad. method and system for social networking service | |
JP6232495B2 (en) | Digital receipt economy | |
JP6177536B2 (en) | Information processing device | |
JP2008204370A (en) | Customer inducing method | |
JP2007504556A (en) | How to determine and / or use location information in an advertising system | |
JP6169444B2 (en) | Anonymization system | |
JP6214150B2 (en) | Information processing apparatus, information processing method, and information processing program | |
JP6313944B2 (en) | Anonymization system, anonymization method and anonymization program | |
JP6745925B2 (en) | Data processing device, data processing method and program | |
JP6334915B2 (en) | Anonymization system | |
US20130006761A1 (en) | Method, system, and article of manufacture for generating ad groups for on-line advertising | |
KR101673372B1 (en) | Multi-media network service system and method based on template | |
US20020158896A1 (en) | Information gathering method and system | |
JP7195293B2 (en) | Information processing device, information processing method, and information processing program | |
TW202312060A (en) | Prediction devices and methods for predicting whether users belong to valuable user groups based on short-term user characteristics, and storage media for storing the methods | |
Azoev et al. | Site Base Conversion and Impact of Advertising Traffic Source on Conversion Rate | |
WO2020084712A1 (en) | Distribution program, distribution method, and distribution device | |
WO2023062852A1 (en) | Information processing device, information processing method, and program | |
Sakkthivel | Influence of internet on online buyer involvement towards buying different products and services | |
JP7260439B2 (en) | Extraction device, extraction method and extraction program | |
US10699304B1 (en) | Delivery and advertisements to mobile applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160817 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170801 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6313944 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |