JP5835745B2 - Information distribution system and information distribution method - Google Patents

Information distribution system and information distribution method Download PDF

Info

Publication number
JP5835745B2
JP5835745B2 JP2013014395A JP2013014395A JP5835745B2 JP 5835745 B2 JP5835745 B2 JP 5835745B2 JP 2013014395 A JP2013014395 A JP 2013014395A JP 2013014395 A JP2013014395 A JP 2013014395A JP 5835745 B2 JP5835745 B2 JP 5835745B2
Authority
JP
Japan
Prior art keywords
kana
server
statistical processing
data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013014395A
Other languages
Japanese (ja)
Other versions
JP2013178756A (en
Inventor
石井 淳
淳 石井
浩之 前大道
浩之 前大道
依田 育生
育生 依田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013014395A priority Critical patent/JP5835745B2/en
Publication of JP2013178756A publication Critical patent/JP2013178756A/en
Application granted granted Critical
Publication of JP5835745B2 publication Critical patent/JP5835745B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、個々のプライバシ情報を含むデータを、プライバシ情報を秘匿したまま効率よく統計処理を行うための手法およびサーバ内での処理に関する。   The present invention relates to a technique for efficiently performing statistical processing on data including individual privacy information while keeping the privacy information secret, and processing in a server.

平均・分散・相関等の統計処理を行うためには個々人(または、個々人の所有する携帯端末など。以下ノードと呼ぶ)のデータを統計分析器(統計処理サーバ)に一度集めてから処理する必要があるため、プライバシを含むデータを提供するには然るべき信頼のおける調査機関などに対してでなければ抵抗感が大きく、また調査を行う側としても毎回データを安全に運用するために様々な配慮が必要であった。   In order to perform statistical processing such as averaging, variance, correlation, etc., it is necessary to collect the data of individual persons (or mobile terminals owned by individual persons, hereinafter referred to as nodes) in a statistical analyzer (statistical processing server) and then process them. Therefore, in order to provide data including privacy, there is a great sense of resistance unless it is a reasonably reliable research institution, and various considerations are also required for the data to be operated safely every time the investigator conducts the survey. Was necessary.

そのためプライバシを含んだデータの統計処理を行うためにノードのプライバシ情報を秘匿した状態でデータのやりとりを行う手法が考えられている。   Therefore, in order to perform statistical processing of data including privacy, a method of exchanging data in a state where privacy information of a node is concealed is considered.

従来技術では統計処理サーバを3台に分割することでデータを分散して保存し、プライバシを秘匿することで解決を図っている(例えば、非特許文献1及び2参照。)。この手法は軽量なアルゴリズムでデータ自体を秘匿したまま加算や定数倍、乗算といった基本演算を可能としている。   In the prior art, the data is distributed and stored by dividing the statistical processing server into three units, and the privacy is concealed (for example, see Non-Patent Documents 1 and 2). This method is a lightweight algorithm that allows basic operations such as addition, constant multiplication, and multiplication while keeping the data itself secret.

この手法では統計処理サーバの結託を考えない限りデータの復元が不可能であることは保障されているものの、誰が送信したデータなのかを匿名化することに関しては考えられていない。このことから、統計処理サーバやデータを分析する主体がノードに対していくつかの攻撃を行うことが可能となってしまっている。   Although this method guarantees that data cannot be restored unless the collusion of the statistical processing server is considered, it is not considered to anonymize who sent the data. This makes it possible for the statistical processing server and the main body analyzing the data to perform several attacks on the node.

たとえば、統計処理サーバがノードに回答対象の条件を含むクエリを送信することを考えたとき、クエリへの回答の有無によって回答者がそのクエリの条件に含まれている/いないということを結託することなく統計処理サーバは知ることができてしまう。また、データ分析主体がクエリの条件を攻撃対象の回答者一人だけしか該当しないような条件まで狭めたクエリにより統計情報を収集することで攻撃対象の回答者のデータは見せかけの統計処理を経てそのまま出力されてしまう。   For example, when the statistical processing server considers sending a query including a condition to be answered to a node, it is determined that the respondent is included or not included in the query condition depending on whether or not there is an answer to the query. Without knowing, the statistical processing server can know. In addition, the data analysis subject collects statistical information with a query that narrows the query condition to a condition that only one respondent subject to attack, so that the data of the respondent subject to attack is subjected to fake statistical processing as it is. Will be output.

このような問題を考えたとき、回答者の情報は秘匿されるべきであると言える。アドレスをほぼ完全に秘匿し、匿名でデータを送信するための通信手法はp2pを用いたTor等の技術により可能とされている(例えば、非特許文献3参照。)。しかしながら匿名化を行い、送信者が完全に特定できない状態まで匿名化されてしまった場合、データの送信者、すなわちクエリの回答者に対価を支払うことが難しくなり、回答者側がデータを提供するモチベーションを得ることが難しい。結果として調査自体が不成立になりかねない。   When considering such problems, it can be said that the information of respondents should be kept secret. A communication technique for almost completely concealing the address and transmitting the data anonymously is enabled by a technique such as Tor using p2p (for example, see Non-Patent Document 3). However, if anonymization is performed and the sender is anonymized until it cannot be completely identified, it becomes difficult to pay the data sender, that is, the respondent of the query, and the motivation that the respondent provides the data Difficult to get. As a result, the survey itself may be unsuccessful.

また、データを分割して保存することを考えた時、完全にデータが匿名である場合にはもう一つ別の問題が発生する。すなわち分割されたデータの一部が欠損している場合において、そのまま統計処理を行った場合に統計データが正しくないものが出力されてしまう可能性がある。統計処理サーバ間のデータ数の差からデータが欠損していることが判明したとしても、匿名でそれぞれのデータが紐づいていないため取り除くべきデータがわからずすべてのデータが利用不可能となってしまう。   In addition, when considering dividing and storing data, another problem occurs when the data is completely anonymous. That is, when a part of the divided data is missing, if statistical processing is performed as it is, there is a possibility that the statistical data is incorrect. Even if it turns out that the data is missing from the difference in the number of data between the statistical processing servers, the data to be removed is unknown because each data is anonymous, and all the data becomes unavailable. End up.

千田浩司,五十嵐大,濱田浩気,高橋克巳:エラー検出可能な軽量3パーティ秘匿関数計算の提案と実装評価,情報処理学会論文誌,Vol.52,No.9,pp2674−2685(2011)Koji Senda, Dai Igarashi, Hiroki Hirota, Katsumi Takahashi: Proposal and implementation evaluation of lightweight three-party secret function calculation with error detection, IPSJ Transactions, Vol. 52, no. 9, pp2674-2685 (2011) 千田浩司,五十嵐大,高橋克巳:効率的な3パーティ秘匿関数計算の提案とその運用モデルの考察、DPS−142−1、pp1−7、2010.Koji Senda, Dai Igarashi, Katsumi Takahashi: Proposal of efficient three-party secret function calculation and consideration of its operation model, DPS-142-1, pp1-7, 2010. https://www.torproject.org/https: // www. torproject. org /

そこで、本発明は、プライバシ情報を含むデータを複数に分散しながら匿名化した状態で流通させることが可能な情報流通システム及び情報流通方法の提供を目的とする。   Therefore, an object of the present invention is to provide an information distribution system and an information distribution method capable of distributing data including privacy information in an anonymized state while being distributed in a plurality.

前述の目的を達成するために、本願発明の情報流通システム及び情報流通方法は、データ所有者は、データを分割した上で、それぞれのデータ(分割データ)を異なる仮名に基づき回収サーバに回答し、仮名サーバは、各データ所有者の仮名セットを記憶し、統計処理サーバからの問い合わせに対し、仮名セットが揃っているか否かを回答し、統計処理サーバは、受信した分割データの仮名を仮名サーバに通知し、仮名セットが揃っている場合に統計処理を行うことを特徴とする。   In order to achieve the above-described object, the information distribution system and the information distribution method of the present invention provide that the data owner divides the data and returns each data (divided data) to the collection server based on different pseudonyms. The kana server stores the kana set of each data owner, answers to the inquiry from the statistical processing server whether or not the kana set is prepared, and the statistical processing server kana the kana of the received divided data. The server is notified and statistical processing is performed when the kana set is complete.

具体的には、本願発明の情報流通システムは、ノードからの仮名発行要求を受けて当該ノードに複数の仮名からなる仮名セットを発行し、統計処理サーバから仮名の通知を受けると、通知を受けた仮名が仮名セットに含まれるか否かを確認し、仮名セットのすべての仮名が通知済みの場合に仮名が確認済みである旨を前記統計処理サーバに通知する仮名サーバと、前記仮名サーバの発行した仮名を送信元とするデータを蓄積し、蓄積した仮名を前記仮名サーバに通知し、前記確認済みである旨の通知を受けると、蓄積したデータのうちの確認済みの仮名を送信元とするデータを用いて統計処理を行う統計処理サーバと、を備える。   Specifically, the information distribution system of the present invention receives a kana issuance request from a node, issues a kana set consisting of a plurality of kana to the node, and receives a notification when receiving a kana notification from the statistical processing server. The pseudonym is included in the pseudonym set, and when all the pseudonyms in the pseudonym set have been notified, the pseudonym server that notifies the statistical processing server that the pseudonym has been confirmed, and the pseudonym server The data having the issued pseudonym as the transmission source is accumulated, the accumulated pseudonym is notified to the pseudonym server, and when the confirmation is received, the confirmed pseudonym of the accumulated data is set as the transmission source. A statistical processing server that performs statistical processing using the data to be processed.

本願発明の情報流通システムでは、前記統計処理サーバは、前記ノードのもつ元データを復元する演算処理を決定し、当該演算処理によって復元可能なデータを要求するクエリを生成し、蓄積したデータに当該演算処理を施すことで前記ノードのもつ元データを復元してもよい。   In the information distribution system of the present invention, the statistical processing server determines a calculation process for restoring the original data of the node, generates a query for requesting data that can be restored by the calculation process, and adds the query to the accumulated data. The original data of the node may be restored by performing arithmetic processing.

本願発明の情報流通システムでは、前記仮名サーバは、仮名セットのすべての仮名が通知済みとなっていない仮名を通知することで、前記確認済みである旨を前記統計処理サーバに通知してもよい。   In the information distribution system of the present invention, the kana server may notify the statistical processing server that the kana has been confirmed by notifying all kana of which kana has not been notified. .

本願発明の情報流通システムでは、前記仮名サーバは、仮名発行要求のあったノードの数が予め定められた数に達するまで仮名セットを発行せず、仮名発行要求のあったノードの数が予め定められた数に達すると仮名セットを発行してもよい。   In the information distribution system of the present invention, the kana server does not issue a kana set until the number of nodes for which a kana issue request has been made reaches a predetermined number, and the number of nodes for which a kana issue request has been made is predetermined. A kana set may be issued when the specified number is reached.

具体的には、本願発明の情報流通方法は、仮名サーバが、ノードからの仮名発行要求を受けて当該ノードに複数の仮名からなる仮名セットを発行する仮名発行手順と、統計処理サーバが、仮名を送信元とするデータを取得すると、仮名及びデータの組を蓄積し、蓄積した仮名を仮名サーバに通知し、仮名サーバから当該仮名が確認済みである旨の通知を受けると、蓄積したデータのうちの確認済みの仮名を送信元とするデータを用いて統計処理を行う統計処理手順と、を順に有する。   Specifically, in the information distribution method of the present invention, the kana server receives a kana issuance request from a node and issues a kana set including a plurality of kana to the node, and the statistical processing server Is acquired, the kana and data pairs are accumulated, the accumulated kana is notified to the kana server, and when the kana server receives notification that the kana has been confirmed, And a statistical processing procedure for performing statistical processing using data whose sender is a confirmed pseudonym.

本願発明の情報流通方法では、前記仮名発行手順において、統計処理サーバは、前記ノードのもつ元データを復元する演算処理を決定し、当該演算処理によって復元可能なデータを要求するクエリを生成し、前記統計処理手順において、統計処理サーバは、蓄積したデータに前記演算処理を施すことで前記ノードのもつ元データを復元してもよい。   In the information distribution method of the present invention, in the pseudonym issuing procedure, the statistical processing server determines a calculation process for restoring the original data of the node, generates a query for requesting data that can be restored by the calculation process, In the statistical processing procedure, the statistical processing server may restore the original data of the node by performing the arithmetic processing on the accumulated data.

本願発明の情報流通方法では、前記統計処理手順において、仮名サーバは、仮名セットのすべての仮名が通知済みとなっていない仮名を通知することで、前記確認済みである旨を統計処理サーバに通知してもよい。   In the information distribution method of the present invention, in the statistical processing procedure, the kana server notifies the statistical processing server that the kana has been confirmed by notifying all kana of which kana has not been notified. May be.

本願発明の情報流通方法では、前記仮名発行手順において、仮名サーバは、仮名発行要求のあったノードの数が予め定められた数に達するまで仮名セットを発行せず、仮名発行要求のあったノードの数が予め定められた数に達すると仮名セットを発行してもよい。   In the information distribution method of the present invention, in the kana issue procedure, the kana server does not issue a kana set until the number of nodes for which a kana issue request has been made reaches a predetermined number, and the node for which a kana issue request has been made A kana set may be issued when the number reaches the predetermined number.

なお、上記各発明は、可能な限り組み合わせることができる。   The above inventions can be combined as much as possible.

本発明によれば、仮名サーバが1つのノードに対して複数の仮名を発行し、統計処理サーバが仮名を用いて送信されたデータを統計処理するため、ノードから元データとは異なるデータを送信しておき、統計処理によってノードの元データを復元させることができる。このため、プライバシ情報を含むデータを複数に分散しながら匿名化した状態で流通させることができる。   According to the present invention, the kana server issues a plurality of kana to one node, and the statistical processing server statistically processes the data transmitted using the kana, so that the node transmits data different from the original data. In addition, the original data of the node can be restored by statistical processing. For this reason, data including privacy information can be distributed in an anonymized state while being distributed in a plurality.

本実施形態に係るシステムの機能ブロック図の一例を示す。An example of the functional block diagram of the system concerning this embodiment is shown. 本実施形態に係る情報流通システムのシーケンス図を示す。The sequence diagram of the information distribution system concerning this embodiment is shown. 統計処理サーバが複数台の場合のシーケンス図を示す。The sequence diagram in case there are a plurality of statistical processing servers is shown. 実施形態1におけるクエリ生成から仮名セットの発行までの説明図である。6 is an explanatory diagram from query generation to issuance of a pseudonym set in Embodiment 1. FIG. 実施形態1におけるデータの分割から統計処理までの説明図である。It is explanatory drawing from the division | segmentation of the data in Embodiment 1 to a statistical process. 実施形態2におけるクエリ生成から仮名セットの発行までの説明図である。It is explanatory drawing from the query production | generation in Embodiment 2 to issuance of a kana set. 実施形態2におけるデータの分割から統計処理までの説明図である。FIG. 10 is an explanatory diagram from data division to statistical processing in the second embodiment.

添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施の例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。   Embodiments of the present invention will be described with reference to the accompanying drawings. The embodiments described below are examples of the present invention, and the present invention is not limited to the following embodiments. In the present specification and drawings, the same reference numerals denote the same components.

(実施形態1)
本実施形態に係る情報流通システム及び情報流通方法は、複数に分散したデータを数値、送信者ともに復元不可能な状態で保存するために送信者の匿名化を行うサーバ(仮名サーバ)と統計処理サーバを分割し、さらに分割したデータそれぞれに異なる仮名を割り当てる。サーバを仮名発行と統計処理の役割によって分割することで処理を行う機関を分割することも可能となり、双方が供託しなければデータが復元されないような状況とすることでプライバシ情報の秘匿度合を高める。
(Embodiment 1)
An information distribution system and an information distribution method according to the present embodiment include a server (a pseudonym server) that performs anonymization of a sender and statistical processing in order to save a plurality of distributed data in a state where both the numerical value and the sender cannot be restored. The server is divided and a different pseudonym is assigned to each divided data. It is also possible to divide the server that performs processing by dividing the server according to the role of pseudonym issuance and statistical processing, and increase the confidentiality of privacy information by making the situation that data will not be restored unless both are deposited .

また、本実施形態に係る情報流通システム及び情報流通方法は、統計処理サーバ単体による攻撃を防ぐために、仮名サーバは回答者数の管理も同時に行う機能を持つ。具体的には統計的に十分と考えられる回答数が予想される状態になるまで各ノードに回答を許可しない、すなわち仮名の発行を行わない機能である。   Further, in the information distribution system and the information distribution method according to the present embodiment, the kana server has a function of simultaneously managing the number of respondents in order to prevent an attack by the statistical processing server alone. Specifically, this is a function that does not allow each node to reply, that is, does not issue a pseudonym until a statistically sufficient number of answers are expected.

そして、分割したデータの欠損による正しくない統計処理を防ぐために、本実施形態に係る情報流通システム及び情報流通方法は、統計処理サーバに集められた仮名セットの照会も仮名サーバは機能として有する。   In order to prevent incorrect statistical processing due to the loss of the divided data, the information distribution system and the information distribution method according to the present embodiment also have a function of the pseudonym server as a function of the query of the pseudonym set collected in the statistical processing server.

本実施形態に係る情報流通システムの機能ブロック図を図1に示す。本実施形態に係る情報流通システムは、個々のプライバシ情報を含んだデータを持つ複数のノード10、クエリ配布サーバ40、仮名サーバ30、統計処理サーバ20からなる。ノード10は、クエリ処理部11と、データ分割部12と、データ格納部13を備える。統計処理サーバ20は、クエリ生成部21と、回答回収・処理部22を備える。仮名サーバ30は、仮名発行部31と、仮名生成・管理部32と、仮名確認部33を備える。クエリ配布サーバ40は、クエリ格納部41を備える。   A functional block diagram of the information distribution system according to the present embodiment is shown in FIG. The information distribution system according to the present embodiment includes a plurality of nodes 10 having data including individual privacy information, a query distribution server 40, a pseudonym server 30, and a statistical processing server 20. The node 10 includes a query processing unit 11, a data dividing unit 12, and a data storage unit 13. The statistical processing server 20 includes a query generation unit 21 and an answer collection / processing unit 22. The kana server 30 includes a kana issuing unit 31, a kana generation / management unit 32, and a kana confirmation unit 33. The query distribution server 40 includes a query storage unit 41.

図2に、本実施形態に係る情報流通方法のシーケンス図を示す。本実施形態に係る情報流通方法は、仮名発行手順と、クエリ処理手順と、統計処理手順と、を順に有する。
仮名発行手順では、仮名サーバ30が、ノード10からの仮名発行要求を受けて、ノード10に複数の仮名からなる仮名セットを発行する。具体的には、ステップS201〜ステップS206を行う。
クエリ処理手順では、ノード10がクエリ処理を行う。具体的には、ステップS207〜ステップS208を行う。
統計処理手順では、統計処理サーバ20が、仮名を送信元とするデータを取得すると、仮名及びデータの組を蓄積し、蓄積した仮名を仮名サーバ30に通知し、確認済みである旨の通知を受けると、蓄積したデータのうちの確認済みの仮名を送信元とするデータを用いて統計処理を行う。具体的には、ステップS209〜ステップS213を行う。
FIG. 2 shows a sequence diagram of the information distribution method according to the present embodiment. The information distribution method according to the present embodiment includes a kana issue procedure, a query processing procedure, and a statistical processing procedure in this order.
In the kana issue procedure, the kana server 30 receives a kana issue request from the node 10 and issues a kana set including a plurality of kana to the node 10. Specifically, steps S201 to S206 are performed.
In the query processing procedure, the node 10 performs query processing. Specifically, steps S207 to S208 are performed.
In the statistical processing procedure, when the statistical processing server 20 acquires the data having the pseudonym as the transmission source, the pseudonym and the data pair are accumulated, the accumulated pseudonym is notified to the kana server 30, and a notification that it has been confirmed is sent. Upon receipt, the statistical processing is performed using the data having the confirmed pseudonym as the transmission source among the accumulated data. Specifically, steps S209 to S213 are performed.

最初に、ステップS201では、統計処理サーバ20のクエリ生成部21は、要求された統計データを求めるためのクエリを生成する。統計処理サーバ20は、ノードのもつ元データを復元する演算処理を決定し、当該演算処理によって復元可能なデータを要求するクエリを生成する。演算処理は、例えば総和である。   First, in step S201, the query generation unit 21 of the statistical processing server 20 generates a query for obtaining requested statistical data. The statistical processing server 20 determines a calculation process for restoring the original data of the node, and generates a query for requesting data that can be restored by the calculation process. The arithmetic processing is, for example, summation.

生成されたクエリは、ノード10と統計処理サーバ20の直接のやり取りを防ぐため、ノード10に直接配布されず、各ノード10から取得可能な状態でクエリ配布サーバ40のクエリ格納部41に設置される。これにより、各ノード10にクエリが配布される(S202)。
クエリ生成部21は、クエリをクエリ配布サーバ40に設置した旨を仮名サーバ30へ通知する(S204)。このときから、仮名発行部31は、当該クエリについて、仮名の発行申請のあったノード数の計数を開始する。
In order to prevent direct exchange between the node 10 and the statistical processing server 20, the generated query is not directly distributed to the node 10 but is installed in the query storage unit 41 of the query distribution server 40 in a state where it can be acquired from each node 10. The As a result, the query is distributed to each node 10 (S202).
The query generation unit 21 notifies the pseudonym server 30 that the query is installed in the query distribution server 40 (S204). From this time, the pseudonym issuing unit 31 starts counting the number of nodes for which a pseudonym issuance application has been made for the query.

各ノード10のクエリ処理部11は、定期的にクエリ配布サーバ40に対して問い合わせを行い、新着のクエリがある場合にはクエリ配布要求を行い、新着のクエリを得る(S203)。クエリの条件などから回答したいと判断した場合、ノード10は、仮名サーバ30へ仮名の発行申請を行い(S205)、発行処理が行われるまで待機する。   The query processing unit 11 of each node 10 periodically inquires the query distribution server 40, and if there is a new arrival query, makes a query distribution request to obtain a new arrival query (S203). If it is determined that the user wants to reply from the query conditions, the node 10 applies to the kana server 30 for issuance of a kana (S205), and waits until the issuance process is performed.

仮名サーバ30の仮名発行部31は、仮名発行要求に対して、同一のクエリIDへの発行要求が一定数N以上(例えば1000個)発生するまで仮名の発行を待機する。これにより統計の標本集団数を仮名サーバ30が第三者機関として保証することができ、そして先に述べた回答者一人しか該当しないような悪意あるクエリへの回答をノード10にさせないための仕組みとなる。仮名の発行申請のあったノード数が予め定められたN個に達すると、仮名サーバ30の仮名発行部31は、各ノード10に対してn個の仮名からなる仮名セットを生成し発行する(S206)。仮名サーバ30の仮名生成・管理部32は、仮名セットとノード10の組を記憶する。   The kana issuer 31 of the kana server 30 waits for issuance of a kana until a predetermined number N or more (for example, 1000) of issuance requests for the same query ID are generated in response to the kana issuance request. As a result, the pseudonym server 30 can guarantee the number of sample groups of statistics as a third-party organization, and a mechanism for preventing the node 10 from answering a malicious query that corresponds to only one respondent described above. It becomes. When the number of nodes for which a pseudonym is issued has reached a predetermined number N, the pseudonym issuing unit 31 of the pseudonym server 30 generates and issues a kana set consisting of n pseudonyms to each node 10 ( S206). The kana generation / management unit 32 of the kana server 30 stores a set of the kana set and the node 10.

発行された仮名セットを構成する仮名の数nに応じて、各ノード10のデータ分割部12は自身のデータの値Dを任意に分割する(S207)。ただし統計処理サーバ20に要求されたデータの統計情報に応じて分割の方法は異なるものとする。統計処理サーバ20での統計処理が平均であれば、データの値Dを分割した値d11〜dn1の総和がデータの値Dに等しくなるように分割すればどのような分割方法でもよい。例えば、仮名セットの仮名数nが3の場合、乱数r,rを生成して元の値xをx=r,x=−r,x=x−r+rなどとする分割方法が考えられる。クエリ処理部11は、それぞれの仮名を用いて統計処理サーバ20にデータx、x及びxを分割した値d11〜dn1として送信する(S208)。これにより、クエリ処理部11は、クエリに対する回答を送信する。 Depending on the number n of kana constituting the issued pseudonym set, the data dividing unit 12 of each node 10 is arbitrarily divided the value D 1 of the own data (S207). However, the division method differs depending on the statistical information of the data requested from the statistical processing server 20. If statistical processing an average of a statistical processing server 20, in any division method if divided as the sum of the values d 11 to d n1 which divides the value D 1 of the data is equal to the value D 1 of the data Good. For example, when the kana number n of the kana set is 3, random numbers r 1 and r 2 are generated and the original values x are converted to x 1 = r 1 , x 2 = −r 2 , x 3 = x−r 1 + r 2 A division method such as The query processing unit 11 transmits the data x 1 , x 2, and x 3 to the statistical processing server 20 as values d 11 to d n1 using the respective pseudonyms (S208). Thereby, the query processing unit 11 transmits an answer to the query.

なお、ノード10のクエリ処理部11は、分割したデータを同時に送るのではなく、乱数によって決定される時間(例えば、10分から10時間の一様分布)、待機した後に、統計処理サーバ20に送付してもよい。これらの方法により、分割データ間のマッチングを取ることを一層困難とできる。   The query processing unit 11 of the node 10 does not send the divided data at the same time, but sends it to the statistical processing server 20 after waiting for a time determined by random numbers (for example, a uniform distribution from 10 minutes to 10 hours). May be. With these methods, it is possible to make it more difficult to match the divided data.

また、統計処理サーバ20での統計処理が分散や相関である場合を考えたとき、値の分割値、値の二乗の分割値、複数の要素の値の積の分割値等複数の統計処理に用いる値をそれぞれ分割し、同一パケットにまとめて送信することも可能である。なお、仮名を用いた場合でもデータの送信プロトコル自体は通常のパケット送信に従えば、ノード10は自身のデータの送信の失敗をACKのレスポンスが返ってこないことから知ることができる。   In addition, when considering the case where the statistical processing in the statistical processing server 20 is variance or correlation, the statistical processing server 20 is used for a plurality of statistical processing such as a divided value of a value, a divided value of a square of a value, and a divided value of a product of a plurality of element values. It is also possible to divide the values to be used and transmit them together in the same packet. Even when the pseudonym is used, if the data transmission protocol itself follows normal packet transmission, the node 10 can know that the data transmission has failed because the ACK response does not return.

結果を受け取った統計処理サーバ20の回答回収・処理部22は、すぐに結果を処理せず、送信してきた仮名の情報を仮名サーバ30の仮名確認部33へ送信し、仮名の問合せを行う(S209)。これにより各ノード10の分割されたデータがすべて揃う前に統計処理に加えてしまい統計データが正しくない結果になることを防ぐ。   The answer collection / processing unit 22 of the statistical processing server 20 that has received the result does not immediately process the result, but transmits the transmitted kana information to the kana confirmation unit 33 of the kana server 30 to inquire about the kana ( S209). This prevents the statistical data from being incorrect because it is added to the statistical processing before all the divided data of each node 10 is collected.

仮名情報を統計処理サーバ20から送信された仮名サーバ30の仮名確認部33は、統計処理サーバ20から受信した仮名が確認済みである旨を仮名生成・管理部32に登録する。そして、あるノード10に対して発行した仮名セットのn個の仮名をすべて受信したか否かを確認し(S210)、仮名セットが揃うまで統計処理サーバ20への応答を待機する。あるノード10の仮名セットが揃ったことが確認されたのちに、仮名サーバ30の仮名確認部33は、認証された仮名への肯定応答を統計処理サーバ20へ返す(S211)。   The pseudonym confirmation unit 33 of the pseudonym server 30 that has transmitted the pseudonym information from the statistical processing server 20 registers in the pseudonym generation / management unit 32 that the pseudonym received from the statistical processing server 20 has been confirmed. Then, it is confirmed whether or not all n kana characters of the kana set issued to a certain node 10 have been received (S210), and a response to the statistical processing server 20 is waited until the kana sets are prepared. After it is confirmed that the kana set of a certain node 10 is prepared, the kana confirmation unit 33 of the kana server 30 returns an acknowledgment to the authenticated kana to the statistical processing server 20 (S211).

ここで、肯定応答は仮名セットを統計処理サーバ20側が一意に特定できないような応答であればよく、複数のノード10に相当する十分量の仮名を統計処理サーバ20が受け取ったのちに、仮名セットを構成するすべての仮名を統計処理サーバ20に通知してもよいし、仮名の通知に代えて、統計量に加えるべきでない、不揃いの仮名を仮名サーバ30が応答する形式でもよい。また、ノード10からの送信者に対し対価が存在する場合には、あらかじめ統計処理サーバ20が仮名サーバ30に対価を預け、仮名サーバ30がこの応答待機間に仮名セットが揃ったノード10から順に支払いを済ませる方法が考えられる。   Here, the positive response may be a response in which the statistical processing server 20 cannot uniquely identify the kana set, and after the statistical processing server 20 receives a sufficient amount of kana corresponding to the plurality of nodes 10, May be notified to the statistical processing server 20, or instead of notifying the kana, the kana server 30 may respond with an irregular kana that should not be added to the statistics. In addition, when there is consideration for the sender from the node 10, the statistical processing server 20 deposits the consideration to the kana server 30 in advance, and the kana server 30 is in order from the node 10 where the kana set is prepared during this response waiting. A possible way to complete the payment.

統計処理サーバ20の回答回収・処理部22は、仮名サーバ30から肯定応答を得た順に統計処理を行う(S213)。肯定応答によって、仮名セットに含まれる仮名の全てが揃っているデータを用いて、統計処理を行うことができる。例えば、回答回収・処理部22は、仮名f35、fn6、f11、f52で送信されたデータd35、dn6、d11、d52について肯定応答を受けると、データd35、dn6、d11、d52を用いて統計処理を行い、暫定的な統計データSを算出する。次に、回答回収・処理部22は、仮名f51、f17、f77、f21で送信されたデータd51、d17、d77、d21について肯定応答を受けると、暫定的な統計データSとデータd51、d17、d77、d21を用いて統計処理を行い、更なる暫定的な統計データSを算出する。これを繰り返す。ここで、統計処理は、クエリ発生時にクエリ生成部21が決定した統計処理である。 The answer collection / processing unit 22 of the statistical processing server 20 performs statistical processing in the order in which an affirmative response is obtained from the pseudonym server 30 (S213). The statistical processing can be performed by using the data in which all of the kana included in the kana set are prepared by the affirmative response. For example, response collection and processing unit 22, when the kana f 35, f n6, f 11 , data d 35 transmitted by f 52, d n6, d 11 , the d 52 receives the acknowledgment, the data d 35, d n6, performs statistical processing using the d 11, d 52, calculates a provisional statistics S. Next, when the response collection / processing unit 22 receives an affirmative response for the data d 51 , d 17 , d 77 , d 21 transmitted in the pseudonyms f 51 , f 17 , f 77 , f 21 , provisional statistics Statistical processing is performed using the data S and the data d 51 , d 17 , d 77 , and d 21 , and further provisional statistical data S is calculated. Repeat this. Here, the statistical process is a statistical process determined by the query generation unit 21 when a query is generated.

最終的にクエリ生成時に決定したN個のノード10に確認済みの仮名セット数が達すると、仮名確認部33は標本数Nが到達した旨の通知を統計処理サーバ20に行う(S212)。回答回収・処理部22は、回答の数が達した時点で標本数到達通知を仮名サーバ30から受信し、当該通知により統計処理を終え、統計データを得る。そして、回答回収・処理部22は、統計データを統計データの要求元に送信する(S213)。   When the number of confirmed kana sets finally reaches N nodes 10 determined at the time of query generation, the kana confirmation unit 33 notifies the statistical processing server 20 that the number of samples N has been reached (S212). The response collection / processing unit 22 receives a sample number arrival notification from the pseudonym server 30 when the number of responses reaches, finishes statistical processing by the notification, and obtains statistical data. Then, the answer collection / processing unit 22 transmits the statistical data to the statistical data request source (S213).

なお、シーケンス図では簡単のため、統計処理において平均を求める手法について説明しているが、分散や、相関を計算するための共分散についても同様に計算することができる。   For simplicity, the sequence diagram describes a method for obtaining an average in statistical processing, but the variance and covariance for calculating the correlation can be similarly calculated.

また、これらの内容におけるノード10を無線端末と考えたとき、各スマートフォン上への利用形態も考えられる。ノード10は、端末が異なるワイヤレスネットワークに属した際に付与される異なるIPアドレスを用いて、統計処理サーバ20に回答を返却することもできる。これにより、通信に用いられたIPアドレスを利用してマッチングすることを回避できる。   Moreover, when the node 10 in these contents is considered as a wireless terminal, a usage form on each smartphone is also conceivable. The node 10 can also return an answer to the statistical processing server 20 using a different IP address given when the terminal belongs to a different wireless network. Thereby, it can avoid matching using the IP address used for communication.

また、統計処理サーバ20が1台の場合について記述したが、複数の統計処理サーバ20に分割することも可能である。その場合のシーケンス図を図3に示す。
複数台の統計処理サーバ20のうちの1台が統計処理主体(親サーバ)となり、統計処理主体(親サーバ)がクエリ生成、クエリ配布サーバとの通信や仮名サーバへのクエリ配布通知、最終的な統計処理を行う。そこで、クエリ生成ステップS201の前に、統計処理主体(親サーバ)を決定する(S301)。例えば、第1の統計処理サーバ20及び第2の統計処理サーバ20のうちの第1の統計処理サーバ20を統計処理主体に決定する。なお、統計処理主体(親サーバ)の決定の仕方は任意である。
Moreover, although the case where there was one statistical processing server 20 was described, it is also possible to divide into a plurality of statistical processing servers 20. A sequence diagram in that case is shown in FIG.
One of the plurality of statistical processing servers 20 becomes a statistical processing entity (parent server), and the statistical processing entity (parent server) generates a query, communicates with the query distribution server, sends a query distribution notification to the pseudonym server, and finally. Perform statistical processing. Therefore, the statistical processing entity (parent server) is determined before the query generation step S201 (S301). For example, the first statistical processing server 20 out of the first statistical processing server 20 and the second statistical processing server 20 is determined as a statistical processing entity. The method of determining the statistical processing subject (parent server) is arbitrary.

図3に示すシーケンスでは、ステップS208において、ノード10はどの統計処理サーバ20に対しても分割したデータを送ってもよい。各統計処理サーバ20は、自身で集計した総和や総積を統計処理主体に預ける。例えば、第1の統計処理サーバ20が統計処理主体の場合、ステップS211において、第1の統計処理サーバ20がデータd35、dn6、d11、d52を用いて暫定的な統計データSを算出し、第2の統計処理サーバ20がデータd21、d17、d77を用いて暫定的な統計データSを算出する。
そして、第1の統計処理サーバ20は、標本数到達通知を仮名サーバ30から受信すると(S212)、終了通知及び統計値の要求を第2の統計処理サーバ20に送信する(S302)。すると、第2の統計処理サーバ20は、第2の統計処理サーバ20の算出した暫定的な統計データSを第1の統計処理サーバ20に送信する(S303)。
そして、ステップS213を実行する。このとき、第1の統計処理サーバ20が、暫定的な統計データS及びSを用いて統計処理を行うことで最終的な統計データを得る。
In the sequence shown in FIG. 3, in step S <b> 208, the node 10 may send the divided data to any statistical processing server 20. Each statistical processing server 20 deposits the sum and total summed up by the statistical processing entity. For example, when the first statistical processing server 20 is a statistical processing entity, in step S211, the first statistical processing server 20 uses the data d 35 , d n6 , d 11 , d 52 to provisional statistical data S 1. calculating a second statistical processing server 20 calculates a provisional statistics S 2 using the data d 21, d 17, d 77 .
When the first statistical processing server 20 receives the sample number arrival notification from the pseudonym server 30 (S212), the first statistical processing server 20 transmits an end notification and a statistical value request to the second statistical processing server 20 (S302). Then, the second statistical processing server 20 transmits a provisional statistics S 2 calculated in the second statistical processing server 20 to the first statistical processing server 20 (S303).
Then, step S213 is executed. At this time, the first statistical processing server 20 to obtain the final statistical data by performing statistical processing using the temporary statistical data S 1 and S 2.

実際に複数のノードから分割されたデータを受け取って統計処理が正しく行われることを示した実施例が図4及び図5になる。今、身長160cmというデータがノードAのデータ格納部13に格納され、身長188cmというデータがノードBのデータ格納部13に格納されており、二人の平均身長およびその分散を二人の身長を知ることなく求めることを考える。この場合、統計データ要求は平均及び分散である。   4 and 5 show an example in which statistical processing is correctly performed by actually receiving data divided from a plurality of nodes. Now, data with a height of 160 cm is stored in the data storage unit 13 of the node A, and data with a height of 188 cm is stored in the data storage unit 13 of the node B. Think about what you want without knowing. In this case, the statistical data requests are average and variance.

図4に示されたS201〜S206までの処理は図2に示すシーケンス図に詳細に記述された通りである。
ステップS202において配布されるクエリには、例えば、クエリの送信者名がMである旨と、クエリIDがM−1である旨と、条件がノード全員である旨と、クエリの内容が身長hの平均ave及び分散varである旨と、必要データが身長h及び身長hの2乗である旨と、統計処理で行う計算が総和である旨が記述される。
ステップS205において、ノードAが仮名発行要求を行う際には、ノードAは、送信者名がAである旨と、クエリIDがM−1である旨を、仮名サーバ30へ送信する。ノードBが仮名発行要求を行う際には、ノードBは、送信者名がBである旨と、クエリIDがM−1である旨を、仮名サーバ30へ送信する。ステップS205における仮名セット生成時に、仮名サーバ30側で仮名セットの発行を待機している状態になっている。
ステップS206において仮名サーバ30は、ノードAについては仮名W及びYからなる仮名セットを発行し、ノードBについては仮名X及びZからなる仮名セットを発行する。
The processing from S201 to S206 shown in FIG. 4 is as described in detail in the sequence diagram shown in FIG.
The query distributed in step S202 includes, for example, that the sender name of the query is M, the query ID is M-1, the condition is all nodes, and the content of the query is height h. Of the average ave h and variance var h , the fact that the necessary data is the height h and the height h squared, and the fact that the calculation performed by the statistical processing is the sum.
In step S205, when the node A makes a pseudonym issue request, the node A transmits to the pseudonym server 30 that the sender name is A and the query ID is M-1. When the node B makes a kana issuance request, the node B transmits to the kana server 30 that the sender name is B and the query ID is M-1. At the time of generating the kana set in step S205, the kana server 30 is waiting to issue a kana set.
In step S206, the kana server 30 issues a kana set consisting of kana W and Y for the node A, and issues a kana set consisting of the kana X and Z for the node B.

図5に示されたS207〜S213までの処理は図2に示すシーケンス図に詳細に記述された通りである。
ステップS207の回答分割において、仮名が2つであること、クエリで求められている必要データが平均aveと分散varであり、元データの復元方法が総和であることから、ノードA及びBは身長h及び身長hの2乗をそれぞれ総和で復元されるように2つの任意の値に分割する。例えば、身長160cmの場合、身長hを77と83に分割し、身長の2乗である25600を15600と10000に分割する。身長188cmの場合、身長hを90と98に分割し、身長の2乗である35344を−15331と50675に分割する。
The processing from S207 to S213 shown in FIG. 5 is as described in detail in the sequence diagram shown in FIG.
In the answer division of step S207, since there are two pseudonyms, the required data obtained by the query is the average ave h and the variance var h , and the restoration method of the original data is the sum, the nodes A and B Divides height h and the square of height h into two arbitrary values so as to be restored as a sum. For example, when the height is 160 cm, the height h is divided into 77 and 83, and the height squared 25600 is divided into 15600 and 10,000. In the case of a height of 188 cm, the height h is divided into 90 and 98, and 35344, which is the square of the height, is divided into -15331 and 50675.

続いてステップS208の回答送信において、ノードAから送信者をWとする回答と送信者をYとする回答を統計処理サーバ20へ送信し、ノードBから送信者をXとする回答と送信者をZとする回答を統計処理サーバ20へ送信する。このとき、クエリIDがM−1の回答として、送信者Xから、身長hが90であり、身長hの2乗が15331である旨を送信し、送信者Zから、身長hが98であり、身長hの2乗が50675である旨を送信し、送信者Wから、身長hが77であり、身長hの2乗が15600である旨を送信し、送信者Yから、身長hが83であり、身長hの2乗が10000である旨を送信する。ここで、それぞれの仮名を用いて分割されたデータを送信しているが、ここでは身長hと身長hの2乗の分割値を同じパケットで送信している。このように、データの種類が異なれば同一のパケットに含めることが可能である。   Subsequently, in the reply transmission in step S208, the reply having the sender W and the reply having the sender Y are transmitted from the node A to the statistical processing server 20, and the reply having the sender X and the sender are transmitted from the node B. An answer as Z is transmitted to the statistical processing server 20. At this time, as a reply with the query ID M-1, from the sender X, the fact that the height h is 90 and the square of the height h is 15331 is transmitted, and from the sender Z, the height h is 98. , The fact that the height h square is 50675, and the sender W sends a message that the height h is 77 and the height h square is 15600. And the fact that the square of height h is 10,000 is transmitted. Here, the divided data is transmitted using each pseudonym, but here, the divided value of height h and the square of height h is transmitted in the same packet. In this way, different data types can be included in the same packet.

ステップS211の確認済み仮名通知では、今回の総標本数すなわちクエリを配布するノード数Nが2であることが仮名発行時点で仮名サーバ30からはわかっているので、統計処理サーバ20への仮名X、Z、W、Yについての通知(S211)と同時に終了通知と総標本数(S212)を統計処理サーバ20に対して送信する。
最後にステップS213の統計処理で、平均aveと分散varを求める。例えば、平均aveは、(77+90+83+98)/2=174を算出することで、身長160cmと188cmの平均ave174cmを求めることができる。分散varは、(15600−15331+10000+50675)/2−174=196を算出することで、身長160cmと188cmの分散var196を求めることができる。このように、統計処理サーバ20からはノードA、Bの真の値はわからないが、正しく統計処理が行われることが確認された。
In the confirmed kana notification in step S211, since the kana server 30 knows that the current total number of samples, that is, the number of nodes N to which the query is distributed is 2, from the kana server 30, the kana X to the statistical processing server 20 is known. , Z, W, and Y (S211), the end notification and the total number of samples (S212) are transmitted to the statistical processing server 20.
Finally, average ave h and variance var h are obtained by statistical processing in step S213. For example, the average ave h can be obtained by calculating (77 + 90 + 83 + 98) / 2 = 174 to obtain an average ave h of 174 cm and height of 188 cm. The variance var h can be obtained by calculating (15600-15331 + 10000 + 50675) / 2-174 2 = 196, and the variance var h 196 of 160 cm and 188 cm in height can be obtained. As described above, the statistical processing server 20 does not know the true values of the nodes A and B, but it has been confirmed that the statistical processing is correctly performed.

データの処理には複数のサーバ間でやりとりを行うが、本実施形態においては仮名サーバ30と統計処理サーバ20がすべて結託した場合でなければプライバシを含む元のデータが復元されることはなく、これにより仮名サーバ30が信頼のおける機関であればデータを分析する主体は容易に自身でクエリを発行することができるようになる。また回答の有無だけで「クエリ条件に該当する/しない」というプライバシ情報が漏れる場合があるが、回答者を仮名サーバ30によって秘匿することにより回答しなかったことでプライバシ情報が特定されることがなくなる。具体的な例を挙げると、質問クエリを3つ用意し、条件を「20代」、「男性」、「身長170cm以上」と分けたときに、結果が分散されていたとしてもノード10のアドレスは毎回同一なのでクエリ自体によってプライバシを含む情報量が少しずつ増えており、結託を行っていなくても個人が特定されることが従来技術ではあり得る。しかし本実施形態においては、毎回異なる仮名でデータを送信することにより、一回の質問で特定されるような内容でなければ、すなわち回答者が一人になる攻撃と同様の状況にならなければプライバシ情報は洩れることがなく、そのような状況もクエリの発行数管理によって対処可能となっている。   Data processing is performed between a plurality of servers. In this embodiment, the original data including privacy is not restored unless the pseudonym server 30 and the statistical processing server 20 are all collocated. As a result, if the kana server 30 is a reliable organization, the subject analyzing the data can easily issue a query by itself. In addition, privacy information “matching / does not satisfy the query condition” may be leaked only by whether or not there is a response, but privacy information may be specified by not answering by concealing the respondent by the kana server 30. Disappear. As a specific example, when three question queries are prepared and the conditions are divided into “20s”, “male”, and “height of 170 cm or more”, even if the result is distributed, the address of the node 10 Is the same every time, the amount of information including privacy is gradually increased by the query itself, and it is possible in the prior art that an individual can be identified without performing collusion. However, in this embodiment, if data is transmitted with a different pseudonym each time and the content is not specified by a single question, that is, if the situation is not the same as an attack where the respondent is alone, the privacy Information is not leaked, and such a situation can be dealt with by managing the number of issued queries.

さらにその回答者が一人になる攻撃が行われた場合でも、仮名サーバ30のクエリに対する仮名の発行待機を行うことで攻撃を防ぐことが可能となる。   Furthermore, even when an attack is performed in which the respondent is alone, the attack can be prevented by waiting for issuance of a pseudonym for the query of the pseudonym server 30.

仮名サーバ30においてクエリの発行数および回答数を管理し、キュー出しを行うことで十分な回答者数を保証するとともに、分散されたデータのロスに対しても耐性を保つことができる。たとえば、同一のノードに対して発行を行った仮名セット(a,b,c)のうち統計処理サーバ20から問い合わせが(a,c)のみ来た場合であれば、bが得られていないのでこのノードの仮名セットに対しては計算処理を行わないような指示、ないしはbが得られるまでの待機処理を行うことができるようになる。   The pseudonym server 30 manages the number of issued queries and the number of answers and performs queuing to guarantee a sufficient number of respondents, and to maintain resistance against the loss of distributed data. For example, in the case where only a query (a, c) is received from the statistical processing server 20 in the kana set (a, b, c) issued to the same node, b is not obtained. An instruction not to perform calculation processing for the kana set of this node, or standby processing until b is obtained can be performed.

仮名サーバを用いて分散したデータ間のつながりと所有者の情報を秘匿することで、プライバシ情報を秘匿することが可能になり、分析主体や統計処理サーバに対して信頼がない場合でも統計分析が可能となる。また、統計情報の正確性、信頼性という面においても頑健なシステムを構成することができる。   By concealing the connection between the distributed data and the owner's information using the Kana server, it becomes possible to conceal the privacy information, and statistical analysis can be performed even if the analysis subject or the statistical processing server is not reliable. It becomes possible. In addition, a robust system can be configured in terms of accuracy and reliability of statistical information.

(実施形態2)
実施形態1で説明した秘匿統計処理技術では、平均・分散などに代表される統計値を計算することが可能であった。一方で、統計調査では集積されたデータ全体の傾向から得られる知見も存在している。度数分布やそれをグラフ化したヒストグラムは平均や分散のような値からは判別できない特徴を発見したり、最頻値や中央値を求めたりする場合に有効である。また居住している都道府県などのように、平均化することができない・意味を持たないデータに対してもヒストグラムを用いることでその統計的傾向を把握することが可能となる。本実施形態では、このようなデータを匿名化して集積する。
(Embodiment 2)
In the secret statistical processing technique described in the first embodiment, it is possible to calculate statistical values represented by average / variance. On the other hand, in statistical surveys, there are also knowledge that can be obtained from the trend of the total data collected. The frequency distribution and the histogram that graphs it are effective for finding features that cannot be discriminated from values such as average and variance, and for finding the mode and median. It is also possible to grasp the statistical tendency of data that cannot be averaged or has no meaning, such as the prefecture where you live, by using a histogram. In this embodiment, such data is anonymized and accumulated.

システムの機能ブロック図を図1に示す。実施形態1における機能ブロックと構成に違いはなく、個々のプライバシ情報を含んだデータを持つ複数のノード10、クエリ配布サーバ40、仮名サーバ30、統計処理サーバ20からなる。実施形態1と同様に、分割したデータそれぞれに異なる仮名を割り当てる。本実施形態では、度数分布を可能とするために、データは2値の行列式に変換される。統計処理サーバ20は得られた度数分布を元のデータの組に復元し、最頻値や中央値を求める。   A functional block diagram of the system is shown in FIG. There is no difference in configuration from the functional blocks in the first embodiment, and it includes a plurality of nodes 10 having data including individual privacy information, a query distribution server 40, a pseudonym server 30, and a statistical processing server 20. Similar to the first embodiment, a different kana is assigned to each of the divided data. In this embodiment, the data is converted into a binary determinant to enable frequency distribution. The statistical processing server 20 restores the obtained frequency distribution to the original data set, and obtains the mode value and the median value.

本実施形態では、ステップS207において、発行された仮名セットの数に応じて各ノードは自身のデータの値を任意に分割する。ただし統計情報に応じて分割の方法は異なるものとする。度数分布を集計するための分割においては、例えば性別であれば[男,女]を行列として[1,0]ないしは[0,1]の変換を行い、それぞれの要素に乱数を用いて分割する。たとえば[1,0]の行列を、加算によって復元可能な形で、[−2,1]と[3,−1]に分割する。この行列と要素の対応付けはクエリ上で表記することで整合性を取る。   In this embodiment, in step S207, each node arbitrarily divides its own data value according to the number of issued kana sets. However, the division method differs according to the statistical information. In the division for counting the frequency distribution, for example, in the case of gender, [male, female] is used as a matrix and [1,0] or [0,1] is converted, and each element is divided using random numbers. . For example, a matrix of [1, 0] is divided into [−2, 1] and [3, −1] in a form that can be restored by addition. The correspondence between the matrix and the element is represented by a query to ensure consistency.

またステップS208において、それぞれの仮名を用いてノードは統計処理サーバ20にデータを送信する。なお、ノード10は分割したデータを同時に送るのではなく、乱数によって決定される時間(例えば、10分から10時間の一様分布)、待機した後に、統計処理サーバ20に送付してもよい。これらの方法により、分割データ間のマッチングを取ることを一層困難とできる。なお、仮名を用いた場合でもデータの送信プロトコル自体は通常のパケット送信に従えば、ノード10は自身のデータの送信の失敗をACKのレスポンスが返ってこないことから知ることができる。   In step S208, the node transmits data to the statistical processing server 20 using each pseudonym. The node 10 may send the divided data to the statistical processing server 20 after waiting for a time determined by random numbers (for example, a uniform distribution of 10 minutes to 10 hours) instead of sending the divided data at the same time. With these methods, it is possible to make it more difficult to match the divided data. Even when the pseudonym is used, if the data transmission protocol itself follows normal packet transmission, the node 10 can know that the data transmission has failed because the ACK response does not return.

結果を受け取った統計処理サーバ20はすぐに結果を処理せず、送信してきた仮名の情報を仮名サーバ30へ送信する(ステップS209)。これにより各ノード10の分割されたデータがすべて揃う前に統計処理に加えてしまい統計データが正しくない結果になることを防ぐ。   The statistical processing server 20 that has received the result does not immediately process the result, but transmits the transmitted kana information to the kana server 30 (step S209). This prevents the statistical data from being incorrect because it is added to the statistical processing before all the divided data of each node 10 is collected.

仮名情報を統計処理サーバ20から送信された仮名サーバ30はあるノード10に対して発行した仮名の組が揃うまで統計処理サーバ20への応答を待機する。あるノード10のセットが揃ったことが確認されたのちに仮名サーバ30は認証された仮名への肯定応答を統計処理サーバ20へ返す。なお、これは仮名セットを統計処理サーバ20側が一意に特定できないような応答であればよく、十分量の標本セットを統計処理サーバ20が受け取ったのちに統計量に加えるべきでない、不揃いの仮名を仮名サーバ30が応答する形式でもよい。また、送信者に対し対価が存在する場合には、あらかじめ統計処理サーバ20が仮名サーバ30に対価を預け、仮名サーバ30がこの応答待機間に仮名セットが揃ったノード10から順に支払いを済ませる方法が考えられる。   The pseudonym server 30 that has transmitted the pseudonym information from the statistical processing server 20 waits for a response to the statistical processing server 20 until a set of pseudonyms issued to a certain node 10 is prepared. After confirming that a set of a certain node 10 has been prepared, the kana server 30 returns an acknowledgment to the authenticated kana to the statistical processing server 20. Note that this may be a response that the statistical processing server 20 cannot uniquely identify the kana set, and after the statistical processing server 20 receives a sufficient amount of sample sets, it should not add to the statistics. A format in which the kana server 30 responds may be used. Further, when there is consideration for the sender, the statistical processing server 20 deposits the consideration in advance in the kana server 30, and the kana server 30 finishes paying in order from the node 10 in which the kana set is prepared while waiting for this response. Can be considered.

統計処理サーバ20は仮名サーバ30から肯定応答を得た順に統計処理を行う。最終的にクエリ生成時に決定した個数に達した時点で処理を終え、統計データを得る。   The statistical processing server 20 performs statistical processing in the order in which an affirmative response is obtained from the kana server 30. When the number finally determined at the time of generating the query is reached, the process is terminated and statistical data is obtained.

図6、図7を用いて、実際に複数のノードから分割されたデータを受け取ってヒストグラム処理が正しく行われることを説明する。今、男性ノードAと女性ノードBの二人の性別の分布を二人の性別を知ることなく求めることを考える。図6に示されたS201〜S206までの処理は実施形態1と同様である。   The fact that the histogram processing is correctly performed by receiving data actually divided from a plurality of nodes will be described with reference to FIGS. Now, consider obtaining the sex distribution of male node A and female node B without knowing the gender of the two. The processes from S201 to S206 shown in FIG. 6 are the same as those in the first embodiment.

図7のステップS207に示す回答分割において仮名が2つであること、クエリで求められているのが性別の度数分布行列であることからノードA、Bは自身の性別をそれぞれ総和で復元されるように2つの任意の値に分割している。ステップS211に示す確認済み仮名通知では今回の総標本数が2であることが仮名発行時点で仮名サーバ30からはわかっているので同時に終了通知と総標本数を統計処理サーバ20に対して送信している。最後にステップS213に示す統計処理で行列の各要素の総和が求められており、統計処理サーバからはノードA、Bの性別はわからないが正しくその度数分布が求められていることが確認された。   In the answer division shown in step S207 of FIG. 7, since there are two pseudonyms and the frequency distribution matrix of the gender that is obtained by the query, the nodes A and B are restored with their respective genders as sums. In this way, it is divided into two arbitrary values. In the confirmed kana notification shown in step S211, the kana server 30 knows that the current total number of samples is 2 at the time of issuance of the kana, so the end notification and the total number of samples are simultaneously transmitted to the statistical processing server 20. ing. Finally, the sum of each element of the matrix was obtained by the statistical processing shown in step S213, and it was confirmed that the statistical distribution server correctly obtained the frequency distribution although the genders of the nodes A and B were not known.

最頻値は、変数が連続値の場合数値をビンの幅によっていくつかのグループに分類することで求めることができる。中央値も同様にしてどのグループに含まれているかでおおよその値を求められる。離散値であればそれぞれの数値を行列の1要素とすることで正確な最頻値、中央値が求まる。   The mode value can be obtained by classifying numerical values into several groups according to bin width when the variable is a continuous value. In the same way, an approximate value can be obtained depending on which group the median is included in. If it is a discrete value, an accurate mode value and median value can be obtained by making each numerical value one element of the matrix.

また、例えば「各都道府県の男女の平均身長」といったクエリもこれまでの変数の平均とヒストグラムを組み合わせることで実現できる。各都道府県の行列と男女の組を47×2の行列として表現し、ノードが該当する行列要素の部分に身長を入力し、他の要素を0にすることで各個人の情報が表される。このようにヒストグラムの処理が可能になることで先の出願よりもより自由度の高い統計分析ができるようになる。   For example, a query such as “average height of men and women in each prefecture” can be realized by combining the average of variables so far and a histogram. Each individual's information is expressed by expressing the matrix of each prefecture and the pair of men and women as a 47 x 2 matrix, entering the height in the corresponding matrix element part of the node, and setting the other elements to 0 . Since the histogram can be processed in this way, statistical analysis with a higher degree of freedom than the previous application can be performed.

本実施形態によれば、複数の主体が協調することでプライバシを含む個々のデータが復元不可能かつ、そのデータの所有者を匿名化した状態で平均や分散だけでなく、度数分布の計測が可能となる。   According to this embodiment, individual data including privacy cannot be restored by cooperation of a plurality of subjects, and not only the average and variance in the state where the owner of the data is anonymized, but also the measurement of the frequency distribution It becomes possible.

本発明は情報通信産業に適用することができる。   The present invention can be applied to the information communication industry.

10:ノード
11:クエリ処理部
12:データ分割部
13:データ格納部
20:統計処理サーバ
21:クエリ生成部
22:回答回収・処理部
30:仮名サーバ
31:仮名発行部
32:仮名生成・管理部
33:仮名確認部
40:クエリ配布サーバ
41:クエリ格納部
10: Node 11: Query processing unit 12: Data division unit 13: Data storage unit 20: Statistical processing server 21: Query generation unit 22: Answer collection / processing unit 30: Kana server 31: Kana issuer 32: Kana generation / management Unit 33: Kana confirmation unit 40: Query distribution server 41: Query storage unit

Claims (8)

ノードからの仮名発行要求を受けて当該ノードに複数の仮名からなる仮名セットを発行し、統計処理サーバから仮名の通知を受けると、通知を受けた仮名が仮名セットに含まれるか否かを確認し、仮名セットのすべての仮名が通知済みの場合に仮名が確認済みである旨を前記統計処理サーバに通知する仮名サーバと、
前記仮名サーバの発行した仮名を送信元とするデータを蓄積し、蓄積した仮名を前記仮名サーバに通知し、前記確認済みである旨の通知を受けると、蓄積したデータのうちの確認済みの仮名を送信元とするデータを用いて統計処理を行う統計処理サーバと、
を備える情報流通システム。
In response to a kana issue request from a node, a kana set consisting of multiple kana is issued to the node, and when a kana notification is received from the statistical processing server, it is confirmed whether or not the kana received is included in the kana set. A kana server for notifying the statistical processing server that kana has been confirmed when all kana in the kana set has been notified;
Accumulating data whose source is the pseudonym issued by the pseudonym server, notifying the pseudonym server of the stored pseudonym, and receiving confirmation that the confirmation has been made, confirming the pseudonym of the accumulated data A statistical processing server that performs statistical processing using data with
An information distribution system comprising
前記統計処理サーバは、前記ノードのもつ元データを復元する演算処理を決定し、当該演算処理によって復元可能なデータを要求するクエリを生成し、蓄積したデータに当該演算処理を施すことで前記ノードのもつ元データを復元することを特徴とする請求項1に記載の情報流通システム。   The statistical processing server determines a calculation process for restoring the original data of the node, generates a query for requesting data that can be restored by the calculation process, and applies the calculation process to the accumulated data 2. The information distribution system according to claim 1, wherein the original data of the data is restored. 前記仮名サーバは、仮名セットのすべての仮名が通知済みとなっていない仮名を通知することで、前記確認済みである旨を前記統計処理サーバに通知することを特徴とする請求項1又は2に記載の情報流通システム。   The said kana server notifies the said statistical processing server to the said statistical processing server by notifying that the kana which all kana of the kana set has not been notified has been notified to the said statistical processing server, The Claim 1 or 2 characterized by the above-mentioned. The information distribution system described. 前記仮名サーバは、仮名発行要求のあったノードの数が予め定められた数に達するまで仮名セットを発行せず、仮名発行要求のあったノードの数が予め定められた数に達すると仮名セットを発行することを特徴とする請求項1から3のいずれかに記載の情報流通システム。   The kana server does not issue a kana set until the number of nodes having a kana issue request reaches a predetermined number, and when the number of nodes having a kana issue request reaches a predetermined number, the kana set The information distribution system according to any one of claims 1 to 3, wherein the information distribution system is issued. 仮名サーバが、ノードからの仮名発行要求を受けて当該ノードに複数の仮名からなる仮名セットを発行する仮名発行手順と、
統計処理サーバが、仮名を送信元とするデータを取得すると、仮名及びデータの組を蓄積し、蓄積した仮名を仮名サーバに通知し、仮名サーバから当該仮名が確認済みである旨の通知を受けると、蓄積したデータのうちの確認済みの仮名を送信元とするデータを用いて統計処理を行う統計処理手順と、
を順に有する情報流通方法。
A kana server that receives a kana issue request from a node and issues a kana set consisting of a plurality of kana to the node;
When the statistical processing server obtains the data having the kana as the transmission source, the kana and the data pair are accumulated, the kana is notified to the kana server, and the kana server is notified that the kana has been confirmed. And a statistical processing procedure for performing statistical processing using data having a confirmed pseudonym of the accumulated data as a transmission source,
The information distribution method which has in order.
前記仮名発行手順において、統計処理サーバは、前記ノードのもつ元データを復元する演算処理を決定し、当該演算処理によって復元可能なデータを要求するクエリを生成し、
前記統計処理手順において、統計処理サーバは、蓄積したデータに前記演算処理を施すことで前記ノードのもつ元データを復元することを特徴とする請求項5に記載の情報流通方法。
In the pseudonym issuing procedure, the statistical processing server determines a calculation process for restoring the original data of the node, generates a query for requesting data that can be restored by the calculation process,
6. The information distribution method according to claim 5, wherein in the statistical processing procedure, the statistical processing server restores the original data of the node by performing the arithmetic processing on the accumulated data.
前記統計処理手順において、仮名サーバは、仮名セットのすべての仮名が通知済みとなっていない仮名を通知することで、前記確認済みである旨を統計処理サーバに通知することを特徴とする請求項5又は6に記載の情報流通方法。   In the statistical processing procedure, the kana server notifies the statistical processing server that the kana has been confirmed by notifying all the kana not yet notified of all kana in the kana set. 5. The information distribution method according to 5 or 6. 前記仮名発行手順において、仮名サーバは、仮名発行要求のあったノードの数が予め定められた数に達するまで仮名セットを発行せず、仮名発行要求のあったノードの数が予め定められた数に達すると仮名セットを発行する
ことを特徴とする請求項5から7のいずれかに記載の情報流通方法。
In the kana issue procedure, the kana server does not issue the kana set until the number of nodes having a kana issue request reaches a predetermined number, and the number of nodes having a kana issue request is a predetermined number. The information distribution method according to any one of claims 5 to 7, wherein a kana set is issued when the value reaches.
JP2013014395A 2012-02-08 2013-01-29 Information distribution system and information distribution method Expired - Fee Related JP5835745B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013014395A JP5835745B2 (en) 2012-02-08 2013-01-29 Information distribution system and information distribution method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012025148 2012-02-08
JP2012025148 2012-02-08
JP2013014395A JP5835745B2 (en) 2012-02-08 2013-01-29 Information distribution system and information distribution method

Publications (2)

Publication Number Publication Date
JP2013178756A JP2013178756A (en) 2013-09-09
JP5835745B2 true JP5835745B2 (en) 2015-12-24

Family

ID=49270297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013014395A Expired - Fee Related JP5835745B2 (en) 2012-02-08 2013-01-29 Information distribution system and information distribution method

Country Status (1)

Country Link
JP (1) JP5835745B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6098087B2 (en) * 2012-09-21 2017-03-22 富士通株式会社 Analysis method, analysis apparatus, and analysis program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844717B2 (en) * 2003-07-18 2010-11-30 Herz Frederick S M Use of proxy servers and pseudonymous transactions to maintain individual's privacy in the competitive business of maintaining personal history databases
JP4429619B2 (en) * 2003-04-15 2010-03-10 三菱電機株式会社 Information provision device

Also Published As

Publication number Publication date
JP2013178756A (en) 2013-09-09

Similar Documents

Publication Publication Date Title
US11128603B2 (en) Method and system for providing a transaction forwarding service in blockchain implementations
US20210143987A1 (en) Privacy-preserving federated learning
Viejo et al. Using social networks to distort users’ profiles generated by web search engines
WO2015059918A1 (en) Data secrecy statistical processing system, server device for presenting statistical processing result, data input device, and program and method therefor
US20130185806A1 (en) Personal-information transmission/reception system, personal-information transmission/reception method, personal-information provision apparatus, preference management apparatus and computer program
WO2020248658A1 (en) Abnormal account detection method and apparatus
JP5008633B2 (en) Privacy infringement monitoring apparatus, privacy infringement monitoring method and program
CN108377247B (en) Message pushing method and device
US8977758B2 (en) Service bus system, service bus device, and method for assuring connection uniqueness
Zhang et al. Survey of trust management on various networks
WO2008097074A1 (en) Method and system for restricting access to an electronic message system
CN107995013B (en) Customer service distribution method and device
Chang et al. Protecting mobile crowd sensing against sybil attacks using cloud based trust management system
CN101815294A (en) Access authentication method, equipment and system of P2P (peer-to-peer) network
JP4417132B2 (en) Privacy information management server, method and program
Essaid et al. Network usage of bitcoin full node
Dimitriou et al. SuperTrust: a secure and efficient framework for handling trust in super-peer networks
CN106534239A (en) Method and device for acquiring perception data
Masdari Markov chain-based evaluation of the certificate status validations in hybrid MANETs
JP5835745B2 (en) Information distribution system and information distribution method
Qureshi et al. Countering the collusion attack with a multidimensional decentralized trust and reputation model in disconnected MANETs
KR20220140759A (en) Processing of machine learning modeling data to improve classification accuracy
Benkaouz et al. A distributed protocol for privacy preserving aggregation with non-permanent participants
JP5895080B2 (en) Data confidential statistical processing system, statistical processing result providing server device and data input device, and program and method therefor
CN111062820A (en) Method and device for processing claim settlement service, block chain node and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151027

R150 Certificate of patent or registration of utility model

Ref document number: 5835745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees