JP2017126112A - Server, distributed server system, and information processing method - Google Patents

Server, distributed server system, and information processing method Download PDF

Info

Publication number
JP2017126112A
JP2017126112A JP2016003417A JP2016003417A JP2017126112A JP 2017126112 A JP2017126112 A JP 2017126112A JP 2016003417 A JP2016003417 A JP 2016003417A JP 2016003417 A JP2016003417 A JP 2016003417A JP 2017126112 A JP2017126112 A JP 2017126112A
Authority
JP
Japan
Prior art keywords
data
difference
user
existing
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016003417A
Other languages
Japanese (ja)
Inventor
勇児 糟谷
Yuji Kasuya
勇児 糟谷
杉本 裕介
Yusuke Sugimoto
裕介 杉本
拓哉 水原
Takuya Mizuhara
拓哉 水原
一寛 大場
Kazuhiro Oba
一寛 大場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016003417A priority Critical patent/JP2017126112A/en
Publication of JP2017126112A publication Critical patent/JP2017126112A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To protect personal information, while collecting information to be used in statistic/machine learning.SOLUTION: A server includes: an existing data storage unit 21 which stores data on an existing user; a data acquisition unit 22 which acquires data on a user different from the existing user; a difference calculation unit 23 which calculates difference data between the data on the existing user stored in the existing data storage unit 21 and the data on another user acquired by the data acquisition unit 22; a difference data storage unit 24 which stores the difference data calculated by the difference calculation unit 23; and a statistic unit 25 which collects statistics on users by use of the existing-user data and the difference data.SELECTED DRAWING: Figure 3

Description

本発明は、サーバ、分散型サーバシステム、及び情報処理方法に関する。   The present invention relates to a server, a distributed server system, and an information processing method.

従来から、顧客の個人情報を統計・機械学習に使用する際、顧客に個人情報を使用するための同意を求めるシステムが既に知られている。他方で、いくら同意を得るといっても個人情報を提供することに抵抗感を持つユーザは少なくない。   Conventionally, when a customer's personal information is used for statistics and machine learning, a system that asks the customer for consent to use the personal information is already known. On the other hand, there are many users who are reluctant to provide personal information, no matter how much consent is obtained.

他方、例えば特許文献1には、プライバシー保護協調フィルタリングの技術を用いて、利用者の提供する各アイテムに対する評価値を暗号化することや、提供する各アイテムに対する評価値に、乱数を付与して、元の評価値を求めることを困難にすることで、使用する側に個人情報を直接渡さないようにすることが開示されている。   On the other hand, for example, Patent Document 1 uses a privacy protection collaborative filtering technique to encrypt an evaluation value for each item provided by the user, or to assign a random number to the evaluation value for each item provided. It is disclosed that it is difficult to obtain the original evaluation value so that personal information is not directly passed to the user.

しかし、例えば特許文献1のような従来技術における特定の手法に特化したデータでは、一般的な統計・機械学習に使用するデータを収集できない。   However, for example, data specialized for a specific method in the prior art such as Patent Document 1 cannot collect data used for general statistical / machine learning.

本発明は、上述した実情に鑑みてなされたものであって、統計・機械学習において利用可能な情報を収集しつつ個人情報を保護することを目的とする。   The present invention has been made in view of the above-described circumstances, and an object thereof is to protect personal information while collecting information that can be used in statistics and machine learning.

上述した課題を解決するため、本発明のサーバは、既存のユーザに関するデータを記憶する既存データ記憶手段と、既存のユーザとは別のユーザに関するデータを取得するデータ取得手段と、既存データ記憶手段に記憶されている既存のユーザに関するデータと、データ取得手段により取得された別のユーザに関するデータとの差分データを算出する差分算出手段と、差分算出手段により算出された差分データを記憶する差分データ記憶手段と、既存のユーザに関するデータと差分データを用いてユーザに関するデータの統計をとる統計手段と、を備えることを特徴とする。   In order to solve the above-described problems, the server of the present invention includes an existing data storage unit that stores data related to an existing user, a data acquisition unit that acquires data related to a user different from the existing user, and an existing data storage unit. Difference calculation means for calculating difference data between data relating to an existing user stored in the data and data relating to another user acquired by the data acquisition means, and difference data for storing difference data calculated by the difference calculation means Storage means, and statistical means for collecting statistics on user data using data and difference data on existing users are provided.

本発明によれば、統計・機械学習において利用可能な情報を収集しつつ個人情報を保護することができる。   According to the present invention, personal information can be protected while collecting information that can be used in statistics and machine learning.

本発明の実施形態におけるサーバを含むシステムの概略構成図である。It is a schematic block diagram of the system containing the server in embodiment of this invention. 本発明の実施形態におけるサーバのハードウェア構成図である。It is a hardware block diagram of the server in embodiment of this invention. 本発明の実施形態におけるサーバの機能ブロック図である。It is a functional block diagram of a server in an embodiment of the present invention. 本発明の実施形態における処理例を示すイメージ図である。It is an image figure which shows the process example in embodiment of this invention. 本発明の実施形態における処理手順を示すフローチャートである。It is a flowchart which shows the process sequence in embodiment of this invention. 本発明の実施形態における分散型サーバシステムの機能ブロック図である。It is a functional block diagram of a distributed server system in an embodiment of the present invention. 本発明の実施形態における分散型サーバシステムの機能ブロック図である。It is a functional block diagram of a distributed server system in an embodiment of the present invention. 本発明の実施形態における分散型サーバシステムの機能ブロック図である。It is a functional block diagram of a distributed server system in an embodiment of the present invention. 本発明の実施形態における分散型サーバシステムの機能ブロック図である。It is a functional block diagram of a distributed server system in an embodiment of the present invention.

本発明の実施形態のサーバ、分散型サーバシステムについて図面を用いて以下説明する。なお、各図中、同一又は相当する部分には同一の符号を付しており、その重複説明は適宜に簡略化乃至省略する。また、以下に記載する実施形態は本発明の最良の形態であって、本発明に係る特許請求の範囲を限定するものではない。   A server and a distributed server system according to an embodiment of the present invention will be described below with reference to the drawings. In addition, in each figure, the same code | symbol is attached | subjected to the part which is the same or it corresponds, The duplication description is simplified thru | or abbreviate | omitted suitably. The embodiment described below is the best mode of the present invention, and does not limit the scope of the claims according to the present invention.

なお、本実施形態においては、「サーバ」は、所謂クライアントサーバシステムにおいて、クライアントに何らかのサービスを提供するためのプログラムを指すものである。他方、「サーバ」には、そのプログラムに従って動作する情報処理装置の意も含まれることは言うまでもない。   In the present embodiment, the “server” refers to a program for providing some service to a client in a so-called client server system. On the other hand, it goes without saying that the “server” includes the meaning of an information processing apparatus that operates according to the program.

<本実施形態におけるサーバを含むシステムの概略構成について>
本実施形態におけるサーバを含むシステムの概略構成について図1を参照して説明する。本実施形態におけるシステム1は、サーバ10とクライアント20とがネットワーク30を介して接続されて構成されている。なお、図1では、サーバ10及びクライアント20は1台であるが、複数のサーバ、複数のクライアントがネットワークを介して接続された構成であってもよい。
<About the schematic configuration of a system including a server in this embodiment>
A schematic configuration of a system including a server in the present embodiment will be described with reference to FIG. The system 1 in this embodiment is configured by connecting a server 10 and a client 20 via a network 30. In FIG. 1, the server 10 and the client 20 are one, but a configuration in which a plurality of servers and a plurality of clients are connected via a network may be used.

サーバ10の機能は、パーソナルコンピュータ(以下「PC」という。)等の情報処理装置、情報処理機能を有するストレージやハードディスクが担うことになる。また、サーバ機能を実現する処理能力を有するのであれば、PC等に限定されない。   The server 10 functions as an information processing apparatus such as a personal computer (hereinafter referred to as “PC”), a storage or a hard disk having an information processing function. Moreover, as long as it has the processing capability which implement | achieves a server function, it is not limited to PC etc.

クライアント20は、サーバ10を利用するユーザが使用するPC等の情報処理装置、スマートフォンやタブレット等の携帯情報端末に相当する。   The client 20 corresponds to an information processing apparatus such as a PC used by a user who uses the server 10 and a portable information terminal such as a smartphone or a tablet.

ネットワーク30の通信形態としては、LAN(Local Area Network)でもWAN(Wide Area Network)でもよい。また、ネットワーク30は、無線通信ネットワークを利用したものでも、有線通信ネットワークを利用したものであってもよい。   The communication form of the network 30 may be a LAN (Local Area Network) or a WAN (Wide Area Network). The network 30 may be a wireless communication network or a wired communication network.

<本実施形態におけるサーバのハードウェア構成について>
本実施形態におけるサーバ10のハードウェア構成について図2を参照して説明する。本実施形態におけるサーバ10は、ハードウェア構成として、CPU11と、RAM12と、ROM13と、NW I/F14と、HDD15と、入力部16と、出力部17を備えている。なお、これらは、サーバ10が後述する機能(処理)を実行するための構成の一例を示したものであり、これら以外のハードウェアを排除するものではない。
<About the hardware configuration of the server in this embodiment>
The hardware configuration of the server 10 in this embodiment will be described with reference to FIG. The server 10 in the present embodiment includes a CPU 11, a RAM 12, a ROM 13, an NW I / F 14, an HDD 15, an input unit 16, and an output unit 17 as hardware configurations. Note that these are examples of configurations for the server 10 to execute functions (processes) described later, and hardware other than these is not excluded.

CPU11は、サーバ10における後述する各処理を実現するためのメイン制御部である。CPU11は、ROM13に格納された各処理を規定する処理プログラムがRAM12に読み込まれたものを実行することで、サーバ10における各機能を実現する。   The CPU 11 is a main control unit for realizing each process to be described later in the server 10. The CPU 11 implements each function in the server 10 by executing a program in which a processing program defining each processing stored in the ROM 13 is read into the RAM 12.

RAM12は、上記のようにCPU11のワークメモリとして機能する記憶部である。ROM13は、上記のように各処理を規定した処理プログラムやその他サーバ10の制御に要する各種パラメータ等を記憶する記憶部である。   The RAM 12 is a storage unit that functions as a work memory of the CPU 11 as described above. The ROM 13 is a storage unit that stores a processing program that defines each process as described above, various parameters required for control of the server 10, and the like.

NW I/F14は、図1に示したネットワーク30を介してサーバ10とクライアント20とが相互に接続するためのネットワークインタフェースである。HDD15は、例えばクライアント20から取得したデータ等を記憶する大容量記憶部である。   The NW I / F 14 is a network interface for connecting the server 10 and the client 20 to each other via the network 30 shown in FIG. The HDD 15 is a large-capacity storage unit that stores, for example, data acquired from the client 20.

入力部16は、例えばキーボードやマウス等の入力デバイスである。また、後述する表示部に重畳されたタッチパネルのようにユーザのタッチ操作を受け付けるデバイスであってもよい。さらに、入力部16には、映像を撮影することで画像を取得するカメラや、音声入力を受け付けるマイクが含まれてもよい。   The input unit 16 is an input device such as a keyboard or a mouse. Moreover, the device which receives a user's touch operation like the touch panel superimposed on the display part mentioned later may be sufficient. Furthermore, the input unit 16 may include a camera that acquires an image by capturing a video and a microphone that receives audio input.

出力部17は、例えばディスプレイ等の表示部である。また、出力部17には、音声を出力するスピーカが含まれてもよい。   The output unit 17 is a display unit such as a display. The output unit 17 may include a speaker that outputs sound.

<本発明の実施形態におけるサーバの機能ブロックについて>
本発明の実施形態におけるサーバ10の機能ブロックについて図3を参照して説明する。本実施形態におけるサーバ10は、機能ブロックとして、既存データ記憶部21、データ取得部22、差分算出部23、差分データ記憶部24、統計部25、表示部26を含み構成される。
<Regarding Server Functional Blocks in the Embodiment of the Present Invention>
Functional blocks of the server 10 in the embodiment of the present invention will be described with reference to FIG. The server 10 in the present embodiment includes an existing data storage unit 21, a data acquisition unit 22, a difference calculation unit 23, a difference data storage unit 24, a statistics unit 25, and a display unit 26 as functional blocks.

既存データ記憶部21は、既存のユーザに関するデータを記憶する既存データ記憶手段であり、図2に示したCPU11、ROM13、HDD15によりその機能が実現される。「ユーザに関するデータ」としては、本実施形態ではユーザの氏名、年齢、身長、体重、血圧、病歴等の主に医療の現場で患者から提供される個人情報(以下「患者データ」という。)を例として説明する。他方、ユーザに関するデータはこの例に限定されない。また、「既存の」とは、HDD15等の記憶装置に既に記憶されていることを意味する。   The existing data storage unit 21 is an existing data storage unit that stores data relating to an existing user, and the function is realized by the CPU 11, the ROM 13, and the HDD 15 shown in FIG. In this embodiment, the “data related to the user” is personal information (hereinafter referred to as “patient data”) provided by the patient mainly in the medical field such as the user's name, age, height, weight, blood pressure, medical history, and the like. This will be described as an example. On the other hand, the data regarding the user is not limited to this example. Further, “existing” means that it is already stored in a storage device such as the HDD 15.

データ取得部22は、既存のユーザとは別のユーザに関するデータを取得するデータ取得手段であり、図2に示したCPU11、RAM12、NW I/F14によりその機能が実現される。取得する別のユーザに関するデータも上記の患者データであるが、例えば既存データ記憶部21に記憶されていない、既存のユーザと異なるユーザから取得するデータ等である。なお、患者データ等を必ずしもネットワークを介さずともよい。例えば、図2に示した入力部16を介してユーザから取得するようにしてもよい。また、外部記憶媒体に記憶されたデータを読み込むことで取得するようにしてもよい。   The data acquisition unit 22 is a data acquisition unit that acquires data related to a user other than the existing user, and the function is realized by the CPU 11, the RAM 12, and the NW I / F 14 illustrated in FIG. Although the data regarding another user to acquire is also said patient data, it is the data etc. which are not memorize | stored in the existing data storage part 21, for example, are acquired from the user different from the existing user. Note that patient data or the like does not necessarily have to go through a network. For example, you may make it acquire from a user via the input part 16 shown in FIG. Further, it may be acquired by reading data stored in an external storage medium.

差分算出部23は、既存データ記憶部21に記憶されている既存のユーザに関するデータと、データ取得部22により取得された別のユーザに関するデータとの差分データを算出する差分算出手段である。差分算出部23は、図2に示したCPU11、RAM12によりその機能が実現される。   The difference calculation unit 23 is a difference calculation unit that calculates difference data between data related to an existing user stored in the existing data storage unit 21 and data related to another user acquired by the data acquisition unit 22. The function of the difference calculation unit 23 is realized by the CPU 11 and the RAM 12 illustrated in FIG.

本実施形態においては、差分算出部23は、既存データ記憶部21に記憶されている複数の既存のユーザに関するデータの平均値と、上記の取得された別のユーザに関するデータとの差分データを算出する。例えば、取得された別のユーザに関するデータにおけるユーザと同年代のユーザの平均値との差分データでも、取得された別のユーザに関するデータにおけるユーザと同身長又は同体重のユーザの平均値との差分データでもよい。   In the present embodiment, the difference calculation unit 23 calculates difference data between the average value of data related to a plurality of existing users stored in the existing data storage unit 21 and the data related to the acquired other users. To do. For example, even in the difference data between the average value of the user of the same age and the user in the data regarding the acquired another user, the difference data between the average value of the user having the same height or the same weight in the data regarding the acquired another user But you can.

差分データ記憶部24は、差分算出部23により算出された差分データを記憶する差分データ記憶手段であり、図2に示したCPU11、ROM13、HDD15によりその機能が実現される。また、差分データ記憶部24は、既存のユーザに関するデータとの差分が所定の閾値より大きい差分データを記憶してもよい。   The difference data storage unit 24 is a difference data storage unit that stores the difference data calculated by the difference calculation unit 23, and its function is realized by the CPU 11, the ROM 13, and the HDD 15 shown in FIG. Further, the difference data storage unit 24 may store difference data in which a difference from data relating to an existing user is greater than a predetermined threshold.

また、差分データ記憶部24は、全ての項目の差分データを記憶しない場合は次のうち必要な差分データのみを選択すればよい。例えば、[1]差の絶対値が大きい項目、[2][1]を、差分をとった集団の標準偏差で割った値の大きい項目、[3][2]に、これまでの学習結果から導かれた寄与率などの重要度に関する値を乗算してそれが大きい項目のうち、上位の数項目を選択すればよい。[2]のように、差分をとった集団の標準偏差で割ることにより、数値のもともとのレンジが広くても狭くても同等に扱うことができる。また、[3]のように、寄与率を乗算することにより、機械学習上重要な項目を選択して情報を入手することができる。   Moreover, the difference data memory | storage part 24 should just select only the required difference data among the following, when not memorize | storing the difference data of all the items. For example, [1] an item with a large absolute value of difference, [2] [1] is an item with a large value obtained by dividing the difference by the standard deviation of the group, and [3] [2] It is only necessary to select a higher number of items among items having a large value by multiplying a value related to importance such as a contribution rate derived from. As in [2], by dividing the difference by the standard deviation of the group, it can be handled equally whether the original range of the numerical value is wide or narrow. Further, as in [3], by multiplying the contribution rate, it is possible to obtain information by selecting an item important for machine learning.

また、差分データ記憶部24は、最も差が大きい項目として例えばN項目に絞って差分を記憶するようにしてもよい。ここでは、差の大きさを比較するために例えばマハラノビスの距離やノルムの定義から求められる距離等を用いてもよい。Nをあらかじめ決めず、差が一定以上の項目に絞って差分を残すようにしてもよい。距離を定義するパターン認識手法により、より距離が大きくなる項目のみを残すことができる。   Further, the difference data storage unit 24 may store the difference by narrowing down to N items, for example, as items having the largest difference. Here, in order to compare the magnitude of the difference, for example, a Mahalanobis distance, a distance obtained from the definition of the norm, or the like may be used. N may not be determined in advance, and the difference may be left by narrowing down to items having a certain difference or more. With the pattern recognition method that defines the distance, only items with a larger distance can be left.

さらに、差分データ記憶部24は、近いかどうかの判断に標準偏差の数%を閾値として、類似の値を持つ項目がいくつあるか否かにより差分データを選択してもよい。また、差分データ記憶部24は、統計・機械学習における寄与率の高い項目、又は寄与率に標準偏差を加味した差を乗じたものを記憶してもよい。これにより、距離を定義するパターン認識手法において、珍しいデータを持つユーザのみを取ることができる。   Further, the difference data storage unit 24 may select difference data depending on how many items have similar values with a threshold of several percent of the standard deviation in determining whether they are close. Further, the difference data storage unit 24 may store an item with a high contribution rate in statistics and machine learning, or a product obtained by multiplying a contribution rate by adding a standard deviation to the contribution rate. Thereby, only the user with unusual data can be taken in the pattern recognition method which defines distance.

さらに、差分データ記憶部24は、特定の項目の差分ではなく、各項目について主成分分析した成分の差分としてもよい。この際、寄与率の高い成分としてN項目に絞って差分を残してもよい。さらにランダムノイズを加えてもよい。元のデータと大きく違うデータに変換して取得することにより、データが納得されやすくなり、主成分分析において重要度が下の方の項目まで取得することができる。   Furthermore, the difference data storage unit 24 may use not the difference between specific items but the difference between components obtained by principal component analysis for each item. At this time, the difference may be left as N components as components having a high contribution rate. Further, random noise may be added. By converting the data into data that is significantly different from the original data and acquiring the data, it becomes easier to convince the data, and it is possible to acquire items with lower importance in the principal component analysis.

統計部25は、既存のユーザに関するデータと差分データを用いてユーザに関するデータの統計をとる統計手段であり、図2に示したCPU11、RAM12、ROM13、HDD15によりその機能が実現される。統計部25は、ユーザに関するデータの統計をとる際、差分データ記憶部24に記憶された差分データのうち必要な部分のみを用いる。これにより、サーバ10に係る処理負荷を軽減することが可能になる。   The statistical unit 25 is a statistical unit that collects statistics on the data on the user using the existing data on the user and the difference data, and the function is realized by the CPU 11, the RAM 12, the ROM 13, and the HDD 15 shown in FIG. The statistics unit 25 uses only necessary portions of the difference data stored in the difference data storage unit 24 when collecting statistics on data related to the user. Thereby, the processing load concerning the server 10 can be reduced.

統計部25による「統計」処理には、まず、既存のユーザに関するデータと差分データを用いた平均値の計算処理がある。本実施形態では、既存のデータの参照回数に項目の値を乗じた値に差分データの値を加算したものを使用する。   The “statistics” process by the statistics unit 25 includes an average value calculation process using data relating to an existing user and difference data. In the present embodiment, a value obtained by adding the value of the difference data to the value obtained by multiplying the existing data reference count by the item value is used.

統計部25による「統計」処理には、分散の計算処理があり、これにより計算を所望する項目だけについて差分データを元に元データを復元する。より詳細には、差分と平均値を加算することで元データを復元する。また、統計部25による「クロス集計」処理においては、クロスで集計したい複数の項目について差分データを元に元データを復元する。また、統計部25による「特徴量計算」処理においては、特徴量を一つずつ計算後復元した元データは破棄される。これらの処理により、元データを最小限に復元しての統計処理、学習処理が可能となる。   The “statistics” process by the statistical unit 25 includes a variance calculation process, whereby the original data is restored based on the difference data for only the item desired to be calculated. More specifically, the original data is restored by adding the difference and the average value. Further, in the “cross tabulation” processing by the statistics unit 25, the original data is restored based on the difference data for a plurality of items to be tabulated. Further, in the “feature amount calculation” process by the statistical unit 25, the original data restored after calculating the feature amounts one by one is discarded. With these processes, it is possible to perform statistical processing and learning processing by restoring the original data to the minimum.

表示部26は、差分データ記憶部24に、差分算出部23により算出された差分データを記憶する際、該差分データの記憶についてユーザの許可を得るための許可確認画面を表示する表示手段である。例えば、ある会員組織からユーザが退会する場合に、差分データの全てを記憶してもよいか同意を求め、拒否された場合に本画面を表示する等の利用形態がある。なお、表示部26は、その他、サーバ10によって処理された処理結果を表示することができることは言うまでもない。   When the difference data calculated by the difference calculation unit 23 is stored in the difference data storage unit 24, the display unit 26 is a display unit that displays a permission confirmation screen for obtaining user permission for the storage of the difference data. . For example, when a user withdraws from a certain member organization, there is a usage form such as asking for consent to store all of the difference data, and displaying this screen when rejected. In addition, it cannot be overemphasized that the display part 26 can display the process result processed by the server 10 other than that.

<本実施形態における処理例について>
本実施形態における処理例について図4を参照して説明する。ここでは、既存のデータ群101として「ID:1、名前:田中一郎、身長:180、体重:75、年齢:38、血圧:130、病気:なし」、「ID:2、名前:鈴木次郎、身長:174、体重:65、年齢:55、血圧:145、病気:糖尿病」、「ID:1001、名前:40代高身長、身長:175、体重:65、年齢:45、血圧:128、病気:なし」を例として表示している。
<Example of processing in this embodiment>
A processing example in the present embodiment will be described with reference to FIG. Here, as the existing data group 101, “ID: 1, name: Ichiro Tanaka, height: 180, weight: 75, age: 38, blood pressure: 130, disease: none”, “ID: 2, name: Jiro Suzuki, Height: 174, Weight: 65, Age: 55, Blood pressure: 145, Disease: Diabetes, "ID: 1001, Name: 40's tall, Height: 175, Weight: 65, Age: 45, Blood pressure: 128, Disease : None "is displayed as an example.

また、取得した別のユーザに関するデータ201として「名前:佐藤三郎、身長:173、体重:55、年齢:49、血圧:130、病気:なし」を表示している。   Further, “name: Saburo Sato, height: 173, weight: 55, age: 49, blood pressure: 130, illness: none” is displayed as the data 201 relating to another acquired user.

さらに、別のユーザに関するデータ201と、既存のデータ群101におけるID:1001で示される既存のデータとの差分データ301として「名前:×××、身長:−2、体重:−10、年齢:+4、血圧:+2、病気:なし」を表示している。   Further, the difference data 301 between the data 201 relating to another user and the existing data indicated by ID: 1001 in the existing data group 101 is “name: xxx, height: −2, weight: −10, age: +4, blood pressure: +2, disease: none ”is displayed.

さらに、許可確認画面401として「あなたは40代高身長平均データと比較して、体重が−10、年齢が+4という数値になっています。この差分をデータとして提供してもらえませんか?」という確認メッセージが表示された画面を表示している。このように、ユーザの情報としては差分を記憶し、その差分を記憶する場合に、そのユーザに許可を求めるため、統計・機械学習において利用可能な情報を収集しつつ個人情報を保護することができる。   Furthermore, the permission confirmation screen 401 shows that “Your weight is −10 and age is +4 compared to the average height information in your 40s. Can you provide this difference as data?” A screen with a confirmation message is displayed. As described above, the user information is stored as a difference, and when the difference is stored, the user information is required to be collected, so that the personal information can be protected while collecting information usable in statistics and machine learning. it can.

Figure 2017126112
Figure 2017126112

表1は、既存データ記憶部21に記憶される既存データベースの例を示したもので、図4に示した既存のデータ群101に含まれるデータに対応している。つまり、表1には、IDがx1である田中一郎のデータと、IDがx2である鈴木次郎のデータが示されている。加えて、各データの参照回数を記憶する。データベースに参照回数を入れることで、平均値の計算を、元データの復元を行わずに実施することができる。   Table 1 shows an example of an existing database stored in the existing data storage unit 21, and corresponds to data included in the existing data group 101 shown in FIG. That is, Table 1 shows data of Ichiro Tanaka with ID x1, and data of Jiro Suzuki with ID x2. In addition, the reference count of each data is stored. By putting the number of references in the database, the average value can be calculated without restoring the original data.

Figure 2017126112
Figure 2017126112

表2は、差分データ記憶部24に記憶される差分データベースの例を示したものである。この差分データベースには、「ID:y1、参照ID:x2、身長:+5、体重+10、年齢+4、血圧−、病気:なし」、「ID:y2、参照ID:x2、身長:+10、体重−10、−、血圧+10、病気:なし」が示されている。ここでは、2つの別のユーザに関するデータについて、既存データベースにおける鈴木次郎のデータとの差分を示している。   Table 2 shows an example of the difference database stored in the difference data storage unit 24. The difference database includes “ID: y1, reference ID: x2, height: +5, weight +10, age +4, blood pressure −, illness: none”, “ID: y2, reference ID: x2, height: +10, weight − 10,-, blood pressure +10, illness: none ". Here, the difference between the data relating to two different users and the data of Jiro Suzuki in the existing database is shown.

<本実施形態における処理手順について>
本実施形態における処理手順について図5を参照して説明する。まず、差分データの算出・記憶に係る処理手順を図5(a)を参照して説明する。前提として、既存データ記憶部21には、既存データとして、これまでにユーザから取得した個人情報等のデータが記憶されているものとする。
<About the processing procedure in this embodiment>
A processing procedure in the present embodiment will be described with reference to FIG. First, a processing procedure related to calculation / storage of difference data will be described with reference to FIG. As a premise, it is assumed that data such as personal information acquired from the user so far is stored in the existing data storage unit 21 as existing data.

まず、データ取得部22が別のユーザに関するデータを取得する(ステップS1)。次に、差分算出部23は、既存データ記憶部21に記憶されている既存のユーザに関するデータから別のユーザに関するデータとデータが近似するものを探索する(ステップS2)。   First, the data acquisition unit 22 acquires data related to another user (step S1). Next, the difference calculation unit 23 searches for data similar to data related to another user from data related to an existing user stored in the existing data storage unit 21 (step S2).

差分算出部23は、探索した既存のユーザに関するデータと別のユーザに関するデータとの差分データを算出する(ステップS3)。差分データ記憶部24は、算出された差分データのうち、必要な差分のみを選択する(ステップS4)。   The difference calculating unit 23 calculates difference data between the searched data relating to the existing user and data relating to another user (step S3). The difference data storage unit 24 selects only a necessary difference from the calculated difference data (step S4).

必要な差分のみが選択されると、表示部26はユーザに差分データを記憶してもよいかどうか図4に示した許可確認画面を表示し、ユーザに差分データの記憶についての許可を求める(ステップS5)。ユーザから許可が得られた場合、差分データ記憶部24は差分データを記憶する(ステップS6)。   When only the necessary difference is selected, the display unit 26 displays the permission confirmation screen shown in FIG. 4 as to whether or not the difference data may be stored for the user, and asks the user for permission to store the difference data ( Step S5). When permission is obtained from the user, the difference data storage unit 24 stores the difference data (step S6).

次に、本実施形態における統計処理に係る処理手順について図5(b)を参照して説明する。まず、統計部25は、サーバ10を操作するユーザから既存データ、差分データに基づいた統計処理の要求を受ける(ステップS11)。   Next, a processing procedure relating to statistical processing in the present embodiment will be described with reference to FIG. First, the statistical unit 25 receives a request for statistical processing based on existing data and difference data from a user operating the server 10 (step S11).

統計部25は、既存データ、差分データを元に最小限のデータのみ元データに復元し(ステップS12)、復元した元データを使用して統計処理を実施する(ステップS13)。その後、統計部25は、統計処理を完了後、復元した元データを破棄する(ステップS14)。   The statistical unit 25 restores only the minimum data to the original data based on the existing data and the difference data (step S12), and performs statistical processing using the restored original data (step S13). Thereafter, the statistical unit 25 discards the restored original data after completing the statistical processing (step S14).

<本実施形態における分散型サーバシステムの機能ブロックについて>
本実施形態における分散型サーバシステムAの機能ブロックについて図6を参照して説明する。なお、各機能ブロックについて、図3を用いて説明した内容と重複する内容については記載を省略する。
<Regarding Functional Blocks of Distributed Server System in This Embodiment>
Functional blocks of the distributed server system A in this embodiment will be described with reference to FIG. In addition, about each functional block, description is abbreviate | omitted about the content which overlaps with the content demonstrated using FIG.

図6は、サーバ500とサーバ600とがネットワークを介して接続された構成を示している。サーバ500が既存データ記憶部21と差分データ記憶部24を有し、サーバ600がデータ取得部22、差分算出部23、統計部25、及び表示部26を有している。   FIG. 6 shows a configuration in which the server 500 and the server 600 are connected via a network. The server 500 has an existing data storage unit 21 and a difference data storage unit 24, and the server 600 has a data acquisition unit 22, a difference calculation unit 23, a statistics unit 25, and a display unit 26.

分散型サーバシステムAでは、サーバ500にデータを記憶する処理をメインにさせ、サーバ600にデータの取得から算出処理までをメインにさせるように処理を分散している。これにより、サーバ500にデータが集約して記憶され、実処理はサーバ600が行うため、データの一括管理と実処理を行うサーバ600の処理負荷を軽減することが可能となる。   In the distributed server system A, the processing is distributed so that the processing for storing data in the server 500 is main, and the processing from data acquisition to calculation processing is main in the server 600. As a result, data is collected and stored in the server 500, and the actual processing is performed by the server 600. Therefore, it is possible to reduce the processing load of the server 600 that performs batch management of data and actual processing.

次に、本実施形態における分散型サーバシステムBの機能ブロックについて図7を参照して説明する。なお、各機能ブロックについて、図3及び図6を用いて説明した内容と重複する内容については記載を省略する。   Next, functional blocks of the distributed server system B in the present embodiment will be described with reference to FIG. In addition, about each functional block, description is abbreviate | omitted about the content which overlaps with the content demonstrated using FIG.3 and FIG.6.

図7は、サーバ500、サーバ700、及びサーバ800とがネットワークを介して接続された構成を示している。サーバ700がデータ取得部22と差分算出部23を有し、サーバ800が統計部25と表示部26を有している。   FIG. 7 shows a configuration in which the server 500, the server 700, and the server 800 are connected via a network. The server 700 has a data acquisition unit 22 and a difference calculation unit 23, and the server 800 has a statistics unit 25 and a display unit 26.

分散型サーバシステムBでは、サーバ700にデータ取得処理と差分算出処理までをメインにさせ、サーバ800に統計処理と表示処理をメインにさせるように処理を分散している。統計処理や表示処理を分散させることで、サーバ700は差分算出処理を負荷なくスムーズに処理することが可能である。   In the distributed server system B, processing is distributed so that the server 700 mainly performs data acquisition processing and difference calculation processing, and the server 800 mainly performs statistical processing and display processing. By distributing statistical processing and display processing, the server 700 can smoothly perform the difference calculation processing without load.

次に、本実施形態における分散型サーバシステムCの機能ブロックについて図8を参照して説明する。なお、各機能ブロックについて、図3を用いて説明した内容と重複する内容については記載を省略する。   Next, functional blocks of the distributed server system C in this embodiment will be described with reference to FIG. In addition, about each functional block, description is abbreviate | omitted about the content which overlaps with the content demonstrated using FIG.

図8は、サーバ900及びサーバ1000とがネットワークを介して接続された構成を示している。サーバ900が既存データ記憶部21を有し、サーバ1000がデータ取得部22、差分算出部23、差分データ記憶部24、統計部25、表示部26を有している。   FIG. 8 shows a configuration in which the server 900 and the server 1000 are connected via a network. The server 900 has an existing data storage unit 21, and the server 1000 has a data acquisition unit 22, a difference calculation unit 23, a difference data storage unit 24, a statistics unit 25, and a display unit 26.

分散型サーバシステムCでは、サーバ900に既存データを記憶する処理をメインにさせ、サーバ1000にその他の処理を担わせるように処理を分散している。既存データは膨大かつ個人情報であるため、単体のサーバで権限を有する管理者の下で管理させることが好ましく、このような利用形態に分散型サーバシステムCは有用である。   In the distributed server system C, the server 900 performs processing for storing existing data as the main, and the server 1000 performs processing for other processing. Since the existing data is enormous and personal information, it is preferably managed by an administrator who has authority with a single server, and the distributed server system C is useful for such usage.

次に、本実施形態における分散型サーバシステムDの機能ブロックについて図9を参照して説明する。なお、各機能ブロックについて、図3及び図8を用いて説明した内容と重複する内容については記載を省略する。   Next, functional blocks of the distributed server system D in the present embodiment will be described with reference to FIG. In addition, about each functional block, description is abbreviate | omitted about the content which overlaps with the content demonstrated using FIG.3 and FIG.8.

分散型サーバシステムDでは、サーバ1100にデータ取得処理をメインにさせ、サーバ1200に差分算出処理をメインにさせ、サーバ1300に差分データを記憶する処理をメインにさせるように処理を分散している。また、サーバ1400に統計処理をメインにさせ、サーバ1500に表示処理をメインにさせるように処理を分散している。   In the distributed server system D, processing is distributed so that the server 1100 mainly performs data acquisition processing, the server 1200 mainly performs difference calculation processing, and the server 1300 mainly stores difference data. . Further, the processing is distributed so that the server 1400 mainly performs statistical processing and the server 1500 mainly performs display processing.

分散型サーバシステムDのように、各処理を単体のサーバに行わせることにより、各サーバにかかる処理負荷を一層軽減することが可能になる。   As in the distributed server system D, by causing each server to perform each process, it is possible to further reduce the processing load on each server.

なお、上記した分散型サーバシステムA〜Dまでの構成は一例にすぎず、これら以外の構成形態をとることができることは言うまでもなく、例えばサーバ自体の処理スペックやサーバの設置場所等に応じて構成形態を種々変更することが可能である。   Note that the configuration of the distributed server systems A to D described above is merely an example, and it is needless to say that configurations other than these can be adopted. For example, the configuration is made according to the processing specifications of the server itself, the installation location of the server, and the like. Various changes can be made to the form.

以上、本実施形態によれば、既存のユーザとは別のユーザから取得したデータのうち、既存のユーザに関するデータとの差分を記憶し、その差分データから元データを算出して統計処理に使用するため、ユーザの個人情報等を直接記憶することがなくなり個人情報保護に貢献する。また、差分データの記憶についてもユーザに許可をとるため、より個人情報保護機能を強化する。さらに、差分データ自体は統計・機械学習に使用することができるデータである。   As described above, according to the present embodiment, the difference between the data acquired from a user different from the existing user and the data related to the existing user is stored, and the original data is calculated from the difference data and used for statistical processing. Therefore, the personal information of the user is not directly stored, which contributes to personal information protection. In addition, since the user is permitted to store the difference data, the personal information protection function is further strengthened. Further, the difference data itself is data that can be used for statistics and machine learning.

なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。例えば、上述した本実施形態のサーバ、分散サーバシステムにおける各処理を、ハードウェア、又は、ソフトウェア、あるいは、両者の複合構成を用いて実行することも可能である。   Each of the above-described embodiments is a preferred embodiment of the present invention, and various modifications can be made without departing from the scope of the present invention. For example, each process in the server and distributed server system of the present embodiment described above can be executed using hardware, software, or a combined configuration of both.

なお、ソフトウェアを用いて処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させることが可能である。あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。   In the case of executing processing using software, it is possible to install and execute a program in which a processing sequence is recorded in a memory in a computer incorporated in dedicated hardware. Alternatively, the program can be installed and executed on a general-purpose computer capable of executing various processes.

1 システム
10、500、600、700、800、900、1000、1100、1200、1300、1400、1500 サーバ
20 クライアント
30 ネットワーク
11 CPU
12 RAM
13 ROM
14 NW I/F
15 HDD
16 入力部
17 出力部
21 既存データ記憶部
22 データ取得部
23 差分算出部
24 差分データ記憶部
25 統計部
26 表示部
1 System 10, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500 Server 20 Client 30 Network 11 CPU
12 RAM
13 ROM
14 NW I / F
15 HDD
16 Input unit 17 Output unit 21 Existing data storage unit 22 Data acquisition unit 23 Difference calculation unit 24 Difference data storage unit 25 Statistics unit 26 Display unit

特開2014‐016872号公報JP 2014-016872 A

Claims (7)

既存のユーザに関するデータを記憶する既存データ記憶手段と、
前記既存のユーザとは別のユーザに関するデータを取得するデータ取得手段と、
前記既存データ記憶手段に記憶されている既存のユーザに関するデータと、前記データ取得手段により取得された別のユーザに関するデータとの差分データを算出する差分算出手段と、
前記差分算出手段により算出された差分データを記憶する差分データ記憶手段と、
前記既存のユーザに関するデータと前記差分データを用いてユーザに関するデータの統計をとる統計手段と、
を備えることを特徴とするサーバ。
Existing data storage means for storing data relating to existing users;
Data acquisition means for acquiring data relating to a user different from the existing user;
Difference calculation means for calculating difference data between data relating to an existing user stored in the existing data storage means and data relating to another user acquired by the data acquisition means;
Difference data storage means for storing difference data calculated by the difference calculation means;
Statistical means for taking statistics of data relating to the user using the data relating to the existing user and the difference data;
A server comprising:
前記統計手段は、ユーザに関するデータの統計をとる際、前記差分データ記憶手段に記憶された差分データのうち必要な部分のみを用いることを特徴とする請求項1記載のサーバ。   2. The server according to claim 1, wherein the statistical unit uses only a necessary portion of the differential data stored in the differential data storage unit when collecting statistics on data relating to the user. 前記差分データ記憶手段は、前記既存のユーザに関するデータとの差分が所定の閾値より大きい差分データを記憶することを特徴とする請求項1又は2記載のサーバ。   The server according to claim 1, wherein the difference data storage unit stores difference data having a difference from data relating to the existing user larger than a predetermined threshold. 前記差分データ記憶手段に、前記差分算出手段により算出された差分データを記憶する際、該差分データの記憶についてユーザの許可を得るための許可確認画面を表示する表示手段を備えることを特徴とする請求項1から3の何れか1項に記載のサーバ。   When the difference data calculated by the difference calculation unit is stored in the difference data storage unit, the difference data storage unit includes a display unit that displays a permission confirmation screen for obtaining a user permission for storing the difference data. The server according to any one of claims 1 to 3. 前記差分算出手段は、前記既存データ記憶手段に記憶されている複数の既存のユーザに関するデータの平均値と、前記データ取得手段により取得された別のユーザに関するデータとの差分データを算出することを特徴とする請求項1から4の何れか1項に記載のサーバ。   The difference calculation means calculates difference data between an average value of data related to a plurality of existing users stored in the existing data storage means and data related to another user acquired by the data acquisition means. The server according to any one of claims 1 to 4, characterized in that: 2以上のストレージに機能を分散して記憶させる分散型サーバシステムであって、
既存のユーザに関するデータを記憶する既存データ記憶手段と、
前記既存のユーザとは別のユーザに関するデータを取得するデータ取得手段と、
前記既存データ記憶手段に記憶されている既存のユーザに関するデータと、前記データ取得手段により取得された別のユーザに関するデータとの差分データを算出する差分算出手段と、
前記差分算出手段により算出された差分データを記憶する差分データ記憶手段と、
前記既存のユーザに関するデータと前記差分データを用いてユーザに関するデータの統計をとる統計手段と、
を備えることを特徴とする分散型サーバシステム。
A distributed server system in which functions are distributed and stored in two or more storages,
Existing data storage means for storing data relating to existing users;
Data acquisition means for acquiring data relating to a user different from the existing user;
Difference calculation means for calculating difference data between data relating to an existing user stored in the existing data storage means and data relating to another user acquired by the data acquisition means;
Difference data storage means for storing difference data calculated by the difference calculation means;
Statistical means for taking statistics of data relating to the user using the data relating to the existing user and the difference data;
A distributed server system comprising:
コンピュータが、既存のユーザに関するデータを記憶部に記憶するステップと、
コンピュータが、前記既存のユーザとは別のユーザに関するデータを取得するステップと、
コンピュータが、前記記憶部に記憶されている既存のユーザに関するデータと、取得された前記別のユーザに関するデータとの差分データを算出するステップと、
コンピュータが、算出された前記差分データを前記記憶部に記憶するステップと、
コンピュータが、前記既存のユーザに関するデータと前記差分データを用いてユーザに関するデータの統計をとるステップと、
を備えることを特徴とする情報処理方法。
A computer storing data relating to an existing user in a storage unit;
A computer obtaining data relating to a user different from the existing user;
Calculating a difference data between the data related to the existing user stored in the storage unit and the acquired data related to the other user;
A computer storing the calculated difference data in the storage unit;
A computer taking statistics of data about the user using the data about the existing user and the difference data;
An information processing method comprising:
JP2016003417A 2016-01-12 2016-01-12 Server, distributed server system, and information processing method Pending JP2017126112A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016003417A JP2017126112A (en) 2016-01-12 2016-01-12 Server, distributed server system, and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016003417A JP2017126112A (en) 2016-01-12 2016-01-12 Server, distributed server system, and information processing method

Publications (1)

Publication Number Publication Date
JP2017126112A true JP2017126112A (en) 2017-07-20

Family

ID=59364245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016003417A Pending JP2017126112A (en) 2016-01-12 2016-01-12 Server, distributed server system, and information processing method

Country Status (1)

Country Link
JP (1) JP2017126112A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020079815A1 (en) 2018-10-18 2020-04-23 富士通株式会社 Learning program, learning method, and learning device
WO2021034604A1 (en) * 2019-08-20 2021-02-25 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
US11636334B2 (en) 2019-08-20 2023-04-25 Micron Technology, Inc. Machine learning with feature obfuscation
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
JP7442995B2 (en) 2019-08-16 2024-03-05 独立行政法人統計センター Anonymization device for individual data using secret conversion processing of multidimensional cross frequency table

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020079815A1 (en) 2018-10-18 2020-04-23 富士通株式会社 Learning program, learning method, and learning device
JP7442995B2 (en) 2019-08-16 2024-03-05 独立行政法人統計センター Anonymization device for individual data using secret conversion processing of multidimensional cross frequency table
WO2021034604A1 (en) * 2019-08-20 2021-02-25 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
US11392796B2 (en) 2019-08-20 2022-07-19 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
US11636334B2 (en) 2019-08-20 2023-04-25 Micron Technology, Inc. Machine learning with feature obfuscation
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection

Similar Documents

Publication Publication Date Title
US10884891B2 (en) Interactive detection of system anomalies
JP2017126112A (en) Server, distributed server system, and information processing method
US9070109B2 (en) Dynamic presentation of a user profile
CN111262959B (en) Block link point access method, device and storage medium
US20130257859A1 (en) Information processing apparatus, information processing method and computer program
AU2016398632A1 (en) Systems and methods for identifying matching content
TW201618496A (en) Systems and methods for correlating derived metrics for system activity
CN109831358A (en) A kind of client traffic statistical method, device, server and readable storage medium storing program for executing
JP2016122273A (en) Alert emission method, program and system
US10990985B2 (en) Remote supervision of client device activity
US9098863B2 (en) Compressed analytics data for multiple recurring time periods
US20150278212A1 (en) System and method for determining an object context
JP2016024486A (en) Data utilization system and control method therefor
CN109241381B (en) Information matching method and device
US20170039273A1 (en) System and method for generating a customized singular activity stream
KR101638262B1 (en) Social network reports
JP6780326B2 (en) Information processing equipment and programs
JP6195815B2 (en) Touching information providing device, touching information providing method, and touching information providing program
JP2019148840A (en) Personnel evaluation method and personnel evaluation system
JP6955330B2 (en) Project management item evaluation system and project management item evaluation method
JP2020057272A (en) Workshop support system and workshop support method
JP6420162B2 (en) Image search device, image search method, and image search program
JP2018109921A (en) Business system redesign support method and device
US11605464B2 (en) Systems and methods for machine learning-based state prediction and visualization
JP2019028573A (en) Display control program, display control method and display control device