JP6098087B2

JP6098087B2 - 解析方法、解析装置および解析プログラム

Info

Publication number: JP6098087B2
Application number: JP2012208899A
Authority: JP
Inventors: 伊豆　哲也; 哲也伊豆; 武仲　正彦; 正彦武仲; 津田　宏; 宏津田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-09-21
Filing date: 2012-09-21
Publication date: 2017-03-22
Anticipated expiration: 2032-09-21
Also published as: JP2014063069A

Description

本明細書に開示する技術は、暗号化された情報の解析を行う技術に関する。

第三者に対する通信内容の秘匿を目的として、暗号化されたデータをやり取りすることが広く行われている。暗号化されたデータを受信した装置が正規な装置である場合には、必要に応じて、暗号化されたデータを復号する。そして、当該装置は、復号されたデータに対して各種処理を実行することができる。例えば、当該装置は、暗号化されたデータを復号し、平文データを用いて統計処理などの解析処理を行う。

一方、解析処理を外部の業者へ委託するなどの場合には、解析処理のために暗号化データを復号しなければならないため、平文データが外部の業者に取得されるということになる。このような場合は、データに対するセキュリティが低下してしまう。

そこで、例えば、準同型暗号の性質を利用して、統計処理を行う技術がある（非特許文献１）。具体的には、クラウドは、Ａ企業とＢ企業各々から、準同型暗号方式で暗号化された購買履歴データを受信する。そして、クラウドは、暗号化された購買履歴データをそのまま処理することで暗号化集計データを生成する。ここで、クラウドは秘密鍵を持たない為、購買履歴データおよび暗号化集計データを復号することはできない。

次に、クラウドは、分析者へ暗号化集計データを送信する。分析者は、秘密鍵を有しており、それを用いて暗号化集計データを復号して当該暗号化集計データから類似度を算出することができる。

安田雅哉他、複数企業が持つ購買履歴データのクラウド秘匿集計、暗号と情報セキュリティシンポジウム（ＳＣＩＳ２０１２）、２０１２年１月

ここで、準同型暗号は、処理負荷が高いという問題がある。また、非特許文献１に開示の技術において、あくまでも分析者はＡ企業およびＢ企業にとっては、外部であるため、分析者に秘密鍵を提供しなければならないという点では、セキュリティの懸念が残る。

そこで、本発明は、暗号鍵を利用することなく、簡易に暗号化データに対する解析処理を行うことを目的とする。

本発明の一観点では、本実施例に係る暗号化データの解析方法は、通信部が、乱数と、複数の元データとの算術演算により生成された複数の暗号化データを受信するステップと、解析部が、前記複数の暗号化データを生成する装置に設定された乱数生成用のパラメータに基づく乱数の平均値および前記乱数の二乗の平均値を取得するステップと、前記解析部が、前記複数の暗号化データに対して、前記乱数の平均値を前記算術演算の逆演算したデータおよび前記乱数の二乗の平均値を用いて、前記複数の元データにおける分散の近似値を、

（ただし、Ｍ _ｋ：暗号化データ、

：複数の元データの平均値Ｅ（ｍ）の近似値、
Ｌ：暗号化データの総数、
Ｅ（ｒ ^２）：乱数の二乗の平均値）
により算出するステップと、を有する。

本発明の一観点では、暗号鍵を利用することなく、簡易に暗号化データに対する解析処理を行うことができる。

図１は、実施例にかかる暗号化データの解析の流れを説明するための図である。図２は、収集装置５０の機能ブロック図である。図３は、パラメータ情報記憶部５５のデータ構成例を示す図である。図４は、暗号化データ記憶部５６のデータ構成例を示す図である。図５は、鍵情報記憶部５７のデータ構成例を示す図である。図６は、センサノードの機能ブロック図である。図７ＡおよびＢは、設定情報記憶部２６のデータ構成例を示す図である。図８は、端末装置３０の機能ブロック図である。図９は、解析装置１０の機能ブロック図である。図１０は、解析装置１０のパラメータ情報記憶部１５のデータ構成例を示す図である。図１１ＡおよびＢは、解析用データ記憶部１６のデータ構成例を示す図である。図１２は、パラメータの設定に関する処理のフローチャートである。図１３は、センサノード２０または端末装置３０における暗号処理のフローチャートである。図１４は、解析処理のフローチャートである。図１５は、他の実施例にかかる暗号化データの解析の流れを説明するための図である。図１６は、解析装置１０および１００のハードウェア構成の一例を示す図である。

以下に添付図面を参照して、この発明にかかる解析方法、解析装置、および解析プログラムの実施例を詳細に説明する。

図１は、本実施例にかかる暗号化データの解析の流れを説明するための図である。図１は、データを収集および管理する収集システムと、当該収集システムが収集したデータを解析する解析装置とを示す。収集システムは、複数のセンサノード２０−１乃至２０−４、端末装置３０−１および３０−２、ゲートウェイ装置４０、収集装置５０を含む。なお、センサノード、端末装置、ゲートウェイ装置の数等は図１に示す個数に限定されない。また、センサノード、端末装置の両方を含まなくともよい。

センサノード２０−１乃至２０−４は、暗号処理を行う装置である。そして、センサノード２０−１乃至２０−４は、無線通信機能を有し、所定のデータを検出する装置である。センサノード２０−１乃至２０−４は、有線通信機能を有していてもよい。なお、センサノード２０−１乃至２０−４は、以下、センサノード２０と称する。また、センサノード２０は、携帯端末等のコンピュータであってもよい。

本実施例において、センサノード２０は、センサにより検出された検出値を暗号化する。そして、センサノード２０は、乱数生成器により生成された乱数を、検出値に算術演算することで、暗号化データを生成する。例えば、センサノード２０は、乱数を検出値に算術加算する。また、乱数生成器は、あらかじめ設定された乱数パラメータにしたがって、乱数を生成する。なお、乱数パラメータについては、後述する。

そして、センサノード２０は、ゲートウェイ装置４０に対して、暗号化データ、機器ＩＤ、集計用情報、データ種別ＩＤを含むデータパケットを送信する。なお、データパケットは、収集装置５０において、暗号化データが復号可能なように、乱数生成時に利用した初期ベクトルをさらに含む。

機器ＩＤは、各センサノード２０を識別する情報である。集計用情報は、暗号化データが関連する対象を識別する情報である。集計用情報は、単に識別子と称する場合もある。例えば、集計用情報は、検出値が検出された場所の位置情報である。さらに、集計用情報は、検出値を検出した時刻情報を含んでもよい。

データ種別ＩＤは、暗号化される元データの種類を識別する情報である。データ種別ＩＤが共通の暗号化データは、同じデータ系列の暗号化データであるとみなされる。また、共通のデータ種別ＩＤに対応する複数の暗号化データは、ひとつの暗号化データ群を構成する。

また、センサノード２０は、図１に示すようなアドホックネットワーク６０を介して、ゲートウェイ装置４０へデータパケットを送信してもよい。つまり、センサノード２０−１乃至２０−４は、転送経路にしたがって、データパケットをマルチホップ通信することで、ゲートウェイ装置４０へデータパケットが届けられる。

端末装置３０−１および３０−２は、暗号処理を行う装置である。そして、端末装置３０−１および３０−２は、通信機能を有するコンピュータである。なお、端末装置３０−１および３０−２は、以下、端末装置３０と称する。例えば、端末装置３０は、収集システムにおいて収集対象となるデータを、一時的に管理する。例えば、収集対象となるデータは、ユーザにより入力されたデータや、ユーザにより入力されたデータに何らかの処理を行ったデータである。

端末装置３０は、センサノード２０と同様に、収集対象のデータを暗号化することで、暗号化データを生成する。そして、端末装置３０は、暗号化データ、機器ＩＤ、集計用情報、データ種別ＩＤを含む提供データを、ゲートウェイ装置４０へ送信する。

ゲートウェイ装置４０は、インターネット、ＬＡＮ、ＷＡＮなどの通常ネットワーク６１を介して、解析装置１０、端末装置３０と接続される。また、センサノード２０がアドホック通信を行う場合には、ゲートウェイ装置４０は、アドホックネットワーク６０と通常ネットワーク６１との間で情報をプロトコル変換する。そして、センサノード２０や端末装置３０から受信した暗号化データ等のデータを、収集装置５０へ送信する。さらに、ゲートウェイ装置４０は、センサノード２０や端末装置３０から受信した暗号化データ等のデータを複製し、解析装置１０へ送信する。

収集装置５０は、暗号化データを収集および管理するコンピュータである。収集装置５０は、センサノード２０や端末装置３０における暗号化処理において用いられる暗号鍵の情報を、所有する。よって、収集装置５０は、必要に応じて、暗号化データを復号することができる。

次に、解析装置１０は、解析処理を行うコンピュータである。ここで、本実施例においては、解析処理として、解析装置１０は、種々の統計量を算出する。解析装置１０は、暗号化データを復号するための鍵は有さない。よって、解析装置１０は、暗号化データを復号することはない。

解析装置１０は、ゲートウェイ装置４０から、暗号化データ、機器ＩＤ、集計用情報、データ種別ＩＤが対応づいたデータを受信する。解析装置１０は、各センサノード２０、各端末装置３０に設定された乱数生成用のパラメータを利用して、暗号化データにかかる統計量を算出する。各センサノード２０、各端末装置３０に設定された乱数生成用のパラメータ情報を、統計処理に先駆けて、収集装置５０から取得する。詳細は後述するが、パラメータ情報は、生成される乱数の分布を制御するための情報であって、各センサノード２０や各端末装置３０に対して、収集装置５０の制御の下、配布される。

解析装置１０は、乱数生成用パラメータから算出される乱数平均を利用して、乱数の効果を排除した、種々の統計量の演算を行う。ここで、乱数の効果を排除するとは、例えば、暗号化データが乱数の算術加算により生成されている場合には、乱数の平均値を暗号化データから減算する。

解析装置１０が算出する種々の統計量は、例えば、ある系列に関する暗号化データの元データの合計値、平均値、分散、標準偏差である。

また、解析装置１０は、集計用情報を用いて、複数の系列の暗号化データを、互いに対応付ける。あるセンサノード２０から受信した集計用情報と、ある端末装置３０から受信した集計用情報が、同一または関連する場合、当該ノード２０から受信した暗号化データと、当該端末装置３０から受信した暗号化データを対応付ける。例えば、同じ位置情報に関する複数の系列の暗号化データが対応付けられ、管理される。この場合、解析装置１０は、対応付けられた２つの系列に関する暗号化データを処理することで、元データの共分散、相関係数を算出する。

解析装置１０は、算出した統計量を、解析結果として、収集装置５０や、端末装置３０など所定の宛先へ送信する。

以上のように、解析装置１０は、暗号化データを復号することなく解析処理を行い、種々の統計量を簡易に演算することができる。収集システムは、暗号鍵に関する情報を収集システムの外部へ提供することなく、おおよその統計量を得ることができる。ここで、解析装置１０が算出する統計量は、おおよその値である。しかし、全体の傾向を把握するためには、おおよその統計量であっても、収集システム側のユーザにとっては有用である。

次に、収集装置５０の機能的構成について説明する。図２は、収集装置５０の機能ブロック図である。収集装置５０は、通信部５１、制御部５２、パラメータ情報記憶部５５、暗号化データ記憶部５６、鍵情報記憶部５７を有する。

通信部５１は、他の装置と通信を行う処理部である。例えば、通信部５１は、解析装置１０に、乱数生成用のパラメータを送信する。また、解析装置１０から解析結果を受信する。

制御部５２は、収集装置５０における各種処理を制御する処理部である。本実施例にかかる制御部５２は、例えば、生成部５３と管理部５４を含む。生成部５３は、乱数生成用のパラメータを生成する処理部である。管理部５４は、各種記憶部にデータを格納する処理部である。例えば、乱数生成用のパラメータに関するパラメータ情報を、パラメータ情報記憶部５５に格納する。また、暗号化データを、暗号化データ記憶部５６へ記憶する。

パラメータ情報記憶部５５は、乱数生成用のパラメータ情報を記憶する記憶部である。図３は、パラメータ情報記憶部５５のデータ構成例を示す図である。パラメータ情報記憶部５５は、パラメータＩＤ、中心値、下限値、上限値、分布種別、乱数平均値、乱数の二乗値の平均値、機器ＩＤ、データ種別ＩＤとを対応付けて記憶する。なお、中心値、下限値、上限値、分布種別は、各センサノード２０等で生成される乱数の分布を制御する。

ここで、パラメータ情報には、元データの予測値の範囲を、少なくとも含む範囲で、上限値と下限値が設定される。つまり、下限値と上限値により規定される乱数の範囲は、元データの予測値の範囲を含む。これは、乱数の影響が元データに対して小さい場合、元データの秘匿化が不十分になることを防ぐためである。例えば、元データの値が、５０乃至１００であることが予測される場合は、例えば、下限値―１２７から上限値＋１２７までと設定される。

元データの予測値の範囲に対して、乱数の範囲が大きすぎないことが望ましい。後述する解析処理において、暗号化データに対して乱数の影響を排除することで、解析装置１０は統計量を算出する。ここでは、大数の法則により、より多くの暗号化データを統計処理することで、より精度の高い統計量を得ることができる。従って、設定された乱数のパラメータ情報と、得られた暗号化データの個数とから、得られる統計量の精度が算出される。

一方、元データの予測値の範囲に対して、乱数の範囲が大きすぎると、一定の精度が見込める統計量を算出するために、より多くの暗号化データが必要となる。したがって、収集システムの規模、つまり、収集が見込める暗号化データの数に応じて、元データの予測値の範囲に対する乱数の範囲を決定することも可能である。

パラメータＩＤは、乱数の分布ごとに一意に付される情報である。中心値は、乱数の分布の中央となる値である。なお、おおよそ中央の値が格納されてもよい。下限値は、乱数の分布の下限となる値である。上限値は、乱数の分布の上限となる値である。

分布種別は、乱数の分布の形状を識別する情報である。例えば、一様分布、正規分布等の情報が格納される。乱数平均値は、複数回の乱数生成により生成される乱数の平均値である。乱数平均値は、中心値、下限値、上限値、分布種別に応じて決定される。乱数の二乗値の平均値は、複数回の乱数生成により生成される乱数の二乗値の平均値である。乱数の二乗値の平均値は、中心値、下限値、上限値、分布種別に応じて決定される。

機器ＩＤは、当該パラメータＩＤに対応するパラメータが設定された機器の機器ＩＤが格納される。例えば、図３の例では、パラメータＩＤ「１」のパラメータは、センサノード「Ｎ２０」、「Ｎ２１」などに設定されたことを示す。なお、各機器に設定するパラメータは、収集システムの管理者により指定される。

データ種別ＩＤは、パラメータＩＤに対応する乱数生成用のパラメータが適用されるデータ種別のデータ種別ＩＤが格納される。本実施例においては、あるデータ種別のデータを暗号化する際には、同じパラメータに基づき生成された乱数が適用される。収集システムの管理者は、あるデータ系列に適用するパラメータを指定する。つまり、収集システムの管理者は、同一のデータ種別のデータを検出または取得するセンサノードや端末装置を特定し、特定されたセンサノードや端末装置に対しては、同一のパラメータを配布する。

次に、暗号化データ記憶部５６は、暗号化データを、各種情報とともに記憶する記憶部である。図４は、暗号化データ記憶部５６のデータ構成例を示す図である。暗号化データ記憶部５６は、集計用情報と、機器ＩＤと、暗号化データと、初期ベクトルとを、データ種別ＩＤごとに記憶する。例えば、図４では、データ種別ＩＤ「Ｘ１」の例を示している。

収集装置５０が集計用情報「０００１」と機器ＩＤ「Ｎ２０」と暗号化データ「ｍ０００１」と初期ベクトル「Ｖ１」とデータ種別ＩＤ「Ｘ１」をゲートウェイ装置４０から受信した場合に、管理部５４によって、データ種別ＩＤ「Ｘ１」に対応付けて、集計用情報「０００１」と機器ＩＤ「Ｎ２０」と暗号化データ「ｍ０００１」と初期ベクトル「Ｖ１」とが格納される。

鍵情報記憶部５７は、鍵情報を記憶する記憶部である。鍵情報は、センサノード２０や端末装置３０における暗号処理において利用される鍵の情報である。事前に、収集装置５０と、センサノード２０または端末装置３０との間で共有される。

図５は、鍵情報記憶部５７のデータ構成例を示す図である。鍵情報記憶部５７は、機器ＩＤと鍵情報とを対応付けて記憶する。例えば、機器ＩＤ「Ｎ２０」であるセンサノード２０は、鍵情報ＫＥＹ＿Ｎ２０を共有していることを示す。

なお、収集装置５０が暗号化データを復号する場合、制御部５２は、暗号化データ記憶部５６から復号対象の暗号化データに対応する機器ＩＤを取得する。そして、制御部５２は、取得した機器ＩＤに対応する鍵情報を、鍵情報記憶部５７から取得する。制御部５２は、鍵情報と、初期ベクトルとを用いて、暗号化データを復号することができる。なお、本実施例においては、解析処理は解析装置１０が行うため、収集装置５０は、その他必要に応じて復号処理を行うこととする。

次に、センサノード２０の機能構成について説明する。図６は、センサノードの機能ブロック図である。センサノード２０は、通信部２１、制御部２２、設定情報記憶部２６を有する。

通信部２１は、他の装置と通信を行う処理部である。例えば、データパケットを、ゲートウェイ装置４０へ送信する。

制御部２２は、センサノード２０における各種処理を制御する処理部である。本実施例において、制御部２２は、取得部２３、暗号処理部２４、パケット生成部２５を含む。取得部２３は、検出値を取得する処理部である。例えば、取得部２３は、センサから検出値を取得する。なお、取得した検出値は、図示しない記憶部に一時的に記憶されてもよい。また、通信部２１は、取得部２２が取得値を取得するたびに、データパケットを送信してもよいし、一定個数の取得値を検出した場合に、複数のデータパケットを送信するとしてもよい。

暗号処理部２４は、検出値を暗号化し、暗号化データを生成する。例えば、パラメータ設定された乱数生成器は、初期ベクトルと鍵情報とに基づいて乱数を生成する。ここで、パラメータは、後述の配布パラメータ情報に基づいて設定される。よって、収集装置５０により制御された一定の分布を持つ乱数が生成される。

暗号処理部２４は、乱数を検出値に加算することで、暗号化データを生成する。なお、本実施例においては、乱数生成器の機能は、暗号処理部が担うものとする。

パケット生成部２５は、データパケットを生成する。具体的には、パケット生成部２５は、暗号化データに対して、機器ＩＤ、集計用情報、データ種別ＩＤを付加する。また、宛先情報等を含むヘッダ情報を生成する。なお、通信部２１は、ヘッダ情報に基づいて、データパケットを送信する。

設定情報記憶部２６は、設定情報を記憶する。設定情報は、当該センサノードに配布された鍵情報と、乱数生成器の設定用に配布された配布パラメータ情報とを含む。配布パラメータ情報は、先に述べたパラメータ情報の少なくとも一部を含む情報である。本実施例においては、パラメータ情報のうち、少なくとも、中心値、下限値、上限値、分布種別が、配布パラメータ情報として各センサノードに配布されるものとする。

図７ＡおよびＢは、設定情報記憶部２６のデータ構成例を示す図である。図７Ａは、設定情報のうちの鍵情報を示す。自装置に配布された暗号化用の鍵に関する鍵情報が記憶される。図７Ａの例は、センサノード「Ｎ２０」に記憶される鍵情報の例を示している。

図７Ｂは、配布パラメータ情報を示す。図７Ｂに示す例のように、中心値、下限値、上限値、分布種別が設定情報記憶部２６に記憶される。図７Ｂの例では、中心値「Ａ１」、下限値「Ｂ１」、上限値「Ｃ１」、分布種別「一様分布」が乱数生成器のパラメータとして、センサノード「Ｎ２０」に設定されたことを示している。

次に、端末装置３０の機能構成について説明する。図８は、端末装置３０の機能ブロック図である。端末装置３０は、通信部３１、制御部３２、設定情報記憶部３６を有する。

通信部３１は、他の装置と通信を行う処理部である。例えば、提供データを、ゲートウェイ装置４０へ送信する。

制御部３２は、端末装置３０における各種処理を制御する処理部である。制御部３２は、取得部３３と暗号処理部３４と提供データ生成部３５を含む。取得部３３は、収集対象となるデータを取得する処理部である。例えば、取得部３３は、ユーザの入力により収集対象となるデータを取得する。なお、取得したデータは、図示しない記憶部に記憶されてもよい。また、データを取得するたびに、後述の提供データを送信してもよいし、一定個数のデータを取得した場合に、まとめて送信するとしてもよい。

暗号処理部３４は、収集対象となるデータを暗号化し、暗号化データを生成する。例えば、パラメータ設定された乱数生成器は、初期ベクトルと鍵情報とに基づいて乱数を生成する。ここで、パラメータは、後述の配布パラメータ情報に基づいて設定される。よって、収集装置５０により制御された一定の分布を持つ乱数が生成される。

暗号処理部３４は、乱数を検出値に加算することで、暗号化データを生成する。なお、本実施例においては、乱数生成器の機能は、暗号処理部が担うものとする。

提供データ生成部３５は、提供データを生成する。具体的には、提供データ生成部３５は、暗号化データに対して、機器ＩＤ、集計用情報、データ種別ＩＤを付加する。また、宛先情報等を含むヘッダ情報を生成する。なお、通信部３１は、ヘッダ情報に基づいて、提供データを送信する。

設定情報記憶部３６は、設定情報を記憶する。なお。端末装置３０が記憶する設定情報は、図７に示すセンサノードに記憶される設定情報と同様である。

次に、解析装置１０の機能的構成について説明する。図９は、解析装置１０の機能ブロック図である。解析装置１０は、通信部１１、制御部１２、パラメータ情報記憶部１５、解析用データ記憶部１６を有する。

通信部１１は、他の装置と通信を行う処理部である。例えば、ゲートウェイ装置４０から、暗号化データ、機器ＩＤ、集計用情報、データ種別ＩＤが対応づいたデータを受信する。さらに、通信部１１は、収集装置５０など所定の宛先へ解析結果を送信する。

制御部１２は、解析装置１０における各種処理を制御する処理部である。制御部１２は、管理部１３と解析部１４を有する。

管理部１３は、各種記憶部にデータを格納する処理部である。例えば、パラメータ情報を、パラメータ情報記憶部１５に格納する。また、暗号化データを含む解析用データを、解析用データ記憶部１６へ記憶する。なお、解析用データは、データ種別ごとに、暗号化データと、当該暗号化データを生成した機器の機器ＩＤ、集計用情報とが対応づけられた情報である。

解析部１４は、解析用データと、パラメータ情報に基づいて、種々の統計量を算出する。例えば、暗号化データから乱数の平均値を逆演算することで、種々の統計量を算出する。ここでいう逆演算は、暗号化データ生成時の演算に対する逆演算である。例えば、元データに対する乱数の算術加算により暗号処理が行われている場合は、暗号化データから乱数の平均値を減算する。

例えば、解析部１４は、ある系列の暗号化データに対して、元データの合計値、平均値、分散、標準偏差を算出する。以下、解析部１４は算出する各種統計量の算出方法について説明する。

解析部１４は、以下の数１の式に基づいて、元データの合計値Ｓ（ｍ）の近似値を算出する。Ｌは暗号化データの総数である。Ｍ_ｋは、暗号化データである。Ｅ（ｒ）は、乱数の平均値である。

解析部１４は、以下の数２の式に基づいて、元データの平均値Ｅ（ｍ）の近似値を算出する。

解析部１４は、以下の数３の式に基づいて、元データの分散Ｖ（ｍ）の近似値を算出する。なお、Ｅ（ｒ^２）は、乱数の二乗の平均値である。

解析部１４は、以下の数４の式に基づいて、元データの標準偏差σ（ｍ）の近似値を算出する。

また、解析部１４は、第一の系列の暗号化データ群と、第二の系列の暗号化データ群とを、集計用情報に基づいて対応付ける。そして、解析部１４は、パラメータ情報に基づいて、対応づいた２系列のデータ群の間で、共分散および相関係数を算出する。

解析部１４は、以下の数５の式に基づいて、２系列データ間の共分散Ｃ（ｍ，ｎ）の近似値を算出する。Ｍ_ｋは、第一の系列の暗号化データである。Ｅ（ｒ）は、第一の系列のデータに対する暗号化に用いられた乱数の平均値である。Ｎ_ｋは、第二の系列の暗号化データである。なお、Ｅ（ｓ）は、第二の系列のデータに対する暗号化に用いられた乱数の平均値である。また、第一の系列のデータの平均値Ｅ（ｍ）の近似値および、第二の系列のデータの平均値Ｅ（ｎ）の近似値は、数２により求められる。

解析部１４は、以下の数６の式に基づいて、２系列データ間の相関係数ｃ（ｍ，ｎ）の近似値を算出する。

解析部１４は、以下の数７の式に基づいて、２系列データ間の内積Ｉ（ｍ．ｎ）の近似値を算出する。

本実施例においては、収集装置５０の制御の下、同一の系列に属するデータの暗号化を行う各センサノード２０または各端末装置３０に対しては、同一のパラメータを設定する。したがって、上記式においては、解析処理の対象となる系列に適用されたパラメータ情報が利用される。

以上のように、解析部１４は、各種式に基づいて、統計量を算出する。解析部１４は、収集システム側から指定された統計量を算出するとしてもよく、上記の統計量をすべて算出するとしてもよい。

ここで、ある系列のデータを大量に統計する場合、大数の法則が利用できる。そこで、乱数の平均値または、乱数の二乗の平均値を利用することで、暗号化データを復号することなく、統計量を算出することができる。なお、大数の法則にのっとり、ある系列のデータ数が多くなればなるほど、より真の値に近い統計量を算出することができる。

また、先にあげた先行技術においては、準同型を保ったまま暗号操作可能な演算の種類に限りがあるため、例えば、平方根計算を伴う相関係数を解析することはできない。しかし、本実施例によれば、暗号化データを秘匿したまま相関係数をはじめとする種々の統計量を算出することができる。

次に、パラメータ情報記憶部１５は、パラメータ情報を記憶する記憶部である。図１０は、解析装置１０のパラメータ情報記憶部１５のデータ構成例を示す図である。

パラメータ情報記憶部１５は、パラメータＩＤ、中心値、下限値、上限値、分布種別、乱数平均値、乱数の二乗の平均値、機器ＩＤ、データ種別ＩＤを対応付けて記憶する。なお、解析装置１０におけるパラメータ情報記憶部１５は、収集装置５０のパラメータ情報記憶部５５と同様の構成である。また、本実施例においては、パラメータ情報は、収集装置５０から解析装置１０に提供される。

解析用データ記憶部１６は、解析用データを記憶する記憶部である。図１１ＡおよびＢは、解析用データ記憶部１６のデータ構成例を示す図である。

解析用データ記憶部１６は、データ種別ごとに、集計用情報と、機器ＩＤと、暗号化データとを対応付けて記憶する。例えば、図１１Ａは、データ種別ＩＤ「Ｘ１」に関する解析用データを示している。例えば、図１１Ｂは、データ種別ＩＤ「Ｘ３」に関する解析用データを示している。

ここで、解析部１４は、２系列データ間の統計量を算出する場合は、２つの解析用データを、集計用情報に基づいて、対応付けを行う。つまり、集計用情報は、各暗号化データの元データが関連する対象を識別する情報であるため、解析部１４は、集計用情報を用いて、同様の対象に関連する暗号化データを対応付けることができる。

例えば、解析部１４が、データ系列「Ｘ１」とデータ系列「Ｘ３」の相関係数を算出する場合には、同様の集計用情報に対応するデータ系列「Ｘ１」の暗号化データと、データ系列「Ｘ２」の暗号化データを紐付ける。例えば、集計用情報が位置情報である場合には、同じ位置情報に関連する複数の暗号化データを紐付けることができる。

また、図１１ＡおよびＢの例では、データ種別ごとに異なるテーブルで、解析用データを管理するとして説明を行ったが、解析用データ記憶部１６は、複数のデータ種別の暗号化データを、集計用情報に基づいて、あらかじめ対応付けて記憶してもよい。

次に、本実施例にかかる各装置の処理について、説明する。図１２は、パラメータの設定に関する処理のフローチャートである。

収集基盤の生成部５３は、パラメータ情報を生成する（Ｏｐ．１）。具体的には、管理者から、中心値、下限値、上限値、分布種別を受け付けた場合に、新たなパラメータＩＤを付与する。さらに、生成部５３が、平均値、下限値、上限値、分布種別に基づいて、乱数平均値、乱数の二乗の平均値を生成する。また、乱数平均値、乱数の二乗の平均値も、管理者により入力されてもよい。

さらに、生成部５３は、当該パラメータ情報を設定する対象となる機器ＩＤの指定を受け付ける。さらに、当該パラメータ情報に基づく乱数が適用されるデータ系列のデータ種別ＩＤの指定も受け付ける。生成部５３は、パラメータＩＤ、中心値、下限値、上限値、分布種別、乱数平均値、乱数の二乗の平均値、機器ＩＤ、データ種別ＩＤと対応付けて、パラメータ情報を生成する。

管理部５４は、パラメータ情報をパラメータ情報記憶部５５へ格納する（Ｏｐ．２）。なお、すでに登録されたパラメータ情報を新たな機器にも適用する場合は、パラメータ情報の機器ＩＤに新たな機器の機器ＩＤが追加更新されるとしてもよい。

通信部５１は、制御部５２の制御の下、パラメータ情報の一部である配布パラメータ情報を、各センサノード、端末装置へ送信する（Ｏｐ．３）。具体的には、通信部５１は、中心値、下限値、上限値、分布種別を、パラメータ情報内に規定された機器ＩＤに対して送信する。なお、通信部５１は、解析装置に対しても、制御部５２の制御の下、パラメータ情報を送信する。

センサノード２０の通信部２１または端末装置３０の通信部３１は、配布パラメータ情報を受信する（Ｏｐ．４）。以下、センサノード２０の処理として説明を行う。制御部２２は、乱数生成器のパラメータを、受信した配布パラメータ情報に基づいて設定する（Ｏｐ．５）。さらに、配布パラメータ情報は、設定情報記憶部２６に記憶される。通信部２１は、制御部２２の制御の下、設定完了通知を収集装置５０へ送信する（Ｏｐ．６）。なお、設定完了通知は、設定が完了した旨を通知する情報であって、センサノード２０の機器ＩＤを含む情報である。

収集装置５０の通信部５１は、設定完了通知を受信する（Ｏｐ．７）。なお、一定時間経過後、設定完了通知を受信しない場合は、配布パラメータを再送するなどの処理を行ってもよい。

以上の処理によって、各センサノード２０、端末装置３０には、乱数生成用のパラメータが配布されるとともに、乱数生成器にパラメータが設定される。なお、パラメータはネットワークを介さずに、各種センサノードに配布されても良い。

次に、センサノード２０または端末装置３０における暗号処理について説明する。図１３は、センサノード２０または端末装置３０における暗号処理のフローチャートである。なお、以下はセンサノード２０における暗号処理について説明するが、端末装置３０においても同様である。また、検出値を取得するたびに、暗号処理を実行するとして説明するが、これに限られない。例えば、一定時間ごと、収集装置５０からの命令に応じて、または所定個数の検出値を取得した場合に、暗号処理を行うとしてもよい。

取得部２３は、センサから検出値を取得する（Ｏｐ．１０）。なお、端末装置の場合は、例えば、提供対象のデータを取得する。

暗号処理部２４は、乱数生成器を利用して乱数を生成する（Ｏｐ．１１）。ここでは、設定情報記憶部２６に記憶された鍵情報、および初期ベクトルが利用される。次に、暗号処理部２４は、Ｏｐ．１０で取得した検出値に対して乱数を算術加算する（Ｏｐ．１２）。

次に、パケット生成部２５はデータパケットを生成する（Ｏｐ．１３）。具体的には、パケット生成部２５は、暗号化データ、機器ＩＤ、データ種別ＩＤ、初期ベクトルを含むデータパケットであって、ヘッダ情報にデータパケットの宛先が設定されたデータパケットを生成する。なお、端末装置３０においては、提供データ生成部２５が、提供データを生成する。

次に、制御部２２の制御の下、通信部２１は、データパケットを送信する（Ｏｐ．１４）。なお、送信されたデータパケットは、ゲートウェイ装置４０を介して、収集装置５０および解析装置１０に受信される。

以上の処理により、検出値または提供対象のデータは、設定された乱数パラメータに基づく乱数により暗号化される。つまり、後段の解析処理において、簡易に解析処理が実行可能なように、センサノード２０または端末装置３０において、暗号化がなされる。

次に、解析装置１０における解析処理について説明する。図１４は、解析処理のフローチャートである。なお、図１４の処理に先駆けて、解析装置１０の通信部１１は、ゲートウェイ装置４０から、暗号化データ、機器ＩＤ、集計用情報、データ種別ＩＤが対応づいたデータを受信する。そして、管理部１３により、解析用データとして、解析用データ記憶部１６に格納される。

解析装置１０は、通信部１１が収集装置５０から解析指示を受信するまで待機する（Ｏｐ．２０Ｎｏ）。解析指示は、算出する統計量の種類および、解析対象となるデータ種別ＩＤが含まれる情報である。なお、解析指示を受信することなく、所定時間ごとにあらかじめ決められた解析処理を行うとしてもよい。

通信部１１が、解析指示を受信した場合は（Ｏｐ．２０Ｙｅｓ）、解析部１４は、解析指示に基づいて、解析対象のデータ種別ＩＤの解析用データを、解析用データ記憶部１６から取得する（Ｏｐ．２１）。なお、解析用データの中の暗号化データのみを取得するとしてもよい。

解析指示にて、２系列データ間の統計量の算出が指示されている場合は（Ｏｐ．２２Ｙｅｓ）、解析部１４は、２系列目のデータ種別ＩＤの解析用データを取得する（Ｏｐ．２３）。そして、解析部１４は、２系列の暗号化データを、集計用情報に基づいて、対応付ける（Ｏｐ．２４）。

一方、解析指示にて、２系列データ間の統計量の算出が指示されていない場合は（Ｏｐ．２２Ｎｏ）、制御部１２は、そのままＯｐ．２５へ処理を進める。解析部１４は、解析対象となるデータ種別ＩＤに基づいて、適用されたパラメータ情報を、パラメータ情報記憶部１５から取得する（Ｏｐ．２５）。

Ｏｐ．２５において、解析対象となるデータ種別ＩＤが複数である場合は、複数のパラメータ情報が取得される。なお、ここでは、パラメータ情報のうち、指定された統計量を算出する際に必要なパラメータ情報のみが取得されるとしてよい。例えば、統計量として平均値を算出する場合は、乱数平均値のみを取得するとしてもよい。

解析部１４は、取得した解析用データに含まれる暗号化データ、取得したパラメータ情報に基づいて、指定された統計量を算出する（Ｏｐ．２６）。具体的には、乱数平均を暗号化データから減算し、当該データを利用して統計量を算出する。

次に、通信部１１は、制御部１２の制御の下、解析結果を、所定の宛先に送信する（Ｏｐ．２７）。

以上の処理によって、解析結果が算出される。解析装置１０は、暗号化データを復号することなく、解析を行うことができる。また、より多くの暗号化データに対して解析を行うことで、より精度の高い解析結果を得ることができる。

各センサノード２０または各端末装置３０における暗号処理で、乱数が算術加算されることで暗号化データが生成されている。よって、解析装置１０では、統計量の算出処理において、乱数平均を暗号化データから逆演算することで、あるデータ系列に含まれる複数の暗号化データ全体としては、元データの傾向を回復させることができる。

以下、本実施例の適用例を説明する。例えば、農場の生育管理に適用される例が考えられる。各センサノード２０が、降雨量を取得するセンサを有する場合、センサノード２０は、取得した降雨量の検出値を暗号化してゲートウェイ装置４０へ送信する。また、降雨量に関する検出値であることを示すデータ種別ＩＤや、検出を行ったセンサノードの機器ＩＤ、集計用情報等も送信される。なお、設置場所の位置情報を集計用情報として利用する。

一方、作業者が圃場を観察した結果として、位置ごとに作物の生育状況を数値化したデータを端末装置３０へ入力するとする。さらに、作業者は、入力されたデータがどの位置の圃場に関連するものであるかを示す位置情報を集計用情報として入力する。

そして、生育状況に関するデータを暗号化するとともに、当該生育状況がどの位置の圃場に関するデータであるかを示す集計用情報とゲートウェイ装置４０へ送信する。なお、生育状況に関するデータであることを示すデータ種別ＩＤや、当該端末装置３０を識別する機器ＩＤ等も送信される。

収集装置５０は、ゲートウェイ装置４０から、暗号化データを、集計用情報、機器ＩＤ、データ種別等とともに、複数取得する。そして、収集装置５０は、データ種別ＩＤごとに、暗号化データ、集計用情報、機器ＩＤ等を暗号化データ記憶部５６に記憶する。

一方、解析装置１０は、ゲートウェイ装置４０から、暗号化データを、集計用情報、機器ＩＤ、データ種別とともに、複数取得する。解析装置１０は、データ種別ＩＤごとに、暗号化データ、集計用情報、機器ＩＤを、解析用データとして、解析用データ記憶部１６へ記憶する。

解析装置１０は、例えば、降雨量と生育状況との間の相関係数を、各データ系列の暗号化データおよびパラメータ情報に基づいて、算出する。そして、算出した結果を、収集装置５０へ提供する。なお、センサノードは、降雨量以外にも、日照量、気温、土の温度、湿度などを計測するセンサノードであってもよい。また、端末装置３０は、既存の技術を応用し、作業者が撮影した画像から成育状況を示す値を算出するプログラムを実行してもよい。そして、算出された値を本実施例に基づいて、暗号化してゲートウェイ装置４０へ送信してもよい。

以上のように、収集システムは、収集システム外の解析装置に対して、暗号化データとパラメータ情報を提供することで、おおむねの統計量である解析結果を入手することができる。また、収集システムは、種々の統計量を、暗号鍵を開示することなく、入手するこができる。

次に、他の実施例にかかる暗号化データの解析の流れを説明する。図１５は、他の実施例にかかる暗号化データの解析の流れを説明するための図である。

他の実施例においては、複数の収集システムが存在する。そして、解析装置１００は、複数の収集システムから暗号化データを受信するとともに、解析処理の依頼を受ける。例えば、第一の収集システムにおける収集装置５００と、第二の収集システムにおける収集装置５１０から、暗号化データを含む解析用データや、パラメータ情報を取得する。

例えば、複数の店舗で共通で利用できるポイントカードを有する顧客が、第一の収集システムの配下の店舗で買い物をするとともに、ポイントカードを利用する。また、当該顧客は、第二の収集システムの配下の店舗で買い物をするとともに、当該ポイントカードを利用する。

収集装置５００または端末装置３００は、ポイントカードごとに顧客に配布される顧客識別情報と、各顧客の購買履歴を集計する。例えば、ある顧客がある商品を購入した場合には、購入したことを示す「１００」を記録する。一方、ある顧客がある商品を購入していない場合には、購入していないことを示す「５０」を記録する。

そして、収集装置５００は、集計した各々の顧客の購買履歴を暗号化する。収集装置５００は、暗号化された購買履歴の情報を、集計用情報とともに解析装置１００へ送信する。なお、ここでは、集計用情報として顧客識別情報が利用される。この場合は、先に示した実施例と同様に、事前に設定された乱数パラメータにしたがって、あるデータ系列については同じパラメータに基づく乱数が適用され、暗号化が行われる。

なお、収集装置５００が、購買履歴の集計および暗号化を行うとしたが、暗号化処理は、端末装置３００または３１０で個別に行われてもよい。そして、端末装置３００または３１０から、解析装置１００は、暗号化された購買履歴の情報や、顧客識別情報を直接取得してもよい。

同様に、第二の収集システムにおける収集装置５１０は、集計用情報としての顧客識別情報とともに、暗号化された購買履歴の情報を解析装置１００へ送信する。

そして、解析装置１００は、暗号化された購買履歴の情報に基づいて、種々の統計量を算出する。例えば、解析装置１００は、顧客識別情報に基づいて、２つの系列の暗号化データを対応付ける。そして、２系列データ間の相関係数を算出する。

２系列データ間の相関係数は、例えば、第一の収集システム配下に店舗で販売している商品Ｘ１と、第二の収集システム配下に店舗で販売している商品Ｘ２との間に、顧客の購買行為に関する相関があるのか、またどういった相関があるのかを示す。

このように、本実施例によれば、異なる収集システムにて個別に収集されたデータであっても、解析装置１００を介することで、統計量を算出することができる。さらに、解析装置１００は、先の実施例における解析装置１０と同様の機能を持つため、暗号化データを復号することなく、解析を行うことができる。

つぎに、解析装置１０および１００のハードウェア構成について説明する。図１６は、解析装置１０および１００のハードウェア構成の一例を示す図である。

解析装置１０および１００はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１００１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１００２，ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１００３，通信装置１００４、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１００５、入力装置１００６、表示装置１００７、媒体読取装置１００９を有しており、各部はバス１００８を介して相互に接続されている。そしてＣＰＵ１００１による管理下で相互にデータの送受を行うことができる。

解析処理に係るプログラムが、コンピュータが読み取り可能な記録媒体に記録される。コンピュータが読み取り可能な記録媒体には、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ＨＤＤ、フレキシブルディスク（ＦＤ）、磁気テープ（ＭＴ）などがある。また、実施例にて説明した各種処理に関わるプログラムが、コンピュータが読み取り可能な記録媒体に記録される。

光ディスクには、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ − ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）などがある。光磁気記録媒体には、ＭＯ（Ｍａｇｎｅｔｏ − Ｏｐｔｉｃａｌｄｉｓｋ）などがある。このプログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売されることが考えられる。

そして解析装置１０および１００は、例えば媒体読取装置１００９が、各種プログラムを記録した記録媒体から、該プログラムを読み出す。ＣＰＵ１００１は、読み出されたプログラムをＨＤＤ１００５若しくはＲＯＭ１００２、ＲＡＭ１００３に格納する。

ＣＰＵ１００１は、解析装置１０および１００の全体の動作制御を司る中央処理装置である。ＨＤＤ１００５には、上記の各実施例に示した解析装置１０および１００と同様の機能をコンピュータに発揮させるプログラムとして、例えば、図１４に示す各処理をコンピュータに実行させるプログラムが記憶されている。

そして、ＣＰＵ１００１が、プログラムをＨＤＤ１００５から読み出して実行することで、図９に示す解析装置１０における制御部１２として機能するようになる。また、各種プログラムはＣＰＵ１００１とアクセス可能なＲＯＭ１００２またはＲＡＭ１００３に格納されていても良い。

さらにＨＤＤ１００５にはＣＰＵ１００１の管理下でパラメータ情報記憶部１５、解析用データ記憶部１６の少なくとも一部として機能する。プログラム同様、記憶部の情報はＣＰＵ１００１とアクセス可能なＲＯＭ１００２またはＲＡＭ１００３に格納されても良い。また、ＲＯＭ１００２またはＲＡＭ１００３は、処理の過程で一時的に生成された情報も記憶する。

表示装置１００７は、必要に応じて各画面を表示する。通信装置１００４はネットワークを介して他の装置からの信号を受信し、その信号の内容をＣＰＵ１００１に渡す。さらに通信装置１００４はＣＰＵ１００１からの指示に応じてネットワークを介して他の装置に信号を送信する。なお、通信装置１００４は、図９に示す解析装置１０における通信部１１として機能する。入力装置１００６は、必要に応じて、ユーザからの情報の入力を受け付ける。

１０解析装置
２０、２０−１、２０−２、２０−３、２０−４センサノード
３０、３０−１、３０−２端末装置
４０ゲートウェイ装置
５０収集装置
１１通信部
１２制御部
１３管理部
１４解析部
１５パラメータ情報記憶部
１６解析用データ記憶部
２１通信部
２２制御部
２３取得部
２４暗号処理部
２５パケット生成部
２６設定情報記憶部
３１通信部
３２制御部
３３取得部
３４暗号処理部
３５提供データ生成部
３６設定情報記憶部
５１通信部
５２制御部
５３生成部
５４管理部
５５パラメータ情報記憶部
５６暗号化データ記憶部
５７鍵情報記憶部
１００解析装置
３００、３１０、３２０、３３０端末装置
５００、５１０収集装置
１００１ＣＰＵ
１００２ＲＯＭ
１００３ＲＡＭ
１００４通信装置
１００５ＨＤＤ
１００６入力装置
１００７表示装置
１００８バス
１００９媒体読取装置

Claims

暗号化データの解析方法において、
通信部が、乱数と、複数の元データとの算術演算により生成された複数の暗号化データを受信するステップと、
解析部が、前記複数の暗号化データを生成する装置に設定された乱数生成用のパラメータに基づく乱数の平均値および前記乱数の二乗の平均値を取得するステップと、
前記解析部が、前記複数の暗号化データに対して、前記乱数の平均値を前記算術演算の逆演算したデータおよび前記乱数の二乗の平均値を用いて、前記複数の元データにおける分散の近似値を、

（ただし、Ｍ _ｋ：暗号化データ、

：複数の元データの平均値Ｅ（ｍ）の近似値、
Ｌ：暗号化データの総数、
Ｅ（ｒ ^２）：乱数の二乗の平均値）
により算出するステップと、
を有することを特徴とする解析方法。
前記パラメータは、前記乱数の分布にかかる下限値と上限値とを含み、
前記下限値と前記上限値により規定される前記乱数の範囲は、前記複数の元データの予測値の範囲を含むことを特徴とする請求項１に記載の解析方法。
乱数と、複数の元データとの算術演算により生成された複数の暗号化データを受信する通信部と、
前記複数の暗号化データを生成する装置に設定された乱数生成用のパラメータに基づく乱数の平均値および前記乱数の二乗の平均値を取得し、前記複数の暗号化データに対して、前記乱数の平均値を前記算術演算の逆演算したデータおよび前記乱数の二乗の平均値を用いて、前記複数の元データにおける分散の近似値を、

（ただし、Ｍ _ｋ：暗号化データ、

：複数の元データの平均値Ｅ（ｍ）の近似値、
Ｌ：暗号化データの総数、
Ｅ（ｒ ^２）：乱数の二乗の平均値）
により算出する解析部と
を含むことを特徴とする解析装置。
暗号化データを解析するためにコンピュータを、
乱数と、複数の元データとの算術演算により生成された複数の暗号化データを受信する手段、
前記複数の暗号化データを生成する装置に設定された乱数生成用のパラメータに基づく乱数の平均値および前記乱数の二乗の平均値を取得する手段、
前記複数の暗号化データに対して、前記乱数の平均値を前記算術演算の逆演算したデータおよび前記乱数の二乗の平均値を用いて、前記複数の元データにおける分散の近似値を、

（ただし、Ｍ _ｋ：暗号化データ、

：複数の元データの平均値Ｅ（ｍ）の近似値、
Ｌ：暗号化データの総数、
Ｅ（ｒ ^２）：乱数の二乗の平均値）
により算出する手段、
として機能させるための解析プログラム。