JP2023019432A

JP2023019432A - 情報処理システム及び情報処理方法

Info

Publication number: JP2023019432A
Application number: JP2021124147A
Authority: JP
Inventors: 尚宜佐藤; Hisanobu Sato; 雅之吉野; Masayuki Yoshino; 恭平山本; Kyohei Yamamoto
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-02-09
Also published as: WO2023008045A1

Abstract

【課題】複数のデータ保有者間におけるデータの類似部分の抽出において、類似していないデータについては他者に情報が漏えいするリスクを低減しつつ、少ない計算量及び通信量で類似部分を抽出する。【解決手段】第１端末は、第１ベクトル、ダミーベクトル、及び秘密鍵を保持し、記第２端末は、複数のベクトルを保持し、第１端末は、ダミーベクトルに基づき、かつ第１ベクトルを含む領域を決定し、決定した領域を示す情報を、第２端末に送信し、第２端末は、前記複数のベクトルのうち前記領域に含まれるベクトルを特定し、第１端末は、秘密鍵を用いて第１ベクトルを暗号化し、第１端末及び第２端末は、特定したベクトルのうち、第１ベクトルとの類似度が所定の第１しきい値より高いベクトルを、第１ベクトルを復号化することなく、抽出する。【選択図】図５

Description

本発明は、情報処理システム及び情報処理方法に関する。

近年、安全性の高い暗号化技術を用いてデータを暗号化し、当該データを復号化することなく何らかの処理を可能にする技術の研究に注目が集まっている。当該技術は、他者の情報を暗号化したまま必要な処理を行うことで情報の開示を最小限に抑え、不要な情報の漏洩を防ぐことができる。

特に、複数者がそれぞれ持つ情報に、同様の情報が含まれているかを特定し、分析に応用したいというニーズが高まっている。例えば、不正アクセスを試みる不審なアクセス情報の共有や与信情報の共有のニーズがある。

しかし、複数者がそれぞれ持つ情報のうち、類似している情報は共有したいが、類似していない情報については他者に知られたくないケースが多い。このような類似部分以外はお互いに開示せずに類似部分情報のみを抽出する安全な技術が求められる。

このような技術として、情報の類似部分を抽出したい二者が同じ暗号化鍵を共有した上で、それぞれ自身のデータを暗号化し、暗号文を比較するなどして類似部分を抽出する技術がある。しかし、このような技術は、類似部分以外の情報も暗号化して互いに送信しあう。従って、当該技術では、類似部分抽出処理の後に、一方が他方の、類似部分に含まれていなかったキーワードを推測するなどのオフライン攻撃が成立することがあり、類似部分以外の情報が漏えいするおそれがあり、高い安全性を持つとは言えない。

秘匿類似部分抽出の方法としては、準同型公開鍵暗号と呼ばれる暗号化方式を用いて、一方が持つデータを暗号化して他方に送付し、当該他方は自身の持つ各データを暗号化したものに対して、送付されたデータの暗号文との差分又は当該差分に類似した値を暗号化したまま計算し、その結果の暗号文を返送する方法や、特許文献１に記載の方法がある。

特許文献１の公報には、「第一の組織の装置は、組織内で秘匿すべき第一のデータ列に対して秘匿のための第一の変形を行い、変形された第一のデータ列を第三の組織の装置へ出力し、第二の組織の装置は、組織内で秘匿すべき第二のデータ列に対して秘匿のための第二の変形を行い、変形された第二のデータ列を第三の組織の装置へ出力し、第三の組織の装置は、変形された第一のデータ列と変形された第二のデータ列との内積を計算して、この内積を少なくとも第二の組織の装置へ返送する。第一の組織の装置は、第二の組織の装置へ、自装置が行った第一の変形に関する情報を送信し、第二の組織の装置は、自装置が行った第二の変形に関する情報と、第一の組織の装置から受信した情報と、第三の組織の装置から受け取った内積とに基づいて、第一のデータ列と第二のデータ列との内積を求める。」と記載されている（要約参照）。

特開２０１４－２０６６９６号公報

特許文献１に記載の技術は、一方が他方のデータを推測することを防ぐことができ高い安全性を持つと考えられるものの、データ量が増大すると処理量や通信量が飛躍的に増大するため、現実的な時間やコストでは処理が困難である。また、特許文献１に記載の技術では、秘匿内積計算に第三者を仲介しなければならず、これも通信量や通信時間の増加などのコストが増加する。

そこで、本発明の一態様は、複数のデータ保有者間におけるデータの類似部分の抽出において、類似していないデータについては他者に情報が漏えいするリスクを低減しつつ、少ない計算量及び通信量で類似部分を抽出する。

上記課題を解決するために、本発明の一態様は、以下の構成を採用する。情報処理システムは、第１端末と第２端末とを含み、前記第１端末は、第１ベクトル、ダミーベクトル、及び秘密鍵を保持し、前記第２端末は、複数のベクトルを保持し、前記第１端末及び前記第２端末は絞込み処理を実行し、前記絞込み処理において、前記第１端末は、前記ダミーベクトルに基づき、かつ前記第１ベクトルを含む領域を決定し、前記決定した領域を示す情報を、前記第２端末に送信し、前記第２端末は、前記複数のベクトルのうち前記領域に含まれるベクトルを特定し、前記第１端末及び前記第２端末は、類似部分抽出処理を実行し、前記類似部分抽出処理において、前記第１端末は、前記秘密鍵を用いて前記第１ベクトルを暗号化し、前記第１端末及び前記第２端末は、前記特定したベクトルのうち、前記第１ベクトルとの類似度が所定の第１しきい値より高いベクトルを、前記第１ベクトルを復号化することなく、抽出する。

本発明の一態様によれば、複数のデータ保有者間におけるデータの類似部分の抽出において、類似していないデータについては他者に情報が漏えいするリスクを低減しつつ、少ない計算量及び通信量で類似部分を抽出することができる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

実施例１における秘匿類似部分抽出システムの一例を示すブロック図である。実施例１におけるユーザＡ端末の構成例を示すブロック図である。実施例１におけるユーザＢ端末の構成例を示すブロック図である。実施例１におけるユーザＡ端末が保持するデータに類似する、ユーザＢ端末が保持するデータの絞込みの概要を示す説明図である。実施例１における秘匿類似データ抽出処理の一例を示すシーケンス図である。実施例１における類似部分抽出プロトコルの一例を示すシーケンス図である。実施例２における複数ユーザ間秘匿類似部分計算システムの構成例を示すブロック図である。実施例２における秘匿類似データ抽出処理の一例を示すシーケンス図である。

次に、本発明を実施するための形態について、適宜図面を参照しながら詳細に説明する。なお、実施形態において、同一の部材には原則として同一の符号を付け、繰り返しの説明は省略する。

＜システム構成例＞
図１は、秘匿類似部分抽出システムの一例を示すブロック図である。秘匿類似部分抽出システムは、二者間で一方が自身のデータを暗号化したまま他方のデータと照合し、類似部分を抽出するシステムである。秘匿類似部分抽出システムは、ユーザＡ端末１００（第１端末の一例）と、ユーザＢ端末２００（第２端末の一例）とを含む。ユーザＡ端末１００と、ユーザＢ端末２００と、はインターネット等のネットワーク１０００を介して互いに接続され、通信可能な状態である。

（ユーザＡ端末１００の構成例）
図２は、ユーザＡ端末１００の構成例を示すブロック図である。ユーザＡ端末１００は、例えば、ＣＰＵ１１０、補助記憶装置１２０、入力装置１０１、出力装置１０２、通信装置１０３、及びメモリ１０４を有する計算機によって構成される。

ＣＰＵ１１０は、プロセッサを含み、メモリ１０４に格納されたプログラムを実行する。メモリ１０４は、不揮発性の記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及び揮発性の記憶素子であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ））などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、ＣＰＵ１１０が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

補助記憶装置１２０は、例えば、磁気記憶装置（ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ））、フラッシュメモリ（ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ））等の大容量かつ不揮発性の記憶装置であり、ＣＰＵ１１０が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置１２０から読み出されて、メモリ１０４にロードされて、ＣＰＵ１１０によって実行される。

なお、本実施形態において、秘匿類似部分抽出システムが使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。例えば、テーブル、リスト、データベース、又はキューから適切に選択したデータ構造体が、情報を格納することができる。

入力装置１０１は、キーボードやマウスなどの、オペレータからの入力を受ける装置である。出力装置１０２は、ディスプレイ装置やプリンタなどの、プログラムの実行結果をオペレータが視認可能な形式で出力する装置である。通信装置１０３は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。

ＣＰＵ１１０が実行するプログラムは、非一時的な記憶装置を備えた他の情報処理装置から、非一時的な記憶媒体であるリムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）又はネットワーク１０００を介してユーザＡ端末１００に提供され、非一時的記憶媒体である不揮発性の補助記憶装置１２０に格納されてもよい。このため、ユーザＡ端末１００は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。これは、ユーザＢ端末２００についても同様である。

ユーザＡ端末１００は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。これは、ユーザＢ端末２００についても同様である。

ＣＰＵ１１０は、例えば、暗号化処理部１１１と、復号化処理部１１２と、ダミーデータ生成部１１３と、類似部分抽出部１１４と、を含む。暗号化処理部１１１は、ユーザＡが持つデータ１３１を暗号化する。復号化処理部１１２は、ユーザＡのデータとユーザＢのデータとが暗号化したまま算出されたユーザＡのデータとユーザＢのデータとの距離値を復号化する。ダミーデータ生成部１１３は、ユーザＢ端末２００が保持するデータを絞り込む際に用いられるダミーデータを生成する。なお、ＣＰＵ１１０は、データを出力装置１０２に表示する処理を行ったり、補助記憶装置１２０に格納されているデータを読み込み、通信装置１０３を介して、ユーザＢ端末２００へ送信したりする。類似部分抽出部１１４は、データ１３１に含まれるデータが暗号化されたまま、当該データに類似するデータを、ユーザＢ端末２００が有するデータから抽出する。

例えば、ＣＰＵ１１０は、メモリ１０４にロードされた暗号化処理プログラムに従って動作することで、暗号化処理部１１１として機能し、メモリ１０４にロードされた復号化処理プログラムに従って動作することで、復号化処理部１１２として機能する。ＣＰＵ１１０に含まれる他の機能部についても、プログラムと機能部の関係は同様である。また、ユーザＢ端末２００が有する後述するＣＰＵ２１０に含まれる後述する機能部についても、プログラムと機能部の関係は同様である。

なお、ＣＰＵ１１０及びＣＰＵ２１０に含まれる機能部による機能の一部又は全部が、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアによって実現されてもよい。

補助記憶装置１２０は、データ記憶領域１３０及び暗復号化鍵記憶領域１４０を含む。データ記憶領域１３０は、ユーザＡが保持するデータ１３１などが格納される。暗復号化鍵記憶領域１４０には、暗号化処理部１１１や復号化処理部１１２による処理に利用される暗号化鍵１４１及び復号化鍵１４２が格納される。

（ユーザＢ端末２００の構成例）
図３は、ユーザＢ端末２００の構成例を示すブロック図である。ユーザＢ端末２００は、例えば、ＣＰＵ２１０、補助記憶装置２２０、入力装置２０１、出力装置２０２、通信装置２０３、及びメモリ２０４を有する計算機によって構成される。

ＣＰＵ２１０、補助記憶装置２２０、入力装置２０１、出力装置２０２、通信装置２０３、及びメモリ２０４のハードウェアとしての説明は、ＣＰＵ１１０、補助記憶装置１２０、入力装置１０１、出力装置１０２、通信装置１０３、及びメモリ１０４のハードウェアとしての説明と同様であるため省略する。

ＣＰＵ２１０は、距離値計算部２１１、データ抽出部２１２、及び類似部分抽出部２１３を含む。補助記憶装置１２０は、データ２３１を格納するためのデータ格納領域２３０を有する。なお、ユーザＡ端末１００が有するデータ１３１及びユーザＢ端末２００が有するデータ２３１は、その特徴を表すベクトルデータに変換されているものとする。データが文書である場合には、各要素が単語のカテゴリを表すベクトルを用いてその文書に現れる単語の頻度に応じて要素の値を決めることで当該データをベクトルデータに変換する方法がある。また、データが画像データである場合には、畳み込みニューラルネットワークでの最終値をハッシュ値とみなし、ビットベクトルとして対応付けることで当該データをベクトルデータに変換する方法などがある。

距離値計算部２１１は、ユーザＡ端末１００から送信された絞込みのためのデータと、ユーザＢ端末２００が有するデータ２３１との距離を計算し、ユーザＡから送信されたしきい値と比較して当該しきい値より近いデータを抽出する。ここで、データがベクトルに変換されて対応付けられているため、ユークリッド空間の距離や、内積値、コサイン距離などはいずれもデータ間の距離の一例として利用可能である。また絞込みが十分に終了した後、距離値計算部２１１は暗号化したまま距離を計算するプロトコルをユーザＡ端末１００との間で実行し、暗号化された距離情報をユーザＡ端末１００に送信する。データ抽出部２１２は、データ２３１のうちユーザＡ端末１００が指定した領域に含まれるデータを抽出する。類似部分抽出部２１３は、データ１３１に含まれるデータが暗号化されたまま、当該データに類似するデータを、データ２３１から抽出するための処理を実行する。

＜データの絞込み＞
図４は、ユーザＡ端末１００が保持するデータ１３１に類似する、ユーザＢ端末２００が保持するデータ２３１の絞込みの概要を示す説明図である。図４では、データが２次元のベクトルであり、距離としてユークリッド距離が用いられる例を示す。一般には高次元ベクトルやユークリッド距離以外の距離に対しても、内積で表現できる距離であれば、以下に示す方法と同様の方法で絞込みを実行することができる。

図５は、秘匿類似データ抽出処理の一例を示すシーケンス図である。以下に説明するが、ユーザＡ端末１００は目的とするデータａ（データ１３１に含まれる）とは無関係なダミーデータａ’を生成し、目的とするデータａとの距離ｒを計算する。なお、図４におけるベクトルｂ，ｃ，ｄ，ｅ，ｆは、いずれもユーザＢ端末２００が保持するデータである。

まず、ユーザＡ端末１００のダミーデータ生成部１１３は、ダミーデータａ’を生成し、生成したダミーデータａ’と、ａ’からの距離がｒ＋εである円の内側とａ’からの距離がｒ－ε’である円の外側との共通領域である円環の領域４０８と、を示す情報をユーザＢ端末２００に送信する（Ｓ５０１）。なお、ダミーデータ生成部１１３は、目的とするデータａにランダムな線形変換を施すことでダミーデータａ’を生成してもよいし、目的とするデータａに依存せず例えばランダムなベクトルをダミーデータａ’に決定してもよい。

また、領域４０８は、上記したような円環でなくてもよく、ダミーデータａ’から生成され、データａ及びデータａに類似する範囲（例えばデータａから所定距離以内の範囲）を含み、かつデータａを推測されない領域であればよい。例えば、当該領域内のランダムな位置にデータａが含まれ、かつ当該領域が十分な大きさ（例えばデータａに類似する範囲の面積の１０倍以上）であれば、当該領域からデータａを推測されないといえる。

ダミーデータａ’と領域４０８の情報を受信したユーザＢ端末２００のデータ抽出部２１２は、データ２３１のうち、領域４０８に含まれるデータ（ベクトル）を抽出する（Ｓ５０２）。図４の例では、ベクトルｂ，ｄ，ｅが領域４０８に含まれている。データ抽出部２１２は抽出したデータ（ベクトル）の個数をユーザＡ端末１００に送信する（Ｓ５０３）。

ユーザＡ端末１００の類似部分抽出部１１４は、ステップＳ５０３で受信した個数を評価し、個数が所定のしきい値を超えている場合には、ダミーデータ生成部１１３は、領域４０８をより小さくした領域の情報をユーザＢ端末２００に送信し、ユーザＢ端末２００のデータ抽出部２１２は、データ２３１のうち当該小さくした領域に含まれるデータを抽出して、データの個数をユーザＡ端末１００に送信する（Ｓ５０４）。つまり、個数が当該しきい値以下になるまで、ユーザＡ端末１００は領域を小さくする。

領域を小さくする処理の一例として、ダミーデータ生成部１１３は、領域を定義する半径ｒ＋ε、ｒ－ε’の、ε、ε’を小さくしたり、データａを含む領域へ角度を（例えば所定の割合で）狭めたりするなどが考えられる。

ユーザＡ端末１００が新たなε、ε’の値を（例えば、所定の割合で小さくなるように又はユーザＡからの入力に従って）決定してもよいし、ユーザＢ端末２００が、絞込みの個数が上記した所定のしきい値以下となるよう新たなε、ε’の値を決定してもよい。ただし、ユーザＡが目的とするデータａに近いベクトルｂが絞込み手順で排除されないようにユーザＡ端末１００があらかじめε、ε’の取り得る最小値をユーザＢ端末２００に送信する必要がある。

データａを含む領域へ角度を狭める処理の一例として、ダミーデータ生成部１１３は、データａを含み、ダミーデータａ’を頂点とする、（一般には高次元）円錐領域を定義する情報をユーザＢ端末２００に送信し、ユーザＢ端末２００はａ‘を中心とする円環と、ａ’を頂点とする円錐領域に同時に含まれるベクトルを抽出して絞り込む。

上記した絞込み手順において、ユーザＡ端末１００は、ユーザＢ端末２００にデータａの情報を直接送信しておらず、データａの情報を隠しながらユーザＢ端末２００は絞込みを実行することができる。また、絞込みによって、類似部分抽出プロトコルの対象となるベクトルの個数が減少し、処理量及び通信量が低下する。

ユーザＡ端末１００の類似部分抽出部１１４は、ステップＳ５０３で受信した個数を評価し、個数が所定のしきい値以下である場合には、データ（ベクトル）ａと近いベクトルを暗号化したまま抽出するプロトコルをユーザＢ端末２００の類似部分抽出部１１４との間で実行し、ユーザＢ端末２００が保持するデータであって、データａに最も近いデータｂ１を抽出する（Ｓ５０５、Ｓ５０６）。データｂ１を抽出するプロトコルとしては特許文献１に記載の方法でもよいし、図６に示す以下の手順による方法でもよい。

＜類似部分抽出プロトコル＞
図６は、類似部分抽出プロトコルの一例を示すシーケンス図である。以下ではユーザＡ端末１００とユーザＢ端末２００との間でそれぞれが保持するベクトル形式のデータに対して、距離として内積値を用いる場合に、ユーザＡ端末１００及びユーザＢ端末２００それぞれがデータを開示することなく、暗号化したまま内積値を計算する方法を例示する。ユーザＡ端末１００が保持するデータがベクトルａ＝（ａ１，ａ２，…，ａｎ）、ユーザＢ端末２００が保持するデータがベクトルｂ＝（ｂ１，ｂ２，…，ｂｎ）であるとする。

ユーザＡ端末１００の暗号化処理部１１１は、データの暗号化のための秘密鍵として異なる素数ｐ，ｑを選び（Ｓ６０１）、暗号化の際にはベクトルｓ＝（ｓ１，ｓ２，…，ｓｎ），ｔ＝（ｔ１，ｔ２，…，ｔｎ）をランダムに選び（Ｓ６０２）、Ｃ＝ａ＋ｓ＊ｐ＋ｔ＊ｑ＝（ａ１＋ｓ１＊ｐ＋ｔ１＊ｑ，ａ２＋ｓ２＊ｐ＋ｔ２＊ｑ，…，ａｎ＋ｓｎ＊ｐ＋ｔｎ＊ｑ）を計算してユーザＢ端末２００に送信する（Ｓ６０３）。

ユーザＢ端末２００の類似部分抽出部２１３は、Ｃとｂとの内積Ｉ＝（ａ１＋ｓ１＊ｐ＋ｔ１＊ｑ）＊ｂ１＋（ａ２＋ｓ２＊ｐ＋ｔ２＊ｑ）＊ｂ２＋…＋（ａｎ＋ｓｎ＊ｐ＋ｔｎ＊ｑ）＊ｂｎを計算してユーザＡ端末１００に返送する（Ｓ６０４）。

ユーザＡ端末１００の復号化処理部１１２は、Ｉ’＝（Ｉｍｏｄｑ）ｍｏｄｐを計算して、Ｉ’をベクトルａとベクトルｂの内積値として導出することで、内積値を復号する（Ｓ６０５）。類似部分抽出部１１４は、あらかじめ決めたしきい値との比較の大小などにより、ｂがａに近いベクトルか否かを判断することで、ｂのａとの距離を評価する（Ｓ６０６）。ここでＩ’がベクトルａとベクトルｂの内積値になるためには、類似部分抽出部１１４は、ｐ，ｑを十分大きく取り、またベクトルｓ、ｔも適切な大きさの要素の範囲でランダムに選択される必要がある。具体的には、例えば、ｐは、ベクトルａとベクトルｂの内積の最大値（ベクトルａとベクトルｂとが動く範囲が定められているとする）よりも大きい必要があり、ｑはｐより大きい必要がある。また、例えば、ベクトルｓとベクトルｔの各要素が、ベクトルａとベクトルｂの各要素の最大値より小さい必要がある。

ユーザＡの類似部分抽出部１１４は、内積値の評価結果に応じて、ユーザＢ端末２００が類似ベクトルを保持することを確認するだけで十分であれば類似部分抽出プロトコルを終了し、類似ベクトル及び類似ベクトルに対応する元データ情報が必要であれば、ユーザＢ端末２００に元データの開示を依頼する（Ｓ６０７）。ユーザＢ端末２００は、類似ベクトル及び類似ベクトルに対応する元データ情報が開示可能であればこれらの情報をユーザＡに開示してもよい（Ｓ６０８）。ただし、この場合はユーザＡのデータａの一部の情報がユーザＢに漏洩する可能性があることに注意する。図６の類似部分抽出処理では、実行される暗号化処理、内積値算出処理、ｍｏｄ計算、及び復号化処理はいずれも計算量が少ないため、高速に類似部分を抽出することができる。

上記で例示した類似部分抽出プロトコルでは、ユーザＢ端末２００が保持する内積値計算対象のベクトルの個数と同数の暗号化された内積値をユーザＡ端末１００に送付する必要がある。絞込み処理を実行し、十分に個数を減らすことで通信量を抑えることができる。

上記では内積値計算が実行される例を説明したが、類似度として内積値の代わりにベクトル間のユークリッド距離が用いられてもよい。この場合、ユーザＡ端末１００が保持するデータがベクトルａ＝（ａ１，ａ２，…，ａｎ）、ユーザＢ端末２００が持つデータがベクトルｂ＝（ｂ１，ｂ２，…，ｂｎ）であるとき、ユークリッド距離をｄ＿Ｅｕｃ（ａ，ｂ）、内積を＜，＞で表せば、ｄ＿Ｅｕｃ（ａ，ｂ）＝ＳＱＲＴ（＜ａ，ａ＞＋＜ｂ，ｂ＞－２＜ａ，ｂ＞）で与えられるため、上記内積値計算を用いて絞込み、個数を十分絞込んだ段階で上記秘匿内積値計算を実行し、ユーザＢ端末２００は秘匿内積値と、自身のデータの内積値＜ｂ，ｂ＞（複数のデータがある場合は複数の内積値）をユーザＡ端末１００に返送すればよい。ユーザＡ端末１００は暗号化された内積値を復号し、＜ａ，ｂ＞を得た後、上記式によるユークリッド距離を計算して類似度を評価する。

また、類似度としてコサイン距離（コサイン類似度）が用いられてもよい。この場合、コサイン距離ｄ＿ｃｏｓ（ａ，ｂ）はｄ＿ｃｏｓ（ａ，ｂ）＝＜ａ，ｂ＞／（ＳＱＲＴ（＜ａ，ａ＞）＊ＳＱＲＴ（＜ｂ，ｂ＞））で与えられるため、上記したユークリッド距離が用いられる場合と同様に、内積値計算を用いた絞込みと秘匿内積計算プロトコル、及びユーザＢ端末２００が保有するベクトルの内積値＜ｂ，ｂ＞（複数ある場合は複数）を用いたコサイン距離の評価が実行されればよい。

また、類似度としてハミング距離が用いられてもよく、この場合、ハミング距離は要素を整数とみなせばベクトルの内積で与えられるため、上記の内積値での類似度評価方法を用いればよい。

＜ユースケース＞
以下、秘匿類似部分抽出システムのユースケースを説明する。

（分散ＳＯＣ（ＳｅｃｕｒｉｔｙＯｐｅｒａｔｉｏｎＣｎｅｔｅｒ））
分散ＳＯＣ（ＳｅｃｕｒｉｔｙＯｐｅｒａｔｉｏｎＣｎｅｔｅｒ）では、複数の組織間で情報セキュリティ上の脅威情報などの情報共有を行う。例えば、組織外からの不審なアクセスや、メール着信などについて、他の組織でも同様の現象が発生しているかなどを相互に情報交換するケースがある。

アクセスや同様のメール着信があった場合にはその他組織がその現象をどのように分析しているかなどについて情報交換を行う。しかし、他組織にはそのようなメールが着信していない場合もあり、その際、着信したメールの内容や、発信元のアドレスなどは伏せておきたい。

このような場合、本実施例に記載の秘匿類似部分抽出システムを用いて類似情報の検索や、類似情報に関する情報交換が行われるとよい。分散ＳＯＣのグループに参加している各組織は、ユーザＡ端末１００及びユーザＢ端末２００を準備する。また、当該各組織は対象データの特徴を表すベクトルに変換するための方法も共有しているとする。

組織が、メールなどにおいて一部内容が異なるが大部分は一致しているような、類似の情報を検索したい場合は、当該組織が保有するユーザＡ端末１００は、当該メールを、特徴を表すベクトルデータに変換し、他組織が保有するユーザＢ端末２００は、着信している大量のメールをそれぞれベクトルデータに予め変換しておく。ユーザＡ端末１００及びユーザＢ端末２００は、当該大量のメールのベクトルデータから、上記した方法により、効率的に類似情報を絞込み、絞込みを行ったものの中からより正確な類似部分抽出プロトコルを実行すればよい。

メールを、その特徴を表すベクトルに変換する方法の一例として、メールの本文やタイトルに記述されている単語を抽出し、その単語が表す意味の分類（事前に準備し、組織間で共有している辞書などを用いて分類）と、当該単語が出現する頻度と、に基づいて、ベクトル化するなどの方法がある。

（類似画像及び図面検索）
ある組織が保有する機密画像データに類似する機密画像データが、他組織が持つ多数の機密画像データの中にあるかを調べるケースを考える。機密画像データとしては、製品の図面や、個人を識別可能な顔写真などがある。画像の特徴を抽出してベクトル化する方法をこれらの組織間で共有しているとする。このようなベクトル化方法としては機械学習、特にＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を応用したものなどがある。

ある組織はユーザＡ端末１００を保有し、ユーザＡ端末１００は保有する画像データの特徴を表すベクトルを生成し、他組織はユーザＢ端末２００を保有し、ユーザＢ端末２００は保有する機密画像データの特徴を表すベクトルを生成しておく。ユーザＡ端末１００及びユーザＢ端末２００は、本実施例による秘匿類似部分抽出処理を実行することにより、他組織が持つ多数の機密画像データの中から、絞込みを行ってから、当該ある組織のユーザＡ端末１００が保持する機密画像データに類似している画像データを効率的に抽出することができる。

（ユーザ行動履歴検索（購買及び移動））
ある組織が保有する顧客の行動を記録した機密データに類似する機密データが、他組織が持つ多数の顧客行動履歴データの中にあるかを調べるケースを考える。顧客の行動履歴として、顧客の購買履歴や移動履歴及び問い合わせ履歴などがる。これらの行動履歴を示すデータがすでにベクトル化された情報ならば、そのまま本実施例で説明した方法で類似データの抽出を実施すればよい。

位置及び移動履歴情報などにおいて場所の座標情報を単位時間ごとに抽出してベクトル化する方法などがある。また、問い合わせ履歴などテキストデータとして保管されているような非構造化データは前述のメールをベクトルデータに変換する方法で特徴を表すベクトルに変換する方法などが考えられる。

このような特徴を抽出してベクトル化する方法をこれらの組織間で共有しているとする。ある組織はユーザＡ端末１００を保有し、ユーザＡ端末１００は保有するデータの特徴を表すベクトルを生成し、他組織はユーザＢ端末２００を保有し、ユーザＢ端末２００は、保有する機密データの特徴を表すベクトルを生成しておく。ユーザＡ端末１００及びユーザＢ端末２００は、本実施例による秘匿類似部分抽出処理により他組織が持つ多数の機密データの中から、絞込みを行ってから、当該ある組織のユーザＡ端末１００が保持する機密データに類似するデータを効率的に抽出することができる。

（金融商品売買（不正検知））
証券会社などの金融関係企業が自身の顧客の取引情報をもとに不正行為の有無などを分析するケースや、同業他社などで同様の取引行動をとっている顧客の有無やこのような顧客が存在する場合にその顧客の取引が不審であるか否かをその同業他社が認知しているかなどの情報交換をするケースを考える。

不審と思われる取引行動と同様の行動をとっている顧客がいなかった場合、当該金融関係企業は保有している情報を同業他社には開示したくない。また同業他社も類似している情報以外は開示したくない。このような状況に置いて、顧客の取引行動の特徴をベクトル化すれば本実施例で説明した方法で類似データを抽出することができる。

当該金融関係企業が不審と考える取引行動の特徴として、例えば連続した取引の間の時間や金額などが挙げられるが、それらを情報交換する相手との間であらかじめ形式を決めたベクトルとして表現し、本実施例による方法により、類似行動の抽出を実行すればよい。顧客の取引行動の履歴は膨大な件数にのぼるため、本実施例による効率的な方法が有効である。

＜システム構成＞
図７は、複数ユーザ間秘匿類似部分計算システムの構成例を示すブロック図である。複数ユーザ間秘匿類似部分計算システムは、複数のユーザ端末と、センターサーバ間でネットワーク１０００を通じて通信を行い、ユーザ端末の持つデータの類似部分を計算するシステム構成例を示す図である。

複数ユーザ間秘匿類似部分計算システムは、センターサーバ４００（第１端末の一例）と、ユーザＡ端末１００（第４端末の一例）と、ユーザＢ端末２００（第２端末の一例）と、ユーザＣ端末３００（第３端末の一例）と、を含み、これらの装置がインターネット等のネットワーク１０００を介して互いに接続されている。なお、各ユーザ端末は、センターサーバ４００と通信可能であるが、各ユーザ端末間の通信は不可能であってもよい。図７では、複数ユーザ間秘匿類似部分計算システムが３つのユーザ端末を含む例を説明しているが、複数ユーザ間秘匿類似部分計算システムが４つ以上のユーザ端末を含んでもよい。

センターサーバ４００は、実施例１の図２に示すユーザＡ端末１００と同様の構成である。また、実施例２に係るユーザＡ端末１００及びユーザＢ端末２００は、それぞれ実施例１の図２に示すユーザＡ端末１００及び図３に示すユーザＢ端末２００と同様の構成である。また、ユーザＣ端末３００は、実施例１の図３に示すユーザＢ端末２００と同様の構成である。

＜秘匿類似データ抽出処理＞
図８は、秘匿類似データ抽出処理の一例を示すシーケンス図である。ユーザＡ端末１００は自身が保持するデータが、ユーザＢ端末２００とユーザＣ端末３００の持つデータと類似部分があるか否かを、センターサーバ４００を通じて計算する。

まず、ユーザＡ端末１００は、類似部分を導出したいデータａを実施例１と同様の方法で、ベクトルに変換し、変換したベクトルをセンターサーバ４００に送信する（Ｓ８０１）。センターサーバ４００はユーザＡ端末１００から送付されたベクトルを、自身が保持するベクトルとみなし、ユーザＢ端末２００との間で、実施例１で示した方法によりユーザＢ端末２００が持つデータ（ベクトル）との類似部分抽出プロトコルを実行する（Ｓ８０２、Ｓ８０３）。なお、類似部分抽出プロトコルが実行される前に、センターサーバ４００とユーザＢ端末２００との間で、ステップＳ５０１～ステップＳ５０４の絞込み処理が実行されてもよい。

センターサーバ４００はステップＳ８０２及びステップＳ８０３で抽出した類似部分を、自身が保持するデータとみなし、ユーザＣ端末３００との間で、実施例１で示した方法によりユーザＣ端末３００が持つデータとの類似部分抽出プロトコルを実行する（Ｓ８０４、Ｓ８０５）。なお、類似部分抽出プロトコルが実行される前に、センターサーバ４００とユーザＣ端末３００との間で、ステップＳ５０１～ステップＳ５０４の絞込み処理が実行されてもよい。センターサーバ４００は、ユーザＡ端末１００、ユーザＢ端末２００、及びユーザＣ端末３００のいずれか又は全てに類似部分を送信して、情報を共有してもよい。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１００ユーザＡ端末、１０１入力装置、１０２出力装置、１０３通信装置、１０４メモリ、１１０ＣＰＵ、１１１暗号化処理部、１１２復号化処理部、１１３ダミーデータ生成部、１１４類似部分抽出部、１２０補助記憶装置、１３０データ記憶領域、１３１データ、１４０暗復号化鍵記憶領域、１４１暗号化鍵、１４２復号化鍵、２００ユーザＢ端末、２０１入力装置、２０２出力装置、２０３通信装置、２０４メモリ、２１０制御装置、２１１距離値計算部、２１２データ抽出部、２１３類似部分抽出部、２２０補助記憶装置、２３１データ、３００ユーザＣ端末

Claims

第１端末と第２端末とを含む情報処理システムであって、
前記第１端末は、第１ベクトル、ダミーベクトル、及び秘密鍵を保持し、
前記第２端末は、複数のベクトルを保持し、
前記第１端末及び前記第２端末は絞込み処理を実行し、
前記絞込み処理において、
前記第１端末は、前記ダミーベクトルに基づき、かつ前記第１ベクトルを含む領域を決定し、前記決定した領域を示す情報を、前記第２端末に送信し、
前記第２端末は、前記複数のベクトルのうち前記領域に含まれるベクトルを特定し、
前記第１端末及び前記第２端末は、類似部分抽出処理を実行し、
前記類似部分抽出処理において、
前記第１端末は、前記秘密鍵を用いて前記第１ベクトルを暗号化し、
前記第１端末及び前記第２端末は、前記特定したベクトルのうち、前記第１ベクトルとの類似度が所定の第１しきい値より高いベクトルを、前記第１ベクトルを復号化することなく、抽出する、情報処理システム。
請求項１に記載の情報処理システムであって、
前記絞込み処理において、
前記第２端末は、前記特定したベクトルの個数を前記第１端末に送信し、
前記第１端末が、前記特定したベクトルの個数が所定の第２しきい値以下であるかの判定処理を実行し、
前記第１端末が、前記判定処理において、前記特定したベクトルの個数が所定の第２しきい値以下であると判定した場合、前記絞込み処理が終了して、前記類似部分抽出処理が実行され、
前記第１端末が、前記判定処理において、前記特定したベクトルの個数が前記第２しきい値より大きいと判定した場合、前記絞込み処理が再度実行され、
前記第１端末は、前回の絞込み処理で決定された領域を、前記ダミーベクトルに基づき、前記第１ベクトルを含み、かつ当該領域を縮小した領域に更新し、更新後の領域を示す情報を、前記第２端末に送信し、
前記第２端末は、前記複数のベクトルのうち前記更新後の領域に含まれるベクトルを特定して、前記第１端末に送信して、前記判定処理が実行される、情報処理システム。
請求項１に記載の情報処理システムであって、
前記類似部分抽出処理において、
前記第１端末は、前記暗号化した第１ベクトルを前記第２端末に送信し、
前記第２端末は、前記暗号化した第１ベクトルと、前記特定したベクトルそれぞれと、の暗号化類似度を算出して、前記第１端末に送信し、
前記第１端末は、前記秘密鍵を用いて、前記暗号化類似度それぞれを復号化することで、前記類似度を算出する、情報処理システム。
請求項３に記載の情報処理システムであって、
前記秘密鍵は、異なる素数ｐ，ｑであり、
前記第１ベクトルはａ＝（ａ１，ａ２，…，ａｎ）、
前記特定したベクトルはｂ＝（ｂ１，ｂ２，…，ｂｎ）であり、
前記類似部分抽出処理において、
前記第１端末は、
ベクトルｓ＝（ｓ１，ｓ２，…，ｓｎ）、及びｔ＝（ｔ１，ｔ２，…，ｔｎ）をランダムに選択し、
Ｃ＝ａ＋ｓ＊ｐ＋ｔ＊ｑ＝（ａ１＋ｓ１＊ｐ＋ｔ１＊ｑ，ａ２＋ｓ２＊ｐ＋ｔ２＊ｑ，…，ａｎ＋ｓｎ＊ｐ＋ｔｎ＊ｑ）を計算して、前記第２端末に送信し、
前記第２端末は、Ｃとｂとの内積値Ｉ＝（ａ１＋ｓ１＊ｐ＋ｔ１＊ｑ）＊ｂ１＋（ａ２＋ｓ２＊ｐ＋ｔ２＊ｑ）＊ｂ２＋…＋（ａｎ＋ｓｎ＊ｐ＋ｔｎ＊ｑ）＊ｂｎを前記暗号化類似度として計算して、前記第１端末に送信し、
前記第１端末は、Ｉ’＝（Ｉｍｏｄｑ）ｍｏｄｐを計算することで、Ｉ’をベクトルａとベクトルｂの前記類似度として算出する、情報処理システム。
請求項１に記載の情報処理システムであって、
第３端末と第４端末とを含み、
前記第３端末は、複数のベクトルを保持し、
前記第４端末は、前記第１ベクトルを保持し、
前記第１端末が保持する前記第１ベクトルは、前記第４端末から送信されたものであり、
前記第１端末は、前記第２端末との間で実行された前記類似部分抽出処理において抽出したベクトルを前記第１ベクトルとみなして、前記第３端末との間で、前記絞込み処理及び前記類似部分抽出処理を実行する、情報処理システム。
第１端末と第２端末とを含む情報処理システムによる情報処理方法であって、
前記第１端末は、第１ベクトル、ダミーベクトル、及び秘密鍵を保持し、
前記第２端末は、複数のベクトルを保持し、
前記情報処理方法は、
前記第１端末及び前記第２端末が、絞込み処理を実行し、
前記絞込み処理において、
前記第１端末が、前記ダミーベクトルに基づき、かつ前記第１ベクトルを含む領域を決定し、前記決定した領域を示す情報を、前記第２端末に送信し、
前記第２端末が、前記複数のベクトルのうち前記領域に含まれるベクトルを特定し、
前記第１端末及び前記第２端末が、類似部分抽出処理を実行し、
前記類似部分抽出処理において、
前記第１端末が、前記秘密鍵を用いて前記第１ベクトルを暗号化し、
前記第１端末及び前記第２端末が、前記特定したベクトルのうち、前記第１ベクトルとの類似度が所定の第１しきい値より高いベクトルを、前記第１ベクトルを復号化することなく、抽出する、情報処理方法。
請求項６に記載の情報処理方法であって、
前記絞込み処理において、
前記第２端末が、前記特定したベクトルの個数を前記第１端末に送信し、
前記第１端末が、前記特定したベクトルの個数が所定の第２しきい値以下であるかの判定処理を実行し、
前記第１端末が、前記判定処理において、前記特定したベクトルの個数が所定の第２しきい値以下であると判定した場合、前記絞込み処理が終了して、前記類似部分抽出処理が実行され、
前記第１端末が、前記判定処理において、前記特定したベクトルの個数が前記第２しきい値より大きいと判定した場合、前記絞込み処理が再度実行され、
前記第１端末が、前回の絞込み処理で決定された領域を、前記ダミーベクトルに基づき、前記第１ベクトルを含み、かつ当該領域を縮小した領域に更新し、更新後の領域を示す情報を、前記第２端末に送信し、
前記第２端末が、前記複数のベクトルのうち前記更新後の領域に含まれるベクトルを特定して、前記第１端末に送信して、前記判定処理が実行される、情報処理方法。
請求項６に記載の情報処理方法であって、
前記類似部分抽出処理において、
前記第１端末が、前記暗号化した第１ベクトルを前記第２端末に送信し、
前記第２端末が、前記暗号化した第１ベクトルと、前記特定したベクトルそれぞれと、の暗号化類似度を算出して、前記第１端末に送信し、
前記第１端末が、前記秘密鍵を用いて、前記暗号化類似度それぞれを復号化することで、前記類似度を算出する、情報処理方法。
請求項８に記載の情報処理方法であって、
前記秘密鍵は、異なる素数ｐ，ｑであり、
前記第１ベクトルはａ＝（ａ１，ａ２，…，ａｎ）、
前記特定したベクトルはｂ＝（ｂ１，ｂ２，…，ｂｎ）であり、
前記情報処理方法は、
前記類似部分抽出処理において、
前記第１端末が、ベクトルｓ＝（ｓ１，ｓ２，…，ｓｎ）、及びｔ＝（ｔ１，ｔ２，…，ｔｎ）をランダムに選択し、
前記第１端末が、Ｃ＝ａ＋ｓ＊ｐ＋ｔ＊ｑ＝（ａ１＋ｓ１＊ｐ＋ｔ１＊ｑ，ａ２＋ｓ２＊ｐ＋ｔ２＊ｑ，…，ａｎ＋ｓｎ＊ｐ＋ｔｎ＊ｑ）を計算して、前記第２端末に送信し、
前記第２端末が、Ｃとｂとの内積値Ｉ＝（ａ１＋ｓ１＊ｐ＋ｔ１＊ｑ）＊ｂ１＋（ａ２＋ｓ２＊ｐ＋ｔ２＊ｑ）＊ｂ２＋…＋（ａｎ＋ｓｎ＊ｐ＋ｔｎ＊ｑ）＊ｂｎを前記暗号化類似度として計算して、前記第１端末に送信し、
前記第１端末が、Ｉ’＝（Ｉｍｏｄｑ）ｍｏｄｐを計算することで、Ｉ’をベクトルａとベクトルｂの前記類似度として算出する、情報処理方法。
請求項６に記載の情報処理方法であって、
前記情報処理システムは、第３端末と第４端末とを含み、
前記第３端末は、複数のベクトルを保持し、
前記第４端末は、前記第１ベクトルを保持し、
前記第１端末が保持する前記第１ベクトルは、前記第４端末から送信されたものであり、
前記情報処理方法は、
前記第１端末が、前記第２端末との間で実行された前記類似部分抽出処理において抽出したベクトルを前記第１ベクトルとみなして、前記第３端末との間で、前記絞込み処理及び前記類似部分抽出処理を実行する、情報処理方法。