JP2014098753A - 情報処理方法、プログラム及び情報処理装置 - Google Patents

情報処理方法、プログラム及び情報処理装置 Download PDF

Info

Publication number
JP2014098753A
JP2014098753A JP2012249302A JP2012249302A JP2014098753A JP 2014098753 A JP2014098753 A JP 2014098753A JP 2012249302 A JP2012249302 A JP 2012249302A JP 2012249302 A JP2012249302 A JP 2012249302A JP 2014098753 A JP2014098753 A JP 2014098753A
Authority
JP
Japan
Prior art keywords
identifier
data
provider
code
identifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012249302A
Other languages
English (en)
Inventor
Ikuya Morikawa
郁也 森川
Hiroshi Tsuda
宏 津田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012249302A priority Critical patent/JP2014098753A/ja
Publication of JP2014098753A publication Critical patent/JP2014098753A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】個票のデータに含まれる個体識別子としての一意識別子と個票のデータの提供者の識別子とを復元可能に秘匿化する。
【解決手段】本方法は、第1の識別子を含む1又は複数のデータと当該1又は複数のデータの提供元を特定する第2の識別子との組み合わせを複数格納するデータ格納部から、第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出し、第1の識別子の各々について、当該第1の識別子と、当該第1の識別子に対応付けられている第2の識別子との組に基づいて、第3の識別子を生成し、データ格納部に格納されている各データについて、当該データに含まれる第1の識別子について生成された第3の識別子により当該データに含まれる第1の識別子を置換する処理を含む。
【選択図】図1

Description

本技術は、情報の秘匿化技術に関する。
近年、多数の個票を集約して有用な情報を抽出することが期待されている。個票とは、何らかの個体に関する状態や行動などのデータを意味し、マイクロデータとも呼ばれる。個体とは、ユーザ、参加者、消費者、患者などとしての個人が代表的なものであるが、組織、動物の個体、通信端末、計器、工業又は商業における部品、製品、商品などであっても良い。個票のデータは、一般に、個体を指し示す識別子(identifier、IDとも呼ばれる)と、その個体の個別の状態や行動などのデータとを組み合わせたデータである。例えば、各個体の年齢や住所は何か、どの個体が何時にどこにいたか、どの店でどの商品群を買ったか、ある日時に行った検査でどのような値が得られたかなどが、個票のデータに含まれる。
一般に、多くの個票のデータを集めて集計したり分析したりすることで有益な情報が得られることがある。例えば、何時ごろどの地域からどの地域へ移動する個体がいるか、どの検査値が重大な事象と相関があるかなどが分かることで、研究、作業の効率化、将来の予測などに役に立つ。このとき、多くの個票のデータが集まることが望ましく、集計や分析に外部の知見や専門性がしばしば求められることから、個票のデータを保持及び取得する者から、別の者に個票のデータを開示することが求められる。ここで開示とは、不特定多数への公開だけでなく、実際に集計や分析を行う第三者への提供も含む。
こうした個票のデータの集約及び開示を行う際には、セキュリティやプライバシーを考慮すべきである。ここでは、個票のデータは一般に個人を特定可能な情報を含み、また機微な情報が含まれることがあるためである。何を機微な情報とみなすかは場合によって異なるが、典型的には健康状態、商品購入やサービス利用の履歴、ある時点での存在位置などが機微な情報とみなされることが多い。こうした機微な情報が他人に知られるとプライバシーに抵触するだけでなく、場合によっては犯罪や経済的や社会的不利益を被ることになるため、セキュリティの課題でもある。したがって、機微な情報を不適切な何者かに知られないよう対策をとることが求められる。
このため、個票のデータに含まれる個体識別子としての一意識別子(UID:Unique IDentifier)と、個票のデータを保持及び取得する者(集約を行う者にデータを提供するので提供者とも呼ぶ)の識別子とを、何らかの方法で秘匿化することが望まれる。
識別子の暗号化については、例えば以下のような技術が存在する。すなわち、元の識別子を単に暗号化するだけでなく、元の識別子に何らかのパラメータを結合させてから暗号化して第二識別子を生成するものである。この技術においてパラメータとは、識別子の送信相手のアドレスや送信する時間帯や状況などを指す。これにより、1つの識別子から送信相手や送信時間又は状況などによって異なる第二識別子を重複なく生成することができ、暗号鍵を知る者だけは第二識別子から元の識別子を知ることができる。しかしながら、この技術を用いると、元の識別子が同じであってもパラメータが異なる場合には、異なる第二識別子が生成されてしまうので、分析者が個票のデータを分析する際には、異なる分析対象物等として取り扱うことになり、結果として分析結果が異なるものになってしまう可能性がある。
特開2006−311112号公報
従って、本技術の目的は、一側面によれば、個票のデータに含まれる個体識別子としての一意識別子と個票のデータを提供する提供者の識別子とを復元可能に秘匿化するための技術を提供することである。
本技術の第1の態様に係る情報処理方法は、(A)第1の識別子を含む1又は複数のデータと当該1又は複数のデータの提供元を特定する第2の識別子との組み合わせを複数格納するデータ格納部から、第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出し、(B)第1の識別子の各々について、当該第1の識別子と、当該第1の識別子に対応付けられている第2の識別子との組に基づいて、第3の識別子を生成し、(C)データ格納部に格納されている各データについて、当該データに含まれる第1の識別子について生成された第3の識別子により当該データに含まれる第1の識別子を置換する処理を含む。
本技術の第2の態様に係る情報処理方法は、第1の識別子を受信すると、当該第1の識別子から、第2の識別子の符号と第3の識別子の符号とを抽出し、抽出された第2の識別子の符号から第2の識別子を復号し、抽出された第3の識別子の符号から1又は複数の第3の識別子を復号する処理を含む。
個票のデータに含まれる個体識別子としての一意識別子と個票のデータを提供する提供者の識別子とを復元可能に秘匿化できるようになる。
図1は、実施の形態の概要を示す図である。 図2は、実施の形態のシステム概要を示す図である。 図3は、集約者装置の機能ブロック図である。 図4は、集約データ生成のための処理フローを示す図である。 図5は、第1テーブルの一例を示す図である。 図6は、第2テーブルの一例を示す図である。 図7は、第2テーブル生成処理の処理フローを示す図である。 図8は、第2テーブル生成処理を模式的に示すための図である。 図9は、第3テーブルの一例を示す図である。 図10は、第3テーブル生成処理の処理フローを示す図である。 図11は、符号化方式の一例を示す図である。 図12は、第3テーブル生成処理を模式的に示すための図である。 図13は、集約データの一例を示す図である。 図14は、集約データ生成処理の処理フローを示す図である。 図15は、復元のための処理フローを示す図である。 図16は、復元のための処理を模式的に示すための図である。 図17は、コンピュータの機能ブロック図である。
本技術の実施の形態の適用例について最初に説明する。本実施の形態では、図1に示すように、複数のデータ提供者A乃至Cから、提供者IDと、各々UIDを含む複数の個票のデータとの組み合わせを、集約者に集める(ステップ(1))。個票は、例えば患者の検査結果などであり、データ提供者は、例えば病院である。
集約者は、このようにデータ提供者から提供者IDと複数の個票のデータとの組み合わせを受け取って、加工及び集約した後、分析者に開示する。ここで本実施の形態では、UIDと提供者IDとから、集約識別子(AID:Aggregate IDentifier)を生成して、個票のUIDをAIDで置換してから分析者に対して開示する(ステップ(2))。なお、集約者は、単に多数の個票のデータをまとめるだけでも良いが、それに加えて並べ替えや同じ個体に関するデータの集約(値を合計するなど)、値の正規化や表現形式の変換、新たな項目の追加などの加工処理を行ってもよい。
分析者は、集約データを分析する知見や専門性を持つ者であり、複数であってもよい。また、集約者は、分析の結果を提供者へ適切に通知(すなわちフィードバック)する役割をも有する。分析者は、専門的技能や背景知識などを利用して分析を行った結果として、例えば、特定のAIDの例えば患者が重篤な症状にあるといったデータを集約者に通知する(ステップ(3))。
集約者は、分析者からフィードバックのデータを受け取ると、AIDからデータ提供者ID及びUIDを復元して、データ提供者IDに対応するデータ提供者に対してUID及びフィードバックのデータを通知する(ステップ(4))。
このような処理を実行すれば、分析者には、提供者ID及びUIDの代わりにAIDが提供されるので、分析者では具体的にどの患者についてのデータであるか、どのデータ提供者からきたデータであるかを特定できない。すなわち、適切な秘匿化がなされている。さらに、本実施の形態では、以下で説明するように、集約者は、提供者ID及びUIDとAIDとの対応関係を表すデータを、秘密に保持しておかなくても良い。すなわち、このような対応関係を表すデータを破棄してしまっても良いので、データ漏洩の発生を抑制することができる。
なお、本実施の形態では、集約者は信頼できるものと仮定する。すなわち、集約者は得たデータを悪用したり不適切に第三者(例えば分析者も含む)に開示したり作為的に改ざんしたりはしないものとする。一方、データ提供者は、自身が提供する個票のデータに関しては信頼できるが、他のデータ提供者が提供するものについては信頼できないものとする。
次に、図1に示した適用例のためのシステムを図2に示す。例えばインターネットなどのネットワーク1には、データ提供者Aが運用しているデータ提供者装置7aと、データ提供者Bが運用しているデータ提供者装置7bと、データ提供者Cが運用しているデータ提供者装置7cと、集約者が運用している集約者装置3と、分析者が運用している分析者装置5とが接続されている。
データ提供者装置7の数は3に限定されるものではない。また、分析者装置5の数も1に限定されるものではない。集約者装置3についても、複数の場合もあるが、ここではこの集約者装置3に個票のデータが集約されるものとする。
次に、集約者装置3の機能ブロック図を図3に示す。集約者装置3は、データ受信部31と、第1データ格納部32と、対応付けデータ生成部33と、第2データ格納部34と、集約識別子生成部35と、第3データ格納部36と、集約データ生成部37と、第4データ格納部38と、データ送信部39と、設定データ格納部40と、第5データ格納部41と、識別子復元部42と、第6データ格納部43とを有する。
データ受信部31は、データ提供者装置7a乃至7cから、個票のデータとデータ提供者IDとの組み合わせ(以下、1つのデータ提供者からの個票のデータを第1テーブルと呼ぶ)を受信すると、第1データ格納部32に格納する。また、データ受信部31は、分析者装置5から、AID及び当該AIDについてのデータを受信すると、第5データ格納部41に格納する。
対応付けデータ生成部33は、第1データ格納部32に格納されている複数のデータ提供者からのデータを用いて、UIDとデータ提供者IDの集合との対応付けデータ(以下、第2テーブルと呼ぶ)を生成し、第2データ格納部34に格納する。
設定データ格納部40には、例えば暗号鍵が格納されており、集約識別子生成部35によりデータ提供者ID集合の符号化方式が決定されると当該符号化方式の識別子又は名称及びパラメータも、設定データ格納部40に格納される。
集約識別子生成部35は、第2データ格納部34に格納されている第2テーブルの各レコードについて、符号化を行った上で設定データ格納部40に格納されている暗号鍵を用いて集約識別子(AID)を生成し、UIDとAIDとの対応付けテーブルである第3テーブルを、第3データ格納部36に格納する。なお、集約識別子生成部35は、データ提供者ID集合について用いた符号化方式の識別子を設定データ格納部40に格納する。
集約データ生成部37は、第3データ格納部36に格納されている第3テーブルを用いて、第1データ格納部32に格納されている各第1テーブルの各レコードに含まれるUIDをAIDで置換することで集約データを生成し、第4データ格納部38に格納する。
データ送信部39は、分析者装置5からの要求に応じて第4データ格納部38に格納されている集約データを送信する。また、データ送信部39は、識別子復元部42からの指示に応じて、第6データ格納部43に格納されているデータを、該当するデータ提供者装置7へ送信する。
識別子復元部42は、第5データ格納部41に格納されているAID及び付加データのうちAIDから、設定データ格納部40に格納されているデータを用いて、データ提供者ID及びUIDを復元し、AIDに付加されたデータと共にUID及びデータ提供者IDを、第6データ格納部43に格納する。
次に、図4乃至図16を用いて、集約者装置3の処理内容について説明する。
まず、データ受信部31は、複数のデータ提供者装置7から、提供者IDと個票群のデータとの組み合わせを受信すると、各々第1テーブルとして、第1データ格納部32に格納する(図4:ステップS1)。例えば図5に示すようなデータが第1データ格納部32に格納される。データ提供者Aからのデータは、UIDと、属性aの属性値と、属性bの属性値とが登録されるようになっている。データ提供者Bからのデータについては省略するが、同様の形式のデータが、第1データ格納部32に格納されるものとする。
例えば、予定されていたデータ提供者A乃至Cのデータ提供者IDと個票のデータとの組み合わせが第1データ格納部32に揃うと、対応付けデータ生成部33は、第2テーブル生成処理を実行し、処理結果である第2テーブルを第2データ格納部34に格納する(ステップS3)。この第2テーブル生成処理については、図7及び図8を用いて説明する。なお、例えば図6に示すように、第2テーブルは、UIDに対応付けて提供者IDの集合を格納するテーブルである。
対応付けデータ生成部33は、第1データ格納部32において未処理の提供者IDを1つ特定する(ステップS21)。また、対応付けデータ生成部33は、特定された提供者IDについての第1テーブルから、未処理のUIDを1つ特定する(ステップS23)。
そして、対応付けデータ生成部33は、特定されたUIDは第2テーブルに登録済みであるか判断する(ステップS25)。特定されたUIDが第2テーブルに登録済みであれば、処理はステップS29に移行する。一方、特定されたUIDが第2テーブルに登録済みでなければ、対応付けデータ生成部33は、特定されたUIDの行を第2テーブルに追加する(ステップS27)。そして処理はステップS29に移行する。
その後、対応付けデータ生成部33は、第2テーブルにおいて、特定されたUIDの行に、提供者IDを追加する(ステップS29)。
そして、対応付けデータ生成部33は、特定された提供者IDについての第1テーブルにおいて未処理のUIDが存在しているか判断する(ステップS31)。未処理のUIDが存在している場合には、処理はステップS23に戻る。一方、未処理のUIDが存在していない場合には、対応付けデータ生成部33は、第1データ格納部32において、未処理の提供者IDが存在するか判断する(ステップS33)。未処理の提供者IDが存在する場合には処理はステップS21に戻る。一方、未処理の提供者IDが存在しない場合には、処理は呼出元の処理に戻る。
このような処理の一例を図8を用いて説明する。図8では、データ提供者がA、B、C及びD4つの場合を示しており、ABC順に処理を行う。初期段階として、図8下段左端に示すように、第2テーブルは空の状態である。第2テーブルには、UIDと、当該UIDについての個票のデータを提供したデータ提供者のデータ提供者ID集合とが対応付けて登録されるようになっている。
そして、第1段階として、図8の下段左端から2番目のテーブルに示すように、データ提供者Aについての第1テーブルが処理されると、当該第1テーブルに登録されている各UIDに対して、提供者ID「A」が登録されるようになっている。
次に、第2段階として、図8の下段左端から3番目のテーブルに示すように、データ提供者Bについての第1テーブルが処理されると、当該第1テーブルに登録されている各UIDに対して、提供者ID「B」が登録されるようになっている。
さらに、第3段階として、図8の下段左端から4番目のテーブルに示すように、データ提供者Cについての第1テーブルが処理されると、当該第1テーブルに登録されている各UIDに対して、提供者ID「C」が登録されるようになっている。ここで、UID「045」については、提供者ID集合には「A」及び「C」が含まれるようになる。
最後に、第4段階として、図8の下段右端のテーブルに示すように、データ提供者Dについての第1テーブルが処理されると、当該第1テーブルに登録されている各UIDに対して、提供者ID「D」が登録されるようになっている。ここで、UID「123」については、提供者ID集合には「A」及び「D」が含まれるようになる。
このように、UIDによっては、複数のデータ提供者からの個票のデータに含まれるために、複数の提供者IDが、第2テーブルにおいて登録されるようになる。
図4の処理の説明に戻って、集約識別子生成部35は、第3テーブル生成処理を実行して、処理結果である第3テーブルを第3データ格納部36に格納する(ステップS5)。第3テーブル生成処理については、図10及び図11を用いて説明する。第3テーブルは、例えば図9に示すようなテーブルである。図9の例では、UIDと対応するAIDとが登録されるようになっている。
集約識別子生成部35は、第2データ格納部34に格納されている第2テーブルから、提供者ID集合に対する符号化方式を決定する(ステップS41)。決定された符号化方式についてのデータは、設定データ格納部40に格納される。
採用可能な符号化方式は複数考えられるが、提供者IDの値域、実際に現れた値の数や分布、第2テーブルに現れる1UIDあたりの提供者IDの数などに応じて、符号化後のデータサイズや符号化処理の複雑さなどが、採用する方式によって異なるため、そうした状況に応じて選択する。
典型的な符号化方式としては、提供者IDの値を各ビットに対応させる方式、提供者IDを数値として固定長のビット列にしてそれらを並べる方式、提供者IDを文字列として表現した後(場合によっては区切り文字を挟む、長さを表す数値を挟むなどした上で)文字符号化する方式などが挙げられる。このとき、どのような符号化を行うか、符号化の具体的なパラメータなどは第2テーブルの状態に基づき決定するようにしても良い。
符号化方式や符号化のパラメータを動的に選ぶのであれば、集約者装置3はそれらを保持しておくことになる。但し、符号化方式や符号化パラメータは一般にデータ量が小さく、また秘密にしなければならい訳ではないので、本実施の形態の利用シーンの要件に反しない。
ステップS41では、図11に示すような方式に従って符号化方式を決定する。図11のテーブルでは、選択時の優先順位、適用の条件、符号化の方式名、符号化に伴うパラメータ、及び各符号化方式の簡単な説明が含まれている。
方式BITn(nは32から256の離散的な整数)の方式では、各提供者IDをそれぞれビット番号に割り当て、該当する提供者IDが提供者ID集合に含まれていればそのビットを「1」にすることで、nビットのビット列として表現する。この場合のパラメータは、各提供者IDについて割り当てたビット番号のデータ(現れた提供者IDの列のデータ)を含む。方式名BITnの方式であれば、データ提供者IDの数が、各々32、64、128、256までであれば効率的に符号化できる。
方式IDLISTは、各提供者IDを高々128ビットの固定長ビット列に符号化し、それを並べることで表現する。この方式は、1UIDあたりの提供者ID集合の要素数の最大値mが16以下であって、提供者IDを高々128ビットの固定長ビット列に符号化する手段があれば、採用することができる。なお、この場合のパラメータは、提供者IDを符号化する方式、及び1UIDあたりの提供者ID集合の要素数の最大値mを含む。
方式HUFFMANは、提供者IDが現れる頻度に応じてハフマン木を生成し、それを用いてハフマン符号化を行う。この符号化方式については、ハフマン木をパラメータとして保持しておく。この符号化を行う場合は、上で述べた方式を採用できない場合である。
なお、これらの符号化においては、符号化後のビット列が固定長である方が都合がよい。なぜなら、提供者ID集合の要素数とビット列の長さに相関があると提供者IDの数が推定でき、セキュリティやプライバシーの観点から一部の情報が漏れていると言えるためである。従って、最終的に符号の長さを揃える処理を行うことが望ましい。
また、図11で示した符号化方式及びそれを選ぶための条件に現れる値は一例であり、その他の符号化方式や値を用いても良い。
その後、集約識別子生成部35は、第2テーブルにおける未処理のUIDを1つ特定する(ステップS43)。そして、集約識別子生成部35は、特定されたUIDを符号化する(ステップS45)。UIDについての符号化も様々な方式が考えられるが、UIDについては一意識別子として長さなどが既に決まっている場合が多いので、単純に16進数に直す等の符号化でよい。但し、値の数や分布等に基づき、データ提供者ID集合のように、第2テーブルに基づき符号化方式を決定しても良い。
また、集約識別子生成部35は、特定されたUIDに対応付けられている提供者ID集合を正規化する(ステップS47)。例えば、第2テーブルでは、提供者IDは出現順に登録されているが、例えば重複を排除したり、所定の順番にソートしたりする。
さらに、集約識別子生成部35は、正規化された提供者ID集合を、ステップS41で決定された符号化方式に従って符号化する(ステップS49)。
その後、集約識別子生成部35は、UIDの符号と提供者ID集合の符号とを連結し(ステップS51)、設定データ格納部40に格納されている暗号鍵Kにより、連結された符号を暗号化することで集約識別子AIDを生成する(ステップS53)。
暗号化には、AES(Advanced Encryption Standard)などの一般的な共通鍵暗号方式を用い、集約者が用意した秘密鍵を使う。一般に暗号化の結果(暗号文)はビット列やバイト列だが、文字列のほうが都合よければ文字列表現に直してもよい。一般的には、16進数表現、Base64やBase32符号化による表現などが使われる。
そして、集約識別子生成部35は、UIDとAIDとを対応付けて、第3データ格納部36における第3テーブルに登録する(ステップS55)。
その後、集約識別子生成部35は、第2テーブルにおいて未処理のUIDが存在しているか判断する(ステップS57)。未処理のUIDが存在していれば処理はステップS43に戻る。一方、未処理のUIDが存在しなければ、処理は呼出元の処理に戻る。
図10の処理を、具体的に図12を用いて説明する。第2テーブルの第1レコードにおけるUID「045」と提供者ID集合「A,C」について処理する場合、UID「045」については16進数で符号化すると「002D」となる。一方、提供者ID集合は、第2テーブルの状態から16ビット(2バイト)で表し(図11の例とは異なるがBIT16と表される符号化方式を採用)、最上位ビットを提供者ID「A」に割り当て、2番目のビットを提供者ID「B」に割り当て、3番目のビットを提供者ID「C」に割り当てるということにする。そうすると、提供者ID集合「A,C」は、16進数で「A000」と符号化される。そして、「002D」と「A000」とを連結して「002DA000」を生成して、暗号鍵Kにより暗号化すると16進数「0762b7e9b04a」がAIDとして生成される。そうすると、第3テーブルにおいて、UID「045」に対応付けてAID「0762b7e9b04a」を登録する。
このようにすれば、各UIDについてのAIDが直ぐさま得られるようになる。
図4の処理の説明に戻って、次に、集約データ生成部37は、第3データ格納部36に格納されている第3テーブルを用いて、第1データ格納部32に格納されている各第1テーブルに対して集約データ生成処理を実行し、処理結果である集約データを第4データ格納部38に格納する(ステップS7)。例えば図13に示すようなデータ(第4テーブル)が得られるようになる。図13の例では、AIDに対応付けて、属性aの値、属性bの値等が登録されるようになっている。なお、集約データ生成処理については図14を用いて説明する。
集約データ生成部37は、第1データ格納部32において未処理の提供者IDを1つ特定する(ステップS61)。また、集約データ生成部37は、特定された提供者IDについての第1テーブルから未処理のレコードを1つ読み出す(ステップS63)。そして、集約データ生成部37は、読み出したレコードに含まれるUIDを、第3テーブルにおいて当該UIDに対応付けられているAIDにより置換し、第4データ格納部38における第4テーブルに登録する(ステップS65)。
そして、集約データ生成部37は、特定された提供者IDについての第1テーブルにおいて未処理のレコードが存在しているか判断する(ステップS67)。未処理のレコードが存在している場合には処理はステップS63に戻る。一方、未処理のレコードが存在しない場合には、集約データ生成部37は、第1データ格納部32において未処理の提供者IDが存在しているか判断する(ステップS69)。未処理の提供者IDが存在する場合には処理はステップS61に戻る。一方、未処理の提供者IDが存在しない場合には、呼出元の処理に戻る。このようにすれば、図13に示すような第4テーブルが生成される。
図4の処理の説明に戻って、集約データ生成部37は、第3テーブルを破棄する(ステップS9)。これによって情報漏洩を抑制できる。また、データ送信部39は、例えば分析者装置5からの要求に応じて、第4データ格納部38に格納されている集約データを、要求元の分析者装置5へ送信する(ステップS11)。
分析者装置5は、集約データを集約者装置3から受信すると、所定の処理を実行する。この所定の処理については、どのような処理であっても良く、本実施の形態の主要部ではないので、ここでは説明を省略する。但し、特定のAIDについて特定の付加データが得られたものとする。
以下、特定のAIDについて特定の付加データが得られた後の処理について、図15及び図16を用いて説明する。まず、データ受信部31は、分析者装置5からAID及び付加データを受信すると(図15:ステップS71)、第5データ格納部41に格納する。AIDは暗号化されているので、識別子復元部42は、設定データ格納部40に格納されている暗号鍵Kを用いてAIDに対して復号処理を実行する(ステップS73)。
さらに、識別子復元部42は、復号されたAIDから第1コード及び第2コードを抽出する(ステップS75)。例えば、上位所定ビットがUIDの符号(すなわち第1コード)であり、残余のビットが提供者ID集合の符号(すなわち第2コード)であるから、それぞれのコードを分離抽出する。
その後、識別子復元部42は、第1コードからUIDを復元し、第6データ格納部43に格納する(ステップS77)。UIDを符号化する際に用いた符号化方式に従ってUIDを復元する。例えば16進数を10進数に直す。また、識別子復元部42は、設定データ格納部40に格納されている符号化方式及びパラメータに基づき、第2コードから提供者ID集合を復元し、第6データ格納部43に格納する(ステップS79)。データ提供者ID集合を符号化する際に用いられた符号化方式に従い且つパラメータを用いて、データ提供者ID集合を復元する。
そして、識別子復元部42は、データ送信部39に指示を出力し、データ送信部39は、識別子復元部42からの指示に応じて、第6データ格納部43に格納されているUID及び付加データを、データ提供者ID集合から特定されるデータ提供者のデータ提供者装置7を特定し、当該データ提供者装置7にUID及び付加データを送信する(ステップS81)。
このようにすれば、分析結果のフィードバックを、適切なデータ提供者に対して行うことができるようになる。
図15の処理内容について具体的に図16を用いて説明する。AID「0762b7e9b04a」を受信すると、暗号鍵Kを用いて暗号の復号を行うと、「002DA000」が得られる。この場合、上位4桁がUIDの符号であり、下位4桁がデータ提供者ID集合の符号であるから、「002D」を10進数化してUID「045」を復元する。一方、「A000」を符号化方式及びパラメータに基づき復号すると「A,C」が得られる。すなわち、「1010000000000000」であって、最上位ビットと3番目のビットが「1」となっているので、AとCとが得られる。
以上のような処理を実行すれば、第3テーブルを破棄してしまっても、適切にUID及びデータ提供者ID集合を復元することができるため、UIDに関係するデータ提供者にのみ当該UID及び付加データを送信することができるようになる。すなわち、情報漏洩を抑制できるようになる。
以上本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、処理フローについては、処理結果が変わらない限り、ステップの順番を入れ替えたり、複数のステップを入れ替えるようにしても良い。
さらに、UIDの符号とデータ提供者ID集合の符号とを連結してから暗号化する例を示したが、UIDの符号とデータ提供者ID集合の符号とを別々に暗号化して連結するようにしても良い。さらに符号化は暗号化を含む場合もある。
符号化方式を動的に決定する例を示しているが、データ提供者の数が固定である場合には、それに応じた固定の符号化方式を使用する場合もある。
さらに、集約者装置3について、1台のコンピュータが上で述べた機能を有する例を示したが、複数台のコンピュータにて上記の機能を実現するようにしても良い。
なお、上で述べた集約者装置3は、例えばコンピュータ装置であって、図17に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本実施の形態をまとめると、以下のようになる。
本実施の形態の第1の態様に係る情報処理方法は、(A)第1の識別子を含む1又は複数のデータブロックと当該1又は複数のデータブロックの提供元の第2の識別子との組み合わせを複数格納するデータ格納部から、第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出し、(B)第1の識別子の各々について、当該第1の識別子の符号と、当該第1の識別子に対応付けられている第2の識別子の符号とを連結することにより、第3の識別子を生成し、(C)データ格納部に格納されている各データブロックについて、当該データブロックに含まれる第1の識別子について生成された第3の識別子により当該データブロックに含まれる第1の識別子を置換する処理を含む。
第1及び第2の識別子を秘匿化でき、さらに、このような手順を逆に処理すれば第1の識別子及び第2の識別子を復元できる。
また、上で述べた第3の識別子の生成が、第1の識別子の符号と第2の識別子の符号とが連結された符号に対する暗号化処理を含むようにしても良い。なお、符号化自体が暗号化を含む場合もある。
さらに、上で述べた第3の識別子の生成が、第2の識別子の総数、又は第2の識別子の総数及び第1の識別子に対応付けられている第2の識別子の最大数に基づき特定される符号化方式にて第2の識別子の符号を決定する処理を含むようにしても良い。状況に応じた適切な符号化方式を採用することで、効率的な符号化が可能となる。
また、本情報処理方法は、第1の識別子と第3の識別子との関係を表すデータを、置換する処理後に破棄する処理をさらに含むようにしても良い。このようにデータを破棄しても復元でき、データ漏洩を抑制することができるようになる。
さらに、本情報処理方法は、例えば他のコンピュータから特定の第3の識別子を受信すると、当該特定の第3の識別子から、第1の識別子の符号と第2の識別子の符号とを抽出し、抽出された第1の識別子の符号から第1の識別子を復号し、抽出された第2の識別子の符号から1又は複数の第2の識別子を復号する処理をさらに含むようにしても良い。このように、第1の識別子及び第2の識別子を復元できれば、第1の識別子に関連する第2の識別子が表す提供元に対してのみ第1の識別子及び当該第1の識別子のデータを送信できるので、情報漏洩を抑制できる。
本実施の形態の第2の態様に係る情報処理方法は、第1の識別子を受信すると、当該第1の識別子から、第2の識別子の符号と第3の識別子の符号とを抽出し、抽出された第2の識別子の符号から第2の識別子を復号し、抽出された第3の識別子の符号から1又は複数の第3の識別子を復号する処理を含む。
なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1の識別子を含む1又は複数のデータと当該1又は複数のデータの提供元を特定する第2の識別子との組み合わせを複数格納するデータ格納部から、前記第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出し、
前記第1の識別子の各々について、当該第1の識別子と、当該第1の識別子に対応付けられている第2の識別子との組に基づいて、第3の識別子を生成し、
前記データ格納部に格納されている各データについて、当該データに含まれる第1の識別子について生成された第3の識別子により当該データに含まれる第1の識別子を置換する
処理を含み、コンピュータにより実行される情報処理方法。
(付記2)
前記第3の識別子の生成が、前記第1の識別子と前記第2の識別子との組に対する暗号化処理を含む
付記1記載の情報処理方法。
(付記3)
前記第3の識別子の生成が、前記第2の識別子の総数、又は前記第2の識別子の総数及び前記第1の識別子に対応付けられている第2の識別子の最大数に基づき特定される符号化方式にて前記第1および第2の識別子を符号化する処理を含む
付記1又は2記載の情報処理方法。
(付記4)
前記第1の識別子と前記第3の識別子との関係を表すデータを、前記置換する処理後に破棄する処理をさらに含む付記1乃至3のいずれか1つ記載の情報処理方法。
(付記5)
特定の第3の識別子を受信すると、当該特定の第3の識別子から、第1の識別子と1又は複数の第2の識別子とを抽出する処理をさらに含む付記1乃至4のいずれか1つ記載の情報処理方法。
(付記6)
前記特定の第3の識別子から抽出された第1の識別子の符号から第1の識別子を復号し、
前記特定の第3の識別子から抽出された第2の識別子の符号から1又は複数の第2の識別子を復号する
処理をさらに含む付記5記載の情報処理方法。
(付記7)
第1の識別子を受信すると、当該第1の識別子から、第2の識別子の符号と第3の識別子の符号とを抽出し、
抽出された前記第2の識別子の符号から第2の識別子を復号し、
抽出された前記第3の識別子の符号から1又は複数の第3の識別子を復号する
処理を含み、コンピュータにより実行される情報処理方法。
(付記8)
第1の識別子を含む1又は複数のデータと当該1又は複数のデータの提供元を特定する第2の識別子との組み合わせを複数格納するデータ格納部から、前記第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出し、
前記第1の識別子の各々について、当該第1の識別子と、当該第1の識別子に対応付けられている第2の識別子との組に基づいて第3の識別子を生成し、
前記データ格納部に格納されている各データについて、当該データに含まれる第1の識別子について生成された第3の識別子により当該データに含まれる第1の識別子を置換する
処理を、コンピュータに実行させるためのプログラム。
(付記9)
第1の識別子を受信すると、当該第1の識別子から、第2の識別子の符号と第3の識別子の符号とを抽出し、
抽出された前記第2の識別子の符号から第2の識別子を復号し、
抽出された前記第3の識別子の符号から1又は複数の第3の識別子を復号する
処理を、コンピュータに実行させるためのプログラム。
(付記10)
第1の識別子を含む1又は複数のデータと当該1又は複数のデータの提供元を特定する第2の識別子との組み合わせを複数格納するデータ格納部と、
前記データ格納部から、前記第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出する抽出部と、
前記第1の識別子の各々について、当該第1の識別子と、当該第1の識別子に対応付けられている第2の識別子との組に基づいて第3の識別子を生成する生成部と、
前記データ格納部に格納されている各データについて、当該データに含まれる第1の識別子について生成された第3の識別子により当該データに含まれる第1の識別子を置換する置換部と、
を有する情報処理装置。
(付記11)
第1の識別子を受信するデータ受信部と、
前記第1の識別子から、第2の識別子の符号と第3の識別子の符号とを抽出し、抽出された前記第2の識別子の符号から第2の識別子を復号し、抽出された前記第3の識別子の符号から1又は複数の第3の識別子を復号する復号部と、
を有する情報処理装置。
1 ネットワーク
3 集約者装置
5 分析者装置
7 データ提供者装置
31 データ受信部
32 第1データ格納部
33 対応付けデータ生成部
34 第2データ格納部
35 集約識別子生成部
36 第3データ格納部
37 集約データ生成部
38 第4データ格納部
39 データ送信部
40 設定データ格納部
41 第5データ格納部
42 識別子復元部
43 第6データ格納部

Claims (11)

  1. 第1の識別子を含む1又は複数のデータと当該1又は複数のデータの提供元を特定する第2の識別子との組み合わせを複数格納するデータ格納部から、前記第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出し、
    前記第1の識別子の各々について、当該第1の識別子と、当該第1の識別子に対応付けられている第2の識別子との組に基づいて、第3の識別子を生成し、
    前記データ格納部に格納されている各データについて、当該データに含まれる第1の識別子について生成された第3の識別子により当該データに含まれる第1の識別子を置換する
    処理を含み、コンピュータにより実行される情報処理方法。
  2. 前記第3の識別子の生成が、前記第1の識別子と前記第2の識別子との組に対する暗号化処理を含む
    請求項1記載の情報処理方法。
  3. 前記第3の識別子の生成が、前記第2の識別子の総数、又は前記第2の識別子の総数及び前記第1の識別子に対応付けられている第2の識別子の最大数に基づき特定される符号化方式にて前記第1および第2の識別子を符号化する処理を含む
    請求項1又は2記載の情報処理方法。
  4. 前記第1の識別子と前記第3の識別子との関係を表すデータを、前記置換する処理後に破棄する処理をさらに含む請求項1乃至3のいずれか1つ記載の情報処理方法。
  5. 特定の第3の識別子を受信すると、当該特定の第3の識別子から、第1の識別子と1又は複数の第2の識別子とを抽出する処理をさらに含む請求項1乃至4のいずれか1つ記載の情報処理方法。
  6. 前記特定の第3の識別子から抽出された第1の識別子の符号から第1の識別子を復号し、
    前記特定の第3の識別子から抽出された第2の識別子の符号から1又は複数の第2の識別子を復号する
    処理をさらに含む請求項5記載の情報処理方法。
  7. 第1の識別子を受信すると、当該第1の識別子から、第2の識別子の符号と第3の識別子の符号とを抽出し、
    抽出された前記第2の識別子の符号から第2の識別子を復号し、
    抽出された前記第3の識別子の符号から1又は複数の第3の識別子を復号する
    処理を含み、コンピュータにより実行される情報処理方法。
  8. 第1の識別子を含む1又は複数のデータと当該1又は複数のデータの提供元を特定する第2の識別子との組み合わせを複数格納するデータ格納部から、前記第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出し、
    前記第1の識別子の各々について、当該第1の識別子と、当該第1の識別子に対応付けられている第2の識別子との組に基づいて第3の識別子を生成し、
    前記データ格納部に格納されている各データについて、当該データに含まれる第1の識別子について生成された第3の識別子により当該データに含まれる第1の識別子を置換する
    処理を、コンピュータに実行させるためのプログラム。
  9. 第1の識別子を受信すると、当該第1の識別子から、第2の識別子の符号と第3の識別子の符号とを抽出し、
    抽出された前記第2の識別子の符号から第2の識別子を復号し、
    抽出された前記第3の識別子の符号から1又は複数の第3の識別子を復号する
    処理を、コンピュータに実行させるためのプログラム。
  10. 第1の識別子を含む1又は複数のデータと当該1又は複数のデータの提供元を特定する第2の識別子との組み合わせを複数格納するデータ格納部と、
    前記データ格納部から、前記第1の識別子の各々について、当該第1の識別子に対応付けられている第2の識別子を抽出する抽出部と、
    前記第1の識別子の各々について、当該第1の識別子と、当該第1の識別子に対応付けられている第2の識別子との組に基づいて第3の識別子を生成する生成部と、
    前記データ格納部に格納されている各データについて、当該データに含まれる第1の識別子について生成された第3の識別子により当該データに含まれる第1の識別子を置換する置換部と、
    を有する情報処理装置。
  11. 第1の識別子を受信するデータ受信部と、
    前記第1の識別子から、第2の識別子の符号と第3の識別子の符号とを抽出し、抽出された前記第2の識別子の符号から第2の識別子を復号し、抽出された前記第3の識別子の符号から1又は複数の第3の識別子を復号する復号部と、
    を有する情報処理装置。
JP2012249302A 2012-11-13 2012-11-13 情報処理方法、プログラム及び情報処理装置 Pending JP2014098753A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012249302A JP2014098753A (ja) 2012-11-13 2012-11-13 情報処理方法、プログラム及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012249302A JP2014098753A (ja) 2012-11-13 2012-11-13 情報処理方法、プログラム及び情報処理装置

Publications (1)

Publication Number Publication Date
JP2014098753A true JP2014098753A (ja) 2014-05-29

Family

ID=50940816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012249302A Pending JP2014098753A (ja) 2012-11-13 2012-11-13 情報処理方法、プログラム及び情報処理装置

Country Status (1)

Country Link
JP (1) JP2014098753A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019517167A (ja) * 2017-03-03 2019-06-20 グーグル エルエルシー 特定の識別情報を開示することなく識別子の間のリンクを確立するためのシステムおよび方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003076838A (ja) * 2001-09-04 2003-03-14 Mizuho Bank Ltd 名寄せ処理方法及び名寄せ処理プログラム
JP2004534988A (ja) * 2001-02-15 2004-11-18 イーワイズ システムズ プロプライエタリー リミテッド 機密ネットワークアクセス
JP2011193161A (ja) * 2010-03-12 2011-09-29 Hitachi Information Systems Ltd 暗号管理システム及び暗号管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004534988A (ja) * 2001-02-15 2004-11-18 イーワイズ システムズ プロプライエタリー リミテッド 機密ネットワークアクセス
JP2003076838A (ja) * 2001-09-04 2003-03-14 Mizuho Bank Ltd 名寄せ処理方法及び名寄せ処理プログラム
JP2011193161A (ja) * 2010-03-12 2011-09-29 Hitachi Information Systems Ltd 暗号管理システム及び暗号管理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6016007495; C. Quantin, et al.: 'Automatic Record Hash Coding and Linkage for Epidemiological Follow-up Data Confidentiality' Methods of Information in Medicine Volume 37, Issue 3, 1998, pp.271-277 *
JPN6016017592; 星野 隆之: '大量かつ複雑な非構造化データを扱う解析基盤の仕組み' 技報 UNISYS TECHNOLOGY REVIEW Vol.31、No. 4, 20120331, p.59-67, 日本ユニシス株式会社 *
JPN7016001160; Rakesh Agrawal, et al.: 'Information Sharing Across Private Databases' Proceedings fo the 2003 ACM SIGMOD internatinal conference on Management of data , 200306, pp.86-97, ACM *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019517167A (ja) * 2017-03-03 2019-06-20 グーグル エルエルシー 特定の識別情報を開示することなく識別子の間のリンクを確立するためのシステムおよび方法
US10764041B2 (en) 2017-03-03 2020-09-01 Google Llc Systems and methods for establishing a link between identifiers without disclosing specific identifying information
US11240009B2 (en) 2017-03-03 2022-02-01 Google Llc Systems and methods for establishing a link between identifiers without disclosing specific identifying information
US11743034B2 (en) 2017-03-03 2023-08-29 Google Llc Systems and methods for establishing a link between identifiers without disclosing specific identifying information

Similar Documents

Publication Publication Date Title
US7349959B2 (en) Method for creating and processing a soap message, and method, apparatus and program for processing information
EP3000068B1 (en) Protecting data
CN108280356B (zh) 文件解密方法、装置、处理终端及计算机可读存储介质
CN109450777B (zh) 会话信息提取方法、装置、设备和介质
JP6364287B2 (ja) データ秘匿・復元装置、方法およびプログラム、データ秘匿・復元システム、ならびに帳票作成装置
CN105359155B (zh) 使用压缩破坏口令攻击
JP2012164031A (ja) データ処理装置及びデータ保管装置及びデータ処理方法及びデータ保管方法及びプログラム
CN112437060B (zh) 一种数据传输方法、装置、计算机设备及存储介质
JP6819335B2 (ja) パーソナルデータ提供システム、パーソナルデータ提供方法及び情報処理装置
CN111191255A (zh) 信息加密处理的方法、服务器、终端、设备以及存储介质
CN106529317A (zh) 基于Shadow DOM的Web应用加解密方法
CN115603907A (zh) 加密存储数据的方法、装置、设备和存储介质
CN114969128A (zh) 一种基于安全多方计算技术的隐匿查询方法、系统和存储介质
JP2015090993A (ja) 暗号制御装置、暗号制御方法、及びプログラム
JP2014098753A (ja) 情報処理方法、プログラム及び情報処理装置
CN108134799B (zh) 新型编解码方法及其装置
CN102238150A (zh) 表单注册方法及服务器
Manikandasaran et al. MONcrypt: a technique to ensure the confidentiality of outsourced data in cloud storage
CN115459984A (zh) 加密、解密方法和装置
CN115001768A (zh) 基于区块链的数据交互方法、装置、设备及存储介质
US20220311596A1 (en) A computer-implemented method of performing feistel-network-based block-cipher encryption of plaintext
JP2012247882A (ja) 情報のマッチングシステム
Tharakan et al. Security enhancement and monitoring for data sensing networks using a novel asymmetric mirror-key data encryption method
Tirmizi et al. Developing an API for Block-Cipher Encryption powered by Supervised Learning
KR101625018B1 (ko) 데이터 암호화 장치 및 방법, 그를 이용한 컴퓨팅 장치 및 통신 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160720

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161213