JP2014013479A - 情報処理装置、情報処理方法、プログラム、及び情報処理システム - Google Patents

情報処理装置、情報処理方法、プログラム、及び情報処理システム Download PDF

Info

Publication number
JP2014013479A
JP2014013479A JP2012150237A JP2012150237A JP2014013479A JP 2014013479 A JP2014013479 A JP 2014013479A JP 2012150237 A JP2012150237 A JP 2012150237A JP 2012150237 A JP2012150237 A JP 2012150237A JP 2014013479 A JP2014013479 A JP 2014013479A
Authority
JP
Japan
Prior art keywords
data
frequency
function
attribute
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012150237A
Other languages
English (en)
Inventor
Yohei Kawamoto
洋平 川元
Taizo Shirai
太三 白井
Kazuya Kamio
一也 神尾
Takeshi Tanaka
雄 田中
Koichi Sakumoto
紘一 作本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012150237A priority Critical patent/JP2014013479A/ja
Priority to US13/903,217 priority patent/US20140012862A1/en
Priority to CN201310263008.2A priority patent/CN103530305A/zh
Publication of JP2014013479A publication Critical patent/JP2014013479A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】データの提供者及び利用者にとって有用なデータ提供システムを実現可能とする情報処理装置、情報処理方法、プログラム、及び情報処理システムを提供すること。
【解決手段】本技術の一形態に係る情報処理装置は、算出部と、生成部とを具備する。前記算出部は、所定の属性と前記属性に関する1以上の属性値とを有するデータベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出する。前記生成部は、前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成する。
【選択図】図6

Description

本技術は、例えばデータベースの提供等に用いられる情報処理装置、情報処理方法、プログラム、及び情報処理システムに関する。
例えば特許文献1には、データベースにおける個々のデータを秘匿しつつ、それらのデータの集計結果として、統計的手法による統計値のみを得る技術について記載されている。例えば企業等の各種組織が所有する顧客情報等を、学術研究やマーケティング分析のために流通させるような場合に上記のような技術が用いられる。
特許文献1に記載のデータ集計方法では、データに対して逆関数が定義可能な関数による変換処理が行われ、変換された変換データに対して撹乱処理が行われる。この攪乱処理された撹乱データをもとに、上記の変換データに関する統計値の近似値が算出される。そしてこの統計値に対して逆関数による逆変換処理が行われることで、データに関する統計値の近似値が生成される。
このデータ集計方法では、データに対して撹乱処理だけでなく変換処理が行われるので、データの秘匿性が向上する。その一方で、変換処理及び逆変換処理では統計値の精度は低下しないので、統計値の精度の低下は撹乱処理による分だけに抑えられる。この結果、生成される統計値の精度とデータ秘匿性とを両立させることができる(特許文献1の段落[0001]−[0010]等参照)。
特開2010−93424号公報
上記のようなデータの提供等において、データの提供者及び利用者にとって有用なシステムが求められる。
以上のような事情に鑑み、本技術の目的は、データの提供者及び利用者にとって有用なデータ提供システムを実現可能とする情報処理装置、情報処理方法、プログラム、及び情報処理システムを提供することにある。
上記目的を達成するため、本技術の一形態に係る情報処理装置は、算出部と、生成部とを具備する。
前記算出部は、所定の属性と前記属性に関する1以上の属性値とを有するデータベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出する。
前記生成部は、前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成する。
この情報処理装置では、データベースが有する1以上の属性値の出現頻度に関する頻度関数が算出される。この頻度関数が用いられて上記の出現頻度に応じたサンプルデータが生成される。この結果、データの提供者及び利用者にとって有用なデータ提供システムが実現可能となる。
前記頻度関数は、前記属性値ごとの出現頻度である第1の出現頻度を表してもよい。
このように属性値ごとの第1の出現頻度を表す関数が頻度関数として用いられてもよい。
前記生成部は、前記頻度関数により表される前記サンプル属性値ごとの第1の出現頻度と、前記サンプルデータにおける前記サンプル属性値ごとの出現頻度である第2の出現頻度とが対応するように、前記サンプルデータを生成してもよい。
これによりデータベースに関する有用なサンプルデータを生成することが可能となる。
前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合を近似した近似値を前記第1の出現頻度として表す前記頻度関数を算出してもよい。
この情報処理装置では、属性値全体に対する出現回数の割合が算出される。そして出現回数の割合の近似値が第1の出現頻度として表される。これにより出現回数の割合に応じたサンプルデータが生成される。
前記算出部は、所定のモデル関数を選択し、前記所定のモデル関数を前記属性値ごとの前記出現回数の割合にフィッティングすることで前記頻度関数を算出してもよい。
このようにモデル関数をフィッティングすることで頻度関数が算出されてもよい。
前記算出部は、最尤推定法により前記属性値ごとの前記出現回数の割合に応じた確率関数を推定することで、当該推定された確率関数を前記頻度関数として算出してもよい。
このように最尤推定法により推定された確率関数が頻度関数として用いられてもよい。
前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合を前記第1の出現頻度として表す前記頻度関数を生成してもよい。
このように出現回数の割合が第1の出現頻度として表されてもよい。これにより出現回数の割合に応じたサンプルデータが生成される。
前記情報処理装置は、前記1以上の属性値のうち所定の属性値を、前記算出部による前記頻度関数の算出に用いられない対象外属性値として設定する設定部をさらに具備してもよい。この場合、前記算出部は、前記設定された前記対象外属性値を除いた前記1以上の属性値の出現頻度に関する前記頻度関数を算出してもよい。また前記生成部は、前記算出された頻度関数をもとに、前記対象外属性値を除いた前記1以上の属性値から前記サンプルデータを生成してもよい。
この情報処理装置では、頻度関数の算出に用いられない対象外属性値が設定される。例えばサンプルデータに含めたくないような特徴的な属性値が対象外属性値として設定される。これにより有用なサンプルデータを生成することができる。
前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合をもとに前記頻度関数を生成してもよい。この場合、前記設定部は、前記属性値ごとの前記出現回数の割合をもとに、当該出現回数の割合が所定よりも小さい属性値を前記対象外属性値として設定してもよい。
このように出現回数の割合が所定の値よりも小さい属性値が対象外属性値として設定されてもよい。これにより例えば出現回数の割合が小さい特徴的な属性値が対処外属性値として設定される。
前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合をもとに前記頻度関数を生成してもよい。この場合、前記設定部は、前記属性値ごとの前記出現回数の割合をもとに、当該出現回数の割合と前記頻度関数により表される前記第1の出現頻度との差が、所定よりも大きい属性値を前記対象外属性値として設定してもよい。また前記算出部は、前記設定された前記対象外属性値を除いた前記1以上の属性値の出現頻度に関する前記頻度関数を改めて算出してもよい。また前記生成部は、前記改めて算出された頻度関数をもとに、前記対象外属性値を除いた前記1以上の属性値から前記サンプルデータを生成してもよい。
この情報処理装置では、算出された頻度関数により表される第1の出現頻度と、出現回数の割合との差が算出される。その差が所定よりも大きい属性値が対象外属性値として設定される。そして対象外属性値を除いた属性値に関する出現頻度が改めて算出される。これにより例えば出現回数の割合と第1の出現頻度との差が大きい特徴的な属性値が対象外属性値として設定される。
前記情報処理装置は、受信部と、選択部とをさらに具備してもよい。
前記受信部は、外部装置からの、前記データベースの所定のデータに関する前記サンプルデータの要求を受信する。
前記選択部は、前記要求をもとに、前記データベースから前記所定のデータを選択する。
この場合、前記算出部は、前記選択された所定のデータに関して前記頻度関数を算出してもよい。また前記生成部は、前記算出された頻度関数をもとに前記所定のデータから前記サンプルデータを生成してもよい。
このようにデータベース内の所定のデータに関するサンプルデータの要求が受信されてもよい。そして所定のデータが適宜選択されてそのデータに関するサンプルデータが適宜生成されてもよい。
前記受信部は、外部装置が有する外部データと、前記データベースの前記外部データに関連する関連データに関する前記サンプルデータの要求とを受信してもよい。この場合、前記算出部は、前記外部データと前記関連データとの組み合わせを前記1以上の属性値として、前記頻度関数を算出してもよい。また前記生成部は、前記算出された頻度関数をもとに、前記外部データと前記関連データとの組み合わせを1以上のサンプル属性値として含む前記サンプルデータを生成してもよい。
この情報処理装置は、外部装置から外部データと、サンプルデータの要求とを受信する。そして外部データとこれに関連する関連データとの組み合わせについてのサンプルデータが生成される。これにより、データの提供者及び利用者にとって有用なデータ提供システムが実現可能となる。
前記受信部、前記算出部、及び前記生成部は、マルチパーティプロトコルに基づいてそれぞれ動作可能であってもよい。
上記で説明した外部データと関連データとの組み合わせについてのサンプルデータの生成が、マルチパーティプロトコルに基づいて実行されてもよい。これにより、データの提供者及び利用者にとって有用なデータ提供システムが実現可能となる。
前記受信部は、完全準同型暗号により暗号化された前記外部データを受信してもよい。この場合、前記情報処理装置は、前記完全準同型暗号により前記関連データを暗号化する暗号化部をさらに具備してもよい。また前記算出部は、前記暗号化された前記外部データと前記暗号化された前記関連データとの組み合わせに関して前記頻度関数を算出してもよい。また前記生成部は、前記算出された頻度関数をもとに、前記暗号化された前記外部データと前記暗号化された前記関連データとの組み合わせに関する前記サンプルデータを生成してもよい。
このように、完全準同型暗号により外部データと関連データとがそれぞれ暗号化されてもよい。そして暗号化された外部データ及び関連データの組み合わせに関するサンプルデータが生成されてもよい。
前記算出部は、前記1以上の属性値の出現頻度に関する関数として、第1の頻度関数と前記第1の頻度関数と異なる第2の頻度関数とを生成することが可能であってもよい。この場合、前記受信部は、前記外部装置からの、前記第1及び前記第2の頻度関数のいずれかを選択するための指定を受信してもよい。
このように算出部が、異なる2つの頻度関数をそれぞれ生成可能であってもよい。そして外部装置からの指定をもとに、第1及び第2の頻度関数のいずれかが適宜選択されてもよい。これにより、有用なデータ提供システムが実現可能となる。
本技術の一形態に係る情報処理方法は、所定の属性と前記属性に関する1以上の属性値とを有するデータベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出することを含む。
前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータが生成される。
本技術の一形態に係るプログラムは、以下のステップをコンピュータに実行させる。
所定の属性と前記属性に関する1以上の属性値とを有するデータベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出するステップ。
前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成するステップ。
本技術の一形態に係る情報処理システムは、第1の情報処理装置と、第2の情報処理装置とを具備する。
前記第1の情報処理装置は、所定の属性と前記属性に関する1以上の属性値とを有するデータベースを提供可能である。
前記第2の情報処理装置は、前記第1の情報処理装置に前記データベースに関するサンプルデータの要求を送信する。
前記第1の情報処理装置は、受信部と、算出部と、生成部とを有する。
前記受信部は、前記第2の情報処理装置からの前記サンプルデータの要求を受信する。
前記算出部は、前記データベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出する。
前記生成部は、前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成する。
前記第2の情報処理装置は、送信部と、受信部とを有する。
前記送信部は、前記サンプルデータの要求を送信する。
前記受信部は、前記生成されたサンプルデータを受信する。
本技術の他の形態に係る情報処理装置は、送信部と、受信部とを具備する。
前記送信部は、所定の属性と前記属性に関する1以上の属性値とを有するデータベースを提供可能なデータ提供装置に、前記データベースに関するサンプルデータの要求を送信する。
前記受信部は、前記要求を受信した前記データ提供装置により前記1以上の属性値の出現頻度に関する関数である頻度関数をもとに生成された、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記出現頻度に応じた前記サンプルデータを受信する。
以上のように、本技術によれば、データの提供者及び利用者にとって有用なデータ提供システムが実現可能となる。
本技術の第1の実施形態に係るデータ提供システムの構成例を示す図である。 データ提供装置及びデータ受信装置のハードウェア構成例を示す図である。 データ提供システムの動作の概要を説明するための模式的な図である。 データ提供装置が有するデータベースの一例を示す図である。 データ提供装置のソフトウェア構成例を示す模式的な図である。 データ提供装置による擬似サンプルデータの生成を示すフローチャートである。 データベースから選択された所定のデータの例を示す図である。 属性値ごとの出現回数の割合を示す模式的な図である。 頻度分布を近似した頻度関数の例を説明するための図である。 属性値ごとの出現回数の割合を第1の出現頻度とする頻度関数を説明するための図である。 本技術の第2の実施形態に係る対象外属性値の設定処理を説明するための模式的な図である。 対象外属性値の設定処理の他の例を説明するための模式的な図である。 対象外属性値の設定処理の他の例を説明するための模式的な図である。 本技術の第3の実施形態に係るデータ提供システムの動作の概要を説明するための模式的な図である。 データ提供装置及びデータ受信装置がそれぞれ有するデータベースの一例を示す図である。 データ提供装置のソフトウェア構成例を示す模式的な図である。 データ提供装置による擬似サンプルデータの生成を示すフローチャートである。 所定の条件に関するデータを表すテーブルを示す図である。 本技術の第4の実施形態に係るデータ提供システムの動作の概要を説明するための模式的な図である。 データ提供装置のソフトウェア構成例を示す模式的な図である。 データ提供装置による擬似サンプルデータの生成を示すフローチャートである。 本技術の第5の実施形態に係るデータ提供装置のソフトウェア構成例を示す模式的な図である。 データ提供装置による擬似サンプルデータの生成を示すフローチャートである。
以下、本技術に係る実施形態を、図面を参照しながら説明する。
<第1の実施形態>
[情報処理システムの構成]
図1は、本技術の第1の実施形態に係る情報処理システムであるデータ提供システムの構成例を示す図である。データ提供システム100は、データ提供者が使用する第1の情報処理装置としてのデータ提供装置10と、データ利用者が使用する第2の情報処理装置としてのデータ受信装置20とを有する。
データ提供装置10とデータ受信装置20とは、例えばLAN(Local Area Network)やWAN(Wide Area Network)等のネットワーク1で接続される。データ提供装置10及びデータ受信装置20間でデータの送受信か可能であれば、2つの装置10及び20の接続形態は限定されない。
データ提供システム100に、複数のデータ提供装置10と複数のデータ受信装置20とがそれぞれ配置されてもよい。すなわちデータ提供装置10とデータ受信装置20との数は限定されない。データ提供システム100において、ネットワーク1を介して互いに接続されている他の装置は外部装置に相当する。例えば図1では、データ提供装置10からみて、データ受信装置20は外部装置に相当する。
図1に示すように、データ提供装置10は、各種のデータを記憶する記憶部708を有する。この記憶部708には、外部装置へネットワーク1を介して提供することが可能なデータベース30が記憶されている。データベース30は、データ提供装置10が有する記憶部708に記憶されている。
例えばデータ利用者はデータ提供装置10が有するデータベース30が所望のデータである場合にデータの提供を要求する。データ提供者はデータベース30が所望のデータであるか否かを確認するために、データ受信装置20を用いてデータ提供装置10へデータベース30に関するサンプルデータ50の要求を送信する。
データ提供装置10は、サンプルデータ50の要求を受信すると、以下に説明するように、本技術に係るサンプルデータ50を生成する。そしてサンプルデータ50をデータ受信装置20へ送信する。この本技術に係るサンプルデータ50の生成により、データの提供者及び利用者にとって有用なデータ提供システム100が実現される。
[データ提供装置のハードウェア構成]
本実施形態では、データ提供装置10及びデータ受信装置20として、図2に示すようなハードウェア構成を有するPC(Personal Computer)70が用いられる。しかしこれに限定されず、他の構成を有するコンピュータが適宜用いられてもよい。またデータ提供装置10及びデータ受信装置20が互いに等しいハードウェア構成を有する必要もない。
PC70は、CPU(Central Processing Unit)701、ROM(Read Only Memory)702、RAM(Random Access Memory)703、入出力インターフェース705、及び、これらを互いに接続するバス704を備える。
入出力インターフェース705には、表示部706、入力部707、記憶部708、通信部709、ドライブ部710等が接続される。
表示部706は、例えば液晶、EL(Electro-Luminescence)、CRT(Cathode Ray Tube)等を用いた表示デバイスである。
入力部707は、例えばポインティングデバイス、キーボード、タッチパネル、その他の操作装置である。入力部707がタッチパネルを含む場合、そのタッチパネルは表示部706と一体となり得る。
記憶部708は、不揮発性の記憶デバイスであり、例えばHDD(Hard Disk Drive)、フラッシュメモリ、その他の固体メモリである。
ドライブ部710は、例えば光学記録媒体、フロッピー(登録商標)ディスク、磁気記録テープ、フラッシュメモリ等、リムーバブルの記録媒体711を駆動することが可能なデバイスである。これに対し上記記憶部708は、主にリムーバブルでない記録媒体を駆動する、データ提供装置10に予め搭載されたデバイスとして使用される場合が多い。
リムーバブルな記録媒体711にデータベース30が記憶されてもよい。そしてドライブ部710により、データベース30が適宜読み出されてもよい。
通信部709は、LAN、WAN等のネットワークに接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部709は、有線及び無線のどちらを利用して通信するものであってもよい。通信部709は、PC70とは別体で使用される場合もある。
例えばこの通信部709により、データ受信装置20からの種々のデータ、指示又は要求等が受信される。例えば上記したサンプルデータ50の要求も通信部709により受信される。通信部709は、本実施形態において、データ提供装置10の受信部として機能する。
また図2をデータ受信装置20のハードウェア構成例とみた場合、通信部709により、データ提供装置10への種々のデータや要求等が送信される。また通信部709により、データ提供装置10からのサンプルデータ50等が受信される。従って通信部709は、本実施形態において、データ受信装置20の送信部及び受信部として機能する。
上記のようなハードウェア構成を有するPC70による情報処理は、記憶部708またはROM702等に記憶されたソフトウェアと、PC70のハードウェア資源との協働により実現される。具体的には、CPU701が記憶部708またはROM702等に記憶された、ソフトウェアを構成するプログラムをRAM703にロードして実行することにより実現される。プログラムは、例えば記録媒体を介してPC70にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがPC70にインストールされてもよい。
[データ提供システムの動作]
図3は、本実施形態に係るデータ提供システム100の動作の概要を説明するための模式的な図である。図4は、本実施形態に係るデータ提供装置10が有するデータベース30の一例を示す図である。
本実施形態のデータ提供装置10が有するデータベース30は、リレーショナルデータベースであり、図4に示すテーブル31で表れされる。テーブル31は、フィールド名が「ID番号」、「身長」、「体重」及び「既往症」である4つのフィールド(列)32を有する。またテーブル31は、これらのフィールドのデータがそれぞれ格納されるレコード(行)33を有する。
4つのフィールドのうち「ID番号」のフィールド32は主キーとして設定されている。従ってレコード33は「ID番号」により識別され、レコード33には互いに対応付けられた「身長」、「体重」及び「既往症」の各データが格納される。「ID番号」、「身長」、「体重」及び「既往症」の4つのフィールド32には、それぞれ所定の定義域に応じたデータが格納される。「ID番号」「身長」及び「体重」のフィールド32には整数値が格納され、「既往症」のフィールド32には文字列が格納される。
データベース30は、所定の属性と属性に関する1以上の属性値とを有する。本実施形態では、テーブル31が有する「身長」、「体重」及び「既往症」の各フィールド32の組み合わせが所定の属性31aに相当する。そしてレコード33に格納される「身長」、「体重」及び「既往症」の各データの組み合わせが1以上の属性値31bに相当する。すなわち本実施形態では、リレーショナルデータベースを表すテーブル31の、主キーでないフィールド32が属性に相当し、レコード33に格納される各属性のデータが属性値31bに相当する。
図3に示すように、データ受信装置20から、ある条件を満たすデータのサンプルデータ50の要求が送信される。例えばある条件として以下のものがあげられる。
条件1 テーブル31の身長のデータ
条件2 テーブル31の身長が170cm以上のIDの身長と体重の組み合わせデータ
条件3 テーブル31の既往症がある人の既往症のデータ
すなわち本実施形態では、データベース30の所定のデータ(上記の条件を満たすデータ等)に関するサンプルデータ50の要求が、データ受信装置20からデータ提供装置10に送信される。
サンプルデータ50の要求を受信したデータ提供装置は、本技術に係るサンプルデータ50を生成して、データ受信装置20に送信する。サンプルデータ50は、データベース30の1以上の属性値31bの少なくとも一部を1以上のサンプル属性値51として含む。図3に示すサンプルデータ(x1,x2,・・・xn)の各要素がサンプル属性値51を表している。
[データ提供装置の動作]
本実施形態に係るデータ提供装置10によるサンプルデータ50の生成を詳しく説明する。図5は、データ提供装置10のソフトウェア構成例を示す模式的な図である。図6は、データ提供装置10によるサンプルデータ50の生成を示すフローチャートである。
例えば所定のプログラムを実行するCPU701により、図5に示す各ソフトウェアブロックが実現される。そして各ブロックが図6のフローチャートに示すように動作することでサンプルデータ50が生成される。なお各ブロックを実現するための専用のハードウェアが適宜用いられてもよい。
データ利用者によりデータ受信装置20にサンプルデータ50として必要なデータの条件が指定される(ステップ101)。指定された条件を満たすデータのサンプルデータ50の要求が、データ受信装置20の送信部によりデータ提供装置10へ送信される(ステップ102)。なお、本技術に係るサンプルデータ50を、擬似サンプルデータ50と記載する場合がある。
図5に示すデータ提供装置10の受信部11により、擬似サンプルデータ50の要求が受信される(ステップ103)。データ抽出部12により、擬似サンプルデータ50の要求をもとに、データベース30から条件を満たすデータが抽出される。これによりデータベース30から所定のデータが選択されて取得される(ステップ104)。本実施形態では、データ抽出部12が選択部として機能する。
図7は、データベース30から選択された所定のデータの例を示す図である。例えば上記した条件1の指定があった場合、データ抽出部12は、図7(A)に示す身長のデータであるテーブル34を抽出する。このテーブルでは、「身長」が所定の属性34aとなり、その値のデータが1以上の属性値34bとなる。
条件2の指定があった場合、データ抽出部12は、図7(B)に示す身長が170cm以上のIDの身長と体重の組み合わせデータであるテーブル35を抽出する。このテーブル35では、「身長」及び「体重」の組み合わせが所定の属性35aとなり、それらの値が1以上の属性値35bとなる。
条件3の指定があった場合、データ抽出部12は、図7(C)に示す既往症がある人の既往症のデータであるテーブル36を抽出する。このテーブル36では、「既往症」が所定の属性36aとなり、それの文字列が1以上の属性値36bとなる。
以下、データ抽出部12により抽出された所定のデータを元のデータ37と記載する場合がある。ここでは元データ37として、図7(A)に示す身長のデータのテーブル34を例に挙げて説明を続ける。
頻度関数算出部13により、元データ37の出現頻度を表す関数である頻度関数が算出される(ステップ105)。ここで頻度関数とは、データベースが有する1以上の属性値の出現頻度に関する関数である。すなわち、ある属性値について当該属性値がデータベース内にてどの程度出現するかに関する関数である。本実施形態では、属性値ごとの出現頻度である第1の出現頻度を表す関数が頻度関数として算出される。従って頻度関数は、各属性値を入力し第1の出現頻度を出力する関数となる。
図6のステップ105では、テーブル34が有する1以上の属性値34bの出現頻度に関する頻度関数が算出される。従って、属性値34bである身長のデータを入力し、属性値34bごとの第1の出現頻度を出力する頻度関数が算出される。
以下、頻度関数算出部13による頻度関数の算出について説明する。図8〜図10は、頻度関数の算出を説明するための図である。本実施形態では、頻度関数算出部13により、属性値34bごとの、1以上の属性値34bの全体数に対する出現回数の割合が算出される。
図8は、図7(A)に示す身長のデータのテーブル34についての、属性値34bごとの出現回数の割合38のデータを表す図である。属性値34b(身長を表す整数値)ごとに、当該属性値34bのテーブル31内に出現する回数が算出される。そして属性値34bごとの出現回数を、テーブル31内の属性値34bの全体の個数で割った比率が、属性値34bごとの出現回数の割合38として算出される。
図8に示すように、本実施形態では、図7(A)のテーブル34内の最も小さい属性値34bである152よりも小さい150から、テーブル31内の最も大きい属性値34bである180までの出現回数の割合38がデータとして算出される。出現回数の割合38が算出される属性値34bの選択方法は限定されない。上記のように元データ37に含まれない属性値34bについて出現頻度の割合38(その値は0になる)が算出されてもよい。属性値34bは、頻度関数の算出に合わせて適宜選択されてよい。
本実施形態では、図8に示す属性値34bごとの出現回数の割合38を近似した近似値を第1の出現頻度として表す頻度関数が算出される。すなわち元データ37における属性値の頻度分布を近似するような頻度関数が算出される。
図9は、頻度分布を近似した頻度関数の例を説明するための図である。図9に示すように横軸を身長、縦軸を出現頻度の割合として属性値34bごとの出現頻度の割合38がプロットされる。この属性値の頻度分布を近似するような出現関数f(x)が算出される。
そのために本実施形態では、頻度関数算出部13により、所定のモデル関数が選択され、当該所定のモデル関数が属性値34bごとの出現回数の割合38にフィッティングされる。これにより頻度関数が算出される。モデル関数は、属性値34bに対してその属性値34bの第1の出現頻度を出力する頻度関数のモデルとなる関数である。モデル関数の選択方法と、出現回数の割合38のフィッティング方法は限定されず、公知の技術も含めた種々の技術が用いられてよい。
例えば選択されるモデル関数としては、指数関数、線形関数、対数回数、多項式関数、又はガウス関数等がある。本実施形態では、以下のガウス関数がモデル関数として選択される。
g(x)=a+b・exp(−(x−c)2/d2))
変数xは身長の値で、出力g(x)が第1の出現頻度である。
フィッティング方法としては、典型的には最小二乗法が用いられるが他の方法が用いられてもよい。例えば最小二乗法により上記のガウス関数がフィッティングされた場合、各各パラメータは、a=−0.075、b=0.185、c=165.8、d=16.1となる。
本実施形態では、フィッティングされたモデル関数g(x)が正規化されることで頻度関数f(x)が算出される。具体的には、図8に示す1以上の属性値34bを(y1〜ym)とすると、kΣg(yi)=1となるように、正規化パラメータkが定められる。例えばm=15、yi=152+2(i−1)とすると、k=0.98となる。これにより擬似サンプルデータ50を生成するための頻度関数f(x)として、k・g(x)が算出される(f(x)=k・g(x))。
この頻度関数f(x)=k・g(x)により、属性値34bごとの出現回数の割合38を近似した近似値が第1の出現頻度として出力される。なお算出された関数が0未満を取る場合は、擬似サンプルデータ50として用いられる属性値34b、すなわちサンプル属性値51として選択される属性値34bを、0の取らない範囲に限定してもよい。
図6に示すステップ101で上記の条件2が指定されたとする。この場合、データ抽出部12により、図7(B)に示すテーブル35が抽出される。この場合、「身長」及び「体重」のデータの組み合わせを属性値35bとして、属性値35bごとの出現回数の割合が算出される。そしてこの出現回数の割合の近似値を第1の出現頻度として出力する頻度関数が算出される。
この場合の基本的な頻度関数の求め方は上記で説明したのと同様である。上記では選択されるモデル関数が1変数であったが、それを2変数とする。2変数のモデル関数を選択して、そのモデル関数を属性値35bごとの出現回数の割合にフィッティングすることでテーブル35に関する頻度関数を算出することが可能である。頻度関数を算出する対象となるテーブルがより多くのフィールドを有している場合も、複数の変数のモデル関数が適宜選択されればよい。
図6に示すステップ101で上記の条件3が指定されたとする。この場合、データ抽出部12により、図7(C)に示すテーブル36が抽出される。この場合、「既往症」のデータを属性値36bとして、図10に示すように属性値36bごとの出現回数の割合38が算出される。
条件1及び2に関しては、属性値が順序のある連続した値であった。一方、条件3に関するテーブル36では、属性値36bが既往症の名称を示す文字列であり、順序のない値である。すなわちテーブル36では、属性値36bとして離散値が格納される。このような場合、図10に示すように、属性値36bを変数xとし、属性値ごとの出現回数の割合38を出力する関数が頻度関数f(x)として算出されればよい。
このように、出現頻度の割合38を第1の出現頻度として表す頻度関数が算出されてもよい。この頻度関数は、属性値が複数のフィールドからなる場合、すなわち変数複数の場合や、属性値が順序のある値である場合、あるいはこれらの組み合わせの場合でも算出可能である。
出現関数の生成方法の他の例を説明する。以下に示すように、最尤推定法により属性値ごとの出現回数の割合に応じた確率関数を推定することで、当該推定された確率関数が頻度関数として算出されてもよい。
例えば確率モデルを仮定し、最尤推定法(最尤法)を用いて母数を求めることで頻度関数が推定される。最尤推定法とは、与えられたデータからそれが従う確率分布の母数を推測するために用いられる方法で、ガウス分布、2項分布、ポアソン分布など、様々なモデルに適用可能である。
具体的な例を示すと、まず変数xが従うと考えられる確率密度関数、あるいは確率関数p(x;θ)を選択する。母数θを例えば属性値のデータである1以上の属性値(y1〜ym)をもとに推定する。
確率モデルとして、正規線形モデルを考えると、各データはyi=μ+εi(i=1・・r)に従うと考えられる。μは固定値(例えば平均値等)、εiはガウス分布に従う誤差、またデータ間でεiは独立とする。この例では、母数θを推定する問題は、μとεiの分散σ2を推定する問題となる。
最尤推定法による母数θの推定については、尤度関数p(x;θ)=Πp(xi;θ)の対数尤度関数log・p(x;θ)を最大化するθ’が最尤推定量となる。例えば上記した正規線形モデルでの最尤推定量は、μ’=(1/r)Σxi、σ2=(1/r)Σ(xi−μ‘)2となる。属性値のデータが図8に示す場合では、μ’=165.4、σ2=43.24となる。
このように最尤推定法により推定された確率関数が頻度関数として算出されてもよい。なお最尤推定法による確率関数の推定方法は限定されない。選択される確率モデルも任意である。
擬似サンプルデータ生成部14により、算出された頻度関数をもとに、1以上の属性値34bの少なくとも一部を1以上のサンプル属性値51として含む、データベース(元データ37)に関する出現頻度に応じた擬似サンプルデータ50が生成される(ステップ106)。
本実施形態では、頻度関数f(x)により表されるサンプル属性値51ごとの第1の出現頻度と、擬似サンプルデータ50におけるサンプル属性値51ごとの出現頻度である第2の出現頻度とが対応するように、擬似サンプルデータ50が生成される。例えば頻度関数f(x)に基づき、サンプル属性値xの擬似サンプルデータ50内での出現確率がf(x)の値となるようにデータを出力することで擬似サンプルデータ(x1,x2,・・・xn)が生成される。
サンプル属性値xnを頻度関数f(xn)に入力すると、その出力はサンプル属性値xnの第1の出現頻度となる。一方、擬似サンプルデータ(x1,x2,・・・xn)内のxnの出現頻度を第2の出現頻度とする。典型的には、擬似サンプルデータ50内のサンプル属性値51の全体数に対する出現回数の割合が第2の出現頻度とされる。なおサンプル属性値51ごとの出現回数の割合の近似値が第2の出現頻度とされてもよい。
これら第1及び第2の出現頻度が互いに対応するように擬似サンプルデータ50が生成される。典型的には、第1及び第2の出現頻度が等しくなるように擬似サンプルデータ50が生成される。しかしこれに限定されず、第1及び第2の出現頻度とが近似により対応付けられてもよい。元データ37内の属性値の出現分布に対応するような出現分布でサンプル属性値51が出力されて擬似サンプルデータ50が生成されればよい。これにより元データの特徴を残しながら擬似サンプルデータ50を生成可能となる。
なお、擬似サンプルデータ50に含まれるサンプル属性値51の数は限定されない。元データ37の属性値の数や、データの漏洩防止の観点等から適宜設定されればよい。また擬似サンプルデータ50の精度に関するデータ利用者からの要求、あるいはデータ提供サービスとしての設定等、種々の条件をもとに適宜設定されればよい。
生成された擬似サンプルデータ50は、送信部15により、データ受信装置20に送信される(ステップ107)。そしてデータ受信装置20の受信部により擬似サンプルデータ50が受信される(ステップ108)。
以上、本実施形態に係る情報処理装置としてのデータ提供装置10では、データベース30(あるいは元データ37)が有する1以上の属性値の出現頻度に関する頻度関数が算出される。この頻度関数が用いられて上記の出現頻度に応じた擬似サンプルデータ50が生成される。この結果、データの提供者及び利用者にとって有用なデータ提供システムが実現可能となる。
頻度関数としては、例えば属性値ごとの出現回数の割合の近似値を第1の出現頻度として表す関数や、属性値ごとの出現回数の割合を第1の出現頻度として表す関数が算出される。これにより出現回数の割合に応じた擬似サンプルデータ50が生成される。
データベースに関するサンプルデータの生成方法として、以下のような方法も考えられる。例えばデータ提供装置によりデータベース内の一定割合のデータがランダムに選択され、その選択された一部のデータがサンプルデータとして生成される方法が考えられる。この方法では、データベースのデータ量が少ない場合、サンプルデータの数も少なくなり、データ利用者による所望のデータベースであるか否かの判断が難しくなる。すなわちデータ提供者に渡すサンプルデータとしての有用性が低くなってしまう。
データベース内のデータにノイズを加えたデータを、サンプルデータとして生成する方法も考えられる。例えばもとのデータ(d1,d2,・・・dn)に対して、(d1+ε1,d2+ε2,・・・dn+εn)となるデータがサンプルデータとして生成する。ε1〜εnは、例えば平均値0の一様分布、ガウス分布に従うノイズである。
この方法では、順序がある値(体重や身長等)はノイズを加えても意味があるが、順序がない値(既往症や居住地等)はノイズを加えると意味がなくなってしまい。またサンプルデータとしてノイズを加えるという単純なモデルで変形されたデータしか取得できず、サンプルデータとしての有用性が低い。
データベース内の要素(属性値等)が、ある確率で置換されたデータをサンプルデータとして生成する方法も考えられる。例えばもとのデータ(d1,d2,・・・dn)に対して、(d’1,d’2,・・・d’n)が置換により生成される。置換の方法としては、データベース内の要素が(a1〜ak)であったとすると、akからakへ置換する、すなわち置換しない確率をρとする。そしてakからak以外の要素へ置換する確率をそれぞれ(1−ρ)/(n−1)とするような方法が考えられる。
この方法では、もとのデータ全体の頻度分布が変わり、データ提供者がデータベースの傾向をつかめないという問題が生じる。またサンプルデータとして要素を置換するという単純なモデルで変形されたデータしか取得できず、サンプルデータとしての有用性が低い。
さらに、データベースの平均や分散等の何らかの統計量が算出され、その値がデータの特性を表す特徴量として生成される。そしてこの特徴量がサンプルデータとしてユーザ利用者に送信される方法も考えられる。この方法では、ユーザ利用者は限定された特徴量しか確認することができず、サンプルデータの有用性が低い。あるいは、平均や分散等の特徴量事態が、データ利用者が求める情報である場合も考えられる。そうするとサンプルデータ自体が、ユーザが所望するデータとなり、データベースの提供サービスが成立しなくなってしまう。またデータベースの漏洩防止が図れなくなる可能性もある。
上記のような方法に対して、本実施形態に係る擬似サンプルデータ50の生成方法では、出現頻度に関する頻度関数が算出される。そして第1及び第2の出現頻度が互いに対応するように擬似サンプルデータ50が生成される。このように擬似サンプルデータ50を生成することで、データの漏洩を防止しつつ、データに関する情報を擬似サンプルデータ50として送信することができる。
例えば一定割合のサンプルデータを生成する場合で、サンプルレートが10%で全体のデータが100個であるとする。この場合、データ利用者は10個のデータから全体のデータの特性を見極める必要がある。これに対して、本実施形態では、10倍のデータ数である100個全体のデータをもとに頻度関数が生成される。そして頻度関数をもとに擬似サンプルデータ50が生成される。この結果、データ全体の傾向を反映したデータを擬似サンプルデータ50として生成可能となる。データ全体の数が多い方が頻度関数の推定等も高精度に実行できるので、本実施形態の生成方法は、元データの構造をより反映した方法だといえる。例えばサンプルレートをp%とすると、本実施形態に係る擬似サンプルデータ50では、およそ100/p倍のデータに匹敵する情報をデータ利用者に提供できる。
また本実施形態では、順序がない値(既往症や居住地等)のデータであっても、擬似サンプルデータ50を提供することができる。上記のようにノイズを加える方法では、順序がない値だと意味がなくなってしまう。本実施形態では、属性値の頻度に着目したため、値の順序に関係なく、その頻度関数を算出することが可能である。そして頻度関数をもとに擬似サンプルデータ50を生成することが可能である。
元データの構造を残した擬似サンプルデータ50を提供することができるので、データ利用者がデータの利用に関して判断できる程度の情報を与えつつ、必要以上の情報漏洩を制限することができる。例えばデータベースの要素を置換する方法では、データの確率分布が変わってしまう。一方、本実施形態では、属性値の頻度分布を近似する頻度関数として、様々な関数や近似法(フィッティングや最尤法等)を選択可能である。この結果、元データの構造に応じた関数を適宜選択することで、元データの構造を残すことができる。また関数の選択等により、近似度合いを調節できることから、必要以上の情報漏洩を制限することができる。
また本実施形態では、擬似サンプルデータ50に含まれるサンプル属性値51の個数を制限することで、データ利用者に与える情報量を調節することができる。例えば頻度分布が多項式関数f(x)=a0+a1x+・・・+aqxnで近似されるとする。この場合、上記の他の方法で説明したように、データ特徴量として(a0,a1,・・・aq)がサンプルデータとして用いられるとする。そうすると、そのデータが、データ利用者が求めるデータである場合、サンプルデータによりデータが漏洩してしまうことになる。本実施形態では、算出されたf(x)をもとに擬似サンプルデータ(x1,x2,・・・xn)が生成されるので、そのような問題は発生しない。
同様に、ガウス分布を最尤推定して以下のような頻度関数f(x)が算出されたとする。
f(x)=(1/√(2π)σ)exp(−(x−μ)2/2σ2))
この場合でも、データ特徴量として(μ,σ)がサンプルデータとして用いられるとすると情報が漏洩してしまう恐れがある。本実施形態では、f(x)をもとに擬似サンプルデータ(x1,x2,・・・xn)が生成されるので問題は生じない。
本実施形態の擬似サンプルデータ(x1,x2,・・・xn)をもとに、データ利用者側で、データ特徴量である(a0,a1,・・・aq)や(μ,σ)が算出される場合がある。この場合、高い精度でデータ特徴量を生成するためには、多くのサンプルデータが必要である。そのため、擬似サンプルデータ50のサンプル属性値51の数を調整することで、データ利用者に渡る情報量を調整することができる。この結果、必要以上に情報が漏洩するのを防止することができる。
一方で、本実施形態に係る擬似サンプルデータ50をもとに、データ利用者は、ある程度の精度の範囲内で、様々な統計量を得ることができる。すなわちデータの特徴量として平均や分散が送信される場合と比べて、ある程度の精度の範囲内で、全体の傾向を把握可能であったり、平均と分散以外の他の統計量を得ることができる。これを、データ利用者側で自由に行うことが可能となる。
<第2の実施形態>
本技術に係る第2の実施形態のデータ提供システムについて説明する。これ以降の説明では、上記の実施形態で説明したデータ提供システム100における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
本実施形態では、頻度関数算出部による頻度関数の算出処理に関して、以下のような処理が行われる。本実施形態では、頻度関数算出部により、1以上の属性値のうち所定の属性値が、頻度関数算出部による前記頻度関数の算出に用いられない対象外属性値として設定される。本実施形態では、頻度関数算出部が設定部としても動作し、当該頻度関数算出部により対象外属性値が設定される。しかしながら対象外属性値を設定するためのブロックが、頻度関数算出部と別個に設けられてもよい。
頻度関数算出部により、設定された対象外属性値を除いた1以上の属性値の出現頻度に関する頻度関数が算出される。擬似サンプルデータ生成部により、算出された頻度関数をもとに、対象外属性値を除いた1以上の属性値から擬似サンプルデータが生成される。
図11〜図13は、この対象外属性値の設定処理を説明するための模式的な図である。例えば図11(A)に示すようなテーブル230の身長に関するデータについて、擬似サンプルデータが生成されるとする。この際、属性値(身長)ごとの出現頻度をモデル関数にフィッティングすることで頻度関数が算出されるとする。
本実施形態では、頻度関数を算出する際に、頻度が所定の値よりも小さい属性値が対象外属性値40として設定される。図11(A)のテーブル230には、ID2000のレコードに身長の属性値として190が格納されている。図11(B)に示すように、190の属性値は、予め設定された出現頻度に関する閾値よりも小さくなっている。従って身長が190cmである属性値は、対象外属性値40として設定される。
なお、図11(B)の縦軸に示す属性値ごとの頻度は、典型的には、第1の実施形態で説明した、属性値ごとの出現回数の割合である。すなわち属性値ごとの出現回数の割合が算出され、出現回数の割合をもとに頻度関数が生成される場合、出現回数の割合が所定の値よりも小さい属性値が対象外属性値40として設定される。
このように頻度について閾値が設定され、ある閾値未満の属性値が対象外属性値40として設定される。図11(B)に示すように、対象外属性値40を除いた属性値が用いられてフィッティングが実行され、頻度関数f(x)が算出される。
なお、一度頻度関数が算出され、その出力である第1の出現頻度が所定の値よりも小さい属性値が対象外属性値40として設定されてもよい。そして対象外属性値40を除いた属性値をもとに改めて頻度関数が算出されてもよい。
属性値に閾値が設定されてもよい。例えば図11に示す例において、所定の身長以上の属性値が対象外属性値40として設定されるようなアルゴリズムも採用可能である。
図7(C)に示すような順序のない離散値のデータベースの場合、図10に示すように、属性値36bごとの出現回数の割合38を第1の出現頻度とする頻度関数f(x)が算出された。このような順序のない値の場合は、例えば図12に示すように、一度頻度関数f(x)を求めた上で、頻度(出現回数の割合38)が小さい属性値が対象外属性値40として設定されてもよい。図12に示す例では、「腎不全」の属性値が対象外属性値40として設定されている。そして対象外属性値40を除く属性値により改めて頻度関数f(x)が算出される。
なお頻度関数が複数変数の関数となるような場合でも、その組み合わせにおける頻度等をもとに対象外属性値が適宜設定可能である。
図13を参照して、対象外属性値40の設定について他の方法を説明する。この方法も、モデル関数をフィッティングして頻度関数を算出する場合や、最尤推定法を用いて頻度関数を推定する場合等で用いられる。
図13に示す例ではフィッティングにより頻度関数f(x)が算出されているが、一度算出されたf(x)により表される第1の出現頻度(図13のグラフ)と、当該属性値xの頻度との差が所定の値よりも大きい属性値が対象外属性値40として設定される。
属性値ごとの出現回数の割合をもとに頻度関数が算出される場合、出現回数の割合と、頻度関数により表される第1の出現頻度との差が、所定よりも大きい属性値が対象外属性値40として設定される。適宜閾値が設定されることで当該設定処理が実行されてもよい。
図13に示すように、対象外属性値40を除いた1以上の属性値の出現頻度に関する頻度関数が改めて算出される。そして擬似サンプルデータ生成部により、改めて算出された頻度関数をもとに、対象外属性値40を除いた1以上の属性値から擬似サンプルデータが生成される。
このように一度生成された頻度関数により表される第1の出現頻度と、出現回数の割合等の属性値ごとの頻度との差が算出されてもよい。そして当該差が所定の値よりも大きい属性値が対象外属性値40として設定されてもよい。
以上、本実施形態に係る情報処理装置としてのデータ提供装置では、頻度関数の算出に用いられない対象外属性値40が設定される。例えば擬似サンプルデータに含めたくないような特徴的な属性値が対象外属性値40として設定される。これにより有用なサンプルデータを生成することができる。例えば出現回数の割合が小さい属性値や、出現回数の割合と第1の出現頻度との差が大きい属性値が、特徴的な属性値として対象外属性値40に設定される。
例えば身長が非常に高い人のデータや、珍しい既往症を有する人のデータは、重要な意味を持つ貴重なデータとなることが多い。このようなデータがサンプルデータとして漏洩してしまうと、例えばその個人が特定されてしまうような事態が発生してしまう可能性がある。本実施形態では、属性値ごとの頻度等を用いて、そのような全体の傾向から離れた特異な値を外すように、対象外属性値40の設定が行われる。そして対象外属性値40を除いて頻度関数の算出及び擬似サンプルデータの生成が行われる。その結果、重要な意味を持つ貴重な情報の漏洩が防止できる.
一定割合でサンプルデータが生成される場合、例えば図11(A)に示す特徴的な属性値(外れ値と記載する)(ID=2000の身長) がデータ利用者に送付されることがあった。サンプルレートがp%のとき、確率p/100で外れ値がサンプルデータとして選択されてしまう。またデータにノイズを加えてサンプルデータが生成さえる場合、190+εのデータがサンプルデータとして生成される。データの利用価値を高めるためにはεが小さいことが望まれるため、結局特徴的な情報として漏洩してしまう可能性がある。
また190cm以上の人物が特定される可能性がある場合に、他のデータと組み合わせることで機微データ(既往症等)が漏洩する可能性もあった。本実施形態では、出現頻度が低いことや、一度算出した頻度関数と元データの乖離とが大きいこと等を利用することで、データの漏洩を防止することができる。
<第3の実施形態>
本技術に係る第3の実施形態のデータ提供システムについて説明する。図14は、本実施形態に係るデータ提供システム300の動作の概要を説明するための模式的な図である。図15は、本実施形態に係るデータ提供装置310及びデータ受信装置320がそれぞれ有するデータベースの一例を示す図である。
本実施形態では、外部装置としてのデータ受信装置320の記憶部に、外部データとしてのデータベースが記憶されている。またデータ提供装置310の記憶部には、外部データと関連するデータベースが記憶されている。この外部データに関連するデータベースは、関連データに相当する。このような状況において、データ利用者はデータ受信装置320を操作して、データ提供装置310へ、外部データと、関連データに関する擬似サンプルデータの要求とを送信する。
本実施形態では、図15(A)に示すような、テーブル330で表されるデータベースが外部データとして記憶されている。また図15(B)に示すようなテーブル335で表されるようなデータベースが関連データとして記憶されている。
図15(A)のテーブル330は、「ID番号」及び「身長」のフィールド332からなる。図15(B)のテーブル335は、「ID番号」及び「体重」332のフィールドからなる。同じ「ID番号」には、同じ人物のデータが格納されている。
図14に示すように本実施形態では、外部データとしてテーブル330の全体あるいは所定の一部のデータがデータ提供装置310に送信される。また関連データに関する擬似サンプルデータの要求として、同じID番号に対応した(身長、体重)の組み合わせのデータに関する擬似サンプルデータの要求が送信される。
データ提供装置310の受信部により、外部データと、擬似サンプルデータの要求とが受信される。頻度関数算出部により、外部データと関連データとの組み合わせ、すなわち同じID番号に対応した(身長、体重)の組み合わせを1以上の属性値として、上記の実施形態で説明したように頻度関数が生成される。
擬似サンプルデータ生成部により、算出された頻度関数をもとに、外部データと関連データとを組み合わせた(身長、体重)の組を1以上のサンプル属性値として含む擬似サンプルデータ350が生成される。生成された擬似サンプルデータ350はデータ受信装置320へ送信される。図14に示す擬似サンプルデータ((x1,y1),(x2,y2),・・・(xn,yn))の各要素は、サンプル属性値351を表す。
また本実施形態では、上記の処理がマルチパーティ計算(multi-party computation:MPC))により実行される。従ってデータ提供装置310の受信部、頻度関数算出部、及び擬似サンプルデータ生成部を含む種々のブロックはマルチパーティプロトコルに基づいてそれぞれ動作可能である。MPCとは,互いのデータを秘匿しながら、共同で計算を実行するプロトコルである。本実施形態では、身長及び体重のデータが互いに秘匿された状態で、頻度関数の算出及び擬似サンプルデータの生成が実行される。
データ提供装置310による擬似サンプルデータ350の生成を詳しく説明する。図16は、データ提供装置310のソフトウェア構成例を示す模式的な図である。図17は、データ提供装置310による擬似サンプルデータ350の生成を示すフローチャートである。
データ利用者によりデータ受信装置320に擬似サンプルデータ350として必要なデータの条件が指定される。また擬似サンプルデータ350を所望するID番号が指定される(ステップ301)。これらの指定に基づいた擬似サンプルデータ350の要求がデータ受信装置320の送信部によりデータ提供装置310へ送信される(ステップ302)。
ステップ301での、条件及びIDの指定としては、例えば以下のものがあげられる。
条件4 テーブル330及び335の身長及び体重の組み合わせのデータ
条件5 テーブル330の身長が170cm以上のIDの身長及び体重の組み合わせのデータ
図18は、条件4及び5の各データを表すテーブルを示す図である。図18(A)のテーブル331は、条件4の身長及び体重の組み合わせのデータを表している。図18(B)のテーブル336は、条件5の身長が170cm以上のIDの身長及び体重の組み合わせのデータを表している。
データ提供装置310の受信部311により、擬似サンプルデータ350の要求が受信される(ステップ303)。データ提供装置310は、擬似サンプルデータ350を作成するための、暗号化された外部データの要求をデータ受信装置320へ送信する(ステップ304)。
例えば条件4が指定された場合、暗号化されたテーブル330の身長のデータ(テーブル336の身長のデータ)が要求される。条件5が指定された場合、暗号化されたテーブル335の170cm以上の身長のデータ(テーブル336の身長のデータ)が要求される。外部データの要求は、例えば図示しない外部データ要求部により生成され、送信部315により送信される。
データ受信装置320の受信部により、暗号化された外部データの要求が受信される(ステップ305)。データ受信装置320の選択部により、テーブル330のデータベースから、関係する属性と対象とする全IDに関するデータ(属性値)が取得される(ステップ306)。例えば条件4であれば身長のデータが選択され、条件5であれば、170cm以上の身長のデータが選択される。
データ受信装置320の暗号化部により、取得された外部データが暗号化される。本実施形態では、完全準同型暗号により外部データが暗号化される。本実施形態では、暗号化部は鍵記憶部を有し、当該鍵記憶部には公開鍵と秘密鍵が記憶されている。この公開鍵が用いられて、外部データの暗号化が実行される(ステップ307)。
完全準同型暗号は、暗号化したまま和や積の演算が可能であり、論理可能なアルゴリズムであれば、入力値を秘匿したままアルゴリズムの出力結果を得ることができる。例えば以下の式が成り立つ。
Enc(pk,p1)+Enc(pk,p2)=Enc(pk,p1+p2)
Enc(pk,p1)×Enc(pk,p2)=Enc(pk,p1×p2)
p1,p2:平文、pk:データ提供者の公開鍵
本実施形態では、入力値p1及びp2は、外部データ及び関連データとなる。そしてアルゴリズムは、組み合わせたデータに対する頻度関数の算出と、頻度関数をもとにした擬似サンプルデータの生成となる。すなわち出力結果は、擬似サンプルデータとなる。
データ受信装置320の送信部により、暗号化された外部データがデータ提供装置310へ送信される(ステップ308)。データ提供装置310の受信部311により、暗号化された外部データが受信される(ステップ309)。
データ抽出部312により、テーブル335のデータベースから、関係する属性に関する関連データ(元データ)が取得される(ステップ310)。例えば条件4の場合では、図18(A)に示すテーブル331の体重のデータが選択される。条件5の場合では、図18(B)に示すテーブル336の体重のデータが選択される。
暗号化部316により、選択された関連データが暗号化される。外部データの暗号化と同様に、完全準同型暗号により関連データが暗号化される。暗号化は、データ受信装置320の公開鍵が用いられて実行される(ステップ311)。公開鍵は、暗号化された外部データとともにデータ提供装置310に送信されてもよい。あるいは別の方法で、データ提供装置310の記憶部等に記憶されてもよい。
データ受信装置320及びデータ提供装置310によるデータの暗号化の方法や、暗号化のための構成及びアルゴリズム等は限定されない。
頻度関数算出部313により、暗号化された外部データと暗号化された関連データとの組み合わせに関する頻度関数f(x,y)が算出される(ステップ312)。すなわちIDをもとに組み合わされた、暗号化された(身長、体重)の組み合わせデータを属性値として、上記の実施形態で説明した方法により頻度関数が算出される。
擬似サンプルデータ生成部314により、算出された頻度関数f(x,y)をもとに、暗号化された外部データと暗号化された関連データとの組み合わせに関する擬似サンプルデータ((x1,y1),(x2,y2),・・・(xn,yn))が生成される(ステップ313)。擬似サンプルデータ350は、暗号化された(身長、体重)の組み合わせデータをサンプル属性値351として含むデータである。
上記の実施形態で説明したように、頻度関数f(x,y)により表される第1の出現頻度と、擬似サンプルデータ350における第2の出現頻度が対応するように、擬似サンプルデータ((x1,y1),(x2,y2),・・・(xn,yn))が生成される。
送信部315により、生成された擬似サンプルデータ((x1,y1),(x2,y2),・・・(xn,yn))がデータ受信装置320へ送信される(ステップ314)。データ受信装置320により、擬似サンプルデータ((x1,y1),(x2,y2),・・・(xn,yn))が受信される(ステップ315)。
データ受信装置320の復号部により、暗号化されたデータである擬似サンプルデータ350が復号される。本実施形態では、データ受信装置320の鍵記憶部に記憶された秘密鍵が用いられることで、暗号化された(身長、体重)の組み合わせデータが復号される(ステップ316)。
以上、本実施形態に係るデータ提供システム300では、データ受信装置320から外部データと、擬似サンプルデータ350の要求とが送信される。外部データ及び擬似サンプルデータ350の要求は、同じタイミングで送信されてもよいし、異なるタイミングで送信されてもよい。そして外部データとこれに関連する関連データとの組み合わせについての擬似サンプルデータ350が生成される。これにより、例えば関連するデータ同士の相関関係について擬似サンプルデータ350を生成することができる。例えば複数のデータ提供者間での、それぞれが保持するデータ同士の相関関係を見ることも可能となる。これにより、データの提供者及び利用者にとって有用なデータ提供システム300が実現可能となる。
本実施形態では、マルチパーティ計算により外部データと関連データとの組み合わせに関する擬似サンプルデータ350が生成される。すなわち暗号化された組み合わせデータを属性値として、フィッティングや最尤推定法により頻度関数が算出される。そして頻度関数をもとに擬似サンプルデータ350が生成される。これにより、互いにデータを秘匿化したまま擬似サンプルデータ350の生成、提供、及び受信が実行可能となる。この結果、有用なデータ提供システム300が実現可能となる。
なお、データ提供装置310及びデータ受信装置320とは異なる装置に、外部データ及び関連データが送信され、当該装置にてマルチパーティ計算により擬似サンプルデータ350が生成されてもよい。
<第4の実施形態>
本技術に係る第4の実施形態のデータ提供システムについて説明する。図19は、本実施形態に係るデータ提供システム400の動作の概要を説明するための模式的な図である。
本実施形態では、データ提供装置410が、1以上の属性値の出現頻度に関する関数として、第1の頻度関数と、この第1の頻度関数と異なる第2の頻度関数とを生成することが可能である。すなわち頻度関数として、少なくとも2つの異なる関数を生成可能である。
データ受信装置420からは、第1及び第2の頻度関数のいずれかを選択するための指定が送信される。当該指定はデータ提供装置410の受信部により受信される。これによりデータ提供者が頻度関数を選択することが可能となり、擬似サンプルデータの生成方法を指定することが可能となる。頻度関数の選択の指示が受信されるタイミングは任意でよい。
上記の実施形態で説明したように、頻度関数の算出方法及び擬似サンプルデータの生成方法として、以下に示すような様々な選択肢が考えられる。
例えば頻度関数の生成方法の種類(モデル関数をフィッティングする方法、又は最尤推定法を用いて確率関数を推定する方法等)
フィッティングに用いられるモデル関数の種類(指数関数、線形関数、対数回数、多項式関数、又はガウス関数等)
最尤推定法に用いられる確率モデルの種類(ガウス分布、2項分布、ポアソン分布等)
対象外属性値(外れ値)の設定の有無
対象外属性値の設定方法の内容(対象外属性値を設定するための閾値の大きさ等)
頻度関数の算出に用いられる属性値の個数
擬似サンプルデータに含まれるサンプル属性値の数
アルゴリズムの収束条件(例えば最小二乗法における繰り返し回数等)
その他、頻度関数を算出する方法として種々の例があり、そのなかから少なくとも2つの頻度関数が生成され、第1及び第2の頻度関数として算出される。2つ以上の頻度関数が生成可能であってもよい。また擬似サンプルデータ生成部が、頻度関数をもとにした擬似サンプルデータの生成方法に関して、複数の生成方法を実行可能であってもよい。そしてデータ利用者からの生成方法の指示をもとに、適宜擬似サンプルデータが生成されてもよい。
図19に示すように、データ受信装置420から、ある条件を満たすデータのサンプルデータの要求、及び頻度関数の指定が送信される。ここでは、ある条件を満たし、正規分布を最尤推定した頻度関数から生成した擬似サンプルデータの要求が送信されている。データ提供装置410からは、指示された頻度関数をもとに生成された擬似サンプルデータ450がデータ受信装置420へ送信される。図19に示す擬似サンプルデータ(x1,x2,・・・xn)の各要素は、サンプル属性値451を表す。
図20は、データ提供装置410のソフトウェア構成例を示す模式的な図である。図21は、データ提供装置410による擬似サンプルデータ450の生成を示すフローチャートである。
擬似サンプルデータ450として必要なデータの条件が指定され、擬似サンプルデータ450の要求送信される(ステップ401、402)。受信部411により、擬似サンプルデータ450の要求が受信される(ステップ403)。
データ提供装置410が実行可能な擬似サンプルデータの生成方法を提示するための情報がデータ受信装置420に送信される(ステップ404)。実行可能な擬似サンプルデータの生成方法に関する情報は、図20に示すサンプルオプション保存部417に保存されている。データ受信装置420に提示される情報は、第1及び第2の頻度関数に関する情報を含む。
提示された情報をもとに、データ受信装置420により擬似サンプルデータ450の生成方法が選択され、その生成方法の指示がデータ提供装置410へ送信される(ステップ405、406)。この指示は、第1及び第2の出現関数のいずれかを選択するための指定を含む。
受信部411により、擬似サンプルデータ450の生成方法の指示が受信される(ステップ407)。データ抽出部412により、データベース430から元データが選択される(ステップ408)。頻度関数算出部413により、データ利用者が指定した擬似サンプルデータの生成方法で頻度関数が算出される。すなわちデータ受信装置420からの指示をもとに、第1及び第2の頻度関数のいずれか一方が算出される(ステップ409)。
擬似サンプルデータ生成部414により、算出された頻度関数をもとに擬似サンプルデータ450が生成され、送信部415により擬似サンプルデータ450がデータ受信装置420へ送信される(ステップ410、411)。データ受信装置420により、擬似サンプルデータ450が受信される(ステップ412)。
以上、本実施形態に係るデータ提供システム400では、データ提供装置410が異なる2つの頻度関数をそれぞれ生成可能である。そして外部装置からの指定をもとに、第1及び第2の頻度関数のいずれかが適宜選択される。これにより、有用なデータ提供システム400が実現可能となる。
本実施形態では、データ提供側が複数の頻度関数を生成可能であり、複数の擬似サンプルデータの生成方法を用いることが可能である。これによりデータ提供者は、複数の生成方法から生成方法を適宜選択して、所望の擬似サンプルデータ450を取得することができる。
例えば頻度関数の生成方法や、それに用いられる属性値の数等により、擬似サンプルデータ450の統計的な精度が変わる。従ってデータ利用者は、異なる生成方法を適宜用いることで、データ利用者側に渡す擬似サンプルデータ450の精度を制御することが可能となる。これによりデータ提供者による精度に応じた価格設定が可能となり、サービスの多様性を生むことが可能となる。一方、データ利用者も、例えば最終的に解析したい目的に応じた擬似サンプルデータ450を取得することが可能となる。すなわち所望する擬似サンプルデータ450に関して選択の余地が広がる。この結果、データの提供者及び利用者にとって有用なデータ提供システム400が実現される。
本実施形態では、擬似サンプルデータ450の要求に応じて、データ提供装置410により実行可能な擬似サンプルデータの生成方法が提示された。これに限定されず、予め実行可能な擬似サンプルデータ450の生成方法が外部装置に提示されてもよい。
<第5の実施形態>
本技術に係る第5の実施形態のデータ提供システムについて説明する。図22は、データ提供装置510のソフトウェア構成例を示す模式的な図である。図23は、データ提供装置510による擬似サンプルデータの生成を示すフローチャートである。
本実施形態では、上記で説明したマルチパーティ計算をもとに、データ受信装置520の外部データと、データ提供装置510の関連データとの組み合わせについての擬似サンプルデータが生成される。また本実施形態では、上記で説明したように、データ提供装置510が複数の頻度関数を生成可能であり、複数の擬似サンプルデータの生成方法を用いることが可能である。
本実施形態では、擬似サンプルデータの要求に応じて、サンプルオプション保存部517に保存されている、実行可能な擬似サンプルデータの生成方法に関する情報が、データ受信装置520へ送信される(ステップ501〜504)。データ受信装置520により、擬似サンプルデータの生成方法が指定され、その指定がデータ提供装置へ送信される(ステップ505、506)。
擬似サンプルデータの生成方法の指示に応じて、暗号化した外部データの要求がデータ提供装置510からデータ受信装置520へ送信される(ステップ507、508)。データ受信装置520により、外部データが暗号化され、暗号化された外部データがデータ提供装置510へ送信される(ステップ509〜512)。
データ提供装置510は、外部データに関連する関連データを選択して、暗号化する(ステップ513〜515)。そしてユーザ利用者から指定された擬似サンプルデータの生成方法をもとに頻度関数を算出し、当該頻度関数をもとに暗号化された外部データと関連データとの組み合わせに関する擬似サンプルデータを生成する(ステップ516、517)。生成された擬似サンプルデータはデータ受信装置520へ送信され、データ受信装置520により復号される(ステップ518〜520)。
本実施形態のように、外部データと相関データとの組み合わせに関する擬似サンプルデータの生成において、当該擬似サンプルデータの生成方法をデータ利用者が選択可能であってもよい。この結果、データの提供者及び利用者にとって有用なデータ提供システムが実現される。
<変形例>
本技術に係る実施形態は、上記で説明した実施形態に限定されず種々変形される。
例えば図8に示すような、属性値ごとの出現回数の割合の算出において、属性値の粒度が適宜調整されてもよい。すなわち属性値ごとの出現回数の割合がそれぞれ少ない場合等において、複数の属性値がまとめられて出現回数の割合が算出されてもよい。例えば図8において、複数の身長データがまとめられて、150−154の出現回数の割合といった算出が行われてもよい。まとめられて算出された値が、複数の属性値のそれぞれの出現回数の割合となる。
上記の実施形態において例示したデータベースに限定されず、種々のデータベースの提供に本技術は適用可能である。例えば天気情報、交通情報、医療情報等に関するデータベースの提供に、本技術に係るデータ提供システムが用いられてもよい。またリレーショナルデータベースではなく、オブジェクトデータベースに関して本技術が適用されてもよい。
上記で説明したマルチパーティ計算による擬似サンプルデータの生成において、用いられるマルチパーティプロトコルは限定されず、任意のプロトコルが用いられてよい。
以上説明した各形態の特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。
なお、本技術は以下のような構成も採ることができる。
(1)所定の属性と前記属性に関する1以上の属性値とを有するデータベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出する算出部と、
前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成する生成部と
を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
前記頻度関数は、前記属性値ごとの出現頻度である第1の出現頻度を表す
情報処理装置。
(3)(2)に記載の情報処理装置であって、
前記生成部は、前記頻度関数により表される前記サンプル属性値ごとの第1の出現頻度と、前記サンプルデータにおける前記サンプル属性値ごとの出現頻度である第2の出現頻度とが対応するように、前記サンプルデータを生成する
情報処理装置。
(4)(2)又は(3)に記載の情報処理装置であって、
前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合を近似した近似値を前記第1の出現頻度として表す前記頻度関数を算出する
情報処理装置。
(5)(4)に記載の情報処理装置であって、
前記算出部は、所定のモデル関数を選択し、前記所定のモデル関数を前記属性値ごとの前記出現回数の割合にフィッティングすることで前記頻度関数を算出する
情報処理装置。
(6)(4)又は(5)の情報処理装置であって、
前記算出部は、最尤推定法により前記属性値ごとの前記出現回数の割合に応じた確率関数を推定することで、当該推定された確率関数を前記頻度関数として算出する
情報処理装置。
(7)(2)から(6)のうちいずれか1つに記載の情報処理装置であって、
前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合を前記第1の出現頻度として表す前記頻度関数を生成する
情報処理装置。
(8)(1)から(7)のうちいずれか1つに記載の情報処理装置であって、
前記1以上の属性値のうち所定の属性値を、前記算出部による前記頻度関数の算出に用いられない対象外属性値として設定する設定部をさらに具備し、
前記算出部は、前記設定された前記対象外属性値を除いた前記1以上の属性値の出現頻度に関する前記頻度関数を算出し、
前記生成部は、前記算出された頻度関数をもとに、前記対象外属性値を除いた前記1以上の属性値から前記サンプルデータを生成する
情報処理装置。
(9)(8)に記載の情報処理装置であって、
前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合をもとに前記頻度関数を生成し、
前記設定部は、前記属性値ごとの前記出現回数の割合をもとに、当該出現回数の割合が所定よりも小さい属性値を前記対象外属性値として設定する
情報処理装置。
(10)(8)に記載の情報処理装置であって、
前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合をもとに前記頻度関数を生成し、
前記設定部は、前記属性値ごとの前記出現回数の割合をもとに、当該出現回数の割合と前記頻度関数により表される前記第1の出現頻度との差が、所定よりも大きい属性値を前記対象外属性値として設定し、
前記算出部は、前記設定された前記対象外属性値を除いた前記1以上の属性値の出現頻度に関する前記頻度関数を改めて算出し、
前記生成部は、前記改めて算出された頻度関数をもとに、前記対象外属性値を除いた前記1以上の属性値から前記サンプルデータを生成する
情報処理装置。
(11)(1)から(10)のうちいずれか1つに記載の情報処理装置であって、
外部装置からの、前記データベースの所定のデータに関する前記サンプルデータの要求を受信する受信部と、
前記要求をもとに、前記データベースから前記所定のデータを選択する選択部と
をさらに具備し、
前記算出部は、前記選択された所定のデータに関して前記頻度関数を算出し、
前記生成部は、前記算出された頻度関数をもとに前記所定のデータから前記サンプルデータを生成する
情報処理装置。
(12)(11)に記載の情報処理装置であって、
前記受信部は、外部装置が有する外部データと、前記データベースの前記外部データに関連する関連データに関する前記サンプルデータの要求とを受信し、
前記算出部は、前記外部データと前記関連データとの組み合わせを前記1以上の属性値として、前記頻度関数を算出し、
前記生成部は、前記算出された頻度関数をもとに、前記外部データと前記関連データとの組み合わせを1以上のサンプル属性値として含む前記サンプルデータを生成する
情報処理装置。
(13)(12)に記載の情報処理装置であって、
前記受信部、前記算出部、及び前記生成部は、マルチパーティプロトコルに基づいてそれぞれ動作可能である
情報処理装置。
(14)(13)に記載の情報処理装置であって、
前記受信部は、完全準同型暗号により暗号化された前記外部データを受信し、
前記情報処理装置は、前記完全準同型暗号により前記関連データを暗号化する暗号化部をさらに具備し、
前記算出部は、前記暗号化された前記外部データと前記暗号化された前記関連データとの組み合わせに関して前記頻度関数を算出し、
前記生成部は、前記算出された頻度関数をもとに、前記暗号化された前記外部データと前記暗号化された前記関連データとの組み合わせに関する前記サンプルデータを生成する
情報処理装置。
(15)(11)から(14)のうちいずれか1つに記載の情報処理装置であって、
前記算出部は、前記1以上の属性値の出現頻度に関する関数として、第1の頻度関数と前記第1の頻度関数と異なる第2の頻度関数とを生成することが可能であり、
前記受信部は、前記外部装置からの、前記第1及び前記第2の頻度関数のいずれかを選択するための指定を受信する
情報処理装置。
10、310、410、510…データ提供装置
11、311、411…受信部
12、312、412…データ抽出部
13、313、413…頻度関数算出部
14、314、414…擬似サンプルデータ生成部
15、315、415…送信部
20、320、420、520…データ受信装置
30、430…データベース
31、34、35、36、230…テーブル
31a、34a、35a、36a…属性
31b、34b、35b、36b…属性値
37…元データ
38…属性値ごとの出現回数の割合
40…対象外属性値
50、350、450…擬似サンプルデータ
51、351、451…サンプル属性値
100、300、400…データ提供システム
316…暗号化部
330…外部データのテーブル
335…関連データのテーブル
417、517…サンプルオプション保存部

Claims (19)

  1. 所定の属性と前記属性に関する1以上の属性値とを有するデータベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出する算出部と、
    前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成する生成部と
    を具備する情報処理装置。
  2. 前記頻度関数は、前記属性値ごとの出現頻度である第1の出現頻度を表す
    請求項1に記載の情報処理装置。
  3. 前記生成部は、前記頻度関数により表される前記サンプル属性値ごとの第1の出現頻度と、前記サンプルデータにおける前記サンプル属性値ごとの出現頻度である第2の出現頻度とが対応するように、前記サンプルデータを生成する
    請求項2に記載の情報処理装置。
  4. 前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合を近似した近似値を前記第1の出現頻度として表す前記頻度関数を算出する
    請求項2に記載の情報処理装置。
  5. 前記算出部は、所定のモデル関数を選択し、前記所定のモデル関数を前記属性値ごとの前記出現回数の割合にフィッティングすることで前記頻度関数を算出する
    請求項4に記載の情報処理装置。
  6. 前記算出部は、最尤推定法により前記属性値ごとの前記出現回数の割合に応じた確率関数を推定することで、当該推定された確率関数を前記頻度関数として算出する
    請求項4に記載の情報処理装置。
  7. 前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合を前記第1の出現頻度として表す前記頻度関数を生成する
    請求項2に記載の情報処理装置。
  8. 前記1以上の属性値のうち所定の属性値を、前記算出部による前記頻度関数の算出に用いられない対象外属性値として設定する設定部をさらに具備し、
    前記算出部は、前記設定された前記対象外属性値を除いた前記1以上の属性値の出現頻度に関する前記頻度関数を算出し、
    前記生成部は、前記算出された頻度関数をもとに、前記対象外属性値を除いた前記1以上の属性値から前記サンプルデータを生成する
    請求項1に記載の情報処理装置。
  9. 前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合をもとに前記頻度関数を生成し、
    前記設定部は、前記属性値ごとの前記出現回数の割合をもとに、当該出現回数の割合が所定よりも小さい属性値を前記対象外属性値として設定する
    請求項8に記載の情報処理装置。
  10. 前記算出部は、前記属性値ごとの前記1以上の属性値の全体数に対する出現回数の割合を算出し、前記出現回数の割合をもとに前記頻度関数を生成し、
    前記設定部は、前記属性値ごとの前記出現回数の割合をもとに、当該出現回数の割合と前記頻度関数により表される前記第1の出現頻度との差が、所定よりも大きい属性値を前記対象外属性値として設定し、
    前記算出部は、前記設定された前記対象外属性値を除いた前記1以上の属性値の出現頻度に関する前記頻度関数を改めて算出し、
    前記生成部は、前記改めて算出された頻度関数をもとに、前記対象外属性値を除いた前記1以上の属性値から前記サンプルデータを生成する
    請求項8に記載の情報処理装置。
  11. 外部装置からの、前記データベースの所定のデータに関する前記サンプルデータの要求を受信する受信部と、
    前記要求をもとに、前記データベースから前記所定のデータを選択する選択部と
    をさらに具備し、
    前記算出部は、前記選択された所定のデータに関して前記頻度関数を算出し、
    前記生成部は、前記算出された頻度関数をもとに前記所定のデータから前記サンプルデータを生成する
    請求項1に記載の情報処理装置。
  12. 前記受信部は、外部装置が有する外部データと、前記データベースの前記外部データに関連する関連データに関する前記サンプルデータの要求とを受信し、
    前記算出部は、前記外部データと前記関連データとの組み合わせを前記1以上の属性値として、前記頻度関数を算出し、
    前記生成部は、前記算出された頻度関数をもとに、前記外部データと前記関連データとの組み合わせを1以上のサンプル属性値として含む前記サンプルデータを生成する
    請求項11に記載の情報処理装置。
  13. 前記受信部、前記算出部、及び前記生成部は、マルチパーティプロトコルに基づいてそれぞれ動作可能である
    請求項12に記載の情報処理装置。
  14. 前記受信部は、完全準同型暗号により暗号化された前記外部データを受信し、
    前記情報処理装置は、前記完全準同型暗号により前記関連データを暗号化する暗号化部をさらに具備し、
    前記算出部は、前記暗号化された前記外部データと前記暗号化された前記関連データとの組み合わせに関して前記頻度関数を算出し、
    前記生成部は、前記算出された頻度関数をもとに、前記暗号化された前記外部データと前記暗号化された前記関連データとの組み合わせに関する前記サンプルデータを生成する
    請求項13に記載の情報処理装置。
  15. 前記算出部は、前記1以上の属性値の出現頻度に関する関数として、第1の頻度関数と前記第1の頻度関数と異なる第2の頻度関数とを生成することが可能であり、
    前記受信部は、前記外部装置からの、前記第1及び前記第2の頻度関数のいずれかを選択するための指定を受信する
    請求項11に記載の情報処理装置。
  16. 所定の属性と前記属性に関する1以上の属性値とを有するデータベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出し、
    前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成する
    情報処理方法。
  17. 所定の属性と前記属性に関する1以上の属性値とを有するデータベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出するステップと、
    前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成するステップと
    をコンピュータに実行させるプログラム。
  18. 所定の属性と前記属性に関する1以上の属性値とを有するデータベースを提供可能な第1の情報処理装置と、前記第1の情報処理装置に前記データベースに関するサンプルデータの要求を送信する第2の情報処理装置とを具備する情報処理システムであって、
    前記第1の情報処理装置は、
    前記第2の情報処理装置からの前記サンプルデータの要求を受信する受信部と、
    前記データベースの、前記1以上の属性値の出現頻度に関する関数である頻度関数を算出する算出部と、
    前記算出された頻度関数をもとに、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記データベースに関する前記出現頻度に応じたサンプルデータを生成する生成部と
    を有し、
    前記第2の情報処理装置は、
    前記サンプルデータの要求を送信する送信部と、
    前記生成されたサンプルデータを受信する受信部と
    を有する
    情報処理システム。
  19. 所定の属性と前記属性に関する1以上の属性値とを有するデータベースを提供可能なデータ提供装置に、前記データベースに関するサンプルデータの要求を送信する送信部と、
    前記要求を受信した前記データ提供装置により前記1以上の属性値の出現頻度に関する関数である頻度関数をもとに生成された、前記1以上の属性値の少なくとも一部を1以上のサンプル属性値として含む、前記出現頻度に応じた前記サンプルデータを受信する受信部と
    を具備する情報処理装置。
JP2012150237A 2012-07-04 2012-07-04 情報処理装置、情報処理方法、プログラム、及び情報処理システム Pending JP2014013479A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012150237A JP2014013479A (ja) 2012-07-04 2012-07-04 情報処理装置、情報処理方法、プログラム、及び情報処理システム
US13/903,217 US20140012862A1 (en) 2012-07-04 2013-05-28 Information processing apparatus, information processing method, program, and information processing system
CN201310263008.2A CN103530305A (zh) 2012-07-04 2013-06-27 信息处理设备、信息处理方法、程序以及信息处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012150237A JP2014013479A (ja) 2012-07-04 2012-07-04 情報処理装置、情報処理方法、プログラム、及び情報処理システム

Publications (1)

Publication Number Publication Date
JP2014013479A true JP2014013479A (ja) 2014-01-23

Family

ID=49879313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012150237A Pending JP2014013479A (ja) 2012-07-04 2012-07-04 情報処理装置、情報処理方法、プログラム、及び情報処理システム

Country Status (3)

Country Link
US (1) US20140012862A1 (ja)
JP (1) JP2014013479A (ja)
CN (1) CN103530305A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017135264A1 (ja) * 2016-02-05 2017-08-10 Necソリューションイノベータ株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
JP2019109755A (ja) * 2017-12-19 2019-07-04 株式会社日立ハイテクノロジーズ 計測装置および計測データ処理方法
JP2021111085A (ja) * 2020-01-09 2021-08-02 Kddi株式会社 リスク評価装置、リスク評価方法及びリスク評価プログラム
WO2023053161A1 (ja) * 2021-09-28 2023-04-06 日本電気株式会社 装置管理システム、予兆保全システム、装置管理方法、及び記録媒体

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10681666B2 (en) * 2014-08-29 2020-06-09 Apple Inc. Coarse location estimation for mobile devices
US10127255B1 (en) 2015-10-07 2018-11-13 Applied Predictive Technologies, Inc. Computer system and method of initiative analysis using outlier identification
WO2018124104A1 (ja) * 2016-12-26 2018-07-05 国立大学法人大阪大学 データ解析方法およびデータ解析システム
CN111611618B (zh) * 2017-10-31 2023-08-04 创新先进技术有限公司 一种数据统计方法和装置
US11593510B1 (en) * 2019-05-01 2023-02-28 Meta Platforms, Inc. Systems and methods for securely sharing and processing data between parties
CN112200626A (zh) * 2020-09-30 2021-01-08 京东方科技集团股份有限公司 确定推荐产品的方法和装置、电子设备、计算机可读介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5426781A (en) * 1992-04-30 1995-06-20 International Business Machines Corporation Computerized report-based interactive database query interface
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
US6052689A (en) * 1998-04-20 2000-04-18 Lucent Technologies, Inc. Computer method, apparatus and programmed medium for more efficient database management using histograms with a bounded error selectivity estimation
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6922700B1 (en) * 2000-05-16 2005-07-26 International Business Machines Corporation System and method for similarity indexing and searching in high dimensional space
US7428554B1 (en) * 2000-05-23 2008-09-23 Ocimum Biosolutions, Inc. System and method for determining matching patterns within gene expression data
US7136850B2 (en) * 2002-12-20 2006-11-14 International Business Machines Corporation Self tuning database retrieval optimization using regression functions
US20040215656A1 (en) * 2003-04-25 2004-10-28 Marcus Dill Automated data mining runs
US7836010B2 (en) * 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
US7409406B2 (en) * 2003-09-08 2008-08-05 International Business Machines Corporation Uniform search system and method for selectively sharing distributed access-controlled documents
WO2006123429A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体
JP5187532B2 (ja) * 2007-02-27 2013-04-24 日本電気株式会社 データ収集システム、データ収集方法、およびデータ収集プログラム
JP5007743B2 (ja) * 2007-05-24 2012-08-22 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US20100146299A1 (en) * 2008-10-29 2010-06-10 Ashwin Swaminathan System and method for confidentiality-preserving rank-ordered search
US8671093B2 (en) * 2008-11-18 2014-03-11 Yahoo! Inc. Click model for search rankings
US8060480B2 (en) * 2009-07-27 2011-11-15 Sap Ag Processing substantial amounts of data using a database
US20110184893A1 (en) * 2010-01-27 2011-07-28 Microsoft Corporation Annotating queries over structured data

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017135264A1 (ja) * 2016-02-05 2017-08-10 Necソリューションイノベータ株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
JPWO2017135264A1 (ja) * 2016-02-05 2018-11-29 Necソリューションイノベータ株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019109755A (ja) * 2017-12-19 2019-07-04 株式会社日立ハイテクノロジーズ 計測装置および計測データ処理方法
JP2021111085A (ja) * 2020-01-09 2021-08-02 Kddi株式会社 リスク評価装置、リスク評価方法及びリスク評価プログラム
JP7219726B2 (ja) 2020-01-09 2023-02-08 Kddi株式会社 リスク評価装置、リスク評価方法及びリスク評価プログラム
WO2023053161A1 (ja) * 2021-09-28 2023-04-06 日本電気株式会社 装置管理システム、予兆保全システム、装置管理方法、及び記録媒体

Also Published As

Publication number Publication date
CN103530305A (zh) 2014-01-22
US20140012862A1 (en) 2014-01-09

Similar Documents

Publication Publication Date Title
JP2014013479A (ja) 情報処理装置、情報処理方法、プログラム、及び情報処理システム
CN105122721B (zh) 用于管理针对加密数据的托管安全计算的方法和系统
Zaidan et al. Comparative study on the evaluation and benchmarking information hiding approaches based multi-measurement analysis using TOPSIS method with different normalisation, separation and context techniques
KR102402625B1 (ko) 데이터를 관리하는 방법 및 그를 위한 장치들
WO2021159798A1 (zh) 纵向联邦学习系统优化方法、设备及可读存储介质
CN112789843B (zh) 用于用户标识符集合的交集的私密性保护确定的系统和方法
KR102393942B1 (ko) 비밀 키에 대한 정족수 설계를 수행하는 장치 및 방법
JPWO2015063905A1 (ja) データ分析システム
WO2022142366A1 (zh) 机器学习模型更新的方法和装置
EP4097618B1 (en) Privacy preserving machine learning for content distribution and analysis
JP7361928B2 (ja) 勾配ブースティングを介したプライバシーを守る機械学習
CN111339412A (zh) 纵向联邦推荐召回方法、装置、设备及可读存储介质
Al Aziz et al. Secure and efficient multiparty computation on genomic data
KR20230141908A (ko) 암호화된 네트워크 값 집계
JP7457131B2 (ja) プライバシーを守る機械学習ラベリング
CN114817999A (zh) 一种基于多密钥同态加密的外包隐私保护方法和设备
Tsioulou et al. Hazard‐compatible modification of stochastic ground motion models
Ning et al. Allocation of carbon quotas with local differential privacy
CN113518992A (zh) 使用多个聚合服务器防止数据操作
Nanavati et al. Analysis and evaluation of schemes for secure sum in collaborative frequent itemset mining across horizontally partitioned data
KR102615381B1 (ko) 동형 암호를 활용한 사적 변수의 보안 방법 및 장치
JP7360074B2 (ja) 秘匿計算方法、秘匿計算システム及びプログラム
KR102304992B1 (ko) 동형 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법
KR102633416B1 (ko) 동형 암호를 활용한 사적 변수의 보안 방법 및 장치
US11943342B1 (en) Private categorization using shared keys