JP2007288480A - 統計処理方法、データ提供装置、及び統計処理システム - Google Patents
統計処理方法、データ提供装置、及び統計処理システム Download PDFInfo
- Publication number
- JP2007288480A JP2007288480A JP2006113121A JP2006113121A JP2007288480A JP 2007288480 A JP2007288480 A JP 2007288480A JP 2006113121 A JP2006113121 A JP 2006113121A JP 2006113121 A JP2006113121 A JP 2006113121A JP 2007288480 A JP2007288480 A JP 2007288480A
- Authority
- JP
- Japan
- Prior art keywords
- data
- disturbance
- original data
- statistical processing
- random
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
【課題】撹乱データが傍受されても利用者の個人情報を漏洩することがなく、プライバシー保護のための大きなコスト及び労力が掛けることなく、有用な統計データが得られるようにする。
【解決手段】利用者信号に基づいてデータ提供装置(1)で生成される元データが撹乱データに変換される(5)。この変換のための処理には、撹乱データから元データへの復元を防ぐランダムステップが含まれる。撹乱データは、外部の統計処理装置(12)に送信され、ランダムステップの効果が除去する統計処理が行われる。
【選択図】図1
【解決手段】利用者信号に基づいてデータ提供装置(1)で生成される元データが撹乱データに変換される(5)。この変換のための処理には、撹乱データから元データへの復元を防ぐランダムステップが含まれる。撹乱データは、外部の統計処理装置(12)に送信され、ランダムステップの効果が除去する統計処理が行われる。
【選択図】図1
Description
本発明は統計処理方法に関し、特に通信網に接続された複数のデータ提供装置で生成されたデータを収集して統計処理するための統計処理方法、及び統計処理システムに関する。本発明はまた、そのような統計処理システムで用いられるデータ提供装置に関する。
テレビ番組、ラジオ番組がどの程度視聴されているかを示す視聴率は、番組の商業的価値を評価する必要のある番組の制作者、提供者、広告者には、重要な情報である。一方、個人情報の法的保護はますます厳しくなってきており、個人に関する情報を収集する機関にとって、個人に関する情報を個人が望まない方法で使用したり開示したりしないようにすることが不可欠となっている。これは当該情報が個人のテレビの視聴習慣であっても当てはまる。
視聴率調査機関にとって、収集される情報の第三者への意図しない漏洩を防ぐことが問題である。ここで言う第三者には、個人の住宅から情報収集機関へ送信される情報を傍受する者が含まれる。
視聴率調査機関にとって、収集される情報の第三者への意図しない漏洩を防ぐことが問題である。ここで言う第三者には、個人の住宅から情報収集機関へ送信される情報を傍受する者が含まれる。
この問題の解決法の一つは、例えば特許文献1に開示されているように、情報を暗号化することである。
しかしながら、信頼できる暗号化は管理のためのコストが高い。また解読後に、情報へのアクセスを制限しなければならないと言う問題が残り、このこともまたコストが掛かり、情報を広く利用する上での制約となる。
市場調査や世論調査、商品の使用についての調査、医学的、社会的、経済的、財政的統計などを行う組織においても同様の問題が発生する。さらに、自然人に関する情報のみならず、法人、団体などから統計処理のために提供された情報についても同様の問題がある。統計のための情報を電子的手段で得て、通信網を介して送信することがますます多くなってきているので、問題の深刻さはますます増大している。
統計処理を行う機関が必要とする情報を保護する負担を担うのではなく、提供された情報に関してなにも明らかにしないが、視聴率、市場傾向、及び他の有用な統計を得ることができる形で情報を収集することができれば望ましい。
本発明の目的は、統計処理のために提供された情報、例えば個人情報の秘密を保護するとともに、有用な統計を取ることを可能にすることにある。本発明の他の目的は、統計を取る機関においてデータを保護する必要をなくすことである。
複数のデータ提供装置で生成された元データについての統計を得る方法であって、
データ提供装置の各々で生成された元データを、ランダムステップを含む処理によって撹乱データに変換するステップと、
上記複数のデータ提供装置から上記撹乱データを共通の統計処理装置に送信するステップと、
上記共通の統計処理装置において、上記複数のデータ提供装置から送信された撹乱データを、上記ランダムステップの影響を統計的に除去する方法で統計的に処理して、上記統計を得るステップとを有し、
上記ランダムステップは、撹乱データから元データを一意に復元することを妨げるものである
ことを特徴とする統計処理方法を提供する。
データ提供装置の各々で生成された元データを、ランダムステップを含む処理によって撹乱データに変換するステップと、
上記複数のデータ提供装置から上記撹乱データを共通の統計処理装置に送信するステップと、
上記共通の統計処理装置において、上記複数のデータ提供装置から送信された撹乱データを、上記ランダムステップの影響を統計的に除去する方法で統計的に処理して、上記統計を得るステップとを有し、
上記ランダムステップは、撹乱データから元データを一意に復元することを妨げるものである
ことを特徴とする統計処理方法を提供する。
本発明によれば、統計処理のために提供された情報、例えば個人情報の秘密を保護することができ、有用な統計を取ることが可能となり、しかも統計を取る機関においてデータを保護する必要がなくなる。
以下、本発明の実施の形態を添付の図面を参照して説明する。添付の図面において、同様の部材は同様の符号で示される。
すべての実施の形態は、図1に示すシステムに関する。図1に示すシステムは、テレビ受信機、VTR、DVD再生装置などの映像機器からの視聴統計を得るためのものである。簡単のため、図面は一つの映像機器のみを示す。この映像機器は、以下の詳述するように、統計処理の元となるデータを生成し、提供するものとしての機能を有するので、「データ提供装置」と呼ぶ。データ提供装置1は、本体2と、指示受信部3と、履歴情報記憶部4と、データ変換部5と、撹乱履歴情報記憶部6と、通信網インターフェース7とを有する。
本体2は、データ提供装置1内のスペースの大部分を占め、データ提供装置の主たる機能を担う。テレビ受信機の場合、主たる機能は、放送番組を受信し、放送された番組を画面上に表示することを含む。主たる機能の詳細は説明は省略する。
指示受信部3は、赤外線信号などの制御信号を受信し、それらを電子的指示に変換し、指示を本体2に送る。
履歴情報記憶部4は、例えば、本体2がある期間内においてどのように利用されたかを示すデータを記憶する1又は2以上の半導体メモリチップで構成されている。
データ変換部5は、履歴情報記憶部4内のデータを確率的処理により変換乃至改変し、撹乱履歴情報を生成する。
撹乱履歴情報記憶部6は撹乱履歴情報を記憶する。
通信網インターフェース7は、撹乱履歴情報を、通信網11を介して統計処理装置12に送信する。通信網インターフェース7は、どのような通信用インターフェースであっても良く、例えば周知のイーサネットインターフェース(登録商標)であっても良い。
統計処理装置12は、複数のデータ提供装置から送信された撹乱履歴情報を処理し、視聴統計を生成する。
統計処理装置12に撹乱履歴情報を送信するデータ提供装置の数については制限がないが、一般的には、少なくとも数百であり、データ提供装置がインターネットに接続されたものである場合などのように、テレビ受信機が数千万に達することもある。そのように多くのデータ提供装置からのデータを処理するためには、統計処理装置12は、階層的構成を有するものであっても良い。
統計処理装置12に撹乱履歴情報を送信するデータ提供装置の数については制限がないが、一般的には、少なくとも数百であり、データ提供装置がインターネットに接続されたものである場合などのように、テレビ受信機が数千万に達することもある。そのように多くのデータ提供装置からのデータを処理するためには、統計処理装置12は、階層的構成を有するものであっても良い。
以下の実施の形態の各々において、撹乱履歴情報は、有用な統計を得ることを可能にする一方、個々の利用者13の視聴履歴を漏洩することがない。より詳しく言えば、撹乱履歴情報は、利用者のリモコン4から指示受信部3に送信された指示を明らかにしない。そのような指示の例には、テレビ受信機の場合には、チャンネル選択指示、音量調整指示が含まれ、VTRの場合には、予約録画の指示(それにより、利用者13がどの番組を記録すべきかを特定する指示)が含まれ、DVD再生機の場合には、DVDの再生の開始、終了の指示、コンテンツの一部のスキップの指示、コンテンツの早送り再生の指示が含まれる。
これらの実施の形態において、データ変換部5は、履歴情報記憶部4に記憶されたデータを順番に処理する。図2を参照し、ステップS21において、データ変換部5は履歴情報記憶部4から一項目のデータを読み込む。
ステップS22において、データ変換部5は、データ値を変換乃至改変し撹乱データを生成する。ステップS23において、データ変換部5は、撹乱データ値(元のデータ値と偶然等しい場合もある)を撹乱履歴情報記憶部6に書き込む。ステップS24において、データ変換部5は、履歴情報記憶部4内のすべてのデータが改変されて撹乱履歴情報記憶部6に記憶されたか否かをチェックし、すべてのデータの改変が済んでいなければ、ステップS21に戻り、ステップS21乃至S23を繰り返す。
ステップS22において、データ変換部5は、データ値を変換乃至改変し撹乱データを生成する。ステップS23において、データ変換部5は、撹乱データ値(元のデータ値と偶然等しい場合もある)を撹乱履歴情報記憶部6に書き込む。ステップS24において、データ変換部5は、履歴情報記憶部4内のすべてのデータが改変されて撹乱履歴情報記憶部6に記憶されたか否かをチェックし、すべてのデータの改変が済んでいなければ、ステップS21に戻り、ステップS21乃至S23を繰り返す。
実施の形態1.
実施の形態1において、データ提供装置1は、DVD再生機であり、履歴情報記憶部4に記憶されたデータは、再生されたDVDに関し、DVDコンテンツのどの部分が通常速度で再生され、どの部分が早送り再生され、どの部分がスキップされたかを示すデータである。この情報は、通常再生の場合数値「2」に、早送り再生の場合数値「1」に、スキップされた場合数値「0」に符号化されている。一般的に、「2」は、視聴者が面白いと感じた部分であることを示し、「1」は、視聴者が面白くないと感じた部分であることを示し、「0」は、まったく見たいと思わなかった部分であることを示すものであり、数値が大きいほど、視聴者の関心の程度(興味のレベル)が高いことを意味する。
実施の形態1において、データ提供装置1は、DVD再生機であり、履歴情報記憶部4に記憶されたデータは、再生されたDVDに関し、DVDコンテンツのどの部分が通常速度で再生され、どの部分が早送り再生され、どの部分がスキップされたかを示すデータである。この情報は、通常再生の場合数値「2」に、早送り再生の場合数値「1」に、スキップされた場合数値「0」に符号化されている。一般的に、「2」は、視聴者が面白いと感じた部分であることを示し、「1」は、視聴者が面白くないと感じた部分であることを示し、「0」は、まったく見たいと思わなかった部分であることを示すものであり、数値が大きいほど、視聴者の関心の程度(興味のレベル)が高いことを意味する。
図3を参照し、実施の形態1では、データ変換部5は、履歴情報の各値に乱数(ランダム数)を加算する。より詳しく述べれば、ステップS26において、データ変換部5はゼロ以上で1未満の乱数を発生し、発生した乱数を10倍し、その結果の整数部分を取ることにより、ゼロ以上9以下の整数から成る乱数(乱整数)を生成する。ステップS27において、データ変換部5は、この乱整数を履歴情報記憶部4から読み出された値に加算し、和を撹乱履歴情報記憶部6に書き込む。これらの2つのステップが、図2のステップS22を構成し、これらの2つのステップは履歴情報内の各データ項目に対して繰り返される。この場合、加算のたびに、新たな乱数が生成される。この結果、撹乱履歴情報記憶部6には、ゼロ乃至11の範囲の整数の列が記憶される。
図4は履歴情報の一例を示す。図4において、DVDコンテンツの相連続する部分が、横軸上にそれらの時間位置(分単位で表される)によって示されている。再生モード(通常、早送り、スキップ)は、垂直軸上に整数で示されている。
図5は、この履歴情報の一例と、該履歴情報の一例からデータ変換部5において生成された典型的な撹乱履歴情報とを示す。元の履歴情報は、丸印で示され、撹乱履歴情報は四角印で示されている。履歴情報は、完全に撹乱されており、利用者がDVDをどのように見たかについてのほとんど何も明らかにしていない。利用者は例えば、前半を見て(通常再生し)、後半を早送り再生したかも知れず、逆に前半を早送り再生し、後半を通常再生したかも知れない。従って、このような撹乱履歴情報は、通信網11を介して統計処理装置12に、暗号化しないで送信することができる。このような送信が傍受されても、利用者13の行動又は好みについて何も有用な情報を得ることができないからである。
統計処理装置12において、同じDVDについての撹乱履歴情報が多数のデータ提供装置1から受信され、それらの値が平均化される。各分(分単位で表される各時間区分)における平均化の結果は、元の履歴情報の平均と、撹乱のため加算された乱数の平均との和である。乱数は、ゼロ乃至9であるので、それらの平均は統計的に4.5に近い。そこで、この値(4.5)を撹乱された履歴情報の値の平均値から差引くことで、元のデータの平均値(より正確には、元の平均値に統計的に近い値)を得ることができる。
一例として、図6には、概して図4に示されたとの同様の、180個の履歴情報から得られた真の平均データと、180個の上記のような撹乱履歴情報から得られた平均データとを示す。この比較的少ない数のデータの場合でも、撹乱履歴情報から得られた平均値は、多くの場合真の平均値に極めて近く、真の平均値からの差は0.5以下に収まっている。このことから、撹乱履歴情報の適切な統計処理により、元の履歴情報の統計処理(平均化)と略同じ情報が得られることが分かる。特に、2つの統計は共に、視聴者の関心が、最初の3分間が最も高く、第6乃至第8分には低いことを示している。
図6は、撹乱履歴情報を用いることで、統計上の正確さが幾分失われることをも示している。しかし、この点は、より多くのデータを集めることで補うことができる。本発明は、プライバシー保護のためのコストをかけることなく、データを無制限に集めることを可能にするものである。なぜなら、データが利用者のデータ提供装置1から送出される前に、十分な保護が組み込まれるからである。
実施の形態2.
実施の形態2では、すべての履歴情報に乱数値を加算する代わりに、データの一部を無作為に(ランダムに)選択して、選択されたデータをランダムなデータで置き換える。ここでも履歴情報はゼロ乃至2の整数であり、DVDの分単位の時間区分における視聴者の関心の程度を示す。
実施の形態2では、すべての履歴情報に乱数値を加算する代わりに、データの一部を無作為に(ランダムに)選択して、選択されたデータをランダムなデータで置き換える。ここでも履歴情報はゼロ乃至2の整数であり、DVDの分単位の時間区分における視聴者の関心の程度を示す。
履歴情報記憶部4から読み出された各値に対し、実施の形態2のデータ変換部5は、図7に示される処理を実施する。ステップS29において、データ変換部5は、乱数を発生し、発生された乱数を閾値と比較して、読み出された値を置換えるべきか否かの判断を行う。置換えるべきでないと判断したときは、データ変換部5は読み出した値を撹乱履歴情報記憶部6に書き込む。置換えるべきであると判断したときは、データ変換部5は、ゼロ乃至2の乱整数を発生し、乱整数を撹乱履歴情報記憶部6に書き込む。ゼロ乃至2の乱整数は、例えばゼロ以上で1未満の乱数を発生し、発生された乱数を3倍し、その結果の整数部分を取ることで、生成される。
図8は、この処理を、履歴情報の一例について示す。置換えるべきか否かの判断のための閾値は、各値が置換えられる確率が1/2となるように設定される。図示の例では、13個の元の履歴情報の値(丸印で示される)のうちの5つが、異なるランダム値(四角印で示される)で置換えられている。他の値については、元のデータと撹乱後のデータ(四角印)が互いに等しい。撹乱履歴情報を傍受した人は、どの値が置換えられたものであり、どの値が置換えられていないかを知らず、また何個の値が置換えられたかも知らないので、撹乱履歴情報からは、当該利用者についての推定が殆どできない。
統計処理装置12において、撹乱履歴情報が統計処理される。この統計処理には、例えば平均値を求め、平均値を2倍し、その結果から1を差し引くことで、元の履歴情報と同じ0〜2のスケールに調整することが含まれる。図9には、この処理の結果(四角印で示される)と、元の履歴情報を平均することで得られる結果(丸印で示される)とが示されている。図9に示す結果は、121個の履歴情報から得られたものである。両者が近似しているのは、撹乱履歴情報のデータの約2分の1が元の履歴情報のデータと同じであるためである。
実施の形態1及び実施の形態2は、収集されるデータが量を数値スケール上で測定する状況において有用である。視聴者の関心の程度は、そのような量の一例であるに過ぎない。他の例として、アンケートに対する5段階の回答、身長、体重、年齢などの生物学的データ、収入、勤続年数、居住年数などの経済学的データ、運動に費やす週当たりの時間、食事、飲酒、睡眠に関する習慣などのライフスタイルに関するデータなどがあり、本発明の実施の形態1及び実施の形態2はこれらにも適用可能である。
実施の形態2は、「はい」、「いいえ」の情報、例えば、コンピュータ画面上に表示された病歴の有無についての質問に対する「はい」、「いいえ」の回答入力により発生された情報を撹乱する場合にも有用である。(この場合、統計処理により、「はい」、「いいえ」と回答した人の割合が求められる。)
実施の形態3.
実施の形態3においては、データ提供装置1は、例えばテレビ受信機またはVTRであり、履歴情報は、再生される又は記録されるテレビ番組を特定するものである。番組は、1000000から9999999までの7桁の数値で特定される(この種の番組コード(識別番号)は広く用いられている)。コードの撹乱は、撹乱されたコードから復元される複数のコードのうちの一つが元のコードであるが、どれが元のコードであるのか特定できない(一意に復元できない)ように行われる。撹乱されたデータからは、特定の個人が視聴した番組がどれであるかは分らない一方、多数のデータ提供装置1から収集された撹乱されたデータから、特定の番組を視聴した人々の数を推定)することが可能である。
実施の形態3においては、データ提供装置1は、例えばテレビ受信機またはVTRであり、履歴情報は、再生される又は記録されるテレビ番組を特定するものである。番組は、1000000から9999999までの7桁の数値で特定される(この種の番組コード(識別番号)は広く用いられている)。コードの撹乱は、撹乱されたコードから復元される複数のコードのうちの一つが元のコードであるが、どれが元のコードであるのか特定できない(一意に復元できない)ように行われる。撹乱されたデータからは、特定の個人が視聴した番組がどれであるかは分らない一方、多数のデータ提供装置1から収集された撹乱されたデータから、特定の番組を視聴した人々の数を推定)することが可能である。
実施の形態3のデータ変換部5は、履歴情報記憶部4から番組コードを一つずつ読込み、各番組コードを撹乱し、撹乱された番組コードを撹乱履歴情報記憶部6に書き込む。各コードの撹乱は、繰上げ無し加算(キャリー無し加算)処理により行われる。この繰上げ無し加算処理においては、3個の異なるランダムな、ゼロでない整数が、7桁の数における3つの選択された位(桁)に、modulo 10加算される。これら3個の整数は、撹乱された番組コードとともに、撹乱履歴情報記憶部6に記録される。撹乱履歴情報記憶部6に記録された情報は、定期的に、例えば一日に一度、統計処理装置12に送信される。
各番組コードについて、データ変換部5で行われる処理が図10に示されている。
ステップS33において、コードの7つの位のうちの一つ(第1の位)が,無作為に選択される。ステップS34において、1乃至9の第1の乱数が発生され、第1の選択された位の数値に加算される。加算により次の位への繰上げ(キャリー)が発生しても、繰上げは無視される。
ステップS35において、コードの残りの6つの未だ改変されていない位のうちの一つ(第2の位)が無作為に選択される。ステップS36において、1乃至9の乱数(ステップS34に発生された乱数とは異なるもの)が発生され、第2の選択されたコードの位の数値に(繰上げ無しに)加算される。
ステップS37において、コードの残りの5つの未だ改変されていない位のうちの一つ(第3の位)が無作為に選択される。ステップS38において、1乃至9の乱数(ステップS34及びS36で発生された乱数と異なるもの)が発生され、第3の選択された位の数値に(繰上げ無しに)加算される。
例えば、番組コードが「3564809」であり、第1の選択された位の数値が十万の位の数値(5)であり、第1の乱数が5であるとする。繰上げ無し加算(5+5=0)により、「3064809」が生じる。第2の選択された位の数値が十の位の数値であり、第2の乱数が「2」であるとすると、繰上げ無し加算(0+2=2)により、「3064829」が生じる。第3の選択された位の数値が一の位の数値であり、第3の乱数が「7」であるとすると、繰上げ無し加算(9+7=6)により、「3064826」が生じる。この値(3064826)が撹乱されたコードとして、3つの加算された数値(5,2,7)とともに、撹乱履歴情報記憶部6に記憶される。
統計処理装置12では、撹乱されたコード(3064826)の7つの位の数値のうちの3つを取り出す210(7×6×5)通りの順列の各々から、上記の3つの数値(5,2,7)を繰下げ無し(ボロー無し)減算し、210個の番組コードを復元する。この210個の復元された番組コードのうちの一つが、正しい履歴情報(実際に履歴記録された番組コード)であり、残りの209個が偽のコードである。実際のコードは、偽のコードから区別できない。従って、この情報からどの番組が視聴されたかを知ることはできないが、十分に多くのデータ提供装置1からこれらの撹乱履歴情報を得て、復元された番組コードの各々が現われる回数を数えれば、実際に視聴された番組のコードが略正しい頻度で現われる一方、他のコードは、無視できるほど低い頻度でしか現われない。
例えば、撹乱履歴情報が100,000世帯におけるデータ提供装置1から得られたとして、そのうち、10,000世帯がコード「3564809」で特定される第1の番組を視聴していたとする。この場合、撹乱の結果が計数され、第1の番組は、10,000個の正しいポイントと、他の番組からの偽のコードにより偶然発生した幾つかのポイントによるスコア(総得点)を獲得する。履歴情報毎の番組コードの平均数が10であるとすると、そのような偽のコードによるポイントによる期待値は、約23であり、視聴率として10.023%が得られる。これは略正しいものである。さらに精度を上げるために、期待される偽のコードによる値(23)を、スコアから減算し、真の値である10%に統計的に近い値を得ることとしても良い。
コード「143691」で特定される第2の番組が100,000世帯のいずれでも視聴されなかったとすると、該第2の番組は、偽のコードから偶然発生するポイントのみをスコアとして獲得し、その視聴率として得られる数値は、約0.023%又は約0.000%(偽のコードによる誤差に対する補償を行う場合)となる。
第3の実施の形態では、視聴率の高い番組とコードが類似している番組については、視聴率が実際よりも高く現われると思われるかも知れない。これは事実であるが、その実際よりも高く現われる割合は僅かである。例えば、視聴率の高い第1の番組とは最後の3つの位の数値のみが異なるコード「3564786」で特定される第3の番組が、いずれの世帯でも視聴されなかった場合、最後の3つの位の数値は、504(9×8×7)通りに変更され得るので、その番組は、第1の番組のために得られた撹乱コードから偶然により、約20(10,000/504)の余分なポイントを得る。これによる、第3の番組の視聴率の上昇はわずかに0.043%又は0.020%(偽のコードのよる誤差の補償を行った場合)である。いずれにせよ、誤差は無視できる。なぜなら、視聴率計算自体に固有の統計的誤差よりも小さいからである。
実施の形態3の変形例においては、無作為に選択された位の数値に加算される3つの整数は必ずしも異なっていなくても良い。もしも、3つの整数のうちの2つが等しい場合には、偽のコードの数は、209から104に減少する。3つの整数が互いに同じ場合には、偽のコードの数は34に減る。
実施の形態3の他の変形例においては、整数の値としてゼロが用いられることもある。この場合にも、偽のコードの数が減る。
実施の形態4.
実施の形態4は、異なる技術を用いて7桁の番組コードを撹乱する。各番組コードに対して、ランダムな除算処理が行われ、商及び余りが撹乱されたコードとして送信される。
実施の形態4は、異なる技術を用いて7桁の番組コードを撹乱する。各番組コードに対して、ランダムな除算処理が行われ、商及び余りが撹乱されたコードとして送信される。
図11において、履歴情報記憶部4から読み出される番組コードの各々について、ステップS41において、データ変換部5がランダムな3桁の整数である除数を選択し、読み出された番組コードに対する除算を行って、商及び余りを生成する。ステップS42において、余りが調べられ、余りが300以上であれば、ステップS41が繰り返される。但し、この場合、異なるランダムな3桁の除数が用いられる。余りが300よりも小さければ、ステップS43において、商及び余りが撹乱履歴情報記憶部6に、撹乱された番組コードとして記憶される。
統計処理装置12でなされる動作を、例を挙げて説明する。受信された商が「4259」であり、受信された余りが「26」であれば、未知の除数は、「235」(その場合、番組コードが、「1000891」となる)から「999」(その場合番組コードが「4254767」となる)までのいずれかの整数である。全部で765個の除数(それぞれ異なる番組コードを生じる)のいずれかである可能性があり、それぞれの除数はそれぞれ異なる番組コードを生じさせる。そこで、これら765個の番組コードのスコアに1ポイントが加えられる。
実施の形態3と同様、多数のデータ提供装置1からの結果の総和を求めると、各番組は、その真の視聴率に(比例する値に)近いスコアを獲得する。必要に応じて、偽のコードによるポイントの期待値を減算することによりスコアを調整することで、視聴率を統計的に一層真の値に近づけることができる。
余りが300未満となるようにする理由は、余りが大きいと、真の除数である可能性のある数値の数が減るためである。例えば、余りが998であれば、真の除数で999でしかあり得ず、真の除数である可能性のある数値の数は1となる。
実施の形態4の変形例において、ステップS42に類似のステップを加え、商の範囲を制限し、真の除数である可能性のある数値の数を十分に多くすることも可能である。例えば、商の数を3,000から13,000までに制限すれば、真の除数である可能性のある数値の数が666以上となる。(商が3,000であれば、真の除数である可能性のある数値のは、334から999の666個であり、商が13,000であれば、真の除数である可能性のある数値は、100から769の670個である。)
テレビ番組コードを撹乱する方法は、実施の形態3及び実施の形態4で説明したものに限定されない。他の方法として、3つの無作為に選択された位の値のランダムな順列(並べ替え)、一つの所定の位の数値と一つの無作為に選択された位の数値の削除(この場合、統計処理装置において、削除された可能性のある位における削除された可能性のある数値と送信された5桁の数値との組合わせで構成される番組コードの各々に対して1ポイントを与える)、単一の無作為に選択された整数を、2つの無作為に選択された位の数値に繰上げ無しに加算すること、所定数の、例えば700個の7桁の整数の中から無作為に選択された7桁の数値の繰上げ無しに加算すること(この場合統計処理装置12においても上記所定数の整数が予め知られているものとする)などが挙げられる。
数学的に言えば、元のコードが変換(マッピング)された多数のコードの一つを無作為に選択することにより、何らかの擬似ランダムな多対多の変換操作を行えば良い。ここで、「変換」は、入力データ(例えば番組コード)が出力データ(例えば撹乱された番組コード)に変換乃至写像(マッピング)されることを意味し、「多対多」は、各入力データ値が複数の出力データ値に変換され、各出力データ値が複数の入力データ値から変換されるものであることを意味し、「擬似ランダム」は、異なる入力データ値が変換される出力データの組が見掛け上ランダム的に重なり合うことを意味する。擬似ランダム変換は、計算可能な逆変換を持つ必要がある。それにより、撹乱されたコードの各々からソースコードであった可能性のあるものが容易に算出できるようにするためである。
図12には、履歴情報がデータ提供装置101から統計処理装置112に撹乱せずに送信される従来のシステムが、本発明のデータ提供装置1及び統計処理装置12を備えたシステムと同じ通信網11を用いるものとして図示されている。図12における点線の丸は、履歴情報が意図しない者に漏洩するかも知れない場所を示す。漏洩は、データ提供装置101から通信網11への通信線上のノード51において、例えば盗聴、傍受により起こるかも知れない。また、通信網11内のノード52で起こるかも知れず、さらに、統計処理装置内で起こるかも知れない。これらのノード51、52、53のすべてにおいて、個人情報が漏れるのを防ぐことは容易ではない。暗号は破られるかもしれないし、コンピュータファイルが盗まれるかも知れないし、収集された情報が従業員により不正に利用されるかも知れないためである。本発明は、送信されるデータを撹乱することにより、仮に漏洩があっても個人情報が明らかにならないので、従来技術に比べて著しい利点を有する。
上記した実施の形態の変形例を幾つか説明したが、当業者は本発明(添付のクレームにより定義される)の範囲内でさらに他の変形が可能であることを認識するであろう。例えば上記の実施の形態では、データ提供装置が映像機器であるが、音響機器、例えばラジオ受信機であっても良い。また、上記の実施の形態では、利用者による操作により、元データが生成されるが、映像機器や音響機器が自動的に元データを生成するように構成されていても良い。
1 データ提供装置、 2 本体、 3 指示受信部、 4 履歴情報記憶部、 5 データ変換部、 6 撹乱履歴情報記憶部、 7 通信網インターフェース、 11 通信網、 12 統計処理装置、 13 利用者、 14 リモコン。
Claims (23)
- 複数のデータ提供装置で生成された元データについての統計を得る方法であって、
データ提供装置の各々で生成された元データを、ランダムステップを含む処理によって撹乱データに変換するステップと、
上記複数のデータ提供装置から上記撹乱データを共通の統計処理装置に送信するステップと、
上記共通の統計処理装置において、上記複数のデータ提供装置から送信された撹乱データを、上記ランダムステップの影響を統計的に除去する方法で統計的に処理して、上記統計を得るステップとを有し、
上記ランダムステップは、撹乱データから元データを一意に復元することを妨げるものである
ことを特徴とする統計処理方法。 - 上記データ提供装置での上記元データの生成が、利用者による操作により行われることを特徴とする請求項1に記載の統計処理方法。
- 上記元データを変換するステップは、上記元データに乱数を加算することを含み、
上記撹乱データを統計的に処理するステップは、平均値を求めることを含む
ことを特徴とする請求項1に記載の統計処理方法。 - 上記元データを変換するステップは、
上記元データの無作為に選択された部分を、ランダムデータで置換えることを含み、
上記撹乱データを統計的に処理するステップは、平均値を求めることを含む
ことを特徴とする請求項1に記載の統計処理方法。 - 上記元データを変換するステップは、所定の擬似ランダム多対多変換により上記元データから生成可能な複数のデータ値の中の一つを無作為に選択することを含み、
上記撹乱データを統計的に処理するステップは、上記所定の擬似ランダム多対多変換により受信された撹乱データ値の各々への変換が可能な元データのすべてを生成し、
生成された元データの各々の発生の回数を数えることを含む
ことを特徴とする請求項1に記載の統計処理方法。 - 上記元データは、数値コードであり、
上記変換するステップは、上記元データ中の各数値コードのうちの無作為に選択された部分を変更することを含む
こと特徴とする請求項5に記載の統計処理方法。 - 上記元データが、数値コードであり、
上記元データを変換するステップが、元データ内の各数値コードを無作為に選択された除数により除算し、商及び余りを得ることを含む
ことを特徴とする請求項5に記載の統計処理方法。 - 上記商及び余りの少なくとも一方が、所定の条件を満たすまで、上記除数のランダムな選択を繰り返し、上記商及び余りの少なくとも一方が上記所定の条件を満たすとき、当該商及び余りを、上記撹乱データとして用いる
ことを特徴とする請求項7に記載の統計処理方法。 - 上記元データは、テレビ番組コードであり、
上記統計は、視聴率である
ことを特徴とする請求項5に記載の統計処理方法。 - 上記データ提供装置の各々は、音響又は映像機器であり、
上記元データは、上記音響又は映像機器の動作状態を示すものである
ことを特徴とする請求項1に記載の統計処理方法。 - 統計的処理のために生成された元データを記憶する第1のメモリと、
上記元データを、ランダムステップを含む処理により撹乱データに変換するデータ変換部と、
上記撹乱データを記憶する第2のメモリと、
上記撹乱データを上記外部の統計処理装置に送信するインターフェイスとを備え、
上記ランダムステップは、上記撹乱データから元データを一意に復元するのを妨げるものである
ことを特徴とするデータ提供装置。 - 上記元データが利用者による操作により生成されたものであることを特徴とする請求項11に記載のデータ提供装置。
- 上記データ変換部が、乱数を発生し、該乱数を上記元データに加算する
ことを特徴とする請求項11に記載のデータ提供装置。 - 上記データ変換部は、
上記元データの一部を無作為に選択し、ランダムデータを発生し、上記無作為に選択された部分を、上記ランダムデータで置換える
ことを特徴とする請求項11に記載のデータ提供装置。 - 上記データ変換部は、所定の擬似ランダム多対多変換により、上記元データから複数の撹乱データ値を発生し、複数の撹乱データ値の一つを無作為に選択し、上記第2のメモリは、上記選択された撹乱データ値を記憶し、
上記擬似ランダム変換は、上記撹乱データ値の各々から複数の元データ値を生成する逆変換を持ち、該逆変換により生成された複数の元データ値の一つが、撹乱データ値の生成の元となった元データ値である
ことを特徴とする請求項11に記載のデータ提供装置。 - 上記元データは、数値コードであり、
上記データ変換部は、上記元データ中の各数値コードのうちの無作為に選択された部分を変更する
こと特徴とする請求項15に記載のデータ提供装置。 - 上記元データが、数値コードであり、
上記元データの各数値コードに関し、
上記データ変換部が、除数を無作為に選択し、上記数値コードを上記選択された除数により除算して商及び余りを得て、
上記第2のメモリが、上記のようにして得られた商及び余りを記憶する
ことを特徴とする請求項15に記載のデータ提供装置。 - 上記データ変換部は、上記商及び余りの少なくとも一方が、所定の条件を満たすまで、上記除数のランダムな選択を繰り返し、上記商及び余りの少なくとも一方が上記所定の条件を満たすとき、当該商及び余りを上記撹乱データとして出力する
ことを特徴とする請求項17に記載のデータ提供装置。 - 上記元データは、テレビ番組コードである
ことを特徴とする請求項15に記載のデータ提供装置。 - 上記データ提供装置の各々は、音響又は映像機器であり、
上記元データは、上記音響又は映像機器の動作状態を示すものである
ことを特徴とする請求項11に記載のデータ提供装置。 - 複数の、請求項11に記載されたデータ提供装置を備え、該複数のデータ提供装置から上記撹乱データを単一の統計処理装置に送信して統計情報を生成するためのシステムであって、
上記統計処理装置が、上記複数のデータ提供装置から送信された上記撹乱データを、上記ランダムステップの影響を統計的に除去するような方法で、統計的に処理し、これにより上記データ提供装置で生成された元データの統計を得る
ことを特徴とする統計処理システム。 - 上記統計処理装置が、上記複数のデータ提供装置から送信された撹乱データの平均値を計算することを特徴とする請求項21に記載の統計処理システム。
- 上記統計処理装置が、
上記データ提供装置の各々から送信された、撹乱データ値を復元して、
上記データ提供装置内の上記データ変換部において上記撹乱データ値に変換される可能性のある一組の元データの値を生成し、
上記複数のデータ提供装置から送信された、上記撹乱データから復元された元データの組における、それぞれの元データ値の発生回数を数える
ことを特徴とする請求項21に記載の統計処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006113121A JP2007288480A (ja) | 2006-04-17 | 2006-04-17 | 統計処理方法、データ提供装置、及び統計処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006113121A JP2007288480A (ja) | 2006-04-17 | 2006-04-17 | 統計処理方法、データ提供装置、及び統計処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007288480A true JP2007288480A (ja) | 2007-11-01 |
Family
ID=38759839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006113121A Withdrawn JP2007288480A (ja) | 2006-04-17 | 2006-04-17 | 統計処理方法、データ提供装置、及び統計処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007288480A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009154020A1 (ja) * | 2008-06-18 | 2009-12-23 | 日本電気株式会社 | 識別子に基づく鍵交換装置及び方法 |
JP2010093424A (ja) * | 2008-10-06 | 2010-04-22 | Nippon Telegr & Teleph Corp <Ntt> | データ集計システム、撹乱装置、再構築装置、データ集計方法、撹乱プログラム、および再構築プログラム |
JP2011100116A (ja) * | 2009-10-07 | 2011-05-19 | Nippon Telegr & Teleph Corp <Ntt> | 撹乱装置、撹乱方法及びプログラム |
JP2011145869A (ja) * | 2010-01-14 | 2011-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体 |
JP2012080345A (ja) * | 2010-10-01 | 2012-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 撹乱システム、撹乱装置、撹乱方法及びプログラム |
JP2012196059A (ja) * | 2011-03-16 | 2012-10-11 | Toshiba Corp | 電力利用調整装置、システムおよびプログラム |
JP2013152670A (ja) * | 2012-01-26 | 2013-08-08 | Nippon Telegr & Teleph Corp <Ntt> | データベース撹乱パラメータ設定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置 |
JP2013153424A (ja) * | 2011-12-20 | 2013-08-08 | Toshiba Corp | スマートメータ・データのプライバシー保護 |
JP2014063069A (ja) * | 2012-09-21 | 2014-04-10 | Fujitsu Ltd | 解析方法、解析装置および解析プログラム |
CN110825922A (zh) * | 2018-08-14 | 2020-02-21 | 阿里巴巴集团控股有限公司 | 数据统计方法和装置 |
-
2006
- 2006-04-17 JP JP2006113121A patent/JP2007288480A/ja not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009154020A1 (ja) * | 2008-06-18 | 2009-12-23 | 日本電気株式会社 | 識別子に基づく鍵交換装置及び方法 |
JP2010093424A (ja) * | 2008-10-06 | 2010-04-22 | Nippon Telegr & Teleph Corp <Ntt> | データ集計システム、撹乱装置、再構築装置、データ集計方法、撹乱プログラム、および再構築プログラム |
JP2011100116A (ja) * | 2009-10-07 | 2011-05-19 | Nippon Telegr & Teleph Corp <Ntt> | 撹乱装置、撹乱方法及びプログラム |
JP2011145869A (ja) * | 2010-01-14 | 2011-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 疑似データ生成装置、疑似データ生成方法、プログラム及び記録媒体 |
JP2012080345A (ja) * | 2010-10-01 | 2012-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 撹乱システム、撹乱装置、撹乱方法及びプログラム |
JP2012196059A (ja) * | 2011-03-16 | 2012-10-11 | Toshiba Corp | 電力利用調整装置、システムおよびプログラム |
JP2013153424A (ja) * | 2011-12-20 | 2013-08-08 | Toshiba Corp | スマートメータ・データのプライバシー保護 |
US9092970B2 (en) | 2011-12-20 | 2015-07-28 | Kabushiki Kaisha Toshiba | Privacy protection for smart metering data |
JP2013152670A (ja) * | 2012-01-26 | 2013-08-08 | Nippon Telegr & Teleph Corp <Ntt> | データベース撹乱パラメータ設定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置 |
JP2014063069A (ja) * | 2012-09-21 | 2014-04-10 | Fujitsu Ltd | 解析方法、解析装置および解析プログラム |
CN110825922A (zh) * | 2018-08-14 | 2020-02-21 | 阿里巴巴集团控股有限公司 | 数据统计方法和装置 |
CN110825922B (zh) * | 2018-08-14 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 数据统计方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007288480A (ja) | 統計処理方法、データ提供装置、及び統計処理システム | |
US11671661B2 (en) | Controlling access to program usage data | |
US10075752B2 (en) | Processing and distribution of video-on-demand content items | |
US7242771B2 (en) | Contents management system | |
CN101040526B (zh) | 数字装置的数字版权管理方法和设备 | |
KR100886423B1 (ko) | 영상 분배 시스템 | |
KR101015326B1 (ko) | 컨텐츠 배포 시스템 | |
US20040123125A1 (en) | Video decoder system and method with enhanced digital rights management (DRM) | |
JP2008530637A (ja) | 複数の装置ドメインのために適応可能なデジタル著作権管理システム | |
JP2003527003A (ja) | テレビジョンシステム | |
JPH11155138A (ja) | アクセスが制限された番組を送信する方法 | |
TWI559755B (zh) | 用於隱私保護之廣告選擇的系統與方法 | |
JP4546876B2 (ja) | 放送局装置および視聴者端末 | |
CN106416285A (zh) | 用于防护多态性内容的系统和方法 | |
JP4746406B2 (ja) | 個人情報保護システム、その署名鍵更新方法および個人情報収集方法、鍵管理装置および鍵生成プログラム、署名鍵生成装置および署名鍵生成プログラム、個人情報管理装置および個人情報収集プログラム、ならびに、コンテンツ復号化装置および個人情報管理プログラム | |
CN100361221C (zh) | 播送内容权利保护装置及播送内容权利保护方法 | |
Zagumennov et al. | Algebraic geometry codes for special broadcast encryption schemes in telecommunication nets | |
US20240155206A1 (en) | Media program viewership measurement using blockchains | |
CN111831835A (zh) | 一种基于人工智能的媒体数据管理系统 | |
JP2004328090A (ja) | コンテンツ配信システム | |
KR101423955B1 (ko) | 사용자단말의 콘텐츠 접근 제어에 따른 콘텐츠 분배 방법 및 시스템 | |
JP2015132712A (ja) | 初期情報生成装置、ユーザ秘密鍵生成装置、記録媒体初期設定装置、データ暗号化記録装置および記録データ復号装置、ならびに、それらのプログラム | |
JP2010187061A (ja) | パスワード生成方法、パスワード生成システム及びプログラム | |
KR20100069476A (ko) | 개별 키로 암호화된 vod용 컨텐츠를 이용한 방송 서비스제공 방법 및 시스템 | |
JP2003069949A (ja) | 番組情報変更方法、受信装置、番組情報送信方法、及び番組情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090707 |