JP2015521769A - Method and apparatus for obfuscating user demographics - Google Patents
Method and apparatus for obfuscating user demographics Download PDFInfo
- Publication number
- JP2015521769A JP2015521769A JP2015518432A JP2015518432A JP2015521769A JP 2015521769 A JP2015521769 A JP 2015521769A JP 2015518432 A JP2015518432 A JP 2015518432A JP 2015518432 A JP2015518432 A JP 2015518432A JP 2015521769 A JP2015521769 A JP 2015521769A
- Authority
- JP
- Japan
- Prior art keywords
- rating
- user
- demographic information
- movie
- recommendation system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Abstract
推薦システムを有するデジタルコンテンツサービスにレイティングを提供する新規ユーザのデモグラフィック情報の正確な検出を難読化する方法は、5つのデモグラフィック情報を検出する推論エンジンを訓練するステップを含む。訓練集合は、複数の他のユーザからの映画レイティングとデモグラフィック情報を含む。新規ユーザは、映画レイティング等のレイティングを入力し、推論エンジンは、新規ユーザのデモグラフィック情報を決定する。次に、難読化エンジンは、推薦システムの推論エンジンが新規ユーザのデモグラフィック情報を正確に検出するのに失敗するような映画レイティングを推薦システムに追加する。A method of obfuscating accurate detection of new user demographic information that provides ratings to a digital content service having a recommendation system includes training an inference engine that detects five demographic information. The training set includes movie ratings and demographic information from multiple other users. The new user inputs a rating, such as a movie rating, and the inference engine determines demographic information for the new user. The obfuscation engine then adds movie ratings to the recommendation system such that the recommendation system's inference engine fails to accurately detect the new user's demographic information.
Description
(関連出願の相互参照)
本出願は、2012年6月21日に出願された米国仮特許出願第61/662618号「Method and Apparatus For Obfuscating User Demographics Based on Ratings(レイティングに基づいてユーザのデモグラフィックスを難読化する方法および装置」の優先権を主張し、その全体を援用により本明細書に組み込むものとする。
(Cross-reference of related applications)
This application is based on US Provisional Patent Application No. 61 / 664,618, “Method and Apparatus for Obfuscating User Demographics Based on Ratings, filed June 21, 2012, and a method of obfuscating user demographics based on ratings and "Device" priority is claimed and is incorporated herein by reference in its entirety.
本発明は、一般的に、推薦システムにおけるユーザプロファイリングおよびユーザのプライバシーに関する。本発明は、より詳細には、デモグラフィック情報の推論に関する。 The present invention generally relates to user profiling and user privacy in a recommendation system. The present invention relates more particularly to the inference of demographic information.
ユーザのデモグラフィックスの推論は、異なる文脈で、様々な種類のユーザが生成したデータに関して研究されてきた。相互作用ネットワークという文脈では、グラフ構造が、ブログやフェイスブック由来のソーシャルネットワークデータのリンクベース情報を用いたデモグラフィックスの推論に有用であることが分かった。他の作業は、デモグラフィックスを推論するために、ユーザの書き込みから得たテキスト特性に依存する。 User demographic reasoning has been studied on various types of user-generated data in different contexts. In the context of interactive networks, graph structures have proved useful for inferring demographics using linkbase information from social network data from blogs and Facebook. Other tasks rely on text characteristics obtained from user writing to infer demographics.
テキストベースの推論の主な短所は、ほとんどのユーザはレビューを書かないので、これらの方法は、適用できないということである。同様に、推薦システムは、詳細を推論したいユーザのソーシャルネットワークを取得できない場合がある。 The main disadvantage of text-based reasoning is that these methods are not applicable because most users do not write reviews. Similarly, the recommendation system may not be able to obtain the social network of the user who wants to infer details.
できるだけ少ない情報に基づいてユーザのデモグラフィックスを推論する方法が望まれていることが分かる。本発明は、このような推論方法に関する。 It can be seen that a method for inferring user demographics based on as little information as possible is desired. The present invention relates to such an inference method.
この概要は、発明の詳細な説明においてさらに後述する概念の一部を簡単に紹介するものである。この概要は、請求項に記載された事項の重要な特徴や不可欠な特徴を特定するためではなく、請求項に記載された事項の範囲を制限するものでもない。 This summary is a brief introduction to some of the concepts described further below in the detailed description of the invention. This summary is not intended to identify key features or essential features of the claimed subject matter, nor is it intended to limit the scope of the claimed subject matter.
本発明は、デジタルコンテンツに対するユーザレイティングから決定できるデモグラフィック情報を難読化する方法と装置を含む。一実施形態においては、性別情報は、ユーザの映画レイティングから決定してよい。プライバシーに関する懸念に対処するために、難読化方法と難読化装置を提示する。難読化方法は、難読化エンジンと通信する推論エンジンを訓練することを含む。推論エンジンは、複数の他のユーザからの映画レイティングとデモグラフィック情報を含む訓練データ集合を用いて、デモグラフィック情報を決定する。その後、新規ユーザからの映画レイティングを受信する。特定のユーザからの映画レイティングは、デモグラフィック情報なしで受信する。新規ユーザのデモグラフィック情報は、訓練された推論エンジンを用いて判断される。次に、付加的映画レイティングが、ユーザが生成したレイティングに追加される。付加的レイティングは、外部の推論エンジンによって行われる場合、ユーザのデモグラフィック情報の結果に反するように生成される。 外部の推論エンジンは、ユーザに視聴を勧める映画を推薦する推薦システムの一部であってよい。 The present invention includes a method and apparatus for obfuscating demographic information that can be determined from user ratings for digital content. In one embodiment, gender information may be determined from the user's movie rating. In order to address privacy concerns, an obfuscation method and an obfuscation device are presented. The obfuscation method includes training an inference engine that communicates with the obfuscation engine. The inference engine determines demographic information using a training data set that includes movie ratings and demographic information from multiple other users. Thereafter, movie ratings from new users are received. Movie ratings from specific users are received without demographic information. New user demographic information is determined using a trained inference engine. The additional movie rating is then added to the user generated rating. Additional ratings are generated against the results of the user's demographic information when performed by an external inference engine. The external reasoning engine may be part of a recommendation system that recommends movies for users to watch.
本発明の追加の特徴および長所は、添付の図面を参照した、以下の例示の実施形態の詳細な説明から明らかになろう。 Additional features and advantages of the present invention will become apparent from the following detailed description of exemplary embodiments, which proceeds with reference to the accompanying drawings.
上記発明の概要、および、以下の例示的実施形態の詳細な説明は、添付図面を参照しながら読むと、よりよく理解できる、それらは、例として挙げるものであって、請求項の発明を制限するものではない。 The foregoing summary, as well as the following detailed description of exemplary embodiments, can be better understood when read with reference to the appended drawings, which are given by way of illustration only and limit the claimed invention. Not what you want.
以下の様々な例示的実施形態の詳細な説明において、当該説明の一部を構成する添付図面が参照される。当該添付図面には、例として本発明の実施可能な様々な実施形態が示されている。本発明の範囲を逸脱することなく、他の実施形態を利用してもよく、構造および機能の変更を行ってもよいことは理解されたい。 In the following detailed description of various exemplary embodiments, reference is made to the accompanying drawings that form a part hereof. The accompanying drawings show various possible embodiments of the present invention by way of example. It should be understood that other embodiments may be utilized and structural and functional changes may be made without departing from the scope of the invention.
性別、年齢、収入、人種などのデモグラフィック情報を介してユーザをプロファイリングすることは、ターゲット広告や個人に合わせたコンテンツ配信において、とても重要である。推薦システムも、個人に合わせた推薦を行うためにこのような情報の恩恵を受けることができる。しかしながら、推薦システムのユーザは、デモグラフィック情報を自発的に提供しないことが多い。これは、プライバシーを守るため意図的な場合もあり、面倒や無関心など非意図的な場合もある。そのため、多数のユーザからユーザレイティングを集めて、現れるパターンから意味のある情報を抽出するという従来の協調フィルタリング法は、ユーザが提供するレイティングにのみ依存して、このような情報を用いない。 Profiling users via demographic information such as gender, age, income, race, etc. is very important for targeted advertising and content distribution tailored to individuals. The recommendation system can also benefit from such information to make personalized recommendations. However, users of recommendation systems often do not provide demographic information voluntarily. This may be intentional in order to protect privacy, and may be unintentional such as bothersome and indifferent. Therefore, the conventional collaborative filtering method of collecting user ratings from a large number of users and extracting meaningful information from the appearing patterns does not use such information depending only on the ratings provided by the users.
一見すると、レイティングを推薦システムに開示することは、あまり害がないようにみえるかもしれない。ユーザはこの開示によって確かに効用を得る。すなわち、適切なコンテンツ/アイテムを探し出す能力である。にもかかわらず、ユーザのデモグラフィックスを、ソーシャルネットワーク、ブログ、マイクロブログ等でのユーザアクティビティに相関させることによって、ユーザアクティビティからユーザのデモグラフィックスを推論するには、かなりの作業量が必要であった。従って、年齢、性別、人種だけでなく、政治的方向性をも含む、デモグラフィック情報も協調フィルタリングシステムに開示された情報から推論できるか否かを問うことは自然なことである。実際には、レイティング値にかかわりなく、ユーザがアイテムと相互作用した(例えば、特定の映画を見た、特定の歌を聞いた、または、製品を買った)という単なる事実をデモグラフィック情報と相関させてよい。 At first glance, disclosing ratings to the recommendation system may seem less harmful. Users will certainly benefit from this disclosure. That is, the ability to find appropriate content / items. Nevertheless, inferring user demographics from user activity by correlating user demographics with user activity on social networks, blogs, microblogs, etc. requires a significant amount of work Met. Therefore, it is natural to ask whether demographic information, including not only age, gender, and race but also political direction, can be inferred from information disclosed in the collaborative filtering system. In fact, the mere fact that the user interacted with the item (eg, watched a particular movie, heard a particular song, or bought a product), regardless of the rating value, correlated with demographic information You may let me.
このような推論が成功する可能性があるということは、幾つかの重要な意味合いを持つ。一方では、推薦者から見ると、デモグラフィック情報に関してユーザをプロファイリングすることは、幾つかの応用につながる。すなわち、このようなプロファイリングは、推薦だけでなく、広告からの追加の収入を生み出すことができる。広告主は特定のデモグラフィックグループをターゲットにすることに本来、関心を持っているからである。本発明は、このような推論技術に関する。ユーザが推論したい情報は、ユーザの性別であると仮定するが、本発明の方法は、別のデモグラフィック特性(年齢、人種、政治的方向性など)を推論するときにも適用される。また、具体的な実施形態は映画レイティングを対象とするが、これは一例に過ぎない。歌、デジタルゲーム、製品、レストラン等のレイティングを含むが、これらに限られない、任意の種類のレイティングを用いてよい。簡単、明快に理解できるように、映画レイティングを用いてデモグラフィック情報を判断する例を主に用いるが、他の種類のレイティングにも適用可能である。 The possibility of such inferences being successful has several important implications. On the one hand, from the point of view of the recommender, profiling a user with demographic information leads to several applications. That is, such profiling can generate additional revenue from advertisements as well as recommendations. Advertisers are inherently interested in targeting specific demographic groups. The present invention relates to such an inference technique. The information that the user wants to infer is assumed to be the user's gender, but the method of the present invention is also applied when inferring other demographic characteristics (age, race, political orientation, etc.). Also, although specific embodiments are directed to movie ratings, this is only an example. Any type of rating may be used, including but not limited to ratings for songs, digital games, products, restaurants, and the like. For the sake of easy and clear understanding, an example in which demographic information is determined using movie ratings is mainly used, but the present invention can also be applied to other types of ratings.
図1は、例示のシステム100、すなわち、本明細書に記載の推論エンジンのための環境を示す。他の環境でも可能である。図1のシステム100は、ネットワーク120上のユーザにコンテンツを推薦する推薦システム130を示す。推薦システムの一般的な例には、Netflix「登録商標」、Hulu「登録商標」、Amazon「登録商標」等のコンテンツプロバイダによって運営されるコンテンツ推薦システムが含まれる。通常、推薦システム100は、加入ユーザに候補デジタルコンテンツを提供する。このようなコンテンツは、ストリーミングビデオ、DVDメーリング、本、記事、および、商品を含むことができる。一例として、ストリーミングビデオの事例においては、候補映画を、ユーザの過去の映画選択、または、ユーザプロファイル特性の選択に基づいてユーザに推薦することができる。一実施形態例として、ストリーミングビデオの事例を考える。
FIG. 1 illustrates an environment for an
本発明の文脈においては、推論エンジン135は、推薦システム130に映画レイティングを送信するユーザ125が提供する非デモグラフィック情報からデモグラフィック情報を推論できるデータ処理装置であってよい。推論エンジン135は、ユーザ125が提供した映画レイティングを処理して、デモグラフィック情報を推論する働きをする。一例としての事例では、検討するデモグラフィック情報は性別である。しかし、本発明の態様に従って他のデモグラフィック情報を推論してよいことを当業者は認識されよう。このようなデモグラフィック情報には、年齢、人種、政治的方向性等が含まれるが、それらに限られない。
In the context of the present invention,
本発明の態様によると、下記のように、推論エンジン135は、ユーザ1、2〜nを介して獲得した訓練データ(それぞれ、105、110〜115)を用いて動作する。このユーザ達は、推薦システム130を介して映画レイティングデータとデモグラフィック情報を推論エンジン135に提供する。訓練データ集合は、ユーザ105〜115が推薦システムを使用することによって経時的に獲得されてよい。あるいは、推論エンジンは、入力ポート136を介して1つまたは複数のデータロードを直接インポートして訓練データ集合を入力することができる。ポート136は、訓練データを含むネットワーク、ディスクドライブ、または、他のデータソースから、訓練データ集合を入力するために用いてよい。
In accordance with aspects of the present invention,
推論エンジン135は、アルゴリズムを利用して訓練データ集合を処理する。推論エンジン135は、次に、映画レイティングを含むユーザ125(ユーザX)の入力を利用する。映画レイティングは、映画のタイトル、映画の索引や参照番号等の映画を識別できるものを1つまたは複数と、ユーザ125に関するデモグラフィック情報を推論するためのレイティング値とを含む。「映画のタイトル」、または、より総称的に、本説明で用いる「映画識別子」は、ユーザ125が視聴する映画、ショー、ドキュメンタリー、シリーズ番組、デジタルゲーム、または、他のデジタルコンテンツの名前すなわちタイトル、またはデータベース索引などの識別子である。レイティング値は、ユーザ125が判定した視聴済デジタルコンテンツの主観的測度である。通常、レイティング値は、ユーザ125が行った品質アセスメントで、1〜5の基準で格付けされる。1は低い主観的スコアで、5は高い主観的スコアである。1〜10の数字による評価、アルファベットによる評価、5つ星による評価、星半分の10段階評価、または、「よくない」から「すばらしい」までの言葉による評価など、他の評価法を同様に用いてよいことを、当業者は認識されよう。本発明の態様によると、ユーザ125が提供した情報はデモグラフィック情報を含まず、推論エンジン135がユーザ125の映画レイティングのみからユーザ125のデモグラフィック情報を決定することに注意されたい。
The
本発明の態様によると、訓練データ集合を用いて、推論エンジン135を教育する。訓練データ集合は、推薦システム130と推論エンジン135の両方で入手可能であってよい。ここで、訓練データ集合の特徴を述べる。訓練データ集合は、N={1,...,N}のユーザの集合を含み、各ユーザは、カタログにある映画Mの部分集合にレイティングを与えている。Si⊆Mは、ユーザi∈Nのレイティングがデータ集合内にある映画の集合を表し、rij,j∈Siは、ユーザi∈Nが映画j∈Mに与えたレイティングを表す。さらに、各i∈Nに関して、訓練データ集合は、ユーザの性別を示す2値変数yi∈{0,1}(ビット0は、男性ユーザにマッピングされる)も含む。訓練データ集合は、純粋であると仮定する、すなわち、レイティングラベルも性別ラベルも手を加えられず、難読化もされていない。
In accordance with aspects of the present invention, the training data set is used to educate the
紙面を介した推薦機構は、商業システムで一般的に用いられ、行列の因数分解と仮定される。行列の因数分解を例として利用するが、任意の推薦機構を用いてよい。代替の推薦機構には、近傍法(ユーザのクラスタリング)、アイテムの文脈の類似性、または、当業者に既知の他の機構が含まれる。集合M\S0のレイティングは、提供されたレイティングを訓練集合のレイティング行列に加えて、因数分解することによって生成する。より詳細には、各ユーザi∈N∪{0}を潜在特徴ベクトルui∈Rdに関連付ける。各映画j∈Mと関連付けるのは、潜在特徴ベクトルvj∈Rdである。正規化平均二乗誤差は、次式で定義される。 The recommendation mechanism via space is commonly used in commercial systems and is assumed to be matrix factorization. Although matrix factorization is used as an example, any recommendation mechanism may be used. Alternative recommendation mechanisms include neighborhood methods (user clustering), item context similarity, or other mechanisms known to those skilled in the art. The rating of the set M \ S 0 is generated by factoring the provided rating with the training set's rating matrix. More specifically, each user iεN∪ {0} is associated with a latent feature vector u i εR d . Associated with each movie jεM is a latent feature vector v j εR d . The normalized mean square error is defined by the following equation.
ここで、μは、データ集合全体の平均レイティングである。ベクトルui,vjは、傾斜降下によってMSEを最小化することによって構築される。d=20とλ=0.3の値を用いる。このようにユーザと映画の両方をプロファイリングして、映画j∈M\S0´に対するユーザ0のレイティングは、<u0,vj>+μを通して予測される。 Here, μ is an average rating of the entire data set. The vectors u i and v j are constructed by minimizing the MSE by slope descent. The values d = 20 and λ = 0.3 are used. Profiling both the user and the movie in this way, the rating of user 0 for movie jεM \ S 0 ′ is predicted through <u 0 , v j > + μ.
FlixsterとMovielensという2つの訓練データ集合の例を考える。Flixsterは、映画レイティングおよびレビューのための公的に入手可能なオンラインソーシャルネットワークである。Flixsterを用いて、ユーザはデモグラフィック情報を自分のプロファイルに入力したり、自分の映画レイティングやレビューを友達や公衆と共有することができる。そのデータ集合は、100万人のユーザを有し、そのうち、3万4200人のユーザが、自分の年齢と性別を共有している。この3万4200人のユーザからなる部分集合は、1万7000の映画をレイティングし、580万のレイティングを提供してきた。1万2800人の男性が240万のレイティングを提供し、2万1400人の女性が、340万のレイティングを提供してきた。Flixsterを用いて、ユーザは星半分のレイティングを提供することができるが、評価データ集合同士を整合させるために、そのレイティングは、1〜5の整数に切り上げる。別のデータ集合は、Movielensである。この第2のデータ集合は、Grouplens(商標)調査チームから公的に入手可能である。このデータ集合は、3700の映画と、6000人のユーザによる100万のレイティングからなる。4331人の男性が75万のレイティングを提供し、1709人の女性が25万のレイティングを提供してきた。 Consider an example of two training data sets, Flixster and Movielens. Flixster is a publicly available online social network for movie ratings and reviews. Using Flixster, users can enter demographic information into their profiles and share their movie ratings and reviews with friends and the public. The data set has 1 million users, of which 34,200 users share their age and gender. This subset of 34,200 users has rated 17,000 movies and provided 5.8 million ratings. 12,800 men have provided 2.4 million ratings and 21,400 women have provided 3.4 million ratings. Using Flixster, the user can provide half-star ratings, but the ratings are rounded up to an integer of 1-5 to match the evaluation data sets. Another data set is Movielens. This second data set is publicly available from the Grouplens ™ research team. This data set consists of 3700 movies and 1 million ratings by 6000 users. 4331 men have provided 750,000 ratings and 1709 women have provided 250,000 ratings.
デモグラフィック情報を決定するために、推論エンジンでは分類器を用いる。上記のように、デモグラフィック情報は、多くの特性を含むことができる。デモグラフィックの例として、性別の決定を本発明の一実施形態として記載する。しかし、ユーザの別または複数のデモグラフィック特性の判断も本発明の範囲に含まれる。 In order to determine the demographic information, the inference engine uses a classifier. As noted above, demographic information can include many characteristics. As an example of a demographic, gender determination is described as an embodiment of the present invention. However, determination of another or more demographic characteristics of the user is also within the scope of the present invention.
分類器を訓練するために、j∈Siの場合、xij=rij、そうでない場合、xij=0というように、訓練データ集合内の各ユーザi∈Nを固有ベクトルxi∈RMに関連付ける。2値変数yiがユーザiの性別を示すことを思い起こすと、性別は分類において従属変数の働きをする。X∈RNXMは、固有ベクトルの行列を表し、Y∈{0,1}Nは性別ベクトルを表す。 To train the classifier, for j∈S i, x ij = r ij , otherwise, so that x ij = 0, the eigenvector each user i∈N the training data set x i ∈R M Associate with. Recalling that the binary variable y i indicates the gender of user i, gender acts as a dependent variable in the classification. XεR NXM represents a matrix of eigenvectors, and Yε {0,1} N represents a gender vector.
である。 It is.
次に、クラス事前確率分類について記載する。クラス事前確率分類は、他の分類器の性能を評価する基準方法の役割をする。母集団の性別クラスが不均一に分布したデータ集合を考えると、この基本的な分類戦略は、多数派の性別を有するとして、全てのユーザを分類する。これは、 Next, class prior probability classification will be described. Class prior probability classification serves as a reference method for evaluating the performance of other classifiers. Given a data set in which the gender classes of the population are unevenly distributed, this basic classification strategy classifies all users as having a majority gender. this is,
として設定された訓練集合から推定された、生成モデルP(y|x)=P(y)に基づいて、等式(1)を用いることに等しい。 Is equivalent to using equation (1) based on the generated model P (y | x) = P (y) estimated from the training set set as
次に、本発明の態様による混合ナイーブベイズについて記載する。上記多項ナイーブベイズの代替となるもので、発明者は混合ナイーブベイズと称している。このモデルは、ユーザは、通常、正規分布のレイティングを行うという仮定に基づいている。より詳細には、 Next, the mixed naive Bayes according to an embodiment of the present invention will be described. This is an alternative to the above-mentioned multiple naive Bayes, and the inventor has called mixed naive Bayes. This model is based on the assumption that the user usually has a normal distribution rating. More specifically,
次に、本発明におけるロジスティック回帰の使用について記載する。上記全てのベイズ法の重大な欠点は、映画レイティングは独立していると仮定していることである。この欠点に対処するために、発明者は、ロジスティック回帰を使用した。線形回帰は、係数の集合β={β0,β1… ,βM}を生成することを思い起こすと、固有ベクトルxiを有するユーザi∈Nの分類は、最初に、確率 Next, the use of logistic regression in the present invention will be described. A significant drawback of all the above Bayesian methods is that it assumes that movie ratings are independent. To address this shortcoming, the inventor used logistic regression. Recalling that linear regression produces a set of coefficients β = {β 0 , β 1... , Β M }, the classification of user iεN with eigenvector x i is
を計算して行う。ユーザは、Pi<0.5の場合、女性に分類され、そうでない場合、男性に分類される。値Piは、また、ユーザiの分類の信頼値の役割を果たす。ロジスティック回帰を用いる大きな利点の一つは、係数βが各映画とクラスの間の相関の程度を捕捉することである。本事例においては、大きな正のβjは、映画jがクラス男性と相関しており、小さい負のβjは、映画jがクラス女性と相関していることを示す。係数がゼロでない、各性別と相関した少なくとも1000の映画を有するように、正規化パラメータを選択する。 Calculate and do. The user is classified as female if P i <0.5, and otherwise classified as male. The value P i also serves as a confidence value for the classification of user i. One major advantage of using logistic regression is that the coefficient β captures the degree of correlation between each movie and class. In this case, a large positive β j indicates that movie j is correlated with class men, and a small negative β j indicates that movie j is correlated with class women. The normalization parameters are selected to have at least 1000 movies correlated with each gender with non-zero coefficients.
機械学習において、サポートベクターマシーン(SVM)は、データを分析してパターンを認識する関連する学習アルゴリズムを有する監視学習モデルで、分類および回帰分析に用いられる。当技術分野で周知のように、SVMは、直観的に、間違えて分類されたユーザの超平面からの距離を最小にする、異なる性別に属するユーザを分ける超平面を見つける。SVMは、ロジスティック回帰の長所の多くを保持する。すなわち、特徴空間での独立性を前提とせず、係数を生成する。特徴空間(映画の数)は既にかなり多いので、分類器の評価では線形SVMを用いる。パラメータ空間(C)にわたって対数探索を行って、発明者はC=1で最高の結果となることを発見した。 In machine learning, a support vector machine (SVM) is a supervised learning model that has an associated learning algorithm that analyzes data to recognize patterns and is used for classification and regression analysis. As is well known in the art, SVM intuitively finds hyperplanes that separate users belonging to different genders that minimize the distance from the hyperplane of misclassified users. SVM retains many of the advantages of logistic regression. That is, the coefficient is generated without assuming independence in the feature space. Since the feature space (number of movies) is already quite large, a linear SVM is used for classifier evaluation. Performing a logarithmic search over the parameter space (C), the inventor found that C = 1 gave the best results.
FlixsterとMovielensデータ集合の両方に関して、全てのアルゴリズムを評価した。10分割交差検証を行い、平均精度と再現率を両データ集合に関して計算し、平均受信者動作特性(ROC)曲線を10分割データを通して計算した。ROCに関して、データ集合内の男性から正確に分類された男性の比率として真陽性率を計算し、データ集合内の女性から不正確に分類された男性として偽陽性率を計算する。表1は、3つの測定基準であるAUC、精度、および、再現率に関する分類結果の概要を示す。表2は、同じ結果を性別ごとに分けて示す。ROC曲線を図2a、図2bに示す。表1は、3つの測定基準であるAUC、適合率、および、再現率に関する分類結果の概要を示す。表2は、同じ結果を性別ごとに分けて示す。 All algorithms were evaluated for both the Flixster and the Movielens data sets. Ten-fold cross validation was performed, average accuracy and recall were calculated for both data sets, and average receiver operating characteristic (ROC) curves were calculated through the ten-segment data. For ROC, the true positive rate is calculated as the proportion of men correctly classified from men in the data set, and the false positive rate is calculated as incorrectly classified men from women in the data set. Table 1 gives an overview of the classification results for three metrics, AUC, accuracy, and recall. Table 2 shows the same results divided by gender. ROC curves are shown in FIGS. 2a and 2b. Table 1 summarizes the classification results for the three metrics, AUC, precision, and recall. Table 2 shows the same results divided by gender.
ROC曲線から分かるように、SVMとロジスティック回帰曲線は、両方のデータ集合に関して、他の曲線より優位にあるので、SVMおよびロジスティック回帰は、どのベイズモデルよりも優れている。詳細には、Flixsterに関してはロジスティック回帰が最も優れており、Movielensに関してはSVMが最も優れていた。ベルヌーイモデル、混合モデル、および、多項モデルの性能は、互いに大きくは異ならない。この結果は、表1のAUC値によってさらに確認される。この表はまた、他の全ての方法により性能の劣る単純なクラス事前確率モデルの弱点を示している。 As can be seen from the ROC curves, SVM and logistic regression are superior to any Bayesian model because SVM and logistic regression curves are superior to other curves for both data sets. Specifically, logistic regression was the best for Flixster, and SVM was the best for Movielens. The performances of the Bernoulli model, the mixed model, and the multinomial model are not significantly different from each other. This result is further confirmed by the AUC values in Table 1. This table also shows the weaknesses of simple class prior probabilistic models that are inferior in performance by all other methods.
一般的に、分類タスクにおける精度は、真陽性の数(すなわち、陽性クラスに属するとして正確にラベル付けされたアイテムの数)を、陽性クラスに属するとしてラベル付けされた要素の総数(すなわち、真陽性と、陽性クラスに属するとして間違ってラベル付けされたアイテムである偽陽性との和)で割ったものである。この文脈における再現率とは、真陽性を、実際に陽性クラスに属する要素の総数(すなわち、真陽性と、陽性クラスに属するとしてラベル付けされるべきであったのにされなかったアイテムである偽陰性との和)で割った数として定義される。 In general, the accuracy in a classification task depends on the number of true positives (ie, the number of items correctly labeled as belonging to the positive class) to the total number of elements labeled as belonging to the positive class (ie, true Divided by the sum of the positive and the false positive, which is an item incorrectly labeled as belonging to the positive class. Recall in this context is true positives, the total number of elements that actually belong to the positive class (i.e., false positives, items that should have been labeled as true positives and belong to positive classes). Defined as the number divided by the sum of negative).
精度および再現率という点で、ロジスティック回帰が、Flixsterのユーザでは、両方の性別に関して他の全てのモデルに勝っていることを表2は示している。Movielensのユーザに関しては、SVMが全ての他のアルゴリズムに勝っており、ロジスティック回帰が二番目によい。一般的に、推論は、各データ集合において多数派の性別(Flixsterでは女性、Movielensでは男性)に関してよい成績を収める。これは、SVMに関して特に明らかである。SVMは、多数派のクラスに関して非常に高い再現率を示し、少数派のクラスに関して低い再現率を示す。混合モデルは、ベルヌーイモデルで有意に向上し、結果は多項モデルに類似する。これは、ガウス分布を使用することが、レイティング分布に関して十分に正確な推定とはいえない可能性があることを示している。 Table 2 shows that logistic regression outperforms all other models for both genders in terms of accuracy and recall. For the users of Movielens, SVM outperforms all other algorithms, and logistic regression is second best. In general, inferences perform well with respect to the majority gender (Fixster is female and Movielens is male) in each data set. This is particularly evident with SVM. SVM shows very high recall for the majority class and low recall for the minority class. The mixed model is significantly improved with the Bernoulli model and the results are similar to the multinomial model. This indicates that using a Gaussian distribution may not be a sufficiently accurate estimate for the rating distribution.
訓練集合のサイズの影響を評価した。10分割交差検証を用いたので、訓練集合は、評価集合に対して大きい。Flixsterデータを用いて、訓練集合サイズ内のユーザの数が推論の正確さに与える影響を評価する。評価集合が3000人のユーザを有する10分割交差検証に加えて、100分割交差検証を300人のユーザの評価集合を用いて行った。さらに、100人のユーザから初めて、繰り返す毎に、ユーザを100人ずつ追加するという、訓練集合を徐々に増やすことを行った。 The effect of training set size was evaluated. Since 10-fold cross validation is used, the training set is large relative to the evaluation set. Using Flixster data, we evaluate the impact of the number of users in the training set size on the inference accuracy. In addition to 10-fold cross validation with an evaluation set having 3000 users, 100-fold cross validation was performed using an evaluation set of 300 users. Furthermore, for the first time from 100 users, the training set was gradually increased by adding 100 users each time it was repeated.
図2cは、2つの評価集合のサイズに対して、Flixsterに関するロジスティック回帰推論の精度を表している。同図は、両方のサイズに関して、精度が70%を超えるアルゴリズムでは、訓練集合内のユーザ数は約300人で十分であり、訓練集合内のユーザが5000人だと、74%を超える精度に達することを示している。これは、訓練には、比較的少ない数のユーザで十分であることを示している。 FIG. 2c represents the accuracy of the logistic regression inference for Flixster for the size of the two evaluation sets. The figure shows that for both sizes, an algorithm with an accuracy of over 70% requires about 300 users in the training set, and an accuracy of over 74% for 5000 users in the training set. Show that you reach. This indicates that a relatively small number of users is sufficient for training.
2つの取得可能なデータ集合に関してSVM分類器と線形回帰分類器の特徴を詳しく記載し、望ましい結果を得たので、推論エンジンを実現するための新規な方法および装置を発明した。図3は、デモグラフィック情報を有さないユーザのレイティングからデモグラフィック情報を生成し、その結果を有用な目的のために利用する、本発明の態様による方法を示す。生成されたこのようなデモグラフィック情報を用いる最終目的には、ユーザ125に対するターゲット広告、および/または、推薦システム130を介した推薦の強化が含まれる。
Having detailed the characteristics of the SVM classifier and the linear regression classifier with respect to two obtainable data sets and obtained desirable results, a novel method and apparatus for implementing an inference engine has been invented. FIG. 3 illustrates a method according to an aspect of the present invention that generates demographic information from a user's rating without demographic information and uses the results for useful purposes. The ultimate goal of using such generated demographic information includes targeted advertisements for the
図3の方法300は、ステップ305において、複数のユーザを表すレイティングとデモグラフィック情報とを有する訓練データ集合を、推論エンジンに入力することで開始される。図1に、推薦システム130の一部である推論エンジン135を示した。このステップは、ネットワーク120への推薦システムの接続137を用いて達成されてもよく、ポート136を介して推論エンジン135に直接入力することによって達成されてもよい。推薦システムネットワーク接続137を介して入力が行われる場合、訓練データ集合は、デモグラフィック情報およびレイティング情報(映画レイティング、または、任意の他のデジタルコンテンツレイティング)を1つずつ蓄積したものであってもよく、少なくとも一人のユーザのデモグラフィック情報およびレイティング情報を有する訓練データ集合を1つまたは複数ロードしたものでもよい。入力ポート136を介して推論エンジン135に直接、入力を行う場合、そのデータは、少なくとも一人のユーザの訓練データ集合を1つまたは複数ダウンロードしたものであってよい。ステップ210において、推薦システム135は、訓練データ集合からの情報を用いて推論エンジンを訓練する。推論エンジン135が、ポート136を介して直接ダウンロードを受信する場合は、ステップ210は省くことができる。どちらの場合でも、ステップ205および210は、ユーザのデモグラフィック情報とユーザのレイティング情報との両方を有する訓練データ集合を用いて、推論エンジン135を訓練することを表す。
The
ステップ315において、訓練データ集合に含まれないユーザ125等の新規ユーザが、推薦システム130と相互作用して、レイティングのみを提供する。上記のように、これらのレイティングは、例えば、映画識別子情報と客観的なレイティング値情報とを有する映画レイティングであってよい。ユーザ125が提供したレイティングは、推論エンジンが検索するデモグラフィック情報を持たない。新規ユーザ125がレイティングを推薦システムに入力した後、ステップ320において、推論エンジン135は、分類アルゴリズムを用いて、新規ユーザのレイティングに基づいて新規ユーザのデモグラフィック情報を決定する。分類アルゴリズムは、前述のサポートベクターマシーン(SVM)またはロジスティック回帰のうちの1つであることが好ましい。
In
新規ユーザのデモグラフィック情報を決定すると、性別等の決定したデモグラフィック情報は、多くの有用な目的に用いてよい。2つの例を図3に示す。1つの例においては、ステップ320で決定されたデモグラフィック情報は、ステップ325で推薦システム130によって使用されて、新規ユーザに強化された推薦を行う。例えば、推薦システム130がNetflix(商標)またはHulu(商標)によって運営されている映画推薦システムである場合、性別等のデモグラフィック情報は、その新規ユーザが視聴するための、そのユーザの性別に特化した映画をより厳密に選択するのに用いてよい。あるいは、推薦システム130は、ステップ320で決定したデモグラフィック情報を、ステップ330で、その新規ユーザへのターゲット広告に用いることができる。例えば、新規ユーザの性別が決定されると、その新規ユーザをターゲットにして、その性別に特化した広告をしてよい。このような広告は、女性に対する香水の購入割引の提案や、男性に対する髭剃り器の購入割引を含んでよい。推薦システムは、内部のデータベース、外部のデータベース、または、ネットワークサーバ(図示せず)からの潜在的な広告へのアクセスを有してよい。
Once demographic information for a new user is determined, the demographic information determined, such as gender, may be used for many useful purposes. Two examples are shown in FIG. In one example, the demographic information determined in
新規ユーザ125が提供したレイティングから抽出したデモグラフィック情報を活用するための有用なアクションとして、ステップ325および330のいずれか、または両方を行ってよい。ステップ315〜330は、推薦システム130のサービスを利用する新規ユーザ毎に繰り返してよい。強化された推薦または広告を推薦システムから受信するユーザは、ユーザ125等のユーザに関連付けられた表示装置上で、当該強化された推薦または広告を受信する。このようなユーザ表示装置は、周知であり、家庭用テレビ機器、スタンドアロンテレビ、パーソナルコンピュータや、パーソナルデジタルアシスタント、ラップトップ、タブレット、携帯電話、ウェブノートブック等のハンドヘルド装置、に関連付けられた表示装置を含む。
As a useful action to take advantage of the demographic information extracted from the ratings provided by the
図4は、推論エンジン135のブロック図である。推論エンジン135は、図1に示すように推薦システム130とインタフェースをとる。推論エンジンインタフェース410は、推論エンジン135の通信コンポーネントを、推薦システム130の通信コンポーネントに接続する働きをする。405における推論エンジンインタフェース410から推薦システムへのリンクは、当業者には既知のように、シリアルリンクであっても並列リンクであってもよく、組み込まれていても外部にあってもよい。このように、推論エンジンは、推薦システムと結合していてもよく、推薦システムから分かれていてもよい。インタフェースポート405によって、推薦システム130は、訓練データを推論エンジン135に提供することができ、推論結果を推薦システムに提供することができる。代替の訓練データ集合インタフェースは入力ポート136で、ネットワーク、または、記憶媒体ソース等の他のデジタルデータソースから訓練データを使いやすい形で入力可能である。
FIG. 4 is a block diagram of the
プロセッサ420は、推論エンジン135に計算機能を提供する。プロセッサは、推論エンジンの要素間の通信を利用して、推論エンジンの通信プロセスおよび計算プロセスを制御する任意の形式のCPUまたはコントローラであってよい。バス415は推論エンジン135の様々な要素間の通信経路を提供すること、かつ、他のポイントツーポイントの相互接続も実行可能なことを、当業者は認識している。
The
プログラムメモリ430は、図3の方法300に関連するメモリのリポジトリを提供することができる。データメモリ440は、訓練データ集合、ダウンロードしたもの、アップロードしたもの、スクラッチパッド計算等の情報を記憶するためのリポジトリを提供することができる。メモリ430および440は、結合されていてもよく、別個であってもよく、全てまたは一部をプロセッサ420に組み込んでよいことを当業者は認識されよう。プロセッサ420は、推薦システム130が使用するデモグラフィック情報を生成するために、プログラムメモリの記憶プロパティおよび検索プロパティを利用してコンピュータ命令等の命令を実行し、方法300のステップを行う。
推定器450は、別個であっても、プロセッサ420の一部であってもよく、新規ユーザのレイティングからデモグラフィック情報を決定するための計算資源を提供する働きをする。そのため、推定器450は、分類器、好ましくは、SVMまたはロジスティック回帰に計算資源を提供することができる。推定器は、データメモリ440またはプロセッサ420に、新規ユーザのデモグラフィック情報の決定における暫定的計算を提供することができる。この暫定的計算は、自分のレイティング情報のみを与えた新規ユーザに関連するデモグラフィック情報の確率を含む。推定器450は、ハードウェアであってよいが、ハードウェアと、ファームウエアまたはソフトウェアとの組合せであることが好ましい。
The
比較的小さい訓練集合を所与とすると、推論アルゴリズムは、70%〜80%の精度でユーザの性別を正確に予測する。しかし、ユーザのレイティングからデモグラフィック情報を決定するための上記技術は、ユーザのプライバシーに関する懸念を引き起こす場合がある。ユーザによっては、自分のデモグラフィック情報を確実に決定されないように難読化することを望む場合がある。検出可能なデモグラフィック情報を確実な検出から保護する難読化機構については下記に記載する。 Given a relatively small training set, the inference algorithm accurately predicts the user's gender with 70% to 80% accuracy. However, the above techniques for determining demographic information from user ratings may raise concerns about user privacy. Some users may want to obfuscate their demographic information so that it is not reliably determined. An obfuscation mechanism that protects detectable demographic information from reliable detection is described below.
図5aは、推薦システムの推論エンジン135に関する難読化機構が存在し得る例示の環境500を示す。難読化機構は、複数の場所に存在することができる。難読化機構は、ネットワーク120に接続されたクラウド、または、ユーザ125の装置に存在してよい。クラウド(図示せず)に存在する場合、難読化機構は、多くのユーザに提供されるネットワークサービスである。ユーザ装置に存在する場合、難読化機構は、基本的に、追加の計算要素を有する推論エンジンを含む。例えば、図5に示すように、難読化エンジン126は、推薦システム130に存在する推論エンジンの精度を減らすために、ユーザ125からの推薦を監視し、追加のレイティングをそのユーザのレイティングに追加することができる。
FIG. 5a shows an
別の実施形態においては、ユーザにコンテンツを配信するコンテンツアグリゲータが、コンテンツアグリゲーションサービスと共に難読化エンジンを提供することによってユーザのデモグラフィック情報を保護するように働くこともできる。図5bは、このようなコンテンツアグリゲータのサービスを示す。図5bの構成においては、コンテンツアグリゲータ560は、リンク555を介してネットワーク120に接続し、ユーザ125が関心を持ち得るデジタルコンテンツへのアクセスを得ることができる。ユーザ125は、リンク582を介してコンテンツアグリゲータに直接アクセスしてもよく、リンク581を介してネットワーク120を通してアクセスしてもよい。どちらの場合でも、コンテンツアグリゲータは、ユーザ125に対するデジタルコンテンツの提供者として働き、料金を徴収してコンテンツをユーザに提供する。コンテンツプロバイダは、推薦システム130であってよい。このように、コンテンツアグリゲータ560は、ユーザ125がレイティング可能なデジタルコンテンツのための導管の機能を果たす。プライバシーサービスとして、コンテンツアグリゲータは、推論エンジン575と共に動作する難読化エンジン570を介して、ユーザに難読化サービスを提供することができる。難読化エンジン570は、ユーザ125が、コンテンツプロバイダである推薦システム130から取得したデジタルコンテンツをレイティングすると、推薦システム130に送られるレイティングに追加の難読化のためのレイティングが追加されるように、ユーザ125のデモグラフィック情報を難読化するように働く。追加されたレイティングは、デモグラフィック情報の正確な決定に反する。従って、推薦システムに関連付けられた推論エンジン135は、ユーザ125のレイティングを介してユーザ125のデモグラフィック情報を正確に決定することはできない。
In another embodiment, a content aggregator that delivers content to the user may also serve to protect the user's demographic information by providing an obfuscation engine along with a content aggregation service. FIG. 5b shows such a content aggregator service. In the configuration of FIG. 5b,
図5cは、難読化エンジン599の例示のブロック図590を示す。難読化エンジン599は、ネットワークインタフェース591を介して、図5bの120等のネットワークとインタフェースをとる。ネットワークインタフェース591によって、ユーザレイティング等のユーザデータと、訓練データ集合に、インターネット等のネットワークを介してアクセスすることができる。そのため、ネットワークインタフェースの受信部は、訓練データと、映画レイティング等のユーザが提供したレイティングとを受信することができる。さらに、ネットワークインタフェース591内の送信部によって、レイティング生成部595が生成した追加のレイティングをネットワークに送信することができる。一実施形態においては、付加的レイティングと、ユーザが提供したレイティングとを、推薦システム130に送り、推薦システム130で、図5bの135等の推論エンジンがユーザのデモグラフィック情報を正確に決定するのを妨げる。
FIG. 5 c shows an exemplary block diagram 590 of the
プロセッサ592は、難読化エンジン599に計算機能を提供する。プロセッサは、難読化エンジンの要素間の通信を利用して難読化エンジンの通信プロセスおよび計算プロセスを制御する任意の形態のCPUまたはコントローラであってよい。バス597は難読化エンジン599の様々な要素間の通信経路を提供すること、かつ、バスアーキテクチャの代わりにポイントツーポイント接続も実行可能であることを、当業者は認識している。
The
プログラムメモリ593は、図6の方法600に関連するメモリにリポジトリを提供することができる。データメモリ594は、訓練データ集合、ダウンロードしたもの、アップロードしたもの、または、スクラッチパッド計算等の情報を記憶するためのリポジトリを提供することができる。メモリ593および594は、結合されていてもよく、別個であってもよく、全てまたは一部をプロセッサ591に組み込まれていてもよいことを、当業者は認識されよう。プロセッサ591は、プログラムメモリの命令を用いて方法600等の方法を実行することによって、ユーザのデモグラフィック情報の正確な決定に反する難読化データを生成する。難読化データは、ネットワークインタフェース591を介して、ネットワークベースの推薦システムに送信される。
推論エンジン596は、プロセッサ592とは別個であっても、その一部であってもよく、新規ユーザのレイティングからデモグラフィック情報を決定するための計算資源を提供する働きをする。そのため、推論エンジンは、図4の推論エンジンに類似していてもよく、図5cに示す計算資源を利用してもよい。レイティング生成部595は、以下に記載の難読化技術によって使用されるレイティングを生成するように動作する。詳細には、レイティング生成部は、ユーザレイティングを模倣しているが、推薦システムにある推論エンジンによるデモグラフィック情報の正確な決定に反する付加的レイティングを生成する。このように、レイティング生成部は、推薦システム(図1参照)の推論エンジン等の外部の推論エンジンに送信するレイティングを作成する。外部の推論システムに送信される付加的レイティングは、新規ユーザのデモグラフィック情報を正確に決定するのが容易でないように、そのユーザからのレイティングに干渉する働きをする。難読化エンジン599は、ハードウェアベースであってよいが、ハードウェアと、ファームウェアまたはソフトウェアとの組合せであることが好ましい。
難読化エンジンの特徴を次に記載する。0のインデックスが付いたユーザ125等のユーザが、映画等のデジタルコンテンツアイテムを視聴してレイティングする。ユーザがレイティングすることができる映画のユニバースがM個の映画のカタログを含むものとすると、ユーザは、カタログM={1,2,...,M}の部分集合S0のレイティングをする。r0j∈Rは、映画j∈S0のレイティングを表し、ユーザのレイティングプロファイルは、(映画、ランキング)対の集合Η0≡{(j,r0j):j∈S0}として定義される。図5を参照すると、ユーザは、Η0(すなわち、139)を難読化機構に提出し、難読化機構は、S´0≠S0の、変更後のレイティングプロファイルΗ´0={(j,r0j´):j∈S0´}(すなわち、138)を出力する。簡単に言うと、この難読化は、以下の(a)Η´0は、ユーザに適切な推薦を行うために使用できる(b)Η´0から性別等のユーザのデモグラフィック情報を推論するのは難しい、という2つの相反する目的をうまく両立させることを目指している。
The characteristics of the obfuscation engine are described below. A user such as
より詳細には、難読化されたレイティングプロファイルΗ´0は、性別推論エンジン135を実施するモジュールを有する推薦システム130に提示されるとみなされる。推薦システム135は、Η´0を用いて、M\S´0に関するユーザレイティングを予測し、場合によっては、ユーザが興味を持ちそうな映画を推薦する。性別推論エンジン135は、同じΗ´0を用いてユーザをプロファイリングし、男性か女性にラベル付けする分類機構である。
More specifically, the obfuscated rating profile “ 0” is considered to be presented to the
推薦システム130の実施は、公知であるかもしれないが、難読化エンジン126および性別推論エンジン135は公知ではない。この問題の第1の段階として、推薦システム130および推論エンジン135の両方とも、任意の種類の難読化が行われていることに気付かないという簡単なアプローチをとっている。当該両方の機構は、「表面上の値」でプロファイルΗ´をとり、「真の」プロファイルΗを逆行分析しない。
Although the implementation of the
上記のように、推薦システム130および推論エンジン135は、訓練データ集合にアクセスを有する。訓練データ集合は純粋である、すなわち、レイティングも、性別ラベル等のデモグラフィック情報も、手を加えられず、難読化もされていない、ということが前提となっている。難読化エンジン126は、訓練集合の一部を見てもよい。一実施形態においては、訓練データ集合は公開されており、難読化エンジン126は、完全に訓練データ集合にアクセスできる。
As described above, the
一般的に、推論エンジン135で用いられる分類器の信頼値は、性別等のデモグラフィック情報を分類器から隠そうとするとき、難読化エンジンが克服する必要がある障害である。難読化エンジンは、推論エンジン135の分類器の、この信頼値を低下させようとする。従って、分類器が正確または不正確な分類を出力する時の分類器が異なる信頼値を有するか否かの評価を行う。推論エンジンに用いられる分類器の評価に関して、図2dは、正確な分類および不正確な分類に対する信頼値の累積分布関数(CDF)を示している。図2dから、分類が正確な時の方が信頼値は高く、信頼値の中央値は不正確な分類では0.65であり、正確な分類では0.85である。さらに、正確な分類の20%近くが、信頼値1.0で、信頼値1.0は、不正確な分類では1%未満である。
In general, the confidence value of the classifier used in the
難読化エンジンは、ユーザiのレイティングプロファイルΗiと、許可された変更の回数を表すパラメータkと、訓練集合からの情報とを入力として受け取って、受信する推薦の品質への影響を最小限にしつつ、ユーザの性別の推論が難しいように変更されたレイティングプロファイルΗ´iを出力する機構を有する。一般には、このような機構は、映画レイティングを追加、削除、または、変更することによってΗiを変更することができる。ここでは、難読化エンジンがk個の映画レイティングを追加することだけを許可される設定に焦点を置く。なぜなら、映画の削除は大抵のサービスでは非現実的であり、視聴イベントがユーザのデモグラフィック属性の強力な予測材料である時、レイティングの変更はレイティングの追加ほど有効ではないからである。ユーザが、自身のプロファイルでレイティングした映画の数はユーザによって異なる(数が少ないユーザもいる)ので、固定数kを使用せずに、ユーザのレイティングプロファイルにある映画の所与の割合に対応する追加の数を用いる。映画をユーザのプロファイルに追加するために、難読化エンジンは、追加すべき映画と、その各映画に割り当てるレイティングという、2つの重要な決定をする必要がある。 The obfuscation engine receives as input the rating profile ユ ー ザi of user i, the parameter k representing the number of allowed changes, and the information from the training set, and minimizes the impact on the quality of received recommendations. On the other hand, it has a mechanism for outputting a rating profile Η i that has been changed so that it is difficult to infer gender of the user. In general, such a mechanism can change Η i by adding, deleting, or changing movie ratings. Here we focus on a setting where the obfuscation engine is only allowed to add k movie ratings. This is because movie deletion is impractical for most services, and rating changes are not as effective as adding ratings when viewing events are a powerful predictor of user demographic attributes. Since the number of movies that a user has rated with their profile varies from user to user (some users are small), do not use a fixed number k, but correspond to a given percentage of movies in the user's rating profile Use additional numbers. In order to add a movie to the user's profile, the obfuscation engine needs to make two important decisions: the movie to add and the rating assigned to each movie.
これらの追加された映画レイティングは、付加的レイティングと呼ぶ。付加的レイティングは、ユーザのデモグラフィック情報の正確な決定に反する。付加的レイティングのレイティング対(タイトル、レイティング値)のレイティング値は、「ノイズ」として割り当てられるのではなく、何らかの有用な価値を有する。例えば、このレイティングが全てのユーザの平均レイティング、または、特定のユーザの(行列の因数分解を用いた)予測レイティングに相当する場合、レイティング値は、仮にそのユーザが映画を見た場合、どのようにレイティングしたかを合理的に予測するものとなる。 These added movie ratings are referred to as additive ratings. Additional ratings are contrary to the accurate determination of the user's demographic information. The rating value of an additional rating rating pair (title, rating value) is not assigned as “noise” but has some useful value. For example, if this rating corresponds to an average rating for all users or a predictive rating for a particular user (using matrix factorization), the rating value will be what if that user watches the movie. It is a reasonable estimate of whether the rating was made.
難読化スキームを構築するために、難読化機構は、訓練データ集合に完全なアクセスを有し、かつ、追加すべき映画およびレイティングを選択するために、訓練データ集合を使用して、情報を引き出せることが、まず、前提となっている。難読化エンジンのための映画の選択を考えて、発明者は、映画を選択するための3つの戦略を選択した。各戦略は、ユーザiがレイティングした映画の集合Siと、追加すべき映画の数kと、男性に相関した映画の順序付けリストLMおよび女性に相関した映画の順序付けリストLFとを入力として受け取り、変更後の映画の集合S´iを出力する。ここでSi⊆S´iである。リストLMおよびLFは、スコアリング関数wの値の降順LM∪LF→Rで記憶される。ここで、w(j)は、映画j∈LM∪LFが関連する性別とどれほど強く相関しているかを示す。スコアリング関数の具体的な例は、w(j)=βjを設定することであり、ここで、βjは、訓練データ集合からロジスティック回帰モデルを学習することによって得られた映画jの係数である。スコアリング関数のこのインスタンス化は、評価のために用いられる。さらに、k<min(|LM|,|LF|)−|Si|、かつ、LM∩LF=と仮定する。 To build an obfuscation scheme, the obfuscation mechanism has full access to the training data set and can use the training data set to extract information to select movies and ratings to add This is the premise. Given the choice of movies for the obfuscation engine, the inventor has chosen three strategies for choosing movies. Each strategy is a set S i of the movie that the user i was rating, and the number k of the movie to be added, and a list L F ordering of movie correlated with the correlated list L M and the woman ordered the movie to men as input The set S ′ i after receiving and changing the movie is output. Here, S i ⊆S ′ i . The lists L M and L F are stored in descending order L M ∪L F → R in the value of the scoring function w. Here, w (j) indicates how strongly the movie jεL M ∪L F correlates with the related gender. A specific example of a scoring function is to set w (j) = β j , where β j is a coefficient of movie j obtained by learning a logistic regression model from a training data set It is. This instantiation of the scoring function is used for evaluation. Further, it is assumed that k <min (| L M |, | L F |) − | S i | and L M ∩L F =.
映画選択プロセスは、以下のようになる。所与の女性(または男性)ユーザiに関して、S´i=Siを初期化する。各戦略は、LM(またはLF)から繰り返し映画jを取出し、j∈S´iの場合、k個の映画が追加されるまで、jをS´iに追加する。集合S´iは望ましい出力である。3つの戦略は、映画の順序付けリストからの映画の取りだし方が異なる。 The movie selection process is as follows. Initialize S ′ i = S i for a given female (or male) user i. Each strategy is repeated retrieves the movie j from L M (or L F), if the J∈S' i, until the k movie is added, to add j to S'i. The set S ′ i is a desirable output. The three strategies differ in how movies are taken from the ordered list of movies.
所与の女性(男性)ユーザiに関してランダム戦略を考えると、映画のスコアに関係なく、反対の性別LM(LF)に対応するリストから均一に、ランダムに映画jを取出す。サンプリング戦略を考えると、反対の性別に対応するリストにある映画に関連付けられたスコアの分布に基づいて、映画をサンプリングすることができる。例えば、それぞれ、スコア0.5、0.3、0.2の3つの映画j1、j2、j3がある場合、j1を確率0.5で取り出すなどである。欲張り戦略を考えると、反対の性別に対応するリストのうち最高スコアの映画を取り出すことができる。 Given a random strategy for a given female (male) user i, the movie j is randomly and randomly extracted from the list corresponding to the opposite gender L M (L F ), regardless of the score of the movie. Given a sampling strategy, movies can be sampled based on the distribution of scores associated with movies in the list corresponding to the opposite gender. For example, if there are three movies j 1 , j 2 , and j 3 with scores 0.5, 0.3, and 0.2, respectively, j 1 is extracted with a probability of 0.5. Given the greedy strategy, you can pick the highest scoring movie from the list corresponding to the opposite gender.
レイティング値の対(タイトル、レイティング値)のレイティング割り当てを考えると、(視聴されたか否かを示す)プロファイルに映画が含まれるか含まれないかのバイナリイベントは、レイティングとほとんど同じくらい強い性別推論のためのシグナルであることに先ほど注目した。これは、ユーザプロファイルに追加する映画の決定と、その映画に与えるレイティング値の決定という2つを行う必要がある難読化機構にとって、重要な影響がある。この発見は、追加すべき映画の選択が性別推論を妨げることに大きな影響を持ち得るということを示唆している。しかし、実際のレイティングが性別推論にあまり影響を与えない場合、推薦の品質を維持する助けになるレイティング値を選択することができる。プロファイルに映画が含まれるか含まれないかのバイナリイベント自体が性別推論のためのシグナルであるとすると、推薦システム130を介してユーザに提供される推薦に与える影響が少ない付加的な映画にレイティングを割り当てることができる。平均映画レイティングと予測レイティングの2つのレイティング割り当てが提案される。
Given the rating assignment of rating value pairs (title, rating value), binary events on whether a profile is included or not in a profile (indicating whether or not it was viewed) are almost as strong as gender inference I noticed that it was a signal for This has important implications for obfuscation mechanisms that need to do two things: determine the movie to add to the user profile and determine the rating value to give the movie. This finding suggests that the choice of movies to add can have a significant impact on preventing gender inference. However, if the actual rating does not significantly affect gender inference, a rating value can be selected that helps maintain the quality of the recommendation. Assuming that the binary event itself, whether the profile includes or does not include a movie, is a signal for gender inference, then rating the additional movie that has less impact on recommendations provided to the user via the
平均映画レイティングにおいては、難読化機構は、利用可能な訓練データを用いて全ての映画j∈S´i−Siの平均レイティングを計算し、計算した平均レイティングをユーザiの変更後のレイティングプロファイルΗ´iに追加する。予測レイティングにおいては、難読化機構は、訓練データ集合に対して行列の因数分解を行うことによって映画の潜在因子を計算し、その潜在因子を用いてユーザのレイティングを予測する。全ての映画j∈S´i−Siの予測レイティングが、Η´iに追加される。 In the average movie rating, the obfuscation mechanism calculates the average rating of all movies jεS ′ i −S i using the available training data, and the calculated average rating is the rating profile after the change of user i. Add to Η´ i . In predictive rating, the obfuscation mechanism calculates the latent factor of the movie by performing matrix factorization on the training data set, and predicts the user's rating using the latent factor. The predicted rating of all of the movie j∈S' i -S i, is added to the Η'i.
上記で、難読化エンジン126は訓練集合へのアクセスを制限されていないとした。しかし、上記機構は、以下の量、すなわち、(a)映画選択のために、男性に相関した映画および女性に相関した映画の順序付けされたリスト(b)レイティング割当のために、平均映画レイティングと、ユーザの映画レイティングを予測するための映画の潜在因子、にのみアクセスが必要である。この情報は、Netflix Prize(商標)データ集合等の公的に入手可能なデータ集合から見つけることができることに注意されたい。このような公的なデータ集合のユーザが全体として特定の推薦システムのユーザと、統計的に類似しているとすると、推論エンジン135で使用されて具体的に設定された訓練データ集合への完全なアクセスを前提とする必要はない。
In the above, it is assumed that the
上記で提案した映画選択およびレイティング割当戦略の全ての順列の評価を行った。各ユーザiに関する1%、5%および10%|Si|に対応するkの値を評価する。リストLMおよびLFの映画のスコアは、対応するロジスティック回帰係数に設定される。 All permutations of the proposed movie selection and rating assignment strategies were evaluated. Evaluate the value of k corresponding to 1%, 5% and 10% | Si | for each user i. Score movie list L M and L F is set to the corresponding logistic regression coefficients.
難読化は、性別推論の性能を減じることで、プライバシーを増大する。表4は、割り当てられたレイティングが平均映画レイティングである時の、3つの映画選択戦略(すなわち、ランダム、サンプリング、欲張り)の全てに関しての推論の正確さを示している。正確さは、10分割交差検証を用いて計算される。つまり、モデルを純粋なデータに関して訓練し、難読化データに対して検定する。推論の正確さは、ロジスティック回帰分類器に関して最も高いので、ロジスティック回帰分類器は、推薦システムの推論機構として自然な選択であろう。欲張り戦略を用いてほんの1%の付加的レイティングを追加すると、Flixsterデータ集合に関しては、純粋なデータに関する正確さ76.5%に比べて、正確さは15%まで落ち(すなわち、80%低下し)、10%の追加レイティングを追加すると、正確さは、ゼロに近くなる。異なる難読化機構に関するプライバシーと効用のトレードオフは、ユーザのプロファイルに対するほんの1%のレイティングの追加によって推論の正確さが80%低下することを示している。 Obfuscation increases privacy by reducing the performance of gender inference. Table 4 shows the inference accuracy for all three movie selection strategies (ie, random, sampling, greedy) when the assigned rating is the average movie rating. The accuracy is calculated using 10-fold cross validation. That is, the model is trained on pure data and tested against obfuscated data. Since the reasoning accuracy is highest for a logistic regression classifier, the logistic regression classifier would be a natural choice as the inference mechanism of the recommendation system. Adding only 1% additional rating using a greedy strategy, the accuracy drops to 15% (ie, decreases by 80%) for the Fixster data set compared to 76.5% for pure data. ) Adding 10% additional rating brings the accuracy closer to zero. The trade-off between privacy and utility for different obfuscation mechanisms shows that adding only 1% rating to the user's profile reduces inference accuracy by 80%.
従って、難読化機構が欲張り戦略に従って映画を選択する場合、少数の映画を追加することで、性別の難読化には十分である。(映画のスコア、ひいてはロジスティック回帰係数を無視する)ランダム戦略を用いて映画を選択する場合でさえ、反対の性別に相関する映画をほんの10%追加するだけで、性別推論の正確さを(76.5%から28.5%の正確さに)63%低下させるのに十分である。Movielensデータ集合に関しても同様の傾向が見られる。 Thus, if the obfuscation mechanism selects a movie according to a greedy strategy, adding a small number of movies is sufficient for gender obfuscation. Even when selecting a movie using a random strategy (ignoring the movie's score, and thus the logistic regression coefficient), adding only 10% of the opposite gender-correlated movies can improve the accuracy of gender inference (76 Sufficient to reduce by 63% (to an accuracy of .5% to 28.5%). A similar trend is seen for the Movielens data set.
上記難読化機構では、男性または女性に相関した映画であるという推論機構の考えに良く対応する順序付けされたリストを用いる。しかし、一般に、難読化機構は、どの推論アルゴリズムが用いられているか知らないので、LMおよびLF等のリストは、推論アルゴリズムの内にあるそのような考えにあまり一致しない場合がある。難読化機構は、多項ナイーブベイズ分類器およびSVM分類器と共に、このようシナリオで評価される。表4で分かるように、難読化は、それでもなお良い成績を挙げており、多項分類器の推論の正確さは、(10%の付加的レイティングと欲張り戦略を用いると)Flixsterデータ集合に関して71%から42.1%に低下し、Movielensデータ集合に関して76%から60%に低下する。 The obfuscation mechanism uses an ordered list that better corresponds to the inference mechanism's idea that the movie is correlated with men or women. However, in general, obfuscation mechanism does not know what inference algorithm is used, the list of such L M and L F may seldom match such idea within the inference algorithm. An obfuscation mechanism is evaluated in this scenario, along with a multinomial naive Bayes classifier and an SVM classifier. As can be seen in Table 4, the obfuscation is still performing well, and the inference accuracy of the multinomial classifier is 71% for the Flixster data set (using 10% additional rating and greedy strategy). From 42.1% to 762.1% for the Movielens data set.
ユーザが自分の性別を難読化する場合にユーザが見る推薦の品質への影響を考えた。この影響は、各ユーザに関して10のレイティングの提出された検定集合の行列の因数分解の二乗平均平方根誤差(RMSE)を計算することによって測定する。再び、10分割交差検証を行った。ここで、10分の9はユーザのデータは純粋で、10分の1は、追加のノイズを有するレイティングである。すなわち、Η´は、ユーザの10分の1に用いて、Ηを残りに用いる。これは、自分の性別を難読化したシステムのユーザの10%に関してRMSEの変化を評価することに等しい。全体的に見て、難読化はRMSEに無視し得る影響しか与えないことを発明者は発見した。Flixsterに関しては、付加的レイティングのない場合と比較して、RMSEはレイティングの追加に伴って増加したが、無視できる程度であった。Movielens訓練データ集合に関しては、付加的レイティングによって、RMSEはわずかに減少する。これは、付加的レイティングを追加することによって、元のレイティング行列の密度が増加し、それによって、行列の因数分解の解の成績が改善される場合があるために生じ得る。付加的レイティングは任意ではないが、ある程度、意味を持つ(すなわち、全てのユーザの平均)だからというのが別の説明である。両方のデータ集合に関して、RMSEの変化は有意ではなく、Flixsterでは(ランダム戦略で、10%の付加的レイティング)で、最大0.015であり、Movielensに関しては(サンプル戦略で、10%の付加的レイティング)で最大0.058であるというのが、主要な結果である。従って、難読化エンジンは、推薦システムのユーザに対する推薦の品質を維持している。 We considered the effect on the quality of recommendations seen by users when they obfuscate their gender. This effect is measured by calculating the root mean square error (RMSE) of the factorization of a matrix of submitted test sets of 10 ratings for each user. Again, 10-fold cross validation was performed. Here, 9/10 is the user's data is pure and 1/10 is the rating with additional noise. That is, Η ′ is used for 1/10 of the user and Η is used for the rest. This is equivalent to assessing the change in RMSE for 10% of users of the system that obfuscated their gender. Overall, the inventor has discovered that obfuscation has only a negligible impact on RMSE. With respect to Flixster, RMSE increased with the addition of ratings compared to the case without additional ratings, but was negligible. For the Movielens training data set, RMSE is slightly reduced due to the additional rating. This can occur because adding additional ratings increases the density of the original rating matrix, which may improve the performance of the matrix factorization solution. The additional rating is not arbitrary, but is another explanation because it is meaningful to some extent (ie, the average of all users). For both datasets, the change in RMSE is not significant, with a maximum of 0.015 for Flixster (10% additional rating for random strategy) and 10% additional for Movielens (for sample strategy). The main result is that the maximum rating is 0.058. Therefore, the obfuscation engine maintains the quality of recommendation for users of the recommendation system.
提案した難読化のプライバシーと効用のトレードオフを検討する。ここで、所望の高度なプライバシーは、性別推論の正確さを低下させ、効用を高くすると高品質な推薦のためのプロキシとして用いられることが多いRMSEが低くなる。評価すると、発明者は、Flixster訓練データ集合に関しては、プライバシーが高くなると効用が低下することを発見した。上記のように、Movielens訓練データ集合を用いると、プライバシーが高くなると、効用も増加するが、ほんのわずかである。難読化機構は、性別推論の正確さを優位に低下させることができ、かつ、推薦の品質に引き起こす変化もほんのわずかである。 Consider the proposed trade-off between obfuscation privacy and utility. Here, the desired high level of privacy reduces the accuracy of gender inference, and the higher the utility, the lower the RMSE that is often used as a proxy for high quality recommendations. Upon evaluation, the inventor has found that the utility decreases with increasing privacy with respect to the Flixster training data set. As noted above, the use of the Movielens training data set increases utility, but only slightly, with increased privacy. An obfuscation mechanism can significantly reduce the accuracy of gender inference, and it causes only a small change in the quality of the recommendation.
推薦の品質を維持することは、難読化エンジンにとって魅力のある特徴である。一評価において、レイティング割当が「予測レイティング」アプローチに対応するときのトレードオフを考える。このレイティング割当の背後にある動機は、原則として、この難読化は、変更されていないデータに関するRMSEと比較して、RMSEを変化させないということである。言い換えれば、レイティング割当のこの選択を用いると、効用フロント(utility front)に関してトレードオフは行われない。表5は、このレイティング割当を用いた時の性別推論の正確さを示す。この結果は、レイティング割当が平均映画レイティングである表4の結果と類似している。Movielens訓練データ集合に関しては、性別推論の正確さは、予測レイティングよりわずかに低い。例えば、1%の付加的レイティングの欲張り戦略に関しては、ロジスティック回帰分類器の正確さは、57.7%から48.4%に低下する。この利点は、推薦の品質を犠牲にすることなく、もたらされる。結論として、少量の追加のレイティングを用いると、ユーザが受信する推薦の品質に有意な変化を与えずに、難読化によってユーザの性別を保護することが可能であることが、実験評価より分かる。 Maintaining the quality of the recommendation is an attractive feature for the obfuscation engine. In one evaluation, consider the trade-off when rating assignment corresponds to a “predictive rating” approach. The motivation behind this rating assignment is that, in principle, this obfuscation does not change the RMSE compared to the RMSE for unmodified data. In other words, with this selection of rating assignments, there is no trade-off with respect to utility front. Table 5 shows the accuracy of gender inference when using this rating assignment. This result is similar to the result in Table 4 where the rating assignment is average movie rating. For the Movielens training data set, the accuracy of gender reasoning is slightly lower than the predictive rating. For example, for a 1% additive rating greedy strategy, the accuracy of the logistic regression classifier drops from 57.7% to 48.4%. This advantage comes without sacrificing the quality of the recommendation. In conclusion, experimental evaluation shows that with a small amount of additional ratings, it is possible to protect the user's gender by obfuscation without significantly changing the quality of recommendations received by the user.
図6は、ユーザのデモグラフィック情報を正確な検出から隠すことができる、そのユーザのレイティングの集合(タイトル、レイティング値)を作成するための例示の方法600を示す。また、この方法の長所は、推薦システム130の推論エンジン135を使用する結果、受信するであろう推薦に悪影響を与えないことである。この方法は、ステップ605において、他のユーザからのレイティングの訓練集合を導入することで始まる。訓練データ集合は、他のユーザの、レイティング(タイトル、レイティング値)と、デモグラフィック情報との両方を有する。ステップ610において、訓練データ集合を用いて、図5bの575や図5cの596等の推論エンジンを訓練する。訓練された推論エンジンは、ユーザ125のデモグラフィック情報を決定することができる。そのため、訓練された推論エンジンは、ユーザ125がアクセスする、図5bの130等の推薦システム内の推論エンジンの機能を幾分エミュレート(模倣)する。
FIG. 6 illustrates an
推論エンジンの訓練後、難読化エンジンは、新規ユーザが使用できる状態になる。ステップ615において、訓練データ集合内のユーザではない新規ユーザが、難読化エンジンにレイティングを提供する。結果として、難読化エンジンは、映画レイティング等のレイティングを受信する。受信した映画レイティングは、(タイトル、レイティング値)のレイティング対のみであり、新規ユーザのデモグラフィック情報は含まれない。
After training the inference engine, the obfuscation engine is ready for use by new users. In
ステップ620において、575または596等の推論エンジンは、分類アルゴリズムを用いて、新規ユーザのデモグラフィック情報をそのユーザのレイティングに基づいて決定する。ステップ625において、難読化エンジンは、別の推論エンジンによってデモグラフィック情報の正確な決定に反するレイティングを生成する。すなわち、生成されたレイティングは、ユーザのレイティングに追加することができ、かつ、ユーザの検出可能なデモグラフィック情報の難読化を助ける付加的レイティングである。簡単な例を挙げると、推論エンジンがユーザ125の性別を女性と推論する場合、難読化エンジンが生成する付加的レイティングは、ユーザの性別を不正確に推論するデータを提供することになる。従って、推薦システムの推論エンジン等の外部の推論エンジンは、新規ユーザ125の性別デモグラフィック情報を正確に決定することができなくなる。このように、付加的レイティングは、新規ユーザのデモグラフィック情報の正確な検出に反するものである。
In
付加的レイティングは、ステップ630で難読化エンジンによって推薦システム(RS)に送信される。これは、推薦システム130の推論エンジンが検出するユーザ125のデモグラフィック情報を難読化する効果を有する。この難読化は、図5bの135等の外部の推論エンジンがユーザの通常に生成したレイティングだけでなく、正確なデモグラフィック情報の決定に反するレイティング対(タイトル、レイティング値)を有する付加的レイティングも受信するので、発生する。すなわち、付加的レイティングは、推論エンジンがユーザのデモグラフィック情報を正確に決定するのを妨げる働きをする。本発明の態様によると、推論エンジン135を有する推薦システム130は、ユーザのデモグラフィック情報の正確な決定を行うことを付加的レイティングを用いて妨げられている。しかし、推薦システム130からユーザ125が受信する推薦の品質は、付加的レイティングの追加によって大きく低下しない。基本的に、推薦システム130からユーザ125が受信する推薦の品質は、付加的レイティングを含まない時と比較して付加的レイティングを追加した時、同じように維持される。ステップ615〜ステップ630は、新規ユーザに対して繰り返してよい。従って、多数の新規ユーザが、方法600によってデモグラフィック情報を難読化することができる。
The additional rating is sent to the recommendation system (RS) by the obfuscation engine at
図5a、5b、5cの難読化エンジンの実施に関して特定のアーキテクチャを示したが、構成要素の機能の分散、構成要素の統合、ユーザのプライバシーに関するユーザへのサービスとしてのサーバ内の位置など、実施の選択肢があることを当業者は認識されよう。このような選択肢は、図示および記載した構成の機能および構造と等価である。 Although a specific architecture has been shown for the obfuscation engine implementation of FIGS. 5a, 5b, 5c, implementations such as component function distribution, component integration, location in the server as a service to the user regarding user privacy, etc. Those skilled in the art will recognize that there are alternatives. Such an option is equivalent to the function and structure of the configuration shown and described.
Claims (14)
他のユーザからのレイティングとデモグラフィック情報とを含む訓練データ集合を用いて、デモグラフィック情報を決定するために前記難読化エンジンと通信可能に接続した推論エンジンを訓練するステップと、
レイティング情報のみを含む前記特定のユーザからのレイティングであって、前記特定のユーザからの当該レイティングを評価する推薦システムに送られるレイティングを受信するステップと、
前記特定のユーザによって提供された前記レイティングから、前記特定のユーザの前記デモグラフィック情報を決定するステップと、
前記特定のユーザの前記決定されたデモグラフィック情報に反するレイティングを前記難読化エンジンによって生成するステップと、
前記生成されたレイティングを前記推薦システムに送信するステップと、
を含み、前記特定のユーザの前記生成されたレイティングは、前記推薦システムによる前記特定のユーザの前記デモグラフィック情報の決定を難読化する、
方法。 In a method of obfuscating demographic information of a specific user, performed by an obfuscation engine,
Training an inference engine communicatively coupled to the obfuscation engine to determine demographic information using a training data set including ratings from other users and demographic information;
Receiving a rating from the specific user that includes only rating information and sent to a recommendation system for evaluating the rating from the specific user;
Determining the demographic information of the particular user from the rating provided by the particular user;
Generating a rating against the determined demographic information of the particular user by the obfuscation engine;
Transmitting the generated rating to the recommendation system;
The generated rating of the specific user obfuscates the determination of the demographic information of the specific user by the recommendation system;
Method.
複数の他のユーザからの映画レイティングとデモグラフィック情報を含む訓練データ集合を入力するためのネットワークインタフェース内の受信部と、
メモリへのアクセスを有するプロセッサであって、推論エンジンを用いて、プログラムを実行することによって、前記映画レイティングに基づいたデモグラフィック情報を決定するプロセッサと、
前記決定されたデモグラフィック情報に反する付加的レイティングを生成するレイティング生成部と、
前記ユーザが提供した映画レイティングと前記付加的レイティングとの両方を前記推薦システムに送信する前記ネットワークインタフェース内の送信部と、
を備え、前記ユーザが提供したレイティングと前記付加的レイティングとの組み合わせによって、前記推薦システムが前記デモグラフィック情報を決定するのを妨げる、
難読化装置。 An obfuscation device that obfuscates an accurate determination of demographic information of a particular user providing movie ratings to a recommendation system via the device,
A receiver in the network interface for inputting a training data set including movie ratings and demographic information from a plurality of other users;
A processor having access to memory for determining demographic information based on the movie rating by executing a program using an inference engine;
A rating generation unit for generating an additional rating against the determined demographic information;
A transmitter in the network interface for transmitting both the movie rating provided by the user and the additional rating to the recommendation system;
A combination of the user-provided rating and the additional rating prevents the recommendation system from determining the demographic information;
Obfuscation device.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261662618P | 2012-06-21 | 2012-06-21 | |
US61/662,618 | 2012-06-21 | ||
PCT/US2013/044890 WO2014007943A2 (en) | 2012-06-21 | 2013-06-10 | Method and apparatus for obfuscating user demographics |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015521769A true JP2015521769A (en) | 2015-07-30 |
JP2015521769A5 JP2015521769A5 (en) | 2016-07-28 |
Family
ID=49514015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015518432A Withdrawn JP2015521769A (en) | 2012-06-21 | 2013-06-10 | Method and apparatus for obfuscating user demographics |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP2864940A2 (en) |
JP (1) | JP2015521769A (en) |
KR (1) | KR20150023433A (en) |
CN (1) | CN104641386A (en) |
WO (1) | WO2014007943A2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160125439A1 (en) * | 2014-10-31 | 2016-05-05 | The Nielsen Company (Us), Llc | Methods and apparatus to correct segmentation errors |
CN109189979B (en) * | 2018-08-13 | 2020-11-24 | 腾讯科技(深圳)有限公司 | Music recommendation method and device, computing equipment and storage medium |
CN112185583B (en) * | 2020-10-14 | 2022-05-31 | 天津之以科技有限公司 | Data mining quarantine method based on Bayesian network |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6970904B1 (en) * | 1999-12-29 | 2005-11-29 | Rode Consulting, Inc. | Methods and apparatus for sharing computational resources |
US7027882B2 (en) * | 2002-02-25 | 2006-04-11 | Sedna Patent Services, Llc | Compact implementations for limited-resource platforms |
US20110153391A1 (en) * | 2009-12-21 | 2011-06-23 | Michael Tenbrock | Peer-to-peer privacy panel for audience measurement |
CN102387207A (en) * | 2011-10-21 | 2012-03-21 | 华为技术有限公司 | Push method and system based on user feedback information |
-
2013
- 2013-06-10 EP EP13784040.1A patent/EP2864940A2/en not_active Withdrawn
- 2013-06-10 CN CN201380032943.6A patent/CN104641386A/en active Pending
- 2013-06-10 WO PCT/US2013/044890 patent/WO2014007943A2/en unknown
- 2013-06-10 JP JP2015518432A patent/JP2015521769A/en not_active Withdrawn
- 2013-06-10 KR KR20147035861A patent/KR20150023433A/en not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
WO2014007943A2 (en) | 2014-01-09 |
WO2014007943A3 (en) | 2014-04-10 |
CN104641386A (en) | 2015-05-20 |
KR20150023433A (en) | 2015-03-05 |
EP2864940A2 (en) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10972559B2 (en) | Systems and methods for providing recommendations and explanations | |
TWI636416B (en) | Method and system for multi-phase ranking for content personalization | |
US10943267B2 (en) | Machine learning assisted target segment audience generation | |
US20190182621A1 (en) | Privacy-sensitive methods, systems, and media for geo-social targeting | |
US8332512B1 (en) | Method and system for selecting content based on a user's viral score | |
US9706008B2 (en) | Method and system for efficient matching of user profiles with audience segments | |
US9135666B2 (en) | Generation of advertising targeting information based upon affinity information obtained from an online social network | |
US9367878B2 (en) | Social content suggestions based on connections | |
JP6092362B2 (en) | How to target stories based on influencer scores | |
US20220129777A1 (en) | Artificial intelligence and/or machine learning models trained to predict user actions based on an embedding of network locations | |
US10699320B2 (en) | Marketplace feed ranking on online social networks | |
KR20150023432A (en) | Method and apparatus for inferring user demographics | |
US20170270122A1 (en) | Computerized system and method for high-quality and high-ranking digital content discovery | |
US20170083522A1 (en) | Smart Exploration Methods For Mitigating Item Cold-Start Problem In Collaborative Filtering Recommendation Systems | |
WO2015161515A1 (en) | Systems and methods for commercial query suggestion | |
US20160171228A1 (en) | Method and apparatus for obfuscating user demographics | |
JP2015521769A (en) | Method and apparatus for obfuscating user demographics | |
US11909725B2 (en) | Automatic privacy-aware machine learning method and apparatus | |
JP4962950B2 (en) | Recommendation method, recommendation server and program for users on network | |
Yang et al. | Social-group-based ranking algorithms for cold-start video recommendation | |
WO2014093618A2 (en) | Inferring user demographic information from ratings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160610 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160610 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20161125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20161128 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20170203 |