JP2019527874A - ユーザー匿名性を維持しつつ機械学習を使って行動データから心理測定プロファイルを予測すること - Google Patents

ユーザー匿名性を維持しつつ機械学習を使って行動データから心理測定プロファイルを予測すること Download PDF

Info

Publication number
JP2019527874A
JP2019527874A JP2018566555A JP2018566555A JP2019527874A JP 2019527874 A JP2019527874 A JP 2019527874A JP 2018566555 A JP2018566555 A JP 2018566555A JP 2018566555 A JP2018566555 A JP 2018566555A JP 2019527874 A JP2019527874 A JP 2019527874A
Authority
JP
Japan
Prior art keywords
user
psychometric
users
data
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018566555A
Other languages
English (en)
Inventor
トゥシュマン,アヴィ
ザミール,エヴァン,エー.
シュー,ウェイ,ナン
Original Assignee
ピンポイント プレディクティヴ,インコーポレイテッド
ピンポイント プレディクティヴ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピンポイント プレディクティヴ,インコーポレイテッド, ピンポイント プレディクティヴ,インコーポレイテッド filed Critical ピンポイント プレディクティヴ,インコーポレイテッド
Publication of JP2019527874A publication Critical patent/JP2019527874A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

方法およびシステムは、オンライン行動の自動収集された記録に基づいてオンライン母集団における個々のユーザーの心理測定プロファイルを予測する少なくとも一つの機械学習方法をトレーニングし;結果として得られる予測された心理測定プロファイルおよびユーザーについての関与データを使って、心理測定次元に基づいて刺激に対して関与する可能性の関与モデルを学習し;該関与モデルを母集団に対して適用して、関与の予測される可能性に従ってランク付けされた、その刺激についてのオーディエンスを決定する。本方法およびシステムは、ユーザーの匿名性を維持することができる。

Description

関連出願
本開示は2016年6月21日に出願された、「サイコグラフィック・オーディエンス・データ・セットの人工知能最適化」と題する発明者アヴィ・タシュマンへの米国仮特許出願第62/352705号の優先権を主張するものである。同出願は本稿では米国仮出願第62/352705号と呼ばれ、その内容はここに、米国を含む参照による組み込みが許されている任意の法域において、参照によって組み込まれる。参照による組み込みが許されないいかなる法域でも、出願人は、前記親出願からの任意の素材を補正によって、かかる補正が新規事項の追加であると考えられることなく、挿入する権利を留保する。
技術分野
本開示は、オンライン・ターゲティングおよび他の応用における使用のための心理測定モデルを生成するために機械学習を使うことに、より詳細には、ある母集団のオンライン・ユーザーの心理測定プロファイルを、かかるユーザーのオンライン行動についての自動的に機械収集されたデータに基づいて予測する装置(機械)および機械実装される機械学習方法であって、該予測方法はユーザー匿名性の維持を可能にするものに関する。本発明は、そのような機械学習で生成された心理測定モデルを使って、広告のようなあらかじめ定義されたオンライン刺激に対して所望される仕方で応答する可能性が高いオンライン・オーディエンスを生成する装置および機械実装される方法にも関する。
機械を使ってオンライン・ユーザーの行動データを自動的に収集し、次いで該自動的に機械収集されたユーザーの行動データを、特定のユーザーをターゲットとして、そのようなユーザーにデジタル広告のような情報を電子的に送るための機械実装された方法のための入力として使うことが知られている。そのような行動データを自動的に収集することの目標は、デジタル広告のターゲットを、所望される仕方で応答する、たとえば製品を購入したりまたは他の仕方で所望される仕方で応答する可能性が高いユーザーに効果的に絞り込むことである。
そのような機械実装されるターゲット化された広告は、行動のみに直接基づくので、本稿では「行動広告(behavioral advertising)」と呼ばれ、機械実装される方法はまとめて「機械実装される行動ターゲティング(machine-implemented behavioral targeting)」と呼ばれる。
機械実装される行動ターゲティングは回顧的であり、ユーザーがすでに訪れたウェブ・ページを訪れる、あるいはすでに購入した製品を購入する可能性が高いことを予測しうる。こうしたデータは、何かを購入するための広告を例として使うと、たとえ、その広告を見る時までにはユーザーはすでに購入をすませている可能性があるとしても、ユーザーに対する広告の機械実装されるターゲティングまたはリターゲティングを実行するために効果的に使用されることができる。機械実装される行動ターゲティングは、それが収集されたコンテキスト、たとえば訪問されたウェブサイトの種別にも固有であり、結果として、そのような過去の行動のみに直接基づくターゲティングは、過度に範囲が狭いことがあり、たとえば非常に似通った製品の広告に対する過剰な露出につながりうる。回顧的であることとコンテキスト固有であることの組み合わせは、たとえば最近訪れたウェブサイトに関係した広告をユーザーが受け取ることにより、プライバシーが侵害されているというユーザーの感覚につながることもある。機械実装される行動広告はさらに、同じ製品を異なる理由により購入しそうなユーザーどうしを、あるいはさらにはブラウズした製品を買うユーザーと買わないユーザーさえ、容易に区別できないことがある。さらに、行動ターゲティングは、時間とともに変化し、異なる母集団については異なるデータを使うので、行動ターゲティングによって使用されるデータは、標準化、定量化、心理測定検証または異なる母集団にまたがる意味のある比較には容易にはなじまないことがありうる。
このように、当技術分野においては、オンライン・ユーザーの特定の集合(オンライン・オーディエンス)への広告のような電子メッセージの機械実装されるターゲティングのために使用できる機械実装されるターゲティングのための、改善されたコンピュータ実装される方法、装置およびシステムが必要とされている。
本開示に基づくさまざまな実施形態が図面を参照して記述される。
本発明の少なくとも一つの側面を実行するためのコンピューティング環境の例示的な例である。
自動的に生成された、ユーザーのオンライン行動から、オンライン・ユーザーの心理測定モデルを生成するための機械の動作方法の実施形態の簡略化されたフローチャートである。
広告のような特定の刺激に関するユーザーによる関与の確からしさの、ユーザーの心理測定モデルの関数としてのモデルを決定するための機械の動作方法のある実施形態の簡略化されたフローチャートである。
本発明の少なくとも一つの実施形態に基づく、ユーザーについての自動的に機械収集された行動データからユーザーの母集団の心理測定モデルを生成するためのデータ・フローおよびプロセスの例解用の例を示す図である。
母集団の心理測定モデルを生成するための図4Aに示される実施形態に対する本発明の代替的な実施形態のデータ・フローおよびプロセスの例解用の例を示す図である。 母集団の心理測定モデルを生成するための図4Aに示される実施形態に対する本発明の代替的な実施形態のデータ・フローおよびプロセスの例解用の例を示す図である。 母集団の心理測定モデルを生成するための図4Aに示される実施形態に対する本発明の代替的な実施形態のデータ・フローおよびプロセスの例解用の例を示す図である。 母集団の心理測定モデルを生成するための図4Aに示される実施形態に対する本発明の代替的な実施形態のデータ・フローおよびプロセスの例解用の例を示す図である。
本発明の少なくとも一つの側面に基づく、ユーザーの部分集合を使って収集された関与データに基づいてユーザーの母集団の心理測定モデルから、広告のような刺激についてのオーディエンスを予測するためのデータ・フローおよびプロセスの例解用の例を示す図である。
自動的に生成された、ユーザーのオンライン行動に基づいて、オンライン・ユーザーの心理測定モデルを生成するためのハードウェア・システムを示す図である。
本発明のいくつかの実施形態における心理測定プロファイルの純粋に心理測定に関わる特徴として使われる人間人格次元を示す図である。 本発明のいくつかの実施形態における心理測定プロファイルの純粋に心理測定に関わる特徴として使われる人間人格次元を示す図である。
図7A〜7Bに示したものとは異なる心理測定次元の集合を使うプロファイルのための、匿名化されたユーザーIDをもつユーザーの心理測定プロファイルの例解用の例を示す図である。
本発明のある実施形態に基づいて決定された、図8に示される心理測定プロファイルの型を使う例示的な関与モデルの純粋な心理測定次元に関するグラフィック表示を示す図である。 本発明のある実施形態に基づいて決定された、図8に示される心理測定プロファイルの型を使う例示的な関与モデルの人口統計次元に関するグラフィック表示を示す図である。
本発明のある実施形態に基づいて決定された例示的な関与モデルを使って決定された指定市場エリアに従って、母集団の刺激(たとえばオンライン広告)への関与の可能性におけるランキングの一部を表形式で示す図である。
米国における指定市場エリアのマップである。ここで、それぞれのかかるエリアは、図10Aに示したようなデータを使った関与の確からしさに従ってコーディングできる。
〈概観〉
本開示は、オンライン広告における使用のための心理測定モデルを生成するために機械学習を使うことに、より詳細には、ある母集団のオンライン・ユーザーの心理測定プロファイルを、かかるユーザーのオンライン行動についての自動的に機械収集されたデータに基づいて生成する装置(機械)および機械実装される方法であって、該方法は、機械学習を使って決定される前記モデルを生成するものであり、たとえば匿名化されたユーザーIDのみを使うことによりユーザーの匿名性を維持するものに関する。本発明は、そのような機械学習で決定された心理測定モデルを使って、広告のようなあらかじめ定義されたオンライン刺激に対して所望される仕方で応答する可能性が高いオンライン・オーディエンスを生成する装置および機械実装される方法にも関する。
本発明の実施形態によって解決される課題、つまり機械学習を使って心理測定モデルを生成することおよびそのような機械学習で生成される心理測定モデルを使ってオンライン・オーディエンスを予測するという課題は、コンピュータ技術の分野において特に生じるものであり、実のところ、必然的にコンピュータ技術に根ざしている。個別的な特許請求される方法および個別的な特許請求されるシステムのそれぞれは、課題(単数または複数)を克服するためにコンピュータ技術がどのように操作されるべきかを指定する。特許請求される方法およびシステムは、現行のコンピュータ実装される方法およびシステムを、自動的に機械収集される行動データおよびコンピュータ技術をオンライン・ターゲティングのために使うために改善することを可能にする。本発明のいくつかの実施形態は、心理測定モデルのかかる機械学習生成および該モデルを使ったオンライン・オーディエンスのかかる予測を実行するために特に設計される装置の形であり、よって特殊目的機械である。よって、請求項は抽象的な概念に向けられているものではなく、さらに、請求項は、心理測定特徴を予測するまたはオンライン・オーディエンスを生成する他の方法を排除するものではない。
心理測定特徴(psychometric trait)は本稿では心理測定次元(psychometric dimension)と称される。心理測定プロファイル(psychometric profile)は、少なくとも一つの心理測定次元の集合を意味し、少なくとも一つの純粋な心理測定特徴を含み、必ずではないが可能性としては少なくとも一つの人口統計特徴を含む。ある人の心理測定プロファイルの諸次元は、実際の純粋な心理測定特徴および可能性としては人口統計特徴(actual purely psychometric and possibly demographic traits)である。本発明の実施形態のある側面は、心理測定プロファイルの予測である。予測される心理測定プロファイルは、本稿では心理測定モデル(psychometric model)と呼ばれる。このように、心理測定次元の集合の我々の定義は、(必須ではないが)性別、年齢、収入、婚姻状態、民族などといった純粋に人口統計上の少なくとも一つの次元を含んでいてもよく、心理測定次元の集合の我々の定義は、たとえば人格、たとえば開放的であること、良心的であること、外向性、人当たりがよいこと、神経質、知能の指標ならびに個人の他の測定可能な心理上の属性に関係する純粋に心理測定上の少なくとも一つの次元は含む。本稿で使われるところの人口統計の定義は、地理的、職業上、教育上および消費者のデータをも含む。
文献においては、サイコグラフィック(psychographic)プロファイルという用語が時に、そのような人の心理測定次元に基づいて人を記述するために使われる。親出願においては、サイコグラフィックと心理測定〔サイコメトリック〕は交換可能に使われていることも注意しておく。よって、親出願におけるサイコグラフィック・プロファイルという用語は心理測定モデルという用語と同義である。
また、心理測定次元の例は、性的志向、性的嗜好、政治的好み、違法物質使用、一般的な法の無視などを含みうるが、本特許記述のどの部分も、本発明の実施形態が、何らかの個人や集団に対して不適切に差別するためまたは違法な行動を促すために使われることは意図されていないことも注意しておく。
ある例示的実装は、ユーザーのオンライン母集団の各ユーザーについて、ユーザーのオンライン行動についての自動的に機械収集されたデータを使って、心理測定プロファイルを予測する、すなわち心理測定モデルを決定するための方法およびシステムを提供する。本開示では、ユーザーの行動データ(behavioral data)とは、ユーザーのオンライン行動についてのそのような自動的に機械収集されたデータを意味する。そのように予測された心理測定プロファイル、すなわち心理測定モデルは、特定の広告のためのオーディエンスを生成するために使用可能である。
方法またはシステムが「ユーザー匿名性を維持する」とは、該方法またはシステムが、ユーザー(単数または複数)の、いかなる個人を特定できる情報(PII: Personally Identifiable Information)も収集したりアクセスを有したりする必要がなく、システムに提供されるユーザーIDがあればそれは匿名化されることを意味する。このように、本発明のいくつかの実施形態のある側面は、行動データから心理測定モデルを生成することが、ユーザー匿名性を維持しつつ実行されることができるということである。よって、本方法、装置、システムまたは実装者は、心理測定次元が予測されるユーザーのいかなる個人を特定できる情報(PII)も収集したりアクセスを有したりする必要がない。
本発明のいくつかの実施形態のある側面は、心理測定プロファイルを予測する方法およびシステムが、予測された心理測定プロファイルではなく、行動データも利用可能なシード・ユーザーの真の心理測定プロファイルに基づく機械学習を使って決定されるということである。予測する方法およびシステムをそのように決定するいくつかの実施形態は、シード・ユーザーの匿名性を維持し、よって、予測する方法またはシステムを決定することは、シード・ユーザーのいかなる個人を特定できる情報(PII)をも収集したりアクセスを有したりする必要はない。
本発明のいくつかの実施形態のある側面は、シード・ユーザーについて収集される(生の)行動データが、(ターゲット‐プロバイダー・ユーザーID(target-provider user ID)と呼ばれるユーザーIDの)ユーザーIDシステムを使う第一のエンティティー(本稿ではターゲット母集団プロバイダー(target population provider)と呼ばれる)によって取得され、該ユーザーIDシステムは、第一のエンティティーが前記シード・ユーザーに基づいて行動データを提供できるようにする情報を提供する第二のエンティティー(本稿ではサンプル・プロバイダー(sample provider)と呼ばれ、そのユーザーIDはサンプル‐プロバイダー・ユーザーID(sample-provider user ID)と呼ばれる)のユーザーIDシステムとは異なりうるということである。第二のエンティティーは、シード・ユーザーまたはかかるシード・ユーザーの心理測定データへのアクセスを少なくとも一つの機械学習方法に提供するが、該機械学習方法(単数または複数)にはシード・ユーザーのいかなるPIIも提供しない。第二のエンティティーが機械学習方法に提供するいかなるサンプル‐プロバイダー・ユーザーIDも、匿名化されたサンプル‐プロバイダー・ユーザーIDとしてであり、さらに、第一のエンティティーはシード・ユーザーの該サンプル‐プロバイダー・ユーザーIDも知ることはない。
本発明のいくつかの実施形態のある側面は、本方法が、たとえば心理測定モデリング・アプリケーション、たとえばユーザーがデータを入力するアンケートを走らせることによって、シード・ユーザーについて心理測定次元を測定する測定手段を使うことを含み、測定された心理測定次元は、各シード・ユーザーの純粋な心理測定測定値および可能性としては少なくとも一つの人口統計特徴を含む、ということである。
本発明のいくつかの実施形態のある側面は、ユーザーについての自動的に収集されたデータが、自動的に収集された行動データの特徴を要約するために、解析プロセスにかけられ、こうして要約行動データを生成するということである。
シード・ユーザーの要約行動データおよびこれらのユーザーの実際の心理測定プロファイルとともに少なくとも一つの機械学習方法が使われ、ユーザーの機械収集された行動データからユーザーの心理測定モデルを生成する機械実装された方法を決定する。本発明のいくつかの実施形態のある側面は、決定された機械実装された方法を、ユーザーの母集団に適用して、これらのユーザーの心理測定モデルを生成することを含む。ユーザーの該母集団全体におけるユーザー数は、典型的には、シード・ユーザーの数よりずっと多い。
本発明のいくつかの実施形態のある側面は、たとえば要約行動データとしてのシード・ユーザーの行動データおよびシード・ユーザーの実際の心理測定プロファイルが、心理測定モデルを生成する二つ以上の機械学習方法をトレーニングするために使われ、最も性能のよい心理測定モデルを生成する幾何学習方法を選択するために機械学習方法選択方法が使われるというものである。そのような実施形態では、そのように選択された心理測定モデルを生成する方法が、心理測定モデルを生成するためにより大きな母集団に対して使われる。
生成された心理測定モデルは、特定の広告のような刺激への関与、特定のウェブ・ページの訪問、電子商取引ウェブサイトでの製品の購入または関心のある他の型のデジタル行動の実行を予測するために使われてもよい。一部のユーザーは、該特定の広告に感受性があり、それら関与するユーザーおよび関与しないユーザーの心理測定プロファイルが、少なくとも一つの機械学習方法と一緒に使われて、ユーザーの心理測定モデルから広告への関与の可能性を予測する方法を決定する。このようにして、関与の相対的な確からしさが、純粋な心理測定特徴およびいくつかのバージョンでは一つまたは複数の人口統計特徴を含む心理測定次元の関数として、予測されることができる。そのような相対的な確からしさは、ユーザーの心理測定次元の少なくとも一つに基づいてオンライン・ユーザーへの個別的な広告のターゲットを絞るために使用されてもよい。
関与を予測する方法は、心理測定モデルがすでに生成されているユーザーの完全な母集団に適用されてもよい。それにより、母集団全体が、関与の確からしさの順にランク付けされる。完全な母集団は、関与の確からしさに従って、個々のオーディエンスにセグメント分割されてもよい。
個別的実施形態は、これらの側面、特徴または利点の全部を提供することも、一部を提供することも、どれも提供しないこともある。個別的実施形態は、一つまたは複数の他の側面、特徴または利点を提供することがあり、その一つまたは複数は当業者には、本願の図面、記述および請求項から容易に明白となりうる。
〈いくつかの実施形態〉
以下の記述では、さまざまな実施形態が記述される。説明の目的で、実施形態の十全な理解を提供するために具体的な構成および詳細が記載されるが、そうした具体的な詳細なしでも実施形態が実施されうることは当業者には明白であろう。さらに、実施形態の記述を埋没させないために、よく知られた特徴は省略されたりまたは簡略化されたりすることがある。
〈ネットワーク接続されたコンピューティング環境〉
図1は、本発明の実施形態が実装されうる、六つのシステム、たとえばサーバー・システムを含んでいてもよい例示的な分散式データ処理システム100である。各サーバー・システムは独立して管理されてもよいが、代替的な構成はそれらのシステムのうちの少なくとも一つが組み合わされることを含んでいてもよい。分散システム100におけるシステムは典型的にはネットワーク199、たとえばインターネットによって結合され、ターゲット母集団プロバイダー・システム102、データを分配するため、データをオンボーディングするためおよびIDマッチングを実行するためのデータ分配器システム104、サンプル・プロバイダー・システム106および心理測定データ・アナリティクス・エンジン・ステム108を含む。いくつかの実施形態は、ターゲット母集団システム102とは別個のデマンドサイドプラットフォーム(DSP)システム109を含んでいてもよい。システム100は、一つまたは複数のクライアントを含んでいてもよく、図1には例として三つのそのようなクライアントが示されている。追加的なシステム105が含まれていてもよく、これはクライアント・システム103の一つと同様であってもよい。
分散システム100の各システムは少なくとも一つのプログラム可能なプロセッサ(一般に、いくつかの実施形態では特殊目的ハードウェアと組み合わされたプログラム可能な電子装置)および記憶サブシステムを含んでいてもよい。記憶サブシステムはRAMおよび少なくとも一つの他の記憶装置を有し、記憶サブシステムはこのように、プロセッサのうちの少なくとも一つで実行されるときにシステムに本稿に記載される方法のうちの少なくとも一つを実行させる機械可読命令を有するプログラム・コードが記憶されている非一時的なコンピュータ可読媒体を有する。分散システム100におけるシステムは、他のシステム(単数または複数)およびクライアント・コンピュータ、たとえばクライアント103および要素105とネットワーク199を介して通信できてもよい。本発明の諸側面を説明する目的で、各システムに含まれるさまざまなインターフェースおよび他の要素のような詳細は、これらの図面には示されていない。システム102、104、106、108および109のそれぞれは、ネットワーク199を介して複数のクライアント・コンピュータ103にとってアクセス可能である特化されたコンピュータ・システムであってもよい。いくつかの実施形態では、データセンターにおいておよびクラウド・コンピューティング・アプリケーションのためのクラウド・コンピューティング資源に関して一般的なように、システム102、104、106、108および109のうちの少なくとも一つが、ネットワーク199を通じてアクセスされるときにシームレスな処理および記憶資源の単一のプールとして作用するクラスタリングされたコンピュータおよびコンポーネントを使う処理システムであってもよい。いくつかの実施形態では、システムのいくつか、たとえば心理測定データ・アナリティクス・エンジン・システム108は、下記に述べる特殊目的ハードウェアをもって構成される。
ターゲット母集団プロバイダー(target population provider)は、オンライン広告活動を実行し、および/またはユーザーのための少なくとも一つのアプリケーションをサービスすることができる、それぞれサンプル・プロバイダーのもの(サンプル‐プロバイダー・ユーザーID)とは異なりうるターゲット‐プロバイダー・ユーザーIDをもつユーザーの集合(単数または複数)をもつエンティティー(またはエンティティーの集合)である。該エンティティーは、そのユーザーのオンライン活動(そのアプリケーション、ネットワークまたは交換上での活動を含む)についての行動データを自動的に収集する能力を備える。本稿に記載される多くの例示的実施形態では行動データは、ユーザーによって訪問されたウェブサイトについてのデータを含むものの、行動データは、アプリケーションにおけるユーザー生成されたテキストおよび/または消費者データおよび/またはユーザー選好データおよび/またはファーストパーティー・データおよび/またはウェブ・ログ・データを含んでいてもよい。本発明の諸実施形態において、ターゲット母集団プロバイダーは、その心理測定プロファイルが予測されるべきユーザーの全体的母集団を、またかかるユーザーの行動データをも提供する。ターゲット母集団プロバイダーは、機械学習方法をトレーニングすることにおいて使われるシード・ユーザーのための行動データをも提供する。
コンピュータおよび/またはモバイル装置上でブラウザーおよび他のアプリケーション(アプリ)のようなオンライン技術を使うユーザーについての行動データを自動的に収集するための、知られているいくつかの技術がある。そのようないわゆる追跡〔トラッキング〕技術は、クッキー、ウェブ・ビーコン、ウェブ・ピクセル、装置IDなどを含む。収集される行動情報は、ユーザーの現在および過去のオンライン活動を含み、ユーザーのウェブサイト閲覧履歴および訪問されたウェブ・ページ、ウェブサイト上での関与行動、検索クエリーおよびアプリケーション内行動を含む。そのような収集された行動データは、コンテンツを受領するよう特定の個人のグループをターゲットとするための機械実装される方法(アルゴリズム)のための入力として一般的に使われ、そのような機械実装される方法は、特定のグループのためにデザインされたオンライン広告コンテンツ(電子広告)を前記特定の個人のグループにサービスするために一般的に使われる。
ターゲット母集団プロバイダーおよびそのようなユーザー母集団の例は、モバイル・アプリのようなアプリケーションのユーザー(およびターゲット‐プロバイダー・ユーザーID)の集合、オンライン・データ・プラットフォームのユーザー(およびターゲット‐プロバイダー・ユーザーID)の集合、「モノのインターネット」(IoT)装置のユーザー(およびターゲット‐プロバイダー・ユーザーID)の集合、デジタル・メディア・チャネルの(またはデジタル・メディアのネットワークの)ユーザー(およびターゲット‐プロバイダー・ユーザーID)の集合、オンライン広告プラットフォーム、たとえば広告ネットワーク、サプライサイドプラットフォーム・ターゲット母集団プロバイダー(「SSP」)、デマンドサイドプラットフォーム・ターゲット母集団プロバイダー(「DSP」)またはデータ管理プラットフォーム(「DMP」)のユーザー(およびターゲット‐プロバイダー・ユーザーID)の集合を含むがそれに限られない。これらのそれぞれは、コンピュータ、通信および他の処理資源を有することができる。したがって、一般的な用語「ターゲット母集団プロバイダー」のユーザーの母集団は、広告プロバイダーのほかに他の型のオンライン・ユーザー母集団、たとえばツイッター(登録商標)、フェイスブック(登録商標)などのようなアプリケーションのオンライン・ユーザー、Reddit(登録商標)のような大規模パブリッシャーのユーザー、モバイル・アプリのユーザーなどを指してもよい。
本発明のいくつかの実施形態におけるターゲット母集団プロバイダーは、少なくとも一つのプロセッサ120および記憶サブシステム122を含むターゲット母集団プロバイダー・システム102によって提供され、広告ネットワーク、SSP、DSPまたはDMPにおいて使用されうる。ターゲット母集団プロバイダー・システム102の代わりにまたはそれに加えて、別のシステムがシステム102の代替としてまたはそれに加えて、たとえばDSPとしておよび/またはたとえば広告技術の外にいる他のオンライン母集団のために使用されてもよい。該他のオンライン母集団は、モバイル・アプリケーション、デスクトップ・アプリケーション、「モノのインターネット」(IoT)装置、仮想現実感(VR)および拡張現実感(AR)装置、デジタル・メディア・プラットフォーム、支払いプラットフォームなどのデジタル人口を含むがそれに限られない。
ターゲット母集団プロバイダー・システム102の記憶サブシステム122は、ユーザーのターゲット‐プロバイダー・ユーザーIDを含むユーザーIDデータベース(DB)124、広告のようなあらかじめ定義された刺激に関与するユーザーの関与データベース125およびユーザーの行動データの行動データベース126を有する。記憶サブシステム122はさらに、説明の目的のためにIDマッチング・プログラム・コード127およびフィルタ・プログラム・コード128として示されているプログラム・コードをもつ。
ある実施形態では、ユーザーIDデータベース124は、ターゲット母集団プロバイダー・システム102の各ユーザーについてのレコードを維持する。ユーザーについてのそのようなレコードは、個人を特定できる情報(PII)、たとえばそのユーザーについての電子メール・アドレスまたは本名を含んでいてもいなくてもよい。ユーザー・レコードは、そのユーザーによってオンラインで訪問されたURLおよびそのユーザーについての他のクリックストリーム活動を含んでいてもよく、さらにクッキーまたはそのユーザーを識別するそのユーザーについてまたはそのユーザーに対して提供される他の匿名IDを含んでいてもよい。クリックストリームとは、ユーザーがあるウェブサイトにいるまたは複数のウェブサイトにリンクしている間になされる一連のマウス・クリックまたは他の選択を意味する。このコンテキストでのウェブサイトは、ユーザーによって使用されるモバイル・アプリケーションの画面、ツイッター、フェイスブックなどといったソーシャル・プラットフォーム上のメッセージ、スマート(ネットワーク接続)TV上で視聴されるプログラムなどを含む。
ユーザーIDデータベース124は典型的には、多数のユーザーについての、たとえば数億のユーザーまたはさらには数十億のユーザーについての記録を含む。
関与データベース125は、少なくとも一つの特定の刺激、たとえば少なくとも一つの(オンライン)広告上の特定の要素とのユーザーの対話についての情報のためのターゲット母集団プロバイダー・システム102によって使用されるレコードを含む。たとえば、関与データベースは、広告プロバイダー、たとえば特定の広告とのユーザーの対話を使ってシステム102によって収集されたデータと、可能性としてはパブリッシャーまたは広告主のコンテンツとのユーザーの対話についての他の注目メトリックと、可能性としては消費者データとを含む。ある実施形態では、関与データベースはユーザーIDデータベース124とは別個のデータ構造であるが、代替的な実施形態では、関与データは、ユーザーIDデータベース124におけるユーザー・レコードにおける追加的なフィールドとして提供されてもよい。
行動データベース126は、ユーザーについての行動データの履歴ログを含む。この例示的実装では、これらの行動データは訪問されたウェブ・ドメイン、フルページビューURL、タイムスタンプ、地理的位置データなどのデータ項目を含み;他の実装では、行動データはユーザー生成されたテキスト、たとえばブログ上、ツイッター(登録商標)、Reddit(登録商標)またはフェイスブック(登録商標)のようなソーシャルメディア上でなされた投稿または話された言語データまたはユーザー選好データを含んでいてもよく、これは商人レベルの購入データを含むがそれに限られない。一般に、あるユーザーについての行動データはユーザーの過去の行動についてのデータを含む。
いくつかの実施形態では、行動データベース126における行動データは、生の形であってもよい。解析方法が、データの次元を要約の形に低減するために使われる。本発明の諸側面を実行するためにそのような行動データを要約行動データに変換する解析方法の詳細は、本稿でのちにより詳細に記述される。本稿でのちに詳細に記載される解析方法はユーザーによって訪問されたウェブサイトのテキスト解析についてであるが、行動データは、テキスト・メッセージ、電子メール、生成された(または読まれた)ブログ、データ文書、テキスト・ファイル、データベース・ファイル、ログ・ファイル、トランザクション記録、購入注文などの一つまたは複数を含んでいてもよく、あるいは代わりにそれらから構成されていてもよい。
ある実施形態では、行動データベース126は、ユーザーIDデータベース124とは別個のデータ構造であり、代替的な実施形態では、任意のユーザーについての行動データは、ユーザーIDデータベース124におけるユーザー・レコードにおける追加的なフィールドとして提供されてもよい。
ユーザーIDプログラム・コード127へのマッチ・クエリーは、ターゲット母集団プロバイダー・システム102が、ユーザーの一意的なターゲット‐プロバイダー・ユーザーIDによってまたは少なくとも一つのクッキーによって同定される少なくとも一のユーザーをリストする入力要求を受け容れ、該入力要求において指定されている少なくとも一のユーザーにマッチするユーザーIDデータベース124のユーザー・レコードを判別することを許容するよう動作する。
フィルタ・プログラム・コード128は、ユーザーIDデータベース124におけるユーザー・レコードをフィルタリングして、たとえば何らかの所定の基準を満たすユーザー、たとえば行動データベース126における比較的少量の行動データをもつユーザーを除外するまたはかかるユーザーにフラグを付けるよう動作する。一例では、操作者が設定できるまたはあらかじめ定義された閾値量よりも少ない行動データをもつ任意のターゲット‐プロバイダー・ユーザーIDがフィルタ除去される。ある実施形態では、閾値は、ユーザー当たり10個の行動データ・ポイントである。
もう一つのバージョンでは、フィルタ・プログラム・コード128は、行動データベース126において行動データが最も多いほうから設定可能な数のユーザーについての行動データを提供するよう動作する。
ある実装では、フィルタリングされたターゲット‐プロバイダー・ユーザーIDについての行動データ(すなわち、少なくとも前記閾値量の行動データをもつもの)のみが受領される。所与の時間期間にわたって十分な量の行動データが関連付けられているユーザーについての行動データのみが、のちに詳細に述べる機械学習を使ったモデリングのために使われることを保証するためである。例示的な時間期間は三か月、六か月またはそれらの時間期間の中間または外側であってもよい。
下記でより詳細に記述されるように、それらのフィルタリングされたIDをもつユーザーの行動データは、(ターゲット母集団プロバイダー・システム102とは別個のシステムにおいて)それらのユーザーの実際の、諸心理測定次元の心理測定プロファイル(任意的には人口統計特徴を含む)と結合され、処理されてもよい。人口統計データは、測定手段によって、たとえばユーザーを質問を提供し回答を受け容れるアプリケーションに案内することを通じてそれらのユーザーに一組の質問に答えてもらうことによって収集される。図1は、心理測定上の測定手段をネットワーク199を介して結合された別個の要素105として示している。ある実施形態では、心理測定上の測定手段105は、少なくとも一つのプロセッサおよび記憶サブシステム(これらの要素は図示せず)を有するクライアント・システムであってもよい。該記憶サブシステムはコード、たとえばネットワークを介してシステム105にロードされたコードを有する。該コードは、実行されたとき、前記アプリケーションに、たとえばシステム105に含まれるユーザー・インターフェースを介して質問を提供し、ユーザーからの回答を受け取るよう動作させる。
このように、システム100は、シード・ユーザーと呼ばれる個人の集合について、心理測定プロファイルおよび行動データの両方を提供する。行動データは、本稿で後に述べるようにターゲット母集団プロバイダー・システム102において維持されるが、シード・ユーザーは、ターゲット母集団プロバイダー・システム102とは別個の少なくとも一つのシステムによって提供されてもよい。それらのシード・ユーザーの心理測定プロファイルも、別個のシステムによって提供されてもよい。シード・ユーザーの心理測定プロファイル・データおよびたとえば要約行動データのような対応する行動データは、少なくとも一つの機械学習方法が人の心理測定プロファイルを、たとえその人について心理測定データが先験的に全くまたはほとんど利用可能でないときにでも、その人の行動データから予測する方法を決定するためのシード・データとして使われる。
ターゲット母集団プロバイダー・システム102におけるユーザーのデータが、ターゲット‐プロバイダー・ユーザーIDによってまたはそのような人のクッキーによって同定されうることを注意しておく。
サンプル・プロバイダー(sample provider)はサンプル・ユーザーを提供することができるエンティティーである。これはたとえば、該ユーザーに心理測定プロファイルを提供させることなどによって該ユーザーの特徴を測定するために該ユーザーに対して前記測定手段を使うためである。それらのユーザーのそのようにして測定された心理測定プロファイルは、心理測定プロファイルを予測するよう後述する機械学習方法をトレーニングするために、すなわち心理測定モデルを決定するために、同じユーザーについての自動的に機械収集された行動データと一緒に使われることができる。サンプル・プロバイダーの機能は、ある実施形態では、少なくとも一つのプロセッサ160および記憶サブシステム162を有するサンプル・プロバイダー・システム106によって提供される。記憶サブシステム162は、心理測定プロファイルの潜在的な提供者でありうるユーザー(パネリストと呼ばれる)のデータベース164と、サンプル・プロバイダー・システム106がどのようにそのユーザー・データベース164をサンプリングすることができるかを定義する規則を提供するサンプル規則集合データベース165とを含み、また、サンプル規則集合165を使ってサンプル・プロバイダー・ユーザーの、より大きなデータベース164からレコードをサンプリングして、心理測定プロファイルを得るためのシード・ユーザーとして使われるべきサンプル・ユーザーの集合を形成するサンプル選択プログラム・コード167をも含んでいてもよい。いくつかの実施形態では、ユーザー(パネリスト)のデータベース164は、クッキーまたは他のユーザーIDと、パネリストについての追加的な情報、たとえば人口統計情報(これは本稿で定義されるところでは、地理的および/または消費者情報を含んでいてもよい)とをを含む。
たとえば、サンプル選択プログラム・コード167は、ユーザー・データベース164がクッキーから導出された、人口統計情報(地理的および/または消費者情報を含む)を含むデータを使ってサンプリングされるように動作してもよい。クッキーは、一つまたは複数の基準を満たすシード・ユーザーを形成するようユーザーのサンプルを導出するために使われてもよい。例として、地域、年齢、性別、人種、民族、収入、教育などといったユーザーについてのデータを使うことによって、サンプリングされる母集団の代表的な断面を保証するようバランスのとれたユーザーのサンプルを提供することが望まれることがある。他の場合には、いくつかの人口統計次元においてはバランスがとれているが、他の人口統計基準を満たす、たとえば特定の職業からのまたは特定の範囲の収入をもつユーザーのネストされたサンプルを提供することが望まれることがある。
サンプル・プロバイダー・システム106のユーザー・データベース164におけるユーザーは、サンプル‐プロバイダー・ユーザーIDによって一意的に同定されてもよい。このように、サンプル・プロバイダー・システムは、ユーザーが、典型的にはターゲット‐プロバイダー・ユーザーIDとは異なるドメイン固有ユーザーID――サンプル‐プロバイダー・ユーザーID――によって同定される別のドメインを形成する。
データ分配器(data distributor)は、サンプル・プロバイダーのIDシステムにおけるユーザーIDの、ターゲット母集団プロバイダー・システム102のIDシステムにおけるユーザーIDとの照合を実行することができるエンティティーである。これはたとえば、クッキー・マッチングまたは他の何らかの方法によって実行されてもよい。データ分配器は、あるIDシステムでのユーザーIDの第二のIDシステムでのユーザーIDへの翻訳(マッチングまたは変換とも呼ばれる)を実行することもできる。いくつかの実施形態では、あらゆる時点において、サンプル・プロバイダー・システム106およびターゲット母集団プロバイダー・システム102の両方は、それぞれ自分のIDシステムに関してのみ、ユーザーのリストにアクセスできる。この場合、一方のIDシステムにおけるユーザーIDが他方のIDシステムにおける同じユーザーのユーザーIDにマッチングされることができるのは、データ分配器を介してのみである。
いくつかの実施形態では、データ分配器の機能は、少なくとも一つのプロセッサ140および記憶サブシステム142を含む分配器システム104によって提供される。記憶サブシステム142は、ドメイン相互参照データベース144を維持しており、ドメインID置換プログラム・コード147およびドメインID生成プログラム・コード148を含むプログラム・コードをもつ。データベース144におけるレコードは、相互参照のために使われ、各レコードは第一のドメイン、たとえばサンプル・プロバイダー・ドメインにおける識別子と第二のドメイン、たとえばターゲット母集団プロバイダーのドメインにおける識別子との間のマッピングを含む。例として、第一のドメインは、そのデータベースにおけるユーザーについてのPIIにリンクされることのできる一意的なユーザー識別子を使ってもよく、一方、第二のドメイン、たとえばターゲット母集団プロバイダー・システム102のドメインは、それらのユーザーについての追加的な行動データに基づいて動作するが、第二のドメインからの一意的な識別子はターゲット母集団プロバイダー・システムのデータベース内のユーザーについてのいかなるPIIへもリンクされることはできない。第一のドメインにおけるデータベース・マネージャがまずそのデータを、第二のドメインとのマッチングのためにデータ分配器システム104に渡すいくつかの事例では、ドメイン相互参照データベース144は、ドメイン1のIDをユーザーの対応するドメイン2のIDとマッチングし、次いで、ドメイン間ID置換コード147がドメイン1のIDをドメイン2のIDで置換し、次いでそれをドメイン2のシステムに渡す。これは、第二のドメインにおけるデータ受領者が、第一のドメインの一意的な識別子へのまたはデータ分配器システム104によって使用される一意的な識別子へのアクセスをもつことなく、自分のユーザーIDのみに基づいて動作することを許容する。
図4A〜4Eに示され、下記でより詳細に記述される例示的データ・フローに関連する、より具体的な点では、ターゲット母集団プロバイダー・システム102およびサンプル・プロバイダー・システム106はそれぞれ自分の匿名化されたIDシステムを有する。どちらのシステムも、自分のIDを相手のIDと共有する必要はなく、共有しないことが好ましい。むしろ、サンプル・プロバイダー・システム106のIDのリストはデータ分配器システム104を通過し、該データ分配器システム104がユーザーIDを同じユーザーの、ターゲット母集団プロバイダー・システム102上での対応するIDで置き換える。データが逆向きに流れるときは逆のことが起こる。
本稿で使われるところの心理測定モデル化エンティティー(psychometric modeling entity)は、本稿に記載される心理測定モデル化方法を実行するエンティティーである。心理測定モデル化エンティティーは、ユーザーの心理測定モデル(およびたとえばサンプル・プロバイダーによって提供される、ユーザーの測定された心理測定プロファイル)を維持する。本発明の実施形態の一つの側面は、心理測定モデル化エンティティーは、たとえば個人を特定できる情報(PII)を使って、ユーザーを識別することができないということである。
さらに、いくつかの実施形態では、心理測定モデル化エンティティーは、サンプル母集団プロバイダーのIDシステムにおけるものであれターゲット母集団プロバイダーのIDシステムにおけるものであれ、実際のユーザーIDの知識をもたない。サンプル母集団プロバイダーは、真のサンプル‐プロバイダー・ユーザーIDではなく匿名化されたまたはハッシュされたサンプル‐プロバイダー・ユーザーIDを、心理測定モデル化エンティティーに送ることができるだけである。同様に、ターゲット母集団プロバイダーは、真のターゲット‐プロバイダー・ユーザーIDではなく匿名化されたまたはハッシュされたターゲット‐プロバイダー・ユーザーIDを、心理測定モデル化エンティティーに送ることができるだけである。
本発明の実施形態の一つの側面は、心理測定モデル化エンティティーが、シード・ユーザーの集合と呼ばれるユーザーの集合についての行動データを受領し、また、同じシード・ユーザーの集合についての心理測定プロファイルを(前記測定手段、たとえば要素105をシード・ユーザーに対して使ってそのプロファイルの測定される心理測定次元を提供してもらうことによって)これらのユーザーについてのいかなるPIIにもアクセスをもつ必要なしに、取得しうるということである。行動データは、要約行動データを生成するために解析されてもよい。シード・ユーザーの(要約)行動データおよび心理測定プロファイルは、一つまたは複数の機械学習方法をトレーニングして、ユーザーの行動データからユーザーの(未知の)心理測定プロファイルを予測する方法を決定するために使われる。本発明のもう一つの側面は、心理測定モデル化エンティティーがターゲット母集団プロバイダーから、完全な心理測定プロファイルが知られていないユーザーについての行動データを受領し、行動データが受領される(そしていくつかの実施形態では解析されて要約行動データにされる)ユーザーについて心理測定プロファイルを予測するために、決定された予測方法を使うことができるというものである。本発明のもう一つの側面は、心理測定モデル化エンティティーに関与データが提供されてもよく、該関与データは心理測定モデルが心理測定モデル化エンティティーに対して知られているユーザーの、特定の刺激、たとえば特定の広告またはウェブ・ページに関与する確からしさを示す。心理測定モデル化エンティティーは、少なくとも一つの機械学習方法を使って、ユーザーの心理測定モデルに基づいて特定の刺激に対する関与の相対的な確からしさを予測する方法を決定してもよい。心理測定モデル化エンティティーは、心理測定モデルが利用可能であるすべてのユーザーについて関与の相対的な確からしさを予測する方法を使って、前記すべてのユーザーを関与の該相対的な確からしさに従って分割し、こうして特定のオンライン刺激についてのオーディエンスを決定してもよい。
本発明のいくつかの実施形態では、心理測定モデル化エンティティーの機能は、少なくとも一つのプロセッサ180および記憶サブシステム182を有する心理測定データ・アナリティクス・エンジン(PDAE: psychometrics data analytics engine)108(心理測定データ・アナリティクス・システムとも呼ばれる)によって提供される。記憶サブシステム182は、メモリおよび少なくとも一つの他の記憶装置を含み、よって、非一時的なコンピュータ可読媒体を含む。該コンピュータ可読媒体は、典型的にはクッキーで追跡されるまたは装置IDを通じて匿名的に識別もされうる、それによりユーザーについて追跡情報が利用可能となりうるユーザーのユーザー・データベース(クッキー追跡ユーザーDB)184、マッピング・データベース(マッピングDB)186、本稿に記載される心理測定プロファイル・モデル化および予測方法を実行するためのプログラム・コード187、本稿に記載されるようにして生成されたモデルを適用することによってユーザーDB 184にユーザーの心理測定モデルを入れるためのプログラム・コード188および本稿に記載される機械学習方法を実行して、少なくとも一つの刺激、たとえば広告に対する関与を示すデータを機械学習を使って予測するとともに、前記特定の刺激についての関与データおよびオーディエンスを含んでいるマッピング・データベース186をさらに洗練するためのプログラム・コード189を記憶する。
PDAE 108のユーザーDB 184は、多数のユーザーについてのレコードを有する。ある実施形態では、データベース184におけるユーザーは、シード・ユーザーおよび推論ユーザーと呼ばれるその他ユーザーという二つの集合に範疇分けされてもよい。データベース184におけるシード・ユーザーのレコードは、匿名化されたサンプル‐プロバイダー・ユーザーIDおよび/または匿名化されたターゲット‐プロバイダー・ユーザーIDをもつレコード、可能性としては何千ものレコードを含み、各シード・ユーザーは、要約行動データ111を形成するようターゲット母集団プロバイダーによって自動的に収集された行動データと、シード・ユーザーについて前記測定手段、たとえばアンケートまたは心理測定モデル化アプリケーションを介してシード・ユーザーに手動でデータを入力させる要素105などによって収集された心理測定データ(心理測定プロファイル)112とをもつ。データベース184の推論ユーザーについての部分は、匿名化されたターゲット‐プロバイダー・ユーザーIDをもつ数百万、さらには数億またはさらには数十億のレコードを含んでいてもよく、各ユーザーはそれに関連付けられたターゲット母集団プロバイダー・システム102からの、要約行動データ113のような行動データをもつ。本稿で説明されるように、PDAE 108は、プロファイルを予測する方法を学習するためにそのプロセスを使い、学習はシード・ユーザーのデータを使う。PDAE 108は、次いで、それらの予測方法を、推論ユーザーに対して使う。これは、各推論ユーザーの行動データ113を使って、推論ユーザーについての(少なくとも一つの人口統計特徴を含む)心理測定次元の心理測定モデルを生成し、推論ユーザーのIDについての心理測定モデル114がデータベース184において決定される。
いくつかの実装では、ユーザーの前記二つの集合(シードおよび推論)は、一つのデータベース184の部分であり、各部分は、ユーザーがシード・ユーザーであるか推論ユーザーであるかを示すフラグをもつレコードをもつ。他の実施形態では、データベース184は、シード・ユーザー・データベースおよび推論ユーザー・データベースという二つの別個のデータベースを含む。
いくつかの実装は、前記プロセッサのうちの少なくとも一つに、自動的に収集された行動データを要約して要約行動データを生成する解析プロセスを実行させる、記憶サブシステム182におけるコードを、たとえばコード187の一部として含む。要約行動データは、クッキー追跡ユーザー・データベース184に記憶されてもよい。
データベース184は、(少なくとも一つの人口統計特徴を含む)心理測定次元を行動データにマッチングするレコードを含む。初期には、シード・ユーザー・データを使う機械学習段の間に、心理測定次元データ111は、前記測定手段を介してシード・ユーザーについての直接心理測定データを収集することからくる。これはたとえば、そのシステムにおけるユーザーの全母集団を代表する数千のユーザーのデータである。シード・ユーザーの心理測定データは、シード・ユーザーの対応する行動データとマッチングされてもよい。該行動データは、シード・ユーザーについて、自動的に機械収集され、ターゲット母集団プロバイダー・システム102によって提供され、次いで要約行動データ112に要約されたものである。
プログラム・コード188は後に、クッキー追跡ユーザーDB 184に、モデル114を入れる。ここで、大半のユーザーは、直接収集された心理測定データが関連付けられていない推論ユーザーである。該データを入れる処理は、推論ユーザーの要約行動データ113を使う。
このように、本発明のある側面では、機械学習が、予測方法をトレーニングするために使われ、トレーニングは、行動データから心理測定次元(人口統計特徴(単数または複数)を含む)を予測する予測方法を学習するために、シード・ユーザーのデータ111および112を使う。何らかの実施形態のもう一つの側面は、ある選択基準に従って、何らかのシード・データに対して最良の性能を達成した予測方法を選択することである。もう一つの側面は、(プログラム・コードを作動させることによって)、学習された(そして選択された)予測方法を使って、推論ユーザーについての心理測定次元(人口統計特徴を含む)の心理測定モデルを決定することである。
図1は少なくとも一つのプロセッサ180および記憶サブシステム182を有するものとしてPDAE 108を示しているが、関連するプログラム・コードをもつそのようなプロセッサは、いくつかの実施形態では、本稿に記載される具体的プロセスの一部を実行するよう特に構成された特殊目的ハードウェアによって置換または増強されてもよい。そのようなシステムについてのさらなる詳細については、図6および下記のその記述を参照されたい。
いくつかの実施形態では、システム100は、少なくとも一つのプロセッサ190および記憶サブシステム192を含むデマンドサイドプラットフォーム(DSP)システム109と呼ばれるもう一つのエンティティーをも含んでいる。DSP 109は、デジタル広告の購入者のために、単一のインターフェースを通じて広告交換およびデータ交換を管理する機構を提供する。そのような交換は、オンライン広告を表示するためのリアルタイムの入札を許容する。DSPは、本発明のいくつかの実施形態では、広告を、ターゲット母集団プロバイダー・システム102に提供するために使われる。それにより、ターゲット母集団プロバイダーは、広告がそのユーザー(の少なくとも一部)に対してそのメディア目録上で(またはサードパーティー・パブリッシャー、パブリッシャー・ネットワークまたはSSPのメディア目録上で)表示されることを許容できる。本発明のいくつかの実施形態のもう一つの側面は、特定の広告に対して関与するユーザーの(および関与しないユーザーについての)該特定の広告について捕捉された実際の関与データを自動的に機械収集するターゲット母集団プロバイダー・システム102を含む。(母集団プロバイダー・システム102とともに動作する)クライアント・システム103の集合は、このように、該特定の広告についてユーザーから関与データを収集し、PDAE 108に提供しうる関与測定手段をなしてもよい。もう一つの側面は、関与データをPDAE 108に渡すターゲット母集団プロバイダー・システム102と、該関与データを受け容れるPDAE 108である。このデータは、いくつかの実施形態においてはマッピング・データベース186においてデータ115として維持される。PDAE 108は、その関与データをPDAE 108が受領するユーザーの少なくとも一部について、(114における)心理測定モデルをもつ。ハードウェアおよび(コード189における)PDAE 108内のコードが、特定の刺激(広告)についての関与データが知られているユーザーの関与データ115および114の心理測定モデルを使って、その心理測定モデルに基づく前記広告に対する関与の確からしさに従って、ユーザーをランク付けする。特定の広告に対する関与の確からしさの、心理測定モデルとのこの組み合わせは、PDAE 108における方法によって、少なくとも一つの機械学習方法を使って、広告に対してユーザーが関与する確からしさをそれぞれの心理測定モデルに基づいて予測する方法を学習して関与モデル116を形成するために使われてもよい。ひとたび関与‐予測方法が利用可能になったら、そのような方法は、心理測定モデルが利用可能であるまたは決定されることができる全体的な母集団に対して使用されて、関与する確からしさが範囲の集合のうちのいずれかにはいるユーザーのオーディエンス117を生成してもよい。そのようなオーディエンスは次いで、PDAE 108によってターゲット母集団プロバイダー・システム102に送られてもよい。ターゲット母集団プロバイダー・システム102は次いで、それらのオーディエンスをDSPシステム109に送ってもよく、該DSPシステム109が次いで広告主またはそのエージェンシーに、カスタム心理測定オーディエンスに対する広告購入を実行する能力を提供できる。かかるオーディエンスのメンバーは、ターゲット母集団プロバイダー・システム102の諸ユーザーを含む。
このように、マッピング・データベース186は、ユーザーについての追加的なデータを、そのようなユーザーの、少なくとも一つの特定の刺激、たとえばオンライン広告への応答に従って、受領する。そのような刺激に対する反応(および無反応)は本稿では「関与(engagement)データ」と呼ばれる。そのような関与データは、ウェブ・ページの種々の部分に対して費やされた時間ならびに特定の広告との相互作用ならびにクリックスルー率およびコンバージョン(直接応答またはアプリ・インストールまたは購入)を含んでいてもよい。プログラム・コード189は、PDAE 108に、前記少なくとも一つの特定の刺激に対する関与の確からしさを予測するために機械学習を実行させる。プログラム・コード189は、いくつかの実施形態ではさらに、前記少なくとも一つの特定の刺激に対する関与の確からしさに従って、提供された母集団を分割することを実行する。そのようなデータは、マッピング・データベース186において記憶され、更新される。
本発明のすべての実施形態が図1に示されるエンティティーのすべてを使うとは限らないことを注意しておく。たとえば、いくつかの実施形態は、DSP 109の要素の少なくとも一部をターゲット母集団プロバイダー・システム102に組み込む。さらに、いくつかの代替的実施形態は、データ分配器システム104と同様の、ターゲット・プロバイダー・ユーザーIDをDSP 109のIDシステムにおけるユーザーIDに翻訳できるさらに別のエンティティーを含む。さらに、いくつかの実施形態はデータ分配器システム104を使わない。さらに、いくつかの実施形態は、シード・ユーザーの心理測定プロファイルを取得して提供するための別個の測定手段105を含む。
〈方法実施形態〉
図2は、オンライン・ユーザーの心理測定プロファイルを予測する機械の動作方法200の実施形態の簡略化されたフローチャートを示している。本方法は、たとえば、PDAE 108において実行され、204において、測定手段〔インストルメント〕(たとえば要素105)から、ユーザーの第一の集合のユーザーの測定された心理測定次元を受け容れて、前記第一の集合のユーザーの受け容れられた心理測定プロファイルを形成することを含む。測定手段はたとえば、前記第一の集合のユーザーによるデータ入力によって測定を実行する。各心理測定プロファイルは(モデルとして予測されるのであれ、あるいは前記手段から測定されるのであれ)、少なくとも一つの純粋に心理測定上の次元と、任意的には少なくとも一つの人口統計上の次元とを含む次元の集合を含む。前記第一の集合のユーザーのそれぞれの受け容れられる心理測定プロファイルは、前記第一の集合の各ユーザーから、たとえば該ユーザーを、ユーザーの匿名性を維持しつつデータ入力を要求するウェブサイトまたはアプリケーションを表示する前記手段に送ることによって測定される。前記第一の集合の各ユーザーの受け容れられた心理測定プロファイルは、前記第一の集合の前記各ユーザーによるデータ入力によって得られてもよい。本方法はさらに、206において、ユーザーの第二の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れることを含む。これは、前記第二の集合のユーザーの要約行動データを形成することを含む。のちにより詳細に述べるように、前記第二の集合の各ユーザーは、前記第一の集合にもはいっており、本方法は、前記第二の集合の各ユーザーについては、前記受け容れられた測定された心理測定プロファイルと、ユーザーのオンライン行動についての前記受け容れられた自動的に機械収集されたデータとの両方をもつ。いくつかの実施形態では、本方法は、オンライン行動についての前記自動的に機械収集されたデータに対して解析プロセスを実行して、前記要約行動データを形成することを含む。本方法は、208において、前記第二の集合のユーザーの前記要約行動データおよび前記受け容れられた測定された心理測定プロファイルを使って、心理測定プロファイルが未知であってもよいユーザーの心理測定プロファイルのそれぞれの次元を予測する少なくとも一つの機械学習方法をトレーニングし、こうして心理測定プロファイルが未知であってもよいが要約行動データは知られているユーザーの心理測定モデルを生成することを含む。心理測定プロファイルが未知であってもよいユーザーについてのそれぞれの次元を予測する、それぞれのこうしてトレーニングされたそれぞれの機械学習方法は、それぞれの心理測定プロファイルが未知であってもよいユーザーの要約行動データを使う。本方法はさらに、210において、心理測定プロファイルが未知であってもよいユーザーの第三の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れ(そして可能性としてはそれに対して解析プロセスを実行し)、第三の集合のユーザーの要約行動データを形成し;212において、予測の前記トレーニングされた機械学習方法のうちの少なくとも一つを使って、前記第三の集合のユーザーの要約データから、ユーザーの前記第三の集合の各ユーザーの心理測定モデルを生成することを含む。本方法は、214において、生成された心理測定プロファイル(心理測定モデル)をたとえばデータベースに記憶することを含んでいてもよい。一つの特徴は、本方法は、前記第一の集合の各ユーザー、前記第二の集合の各ユーザーおよび前記第三の集合の各ユーザーの匿名性を維持できるということである。これはたとえば、前記第一、第二または第三の集合のユーザーの前記機械における任意のユーザーIDが、そのユーザーの匿名化されたユーザーIDであることによる。
前記第一の集合および第二の集合のユーザーがどのように選択されるかについて、異なる実施形態は異なる。いくつかの実施形態では、前記第一の集合のユーザーへのアクセスが、そのようなユーザーを前記手段に、たとえばウェブサイトもしくはアプリケーションに案内することによって、および/または、前記第一の集合のユーザーの匿名化されたユーザーIDを提供することによって、サンプル・プロバイダー・システム106によって提供される。いくつかのバージョンでは、サンプル・プロバイダー・システムは、そのユーザーについての何らかの人口統計情報を有していてもよく、前記第一の集合のユーザーは、少なくとも一つの人口統計基準に基づく選択にかけられてもよい。一つの例示的な基準は、人口統計的にユーザーのバランスをとることである。もう一つの例示的な基準は、一つまたは複数の人口統計範疇、たとえば消費者範疇において選択的であることである。範疇は、職業上のポジションのような企業間範疇、住宅を買おうとしている人々のような市場内セグメント、自動車所有範疇などを含みうるが、それに限定されない。
いくつかの実施形態では、第二の集合のユーザーのオンライン行動についての自動的に機械収集されたデータは、ターゲット母集団プロバイダー・システム102によって提供され、こうしてこれらのユーザーはターゲット母集団ユーザーIDをもつ。第二の集合のユーザーはユーザーの第一の集合にもはいっているので、これらのユーザーは、サンプル‐プロバイダー・ユーザーIDをももつ。
いくつかの実施形態では、十分な行動データをもつと判定されたユーザーのみが、第二の集合に含まれる。いくつかのそのような実施形態では、ユーザーの第二の集合は、十分な行動データをもたない第一の集合のユーザーをフィルタ除去した後に選択される。
いくつかの実施形態では、ユーザーの前記第一の集合は、バランスのとれている心理測定プロファイルをもつよう選択されたユーザーの集合であり、選択は、心理測定プロファイルが収集済みであるユーザーの集合からである。
いくつかの実施形態では、ユーザーの第二の集合は、前記サンプル・プロバイダーによってそのユーザーへのアクセスが提供され、かつ、ターゲット母集団プロバイダー・システム102のターゲット母集団の一部でもあると判定されるユーザーの集合のユーザーである。いくつかのそのような実施形態では、行動データが本方法に対して利用可能にされるのに先立って、十分な行動データをもたないターゲット母集団のユーザーはフィルタ除去される。サンプル・プロバイダー・システムが少なくとも一つの人口統計上の基準に従って、たとえば人口統計的にサンプルのバランスをとるよう、あるいはたとえば一つまたは複数の特徴を選択するよう前記第二の集合のユーザーの何らかの人口統計的な選択を実行する一つのそのような実施形態では、人口統計的な選択は、十分な行動データをもたない他のユーザーがフィルタ除去された後のユーザーに対して実行される。一つのそのような実施形態では、オンライン行動についての自動的に機械収集されたデータの受け容れは、前記第一の集合のユーザーの心理測定モデルの受け容れ後、かつ前記人口統計的選択後に、行なわれる。
図3は、広告のような特定の刺激に関するそれぞれのオンライン・ユーザーによる関与の確からしさをそれぞれのユーザーのそれぞれの心理測定モデルの関数として予測するモデルを決定するための機械の動作方法300のある実施形態の簡略化されたフローチャートである。本方法は、たとえば、ユーザーの心理測定モデルが記憶されているPDAE 108において実行され、302において、関与測定手段、たとえば(システム102と一緒に)クライアント103から、そのユーザーについての心理測定モデルが記憶されており、かつ、特定の刺激に関して関与するユーザーについての(そしていくつかのバージョンでは関与しないユーザーについての)関与データを受け容れることを含む。ユーザーについて受け容れられた関与データは、たとえば前記ユーザーの記憶されている心理測定モデルを同定するために十分である。心理測定モデルはたとえば、図2のフローチャートにおいて記載されている方法200を使って生成されたものであることができる。関与測定手段は、図1に105として示されているものであってもよく、たとえばクライアント・システム103を含んでいてもよい。このクライアント・システムが、ユーザーに対して、特定の刺激の追跡機構を含むウェブサイトを表示させられる。本方法はさらに、304において、その関与データが受け容れられた(そしてその受け容れられたデータがユーザーの心理測定モデルを同定するために十分なデータである)ユーザーの、記憶されている心理測定モデルを取り出し、306において、少なくとも一つの機械学習方法をトレーニングして、その関与データが未知であってもよいユーザーについての心理測定モデルに基づいてその関与データが未知であってもよいユーザーについての関与の確からしさの指標を予測する関与モデルを決定することを含む。トレーニングは、その心理測定モデルが取り出されたユーザーについての受け容れられた関与データと、取り出された心理測定モデルとの両方を使う。この関与モデルは、他のすべての次元を一定に維持しつつ、任意の特定の心理測定次元についての関与の相対的なオッズを理解するために有用である。
本方法のいくつかの実施形態は、さらに、308において、関与モデルを、その心理測定モデルが利用可能である、たとえばPDAE 108に記憶されているユーザーの母集団に対して適用して、その特定の刺激に関する関与の確からしさの母集団のそれぞれのユーザーについて、その特定の刺激に関して関与の確からしさのそれぞれの指標を予測することを含む。
いくつかのバージョンでは、310において、前記母集団は、関与の確からしさの指標に従ってランク付けされ、312において、ランク付けされた母集団は、一組のオーディエンスに分割される。それぞれのオーディエンスは、ランキングにおけるそれぞれの範囲、たとえば関与の確からしさのそれぞれの百分位範囲のそれぞれのユーザーからなる。たとえば、あるオーディエンスは、関与する確からしさの指標における上位五パーセントのユーザーであることができる。
前記関与測定手段がどのようにしてユーザーの関与データの集合を提供するかについては異なる実施形態は異なる。関与追跡のいくつかの方法は、ピクセル、タグ、タグ管理システムまたは他の既存のウェブサイト・インフラストラクチャーまたはサードパーティーの注目メトリック・サービスまたはアプリケーション内の装置IDのコレクションを使ってもよい。どの母集団に対して関与モデルが適用されるかについても、異なる実施形態は異なる。
種々の実施形態において、関与モデルを適用することは、(a)前記特定の刺激のターゲットを、少なくとも一つの特定の心理測定次元をもつユーザーに絞ることを実行するために前記関与モデルを適用すること、(b)前記特定の刺激についての前記関与モデルを、少なくとも一つの他の特定の刺激についての少なくとも一つの関与モデルと比較して、オンライン呈示のための刺激を選択すること、および(c)ユーザーの母集団に対して前記関与モデルを適用して、準備刺激に関する関与の確からしさを予測すること、からなるアクションの集合のうちの少なくとも一つを実行することであってもよい。
これらの異なる実施形態は、下記で、データ・フローおよびプロセスとして、および特殊目的ハードウェア・システムとして、より詳細に記述される。
〈データ・フローおよびプロセス〉
図4Aは、本発明のある実施形態に基づく、図1の四つのシステム102、104、106、109の間のデータ・フローならびに各型のデータに関して各システムにおけるプロセスとして実行されるデータ処理の表現400を示している。システム102、104、106、109は図では「サーバー」と呼ばれていることを注意しておく。ターゲット母集団プロバイダー・システム102において実行されるプロセスは真ん中の桁が2の参照数字をもって示され、データ分配器システム104において実行されるプロセスは真ん中の桁が4の参照数字をもって示され、サンプル・プロバイダー106において実行されるプロセスは真ん中の桁が6の参照数字をもって示され、心理測定データ・アナリティクス・エンジン108(「PDAE 108」)において実行されるまたはそれによって管理されるプロセスは真ん中の桁が8の参照数字をもって示される。
いくつかの実施形態では、サンプル・プロバイダー・システム106は、プロセス462において、数N1の(匿名化された)ユーザーへのアクセスを提供し、これらに対するアクセスを、たとえばデータ・ブロック401におけるサンプル‐プロバイダー・ユーザーIDとして、データ分配器システム104に送る。データ・ブロック401は、そのようなユーザー(パネリストと呼ばれる)のレコードを含む。N1はたとえば、500,000レコードのオーダー、またはさらには百万レコード以上であることができる。これらのパネリストは典型的には、クッキー追跡され、匿名化されたサンプル‐プロバイダー・ユーザーIDをもつ。
データ分配器システム104は、データ・ブロック401のN1個のレコードを受信し、プロセス442において、サンプル‐プロバイダー・ユーザーIDを対応するターゲット‐プロバイダー・ユーザーIDにマッチングする。典型的には、データ・ブロック401のユーザーのうち一部、たとえば数N2のみが、ターゲット母集団プロバイダー・システム102において重複するユーザーIDをもつ。これらN2の重複するユーザーがデータ・ブロック402のユーザーをなす。データ分配器システム104は、N2人のユーザーのデータ・ブロック402を、ターゲット‐プロバイダー・ユーザーIDを使って、ターゲット母集団プロバイダー・システム102に送る。
ターゲット母集団プロバイダー・システム102は、ターゲット母集団プロバイダー・システム102のすべてのユーザーについての行動データのデータベースを含んでいる。そのようなユーザーは本稿では「ターゲット母集団」と呼ばれる。データ・ブロック402のN2人のユーザーの一部は、ターゲット母集団プロバイダーにおいてあまり多くの行動データが関連付けられていないことがある(あるいは他の仕方で有効でないことがある)。プロセス422において、ターゲット母集団プロバイダー・システム102は、データ・ブロック402のユーザーであって、何らかの所定の閾値より少ない行動データ、たとえば何らかのあらかじめ定義されたもしくは設定可能な時間期間にわたってログ記録された、より少ない行動データ、あるいは母集団における他のユーザーよりも相対的に少ない行動データをもつものをフィルタ除去して、データ・ブロック403を形成する。データ・ブロック403は、サンプル・プロバイダー・システム106からのデータ・ブロック401のN1人のパネリストと重複するばかりでなく、プロセス422の行動データ・フィルタを通過する、ユーザー・データベース124からのN3個のレコードを含む。ある実施形態では、前記閾値は10行動データ・ポイントである。別の実施形態では、最も多い行動データをもつものから100,000人のユーザー以外の全部がフィルタ除去されてもよい。これらのレコードは、ユーザーを、ターゲット‐プロバイダー・ユーザーIDシステムによって識別し、あるバージョンでは、ユーザーIDデータ・ストリングによって識別される。そのようなユーザー・データ・ストリングは、英数字記号を使う実施形態では、「AQstovpcyv84xJ2SZRi7o4lg」のような文字列として現われてもよい。むろん、代替的な実施形態では、多くのユーザーID方式が使用されることができる。
いくつかの代替的な実施形態は、行動データが少ないIDをフィルタ除去する段階を省略することを注意しておく。
ターゲット母集団プロバイダー・システム102は、N3人のユーザーのデータ・ブロック403をデータ分配器システム104に送る。データ分配器システム104はプロセス444において、これらのIDを、サンプル・プロバイダー・システム106のIDシステムにおける対応するIDにマッチングし、こうしてこれらN3個のレコードの、ユーザーがサンプル‐プロバイダー・ユーザーIDによって識別されるデータ・ブロック404を形成する。
データ分配器システム104は、データ404をサンプル・プロバイダー・システム106に送る。データ分配器を仲介者としてもつことにより、ターゲット母集団プロバイダー・システム102は、サンプル・プロバイダー・システム106がデータ・ブロック403のユーザーのターゲット‐プロバイダー・ユーザーIDを知ることができるようにすることなく、サンプル・プロバイダー・システム106にデータ・ブロック403においてリストされているN3人のユーザーについての情報を提供できる。
いくつかの実施形態では、サンプル・プロバイダー・システム106が、パネリストのユーザーIDについての人口統計および他の情報をもつことを想起されたい。いくつかの実施形態では、サンプル・プロバイダー・システム106は、プロセス464において、少なくとも一つの人口統計基準に従ってデータ・ブロック104のN3人のユーザーの人口統計的選択を実行して、N4人の人口統計的に選択されたユーザーのデータ・ブロック405を生成する。これらN4人のユーザーはデータ・ブロック404のN3人のユーザーの部分集合である。そのような人口統計的選択の一例は、人口統計的にバランスのとれたユーザー、たとえば地理的にバランスのとれたユーザーを生成することである。そのような人口統計的選択のもう一つの例は、一つまたは複数のあらかじめ定義された関心対象の特徴をもつとともに、他の点では人口統計的にバランスがとれているユーザー、たとえば他の点では人口統計的にバランスがとれている弁護士を生成することである。これは、心理測定データ・アナリティクス・エンジンが、少なくとも一つの人口統計的基準を満たすパネリストを要求することができるようにする。
サンプル・プロバイダー・システム106は、データ・ブロック405を心理測定データ・アナリティクス・エンジン108(本稿ではPDAE 108と称される)に送る。PDAE 108はデータ・ブロック405として、(少なくとも一つの基準に基づく選択464により)人口統計的に選択された、(サンプル・プロバイダーによって)好適に匿名化された、(フィルタリング422により)多くの行動データをもつことがわかっている、N4人のユーザーの集合へのアクセスを受け取る。ユーザーIDがサンプル・プロバイダー・システム106によって提供される場合、該IDは匿名化されたサンプル‐プロバイダー・ユーザーIDである。
プロセス482において、PDAE 108は、N4人のパネリストへのアクセスをもつことによって、それらのパネリストから、測定された心理測定情報を取得する。これは、いかなるPIIも使うことなく、たとえばどのパネリストの電子メール・アドレスや名前もなしに、実行される。ある実施形態では、これは、サンプル・プロバイダー・システム106が受領されたデータ・ブロック405のN4人のパネリストのそれぞれを、たとえばPDAE 108などによって管理される心理測定モデル化アプリケーションを介して前記次元を測定する測定手段にリダイレクトすることによって実行される。そこで、ユーザーの心理測定情報が測定される。ある実施形態では、リダイレクトは、サンプル・プロバイダー・システム106によってなされ、該サンプル・プロバイダー・システム106はN4人のパネリストのそれぞれに、パネリストをプラットフォーム106から離れるようリダイレクトし、PDAE 108におけるコードによって動作させられる別個の心理測定モデル化プラットフォーム(前記測定手段)に連れて行くURL(「リダイレクトURL」と呼ばれる)をクリックするよう招待する。ある実施形態では、ユーザーのID(サンプル・プロバイダー・システム106によって匿名化されている)は、そのユーザーがその調査に参加したことを追跡するために、リダイレクトURL内で動的変数として送られる。ただし、PDAE 108がこれらのユーザーについてのPIIをもつことはない。一つのそのようなバージョンでは、少なくとも一つの追跡機構、たとえばウェブ・ピクセルが、PDAE 108がユーザーの(匿名化された)ユーザーIDを取得できるようにするために使われる。
本発明の実施形態の一つの側面は、プライバシーを維持することである。ある実装では、サンプル・プロバイダーIDのN4集合における匿名化されたユーザーIDをPDAE 108のモデル化プラットフォームに通過させるファイアウォールが、PDAE 108上にセットアップされる。このように、受領されたデータ・ブロック405のN4人のパネリストを測定手段、たとえば心理測定モデル化アプリケーションにリダイレクトする段階は、PDAE 108が、どのユーザーの個人を特定できる情報(PII)も何ら知ることなく、実行される。
いくつかの実施形態では、パネリストは人口統計的選択、たとえばサンプル・プロバイダー・システム106における人口統計上のバランスをとるプロセスを受けた人たちであることを想起されたい。プロセス482は、各パネリストの前記次元を収集する。純粋な心理測定データに加えて、パネリストについての人口統計データもプロセス482の間に利用可能にされるまたは収集される(本稿での用語の用法ではユーザーの心理測定次元は少なくとも一つの人口統計的特徴を含むことがあることを想起されたい)。ある実施形態では、サンプル・プロバイダー106によって実行される、前記任意の人口統計的にバランスをとることに加えてまたはその代わりに、バランスをとること〔バランス化〕は、プロセス482において、たとえばモデル化される母集団を代表するバランスのとれたサンプルを達成するために、人口統計を使って実行される。たとえ464において一つまたは複数の特定の人口統計特徴をもつようパネリストが選択されるとしても、プロセス482は、パネリストの他の特徴のバランスをとることを含んでいてもよい。いくつかの実装では、人口統計に加えてまたはその代わりに、他のあらかじめ定義された事前スクリーニング質問が、心理測定パラメータに従って前記サンプルのバランスをとるために使われてもよい。例として、これは、同じ政治的傾向または人格特徴をもつユーザーが多すぎないことを保証する。もう一つの例として、バランスをとることは、心理測定モデル化アプリケーションを完了しないまたは調査内の有効性検査に不合格となるユーザー、たとえばメジアン時間の三分の一もしくは有効なプロファイルをなすものの他の指標未満でタスクを完了する「速攻者」を破棄することを含む。
PDAE 108で(またはシステム100内の他のところで)バランス化を実行する一つの方法は、ある人口統計量(これは地理的、組織統計的および/または消費者性質または純粋に心理測定の性質のものであってもよい)の少なくとも一つの事前スクリーニング用の質問を呈示して、特定のユーザーを機械学習予測のためのPDAE 108において使われることに含めるか除外するかを決定することを含む。ユーザーを破棄する、少なくとも一つの他のデータ駆動の方法が含められたり、あるいは代わりに使われたりしてもよい。これはたとえば項目応答理論(Item Response Theory)を使うことによる。たとえば非特許文献1参照。
An, Xinming, and Yiu-Fai Yung、"Item response theory: what it is and how you can use the IRT procedure to o apply it"、SAS Institute Inc. SAS364-2014 (2014)。
このように、PDAE 108においてバランスをとることは、N5人のユーザーの集合を生成する。これは典型的には前記N4人のユーザーの部分集合である。少なくとも一つの人口統計特徴を含んでいてもよい心理測定次元が、これらのユーザーについて得られる。それにより、PDAE 108は該N5人のユーザーについて心理測定プロファイルをもつ。これらのユーザーは十分な行動データが利用可能であるとわかっており、バランスのとれた集合をなす。これらN5人のユーザーはデータ・ブロック406を形成する。
本発明のすべての実施形態がここで述べたバランスをとる動作を含むとは限らないことを注意しておく。このように、いくつかの実施形態では、N5=N4である。
PDAE 108は、心理測定プロファイルが利用可能であり、行動データをもつとわかっているデータ・ブロック406のN5人のユーザーの(匿名化された)サンプル‐プロバイダー・ユーザーIDを、データ分配器システム104に送る。
データ分配器システム104は、データ・ブロック406を受領し、プロセス446において、データベース144を使って、サンプル‐プロバイダー・ユーザーIDをターゲット‐プロバイダー・ユーザーIDに変換(翻訳)する。これは、ターゲット母集団プロバイダー・システム102のIDシステムにおけるN5人のユーザーのデータ・ブロック407を形成し、このデータ・ブロック407がターゲット母集団プロバイダー・システム102に送られる。
本発明のある側面は、心理測定プロファイルおよびモデルがPDAE 108においてのみ維持されるということである。これは、PDAE 108以外のエンティティーがユーザーについてのPIIをもちうるので、プライバシーを維持する。
ターゲット母集団プロバイダー・システム102はプロセス424において、心理測定プロファイルがすでに得られており、PDAE 108において利用可能な、これらN5人のパネリストについての行動データを取得するまたは取り出す。そのような行動データ、たとえば履歴行動記録は、ターゲット母集団プロバイダー・システム102のユーザー・データベース124において記憶されているまたは該ユーザー・データベース124にとって利用可能であることを想起されたい。ターゲット‐プロバイダー・ユーザーIDの形のN5人のユーザーについてのレコードおよび対応する履歴行動データは、ターゲット母集団プロバイダー・ユーザーおよびその行動データのデータ・ブロック408をなす。別の実施形態では、ターゲット母集団プロバイダー・システム102は、さらに、または代替的に、これらN5人のユーザーによって生成される将来の行動データを収集し始めてもよい。それはのちにPDAE 108に渡し戻されてもよい。
ターゲット母集団プロバイダー・システム102は、N5個のターゲット‐プロバイダー・ユーザーIDおよびその対応する履歴行動記録のブロック408をデータ分配器104に送る。データ分配器104はプロセス448において、ターゲット母集団プロバイダー・ドメインのIDをその対応するサンプル‐プロバイダー・ドメインのIDに変換(翻訳)し戻して、N5個のサンプル・プロバイダー・ドメインのIDおよびその対応する履歴行動データのデータ・ブロック409を形成し、N5個の(匿名化された)サンプル・プロバイダー・ドメインのID(または同じユーザーの行動データをもつ受け容れられた心理測定プロファイルを同定するための他の機構)およびその対応する履歴行動記録のデータ・ブロック409をPDAE 108に送る。
PDAE 108は、N5個のユーザーIDおよびその履歴行動記録のデータ・ブロック409を受領する。PDAEは、履歴行動記録におけるデータの解析を実行して、次元削減を実行して行動データを要約する、すなわち要約行動データを形成する。プロセス484においては、PDAE 108は、N5人の個別のユーザーのそれぞれについての行動データのこれらの履歴ログを、各ユーザーの直接測定された心理測定プロファイルと結びつける。N5人のユーザーのそれぞれについての(要約)行動データと対応する心理測定プロファイルとのこれらの対は、心理測定プロファイルを予測する、すなわちユーザーの心理測定モデルをそのユーザーの(要約)行動データから決定する予測方法を決定する(「統計的に学習する」)機械学習プロセスのためのトレーニング・データ・セットをなす。予測方法の決定はたとえば、各次元についての一つまたは複数の予測方法を試し、各次元について最良の予測方法を選択することによる。
ひとたび予測方法が決定されたら、ある実施形態では、PDAE 108は、ターゲット母集団およびその行動データを含むターゲット母集団プロバイダー・システム102に、PDAE 108が大規模な予測を実行できるという指標411を送る。
PDAE 108が予測、すなわち心理測定モデルの決定を実行できると知るのに応答して、ターゲット母集団プロバイダー・システム102は、プロセス426において、システム102が行動データをもつN6人のユーザーの、少なくとも一つのデータ・ブロック412を用意することができる。N6は典型的には、トレーニング・セットとして使われたユーザーの数N5よりもずっと大きい。たとえば、N5は数千のユーザーであってもよく、一方、N6は数百万、数億、あるいはさらには数十億のユーザーであってもよい。さらに、N6人のユーザーのいくつかのそのようなデータ・ブロックが、種々の時点において、あるいは規則的に継続的に(たとえばすべてのユーザーの行動データの日ごとまたは1時間ごとの記録)用意され、データ・ブロックのデータ・フィードを通じてPDAE 108に送られてもよいことを注意しておく。ますます多くの行動データが所与のユーザーIDに関連付けられるにつれて、前記心理測定モデル生成方法は、そのユーザーの新たな心理測定モデルを生成するために使われてもよく、それにより心理測定モデルの精度は時間を追って、更新のたびに向上しうる。
PDAE 108は、N6人のユーザーのデータ・ブロック412を受領し、解析プロセスを実行してN6人のユーザーの要約行動データを形成し、機械学習で決定された、心理測定モデル決定方法を使って、ターゲット母集団プロバイダー・システム102からのN6人のユーザーについての心理測定モデルを決定(および記憶)する。このようにして、PDAE 108は、行動データのみが利用可能であるユーザーの、心理測定モデルの大きなデータベースを構築できる。
データ・ブロック412におけるユーザーの全員またはほぼ全員が、心理測定プロファイルが収集される、データ・ブロック405において表わされているシード・ユーザーであったことはないだろうと注意しておく。たとえデータ・ブロック412におけるユーザーの一部が心理測定データの直接収集に参加したとしても、本発明のいくつかの実施形態では、心理測定モデル決定方法のみが、その後の段階のために使われる。そのような実施形態では、直接測定された心理測定データが、段階484の後に使われる必要はない。よって、直接測定されたデータおよびIDは消去されてもよい。
また、データ・ブロック412におけるN6人のユーザーのうち、データ・ブロック405のN5人のユーザーの一部でもあったことがありうるユーザーについてでさえ、PDAE 108の心理測定モデル決定方法によって心理測定モデルが生成されることも注意しておく。これは、PDAE 108は、データ・ブロック412におけるターゲット‐プロバイダー・ユーザーIDを、データ・ブロック405におけるどのユーザーとも同定するまたはマッチングすることができないからである。これは、データ・ブロック405のユーザーはPDAE 108にサンプル・プロバイダー・システム106のユーザーIDとともにPDAE 108に渡される一方、データ・ブロック412のユーザーは、ターゲット母集団プロバイダー・システム102のユーザーIDのみと一緒にPDAE 108に渡されるからである。
図4B〜4Eは、前記N6人のユーザーの心理測定モデルを生成する方法の代替的な実施形態のデータ・フローおよびプロセスの図を示している。このいくつかは、図4Aに記載した方法の利点すべてをもたないことがある。図4Aと同様に、システム102、104、106、109は図では「サーバー」と呼ばれていることを注意しておく。
図4Bは、サンプル・プロバイダー・システムがいかなる人口統計的選択、たとえばユーザーの人口統計的なバランスをとることも実行しない第一の代替的な実施形態のデータ・フロー410を示している。この実施形態は、プライバシーがそれほどの懸念ではない状況において適用可能でありえ、さらに、シード・ユーザーを単離することにおける他のいくつかの実施形態の効率を欠く。この実施形態では、データ分配器システムが前記マッチングを実行して、ターゲット‐プロバイダー・ユーザーIDをもち、対応するサンプル・プロバイダー・ユーザーIDをももつ前記N2人のユーザーを決定する。サンプル・プロバイダー・システム106は、N1人のユーザーへのアクセスを提供した後にはもはや関わってこないので、データ分配器システム104も、マッチング・プロセス442後にはもはや関わらない。さらに、人口統計的なバランス化が実行されないので、段階482において、心理測定上のバランス化が、N5人のシード・ユーザーを生成する。
図4Cは、サンプル・プロバイダー・システムが人口統計的選択、たとえば前記N1人のユーザーへのアクセスを提供することの一部として人口統計的なバランスをとることを実行するもう一つの実施形態のデータ・フロー430を示している。この実施形態も、プライバシーおよび/または効率がそれほどの懸念ではない状況において適用可能でありうる。こうして、段階422では、前記N2人のユーザーから、十分な行動データをもたないユーザーをフィルタ除去する結果、ターゲット母集団プロバイダー・システム102において十分な行動データを有し、すでに人口統計的に選択された、たとえば段階401において人口統計的にバランスがとられたN4人のユーザーを与える。段階482における心理測定上のバランスをとることが前記N5人のシード・ユーザーを生じる。サンプル・プロバイダー・システム106は前記N1人のユーザーを提供した後はもはや関わらないので、データ分配器システム104もマッチング・プロセス442後にはもはや関わらない。
図4Dは、前記測定手段を使ってユーザーの測定された(実際の)心理測定プロファイルを取得することが、図4A〜4Cのデータ・フローのようにターゲット母集団プロバイダー・システム102において十分な行動データをもつことを保証するようまずフィルタリングされたユーザーではなく、サンプル・プロバイダー・システム106によってアクセスが提供される前記N1人のユーザーとマッチングされたすべてのN2人のユーザーについて実行される、さらにもう一つの実施形態のデータ・フロー250を示している。プロセス482において、ターゲット母集団プロバイダー・システム102において、心理測定プロファイルがこれらN2人のユーザーについて測定させられ、次いで、バランスのとれた心理測定プロファイルを保証するよう心理測定的にバランスがとられ、こうしてバランスのとれた心理測定プロファイルをもつN4人のユーザーを生成する。段階424は次いで、前記N4人のうち十分な行動データをもたない者をフィルタ除去して、前記N5人のシード・ユーザーを生成することを含む。
図4Eは、サンプル・プロバイダー・システム106がターゲット‐プロバイダー・ユーザーIDをもちうるN1人のユーザーを提供する状況において適用可能なさらにもう一つの実施形態のデータ・フロー470を示している。例として、フェイスブック(登録商標)(および/またはたとえばReddit(登録商標))におけるアクティビティーを見る状況について、サンプル・プロバイダー106がアクセスを提供できるN1人のユーザーの多くがフェイスブック(登録商標)アカウントを有していてもよい(および/またはReddit上であってもよい)。そのような実施形態では、ターゲット‐プロバイダー・ユーザーIDの、サンプル‐プロバイダー・ユーザーIDへの、あるいはからの、翻訳を実行する別個のエンティティーは使われず、図4A〜4Dのデータ・フローにおいて使われたデータ分配器システム104は必要とされない。サンプル・プロバイダー・システム106は462において、(可能性としては匿名化されたサンプル‐プロバイダー・ユーザーIDを用いて)N1人のユーザーへのアクセスを、PDAE 108に直接提供する。これはたとえば、心理測定上の測定手段、たとえばPDAEによって管理される特定のウェブ・ページに案内することによる。そのようなウェブ・ページは、ターゲット母集団プロバイダーのための追跡機構を含んでいる。よって、たとえばPDAE 108は482において、ターゲット母集団プロバイダーのための追跡機構を含むそのようなウェブ・ページにユーザーを案内する。よって、追跡機構、たとえばウェブ・ピクセルがファイヤするまたは装置IDが捕捉されると、PDAE 108はユーザーがターゲット‐プロバイダー・ユーザーIDをもつことを知る。たとえば、フェイスブックまたはReddit(登録商標)追跡機構が前記ウェブ・ページに含められることができ、ユーザーがフェイスブックまたはRedditにいるかどうかを(必ずしもフェイスブックまたはRedditでの身元を明かすことなく)識別し、よって匿名性が維持される。そのようなユーザー、たとえば追跡機構を介してターゲット‐プロバイダー・ユーザーIDをもつと知られているN2人のユーザーについて、PDAE 108は、ユーザーの測定された心理測定プロファイルを取得する。バランス化が実行されて、バランスのとれた心理測定プロファイルをもつN4人のユーザーを生成する。これらのユーザーの(匿名化された)識別子(追跡機構を介して得られる)は、ターゲット母集団プロバイダーに送られ、そこで、424において、N4人のユーザーの行動データが取り出され、十分な行動データをもたないユーザーを除外して前記N5人のシード・ユーザーを生成するようフィルタリングが実行されてもされなくてもよい。それらのシード・ユーザーの行動データがPDAE 108に送られる。図4Eのデータ・フロー470は、人口統計的選択を前提としていないことを注意しておく。たとえば、人口統計的にバランスをとることは、サンプル・プロバイダー・システム106において実行される。しかしながら、修正バージョンは、段階462の一部としていくらか人口統計的なバランスをとることを含んでいてもよい。
本発明のさらに他の代替的な実施形態が可能であり、結果としてこれらのデータ・フローの修正バージョンを与えることを注意しておく。一つのそのような例として、図4Eのデータ・フローの実施形態は、サンプル・プロバイダーによって実行される人口統計上のバランス化を含むよう修正されてもよい。PDAE 108は、N4人のユーザーの一部についての、匿名化されたサンプル‐プロバイダー・ユーザーIDと、匿名化されたターゲット‐プロバイダー・ユーザーID(追跡機構より)の両方をもちうるので、これらのユーザーの匿名化されたサンプル‐プロバイダー・ユーザーIDはサンプル・プロバイダー・システム106に送られることができ、人口統計的バランス化が実行されることができ、それにより、N5人のシード・ユーザーは、サンプル・プロバイダー・システム106によって人口統計的にバランスがとれ、また十分な行動データをもたないユーザーを除去するようフィルタリングもされたデータをもつことになる。
いくつかの実施形態は、収集された行動データを使ってN5人についての心理測定プロファイルを予測することを実行し、生成された心理測定モデルを実際の収集された心理測定プロファイルと比較することによる、追加的なデータ検査をも含む。これは、交差確認の一つの形である。
他の実施形態は、実際の行動データに存在することがありうる任意のPIIを除去するための、行動データの追加的な処理、あるいは該データが処理された後にPIIを含みうる入力行動データの即座の削除を含む。
〈オーディエンスを生成するための心理測定モデルの使用のためのデータ・フロー〉
いったんN6人のユーザーの全体的な母集団の心理測定モデルが利用可能になったら、本発明のいくつかの実施形態は、特定の刺激、たとえば特定の広告または特定のビデオに関する関与の確からしさをユーザーの心理測定モデルの関数として予測するモデル(「関与モデル」)を生成するために該心理測定モデルを使うことを含む。いくつかの実施形態はさらに、前記関与モデルおよびある母集団の諸心理測定モデルを使って、前記特定の刺激のターゲットとすべきオーディエンスを生成することを含む。
図5は、本発明のいくつかの実施形態に基づく、図1のシステム102、108、109の間のデータ・フロー500ならびに各型のデータに関して各システムにおけるプロセスとして実行されるデータ処理の表現を示している。これは、記憶されている心理測定モデル、たとえばPDAE 108内のものを使って、少なくとも一つの特定の広告のためのオーディエンスを生成するためである。図4A〜4Eと同様に、ターゲット母集団プロバイダー・システム102において実行されるまたはそれにより管理されるプロセスは真ん中の桁が2の参照数字をもって示され、心理測定データ・アナリティクス・エンジン108(「PDAE 108」)において実行されるまたはそれによって管理されるプロセスは真ん中の桁が8の参照数字をもって示され、DSP 109において実行されるまたはそれによって管理されるプロセスは真ん中の桁が9の参照数字をもって示される。
いくつかのそのような実施形態では、プロセス592において、特定の広告のN7と記される数のインプレッションが、ターゲット母集団プロバイダー・システム102について、DSP 109において購入される。この広告についてのデータはデータ・ブロック501として示され、その中の情報がターゲット母集団プロバイダー・システム102に送られる。このプロセス592は二つ以上の広告についておよび/または少なくとも一つの広告の少なくとも一つの特定の要素について実行されることができることを注意しておく。プロセス592は、閲覧されるビデオ要素および/または他の何らかのメッセージを購入してもよい。本発明を限定するためではなく説明の目的のため、特に断わりのない限り、単一の特定の広告の場合が記述される。
ターゲット母集団プロバイダー・システム102は、前記広告ならびにターゲット母集団プロバイダー・システム102のユーザーへの広告インプレッションをサービスするビッド(単数または複数)を広告主(または広告主に関連しているエージェンシーまたはさらには当該DSP)からDSPを介して受領する。本方法はプロセス522においてターゲット母集団プロバイダー・システム102が、ターゲット母集団プロバイダー・システム102の多数のユーザーに、たとえば数十万もしくは数百万のそのようなユーザーに前記広告をサービスする(自分で、あるいはそのように手配する)ことを含む。ある実施形態では、ターゲット母集団プロバイダー・システム102は前記広告をサービスし、別の実装では、前記広告はターゲット母集団プロバイダー・システム102以外のターゲット母集団プロバイダーの母集団にサービスされる。いずれの場合にも、ウェブ・ピクセルまたは何らかの追跡コードのような少なくとも一つの追跡機構が広告のメイン・ウェブ・ページ(いわゆる着地ウェブページ)に組み込まれ、着地ウェブ・ページの訪問者を、かかる訪問者がたとえば該追跡機構(単数または複数)がそのためにデザインされている広告中の少なくとも一つの指定されたクリエイティブ要素をクリックすることにより対話することに応答して、追跡するよう構成される。このようにして、少なくとも一つの追跡機構により、ターゲット母集団プロバイダー・システム102が、サービスされる広告の少なくとも一つの事前指定されたクリエイティブ要素に対して関与するターゲット‐プロバイダー・ユーザーIDを捕捉し、記録することができる。前記広告に関係するユーザーについて収集された前記データを、ターゲット母集団プロバイダー・システム102において収集される(またはそれに提供される)「関与データ(engagement data)」と呼ぶ。関与データを捕捉するための機構およびシステムを「関与測定手段(engagement-measuring instrument)」)と呼ぶ。いくつかの実施形態では、関与手段は、広告に対して関与するユーザーの関与データに加えて、広告をサービスされ、該広告に対して関与しないことを選んだたユーザーのユーザーIDを収集する。これも、ターゲット母集団プロバイダー・システム102によって収集される(またはターゲット母集団プロバイダー・システム102に送られる)。そのようなデータは本稿では「非関与データ(unengagement data)」と呼ばれる。いくつかの実施形態は、関与するユーザーについてのデータを、関与しないことを選ぶユーザーについてのデータと分けることがあるが、本稿で使われるところの関与データという用語は、関与測定手段によって収集されるものであれ、あるいは関与する者についてのデータから推定されるのであれ、非関与データを含む。説明の簡単のため、関与データは二値のデータに限定される。たとえば、ユーザーは刺激に対して関与したかしなかったかである。しかしながら、いくつかの実施形態は、サービスされる広告における異なる型のウェブ・ピクセルなど、いくつかの型の追跡機構を使うことを含む。それぞれの型の追跡機構は、ユーザーによる特定の型の事前指定されたアクションと関連付けられてもよく、関連付けられた事前指定されたアクションを行なうユーザーのユーザーIDを記録するよう構成される。種々の型の追跡機構に関連付けられたそのようなアクションの例は、フォームに記入すること、製品を購入すること、アプリケーションまたはファイルをダウンロードすること、ビデオを部分的にまたは最後まで閲覧することおよびさらには広告インプレッションを受けること(ユーザーが該インプレッションと対話するかどうかにはよらない)を含む(ただしそれに限られない)。したがって、本稿の記述は二値の関与データに集中するが、他の型の関与データは二値以外であり、たとえば、ユーザーがパブリッシャーのウェブ・ページ上のまたは広告の着地ウェブ・ページ上の要素に対して関与する時間の長さを意味する視認性メトリックを含みうる。
ある実施形態では、ターゲット母集団プロバイダー・システム102の関与手段は、これらの関与データ(非関与データを含む)を、N8人のユーザーのデータ・ブロック502として、PDAE 108に送る。ある実施形態では、ターゲット母集団プロバイダー・システム102は、該送信のための準備において、まず、関与データに十分な数(「臨界量(critical mass)」)N8のユーザーがあるかどうかを見きわめる。もう一つの実施形態では、関与手段はすべての関与データをPDAE 108に送り、十分な量の関与データがあるかどうかを見きわめるならそれはPDAE 108によって実行される。そのような他の実施形態によれば、PDAE 108は関与データを受け取って、PDAE 108があらかじめ定義された最小数のユーザー(臨界量N8)について前記広告についての関与データをもつかどうかを見きわめる。あるバージョンでは、あらかじめ定義されたユーザーの最小数は200であり、典型的にはこの数は設定可能である。
関与データおよび非関与データは、予測される心理測定プロファイルが既知である、すなわちPDAE 108において予測されているユーザーのものであることを想起されたい。本方法は582に進み、PDAE 108が関与データ内のユーザーの心理測定モデルを、非関与データ内のユーザーの心理測定モデルと「比較」する。
ある実施形態では、心理測定モデルの該比較のために、特定の広告についての真の収集された非関与データが使われるものの、代替的な実施形態では、心理測定モデルが知られているユーザーの一般母集団からユーザーのランダムな集合を選択し、そのようなランダムな集合が前記比較のための非関与データをなすことによって、シミュレートされた非関与データが使われる。
582では、関与および非関与データ両方の臨界量(N8)について、たとえば関与が1の応答を意味し、非関与が0の応答を意味する二値のデータの場合について、PDAE 108は、関与したユーザーの(先に生成された)心理測定モデルおよび非関与ユーザーの心理測定モデルを使って、少なくとも一つの機械学習プロセスを走らせ、ユーザーの(実際のまたは予測される)心理測定プロファイルに基づく関与の確からしさを予測するモデルを生成する。ある実施形態では、前記少なくとも一つの機械学習方法は、ロジスティック回帰を含む。あるそのような実施形態では、前記少なくとも一つの機械学習方法はロジスティック回帰および少なくとも一つの他の機械学習方法を含み、最良の関与モデルを選択するために交差確認が使われる。
もう一つの実施形態では、前記少なくとも一つの機械学習方法は、心理測定モデルを特徴として使って、教師なしクラスタリングを想定されるクラスター数、たとえば三つのクラスターまたは四つのクラスターについて実行し、それにより形成されたクラスターを調べて、最も大きな人口または最大数の関与ユーザーをもつ一つまたは複数のクラスターを選択することを含む。これらのクラスターは、学習された分類方法をなし、それが関与、すなわち関与モデルに従ってユーザーを分類するために使用されることができる。
関与は二値でない帰結、たとえばユーザーがビデオ広告を見る秒単位での時間の長さであることもできることを注意しておく。そのような場合、ある実施形態では、たとえば少なくとも一つの二値分類方法に変換される、少なくとも一つの多クラス分類方法が、関与モデルを決定するための前記少なくとも一つの機械学習方法のために使われる。
本稿でのちにより詳細に述べる、関与/非関与二値データについてロジスティック回帰を使う実施形態を考えると、ロジスティック回帰の結果は、心理測定プロファイルの関数としての関与のオッズ比の自然対数の形で表現されてもよい心理測定プロファイルの関与モデルであり、関数は、心理測定プロファイルの次元の(重み付けされた)線形結合である。線形結合の重み付け係数を、β0およびプロファイルの第一、第二、……第Pの次元についてβ1、β2、……、βPで表わすと、
ln(オッズ比)=β0+β1pu1+β2pu2+……βPpuP
となる。ここで、ln()は対数の底eであり、pu1、pu1、……、puPはプロファイルのP個の次元(dimension)である。よって、心理測定プロファイルの任意の次元、たとえばi番目の次元について、exp(βi)の値は、他のすべての次元を一定に保ったときの、i番目の次元についての関与についてのオッズ比である。これは、特定の広告について、任意の所与の心理測定次元(純粋な心理測定次元または人口統計次元)の相対的な確からしさを提供する。これは、潜在的な広告主が、特定の刺激の予想される影響を、心理測定次元(純粋な心理測定次元または人口統計次元)の関数として評価するための有用な方法である。
このように、予測関与モデルは、オッズ比として表わされることができ、所与の心理測定次元(これは可能性としては人口統計的特徴である)においてより上位にランクされているユーザーが、特定の広告(広告刺激)に対して関与する可能性が、示されている倍数だけ、より高い(またはより低い)。たとえば、宗教的なユーザーは、所与の広告に対して関与する可能性が三倍少ないことがあり、ヒスパニックであると(心理測定モデルを介して)心理測定的に予測されるユーザーは、その広告に対して関与する確からしさが2.2倍でありうる。
図5のプロセス582を続けると、ひとたびPDAE 108がある広告についての関与モデルを決定したら、PDAE 108は、プロセス582の一部として、心理測定モデルが記憶されている、数億または数十億に上ることがありうる(N6人の)ユーザーの母集団全体をランク付けし、こうして、すべてのユーザー(およびもしあれば関連付けられている匿名化されたユーザーID)を、その広告に対して最も関与しそうな者から最も関与しなさそうな者へとランク付けすることができる。
ある実施形態は、582において、ランク付けされた母集団を、たとえば関与の確からしさの百分位範囲に基づいて、セグメントに分割して、その広告についてのN9個のオーディエンスを生成することをさらに含む。各オーディエンスは、関与の確からしさの異なる百分位範囲にある。たとえば、サービスされる広告が「広告A」と呼ばれるとする。一つの区分は、「広告Aに対して関与する確からしさが上位1%のユーザー」と呼ばれてもよく、別の区分は「広告Aに対して関与する確からしさが上位2ないし5%のユーザー」と呼ばれてもよい、などとなる。これらのオーディエンスのそれぞれは、数百万のユーザーを含んでいてもよい。よって、本方法は、特定の広告についてのオーディエンスを生成すると呼ばれる。そのようなオーディエンスは、種々の個別的な広告について生成されうる。
各区分におけるユーザーの(匿名化された)ユーザーIDが、データ・ブロック503としてターゲット母集団プロバイダー・システム102に送られてもよい。ここで、本方法は524において、オーディエンスのユーザーのターゲット母集団ユーザーIDをN10個のオーディエンスに、たとえばDSPシステム109のためのN9個のオーディエンス(またはより少数のオーディエンス)に変換してもよい。これらN10個のオーディエンスは、データ・ブロック504としてDSPシステム109に送られる。
図5のデータ・フローを続けると、ある実施形態では、PDAE 108は、N9個の生成されたオーディエンスをターゲット母集団プロバイダー・システム102にデータ・ブロック503として送ってもよい。本発明のある実施形態では、ターゲット母集団プロバイダー・システム102はプロセス524において、N9個のオーディエンスのそれぞれにおけるIDを、デマンドサイドプラットフォーム(DSP)、たとえばDSP 109のような別のターゲット母集団プロバイダーの追跡システムに翻訳してもよい。この結果、N10個のオーディエンスを与えることがありうる。ここで、N10≦N9である(ユーザーの一部はDSPにマッチング成功しないことがあるため)。これらのオーディエンスのリストがデータ・ブロック504としてDSP 109に送られてもよく、そこで、たとえばいわゆるプライベート・マーケットプレイス(PMP: Private Marketplace)内でDSPへのアクセスをもちうる、広告主またはエージェンシーのメディア・トレーダーによってアクセスされることができる。そのようなカスタム式に心理測定的に生成されたオーディエンス・セグメントは、望むらくは同じ広告刺激または同様のクリエイティブ要素をもつ広告に対する新規ユーザーの関与率を有意に増大させるようターゲット決めするデータとして使用されることができる。
本稿では広告という用語が使われているが、本発明の実施形態は、広告以外の少なくとも一つの刺激、たとえば広告以外の目的(単数または複数)のためのコンテンツの呈示に対するユーザー関与を予測するために使用可能であることは理解されるものとする。
時間の経過とともに、PDAE 108は、PDAE 108がその機械学習モジュール189にフィードする広告キャンペーンからの関与データ(注目メトリック、クリックスルー率、コンバージョンなど)を、特定の属性をもつ広告について心理測定オーディエンスの初期のターゲット決め(事前最適化)を改善するために、蓄積しうる。たとえば、学習モジュール189は、ある製品範疇におけるまたはある種の色、画像、オーディオまたはメッセージをもつ広告が、これらの刺激が心理測定特徴のある種の組み合わせをもつユーザーに対してサービスされる場合に、より高い関与率を達成しうると判別しうる。
こうして、図5に示されるように、プロセスは、段階522による関与データの収集を繰り返し、段階582に進んで、関与モデルおよびそれから決定される何らかのデータを改善してもよい。
本発明の実施形態のもう一つの用途は、一つまたは複数の特徴に関して事前に順序付けられた諸オーディエンスを評価することである。一例として、テレビジョン市場エリア(television market area)とも呼ばれる指定市場エリア(DMA: designated market area)は、国の領域であって、その人口が同じ(または同様の)テレビジョンおよびラジオ局広告を受信できる領域であり、新聞およびインターネット・コンテンツを含む他の型のメディアをも含んでいてもよい。ある実施形態の一つの例示的な使用は、ユーザーをそのDMAに従って範疇分けさせることである。本発明のこの実施形態は、国の各DMAを、特定のビデオ広告の関与モデルとの心理測定上の適合性に従ってランク付けすることができる。同じことは、郵便番号を含むがそれに限られない、より小さな地理的エリアについてもできる。
有利には、ユーザーのPIIがないため、不正な手段を通じたユーザーIDの問い合わせがあっても、ターゲット母集団プロバイダーのクッキーにリンクされた予測モデルを与えるのみであり、これらのクッキーまたは他のID自身も暗号化されてもよい。本発明のある実施形態の意図される使用のもとでは、各ユーザーについての心理測定モデル(または該モデルをなす心理測定次元の何らかのプライバシー上の敏感な部分集合)を有する心理測定データは、心理測定データ・アナリティクス・エンジン(PDAE 108)においてプライベートに保たれることができる。これらのデータは、特定のターゲット決め目的のためにカスタム心理測定オーディエンスを生成する目的のために使われるだけである。オーディエンス(IDのリスト)は、個々のユーザーまたはユーザーの何らかの小さなグループが全体的な関与モデルに具体的にどのように当てはまるかを全く明かすことなく、数多くの心理測定指標に基づいて生成されてもよい(たとえば、ユーザーの心理測定プロファイルが広告の全体的な関与モデルと、いくつかの次元では同様のスコアを共有するが、他の次元では共有しない)。同時に、ユーザーの大きなグループの関与モデルは、広告主に、大きなグループに係る貴重な関与洞察を提供するために、オッズ比または正もしくは負の上昇の百分率を表わす傾向(図9Aおよび9B参照)によって特徴付けされることができる。
さらに、データ処理システム100は、ユーザーIDおよび行動もしくは消費者データをもついかなるプラットフォームと一緒にも機能できる。そうしたプラットフォームには、オンライン出会い系プラットフォーム、ソーシャル・メディア・プラットフォーム、娯楽もしくは他のアプリケーション、大規模パブリッシャーもしくはパブリッシャー・ネットワーク・プラットフォーム、消費者データをもつ金融プラットフォームおよびユーザー生成された言語データをもつ政府/諜報プラットフォームが含まれるがそれに限られない。これらのそれぞれは、本稿で使われるところのプラットフォームの定義内にはいる。
〈特殊目的のハードウェア・システム〉
上記のように、図1は、ユーザーの心理測定モデルを形成するためにオンライン・ユーザーの心理測定プロファイルを予測するためのシステム100のある実施形態を示している。本稿で論じられるように、本システムは、ユーザーの第一の集合のユーザーの心理測定次元を測定するよう構成された測定手段(105)と、該測定手段に結合された心理測定データ・アナリティクス・エンジン・システム(PDAE 108)とを有する。PDAE 108は、少なくとも一つのプロセッサを有するプロセッサ集合184と、記憶サブシステム186(これは一般にはメモリおよび他の記憶を含み、よって非一時的なコンピュータ可読媒体を含む)とを有する。記憶サブシステムはコード(187、188、189)を含む、すなわち非一時的なコンピュータ可読媒体が該コードを記憶している。該コードは、プロセッサ集合182の少なくとも一つのプロセッサによって実行されたときに、オンライン・ユーザーの心理測定プロファイルを予測する本稿に記載される機械実行される方法のいずれかを実行する。いくつかの実施形態は、オンライン・ユーザーによる特定の刺激に対する関与の確からしさのモデルを、ユーザーの心理測定モデルの関数として予測する本稿に記載される方法のいずれかをも実行する。
本発明のいくつかの実施形態は、上記の方法の一つまたは複数を実行する段階のうちの一つまたは複数を実行するよう構成された特殊目的のハードウェア要素を含むハードウェア・システムを有する。図6は、機械学習を使うためのそのようなハードウェア・システム600のある実施形態を示しており、図1のように、心理測定手段105と、特殊目的のハードウェアを含む心理測定データ・アナリティクス・エンジン・システム(PDAE)602とを含む。システム600は、少なくとも一つのクライアント103(三つが示されている)を含んでいてもよく、上記のシステム102、104、106、109のうち少なくともいくつかを含んでいてもよい。
PDAE 602は、コントローラ680および該コントローラに結合された記憶サブシステム682を含む。コントローラは少なくとも一つのプログラム可能なプロセッサを含んでいてもよい。記憶サブシステム682は、メモリおよび他の記憶装置を含んでいてもよく、コントローラ・プログラム・コード622およびいくつかのバージョンでは他のプログラム・コード624を記憶している。これは、記憶サブシステム682に結合された要素のうちのいずれかによって使用可能である。記憶サブシステム182は、ある実施形態では図1のPDAE 108の要素184と同じである、クッキーで追跡されるユーザー・データベース(クッキー・ユーザーDB)184を記憶するようにも構成される。PDAE 602は、PDAEにネットワークおよび他の装置とインターフェースをもたせるよう構成されたインターフェース604を有していてもよい。
PDAE 602は、コントローラに結合され、少なくとも一つの機械学習方法を実行するよう構成された機械学習エンジン610を有する。いくつかの実施形態では、機械学習エンジンは、記憶サブシステム682に結合されてもよく、コントローラ680の制御のもとで、少なくとも一つの追加的な機械学習方法をロードする、その機械学習方法のうちのいずれかを修正する、あるいはその機械学習方法のうちのいずれかを除去するよう構成し直されてもよい。そのような再構成を実行することは、前記他のプログラム・コード624の一部をロードすることを含んでいてもよい。機械学習エンジン610は、前記少なくとも一つの機械学習方法の少なくとも一部を実行するよう構成された論理ハードウェアを含んでいてもよい。機械学習エンジンは、さらに、前記論理ハードウェアと一緒になって前記機械学習エンジンに前記少なくとも一つの機械学習方法を実行させる機械実行可能コードを記憶する記憶装置を含んでいてもよい。そのようなコードは、図6では、ML1、ML2、……として示されている。
機械学習方法のトレーニングおよび心理測定モデルの生成を実行する実施形態を機能させるために、コントローラ680の制御のもとにあるインターフェース604は、測定手段105から、ユーザーの第一の集合のユーザーの測定された心理測定次元を受け容れて、前記第一の集合のユーザーの受け容れられた心理測定プロファイルをたとえばクッキー追跡DB 184において形成するよう構成される。コントローラ680の制御のもとにあるインターフェース604はまた、ユーザーの第二の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れるよう構成される。そのような受け容れられたデータは、要約行動データを形成する。前記第二の集合の各ユーザーは、前記第一の集合にもはいっている。よって、PDAE 680は、前記第二の集合の各ユーザーについては、前記受け容れられた測定された心理測定プロファイルと、前記各ユーザーの前記要約行動データとの両方をクッキーDB 184において記憶している。機械学習方法をトレーニングし、心理測定モデルを生成する実施形態については、PDAE 602のコントローラ680は、心理測定モデル化エンジン608に結合され、これを制御するよう構成されている。心理測定モデル化エンジン608は、機械学習エンジンに結合され、前記第二の集合のユーザーの前記要約行動データおよび前記対応する受け容れられた測定された心理測定プロファイルを使って、心理測定プロファイルが未知であってもよいユーザーの心理測定プロファイルのそれぞれの次元を予測する少なくとも一つのそれぞれの機械学習方法を前記機械学習エンジンを使ってトレーニングすることを引き起こすよう構成されている。コントローラの制御のもとにあるインターフェースは、心理測定プロファイルが未知であってもよいユーザーの第三の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れるようにも構成される。これは、第三の集合のユーザーの要約行動データを形成する。コントローラ680の制御のもとにある心理測定モデル化エンジンは、予測の前記トレーニングされた機械学習方法のうちの少なくとも一つを使って、前記第三の集合のユーザーの要約行動データから、ユーザーの前記第三の集合の各ユーザーの心理測定モデルを生成し、予測された心理測定モデルをたとえばDB 184に記憶するよう構成される。PDAE 602は、ユーザーの第一、第二、第三の集合の各ユーザーの匿名性を維持するよう構成される。
PDAE 602のいくつかの実施形態は、コントローラ680に結合されており、その制御のもとにある解析エンジン606をも含んでいる。解析エンジン606は、ユーザーのオンライン行動についての前記受け容れられた自動的に機械収集されたデータに対して解析プロセスを実行して、前記要約行動データを形成するよう構成される。解析エンジン606は、記憶サブシステム682に、特にクッキー追跡ユーザーDB 184に結合される。解析エンジンは、機械学習エンジンにも結合され、教師なし学習により解析を実行する実施形態では、前記機械学習エンジンが実行するよう構成されている前記少なくとも一つの機械学習方法に含まれる少なくとも一つの教師なし学習方法を使う。
ユーザーの心理測定モデルおよび関与データを使って、特定の刺激、たとえばオンライン広告に対する関与の確からしさを予測するモデルを形成することを実行する実施形態を機能させるために、コントローラ680の制御のもとにあるインターフェース604は、特定の刺激に対して関与するユーザーであって、予測された心理測定モデルがたとえばユーザー・データベース184の114において記憶されているユーザーについての関与データを、関与測定手段(たとえばクライアント103)から受け容れるよう構成される。そのような実施形態については、PDAE 602のコントローラ680は、関与モデル化エンジン612に結合され、これを制御するよう構成される。関与モデル化エンジン612は、前記機械学習エンジン610および前記記憶サブシステム682に結合され、関与データが受け容れられるユーザーの記憶された心理測定モデル(114)を取り出す(304)よう構成される。関与モデル化エンジン612はさらに、心理測定モデルが取り出されたユーザーについての受け容れられた関与データ(115)および該取り出された心理測定モデル(114)の両方を使って、前記機械学習エンジンの機械学習方法のうちの少なくとも一つをトレーニング(306)して、その関与データが未知であってもよいユーザーについての心理測定モデルに基づいてその関与データが未知であってもよいユーザーについての関与の確からしさの指標を予測する関与モデル(116)を決定することをさせる。いくつかのバージョンでは、関与モデル化エンジン612はさらに、該関与モデルを、その心理測定モデルがたとえば114において利用可能であるユーザーの母集団に対して適用して、母集団のそれぞれのユーザーについて、その特定の刺激に関して関与の確からしさのそれぞれの指標を予測するよう構成される。いくつかのバージョンでは、関与モデル化エンジン612はさらに、前記特定の刺激のターゲットを、少なくとも一つの特定の心理測定次元をもつユーザーに絞ることおよび前記特定の刺激についての前記関与モデルを、少なくとも一つの他の特定の刺激についての少なくとも一つの関与モデルと比較することからなるアクションの集合のうちの少なくとも一つを実行するよう構成される。
解析エンジン606は、前記解析プロセスの少なくとも一部を実行するよう構成された論理ハードウェアを含んでいてもよく、さらに、プログラム可能な処理回路と、その処理回路によって使われる機械実行可能コード607を記憶している(非一時的な)記憶媒体とを含んでいてもよい。心理測定モデル化エンジン608は、該心理測定モデル化エンジンが実行するよう構成されているプロセスの少なくとも一部を実行するよう構成された論理ハードウェアを含んでいてもよく、さらに、プログラム可能な処理回路と、その処理回路によって使われる機械実行可能コード609を記憶している(非一時的な)記憶媒体とを含んでいてもよい。関与モデル化エンジン612は、該関与モデル化エンジンが実行するよう構成されているプロセスの少なくとも一部を実行するよう構成された論理ハードウェアを含んでいてもよく、さらに、プログラム可能な処理回路と、その処理回路によって使われる機械実行可能コード613を記憶している(非一時的な)記憶媒体とを含んでいてもよい。
〈ユーザーの行動データの収集および解析ならびにトピック・モデル化〉
本稿で使われるところのユーザーについての自動的に収集された行動データとは、オンライン活動(そのアプリケーション、ネットワークまたは交換上での活動)を意味する。本稿に記載される多くの例示的実施形態では行動データはユーザーによって訪問されるウェブサイトについてのデータを含むが、行動データは、アプリケーションにおけるユーザー生成されたテキストおよび/または消費者データおよび/またはユーザー選好データおよび/またはファーストパーティー・データおよび/またはウェブ・ログ・データを含んでいてもよい。本稿で上記した解析方法はユーザーが訪問したウェブサイトのテキスト解析についてであるが、行動データは、画像、オーディオ、テキスト・メッセージ、電子メール、生成された(または読まれた)ブログ、データ文書、テキスト・ファイル、データベース・ファイル、ログ・ファイル、トランザクション記録、購入注文などの一つまたは複数を含んでいてもよく、あるいは代わりにそれらから構成されていてもよい。このように、本稿に記載される解析プロセスは、オンライン行動からのテキストを解析することを含み、該解析はたとえばテキストに対して教師なし分類を適用することを含むが、他の実施形態では、ユーザーについての要約行動データを形成するための解析プロセスは、ユーザーのオンライン行動からの少なくとも一つの画像および/または少なくとも一つのオーディオ要素を解析することを含み、該解析はたとえば前記少なくとも一つの画像および/または少なくとも一つのオーディオ要素に対して教師なし分類を適用することを含む。画像および/またはオーディオ要素のそのような解析を実行することは知られており、本稿に記載される方法およびシステムを、画像およびオーディオ要素からの要約行動データを含むようどのように修正するかは、画像および/またはオーディオ要素を解析する既知の方法を使って、当業者には明らかであろう。
完全性のために述べておくと、各ユーザーが訪問したウェブサイトのテキストを解析して該ユーザーについての行動データを生成することによってユーザーを追跡する実施形態が本稿において詳細に記載されている。ユーザーが訪問したウェブサイトのテキストは、多くの単語を含み、本発明の一つの側面は、自動的に収集されたデータを解析して、該ウェブサイト・データを「特徴」の集合に変換することである。テキスト文書、たとえばウェブサイトを「特徴」に変換するための多くの方法が知られている。そのような方法は時に、文書分類と呼ばれ、クラスの集合のうちの少なくとも一つのクラスを、文書の集合、たとえばウェブサイトの集合のうちのそれぞれの文書、たとえばウェブサイトに割り当てることに関わる。こうして、クラスの集合の部分集合が、文書の集合のそれぞれの文書に割り当てられる。したがって、これは、文書の次元性を、それらの文書を記述する分類およびそのような各分類の何らかの指標の集合に還元する形を達成する。テキスト文書分類については多くの方法が知られており、そのような方法は教師付き、教師なしまたは半教師付きでありうる。教師付き方法は、人間の評価者によって以前にラベル付けされたデータに基づいてトレーニングされる分類器に関わる。教師なし分類は人間の補助なしに、時には事前に定義される分類の集合さえなしに、機械によって実行される。
テキスト、たとえばウェブ文書を表現するいくつかの方法は、ウェブ・ページまたはトップレベルのウェブ・ドメインのテキストをベクトル空間モデルとして表現し、次いで次元性を削減するための一つまたは複数の方法を適用することを含む。そのような方法は、交互最小二乗法(ALS: alternating least squares)および特異値分解(SVD: singular value decomposition)のような行列方法を含む。
本発明のいくつかの実施形態は、教師なし分類(unsupervised classification)、特にトピック・モデル化(topic modeling)を使う。これは、ユーザーが訪問したすべてのウェブサイトのすべてのテキストを解析して、該テキストの、トピックと呼ばれるものへの内在的な分類を自動的に決定するするプロセスである。こうして、数千万のオーダーでありうるすべてのユーザーによって訪問されたすべてのウェブサイトが、比較的少数のトピック、たとえば数百のオーダーのトピックによって表現できる。すると、それぞれの文書は、該比較的少数のトピックのうちのそのトピック分布によって記述できる。
ある実施形態では、Kと表わすトピック数は800である。代替的な実施形態では、Kについての他の値、すなわち他のトピック数が使われてもよい。
使用できる一つのトピック・モデル化方法は、確率的潜在意味解析(PLSA: probabilistic latent semantic analysis)と呼ばれ、潜在クラス・モデルから導出される混合分解に基づく。PLSAモデルでは、単語および文書のそれぞれの共起の確率は、条件付き独立多項分布(conditionally independent multinomial distribution)の混合としてである。いくつかのパラメータが学習される必要があり、典型的には、それらのパラメータを学習するために期待値‐最大化(expectation-maximization)アルゴリズムが使われる。
もう一つのトピック・モデル化方法であって、本発明のいくつかの実施形態において実際に使用されるものは、潜在ディリクレ割り当て(LDA: latent Dirichlet allocation)と呼ばれる。この方法は、ウェブサイトのコーパスにおいてトピックのモデル(トピック・モデル)を生成する。PLSAと同様に、LDAはトピック・モデルを生成するために使われる確率的技法であるが、トピック分布はディリクレ事前分布(Dirichlet prior distribution)をもつと想定される。
LDAトピック・モデル化方法は、一般に「単語集合(bag of word)」手法と呼ばれるものに関わる。このモデルは、テキストは、文法やさらには語順さえも無視するが多重性は保持して、その単語のバッグ(マルチ集合)として表現される。単語集合手法では、単語は一つずつ取り上げられ、その生起頻度が記録される。本発明の代替実施形態は、テキスト内の空間的情報を記憶するNグラム・モデルを使ってもよい。つまり、単に単独の単語ではなく、二つ以上の単語が同時に考慮される。たとえばバイグラム・モデルはテキストを二語の項にパースし、各単語対の項の頻度を記憶する。たとえば、項「White House」がバイグラム・モデルにおける単一のトークンとして現われる。
より詳細には、本発明のいくつかの実施形態において使われる方法の記述で、ウェブサイトがhtmlコードで表現されるとし、任意のユーザーについての行動データが、そのユーザーが訪問したことのあるウェブサイトを含むとする。
U人のユーザーがいるとする。コーパス(corpus)とは、すべてのユーザーによって訪問されたすべてのウェブサイトを意味する。m=1、……、Mu、u=1、……、Uとして、第uユーザーによって訪問された第mウェブサイトをsumと表わす。ここで、Muは第uユーザーによって訪問された相異なるウェブサイトの数を表わす。また、U人のユーザーのうちのいずれかによって訪問されたm番目のウェブサイトをsmと表わし、いずれかのユーザーによって訪問された合計M個のウェブサイトがあるとする。コーパスSは、いずれかのユーザーによって訪問されたすべてのウェブサイトの和集合である。すなわち、
Figure 2019527874
いずれかのウェブサイトを二人以上のユーザーが訪問することがありうるが、一つのウェブサイトは一度のみ「カウント」されることを注意しておく。すなわち、いったんそのウェブサイトがいずれかのユーザーによって訪問されたら、そのウェブサイトは、それが同じまたは他の何らかのユーザーによって再び訪問されてもされなくても、何回訪問されようとも、コーパスの一部である。
トークン化は、ウェブサイトのボディー内に含まれるテキスト・コンテンツを、単語(またはトークン)に分割するプロセスである。それは、すべての句読点を除去することにより、タブおよび他の非テキスト記号を単一のホワイトスペースで置き換えることにより、いわゆるストップワード、たとえば前置詞、冠詞、接続詞などほとんど情報内容をもたない語を除去することによる。トークン化のいくつかの実施形態は、語幹処理をも含む。これは、屈折した(あるいは時には派生した)単語をその語幹または原形に帰着させることに関わる。単語集合手法により、結果として得られる単語およびその生起頻度が記録される。
コーパスにおける一意的な単語の集合は辞書と呼ばれる。辞書は語彙の一部である。語彙における単語数をVで表わす。ウェブサイトsmにおける単語の数をNmで表わし、すべてのウェブサイトの辞書における単語の数をNで表わす。よって、
Figure 2019527874
である。本稿に記載されるある実施形態ではN=Vであり、すべてのウェブサイトは語彙におけるすべての単語を含み、辞書が語彙と同じであると想定される。
上述したように、本発明のいくつかの実施形態は、ウェブサイトのコーパスにおけるトピックのモデル(トピック・モデル)を生成するためにLDAを使う。LDAは非特許文献2に記載されている。非特許文献3も参照。LDAは、トピック・モデルを生成するために使われる確率的な技法である。最初に、関心があるのは個々のユーザーではなく、単にコーパス、単語計数およびグローバルな辞書である。LDAアルゴリズムは、K個のトピックのリストを生成し、各トピックkについて、k=1、……、K、w=1、……、Vとして、φkwと記される、トピックkにおいて単語wを見出す確率の指標を生成する。このように、LDAトピックが料理に関係する第一のトピックk1およびバスケットボールに関係する、たとえばk2と記される第二のトピックを含むとする。すると、確率指標値φk1wは、「フライパン」(pan)、「タマネギ」(onions)、「焼く」(baking)といった単語(w)について比較的高くなり、一方、確率指標値φk2wは、「ドリブル」(dribbling)、「タイムアウト」(timeout)および「コート」(court)といった単語(w)について比較的高くなり、「フライパン」(pan)、「タマネギ」(onions)、「焼く」(baking)といった単語(w)についてはより低くなる。LDAモデルは、m=1、……、M、k=1、……、Kとして、θmkと記される「トピック分布」をも生成する。これは、コーパスSの第mのウェブサイトにおいてトピックkが生起する確率の指標である(一般には第mの文書においてトピックkが生起する確率)。
David M Blei, Andrew Y Ng, Michael I Jordan、"Latent Dirichlet Allocation"、Journal of Machine-learning research, vol. 4, pp.883-1022, Jan. 2003 en~dot~wikipedia~dot~org/wiki/Latent_Dirichlet_allocation、2016-05-27検索(ここで、~dot~は実際のURLにおけるピリオド(「.」)記号を表わす)
ひとたびコーパスSの各ウェブサイトについてトピック分布を得たら、各ユーザーが訪問したウェブサイトの記録を与えられて、本方法は、各ユーザーについての「行動特徴ベクトル」を生成することに関わる。各ユーザーの履歴行動は、そのユーザーの「トピック・ベクトル」によって記述されてもよい。このベクトルは、すべてのユーザーによって訪問されたすべてのウェブサイトのコーパスにおけるトピックの数と同じ次元Kをもち、各要素、たとえばk=1、……、Kとしてk番目の要素はそれぞれのトピック、すなわち、そのユーザーが訪問したウェブサイトの集合におけるk番目のトピックの確率を示す。よって、任意のユーザーのトピック・ベクトルのすべての要素の和は1である。
uはU人のユーザーの集合のu番目のユーザーを表わすことを想起されたい。u=1、……、Uとして、各ユーザーuについて、トピック決定方法は、htmlパーサーを使って、そのユーザーが訪問したすべての相異なるウェブ・ページからテキストを抽出する。ユーザーuが、sumと記されるMu個のウェブサイトを訪問するとする。m=1、……、M、u=1、……、Uである。これらのウェブサイトのそれぞれがトピック分布をもつことを想起されたい。mu=1、……、Mu、k=1、……、Kとして、ユーザーuによって訪問されたウェブサイトsumのトピック分布をθmukと記す。任意のユーザーuについての、tuと記されるトピック・ベクトル(topic vector)はK個の要素のベクトルであり、k番目の要素はそのユーザーが訪問したすべてのサイトのトピック分布のk番目の要素の平均を示す。すなわち、k番目の要素tukを用いてtu=[tu1 tu2……tuk……tuK]と記すと、
Figure 2019527874
となる。
トピックの数Kは、典型的には個々のトピックが互いと同様になりすぎないよう十分大きく、ただしトピックが抽象的または特定的になりすぎないよう十分小さいように選ばれる。ある実施形態では、コーパスは数千万のウェブサイトからなり、ほぼ100,000の一意的な単語があり、800のトピックがある。このパラメータの集合について、各ユーザーは、0から1までの範囲の800個の値(0がトピックの確率0を表わす)からなるトピック・ベクトルをもつ。
トピック・モデルによって要約行動データを生成した一組の実施形態はトピック・モデル化のためにLDAを使うものの、別の一組の実施形態は階層的LDAを使い、それに従って文書内(ウェブ・ページ内)でのトピックの分布はトピックを木に編成することを含む。各文書は、この木の単一の経路に沿った諸トピックによって生成される。データからモデルを学習するとき、サンプラーは、各文書について前記木を通る新しい経路を選ぶことと、選ばれた経路に沿って各文書内の各単語をトピックに割り当てることとを交互に行なう。非特許文献4参照。他の実施形態は、トピック間の相関を組み込むトピック・モデル化のためにパチンコ割り当てを使う。パチンコ割り当て(Pachinko allocation)は、文書を、トピックの単一の集合上の諸分布の混合としてモデル化するものであり、無閉路有向グラフ(DAG: directed acyclic graph)を使ってトピック生起を表わす。非特許文献5参照。さらにもう一組は、階層的なトピックを表現するよう基本的なパチンコ割り当て構造を拡張する、階層的LDAおよびパチンコ割り当てを使う。非特許文献6参照。他の実施形態はWord2vecを使う(非特許文献7参照)。
D.M. Blei, T.L. Griffiths, M.I. Jordan, and J.B. Tenenbaum、"Hierarchical topic models and the nested Chinese restaurant process"、Advances in neural information processing systems (NIPS), vol.176 p.17, 2004 Li, Wei; McCallum, Andrew、"Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations"、Proceedings of the 23rd International Conference on Machine-learning, 2006 Mimno, David, Wei Li, and Andrew McCallum、"Mixtures of hierarchical topics with pachinko allocation"、Proceedings of the 24th international conference on machine-learning. ACM, 2007 Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean、"Efficient estimation of word representations in vector space"、arXiv preprint arXiv:1301.3781(2013)
本稿に記載されるいくつかの実施形態は、APACHE SPARK(登録商標)における機械学習モジュール(MLib)に含まれるLDA方法を使うものの(「コンピューティング環境についてのメモ」と題する下記の節参照)、本稿に記載されるトピック・モデル化方法のいくつかはStanford Topic Modeling Toolbox、version 4.3を使って実装される。これは2016-06-01時点でnlp~dot~stanford~dot~edu/software/tmt/tmt-0~dot~3/において入手可能であり、~dot~は実際のURLにおけるピリオド記号(「.」)を表わす。代替的な実施形態は米国マサチューセッツ州アマーストのマサチューセッツ大学から入手可能な「Machine-learning for LanguaE Toolkit」(MALLET)から入手可能なプログラム・コードを使う。mallet~dot~cs~dot~umass~dot~edu/topics~dot~php(2017-03-30検索)。ここで、~dot~は実際のURLにおけるピリオド記号(「.」)を表わす。Shawn Graham, Scott Weingart and Ian Milligan、"Getting Started with Topic Modeling and MALLET"、2012-09-02付け、2017-03-30時点でproqramminghistorian~dot~orq/lessons/topic-modelinq-and-malletにおいて入手可能。~dot~は実際のURLにおけるピリオド記号(「.」)を表わす。
〈心理測定モデルを生成する機械学習方法〉
ここでもまた、下記は、トピック・ベクトルを含む要約行動データの場合についてであり、本発明の他の実施形態は、データを解析する他の方法および他の形の要約行動データを使う。
前記N5人のユーザーのそれぞれ、たとえばシード・データが利用可能なu番目のユーザーについて、トピック・ベクトルtuがある。これは、心理測定上の測定手段〔インストルメント〕を介して諸ユーザーによって、たとえばユーザー・インターフェースを対話し、心理測定プロファイルをなすpuと記されるデータを入力することによって、ユーザーuについて得られるP個の心理測定次元のベクトルである。ここで、
Figure 2019527874
である。いくつかのバージョンでは、P個の心理測定次元のうちの少なくとも一つは人口統計上のものであり、残りは純粋に心理測定上のものである。
あるバージョンにおけるN5人のユーザーの心理測定プロファイルの取得は、段階282において、サンプル・プロバイダー・システム106によって提供されるN4人のユーザー(N4≧N5)に、性別、人種、年齢および収入レベルのような人口統計上の因子および政治的人格(これは参加者の保守的傾向のレベル、人の政治的態度、自民族中心主義、宗教性、性的不寛容、社会における権威および不平等、家族における権威および不平等および人間の本性の知覚などを含みうる)のような純粋に心理測定上の応答についての調査を行なってもらうことによって実行される。
純粋に心理測定上の次元(purely psychometric dimensions)
種々の実施形態は、純粋に心理測定上の次元および任意的には少なくとも一つの人口統計上の次元を含む心理統計プロファイルにおいて、種々の純粋に心理測定上の次元を使用してもよい。純粋に心理統計上の次元の多くの目録が知られている。たとえば、人格および他の個人差の高度な指標の開発のための科学的な共同作業であるInternational Personality Item Pool (IPIP)において公開されている非特許文献8参照。一組の実施形態は、非特許文献9で公開されている30個の心理測定特徴および定義の集合を利用する。この集合は2017-04-04の時点でipip~dot~ori~dot~org/30FacetNEO-PI-Rltems~dot~htmにおいて入手可能であり、ここで、~dot~は実際のURLにおけるピリオド記号(「.」)を表わす。Five Factor Model〔五因子モデル〕の特徴は、一般に、Openness, Conscientiousness, Extraversion, Agreeableness, and Neuroticism〔開放的であること、良心的であること、外向性、人当たりがよいこと、神経質〕の頭字語OCEANとしても知られている。図7Aおよび7Bは、これらの高レベルの人の人格次元を、文字と後続の数字として示している。数字は各次元のサブファセットの一つに対応する。たとえば、Nは神経質を意味し、N1は不安という神経質のサブファセットを意味し(神経質のNは図4A〜4Eおよびその説明で使われた記号Nと混同すべきではない)、それぞれのサブファセットの下に、この特定の心理測定手段においてそれに対応する心理測定項目が示されている。各特徴の前の「+」および「−」は、その心理測定特徴の肯定的または否定的な表現を示す。これらはそれぞれ「特徴肯定(pro-trait)」および「反特徴(con-trait)」アイテムとしても知られる。心理測定における慣用のように、ある実施形態では、反特徴の(−)心理測定アイテムへの数値的な回答は、スコアを計算する前に−1を乗算される。
"Multi-Construct IPIP Inventories"、2017-04-04の時点でipip~dot~ori~dot~org/newMultipleconstructs~dot~htmにおいて入手可能。~dot~は実際のURLにおけるピリオド記号(「.」)を表わす。 Johnson, J.A.、"Measuring thirty facets of the Five Factor Model with a 124-item public domain inventory: Development of the IPIP-NEO-124"、Journal of Research in Personality, vol.51, pp.78-89, 2014
ある実施形態では、これらのアイテムについて段階282において前記N4人のユーザーから純粋に心理測定上の次元を得ることにおいて使われるユーザー応答システムは、7ポイントのいわゆるリッカート尺度(Likert Scale)であり、「強く反対」、「反対」、「やや反対」、「どちらでもない」、「やや賛成」、「賛成」および「強く賛成」の回答からなる。我々はこれらを、特徴賛成方向にあるときはそれぞれ−3、−2、−1、0、1、2、3としてスコア化し、アイテムが反特徴方向にあるときはこれらのスコアに−1を乗算する。
人口統計上の次元(demographic dimensions)
種々の実施形態は、純粋に心理測定上の次元を、また人口統計上の次元をも含む心理測定プロファイルにおいて種々の人口統計上の次元を使ってもよい。ある実施形態は、以下の15個の人口統計上の次元および回答(回答は括弧内に示されている)を使う。
・性別(男、女)
・生年(年のドロップダウンメニュー)
・出生順位(1,2,4,4,5+)
・政治的帰属(緑の党、民主党、やや民主党、中間、やや共和党、共和党、ティーパーティー、リバタリアン)
・人種、当てはまるものすべてをクリック(白人/非ヒスパニック、ヒスパニック、黒人/非ヒスパニック[アフリカ系アメリカ人、アフリカ系]、アジア系[東アジア系、南アジア系、東南アジア系、太平洋島嶼系]、中東系、ネイティブアメリカン)
・宗教(主流プロテスタント、福音主義プロテスタント、カトリック、東方正教会、モルモン、ユダヤ、イスラム、仏教徒、ヒンズー、シーク、その他、不可知論者、無神論者)
・どのくらい頻繁に定例の礼拝に参加しますか?(参加しない、一年に一回未満、一年に数回、一か月に一〜二回、ほぼ毎週、毎週または一週間に二回以上)
・親または保護者として子供に責任を持つ立場になったことがありますか(はい/いいえ);はいの場合、
・子供は何人いますか(1,2,4,4,5+)
・そのうち少なくとも一人は娘ですか?(はい/いいえ)
・婚姻状態(結婚したことがない、結婚、パートナーと生活、離婚/別居、死別)
・学歴(高校以下、何らかの大学、大学卒業、大学院学位)
・世帯収入(2万ドル未満、20,000〜29,999ドル、30,000〜49,999ドル、50,000〜74,999ドル、75,000〜99,999ドル、100,000〜149,999ドル、$150,000〜249,999ドル、250,000〜499,999ドル、500,000ドル以上)
・住宅所有(持ち家、賃貸、その他)
・雇用状態(フルタイム、パートタイム、無職、定年退職)
心理測定モデルにおいて、純粋に心理測定上の次元およびもしあれば人口統計上の次元は、たとえば0から100までの間の確率として表現される範囲にわたってモデル化される。たとえば、任意のユーザーは、最も男性から最も女性までの間で「性別」次元をもつことができる。同様に、心理測定モデルにおける「住宅所有」は、住宅所有者である確率を表わす0から100までの間のスコアとして表現される。
このように、ある実施形態では、P=45であり、30個の純粋に心理測定上の次元および15個の人口統計上の次元がある。
代替的な実施形態は、32個の次元をもつ心理統計プロファイルを使い、そのうち13個が純粋に心理測定上のものであり、19個が人口統計上のものである。図8は、匿名化されたユーザーID 801をもつユーザーの、そのような32次元の心理測定プロファイル800の例解用の例を示している。純粋に心理測定上の次元は集合805として示されており、保守;外国人嫌い;「次元2」;性的寛容;公正な世界を信じる;平等主義;シニシズム;宗教性;「次元8」;「次元9」;「次元10」;「次元11」;および「次元12」からなる。ここで、nが数字であるとして「次元n」と呼ばれる次元は、たとえば次元の数を減らすために、心理測定アイテムに対する応答から計算される次元である。人口統計上の次元は集合803として示されており、白人;アジア系;ヒスパニック;黒人;キリスト教;教会参列;女性;ミレニアル;第1子;結婚;親;娘あり;学歴;収入;雇用;無職;定年退職;住宅所有者;政治への関心からなる。
いくつかのバージョンでは、各次元について、二つ以上のアイテム〔項目〕が潜在的なシード・ユーザーに対して呈示されてもよい。同じ次元について複数のアイテムへの応答を収集することの目的は、二つの主要な目的に資する。各参加者について複数の応答の間での内的な一貫性をチェックすることを可能にすることによって有効確認を改善するとともに、複数の応答を組み合わせて、所与の次元内のそれらの応答が平均されることができるようにし、それによりその後のモデル化段階におけるノイズを低減する。
図4Aの段階482では、心理測定アナリティクス・エンジンが、調査のさらなるバランス化および有効確認を実行する。これは、有効な心理測定プロファイルを保証するために、以下の応答パターンについてチェックすることを含むがそれに限定されない。
・ワンパターン回答(straight-lining)――各応答について同じ値を選択する参加者(通例、調査を非常にすばやく完了できるようにするため)。
・速攻者(speeders)――(たとえば実際の考えを反映しないランダムな値を選択することにより)合理的でないほどすばやく調査を完了する参加者。
・黙従バイアス(acquiescence bias)――(設問の構成の仕方のため「正直」な応答なら典型的には肯定的と否定的の間でより均等に分かれるはずのときに)肯定的な値を多く選びすぎること。
・否定バイアス(naysayer bias)――上記と同様だが、否定的な値に重きを置きすぎる。
・一貫性(consistency)――ユーザーは、調査の間に繰り返される同一の設問に同じまたはほぼ同じ応答を与えているか。
このさらなるバランス化および有効確認の結果、心理測定プロファイルが利用可能なのはN5人のユーザーになる。該N5人のユーザーのそれぞれ、たとえばシード・データが利用可能なu番目のユーザーについて、段階448(図4A)としてデータ分配器システムによって提供された匿名化されたユーザーIDを用いて、ターゲット母集団プロバイダー・システム102によって段階424(図4A)においてデータ・プロバイダーから得られたトピック・ベクトルtuがある。それぞれのそのようなu番目のユーザーについて、ユーザーuについて得られるP個の心理測定次元のベクトルもある。該ベクトルはpuと記され、心理測定プロファイルをなす。
Figure 2019527874
心理測定モデルを得る方法の機械学習
ある実施形態では、心理測定プロファイルの各次元、たとえばi=1,……、Pとして、u番目のユーザーのi番目の次元puiは、ユーザーのトピック・ベクトルtuの関数としてモデル化され、かかる関数がその次元のモデルをなす。すなわち、
Figure 2019527874
少なくとも一つの機械学習方法が、上記P個の関数fi、i=1、……、Pのそれぞれを学習するために使われる。それぞれのそのようなfiをその特定の次元についてのモデルと呼ぶ。
要約行動データがトピック・ベクトルの形である実施形態について、N5人のユーザーについてのシード・データがあり、それは(解析プロセスによって)ウェブ・ブラウズ行動から得られるトピック・ベクトルおよび調査応答(各ユーザーuについての実際の測定されたpuiの値の心理測定プロファイル)を含むことを想起されたい。機械学習のために、トピック・ベクトルは特徴と見なされ、次元puiのそれぞれは、教師付き機械学習分類器のための「パターン」または分類と見なされる。このように、いくつかの実施形態では、前記少なくとも一つの機械学習方法は、少なくとも一つの教師付き機械学習分類器を有する。モデル化される特定の次元に依存して、三つの型の分類がある:二項分類(二つの可能な帰結の一方を予測する)、多クラス分類(二つより多くの帰結のうちの一つを予測する)および回帰(数値を予測する)である。ある実施形態は、複数の機械学習方法をトレーニングし、交差確認、たとえばk分割交差確認を実行し、機械学習方法選択基準に従って機械学習方法および対応するモデルを選択する。ある実施形態では、ある性能基準に従って最良の性能を提供するモデルが選択される。使われる基準は、分類の型に依存する。ある実施形態では、最良性能のモデルを選択するために10分割交差検証が実行される。もちろん、代替的実施形態では他の分割数が使われてもよい。
二項分類次元、たとえば性別を考える。ある実施形態は、性別についての調査応答に基づいて、トピック・ベクトルを特徴として使って、三つの二項機械学習分類器をトレーニングする。三つの二項機械学習分類器はロジスティック回帰、単純ベイズおよびランダムフォレストである。k分割交差確認、特に10分割交差確認を実行して、最高のAUC(area under the ROC curve[ROC曲線の下の面積])をもつモデルを選ぶことによって、「最良」のモデルが選択される。すると、そのような性別モデルからの出力が、ユーザーが女性である確率(あるいは等価だが、男性である確率の補確率(complement))となる。
二つの可能な値をもつ心理測定プロファイルの他の次元は、同様の仕方で、三つの異なる二項機械学習分類器を使って最良のモデルを決定することによって、モデル化される。他の実施形態は最良の結果を異なる分類器からおよび/または異なる数の可能な分類器を使って選択してもよいことを注意しておく。分類器はたとえばサポートベクターマシン、ロジスティック回帰、決定木、ランダムフォレスト、勾配ブースティング木および単純ベイズからなる集合から選択される。
多クラス分類次元、たとえばある実施形態では五つの可能な分類をもつ出生順位を考える。ある実施形態は、それぞれの多クラス次元モデル化を、一連の二項分類に変換する。二項分類に変換された、出生順位についての調査応答に基づく三つの多クラス機械学習分類器:ロジスティック回帰、ランダムフォレストおよび単純ベイズが、トピック・ベクトルを特徴として使って、使われる。k分割交差確認、たとえば10分割交差確認を実行して、最良の性能をもつモデルを選ぶことによって、「最良」のモデルが選択される。最良の性能は、ある実施形態では、最高のAUCスコアを達成するモデルである。
いくつかの次元は数値であり、これらの各次元については、いくつかの実施形態は線形回帰を使うこともあるが、ある実施形態は数値をもつ次元のモデル化を、ある次元が値のどの範囲にはいるかの一連の分類に変換する。これは、数値次元のモデル化を、該次元の多クラス分類に変換する(時に離散化(discretizing)と呼ばれるプロセス)。上記のように、多クラス分類は一連の二項分類によって実行される。二項および多クラス分類器については、いくつかの機械学習方法が使用され、交差確認を使って最良のものが選択される。
〈関与モデル化〉
上記のように、いくつかの実施形態はさらに、ユーザーの心理測定モデルの関数としての、刺激に対する関与のモデル――関与モデル――を生成するために機械学習を使う方法を含む。いくつかの実施形態はさらに、(既知の心理測定モデルをもつ)母集団に関して該関与モデルを使って、母集団を各ユーザーの関与の確からしさに従ってランク付けする方法を含む。いくつかの実施形態はさらに、特定の刺激についてのオーディエンスを生成する方法を含む。刺激が単一のクリック可能なオンライン広告である場合が記述されるが、本発明をそのような場合に限定するものではない。
上記のように、本方法は、広告のインプレッションをランダムにサービスし、どのユーザーがその広告をクリックするかまたはその広告をクリックしないかについてのデータを収集することによって、広告についての関与データ(および非関与データ)を収集することを含む。各ユーザーの関与は、応答変数または帰結(たとえばクリックした場合が1、クリックしなかった場合が0)として扱われる。関与は、連続変数(すなわち、ページを閉じる前にビデオ広告を見るのに費やされた秒数)であることもできる。各ユーザーは、たとえば上記したようにオンライン行動から生成された心理測定モデルをもつ。ユーザーuのモデルをpu=[pu1 pu2 …… puP]と表わす。
ある実施形態は、関与モデルを得るためにロジスティック回帰(または関与モデルが二値の量でない場合には線形回帰)を使うことを含む。関与および非関与データが回帰のためのトレーニング・データとなる。トレーニング・データは、心理測定モデルがベクトルpuであるユーザーがその特定の広告に対して関与する確率を表わす関数E(pu)を学習するために使われる。二値データについては
Figure 2019527874
であり、心理測定モデルは
Figure 2019527874
である。
ロジット関数をE(pu)に適用すると、
Figure 2019527874
ここで、ln()は底がeの対数であり、関与の対数オッズを生成する。量[E(pu)/1−E(pu)]は、非関与の確からしさに対する関与の確からしさであり、これが関与についてのオッズ比である。よって、オッズ比は
Figure 2019527874
となる。
任意の次元、たとえばi番目の次元について、exp(βi)の値は、他のすべての次元を一定にしたときのpuiについての関与についてのオッズ比である。例として、心理測定プロファイルの性別の次元についての係数が0.69であれば、女性についての関与のオッズは、男性についてよりもexp(0.69)=2倍高い。
そのような関与モデルがどのように使用されうるかの例として、図9Aおよび9Bは、図8に示した例示的プロファイルの32次元の心理測定プロファイルを使ってユーザーの関与モデルを決定した結果のグラフィック表示を示している。図8に結果を示した試験では、300の肯定的関与および42,000の否定的関与があった。
純粋な心理測定特徴についての関与の相対オッズを示す図9Aを考えると、たとえば、宗教性の特徴について(円で囲んだ要素903参照)、宗教的なユーザーは、この特定の広告に対して関与する可能性が約3倍低いことが見て取れる。純粋に人口統計特徴についての同じ広告に対する関与の相対オッズを示す図9Bを考えると、たとえば、ヒスパニックである特徴について(円で囲んだ要素913参照)、ヒスパニックは(使用された母集団におけるヒスパニックの優勢を考えると)この広告に対して関与する可能性が220%高いことが見て取れる。一方、女性である特徴については(円で囲んだ要素915参照)、心理測定上女性であるユーザーはこの広告に対して関与する可能性は270%高い。これは、一つまたは複数の心理測定次元に従って広告のターゲット決めをよりよく行なうために、クライアントによって使用されることができる。
いくつかの実施形態は、広告に曝露されていないことがありうるユーザーの母集団に対して学習された関与モデルを実行することを含む。これは典型的には大きな関心対象母集団であり、このプロセスは結果として、この、より大きな母集団のユーザーについて、その広告に対する関与の確からしさの指標を与える。いくつかのバージョンは、予測された関与する確からしさに従って、たとえば関与する確からしさの降順で、該母集団の構成員をランク付けすることを含む。
いくつかの実施形態は、母集団を、母集団セグメントと呼ばれ、オーディエンスとも呼ばれる集合に分割することを含む。ここで、各集合は、確からしさの特定のランク付けされた範囲内のユーザーからなる。たとえば、関与する可能性が最も高い上位1%のユーザー、関与する可能性が上位2%から5%などである。これは、広告主が、広告のターゲットとすべき、母集団の一つまたは複数のオーディエンス(セグメント)を選択する方法を提供する。
図10Aは、関与モデルが適用される母集団をそのDMAに従って範疇分けさせることによってメッセージのターゲット決めをする本発明のある実施形態の使用例を示している。次いで、ランク付けされた母集団のセグメント分割が、各DMAのその広告との心理測定上の適合性に従って実行されることができる。すなわち、DMAは、各地理的エリアの平均的な心理測定モデルに基づいて、関与の降順の確からしさでランク付けされる。図10Aは、図8に示した例の32個の次元を使って約1億5000万人のユーザーの母集団に対して実行された実験について、DMAに基づく、母集団のそのようなランク付けの一部を表の形で示している。この情報は、次いで、DMAのマップに埋め込まれることができる。その広告の関与モデルとの、エリアの平均的な心理測定上の適合性に基づく、刺激、たとえば広告に対する関与の確からしさに従って、地理的エリアを予測するためである。図10Bは、米国におけるDMAのマップを示している。ここで、各DMAは、関与の確からしさに従ってカラーコーディングされることができる。マップ上のDMAは、図中で読めることは意図されていないが、一つの地域1003は1005の形で拡大されて示されている。そのような情報は、広告のターゲット決めをするために使用可能である。
〈匿名化についてのメモ〉
本稿の記載は、匿名化されたユーザーIDに言及している。たとえば、PDAE 108に提供されるどのターゲット‐プロバイダー・ユーザーIDも匿名化され、PDAE 108に提供されるどのサンプル‐プロバイダー・ユーザーIDも匿名化される。ユーザーIDおよび他のユーザー・データを匿名化してあらゆるPIIを除去するための多くの方法が知られている。匿名化の一つの方法は、基本的にはランダムな数である「ソルト(salt)」と呼ばれるものを当該情報に連結するまたは他の仕方で加え、次いで一方向関数、たとえばハッシュ関数を、情報とソルトの組み合わせに適用することを含む。他の方法も知られている。たとえば、情報またはソルトを加えた情報を秘密鍵を使って暗号化する。本発明は、匿名化のいかなる特定の方法にも依存しない。さらに、匿名化が完璧な匿名化をなすか、匿名化されたデータが十分な時間および/または計算パワーを与えられれば匿名化解除されうるかの主題は、研究および議論の現在の主題であるものの、本発明の目的のためには、匿名化は、匿名化方法、たとえばデータ科学において現在実施されている匿名化方法を使うことを意味する。
〈コンピューティング環境および特殊ハードウェアについてのメモ〉
図1は、いくつかのシステムを含むコンピューティング環境100を示しており、各システムは純粋に説明の簡単のために、少なくとも一つのプロセッサおよび記憶サブシステムを有するものとして示されていることを注意しておく。これらのシステムは、異なるエンティティーによって運用されてもよいし、本発明の特徴のいくつかがPDAE 108によってまたはPDAE 108において動作させられてもよい。しかしながら、本発明は、図1に示した構成に限定されない。たとえば、PDAE 108は、少なくとも一つの特殊目的の機械を含むおよび/またはクラウド・コンピューティングを介して仮想マシンの集合をコンピュータ・クラスターの一部として使用しうるシステムとして実装されてもよい。すなわち、本発明のいくつかの実施形態は、「クラウドで」動作する、すなわち少なくとも一つのリモート位置で動作する少なくとも一つの仮想マシンでありうるコンピュータ・システムの集合上に実装される。二つ以上の位置である場合には、それらの位置はネットワークの相互ネットによってインターネットに結合される。簡単のため、すべてのそのようなコンピュータは図1では、少なくとも一つのプロセッサと、データおよびプログラム・コードが記憶されている記憶サブシステムとをもつ単一のシステムとして示されている。本稿で使われるところのクラウド・コンピューティングは、共有されるコンピュータ処理資源およびデータをインターネットを通じてコンピュータおよび他の装置にオンデマンドで提供する、インターネット・ベースのコンピューティングの型を意味する。クラウド・コンピューティングのプロバイダーの例は、アマゾン社のAmazon Web Services(「AWS」)、マイクロソフト社のMicrosoft Azure(登録商標)、IBMのSoftLayer(登録商標)、グーグルのCloud Platform(商標)および他の多くを含む。
また、本開示は「データベース」およびデータベースの「レコード」という用語を使うが、この用語は、データを維持するためのデータ構造を意味する一般的な意味で使われていることを理解しておくものとする。多くのそのようなデータ構造が知られており、個別的な実装において使用されうる。たとえば、リレーショナル(SQL)データベースは一般に知られており、使われている。しかしながら、本発明はそのような構造を使うことに限定されない。non_SQLまたはnoSQLデータベースとも呼ばれる非リレーショナル・データベース(たとえばMongoDB)も知られており、使われてもよい。データウェアハウス式のデータ貯蔵所も知られており、使われてもよい。さらに、エラスティック・キャッシュ・メモリ(たとえばRedis)がデータを記憶するために使われてもよい。これらおよびより多くのデータ構造のすべてが、本稿で使われるところのデータベースという用語に含まれる。
本発明のいくつかの実施形態、たとえばPDAE 108の機能および方法は、分散式のクラスター・コンピューティング・ネットワーク、特にアマゾン社によって運営されているAmazon Web Service(「AWS」)におけるAmazon Elastic Map Reduce(「アマゾンEMR」)を使って実装される。アマゾンEMRは、大規模データ・セットを並列に解析するためにコモディティー・ハードウェアを一緒にクラスタリングすることを許容するマネージド型クラスター・プラットフォームである。クラスターは、ノードと呼ばれる仮想マシン・インスタンスの集まりであり、該インスタンスはアマゾンEMRではAmazon Elastic Compute Cloud(アマゾンEC2)インスタンスである。クラスター内の各インスタンス(ノード)は、クラスター内である役割をもつ仮想サーバー・マシンである。たとえば、アマゾンEMRは、データおよびタスクを処理のために他のノード――まとめてスレーブ・ノードと呼ばれる――の間で分配するのを調整するソフトウェア・コンポーネントを実行することによってクラスターを管理する、いわゆるマスター・ノードを提供する。マスター・ノードは、タスクの状態を追跡し、クラスターの健康状態をモニタリングする。いわゆるコア・ノードは、タスクを実行し、たとえばクラスター上のApach Hadoop Distributed File System(HDFS)のような分散式ファイル・システムにおいてデータを記憶するソフトウェア・コンポーネントをもつスレーブ・ノードである。一方、いわゆるタスク・ノードは(もし使われる場合)、タスクを実行するだけのソフトウェア・コンポーネントをもつスレーブ・ノードである。グーグル(たとえばGoogle Cloud)、マイクロソフト(たとえばMicrosoft Azure)および潜在的には他の将来のプロバイダーが同様のクラウド・ベースのサービスを提供する。
発明者は、本稿に記載される方法の多くを、公開されて入手可能な「オープンソース」コードを使って実装することを選んだ。本発明のいくつかの実施形態、たとえばPDAE 108の機能および方法は、アマゾンEMRにおいて走るAPACHE SPARK(商標)フレームワークを、特にAPACHE SPARK(商標)によってApache Spark MLibとして提供されている機械学習方法を使う。しかしながら、本発明はそのような実装に限定されない。さらに、コンピュータ科学の発展のこの時期(2016〜2017年ごろ)、やはり本稿に記載される方法およびシステムの実施形態を実装するために好適でありうる新たなプラットフォームが導入されつつある。
APACHE SPARK(商標)は、本稿ではアパッチ・スパークまたは単にスパークと称される。これは、特に機械学習逐次反復作業負荷をターゲットとするオープンソースの大規模な分散式処理フレームワークである。スパークは、関数型プログラミング・パラダイムを使い、Resilient Distributed Data(RDD)と呼ばれる分散されたデータ・セットの故障耐性のある実装を提供することによって、関数型プログラミング・パラダイムを大きなクラスター上で適用する。該データ・セットのそれぞれは、クラスターのメイン・メモリ内に(またはディスクのブロック内に)存在することができる。メイン・メモリ内にデータを記憶できることにより、データが物理的なディスクに記憶された場合よりも、計算をずっと高速にできる。スパークにおける計算は、RDDに対する関数変換を使って表わされる。アパッチ・スパークについてのさらなる情報については、非特許文献10を参照されたい。
Zaharia et al.、"Apache Spark: A Unified Engine for Big Data Processing," Communication of the ACM, vol.49, No.11, pp.56-65, 2016
ある実施形態では、PDAE 108における本稿に記載される機械学習(ML)方法は、スパークおよびアパッチ・スパークのMLibの一部において提供されるアルゴリズムおよびユーティリティーを使う。スパークのMLibは、二項分類、ロジスティック回帰、単純ベイズおよびその他のため;回帰、一般化線形回帰、生存回帰(survival regression)およびその他のため;決定木、ランダムフォレストおよび勾配ブースティング木のため;交互最小二乗法(ALS)のため;クラスタリング、K平均、ガウシアン混合(GMMs: Gaussian mixtures)および他のクラスタリング技法のため;トピック・モデル化:潜在ディリクレ割り当て(LDA)のため;およびマイニング、頻出アイテム・セット、関連付け規則および逐次パターン・マイニングのために使用できる方法を提供する。スパークはML作業フロー・ユーティリティーをも含む。かかるユーティリティーは、特徴変換、標準化、規格化、ハッシングおよびその他;MLパイプライン構築方法;モデル評価方法;ハイパーパラメータ・チューニング方法のため;およびML持続性、モデルおよびパイプラインを保存し、ロードするための方法のためのものを含む。スパークは、分散式線形代数:SVD、PCAおよびその他のため;および統計、要約統計、仮説試験および他の統計的方法のためのものを含む他のユーティリティーをももつ。
当業者には、オープンソース・コードとして入手可能な方法を使うのではなく特殊目的のプログラムを書くことによって、またアパッチ・スパークによって提供されるもの以外のおよび/またはそれに追加される利用可能な方法を使うことによって、本発明の代替的な実施形態が構築されることができることは明らかであるはずである。代替的なコードの一つの例は「sci-kit learn」であり、これは、Google Cloud上で動作できるPythonでの機械学習アルゴリズムのセットである。たとえば、scikit-learn~dot~org/stable/(2016-06-06検索)参照。ここで、~dot~は実際のURLにおけるピリオド(「.」)記号を表わす。
図6のハードウェア・システムについて、論理要素を使うエンジンのいくつかの実施形態は、ゲート・アレイ(FPGA)を使う。あるバージョンは、米国カリフォルニア州サンノゼのXylinx社によって製造される、それぞれ二つのARM Cortex-A9プロセッサ・コアおよびPartial Reconfigurable Region〔部分構成設定可能領域〕を含むチップ上のXilinx Zynq-7000sという全プログラム可能システムを使う。機械学習エンジンはたとえば単純ベイズ機械学習およびランダムフォレスト機械学習を実装するためにFPGAを使う。たとえば非特許文献11および非特許文献12参照。
Sun-Wook Choi and Chong Ho Lee、A FPGA-based parallel semi-naive Bayes classifier implementation、IEICE Electronics Express, Vol.10(2013) No.19 p.20130673、2017-05-30検索、URL:www~dot~stage~dot~jst~dot~go~dot~jp/article/elex/10/19/10 10~dot~20130673/ pdf ここで、~dot~は実際のURLにおけるピリオド(「.」)記号を表わす Van Essen, Brian, Chris Macaraeg, Maya Gokhale, and Ryan Prenger、"Accelerating a random forest classifier: Multi-core, GP-GPU, or FPGA?" 2012 IEEE 20th Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM), pp.232-239、IEEE, 2012
〈一般〉
特に断わりのない限り、以下の議論から明白なように、「処理」、「コンピューティング」、「計算」、「決定」などといった用語を利用する明細書の議論を通じて、これらの用語はホスト装置またはコンピューティング・システムまたは同様の電子的なコンピューティング装置のアクションおよび/またはプロセスであって、電子的な量のような物理量として表現されるデータを操作および/または変換して物理量として同様に表現される他のデータにするものを指すことが理解される。
同様に、用語「プロセッサ」は、機械可読命令を介してプログラム可能であり、たとえばレジスタおよび/またはメモリからの電子的なデータを処理することで、その電子データを、たとえばレジスタおよび/またはメモリに記憶されうる他の電子データに変換する任意の装置または装置の一部を指しうる。
用語「0個以上の要素の集合」は、要素をもたないまたは少なくとも一つの要素をもつことがありうる集合を意味し、よって一つの要素、二つ以上の要素または要素のない空集合の可能性を含む。これは、コンピュータ科学の当業者によって慣用される用語である。
本稿に記載される方法論は、ある実施形態では、少なくとも一つのプロセッサによって実行されたときに本稿に記載される方法の少なくとも一つを実行する機械可読命令をたとえばファームウェアとしてまたはソフトウェアとして受け容れる少なくとも一つのプロセッサによって実行可能である。そのような実施形態では、行なわれるべきアクションを指定する(逐次的なまたはそれ以外の)命令の集合を実行することのできる任意のプロセッサが含まれうる。このように、一つの例はプログラム可能なDSP装置である。もう一つの例はマイクロプロセッサもしくは他のコンピュータ装置のCPUまたはより大きなASICの処理をする部分である。処理システムは、メインRAMおよび/または静的RAMおよび/またはROMのようなメモリおよび少なくとも一つの他の記憶装置を含む記憶サブシステムを含んでいてもよい。コンポーネント間で通信するためにバス・サブシステムが含まれてもよい。処理システムはさらに、たとえばネットワークによって無線またはその他で結合されたプロセッサをもつ分散式処理システムであってもよい。処理システムは、クラスターの一部であってもよく、クラウド・ベースのサービスとして「クラウドで」提供されてもよい。
処理システムがディスプレイを要求する場合、そのようなディスプレイが含まれてもよい。処理システムはいくつかの構成では、音声入力装置、音声出力装置およびネットワーク・インターフェース装置を含んでいてもよい。
処理システムの記憶サブシステムは、このように、少なくとも一つのプロセッサによって実行されたときに本稿に記載される方法の少なくとも一つを実行させる命令の集合がコードされている、すなわち記憶されている機械解読の非一時的な媒体を含む。
方法がいくつかの要素、たとえばいくつかの段階を含むとき、特に指定した場合のほかは、そのような要素のいかなる順序付けも含意されないことを注意しておく。命令は、ハードディスクに存在してもよく、あるいはシステムによるその実行の間、完全にまたは少なくとも部分的にプロセッサ内のRAMおよび/または他の要素内に存在してもよい。このように、メモリおよびプロセッサも、命令をもつ非一時的な機械可読媒体をなす。
さらに、非一時的な機械可読媒体は、ソフトウェア・プロダクトを形成してもよい。たとえば、方法のいくつかを実行し、よって発明のシステムもしくは装置の全部もしくは一部の要素をなす命令は、ファームウェアとして記憶されてもよい。ファームウェアを含み、ファームウェアを「フラッシュする(flash)」ために使われうるソフトウェア・プロダクトが利用可能であってもよい。
いくつかの図は、単一のプロセッサおよび単一の記憶サブシステム、たとえば機械可読命令を記憶するメモリおよび他の記憶を示すだけだが、当業者は多数の上記のコンポーネントが含まれるが、発明側面を埋没させないために、明示的には図示または記述されていないことを理解するであろうことを注意しておく。たとえば、単一の機械だけが示されているが、用語「機械」は、個々にまたは合同して命令の集合(または複数の集合)を実行して本稿で論じた方法論のうちの任意の少なくとも一つを実行する機械の任意の集まりを含むとも解釈される。
このように、本稿に記載される各方法の一つの実施形態は、少なくとも一つのプロセッサ上での実行のために命令の集合がコードされている、すなわち記憶されている非一時的な機械可読媒体の形である。
当技術分野において理解されるように、本発明の少なくとも一つの側面を実行するための特定用途向けのファームウェアをもつ機械は、該ファームウェアによって修正されて本発明の少なくとも一つの実施形態を実行する特殊目的の機械になる。機械が少なくとも一つの側面を実行するよう特に構成されるので、これは、ソフトウェアを使う汎用処理システムとは異なる。さらに、当業者には知られているであろうように、生産されるべきユニットの数がコストを正当化する場合には、プロセッサのような要素と組み合わせた命令の任意の集合は、特殊目的のASICまたはカスタム集積回路に容易に転換されうる。前記命令の集合およびたとえば前記処理エンジン180の具体的詳細を受け容れて、特殊目的ハードウェアのデザインを自動的にまたはほとんど自動的に生成する、たとえばゲートアレイまたは同様のプログラム可能論理を修正するための命令を生成する、あるいは前記命令の集合によって以前に実行された機能を実行する集積回路を生成する方法論およびソフトウェアが存在する。このように、当業者によって理解されるであろうように、本発明の実施形態は、方法、特殊目的装置のような装置、データDSP装置にファームウェアを加えたもののような装置または非一時的な機械可読媒体として具現されうる。機械可読担体媒体は、少なくとも一つのプロセッサ上で実行されたときに該プロセッサ(単数または複数)に方法を実装させる命令の集合を含むホスト装置可読コードを担持する。よって、本発明の諸側面は、方法、完全にハードウェアの実施形態、完全にソフトウェアの実施形態またはソフトウェアおよびハードウェア側面を組み合わせる実施形態の形を取りうる。さらに、本発明は、機械実行可能命令をエンコードされた非一時的な機械可読記憶媒体上のコンピュータ・プログラム・プロダクトの形を取ってもよい。
本明細書を通じて「いくつかの実施形態」、「一つの実施形態」、「諸実施形態」または「ある実施形態」への言及は、その実施形態との関連で記載されている特定の特徴、構造または特性が、本発明の少なくとも一つの実施形態に含まれることを意味する。このように、「いくつかの実施形態では」、「一つの実施形態では」、「ある実施形態では」という句または同様の陳述が本明細書を通じて随所に現われることは、必ずしもみなが同じ実施形態を指しているのではないが、そうであることもある。さらに、特定の特徴、構造または特性は、少なくとも一つの実施形態において、本開示から当業者には明白であろうように、いかなる好適な仕方で組み合わされてもよい。
本稿で与えられる任意のおよびすべての例または例示的な言辞(たとえば「のような」)の使用は、単に、本発明の実施形態をよりよく例解するために意図されており、特に断わりのない限り、発明の範囲に対して限定を課すものではない。明細書におけるいかなる言辞も、請求項に記載されていない何らかの要素が本発明の実施に本質的であるものとして示すものと解釈されるべきではない。
同様に、本発明の例示的実施形態の上記の記述において、本発明のさまざまな特徴が時に、開示の流れをよくし、さまざまな発明側面の少なくとも一つの理解を助けるために、単一の実施形態、図面またはその説明にまとめられていることがわかるはずである。しかしながら、この開示方法は、特許請求される発明が各請求項に明示的に記載されているよりも多くの事項を要求する意図を反映するものと解釈されるべきではない。むしろ、付属の請求項が反映するように、発明側面は、単一の上記の開示された実施形態の全特徴よりも少ないものに存する。このように、詳細な説明に付属する請求項は、ここに明示的にこの詳細な説明に組み込まれ、各請求項がそれ自身で本発明の別個の実施形態をなすものとする。
さらに、本稿に記載されるいくつかの実施形態は、他の実施形態に含まれるいくつかの特徴を含むが他の特徴を含まないが、当業者によって理解されるであろうように、異なる実施形態の特徴の組み合わせは、本発明の範囲内であり、異なる実施形態をなすことが意図されている。たとえば、付属の請求項では、特許請求される実施形態の任意のものが任意の組み合わせで使用されることができる。
さらに、実施形態のいくつかは本稿で方法または方法の諸要素の組み合わせであって、ホスト装置システムのプロセッサによってまたは当該機能を実行する他の手段によって実装されることができるものとして記載される。このように、そのような方法または方法の要素を実行するための必要な命令を備えたプロセッサは、該方法または方法の要素を実行する手段をなす。さらに、装置実施形態の本稿に記載される要素は、本発明を実行するために該要素によって実行される機能を実行する手段の例である。
本稿で与えられる記述において、数多くの個別的詳細が記載されている。しかしながら、本発明の実施形態はこれらの個別的詳細なしでも実施されうることが理解される。他方では、よく知られた方法、構造および技法は、本記述の理解を曖昧にしないために、詳細には示されていない。
本稿での用法では、特に断わりのない限り、共通のオブジェクトを記述するための「第一」、「第二」、「第三」などの序数形容語の使用は単に同様のオブジェクトの異なるインスタンスが言及されていることを示すものであって、そのように記載されるオブジェクトが、時間的に、空間的に、ランクにおいてまたは他の何らかの仕方で所与の序列でなければならないことを含意することは意図されていない。
「A、BまたはCの少なくとも一つ」または「A、BおよびCの少なくとも一つ」という形の句のような接続言辞は、特に断わりのない限り、あるいはさもなくば文脈によって明確にそうでないことが示されるのでない限り、項目、用語などがAまたはBまたはCまたはAとBとCの集合の任意の空でない部分集合でありうることを呈示するために一般に使われる文脈で理解される。たとえば、三つの要素をもつ集合の例解用の例では、「A、BおよびCの少なくとも一つ」および「A、BまたはCの少なくとも一つ」という接続句は、以下の集合のうちの任意のものを指す:{A}、{B}、{C}、{A,B}、{A,C}、{B,C}、{A,B,C}。このように、そのような接続言辞は一般には、ある種の実施形態がAの少なくとも一つ、Bの少なくとも一つおよびCの少なくとも一つのそれぞれが存在することを要求することを含意することは意図されていない。同様に、「A、Bおよび/またはC」は以下の集合のうちの任意のものを指す:{A}、{B}、{C}、{A,B}、{A,C}、{B,C}、{A,B,C}。
本稿で引用されているあらゆる刊行物、特許および特許出願は、参照による組み込みが許される任意の法域において、ここに参照によって本願に組み込まれる。そのような参照による組み込みを認めないいかなる法域でも、出願人は、本稿で引用されている任意のそのような刊行物、特許および特許出願からの素材を挿入する権利を、かかる挿入が記述に新規事項を加えるものであると考えられることなく、留保する。
本明細書における従来技術の議論は、決して、そのような従来技術が広く知られていた、公共に知られていた、あるいは技術常識の一部をなしていたこの自認と考えられるべきではない。
付属の請求項および本稿の記述において、有する、有しているという用語の任意のものは、少なくともその要素/特徴を含むがそれ以外を排除するものではないことを意味するオープンな用語である。このように、請求項で使われるときの用語、有するは、挙げられている手段または要素または段階だけであるものとして解釈されるべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本稿で使われる含む、含んでいるという用語の任意のものも、やはり少なくともその要素/特徴を含むがそれ以外を排除するものではないことを意味するオープンな用語である。このように、「含む」は「有する」と同義であり、「有する」を意味する。
同様に、請求項において使われるときの結合されたという用語は、直接接続のみに限定するものとして解釈されるべきではないことを注意しておく。用語「結合された」および「接続された」やその派生形が使用されることがある。これらの用語は互いに同義であると意図されてはいないことを理解しておくべきである。このように、「装置Bに結合された装置A」という表現は、装置Aの出力が直接、装置Bの入力に接続されている装置またはシステムに限定されるべきではない。それは、Aの出力とBの入力の間に、他の装置もしくは手段を含む経路であってもよい経路が存在することを意味する。「結合された」は、二つ以上の要素が直接に物理的または電気的接触をしていること、あるいは二つ以上の要素が直接互いと接触してはいないが、それでも互いと協働または相互作用することを意味しうる。
このように、本発明の好ましい実施形態であると信じられるものが記載されてきたが、当業者は、特許請求される本発明から外れることなくその他のおよびさらなる修正がそれらになされうることを認識するであろう。そのようなすべての変更および修正を特許請求することが意図されている。たとえば、上記で与えたいかなる公式も、単に使用されうる手順を表わすものである。機能は、追加され、あるいはブロック図から削除されてもよい。動作は機能ブロックの間で交換されてもよい。段階が、特許請求される本発明内で記載される方法に追加され、あるいは削除されてもよい。
本稿に付属する請求項は本稿の一部をなし、よって、参照による請求項の組み込みを許容する任意の法域において、本稿に参照によって組み込まれ、各請求項が少なくとも一つの例示的実施形態の異なる集合をなすことを注意しておく。そのような参照による組み込みを認めないいかなる法域についても、出願人は、本願の請求項を例示的実施形態の集合として挿入する権利を、かかる挿入が新規事項を加えるものであると考えられることなく、留保する。

Claims (61)

  1. 機械学習を使ってオンライン・ユーザーの心理測定モデルを生成する機械実装される方法(200)であって、当該方法は:
    (a)測定手段から、ユーザーの第一の集合のユーザーの測定された心理測定次元を受け容れて、前記第一の集合のユーザーの受け容れられた心理測定プロファイルを形成する段階であって、各心理測定プロファイルは、少なくとも一つの純粋に心理測定上の次元と、任意的には少なくとも一つの人口統計上の次元とを含む次元の集合を含む、段階と;
    (b)ユーザーの第二の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れて、要約行動データを形成する段階であって、前記第二の集合の各ユーザーは前記第一の集合にもはいっており、当該方法は、前記第二の集合の各ユーザーについては、前記受け容れられた測定された心理測定プロファイルと、前記各ユーザーの行動データとの両方をもつ、段階と;
    (c)前記第二の集合のユーザーの前記要約行動データおよび対応する前記受け容れられた測定された心理測定プロファイルを使って、心理測定プロファイルが未知であってもよいユーザーの心理測定プロファイルのそれぞれの次元を予測する少なくとも一つのそれぞれの機械学習方法をトレーニングする段階であって、心理測定プロファイルが未知であってもよいあるユーザーについてそれぞれの次元を予測するそれぞれの機械学習方法は、心理測定プロファイルが未知であってもよいそのユーザーのオンライン行動についての要約データを使う、段階と;
    (d)心理測定プロファイルが未知であってもよいユーザーの第三の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れ、前記第三の集合のユーザーの要約行動データを形成する段階と;
    (e)予測の前記トレーニングされた機械学習方法のうちの少なくとも一つを使って、前記第三の集合のユーザーの要約行動データから、ユーザーの前記第三の集合の各ユーザーの心理測定モデルを生成する段階と;
    (f)予測された心理測定モデルを記憶する段階とを含み、
    当該方法は、前記第一、第二および第三の集合の各ユーザーの匿名性を維持でき、前記第一、第二または第三の集合のユーザーの前記機械における任意のユーザーIDが、そのユーザーの匿名化されたユーザーIDである、
    機械実装される方法。
  2. 前記測定手段は、前記第一の集合のユーザーによるデータ入力によって測定を実行する、請求項1記載の機械実装される方法。
  3. 前記第一の集合のユーザーの各ユーザーの受け容れられる心理測定プロファイルは、前記第一の集合の各ユーザーから、そのユーザーを、当該方法においてそのユーザーの匿名性が維持されるような仕方でのそのユーザーによるデータ入力のために前記測定手段に送ることによって、測定される、請求項2記載の機械実装される方法。
  4. 前記第一の集合のユーザーへのアクセスが、サンプル・プロバイダー・システムによって提供され、前記サンプル・プロバイダー・システムでは前記第一の集合のユーザーはサンプル‐プロバイダー・ユーザーIDをもち、当該方法に提供される任意のサンプル‐プロバイダー・ユーザーIDは、匿名であるまたは当該方法に提供される前に匿名化されている、請求項1ないし3のうちいずれか一項記載の機械実装される方法。
  5. 前記サンプル・プロバイダー・システムは、そのユーザーについての人口統計情報を有し、前記第一の集合のユーザーは、少なくとも一つの人口統計基準に基づいて人口統計的に選択された前記サンプル・プロバイダーのユーザーである、請求項4記載の機械実装される方法。
  6. ユーザーの前記第二の集合の各ユーザーは、該各ユーザーのサンプル‐プロバイダー・ユーザーIDとは異なるターゲット母集団プロバイダー・ユーザーIDをもち、当該方法に提供される任意のターゲット母集団プロバイダー・ユーザーIDは、匿名であるまたは当該方法に提供される前に匿名化されている、請求項4または5記載の機械実装される方法。
  7. ユーザーの前記第二の集合は、前記サンプル・プロバイダーによって該ユーザーへのアクセスが提供され、ターゲット母集団プロバイダー・ユーザーIDをももつと判定されるユーザーの集合である、請求項6記載の機械実装される方法。
  8. 前記サンプル・プロバイダー・システムはそのユーザーについての人口統計情報をもち、少なくとも一つの人口統計基準に従ってユーザーの人口統計的選択を実行でき;
    前記サンプル・プロバイダー・システムは、ターゲット母集団プロバイダー・ユーザーIDをもち、オンライン行動についての十分な自動的に機械収集されたデータをもたないユーザーのフィルタ除去後に、前記少なくとも一つの人口統計基準に従って前記第二の集合にもはいるそのユーザーの人口統計的選択を実行する、
    請求項2ないし7のうちいずれか一項記載の機械実装される方法。
  9. ユーザーの第二の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れることが、前記第一の集合のユーザーの心理測定プロファイルの受け容れ後、かつ前記人口統計的なバランス化の実行後に行なわれる、請求億8記載の機械実装される方法。
  10. オンライン行動についての十分な自動的に機械収集されたデータをもつと判定されるユーザーのみが前記第二の集合に含まれる、請求項1ないし9のうちいずれか一項記載の機械実装される方法。
  11. ユーザーの前記第一の集合のユーザーは、バランスのとれた心理測定プロファイルをもつよう選択され、該選択は、心理測定プロファイルが収集済みであるユーザーからである、請求項1ないし10のうちいずれか一項記載の機械実装される方法。
  12. ユーザーの前記第一の集合のユーザーは、有効な心理測定プロファイルをもつよう選択され、該選択は、心理測定プロファイルが収集済みであるユーザーからである、請求項1ないし11のうちいずれか一項記載の機械実装される方法。
  13. オンライン行動についての前記受け容れられた自動的に機械収集されたデータに対して解析プロセスを実行して、前記要約行動データを形成することをさらに含む、請求項1ないし12のうちいずれか一項記載の機械実装される方法。
  14. 前記解析プロセスが教師なし分類を含む、請求項13記載の機械実装される方法。
  15. 前記第二の集合のそれぞれのユーザーのオンライン行動についての前記自動的に機械収集されたデータが、該それぞれのユーザーによるオンライン行動からのそれぞれのテキストを含み、前記解析プロセスが該テキストを解析することを含む、請求項13または14記載の機械実装される方法。
  16. 前記それぞれのテキストが、前記それぞれのユーザーが訪問したそれぞれのウェブサイトのものである、請求項15記載の機械実装される方法。
  17. 前記解析プロセスが、各ユーザーについての前記それぞれのテキストからいくつかのトピックを形成するトピック・モデル化を含む、請求項15または16記載の機械実装される方法。
  18. 前記いくつかのトピックが、数百のオーダーのトピックである、請求項17記載の機械実装される方法。
  19. 前記トピック・モデル化が、潜在ディリクレ割り当てを含む、請求項17または18記載の機械実装される方法。
  20. 前記第二の集合のそれぞれのユーザーのオンライン行動についての前記自動的に機械収集されたデータが、該それぞれのユーザーによるオンライン行動からの少なくとも一つのそれぞれの画像および/または少なくとも一つのオーディオ要素を含み、前記解析プロセスが前記少なくとも一つのそれぞれの画像および/または前記少なくとも一つのオーディオ要素を解析することを含む、請求項13ないし19のうちいずれか一項記載の機械実装される方法。
  21. 前記第二の集合のユーザーの前記要約行動データおよび対応する前記受け容れられた測定された心理測定プロファイルを使って、予測する少なくとも一つのそれぞれの機械学習方法をトレーニングする前記段階は、複数の機械学習方法をトレーニングして、各次元について、特定の機械学習方法を選択することを含む、請求項1ないし20のうちいずれか一項記載の機械実装される方法。
  22. 前記少なくとも一つの機械学習方法をトレーニングすることは、複数の機械学習方法をトレーニングして、各次元について、機械学習方法選択基準に従って、特定の機械学習方法および対応するモデルを選択することを含む、請求項1ないし20のうちいずれか一項記載の機械実装される方法。
  23. 前記選択は、交差確認を実行することを含む、請求項22記載の機械実装される方法。
  24. 前記少なくとも一つの機械学習方法が:サポートベクターマシン、ロジスティック回帰、決定木、ランダムフォレスト、勾配ブースティング木および単純ベイズからなる集合のうちの少なくとも一つを含む、請求項22記載の機械実装される方法。
  25. 特定の刺激に対するそれぞれのオンライン・ユーザーによる関与の確からしさをそれぞれのユーザーのそれぞれの心理測定モデルの関数として予測するモデルを決定する機械実装される方法(300)をさらに含む、請求項1ないし24のうちいずれか一項記載の機械実装される方法であって、予測する前記方法は:
    関与測定手段から、そのユーザーについての心理測定モデルが記憶されており、かつ、前記特定の刺激に対して関与するユーザーについての関与データを受け容れる段階と;
    その関与データが受け容れられたユーザーの、記憶されている心理測定モデルを取り出す段階と;
    少なくとも一つの機械学習方法をトレーニングして、その関与データが未知であってもよいユーザーの心理測定モデルに基づいてその関与データが未知であってもよいユーザーについての関与の確からしさの指標を予測する関与モデルを決定する段階であって、前記トレーニングは、その心理測定モデルが取り出されたユーザーについての受け容れられた関与データと、取り出された心理測定モデルとの両方を使う、段階とを含む、
    機械実装される方法。
  26. 特定の刺激に対するオンライン・ユーザーによる関与の確からしさの、ユーザーの心理測定モデルの関数としてのモデルを予測する機械実装される方法(300)であって、当該方法は:
    関与測定手段から、そのユーザーについての心理測定モデルが記憶されており、かつ、前記特定の刺激に対して関与するユーザーについての関与データを受け容れる段階と;
    その関与データが受け容れられたユーザーの、記憶されている心理測定モデルを取り出す段階と;
    少なくとも一つの機械学習方法をトレーニングして、その関与データが未知であってもよいユーザーの心理測定モデルに基づいてその関与データが未知であってもよいユーザーについての関与の確からしさの指標を予測する関与モデルを決定する段階であって、前記トレーニングは、その心理測定モデルが取り出されたユーザーについての受け容れられた関与データと、取り出された心理測定モデルとの両方を使う、段階とを含み、
    特定のユーザーの各心理測定モデルは、そのユーザーの予測された心理測定プロファイルであり、そのユーザーの、少なくとも一つの純粋に心理測定上の次元と、任意的には少なくとも一つの人口統計上の次元とを含む次元の集合を含む、
    機械実装される方法。
  27. その心理測定モデルが利用可能なユーザーの母集団に対して前記関与モデルを適用して、前記母集団のそれぞれのユーザーについて前記特定の刺激に対する関与の確からしさのそれぞれの指標を予測することをさらに含む、請求項26または25記載の機械実装される方法。
  28. 前記指標に従って前記ユーザーの母集団をランク付けすることをさらに含む、請求項27記載の機械実装される方法。
  29. ランク付けされた母集団を一組のオーディエンスに分割することをさらに含み、それぞれのオーディエンスは前記ランク付けにおけるそれぞれの範囲のユーザーからなる、請求項28記載の機械実装される方法。
  30. 前記関与モデルを適用して、少なくとも一つの特定の心理測定次元をもつユーザーを前記特定の刺激のターゲットとすること、および前記特定の刺激についての前記関与モデルを少なくとも一つの他の特定の刺激についての少なくとも一つの関与モデルと比較すること、からなるアクションの集合のうちの少なくとも一つを実行することをさらに含む、請求項26または25記載の機械実装される方法。
  31. オンライン・ユーザーの心理測定プロファイルを予測して該ユーザーの心理測定モデルを形成するシステムであって、当該システムは:
    (a)ユーザーの心理測定次元を測定するよう構成された測定手段と;
    (b)前記測定手段に結合された心理測定データ・アナリティクス・エンジン(PDAE)とを有しており、前記PDAEは:
    (i)少なくとも一つのプロセッサを含むプロセッサ集合と;
    (ii)記憶サブシステムとを有しており、
    前記記憶サブシステムは、前記プロセッサ集合の少なくとも一つのプロセッサによって実行されたときに請求項1ないし30のうちいずれか一項記載の機械実行される方法を実行するコードが記憶されている非一時的な機械可読媒体を有する、
    システム。
  32. オンライン・ユーザーの心理測定プロファイルを予測して該ユーザーの心理測定モデルを形成するシステムであって、当該システムは:
    (a)ユーザーの心理測定次元を測定するよう構成された測定手段と;
    (b)前記測定手段に結合された心理測定データ・アナリティクス・エンジン(PDAE)とを有しており、前記PDAEは:
    (i)コントローラと;
    (ii)前記コントローラに結合された記憶サブシステムと;
    (iii)前記コントローラおよび前記記憶サブシステムに結合され、前記PDAEに少なくとも前記測定手段およびネットワークとインターフェースをもたせるよう構成されているインターフェースであって、
    前記インターフェースは、前記コントローラの制御のもとで、前記測定手段から、ユーザーの第一の集合のユーザーの測定された心理測定次元を受け容れて、前記第一の集合のユーザーの受け容れられた心理測定プロファイルを形成するよう構成されており、各心理測定プロファイルは、少なくとも一つの純粋に心理測定上の次元と、任意的には少なくとも一つの人口統計上の次元とを含む次元の集合を含み、
    前記インターフェースは、前記コントローラの制御のもとで、ユーザーの第二の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを前記ネットワークを介して受け容れて、要約行動データを形成するよう構成されており、前記第二の集合の各ユーザーは前記第一の集合にもはいっている、インターフェースと;
    (iv)前記コントローラに結合され、少なくとも一つの機械学習方法を実行するよう構成されている機械学習エンジンと;
    (v)前記コントローラおよび前記機械学習エンジンに結合され、前記コントローラの制御のもとで、前記第二の集合のユーザーの前記要約行動データおよび対応する前記受け容れられた測定された心理測定プロファイルを使って、心理測定プロファイルが未知であってもよいユーザーの心理測定プロファイルのそれぞれの次元を予測する少なくとも一つのそれぞれの機械学習方法を、前記機械学習エンジンを使ってトレーニングさせるよう構成されている心理測定エンジンとを有しており、
    前記インターフェースは、前記コントローラの制御のもとで、心理測定プロファイルが未知であってもよいユーザーの第三の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れ、前記第三の集合のユーザーの要約行動データを形成するようにも構成されており、
    前記解析エンジンは、前記コントローラの制御のもとで、予測の前記トレーニングされた機械学習方法のうちの少なくとも一つを使って、前記第三の集合のユーザーの要約行動データから、ユーザーの前記第三の集合の各ユーザーの心理測定モデルを生成し、予測された心理測定モデルを記憶するよう構成されており、
    前記PDAEは、前記第一、第二および第三の集合の各ユーザーの匿名性を維持するよう構成されている、
    システム。
  33. 前記測定手段は、前記第一の集合のユーザーによるデータ入力によって測定を実行する、請求項32ないし47のうちいずれか一項記載のシステム。
  34. 前記第一の集合のユーザーの各ユーザーの受け容れられる心理測定プロファイルは、前記第一の集合の各ユーザーから、そのユーザーを、前記PDAEにおいてそのユーザーの匿名性が維持されるような仕方でのそのユーザーによるデータ入力のために前記測定手段に送ることによって、測定される、請求項33記載のシステム。
  35. 前記第一の集合のユーザーへのアクセスが、サンプル・プロバイダー・システムによって提供され、前記サンプル・プロバイダー・システムでは前記第一の集合のユーザーはサンプル‐プロバイダー・ユーザーIDをもち、前記PDAEに提供される任意のサンプル‐プロバイダー・ユーザーIDは、匿名であるまたは前記PDAEに提供される前に匿名化されている、請求項32ないし34のうちいずれか一項記載のシステム。
  36. 前記サンプル・プロバイダー・システムは、そのユーザーについての人口統計情報を有し、前記第一の集合のユーザーは、少なくとも一つの人口統計基準に基づいて人口統計的に選択された前記サンプル・プロバイダーのユーザーである、請求項35記載のシステム。
  37. ユーザーの前記第二の集合の各ユーザーは、該各ユーザーのサンプル‐プロバイダー・ユーザーIDとは異なるターゲット‐プロバイダー・ユーザーIDをもち、当該方法に提供される任意のターゲット・プロバイダー・ユーザーIDは、匿名であるまたは前記PDAEに提供される前に匿名化されている、請求項35または36記載のシステム。
  38. ユーザーの前記第二の集合は、前記サンプル・プロバイダーによって該ユーザーへのアクセスが提供され、ターゲット‐プロバイダー・ユーザーIDをももつと判定されるユーザーの集合である、請求項37記載のシステム。
  39. 前記第二の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れる前に、ターゲット‐プロバイダー・ユーザーIDをもち、オンライン行動についての十分な自動的に機械収集されたデータをもたないユーザーがフィルタ除去される、請求項38記載のシステム。
  40. 前記サンプル・プロバイダー・システムはそのユーザーについての人口統計情報をもち、少なくとも一つの人口統計基準に従ってユーザーの人口統計的選択を実行でき;
    前記サンプル・プロバイダー・システムは、ターゲット母集団プロバイダー・ユーザーIDをもち、オンライン行動についての十分な自動的に機械収集されたデータをもたないユーザーのフィルタ除去後に、前記少なくとも一つの人口統計基準に従って前記第二の集合にもはいるそのユーザーの人口統計的選択を実行する、
    請求項47ないし39のうちいずれか一項記載のシステム。
  41. 前記第二の集合のユーザーのオンライン行動についての自動的に機械収集されたデータを受け容れることが、前記第一の集合のユーザーの心理測定プロファイルの受け容れ後、かつ前記人口統計的なバランス化の実行後に行なわれる、請求億40記載のシステム。
  42. オンライン行動についての十分な自動的に機械収集されたデータをもつと判定されるユーザーのみが前記第二の集合に含まれる、請求項32ないし41のうちいずれか一項記載のシステム。
  43. ユーザーの前記第一の集合のユーザーは、バランスのとれた心理測定プロファイルをもつよう選択され、該選択は、心理測定プロファイルが収集済みであるユーザーからである、請求項32ないし42のうちいずれか一項記載のシステム。
  44. ユーザーの前記第一の集合のユーザーは、有効な心理測定プロファイルをもつよう選択され、該選択は、心理測定プロファイルが収集済みであるユーザーからである、請求項32ないし43のうちいずれか一項記載のシステム。
  45. 前記PDAEがさらに:
    前記コントローラおよび前記記憶サブシステムに結合され、ユーザーのオンライン行動についての前記受け容れられた自動的に機械収集されたデータに対して解析プロセスを実行して、前記要約行動データを形成するよう構成された解析エンジンを有する、
    請求項32ないし44のうちいずれか一項記載の機械実装される方法。
  46. 前記解析エンジンが前記機械学習エンジンにも結合されている、請求項45記載のシステム。
  47. 前記解析エンジンが少なくとも一つの教師なし学習方法を使うようにも構成されている、請求項45または46記載のシステム。
  48. 前記第二の集合のそれぞれのユーザーのオンライン行動についての前記自動的に機械収集されたデータが、該それぞれのユーザーによるオンライン行動からのそれぞれのテキストを含み、前記解析プロセスが該テキストを解析することを含む、請求項45または47記載のシステム。
  49. 前記それぞれのテキストが、前記それぞれのユーザーが訪問したそれぞれのウェブサイトのものである、請求項48記載のシステム。
  50. 前記解析プロセスが、各ユーザーについての前記それぞれのテキストからいくつかのトピックを形成するトピック・モデル化を含む、請求項48または49記載のシステム。
  51. 前記いくつかのトピックが、数百のオーダーのトピックである、請求項50記載のシステム。
  52. 前記トピック・モデル化が、潜在ディリクレ割り当てを含む、請求項50または51記載のシステム。
  53. 前記第二の集合のユーザーの前記要約行動データおよび対応する前記受け容れられた測定された心理測定プロファイルを使って、予測する少なくとも一つのそれぞれの機械学習方法をトレーニングすることは、複数の機械学習方法をトレーニングして、各次元について、特定の機械学習方法を選択することを含む、請求項32ないし52のうちいずれか一項記載のシステム。
  54. 前記少なくとも一つの機械学習方法をトレーニングすることは、複数の機械学習方法をトレーニングして、各次元について、機械学習方法選択基準に従って、特定の機械学習方法および対応するモデルを選択することを含む、請求項32ないし53のうちいずれか一項記載のシステム。
  55. 前記選択は、交差確認を実行することを含む、請求項54記載のシステム。
  56. 前記少なくとも一つの機械学習方法が:サポートベクターマシン、ロジスティック回帰、決定木、ランダムフォレスト、勾配ブースティング木および単純ベイズからなる集合のうちの少なくとも一つを含む、請求項54記載のシステム。
  57. 前記PDAEがさらに、ユーザーの心理測定モデルおよび関与データを使って特定の刺激に対する関与の確からしさを予測するモデルを形成することを実行するようにも構成されている、請求項32ないし56のうちいずれか一項記載のシステムであって、
    前記インターフェースは、前記コントローラの制御のもとに、関与測定手段から、そのユーザーについての心理測定モデルが利用可能であり、かつ、前記特定の刺激に対して関与するユーザーについての関与データを受け容れるよう構成されており;
    前記PDAEの前記コントローラは関与モデル化エンジンに結合され、該関与モデル化エンジンを制御するよう構成されており、前記関与モデル化エンジンは前記機械学習エンジンおよび前記記憶サブシステムに結合され、その関与データが受け容れられたユーザーの、記憶されている心理測定モデルを取り出すよう構成されており;
    前記関与モデル化エンジンはさらに、前記機械学習エンジンに、その心理測定モデルが取り出されたユーザーについての受け容れられた関与データと、取り出された心理測定モデルとの両方を使って、前記機械学習エンジンの機械学習方法の少なくとも一つをトレーニングして、その関与データが未知であってもよいユーザーについての心理測定モデルに基づいてその関与データが未知であってもよいユーザーについての関与の確からしさの指標を予測する関与モデルを決定することをさせるよう構成されている、
    システム。
  58. 前記関与モデル化エンジンはさらに、その心理測定モデルが利用可能なユーザーの母集団に対して前記関与モデルを適用して、前記母集団のそれぞれのユーザーについて前記特定の刺激に対する関与の確からしさのそれぞれの指標を予測するよう構成されている、請求項57記載のシステム。
  59. 前記関与モデル化エンジンは、前記指標に従って前記ユーザーの母集団をランク付けするようさらに構成されている、請求項58記載の機械実装されるシステム。
  60. 前記関与モデル化エンジンは、ランク付けされた母集団を一組のオーディエンスに分割するようさらに構成されており、それぞれのオーディエンスは前記ランク付けにおけるそれぞれの範囲のユーザーからなる、請求項59記載のシステム。
  61. 前記関与モデル化エンジンはさらに、少なくとも一つの特定の心理測定次元をもつユーザーを前記特定の刺激のターゲットとすること、および前記特定の刺激についての前記関与モデルを少なくとも一つの他の特定の刺激についての少なくとも一つの関与モデルと比較すること、からなるアクションの集合のうちの少なくとも一つを実行するよう構成されている、請求項57記載のシステム。
JP2018566555A 2016-06-21 2017-06-09 ユーザー匿名性を維持しつつ機械学習を使って行動データから心理測定プロファイルを予測すること Pending JP2019527874A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662352705P 2016-06-21 2016-06-21
US62/352,705 2016-06-21
PCT/US2017/036875 WO2017222836A1 (en) 2016-06-21 2017-06-09 Predicting psychometric profiles from behavioral data using machine-learning while maintaining user anonymity

Publications (1)

Publication Number Publication Date
JP2019527874A true JP2019527874A (ja) 2019-10-03

Family

ID=60783551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018566555A Pending JP2019527874A (ja) 2016-06-21 2017-06-09 ユーザー匿名性を維持しつつ機械学習を使って行動データから心理測定プロファイルを予測すること

Country Status (6)

Country Link
US (1) US20190102802A1 (ja)
EP (1) EP3472715A4 (ja)
JP (1) JP2019527874A (ja)
CN (1) CN109451757A (ja)
CA (1) CA3027129A1 (ja)
WO (1) WO2017222836A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102190651B1 (ko) * 2019-10-16 2020-12-14 주식회사 카카오 인스턴트 메시지의 전송 대상을 결정하는 방법 및 그 장치
KR20210045344A (ko) * 2019-10-16 2021-04-26 주식회사 카카오 인스턴트 메시지의 전송 대상을 결정하는 방법 및 그 장치
WO2021085188A1 (ja) * 2019-10-29 2021-05-06 ソニー株式会社 バイアス調整装置、情報処理装置、情報処理方法及び情報処理プログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698422B2 (en) * 2007-09-10 2010-04-13 Specific Media, Inc. System and method of determining user demographic profiles of anonymous users
EP3471027A1 (en) * 2017-10-13 2019-04-17 Siemens Aktiengesellschaft A method for computer-implemented determination of a data-driven prediction model
US20190122267A1 (en) * 2017-10-24 2019-04-25 Kaptivating Technology Llc Multi-stage content analysis system that profiles users and selects promotions
CN110019392B (zh) * 2017-11-07 2021-07-23 北京大米科技有限公司 在网络教学系统中推荐教师的方法
US11533272B1 (en) * 2018-02-06 2022-12-20 Amesite Inc. Computer based education methods and apparatus
US11334928B2 (en) * 2018-04-23 2022-05-17 Microsoft Technology Licensing, Llc Capturing company page quality
US11250497B2 (en) * 2018-05-16 2022-02-15 Sap Se Data generation in digital advertising ecosystems
CN113810224B (zh) 2018-06-26 2022-11-25 华为技术有限公司 一种信息处理方法及装置
US11734728B2 (en) * 2019-02-20 2023-08-22 [24]7.ai, Inc. Method and apparatus for providing web advertisements to users
US11797879B2 (en) * 2019-05-13 2023-10-24 Sap Se Machine learning on distributed customer data while protecting privacy
WO2020234860A1 (en) * 2019-05-20 2020-11-26 Viaccess-Orca Israel Ltd. System and method for prediction of tv users engagement
US20210056458A1 (en) * 2019-08-20 2021-02-25 Adobe Inc. Predicting a persona class based on overlap-agnostic machine learning models for distributing persona-based digital content
US11000218B2 (en) * 2019-08-22 2021-05-11 Raghavendra Misra Systems and methods for dynamically providing and developing behavioral insights for individuals and groups
US11170349B2 (en) * 2019-08-22 2021-11-09 Raghavendra Misra Systems and methods for dynamically providing behavioral insights and meeting guidance
US20210065276A1 (en) * 2019-08-28 2021-03-04 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
US10839033B1 (en) * 2019-11-26 2020-11-17 Vui, Inc. Referring expression generation
EP4070229A4 (en) * 2019-12-05 2023-12-27 Murray B. Wilshinsky METHOD AND SYSTEM FOR SELF-AGGREGATION OF PERSONAL DATA AND THEIR CONTROL
US11734360B2 (en) * 2019-12-18 2023-08-22 Catachi Co. Methods and systems for facilitating classification of documents
US11475155B1 (en) * 2020-01-21 2022-10-18 Deepintent, Inc. Utilizing a protected server environment to protect data used to train a machine learning system
US11620673B1 (en) * 2020-01-21 2023-04-04 Deepintent, Inc. Interactive estimates of media delivery and user interactions based on secure merges of de-identified records
CN113407708A (zh) * 2020-03-17 2021-09-17 阿里巴巴集团控股有限公司 提要生成方法、信息生成及信息推荐方法、装置及设备
CN111476281B (zh) * 2020-03-27 2020-12-22 北京微播易科技股份有限公司 一种信息流行度预测方法和装置
CN111553482B (zh) * 2020-04-09 2023-08-08 哈尔滨工业大学 机器学习模型超参数的调优方法
CN112330362A (zh) * 2020-11-04 2021-02-05 江苏瑞祥科技集团有限公司 用于互联网商城用户行为习惯的快速数据智能分析方法
CN112579909A (zh) * 2020-12-28 2021-03-30 北京百度网讯科技有限公司 对象推荐方法及装置、计算机设备和介质
US20220238204A1 (en) * 2021-01-25 2022-07-28 Solsten, Inc. Systems and methods to link psychological parameters across various platforms
CN112446556B (zh) * 2021-01-27 2021-04-30 电子科技大学 基于表示学习和行为特征的通信网用户呼叫对象预测方法
EP4044103A1 (en) * 2021-02-11 2022-08-17 PatientBond, Inc. Systems and methods for generating and delivering psychographically segmented content to targeted user devices
US11055737B1 (en) * 2021-02-22 2021-07-06 Deepintent, Inc. Automatic data integration for performance measurement of multiple separate digital transmissions with continuous optimization
US11961611B2 (en) 2021-05-03 2024-04-16 Evernorth Strategic Development, Inc. Automated bias correction for database systems
US11646122B2 (en) 2021-05-20 2023-05-09 Solsten, Inc. Systems and methods to facilitate adjusting content to facilitate therapeutic outcomes of subjects
US11676163B1 (en) * 2022-08-23 2023-06-13 Rosetal System Information Ltd. System and method for determining a likelihood of a prospective client to conduct a real estate transaction

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013010104A1 (en) * 2011-07-13 2013-01-17 Bluefin Labs, Inc. Topic and time based media affinity estimation
WO2015134767A1 (en) * 2014-03-05 2015-09-11 24/7 Customer, Inc. Method and apparatus for personalizing customer interaction experiences
WO2016029178A1 (en) * 2014-08-22 2016-02-25 Adelphic, Inc. Audience on networked devices

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102190651B1 (ko) * 2019-10-16 2020-12-14 주식회사 카카오 인스턴트 메시지의 전송 대상을 결정하는 방법 및 그 장치
KR20210045344A (ko) * 2019-10-16 2021-04-26 주식회사 카카오 인스턴트 메시지의 전송 대상을 결정하는 방법 및 그 장치
KR102272821B1 (ko) * 2019-10-16 2021-07-05 주식회사 카카오 인스턴트 메시지의 전송 대상을 결정하는 방법 및 그 장치
WO2021085188A1 (ja) * 2019-10-29 2021-05-06 ソニー株式会社 バイアス調整装置、情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
US20190102802A1 (en) 2019-04-04
CN109451757A (zh) 2019-03-08
WO2017222836A1 (en) 2017-12-28
CA3027129A1 (en) 2017-12-28
EP3472715A1 (en) 2019-04-24
EP3472715A4 (en) 2019-12-18

Similar Documents

Publication Publication Date Title
US20190102802A1 (en) Predicting psychometric profiles from behavioral data using machine-learning while maintaining user anonymity
US20200242669A1 (en) Systems and methods for providing personalized transaction recommendations
Alahmadi et al. ISTS: Implicit social trust and sentiment based approach to recommender systems
US10719889B2 (en) Secondary profiles with confidence scores
Volkova et al. Mining user interests to predict perceived psycho-demographic traits on twitter
US20140195303A1 (en) Method of automated group identification based on social and behavioral information
US9411860B2 (en) Capturing intentions within online text
Moe et al. Social media analytics
He et al. Detecting fake-review buyers using network structure: Direct evidence from Amazon
Furquim et al. The different phases of the omnichannel consumer buying journey: a systematic literature review and future research directions
Zimbra et al. Movie aspects, tweet metrics, and movie revenues: The influence of iOS vs. Android
Ascarza et al. Eliminating unintended bias in personalized policies using bias-eliminating adapted trees (BEAT)
Poluru et al. Applications of Domain-Specific Predictive Analytics Applied to Big Data
US20210350202A1 (en) Methods and systems of automatic creation of user personas
Saba et al. Revolutionizing digital marketing using machine learning
Shi et al. Impact of social media on real estate sales
Ma Modeling users for online advertising
US11778049B1 (en) Machine learning to determine the relevance of creative content to a provided set of users and an interactive user interface for improving the relevance
Kumar Information Diffusion and Summarization in Social Networks
Choudhary et al. Effectual Seed Pick Framework Focusing on Maximizing Influence in Social Networks
Jain et al. Hashtag# perspicacity of India Region using scalable big data infrastructure using Hadoop environment
EP4383177A1 (en) User representation for matching
Ke On the Supply of Online Reviews: Volume, Valence, and Quality
CA2665588C (en) Method and system for determining on-line influence in social media
Barreiro Decision Modelling Driven by Twitter Data: a Case Study of the 2017 Presidential Election in Ecuador

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181225