JP2016524259A - 動的リサーチパネル - Google Patents
動的リサーチパネル Download PDFInfo
- Publication number
- JP2016524259A JP2016524259A JP2016524290A JP2016524290A JP2016524259A JP 2016524259 A JP2016524259 A JP 2016524259A JP 2016524290 A JP2016524290 A JP 2016524290A JP 2016524290 A JP2016524290 A JP 2016524290A JP 2016524259 A JP2016524259 A JP 2016524259A
- Authority
- JP
- Japan
- Prior art keywords
- cases
- frequency
- case
- subset
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011160 research Methods 0.000 title description 13
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 239000003550 marker Substances 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
動的重み付け及び無作為割り当ての適用による、大きな代表的でないデータセットから代表標本を抽出するための技法及びアルゴリズム。アルゴリズムにより、集団として、顕著な変数の任意の所望の比率と密接に適合する、個々の標本選択が可能となる。無作為化アルゴリズムにより、多数の代表的な集団が、同一の大きな代表的でないデータセットから抽出されることが可能となる。【選択図】図1
Description
関連出願の相互参照
本出願は、本明細書に完全に含まれるように参照により組み込まれている、2013年6月28日に出願された米国仮出願第61/841,118号の優先権を主張するものである。
本出願は、本明細書に完全に含まれるように参照により組み込まれている、2013年6月28日に出願された米国仮出願第61/841,118号の優先権を主張するものである。
本出願は、一般に、オンライン世論調査に関し、より詳細には、世論調査データの結果の無作為標本を作成し、結果として生じるデータセットにおける外的妥当性を可能にすることに関する。
Web2.0やビッグデータサービスとして知られる、インターネット及びオンライン上の場やデジタルプロパティ内において、社会的及び専門的ネットワークを介して構築され共有される情報は、有用であるためにより確実で代表的である必要がある、という新たなレベルの理解に我々は現在移行している。特に、人々が自身の生活における様々な話題や自身の世界における問題について実際に考えていることに関する、正確で、数値化可能で、包括的なデータを獲得するという満たされない需要がある。一例として、どんな製品またはサービスも開発及び販売を最適に計画するためには、商品担当者やマーケティング担当者が、製品の特長、サービスの魅力、動向、価格設定に関して顧客の意見を最も良く理解することと同様に、顧客の興味や意思決定過程への信頼できる測定可能な洞察力を有することが不可欠である。政治、文化、スポーツ、娯楽、地理的、教育的及び職業的な動向の推定等を含め、人々の生活のその他全ての分野における分析者についても同じことが言える。
調査研究における無作為標本の使用は、回答者のかなりの割合が有志であるか、または自身を被験者プールに自薦する、回答者の便宜的標本に置き換わってきている。自薦の回答者は基礎をなす母集団を通常は代表せず、標本から母集団にパラメータを投影するために推計統計学を適用できない。現在のところ、これらのデータは修正せずに表されるか、または重み付けされて、すなわち、過少に表された集団の代表を増加させ、過剰に表された集団の代表を減少させるように相対的な数学的重みを各被験者に割り当てて表される。
重み付けは、スキューされたデータセットから、より代表的な結果を生成するための許容可能な技法と考えられている。しかし、この技法には2つの問題がある。第一に、情報をデータセットに付加するために(横断的観察ではなく、縦断的観察を提供するために)、初期標本の全ての構成員が、通常は回答者につきかなりの費用で、再度調査されなければならない。第二に、過剰に表されたケースはデータセットにおける個人のごく一部として集計されるのに対して、過少に表されたケースは一個人よりも多いものとして集計されるので、重みは、個人の行動を投影するように結果を適用することに関する問題を引き起こす。
本発明は、調査または世論調査への代表的でない回答のセットから、統計上代表的な副次標本を抽出するための方法及びシステムに関する。この目的は、回答の体系的且つ合目的な選択を提供するようにアルゴリズム(「DRPアルゴリズム」)を適用することによって達成される。
一実施形態において、技法は、ケースの標本のためのデータを受信するステップであって、ケースが少なくとも1つの変数を備え、ケースの標本におけるケースのそれぞれが、少なくとも1つの変数のそれぞれのための標識を有する、ステップと、ケースのセットにおけるケースのそれぞれに、そのケースの標識のそれぞれのためのケースのセット中の度数に基づき重みを割り当てるステップであって、前記重みが、標識のそれぞれのための所望のパネル度数にさらに基づく、ステップと、ケースのセットからケースのサブセットを無作為に選択するステップと、を含み、標識のそれぞれのために、選択されたサブセットにおける標識の度数が、その標識のための所望のパネル度数に近似するように、無作為な選択が、ユーザの割り当てられた重みに従って重み付けされる、方法として実現できる。
この実施形態の他の態様によれば、標識は人口動態変数とすることができ、所望のパネル度数は、人口動態変数に関する母集団における既知の度数である。
この実施形態の他の態様によれば、当該方法はさらに、所望のパネル度数に近似する度数を備える標識を有する選択されたサブセットに基づき、選択されたサブセットと関連するデータを分析することを含むことができる。
この実施形態の他の態様によれば、ケースのサブセットを無作為に選択することは、ケースのそれぞれに確率変数を割り当てることと、選択閾値を生成するように、それぞれのケースの割り当てられた重みを、ケースの割り当てられた確率変数によって除算することと、最も高い選択閾値を有するケースを選択すること、を含むことができる。
この実施形態の他の態様によれば、無作為な選択は、標識のそれぞれのために、選択されたサブセットにおける標識の度数が、その標識のための所望のパネル度数に近似するように、ユーザの割り当てられた重みに従って重み付けできる。
この実施形態の他の態様によれば、当該方法はさらに、サブセットからのデータをデータの代表標本として表示することを含むことができる。
別の実施形態によれば、技法は、少なくとも1つのプロセッサ可読の記憶媒体と、当該少なくとも1つの媒体に記憶された命令と、を含む製品として実現できる。命令は、少なくとも1つのプロセッサによって、少なくとも1つの媒体から可読であるように構成でき、これにより、少なくとも1つのプロセッサを、上述の方法におけるあらゆるステップを実行するように動作させる。
別の実施形態によれば、技法は、ネットワークに通信可能に結合された1つまたは複数のプロセッサを含むシステムとして実現でき、当該1つまたは複数のプロセッサは、上記の実施形態のいずれかに関して説明されたあらゆるステップを実行するように構成される。
本開示は、添付の図面に示したように、その特定の実施形態を参照して次にさらに詳細に説明される。本開示は特定の実施形態を参照して以下で説明されるが、本開示はその実施形態に限定されないことを理解すべきである。本明細書における教示を利用する当業者は、追加の実施態様、修正形態及び実施形態ならびにその他の使用分野を認識するであろう。それらは、本明細書において説明される本開示の範囲内にあり、また、それらに対して本開示には重要な有用性がある。
本発明のさらなる理解は、後続の詳細な説明と併せて考察される際に、添付の図面を参照することによって獲得できる。
本発明に従った代表標本を生成するための方法を表すフローチャートである。
本発明に従った1つの標識を有する例示的な標本のためのデータを示す図である。
本発明に従った図2Aの例示的な標本からの選択されたパネルを含む選択リストである。
本発明に従った2つの標識を有する例示的な標本のためのデータを示す図である。
本発明に従った2つの標識を有する例示的な標本のためのデータを示す図である。
本発明に従った図3A及び図3Bの例示的な標本からの選択されたパネルを示す図である。
本発明に従った3つの標識を有する例示的な標本のためのデータを示す図である。
本発明に従った図4Aの例示的な標本からの第1の選択されたパネルを示す図である。
本発明に従った図4Aの例示的な標本からの第1の選択されたパネルからのデータを示す図である。
本発明に従った図4Aの例示的な標本からの第2の選択されたパネルからのデータを示す図である。
本発明に従った図4Aの例示的な標本からの第3の選択されたパネルからのデータを示す図である。
本発明は、調査または世論調査への代表的でない回答のセットから、統計上代表的な副次標本を抽出するための方法及びシステムに関する。当該方法は、大きなデータセットの副次標本を選択するアルゴリズムを使用し、検討される母集団を表すユーザのサブセットを作成する。本発明のために作成されるアルゴリズムは、大きなデータセットを分析する新規且つ固有の方法である。
本発明は、代表的でないデータセットから1つまたは複数の代表的な副次標本を生成するアルゴリズムを提供する。本発明は、我々が動的リサーチパネル(Dynamic Research Panel)と呼ぶものを生成する選択過程及び多段階過程において使用されるアルゴリズムを包含する。
初期標本から新たな副次標本を作成し、異なる被験者による多数のフォローアップの機会を可能にし、また、代表性の程度を測定するために副次標本の相互の比較を可能にするように、アルゴリズムが回数の制限なく実行できるので、「動的(Dynamic)」という用語が使用される。
本発明は、大きな代表的でないデータセットと関連する2つの問題を解決する。第一に、本発明は、初期データセットよりも基礎をなす母集団をより良好に表すデータセットの副次標本を生成する。第二に、本発明は、初期標本の代表的な副次標本を特定することにより、フォローアップリサーチを行う費用を削減する。調査研究の主な費用は、調査を行い、回答者に報酬を支払う費用であるので、フォローアップに必要とされるケースの数が減少すると、フォローアップリサーチをする費用が実質的に削減され、また、より迅速でより手ごろなリサーチ結果を提供できる。
本発明はまた、無作為割り当てと重み付けとの組合せを使用して大きなデータセットの代表的な副次標本を定義及び抽出することにより、無作為標本を必要とする統計的分析技法を、大きなデータセットの分析に適用することを可能にする。
初期標本から新たな副次標本を作成し、異なる被験者による多数のフォローアップの機会を可能にし、また、代表性の程度を測定するために副次標本の相互の比較を可能にするように、アルゴリズムが回数の制限なく実行できるので、「動的」という用語が使用される。新たな動的リサーチパネルを作成するための手順は初期シーケンスと同一であり、唯一の変更は各ケースのために新たな「乱数種」を生成することである。このアルゴリズムで使用されるこれらの用語は、以下で説明される。
いくつかの実施形態において、「標識(Marker)」とは、母集団中の既知の分布を有する単一の変数であると理解できる。様々な異なる変数が調査される個人に対して使用できることを、当業者は認識するであろう。例として、また、列挙される以下に限定されることを意図しないが、変数は、人口動態、地理的、心理的及び行動変数ならびにその他を含むことができる。
人口動態変数は、例えば、年齢や性別、所得、学歴、婚姻関係の有無、所属政党、世帯人員、子どもの数、所属宗教、雇用状態を含むことができる。地理的変数は、例えば、郵便番号や市、郡、州、地域、国、地域サービス区域(LATA)、開発レベル(都市、郊外または地方)を含むことができる。心理的変数は、例えば、性格、生活様式、社会階級、活動や興味(健康状態、趣味、買い物、読書等)、見解(政治、経済、社会問題等)、考え方や価値観(健康、安全性、セキュリティ、自己尊重、他人との友好関係、達成感、自己充足、被尊重感、帰属意識、面白さ・享楽・興奮等)を含むことができる。行動変数は、例えば、購買行動や通勤距離、メディア消費(テレビ、ラジオ、インターネット、新聞、ソーシャルメディア、雑誌等)を含むことができる。他の変数は、例えば、知性や成績評価平均値、大学の専攻、職種を含むことができる。多くの他の変数が当分野で知られている。
いくつかの実施形態において、「乱数種(Random Seed)」とは、コンピュータによって割り当てられる0と1の間の疑似乱数であると理解できる。生成される各「乱数種」は、0と1の間の線上の任意の場所にある機会をほぼ平等に有すると想定される(すなわち、0と1の間の数の分布は、ほぼ均一のはずである)。
いくつかの実施形態において、「初期標本の大きさ(Initial Sample Size)」とは、動的リサーチパネルが導き出されるデータセットにおけるケースの数であると理解できる。場合によっては、初期標本の大きさは、取得されたデータ全体を表さないこともあることが理解されよう。例えば、利用可能なデータの母集団が大きすぎて全ての被験者にアルゴリズムを実行できないいくつかの実施態様においては、無作為標本が、初期標本を形成するために、データのより大きな母集団から選択できる。他の実施態様において、初期標本は、調査される被験者の母集団全体であってもよい。いずれにせよ、初期標本は、データのどんなセットも、DRPを形成するために被験者が無作為に抜き取られるデータのセットを表すものであって、「初期標本の大きさ」は、どんな数もこの集団内にいる構成員の数である。
いくつかの実施形態において、「指定された標本の大きさ(Designated Sample Size、DSS)」とは、「初期標本の大きさ」の値よりも小さな、ユーザによって特定されたパラメータであると理解できる。DSSは、DRPアルゴリズムが実行される場合に、結果として生じるパネルの大きさである。
DRPアルゴリズムを使用する場合に結果的に適切な代表標本になるように、DSSには最大の大きさがあることを認識すべきである。初期標本の大きさよりも小さくする必要性に加えて、母集団内の任意の特定の下位集団が、パネルにおいて所望の割合を達成するために、パネル内に存在する母集団からのその構成員全てを有する必要がある場合に、DSSの大きさは最大である。例えば、ある集団がパネルのうちの10%を占め、初期標本におけるその集団の構成員が20人である場合、DSSは、200よりも著しく大きいものとすることができない。パネルが200を著しく超える被験者を含む場合、その特定の集団から20を超えて選択することはさらに不可能であり、そうすると、その集団はやがてパネルのうちの10%よりも低いものとなる。
いくつかの実施形態において、「選択リスト」とは、初期データセットからのケースの順序付きリストであると理解でき、その初期データセットから、第1のN個のケースが動的リサーチパネルを構成する。DRPアルゴリズムの目的は、所望の標識の濃度を正確に表す選択リストを作成することである。
動的リサーチパネルは、図1に表すように、多段階過程100において作成される。分析における最初のステップは、母集団を表すことのできる、または表すことのできない大きなデータセットを獲得することであり、当該データセットは代表のために作成される。これ以降で「標識」と呼ばれる、既知の分布を有する変数のセットが定義され、母集団及び標本における相対的な比率が、次の式を使用して各標識のための重みを作成するのに使用される。
MW(Marker Weight、標識重み)=PP/SP
ここで、PPとは結果として生じるパネルにおける標識の目標の比率であり、SPとは初期標本における標識の比率である。
MW(Marker Weight、標識重み)=PP/SP
ここで、PPとは結果として生じるパネルにおける標識の目標の比率であり、SPとは初期標本における標識の比率である。
例えば、我々の初期標本は大卒者が30パーセントであり、我々が、大卒者が20パーセントであるパネルを必要とする場合、大卒者のための我々の標識重みは、MW=.2/.3、すなわち、.67であろう。各変数のための各値は、標識重みを割り当てられなければならない(ステップ102)。
各標識が標識重みを割り当てられると、初期標本における各特定のケースは、そのケースと関連した標識のそれぞれの重みに基づいて、動的重みを割り当てられる(ステップ104)。動的重みは、標識重みのそれぞれの積である。
DW(Dynamic Weight、動的重み)=MWA *MWB *MWC *・・・MWN
ここで、MWXとは標識Xに割り当てられる重みであり、Nとは特定のケースに適用される異なる標識の数である。
DW(Dynamic Weight、動的重み)=MWA *MWB *MWC *・・・MWN
ここで、MWXとは標識Xに割り当てられる重みであり、Nとは特定のケースに適用される異なる標識の数である。
例えば、単に2つの変数として人種及び学歴について、「白人」は.5の標識重みを有し、「大卒者」は.67の標識重みを有する場合、白人の大卒者である初期標本内のケースは、.5*.67=.33の動的重みを有することになる。
初期標本内のケースのそれぞれにケースの標識に基づいて動的重みを割り当てることに加えて、各ケースは乱数種も割り当てられる(ステップ106)。乱数種の値はそれぞれが、上述のように、0と1の間の均一な分布から無作為に選択されなければならない。すなわち、乱数種の値は、DWまたは特定のケースと関連した任意のその他の値に依存すべきでない。
次に、選択閾値が各ケースのために計算される(ステップ108)。選択閾値は、動的重みを乱数種で除算したものである。選択閾値は、任意の正の実数とすることができる。ケースの選択閾値が高ければ高いほど、すぐにそれはパネル内に含まれるように選択される。
どのケースがパネルに載るかを決定するために、まず最も高い選択閾値を有するケースを選び、その後そのケースをパネルに付加する。選択されたケースの数がDSSと等しくなるまで、残りのケースの中で最も高い選択閾値をはじめとしてケースを付加し続ける(ステップ110)。
このステップを表す別の方法は、選択閾値によりケースを降順にソートして、選択リストを作成することである。選択リスト上の第1のDSSのケースが、動的リサーチパネルを構成する。
初期標本から新たな副次標本を作成し、異なる被験者による多数のフォローアップの機会を可能にし、また、代表性の程度を測定するために副次標本の相互の比較を可能にするように、アルゴリズムが回数の制限なく実行できるので、「動的」という用語が使用される。
同一の初期標本を用いて再びアルゴリズムを実行するために、ケースのための乱数種の新たなセットを生成し、その新たな乱数種及び既存のDWの値に基づき選択閾値を再計算し、その後、新たな選択閾値に基づき選択リストを再度ソートする。
残りの図は、本明細書において説明される方法に従ってソートされたデータセットのいくつかの実施例を提供するものである。図2Aは、15人が女性あり、5人が男性である、20個のケースの例示的なデータセットである。半分が男性であり、半分が女性である10個のケースのパネルを選択することが所望される。
図2Bは、各ケースが乱数種を割り当てられ、結果として生じる選択閾値が計算された後の選択リストを示す。陰影付きのケースは、最も高い選択閾値を有する10個のケースを表す。結果は、期待通り、男性の標識が5人であり女性の標識が5人であるパネルである。
図3A及び図3Bは、2つの変数を表す60個のケースのより大きなデータセットを示す。ケースのうちの25%が男性であり、75%が女性である。ケースのうちの3分の1が都市であり、3分の2が地方である。所望のパネルは、20人の構成員を含み、且つ、同数の男性及び女性、ならびに同数の地方候補者及び都市候補者で構成される。
図3Cは、DRPアルゴリズムの適用からのパネル構成員のみを列挙するものであり、乱数種が割り当てられた後の最も大きな選択閾値の値を有した20個のケースである。結果として生じるパネルは、11人が男性で9人が女性であり、同様に10人が都市であり10人が地方の標識である。予期される誤差内で、選択されたパネルは両標識の所望の比率を正しく表す。
別の実施例として、図4Aは、737個のケースの初期標本のための3つの標識に比率を与えるものである。この実施例のためにパネルの所望の比率を形成する、これらの標識のための容認される母集団の分布も与えられる。
図4Bは、737個のケースの標本から200個のケースのパネルを選択するように、DRPアルゴリズムを適用する第1の実施例を示す。結果として生じるパネルは、例えば、学校教育を受けていない4人の女性、学士号を持つ25歳〜29歳の8人の人々、及び、75歳以上の5人の男性を含む。図4Cは、結果として生じるパネル内に存在する標識をまとめたものである。
上述のように、多数のパネルは、乱数種を再度割り当て、選択閾値の値を再計算することにより、同一の初期標本から得ることができる。図4D及び図4Eはそれぞれが、737個のケースの同一の初期標本から得られた付加的なパネルのための標識の値を含む。
パネルの比率は初期標本よりも所望の値にはるかに近いものであるが、いくつかの欠点が留意されよう。例えば、3つの生成されたパネルはいずれも、「学校教育を受けていない」ケースの割合が6.5パーセントを超えない。これは、パネルが、初期標本全体において見つけられるものと同数の、一定の標識を有するケースを得ることしかできないという点で、先に留意されたものの一例であり、737個のケースの標本全体において「学校教育を受けていない」ケースは13個のみである。結果として、これらの同一の13個のケースが、全ての3つのパネルにおいて選択され、この特定の標識は母集団に対して過少に表されたままである。
本発明を行う論理は、ソフトウェアモジュールとして提供される。当該モジュールは例示的であることに留意されたい。モジュールは、様々な用途に対応するように、組み合せることができ、一体化でき、分離でき、及び/または複製できる。また、特定のモジュールで動作するものとして本明細書において説明される機能は、1つまたは複数の他のモジュールで動作でき、及び/または、当該特定のモジュールで動作される機能の代わりに、またはこれと共に、1つまたは複数の他のデバイスによって動作できる。さらに、モジュールは、互いに対してローカルまたはリモートの多数のデバイス及び/または他の構成要素間で実施できる。また、モジュールは、1つのデバイスから移動されて別のデバイスに付加でき、及び/または、両方のデバイスに含むことができる。
ここで、上述のような本開示に従った技法は、入力データの処理及び出力データの生成をある程度含むことができることに留意すべきである。この入力データの処理及び出力データの生成は、ハードウェアまたはソフトウェアにおいて実施できる。例えば、特定の電子部品が、上述のような本開示に従った機能を実施するための回路に用いることができる。あるいは、命令に従って動作する1つまたは複数のプロセッサが、上述のような本開示に従った機能を実施できる。このような場合、そのような命令が、1つまたは複数の非一時的なプロセッサ可読の記憶媒体(例えば、磁気ディスクまたは他の記憶媒体)に記憶できること、または、1つまたは複数の搬送波に具現化される1つまたは複数の信号を介して1つまたは複数のプロセッサに伝送できることは、本開示の範囲内にある。
Claims (19)
- ケースの標本のためのデータを受信することであって、
前記ケースが少なくとも1つの変数を備え、ケースの前記標本における前記ケースのそれぞれが、前記少なくとも1つの変数のそれぞれのための標識を有し、
ケースのセットにおける前記ケースのそれぞれに、そのケースの前記標識のそれぞれのためのケースのセット中の度数に基づき重みを割り当てることであって、前記重みが、前記標識のそれぞれのための所望のパネル度数にさらに基づき、
ケースのセットからケースのサブセットを無作為に選択することであって、前記標識のそれぞれのために、選択された前記サブセットにおける前記標識の度数が、その標識のための前記所望のパネル度数に近似するように、前記無作為な選択が、ユーザの前記割り当てられた重みに従って重み付けされる、
を含む、
コンピュータにより実施される方法。 - 前記標識が人口動態変数であり、前記所望のパネル度数が、前記人口動態変数に関する母集団における既知の度数である、請求項1に記載のコンピュータにより実施される方法。
- 前記所望のパネル度数に近似する度数を備える標識を有する前記選択されたサブセットに基づき、前記選択されたサブセットと関連するデータを分析すること
をさらに含む、請求項1に記載のコンピュータにより実施される方法。 - ケースのサブセットを前記無作為に選択することが、
前記ケースのそれぞれに確率変数を割り当てることと、
選択閾値を生成するように、それぞれのケースの前記割り当てられた重みを、前記ケースの割り当てられた確率変数によって除算することと、
最も高い選択閾値を有するケースを選択すること
を含む、請求項1に記載のコンピュータにより実施される方法。 - ケースのセットから、ケースの第2のサブセットを無作為に選択することをさらに含み、前記標識のそれぞれのために、前記選択されたサブセットにおける前記標識の度数が、その標識のための前記所望のパネル度数に近似するように、前記無作為な選択が、ユーザの前記割り当てられた重みに従って重み付けされる、
請求項1に記載のコンピュータにより実施される方法。 - 前記サブセットからのデータを前記データの代表標本として表示すること
をさらに含む、請求項1に記載のコンピュータにより実施される方法。 - 請求項1に記載の前記方法を実施するためのコンピュータプロセスを実行するように、少なくとも1つのプロセッサに命令するために、前記少なくとも1つのプロセッサに可読であるように構成された命令のコンピュータプログラムを記憶する、少なくとも1つの非一時的なプロセッサ可読の記憶媒体。
- ネットワークに通信可能に結合された1つまたは複数のプロセッサを含むシステムであって、
前記1つまたは複数のプロセッサが、
ケースの標本のためのデータを受信し、前記ケースが少なくとも1つの変数を備え、ケースの前記標本における前記ケースのそれぞれが、前記少なくとも1つの変数のそれぞれのための標識を有するものであり、
ケースのセットにおける前記ケースのそれぞれに、そのケースの前記標識のそれぞれのためのケースのセット中の度数に基づき重みを割り当て、前記重みが、前記標識のそれぞれのための所望のパネル度数にさらに基づくものであり、
ケースのセットからケースのサブセットを無作為に選択するように構成され、前記標識のそれぞれのために、選択された前記サブセットにおける前記標識の度数が、その標識のための前記所望のパネル度数に近似するように、前記無作為な選択が、ユーザの前記割り当てられた重みに従って重み付けされる、
システム。 - 前記標識が人口動態変数であり、前記所望のパネル度数が、前記人口動態変数に関する母集団における既知の度数である、請求項8に記載のシステム。
- 前記プロセッサがさらに、前記所望のパネル度数に近似する度数を備える標識を有する前記選択されたサブセットに基づき、前記選択されたサブセットと関連するデータを分析するように動作可能である、請求項8に記載のシステム。
- ケースのサブセットを前記無作為に選択することが、
前記ケースのそれぞれに確率変数を割り当てることと、
選択閾値を生成するように、それぞれのケースの前記割り当てられた重みを、前記ケースの割り当てられた確率変数によって除算することと、
最も高い選択閾値を有するケースを選択すること
を含む、請求項8に記載のシステム。 - 前記プロセッサがさらに、ケースのセットから、ケースの第2のサブセットを無作為に選択するように動作可能であり、前記標識のそれぞれのために、前記選択されたサブセットにおける前記標識の度数が、その標識のための前記所望のパネル度数に近似するように、前記無作為な選択が、ユーザの前記割り当てられた重みに従って重み付けされる、請求項8に記載のシステム。
- 前記プロセッサがさらに、前記サブセットからのデータを前記データの代表標本として表示するように動作可能である、請求項8に記載のシステム。
- 少なくとも1つのプロセッサ可読の記憶媒体と、
前記少なくとも1つの記憶媒体に記憶された命令と
を含む製品であって、
前記命令が、少なくとも1つのプロセッサによって、前記少なくとも1つの記憶媒体から可読であるように構成され、これにより、前記少なくとも1つのプロセッサに、
ケースの標本のためのデータを受信し、前記ケースが少なくとも1つの変数を備え、ケースの前記標本における前記ケースのそれぞれが、前記少なくとも1つの変数のそれぞれのための標識を有するものであり、
ケースのセットにおける前記ケースのそれぞれに、そのケースの前記標識のそれぞれのためのケースのセット中の度数に基づき重みを割り当て、前記重みが、前記標識のそれぞれのための所望のパネル度数にさらに基づくものであり、
ケースのセットからケースのサブセットを無作為に選択するように動作させ、前記標識のそれぞれのために、選択された前記サブセットにおける前記標識の度数が、その標識のための前記所望のパネル度数に近似するように、前記無作為な選択が、ユーザの前記割り当てられた重みに従って重み付けされる、
製品。 - 前記標識が人口動態変数であり、前記所望のパネル度数が、前記人口動態変数に関する母集団における既知の度数である、請求項14に記載の製品。
- 前記命令がさらに、前記少なくとも1つのプロセッサを、前記所望のパネル度数に近似する度数を備える標識を有する前記選択されたサブセットに基づき、前記選択されたサブセットと関連するデータを分析するように動作させる、請求項14に記載の製品。
- ケースのサブセットを前記無作為に選択することが、
前記ケースのそれぞれに確率変数を割り当てることと、
選択閾値を生成するように、それぞれのケースの前記割り当てられた重みを、前記ケースの割り当てられた確率変数によって除算することと、
最も高い選択閾値を有するケースを選択すること
を含む、請求項14に記載の製品。 - 前記命令がさらに、前記少なくとも1つのプロセッサを、ケースのセットから、ケースの第2のサブセットを無作為に選択するように動作させ、前記標識のそれぞれのために、前記選択されたサブセットにおける前記標識の度数が、その標識のための前記所望のパネル度数に近似するように、前記無作為な選択が、ユーザの前記割り当てられた重みに従って重み付けされる、請求項14に記載の製品。
- 前記命令がさらに、前記少なくとも1つのプロセッサを、前記サブセットからのデータを前記データの代表標本として表示させるように動作させる、請求項14に記載の製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361841118P | 2013-06-28 | 2013-06-28 | |
US61/841,118 | 2013-06-28 | ||
PCT/US2014/044899 WO2014210597A1 (en) | 2013-06-28 | 2014-06-30 | Dynamic research panel |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016524259A true JP2016524259A (ja) | 2016-08-12 |
Family
ID=52116683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016524290A Pending JP2016524259A (ja) | 2013-06-28 | 2014-06-30 | 動的リサーチパネル |
Country Status (5)
Country | Link |
---|---|
US (1) | US20150006547A1 (ja) |
EP (1) | EP3014554A4 (ja) |
JP (1) | JP2016524259A (ja) |
KR (1) | KR20160051723A (ja) |
WO (1) | WO2014210597A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467204B2 (en) | 2016-02-18 | 2019-11-05 | International Business Machines Corporation | Data sampling in a storage system |
US10728614B2 (en) | 2017-02-28 | 2020-07-28 | The Nielsen Company (Us), Llc | Methods and apparatus to replicate panelists using a local minimum solution of an integer least squares problem |
US10681414B2 (en) | 2017-02-28 | 2020-06-09 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate population reach from different marginal rating unions |
US10602224B2 (en) | 2017-02-28 | 2020-03-24 | The Nielsen Company (Us), Llc | Methods and apparatus to determine synthetic respondent level data |
US20180249211A1 (en) | 2017-02-28 | 2018-08-30 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate population reach from marginal ratings |
US10382818B2 (en) | 2017-06-27 | 2019-08-13 | The Nielson Company (Us), Llc | Methods and apparatus to determine synthetic respondent level data using constrained Markov chains |
WO2019243876A1 (en) * | 2018-06-21 | 2019-12-26 | Tsquared Insights Sa | Method, system and computer program for determining weights of representativeness in individual-level data |
US10856027B2 (en) | 2019-03-15 | 2020-12-01 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate population reach from different marginal rating unions |
US11216834B2 (en) | 2019-03-15 | 2022-01-04 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate population reach from different marginal ratings and/or unions of marginal ratings based on impression data |
US11741485B2 (en) | 2019-11-06 | 2023-08-29 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate de-duplicated unknown total audience sizes based on partial information of known audiences |
US11783354B2 (en) | 2020-08-21 | 2023-10-10 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate census level audience sizes, impression counts, and duration data |
US11481802B2 (en) | 2020-08-31 | 2022-10-25 | The Nielsen Company (Us), Llc | Methods and apparatus for audience and impression deduplication |
US11941646B2 (en) | 2020-09-11 | 2024-03-26 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate population reach from marginals |
US11553226B2 (en) | 2020-11-16 | 2023-01-10 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate population reach from marginal ratings with missing information |
WO2022170204A1 (en) | 2021-02-08 | 2022-08-11 | The Nielsen Company (Us), Llc | Methods and apparatus to perform computer-based monitoring of audiences of network-based media by using information theory to estimate intermediate level unions |
US11949932B2 (en) * | 2021-05-25 | 2024-04-02 | The Nielsen Company (Us), Llc | Synthetic total audience ratings |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7269570B2 (en) * | 2000-12-18 | 2007-09-11 | Knowledge Networks, Inc. | Survey assignment method |
US6574585B2 (en) * | 2001-02-26 | 2003-06-03 | International Business Machines Corporation | Method for improving robustness of weighted estimates in a statistical survey analysis |
EP1552501A4 (en) * | 2002-06-12 | 2009-07-01 | Jena Jordahl | TOOLS FOR STORAGE, EXTRACTION, HANDLING AND VISUALIZATION OF DATA, PROVIDING MULTIPLE VIEWPOINTS OF HIERARCHICAL PERCEIVES |
US20040093261A1 (en) * | 2002-11-08 | 2004-05-13 | Vivek Jain | Automatic validation of survey results |
US20040236623A1 (en) * | 2003-05-20 | 2004-11-25 | Vijoy Gopalakrishnan | Methods and systems for constructing and maintaining sample panels |
US8341009B1 (en) * | 2003-12-23 | 2012-12-25 | Experian Marketing Solutions, Inc. | Information modeling and projection for geographic regions having insufficient sample size |
US7346594B2 (en) * | 2005-10-18 | 2008-03-18 | International Business Machines Corporation | Classification method and system for small collections of high-value entities |
US20080091510A1 (en) * | 2006-10-12 | 2008-04-17 | Joshua Scott Crandall | Computer systems and methods for surveying a population |
US8180717B2 (en) * | 2007-03-20 | 2012-05-15 | President And Fellows Of Harvard College | System for estimating a distribution of message content categories in source data |
WO2010049745A1 (en) * | 2008-10-28 | 2010-05-06 | Norwell Sa | Audience measurement system |
US8291069B1 (en) * | 2008-12-23 | 2012-10-16 | At&T Intellectual Property I, L.P. | Systems, devices, and/or methods for managing sample selection bias |
US20110282712A1 (en) * | 2010-05-11 | 2011-11-17 | Michael Amos | Survey reporting |
US20130230841A1 (en) * | 2012-03-02 | 2013-09-05 | Toluna Usa, Inc. | Respondent Selection for Surveys |
US8983972B2 (en) * | 2012-10-01 | 2015-03-17 | Sap Se | Collection and reporting of customer survey data |
-
2014
- 2014-06-30 WO PCT/US2014/044899 patent/WO2014210597A1/en active Application Filing
- 2014-06-30 JP JP2016524290A patent/JP2016524259A/ja active Pending
- 2014-06-30 EP EP14818795.8A patent/EP3014554A4/en not_active Withdrawn
- 2014-06-30 US US14/319,033 patent/US20150006547A1/en not_active Abandoned
- 2014-06-30 KR KR1020167002051A patent/KR20160051723A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
EP3014554A4 (en) | 2017-04-05 |
KR20160051723A (ko) | 2016-05-11 |
US20150006547A1 (en) | 2015-01-01 |
EP3014554A1 (en) | 2016-05-04 |
WO2014210597A1 (en) | 2014-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016524259A (ja) | 動的リサーチパネル | |
CN108182489B (zh) | 一种基于在线学习行为分析的个性化学习推荐方法 | |
Hancock et al. | Associations between school absence and academic achievement: Do socioeconomics matter? | |
Anggadwita et al. | The influence of personal attitude and social perception on women entrepreneurial intentions in micro and small enterprises in Indonesia | |
Alacacı et al. | Unpacking the inequality among Turkish schools: Findings from PISA 2006 | |
Traunmüller | Moral communities? Religion as a source of social trust in a multilevel analysis of 97 German regions | |
Fudenberg et al. | Measuring the completeness of economic models | |
Chang et al. | Grey theory analysis of online population and online game industry revenue in Taiwan | |
Woosnam et al. | Confirming the festival social impact attitude scale in the context of a rural Texas cultural festival | |
Oppermann | Exploring the relationship between educational field and transition to parenthood—an analysis of women and men in western Germany | |
Olsson et al. | A Comparison of Small Crowd Selection Methods. | |
Low et al. | The demand for life insurance in a developing country and the mediating role of persuasion | |
Ulfy et al. | The effects of social media advertising among eco-tourists in Malaysia: An empirical study on Malaysian ecotourism | |
Puspitasari et al. | Altruism and Egoism in e-WOM: The moderating effect of Facebook perceived ease of use | |
Sánchez-Amboage et al. | Traveler segmentation through Instagram Fashion Influencers. Mirror Tourist as a new segment consumer group | |
Mohanty et al. | Child schooling in India: the role of gender | |
Mehmood et al. | Total Factor Productivity, Demographic Traits and ICT: Empirical Analysis for Asia. | |
Chen | A multilevel analysis of Singaporean students’ mathematics performance in PISA 2012 | |
Bosenko et al. | Application of cluster analysis for the study of factors affecting the rating of schools in Moscow | |
Kumar | Malaysian Y Generation Consumer Research: Does Gender and Technology Literacy affirmative towards E-commerce activities? | |
Vézina et al. | Literacy Skills of the future canadian working-age population: Assessing the skill gap between the Foreign-and Canadian-Born | |
Sakkthivel et al. | Empirical investigation on consumer purchase intentions in a growing competitive marketing environment | |
Hermawan | THE INFLUENCE OF E-CONSUMERS'MOTIVATION TOWARD ATTITUDE AND SATISFACTION: The Uses and Gratifications Approach | |
Hng et al. | The forefront of mobile shopping: An emerging economy's perspective | |
van der Laan et al. | Producing official statistics from network data |