JP6637628B1

JP6637628B1 - データ処理装置及びデータ処理方法

Info

Publication number: JP6637628B1
Application number: JP2019047268A
Authority: JP
Inventors: 伊佐片柳; 達也河原
Original assignee: Video Research Co Ltd
Current assignee: Video Research Co Ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2020-01-29
Anticipated expiration: 2039-03-14
Also published as: JP2020149451A

Abstract

【課題】代表性がないデータを代表性があるデータとして利用する。【解決手段】本発明のデータ処理装置は、ランダムに選出された第一対象者を対象として収集した第一データを、第一対象者の人数に応じた分、記憶している第一記憶部と、予め定められた収集条件を満たしており第一対象者よりも多い第二対象者を対象として収集した第二データを、第二対象者の人数に応じた分、記憶している第二記憶部と、第二記憶部に記憶された第二データの中から、集計用データとして用いる第二データを抽出するデータ抽出部と、を有する。第一データ及び第二データの双方には、当双方に共通する共通項目の内容を示すデータが含まれており、データ抽出部は、第一データの各々と第二データの各々との間で共通項目の内容の類似度合いを算出し、算出した類似度合いに基づいて特定された第二対象者の第二データを、集計用データとして抽出する。【選択図】図４

Description

本発明は、データ処理装置及びデータ処理方法に係り、特に、代表性がないデータを処理するデータ処理装置及びデータ処理方法に関する。

諸処の収集データを集計する場合には、そのデータの代表性が重要となる。ここで、「代表性」とは、調査対象者全体の中から抽出された一部の対象者の調査結果が、調査対象者全体の結果を偏りなく正確に反映できているか否かを意味し、正確に反映できている場合には「代表性がある」という。

また、従来から、収集データの代表性を担保するための技術が開発されてきており、その一例としては、特許文献１に記載の技術が挙げられる。特許文献１には、調査対象全体から代表性がある調査対象者を低コスト且つ効率的に選出することが可能な調査支援装置が開示されている。

特開２０１５−１８５００８号公報

他方、近年の通信技術の発展により、所謂ビッグデータに代表されるように、大規模なデータ（例えば、人の特定の行動履歴等を示すログデータ）の収集が可能となってきているが、データ収集の対象者についてランダム性が担保されていないために、収集データの代表性を欠いてしまう虞がある。

具体的に説明すると、ログデータの収集条件を満たす者を対象者としてデータ収集を行うとすると、そのログデータについての代表性が担保されていない。代表性がないログデータをそのまま集計してしまうと、集計結果に偏り（バイアス）が生じ得る。そのため、代表性がないデータについては、上記のバイアスを解消するための措置（補正）を講じる必要がある。しかし、代表性がないデータだけでは、バイアスの要因が特定し難い場合があり、そのような場合には、代表性がないデータ単独での補正が困難となる。

そこで、本発明は、上記の事情に鑑みてなされたものであり、以下に示す目的を解決することを課題とする。
具体的には、本発明は、上記従来技術の問題点を解決し、代表性がないデータを代表性があるデータとして利用するためのデータ処理装置及びデータ処理方法を提供することを目的とする。

上記の目的を達成するために、本発明のデータ処理装置は、ランダムに選出された第一対象者を対象として収集した第一データを、前記第一対象者の人数に応じた分、記憶している第一記憶部と、予め定められた収集条件を満たしており前記第一対象者よりも多い第二対象者を対象として取得した第二データを、前記第二対象者の人数に応じた分、記憶している第二記憶部と、前記第二記憶部に記憶された前記第二データの中から、集計用データとして用いる前記第二データを抽出するデータ抽出部と、を有し、前記第一データ及び前記第二データの双方には、当該双方に共通する共通項目の内容を示すデータが含まれており、前記データ抽出部は、前記第一データの各々と前記第二データの各々との間で前記共通項目の内容の類似度合いを算出し、算出した前記類似度合いに基づいて特定された設定人数分の前記第二対象者の前記第二データを、前記集計用データとして抽出することを特徴とする。

上記のように構成された本発明のデータ処理装置は、代表性がない第二データのうち、代表性がある第一データに基づいて特定されたデータを集計用データとして抽出する。
より具体的に説明すると、第一データの各々と第二データの各々との間で算出した共通項目の内容の類似度合いに基づいて特定された第二対象者の第二データを、集計用データとして抽出する。このような手順により、代表性がない第二データの中から、代表性がある第一データと類似するデータ（詳しくは、共通項目の内容が似ているデータ）を抽出することができる。そして、抽出された第二データは、代表性があるデータとみなして取り扱うことが可能となる。
以上の結果、本来は代表性がないデータであっても、あたかも代表性があるデータとして取り扱うことが可能となる。

また、上記のデータ処理装置において、前記第二データは、前記収集条件を満たす前記第二対象者が特定行動を行った場合に収集されるデータであってもよい。
上記の構成において、第二データは、第二対象者が特定行動を行うと、これをトリガーとして第二データが収集される。このようにして第二データが収集される場合、第二データについての代表性が欠落し易くなるため、本発明の「代表性がないデータを、代表性があるデータとみなして取り扱うことができるようにする」という効果がより際立って発揮されるようになる。

また、上記のデータ処理装置において、前記第二対象者は、前記収集条件として、前記第二対象者が放送メディアに接触するために用いる機器がインターネットに接続されているという条件を満たす者であってもよい。
上記の構成であれば、放送メディアに接触するために用いる機器がインターネットに接続された対象者（第二対象者）から第二データが収集される。この場合、第二データは、代表性がないデータとなる場合があり、本発明の効果が有効に発揮されることになる。

また、上記のデータ処理装置において、前記第二データは、前記第二対象者が前記機器を用いて前記放送メディアに接触した場合に前記機器が発信するログデータであってもよい。
上記の構成であれば、第二データが、放送メディアへの接触時に機器が発信するログデータであるため、比較的簡易に収集することができる反面、代表性がないデータとなり得る。また、一般的に、上記のログデータは、詳細な属性情報が付与されていないため、ログデータ単独での補正（バイアス解消策の実施）が困難である。したがって、上記のログデータを第二データとして収集する場合には、本発明の効果がより際立って発揮されることになる。

上記のデータ処理装置において、前記共通項目は、前記放送メディアへの接触状況であってもよい。また、前記放送メディアへの接触状況は、テレビの視聴状況であってもよい。
上記の構成であれば、放送メディアへの接触状況（例えば、テレビの視聴状況）の類似度合いに基づき、代表性がない第二データの中から、代表性があるデータとなるように集計用データを抽出することが可能となる。

上記のデータ処理装置において、前記データ抽出部は、前記第一対象者と前記第二対象者との組み合わせを変えて前記組み合わせ別に前記類似度合いを算出し、それぞれの前記第一対象者について、前記類似度合いが最大となる前記組み合わせから順に該組み合わせに属する前記第二対象者を特定し、特定された前記第二対象者の人数が設定人数に達したときに、特定された前記設定人数分の前記第二対象者の前記第二データを前記集計用データとして抽出すると好適である。
上記の構成であれば、それぞれの第一対象者について共通項目の内容が最も類似する第二対象者から順に特定していく。そして、特定された第二対象者の人数が設定人数に達したときに、それまでに特定された第二対象者の第二データを集計用データとして抽出する。これにより、第二データから集計用データを抽出する際に、代表性を確保する上でより妥当なデータを抽出することが可能となる。

また、上記のデータ処理装置において、前記データ抽出部が前記設定人数分の前記第二対象者を特定した際に、ある第二対象者が複数回重複して特定された場合、前記データ抽出部は、前記ある第二対象者の前記第二データを、前記ある第二対象者が特定された回数と同数の前記集計用データとして集計すると好適である。
上記の構成において、設定人数分の第二対象者を特定した際に、ある第二対象者が複数回重複して特定される場合があり得る。この場合、ある第二対象者の第二データを、その者が特定された回数と同数の集計用データとして抽出すれば、その後に集計用データを用いた集計作業を行う際に、特定回数を集計ウェイトとして利用することができ、より適切な集計が可能となる。

また、前述した課題を解決するために、本発明のデータ処理方法は、第一記憶部が、ランダムに選出された第一対象者を対象として収集した第一データを、前記第一対象者の人数に応じた分、記憶しており、第二記憶部が、予め定められた収集条件を満たしており前記第一対象者よりも多い第二対象者を対象として収集した第二データを、前記第二対象者の人数に応じた分、記憶しており、コンピュータが、前記第二記憶部に記憶された前記第二データの中から、集計用データとして用いる前記第二データを抽出し、前記第一データ及び前記第二データの双方には、当該双方に共通する共通項目の内容を示すデータが含まれており、前記コンピュータは、前記第一データの各々と前記第二データの各々との間で前記共通項目の内容の類似度合いを算出し、算出した前記類似度合いに基づいて特定された設定人数分の前記第二対象者の前記第二データを、前記集計用データとして抽出することを特徴とする。
上記のデータ処理方法によれば、本来、代表性がない第一データを、代表性がある集計用データとして抽出することができる。

本発明によれば、代表性がないデータを代表性があるデータとして利用するためのデータ処理装置及びデータ処理方法が実現される。

各収集データの説明図である。本発明の一実施形態に係るデータ処理装置の構成を示す図である。第二データの抽出要領を示すイメージ図である。本発明の一実施形態に係るデータ処理方法の流れを示す図である。各第一対象者の第一データと各第二対象者の第二データとの対応関係を示すテーブルである。第一対象者と類似する第二対象者を特定する手順についての説明図である。重複して特定された第二対象者の第二データについての、抽出回数を示す図である。各第二対象者の第二データを、第一対象者の第一データとの類似度合いに応じてクラスタリングしたときの図である。

本発明の一実施形態（本実施形態）に係るデータ処理装置及びデータ処理方法について、添付の図面を参照しながら、以下に詳細に説明する。
なお、以下に説明する実施形態は、あくまでも、本発明の理解を容易にするために挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、その趣旨を逸脱しない限りにおいて、以下に説明する実施形態から変更又は改良され得る。また、当然ながら、本発明には、その等価物が含まれる。

また、本明細書において、「装置」とは、単独で特定の機能を発揮する一つの装置の他、分散して存在しているものの特定の機能を発揮するために協働する複数の装置をも含むものである。

また、以下の説明において、「人」又は「者」は、個人のみならず、個人が属するグループ（例えば、世帯）を含む概念である。

また、以下の説明において、「放送メディア」は、電波放送又はデータ放送にて番組及び広告を配信する情報伝達媒体（マスメディア）であり、具体的には、テレビ（インターネットテレビを含む）及びラジオ（ＩＰサイマルラジオを含む）等が該当する。
なお、以下では、放送メディアの一例として、テレビを挙げて説明する。ただし、以下に説明する内容は、当然ながら、テレビ以外の放送メディアにも適用され得る。

また、以下の説明において、「放送メディアに接触するために用いられる機器」は、放送メディアから配信される映像信号及び音声信号を受信する機器であり、具体的には、テレビ受信機、ラジオ受信機、及びインターネット経由でテレビ又はラジオを利用する場合にはインターネットに接続された端末機器（パソコン、タブレット端末、スマートフォン及び携帯電話）等が該当する。
なお、以下では、放送メディアに接触するために用いられる機器の一例として、テレビ受信機（受像機）を例に挙げて説明する。ただし、以下に説明する内容は、当然ながら、放送メディアに接触するために用いられるテレビ受信機以外の機器にも適用され得る。

また、以下の説明において、「視聴」は、放送される番組及び広告をリアルタイムで視聴することの他に、番組及び広告を録画又は録音等して放送後の一定期間内に再生して視聴したりＷｅｂ配信されるものを視聴したりする、いわゆるタイムシフト視聴を含む。
また、以下の説明において、「属性」は、人の性別及び年齢等のデモグラフィック、人の興味関心及びライフスタイル等のサイコグラフィック、並びに、行動傾向及び行動履歴等に応じて設定される分類である。

＜＜第一データ及び第二データについて＞＞
本実施形態のデータ処理装置及びデータ処理方法の説明に先立ち、これらの処理対象となる第一データ及び第二データについて、図１を参照しながら説明することとする。図１は、各収集データの説明図であり、各収集データの配信経路を示している。

（第一データ）
第一データは、第一対象者Ｔを対象として調査（厳密には、標本調査）を行うことで収集される調査用のデータである。ここで、第一対象者Ｔは、設定された母集団から統計学的手法によりランダム（無作為）に選出された者である。また、本実施形態では、母集団から第一対象者Ｔをランダムに選出するにあたり、調査地点・地域を設定し、当該調査地点・地域に居住する者の中から第一対象者Ｔを選出する。ただし、第一対象者Ｔの選出方法については、上記の選出方法に限られず、ランダムに選出する方法である限り、自由に採用することが可能である。

また、第一対象者Ｔの選出数については、調査目的に応じて適切な人数に設定されるのが好ましいが、本実施形態では例えば数百人〜数万人の規模に設定されていることとする。ちなみに、図１では、図示の都合上、第一対象者Ｔの人数が実際の人数よりも少なくなっている。

第一対象者Ｔを対象とする調査に関して説明すると、本実施形態では、放送メディアへの接触状況、具体的にはテレビの視聴状況について第一対象者Ｔを調査する。より具体的に説明すると、第一対象者Ｔの自宅には、テレビの視聴時間及び視聴チャンネル等を測定する公知の測定機器（不図示）が設置されている。この測定機器により、第一対象者Ｔのテレビの視聴状況が調査期間中、毎日調査される。

上記の測定機器は、定期的（例えば、１分毎）な測定結果を示すデータ（以下、測定データとも言う）を生成し、第一収集センターＣ１に向けて送信する。第一収集センターＣ１は、専用の通信回線を通じて各第一対象者Ｔの測定機器から測定データを受信する。これにより、第一収集センターＣ１は、テレビの視聴状況を示す測定データを、第一対象者Ｔの人数に応じた分、取得する。また、第一収集センターＣ１は、各第一対象者Ｔから取得した測定データをデータベース化して記憶して蓄積する。

ここで、第一収集センターＣ１が各第一対象者Ｔから取得する測定データは、第一データに該当し、各第一対象者Ｔのテレビ視聴状況に関する調査結果を示す。より具体的に説明すると、各第一対象者Ｔから取得する測定データには、各第一対象者Ｔの識別情報、各第一対象者Ｔが視聴したテレビ番組又はテレビＣＭを放送するテレビ局（視聴チャンネル）、視聴年月日及び視聴時刻等を示すデータが含まれている。

なお、第一データの発信、すなわち上記測定機器からの測定データの送信については、分単位で行われてもよく、あるいは１時間分又は１日分のデータをまとめて送信してもよい。また、本実施形態では、テレビの視聴状況を示す第一データとして、上記の測定機器から送られてくる測定データを、通信回線を通じて取得することとしたが、これに限定されるものではない。例えば、各第一対象者Ｔが所定の記入用紙にテレビの視聴状況（具体的には、それぞれの時間帯におけるテレビ局毎の視聴時間等）を記入し、第一収集センターＣ１が記入済みの用紙を各第一対象者Ｔから回収し、回収した用紙の記入内容を第一収集センターＣ１側で入力することで、第一対象者Ｔのテレビ視聴状況を示すデータ（第一データ）を第一対象者Ｔ毎に取得してもよい。

ところで、第一対象者Ｔの人数に応じた分の測定データ（第一データ）は、上述したように、ランダムに選出された第一対象者Ｔを対象として取得されるデータであるため、代表性があるデータと言える。すなわち、第一データが示す各第一対象者Ｔのテレビ視聴状況は、母集団（調査地点・地域に居住する者全体）のテレビ視聴状況を偏り（バイアス）なく正確に反映していることになる。

（第二データ）
第二データは、第二対象者Ｕを対象として収集されるデータである。ここで、第二対象者Ｕは、予め設定された選出条件を満たす制限付きの対象者である。具体的に説明すると、本実施形態の第二対象者Ｕは、上記の収集条件として、その者が利用するテレビ視聴用の機器（すなわち、テレビ受信機）がインターネットに接続されているという条件を満たす者である。より厳密に説明すると、第二対象者Ｕは、テレビの視聴履歴を示すログデータ（以下、デバイスログデータとも言う）をテレビ受信機からインターネット経由で提供することを承諾した者である。

なお、第二対象者Ｕの収集条件については、上記の内容に限定されるものではなく、上記の内容以外の条件であってもよく、例えば、インターネットを日常的に利用しているという条件であってもよい。

また、第二対象者Ｕの人数は、第一対象者Ｔの選出数よりも多くなっており、本実施形態では例えば数十万人〜数百万人の規模であることとする。ちなみに、図１では、図示の都合上、第二対象者Ｕの人数が実際の人数よりも少なくなっている。

第二対象者Ｕを対象とするデータ収集について説明すると、本実施形態では、第一対象者Ｔと同様、放送メディアへの接触状況、具体的にはテレビの視聴状況に関するデータ収集が行われる。より具体的に説明すると、各第二対象者Ｕの自宅には、デバイスログを送信することが可能なテレビ受信機（不図示）が設置されており、且つ、当該テレビ受信機はインターネットに接続（結線）されている。

そして、各第二対象者Ｕがテレビ受信機にてテレビを視聴している期間中には、テレビ受信機がデバイスログデータを定期的に（例えば、１分〜数分の間隔で）生成し、テレビ受信機内の記憶装置に蓄積する。また、テレビ受信機は、それまで蓄積してきたデバイスログデータを、一定の周期（例えば、１時間〜１日単位の周期）で当該テレビ受信機の製造メーカＭへインターネット経由で送信する。製造メーカＭは、受信したデバイスログデータを第二収集センターＣ２に対して提供する。

第二収集センターＣ２は、インターネット等の通信回線を通じて製造メーカＭから各第二対象者Ｕのデバイスログデータを受信する。これにより、第二収集センターＣ２は、第二対象者Ｕの人数に応じた分のデバイスログデータを取得する。また、第二収集センターＣ２は、各第二対象者Ｕのデバイスログデータをデータベース化して記憶して蓄積する。その後、第二収集センターＣ２では、蓄積されたデバイスログデータが集計されて所定の分析（例えば、視聴率算出等）に供じられる。

なお、図１に図示のケースでは、第一収集センターＣ１と第二収集センターＣ２とが別々に存在しているが、これに限定されず、第一収集センターＣ１と第二収集センターＣ２とが同一の機関であってもよい。また、図１に図示のケースでは、テレビ受信機の製造メーカＭが一つのみとなっているが、当然ながら、製造メーカＭが複数存在してもよく、その場合には第二収集センターＣ２がそれぞれの製造メーカＭからデバイスログデータを提供されることになる。

また、デバイスログデータについて、各第二対象者Ｕのテレビ受信機から製造メーカＭに送信される周期、及び、製造メーカＭから第二収集センターＣ２に提供される周期については任意に設定することができ、例えば、分単位で設定してもよく、あるいは、１時間〜１日分のデータをまとめて送信するように設定してもよい。

また、本実施形態では、テレビの視聴ログを示すデバイスログデータ（第二データ）が、各第二対象者Ｕのテレビ受信機から製造メーカＭを経由して第二収集センターＣ２に送信されることとしたが、これに限定されるものではない。例えば、視聴ログを示すデータが各第二対象者Ｕのテレビ受信機からインターネット経由でテレビ局側に送られ、その後にテレビ局から第二収集センターＣ２に送信されてもよい。あるいは、第二収集センターＣ２が各第二対象者Ｕのテレビ受信機から直接、デバイスログデータを受信してもよい。

ここで、第二収集センターＣ２が取得する各第二対象者Ｕのデバイスログデータは、第二データに該当し、各第二対象者Ｕのテレビ視聴状況を示す。より具体的に説明すると、デバイスログデータは、第二対象者Ｕがテレビ受信機を用いてテレビを視聴した場合に当該テレビ受信機が発信するログデータであり、詳しくは、各第二対象者Ｕの識別情報、各第二対象者Ｕが視聴したテレビ番組又はテレビＣＭを放送するテレビ局（視聴チャンネル）、視聴年月日及び視聴時刻等を示すデータを含んでいる。なお、第二対象者Ｕの識別情報とは、デバイスログデータに組み込まれるＩＤ情報（機器ＩＤ）等が該当する。

ちなみに、本実施形態では、各第二対象者Ｕのテレビ視聴状況を示す第二データとして、各第二対象者Ｕのテレビ受信機から発信されるデバイスログデータを、インターネット等の通信回線を通じて取得することとしたが、これに限定されるものではない。例えば、各第二対象者Ｕが所定の記入用紙にテレビの視聴状況（具体的には、それぞれの時間帯におけるテレビ局毎の視聴時間等）を記入し、第二収集センターＣ２が記入済みの用紙を各第二対象者Ｕから回収し、回収した用紙の記入内容を第二収集センターＣ２側で入力することで、上記のデータ（第二データ）を第二対象者Ｕ毎に取得してもよい。

以上のように、第一データである測定データと、第二データであるデバイスログデータとは、いずれも、テレビの視聴状況（具体的には、視聴時間及び視聴チャンネル）を示すデータを含んでいる。換言すると、第一データ及び第二データの双方には、当該双方に共通する共通項目の内容を示すデータが含まれており、本実施形態では、共通項目の内容がテレビの視聴状況となっている。

第二データ（具体的には、デバイスログデータ）について付言すると、第二データは、収集条件を満たす第二対象者が特定行動（具体的には、テレビ視聴行動）を行った場合に収集されるデータであるため、代表性を欠く場合がある。この場合、代表性がない第二データを集計して分析処理（例えば、視聴率の算出処理等）を実施した場合、分析結果に偏り（バイアス）が生じる場合がある。

具体的な一例を挙げて説明すると、第二対象者Ｕとして選出された者が特有の属性（例えば、インターネットの利用頻度が高いという属性）に該当する傾向にある場合が想定される。その場合には、上記の属性に起因してバイアスが生じるために、各第二対象者Ｕのデバイスログデータを集計してテレビ視聴率を算出したときに、その算出結果が、デバイスログデータ以外のデータから算出した視聴率より小さくなる等、すべての対象者（すなわち、母集団）全体の結果を正確に反映したものにならない可能性がある。

一方、第二データとしてのデバイスログデータは、一般的に、データ提供元の第二対象者Ｕに関する詳細な属性情報を含んでいない。そのため、デバイスログデータのみではバイアスの要因が特定し難く、デバイスログデータ単独での補正（バイアス解消のための措置）が困難となる。

そこで、本発明では、代表性が担保されていないデバイスログデータを、代表性がある測定データに基づいて処理し、代表性があるデータとして取り扱えるようにした。具体的には、本実施形態に係るデータ処理装置を利用することで、第二対象者Ｕの人数に応じた分のデバイスログデータの一部を集計用データとして抽出する。その際、本実施形態に係るデータ処理装置は、抽出されたデバイスログデータの代表性が担保されるように、各第一対象者Ｔの測定データと各第二対象者Ｕのデバイスログデータとの関係に基づいてデバイスログデータを抽出する。これにより、抽出されたデバイスログデータ（すなわち、集計用データ）を用いて所定の分析を実施すれば、分析結果にバイアスが生じ難くなる。

なお、本実施形態に係るデータ処理装置の機能については、次項以降において詳しく説明することとする。

＜＜本実施形態に係るデータ処理装置の構成について＞＞
本実施形態に係るデータ処理装置（以下、データ処理装置１０）の構成について、図２を参照しながら説明する。図２は、データ処理装置１０の構成を示す図である。

データ処理装置１０は、第一対象者Ｔの人数に応じた分の測定データ、及び、第二対象者Ｕの人数に応じた分のデバイスログデータを処理する装置である。本実施形態において、データ処理装置１０は、第一収集センターＣ１が管理して利用するサーバコンピュータ（以下、処理側サーバ１１）と、第二収集センターＣ２が管理して利用するサーバコンピュータ（以下、データ提供側サーバ１２）とによって構成されている。すなわち、本実施形態では、処理側サーバ１１及びデータ提供側サーバ１２がデータ処理装置１０としての機能を発揮するために協働する。ただし、これに限定されるものではなく、第一収集センターＣ１及び第二収集センターＣ２のいずれか一方のサーバが、他方のサーバの機能を併せ持ち、一台でデータ処理装置１０を構成してもよい。あるいは、第一収集センターＣ１及び第二収集センターＣ２のいずれとも異なる第三のサーバがデータ処理装置１０として機能してもよく、例えば、ＡＳＰ（Application Service Provider）サーバが、データ処理装置１０としての機能をＡＳＰサービスとして提供してもよい。

処理側サーバ１１及びデータ提供側サーバ１２は、通常のサーバコンピュータと同じハードウェア構成となっており、図２に示すように、ＣＰＵ１１ａ、１２ａと、ＲＯＭ及びＲＡＭからなるメモリ１１ｂ、１２ｂと、通信用インターフェイス１１ｃ、１２ｃと、補助記憶装置としてのハードディスクドライブ１１ｄ、１２ｄと、キーボード及びマウス等からなる入力機器１１ｅ、１２ｅと、ディスプレイ及びプリンタ等からなる出力機器１１ｆ、１２ｆとを有する。また、処理側サーバ１１及びデータ提供側サーバ１２の各々には、データ処理装置１０としての機能のうち、各サーバと対応する機能を発揮するためのプログラム（データ処理用プログラム）がインストールされている。

処理側サーバ１１は、各第一対象者Ｔの測定機器から測定データを受信し、第一対象者Ｔの人数に応じた分の測定データをハードディスクドライブ１１ｄに記憶して蓄積している。すなわち、処理側サーバ１１のハードディスクドライブ１１ｄは、本発明の『第一記憶部』として機能する。ただし、これに限定されるものではなく、処理側サーバ１１に外付け形式で接続された補助記憶装置、若しくは、処理側サーバ１１と通信可能に接続された他のコンピュータ（データ提供側サーバ１２を含む）が第一記憶部として機能してもよい。

データ提供側サーバ１２は、製造メーカＭから各第二対象者Ｕのデバイスログデータを受け取り、第二対象者Ｕの人数に応じた分のデバイスログデータをハードディスクドライブ１２ｄに記憶して蓄積している。すなわち、データ提供側サーバ１２のハードディスクドライブ１２ｄは、本発明の『第二記憶部』として機能する。ただし、これに限定されるものではなく、データ提供側サーバ１２に外付け形式で接続された補助記憶装置、若しくは、データ提供側サーバ１２と通信可能に接続された他のコンピュータ（処理側サーバ１１を含む）が第二記憶部として機能してもよい。

また、本実施形態において、処理側サーバ１１は、データ提供側サーバ１２と通信することで、データ提供側サーバ１２のハードディスクドライブ１２ｄにアクセスし、同ハードディスクドライブ１２ｄに記憶された各第二対象者Ｕのデバイスログデータ（第二データ）を読み出すことができる。

さらに、処理側サーバ１１は、データ処理装置１０の主要部をなすコンピュータとして機能する。より具体的に説明すると、処理側サーバ１１は、データ提供側サーバ１２のハードディスクドライブ１２ｄに記憶された各第二対象者Ｕのデバイスログデータの中から、集計用データとして用いられるデバイスログデータを抽出する。すなわち、処理側サーバ１１は、本発明の『データ抽出部』として機能する。厳密に説明すると、処理側サーバ１１のＣＰＵ１１ａと、処理側サーバ１１にインストールされたデータ処理用プログラムとが協働することにより、本発明の『データ抽出部』が実現される。

デバイスログデータの抽出結果（すなわち、どの第二対象者Ｕのデバイスログデータが集計用データとして抽出されたか）については、処理側サーバ１１がデータ提供側サーバ１２と通信することで、第一収集センターＣ１から第二収集センターＣ２に通知される。なお、集計用データとして抽出されたデバイスログデータは、第二収集センターＣ２側で行われる分析処理に利用される。

また、処理側サーバ１１は、デバイスログデータを抽出するにあたり、処理側サーバ１１のハードディスクドライブ１１ｄに記憶された各第一対象者Ｔの測定データを参照し、各第一対象者Ｔの測定データと各第二対象者Ｕのデバイスログデータとの関係を求める。

具体的に説明すると、処理側サーバ１１は、それぞれの第一対象者Ｔの測定データに対して、各第二対象者Ｕのデバイスログデータを紐付ける。この紐付けにより、各第一対象者Ｔの測定データと類似している第二対象者Ｕのデバイスログデータが割り出されるようになる。ここで、「類似」とは、第一データ及び第二データにおける共通項目の内容、具体的にはテレビの視聴状況が類似していることを意味する。なお、各測定データに対するデバイスログデータの紐付けについては、後に詳しく説明することとする。

その後、処理側サーバ１１は、図３に示すように、データ提供側サーバ１２側に記憶された各第二対象者Ｕのデバイスログデータのうち、各第一対象者Ｔの測定データと類似しているデバイスログデータを集計用データとして抽出する。このようにして抽出されたデバイスログデータは、図３に示すように、代表性がある測定データと類似していることから、疑似的に「代表性があるデータ」として取り扱うことができる。
図３は、デバイスログデータの抽出要領を示すイメージ図である。

処理側サーバ１１は、データ抽出後、デバイスログデータの抽出結果を示す情報を、データ提供側サーバ１２に伝送する。これにより、どの第二対象者Ｕのデバイスログデータが処理側サーバ１１によって抽出されたのかを第二収集センターＣ２側で把握することが可能となる。そして、第二収集センターＣ２では、抽出されたデバイスログデータを集計用データとして利用して所定の分析を実施する。この際、抽出されたデバイスログデータは、前述したように、代表性があるデータとして用いることができるので、偏り（バイアス）が抑えられた分析結果が得られるようになる。

＜＜本実施形態に係るデータ処理方法について＞＞
次に、上述したデータ処理装置１０の動作例として、データ処理装置１０が収集データを処理する流れ（以下、データ処理フロー）について説明する。
なお、データ処理フローでは、本発明のデータ処理方法が採用されている。すなわち、以下の説明には、本発明のデータ処理方法に関する説明が含まれており、また、以下に述べるデータ処理フロー中の各ステップは、本発明のデータ処理方法を構成する工程に相当する。

データ処理フローにおいて、データ処理装置１０は、図４に図示の各ステップを実施する。図４は、本実施形態に係るデータ処理方法の流れを示す図であり、データ処理フローについての説明図である。

データ処理フローの実行に際して、第一対象者Ｔがランダムに選出され、また、テレビ受像機がインターネットに結線された第二対象者Ｕがデバイスログデータの提供を承諾する。その後に、第一対象者Ｔを対象とするデータ取得、及び、第二対象者Ｕを対象とするデータ取得がそれぞれ実施される。なお、本実施形態では、上記２つのデータ取得がいずれも、テレビの視聴状況に関するデータ取得となっている。また、上記２つのデータ取得は、同時期に実施されてもよく、あるいは互いに異なる時期に実施されてもよい。

第一対象者Ｔを対象とする調査の実施期間中、第一収集センターＣ１側では、処理側サーバ１１が各第一対象者Ｔから測定データを取得する（Ｓ００１）。具体的に説明すると、テレビを視聴している第一対象者Ｔについては、その者の自宅に設置された測定機器がテレビ視聴時間中、定期的に測定データを生成し、生成したデータを発信する。処理側サーバ１１は、上記の測定機器から発信された測定データを、通信回線を通じて取得（受信）する。これにより、処理側サーバ１１は、第一対象者Ｔの人数に応じた数の測定データを取得する。

また、ステップＳ００１において、処理側サーバ１１は、取得した各第一対象者Ｔの測定データを、第一記憶部としてのハードディスクドライブ１１ｄに記憶して蓄積する。この際、処理側サーバ１１は、測定データが示す第一対象者Ｔの識別情報に基づき、各第一対象者Ｔの測定データを各第一対象者Ｔ別に記憶する。

なお、ステップＳ００１は、例えば、第一対象者Ｔを対象とする調査の実施期間が満了するまで繰り返して行われる。

他方、第二対象者Ｕを対象とするデータ取得の期間中、第二収集センターＣ２側では、データ提供側サーバ１２が、各第二対象者Ｕのテレビ受信機から発信されたデバイスログデータを取得する（Ｓ００２）。具体的に説明すると、第二対象者Ｕがテレビ受信機を通じてテレビを視聴すると、その視聴ログがデバイスログデータとしてテレビ受信機に記憶され、テレビ受信機は、所定のタイミングにてデバイスログデータを製造メーカＭに送信する。製造メーカＭは、データ提供側サーバ１２の要求に応じて、又は所定のタイミングで自動的に各第二対象者Ｕのデバイスログデータを提供する。データ提供側サーバ１２は、インターネット等の通信回線を通じて製造メーカＭから各第二対象者Ｕのデバイスログデータを取得（受信）する。これにより、データ提供側サーバ１２は、第二対象者Ｕの人数に応じた数のデバイスログデータを取得する。

また、ステップＳ００２において、データ提供側サーバ１２は、取得した各第二対象者Ｕのデバイスログデータを、第二記憶部としてのハードディスクドライブ１２ｄに記憶して蓄積する。この際、データ提供側サーバ１２は、デバイスログデータが示す第二対象者Ｕの識別情報に基づき、各第二対象者Ｕのデバイスログデータを各第二対象者Ｕ別に記憶する。

なお、ステップＳ００２は、例えば、第二対象者Ｕを対象とするデータ取得の実施期間が満了するまで繰り返して行われる。また、図４では、ステップＳ００２がステップＳ００１の後に行われることになっているが、このような場合に限定されず、例えば、ステップＳ００１よりも前に行われてもよく、また、同時期に行われてもよく、あるいは一方のステップが行われている期間中に他方のステップが行われてもよい。

その後のステップ（具体的には、図４のＳ００３〜Ｓ００７）は、データ処理フローのメインフローであり、主に処理側サーバ１１によって行われる。

ステップＳ００３〜Ｓ００７では、コンピュータである処理側サーバ１１がデータ抽出部として機能する。先ず、処理側サーバ１１は、データ提供側サーバ１２と通信し、データ提供側サーバ１２側に記憶された各第二対象者Ｕのデバイスログデータを読み出す（Ｓ００３）。デバイスログデータの読み出しは、データ提供側サーバ１２に記憶されたデバイスログデータ全部を対象としてもよく、デバイスログデータが示すテレビ視聴時期又は時間が所定の時期に該当するデバイスログデータのみを対象としてもよい。

次に、処理側サーバ１１は、自身が記憶している各第一対象者Ｔの測定データと、データ提供側サーバ１２から読み出した各第二対象者Ｕのデバイスログデータとの間で類似度合いを算出する（Ｓ００４）。ここで、類似度合いとは、測定データ及びデバイスログデータの双方に共通する共通項目の内容、具体的にはテレビ視聴状況についての類似度合いである。処理側サーバ１１は、第一対象者Ｔと第二対象者Ｕとの組み合わせを変えて組み合わせ別に上記の類似度合いを算出する。つまり、第一対象者Ｔの人数をＸとし、第二対象者Ｕの人数をＹとすると（Ｘ、Ｙはともに自然数）、Ｘ＊Ｙ個の組み合わせのそれぞれについて類似度合いが計算されることになる。

なお、データ間の類似度合いの算出方法については、公知の方法が利用可能であり、例えば、類似度合いの指標値として相関係数を求める方法を採用してもよく、あるいは絶対誤差（Absolute Error）を割り出す方法を採用してもよく、若しくは距離（ユークリッド距離、マハラノビス距離又はコサイン距離等）を算出する方法を採用してもよい。

ステップＳ００４では、前述したように、それぞれの第一対象者Ｔの測定データについて、Ｙ人分の第二対象者Ｕのデバイスログデータとの類似度合いが算出される。これにより、各第一対象者Ｔの測定データについて、すべての第二対象者Ｕのデバイスログデータを、類似度合いに基づいて順位付けすることが可能となる。すなわち、Ｘ人分の第一対象者Ｔの測定データのそれぞれに対して、Ｙ人分の第二対象者Ｕのデバイスログデータを、図５に示すように類似度合い順に紐付けておくことができるようになる。図５は、各第一対象者Ｔの測定データと各第二対象者Ｕのデバイスログデータとの対応関係（紐付け）を示すテーブルである。なお、図中、「Ｔ_ｉ（ｉは１〜Ｘ）」という表記は、各第一対象者Ｔを表しており、「Ｕ_ｊ（ｊは１〜Ｙ）」という表記は、各第二対象者Ｕを表している。

その後、処理側サーバ１１は、それぞれの第一対象者Ｔについて、類似度合いが最大となる組み合わせから順に当該組み合わせに属する第二対象者Ｕを特定する（Ｓ００５）。つまり、本ステップＳ００５では、各第一対象者Ｔについて、当該各第一対象者Ｔとテレビ視聴状況（つまり、共通項目の内容）が類似している第二対象者Ｕを、類似度合いが大きい方から順に特定する。本ステップＳ００５の具体的な手順について、図６を参照しながら以下に詳しく説明する。図６は、第一対象者Ｔと類似する第二対象者Ｕを特定する手順についての説明図である。

なお、以下の説明では、説明を分かり易くするために、第一対象者Ｔ及び第二対象者Ｕの各々の人数を実際の人数よりも少ない数とし、具体的には第一対象者Ｔの人数Ｘを１０人とし、第二対象者Ｕの人数Ｙを１００人とする。

前段のステップＳ００４により、図６に示すように、１０人の第一対象者Ｔの測定データのそれぞれに対して、１００人分の第二対象者Ｕのデバイスログデータが類似度合い順に紐付けられている。例えば、ある第一対象者Ｔ_１の測定データについては、第二対象者Ｕ_２のデバイスログデータが最も類似しており、第二対象者Ｕ_５９のデバイスログデータが２番目に類似しており、以降、残り９８人の第二対象者Ｕのデバイスログデータが類似度合いの大きさに応じて順位付けられている。

ステップＳ００５では、処理側サーバ１１が、図６に図示の関係を参照しながら、第一対象者Ｔと第二対象者Ｕとの組み合わせのうち、類似度合いが最大となる組み合わせから順に当該組み合わせに属する第二対象者Ｕを、各第一対象者Ｔ別に特定する。より具体的に説明すると、処理側サーバ１１は、各第一対象者Ｔについて、テレビ視聴状況が類似している第二対象者Ｕを、類似度合いが大きい方から設定人数だけ特定する。

ここで、設定人数とは、データ処理フローの実行に際して予め設定された値であり、具体的には、集計用データとして必要となるデバイスログデータの数（すなわち、必要抽出データ数）である。この設定人数は、任意の数に設定可能であり、また、設定後に変更することも可能である。なお、以下では、設定人数が２０であることとする。

ステップＳ００５では、処理側サーバ１１が、１０人の第一対象者Ｔのそれぞれについて、最も類似している第二対象者Ｕを特定する。これにより、先ず１０人分の第二対象者Ｕが特定されることになる。以降、処理側サーバ１１は、類似度合いが大きい第二対象者Ｕから順に特定する。以上のような手順により、設定人数（２０人）分の第二対象者Ｕが特定されることになる。

そして、処理側サーバ１１は、特定された第二対象者Ｕの人数が設定人数に達したときに、特定された設定人数分の第二対象者Ｕのデバイスログデータ（図６のケースでは、枠囲みされた２０人分のデバイスログデータ）を集計用データとして抽出する（Ｓ００６）。

この際、抽出したデバイスログデータの中に、同一の第二対象者Ｕのデバイスログデータが重複している場合がある。すなわち、ステップＳ００５において、処理側サーバ１１が設定人数分の第二対象者Ｕを特定した際に、ある第二対象者が複数回重複して特定されることがある。例えば、図６のケースで説明すると、第二対象者Ｕ_２が二回重複して特定されており、第二対象者Ｕ_７が三回重複して特定されている。

上記の場合において、処理側サーバ１１は、重複して特定された第二対象者Ｕのデバイスログデータを、その者が特定された回数と同数の集計用データとして抽出する。つまり、重複して特定された第二対象者Ｕのデバイスログデータは、図７に示すように、特定された回数と同じ回数だけ重複して抽出される。図７は、重複して特定された第二対象者Ｕのデバイスログデータについての、抽出回数を示す図である。

重複して抽出されたデバイスログデータの抽出回数は、その後の集計作業においてウェイトとして利用される。すなわち、ｎ回（ｎは２以上の自然数）重複して抽出されたデバイスログデータは、集計時に、ｎ人分の第二対象者Ｕのデバイスログデータとして取り扱われることになる。

なお、本実施形態では、上述したように、重複して特定された第二対象者Ｕのデバイスログデータを、重複回数と同数の集計用データとして抽出することとしたが、これに限定されるものではない。具体的に説明すると、設定人数分の第二対象者Ｕを特定した際、ある第二対象者が複数回重複して特定される場合に、その者のデバイスログデータを重複せずに１つのデバイスログデータとして抽出してもよい。その場合には、デバイスログデータの抽出数が設定人数を下回ることになるので、不足分のデータを、類似度合いの順位に基づいて、より高順位の第二対象者Ｕのデバイスログデータ（図６のケースでは、３番目に類似する第二対象者Ｕのデバイスログデータ）から順に補填すればよい。

ステップＳ００６の終了後、処理側サーバ１１は、データ提供側サーバ１２と通信し、ステップＳ００６での抽出結果（すなわち、どの第二対象者Ｕのデバイスログデータを集計用データとして抽出したか）を示す情報を第二収集センターＣ２側に伝送する（Ｓ００７）。以上までのステップが完了した時点で、データ処理フローが終了する。

データ処理フローの終了後、第二収集センターＣ２側では、処理側サーバ１１から伝送された情報をインターネット経由で受信し、処理側サーバ１１によって抽出されたデバイスログデータを集計して所定の分析を実施する。

＜＜本実施形態の有効性について＞＞
以上までに説明してきたように、本実施形態では、各第一対象者Ｔの測定データ（第一データ）と各第二対象者Ｕのデバイスログデータ（第二データ）との間で、テレビ視聴状況（共通項目の内容）についての類似度合いを算出する。そして、算出した類似度合いに基づいて特定された第二対象者Ｕのデバイスログデータを、集計用データとして抽出する。

以上により、本来は代表性がない第二対象者Ｕのデバイスログデータの中から、代表性がある第一対象者Ｔの測定データと類似するデータを、集計用データとして抽出することができる。そして、抽出されたデバイスログデータを集計して所定の分析を実施すれば、偏り（バイアス）が抑えられた分析結果を得られるようになる。

＜＜その他の実施形態＞＞
以上までに、本発明のデータ処理装置及びデータ処理方法について、一つの具体的な実施形態を挙げて説明したが、当該実施形態は、あくまでも一例に過ぎず、他の実施形態も考えられる。

例えば、上述した実施形態では、データ処理フローにおいて、各第一対象者Ｔの測定データに対して、すべての第二対象者Ｕのデバイスログデータを類似度合いに応じて紐付け（厳密には、順位付け）することとした。そして、それぞれの第一対象者Ｔについて、類似度合いがより高い（すなわち、より高順位の）第二対象者Ｕのデバイスログデータから順に集計用データとして抽出することとした。ただし、これに限定されるものではなく、他の方式でデバイスログデータを抽出する形態（以下、変形例）も考えられる。

変形例について具体的に説明すると、例えば、各第一対象者Ｔの測定データと各第二対象者Ｕのデバイスログデータとの類似度合いを算出した後、類似度合いに応じて、各第二対象者Ｕのデバイスログデータを、当該各第二対象者Ｕと最も類似する第一対象者Ｔの測定データに紐付ける。これにより、Ｙ人の第二対象者Ｕの各々のデバイスログデータは、図８に示すようにクラスタリングされ、Ｘ人の第一対象者Ｔと同数のグループのうち、いずれか一つのグループに属するようになる。図８は、各第二対象者Ｕのデバイスログデータを各第一対象者Ｔの測定データとの類似度合いに応じてクラスタリングしたときの図である。なお、図８では、第二対象者Ｕのデバイスログデータを黒点で示し、第一対象者Ｔの測定データをバツ印で示している。また、図示の都合上、図８では、第一対象者Ｔ及び第二対象者Ｕの人数が実際よりも少ない人数となっており、それぞれ５人、３０人となっている。

クラスタリングの終了後には、各クラス（グループ）において、当該各クラスと対応する第一対象者Ｔの測定データとの類似度合いが最も大きくなる第二対象者Ｕのデバイスログデータから順に、各クラスのデバイスログデータを集計用データとして抽出する。そして、設定人数分のデバイスログデータが得られるまでデバイスログデータの抽出を繰り返す。この際、毎回異なるデバイスログデータが各クラスから抽出されるので、上述した実施形態のように同一の第二対象者Ｕのデバイスログデータが複数回重複して抽出されることがない。つまり、変形例では、第二対象者Ｕのデバイスログデータを重複なく抽出することが可能である。

また、上述した実施形態では、第一データが、第一対象者Ｔのテレビ視聴状況を専用の測定機器で測定した結果を示す測定データであることとし、第二データが、第二対象者Ｕがテレビを視聴した際にテレビ受信機から発信される視聴ログ（デバイスログデータ）であることとした。ただし、これに限定されるものではなく、第一データが、第一対象者Ｔを対象として行われるアンケート調査における各質問の回答内容を示すデータであってもよい。同様に、第二データが、第二対象者Ｕを対象として行わるアンケート調査における各質問の回答内容を示すデータであってもよい。この場合の第二対象者Ｕは、アンケート調査の要請に応じるという条件（収集条件）を満たす者である。
その他の第二データとしては、以下の例が挙げられる。
［１］インターネット調査のパネルから収集したテレビ視聴状況測定データ
［２］ネットワークに接続された家電機器等（例えば、ハードディスクレコーダ）の操作ログデータ
［３］店で会員カードを提示して商品を購買した場合等に生成されるＩＤ付きＰＯＳ（Point of Sales）データ
ここで、［１］の例については、インターネット調査の要請に応じるという条件（収集条件）を満たす者、すなわち調査パネルが第二対象者Ｕに該当する。また、［２］の例については、上記の家電機器を所有し、且つデータ収集に応じるという条件（収集条件）を満たす者が第二対象者Ｕに該当する。［３］の例については、ＰＯＳデータ取得の契機となる購買行動を行うという条件（収集条件）を満たす者が第二対象者Ｕに該当する。

また、上述した実施形態では、第一データ（具体的には、測定データ）及び第二データ（具体的には、デバイスログデータ）の双方に共通する共通項目が、放送メディアへの接触状況、より詳しくは、テレビ視聴状況であることとした。ただし、共通項目については特に限定されるものではなく、放送メディアへの接触状況以外の内容であってもよく、例えば、性別及び年齢等のようなデモグラフィックな属性であってもよく、あるいは、興味関心及びライフスタイル等のようなサイコグラフィックな属性であってもよい。

１０データ処理装置
１１処理側サーバ
１１ａＣＰＵ
１１ｂメモリ
１１ｃ通信用インターフェイス
１１ｄハードディスクドライブ
１１ｅ入力機器
１１ｆ出力機器
１２データ提供側サーバ
１２ａＣＰＵ
１２ｂメモリ
１２ｃ通信用インターフェイス
１２ｄハードディスクドライブ
１２ｅ入力機器
１２ｆ出力機器
Ｃ１第一収集センター
Ｃ２第二収集センター
Ｍ製造メーカ
Ｔ第一対象者
Ｕ第二対象者

Claims

ランダムに選出された第一対象者を対象として収集した第一データを、前記第一対象者の人数に応じた分、記憶している第一記憶部と、
予め定められた収集条件を満たす第二対象者であって前記第一対象者よりも多い第二対象者を対象として収集した第二データを、前記第二対象者の人数に応じた分、記憶している第二記憶部と、
前記第二記憶部に記憶された前記第二データの中から、集計用データとして用いる前記第二データを抽出するデータ抽出部と、を有し、
前記第一データ及び前記第二データの双方には、当該双方に共通する共通項目の内容を示すデータが含まれており、
前記データ抽出部は、前記第一データの各々と前記第二データの各々との間で前記共通項目の内容の類似度合いを算出し、算出した前記類似度合いに基づいて特定された設定人数分の前記第二対象者の前記第二データを、前記集計用データとして抽出することを特徴とするデータ処理装置。
前記第二データは、前記収集条件を満たす前記第二対象者が特定行動を行った場合に収集されるデータである請求項１に記載のデータ処理装置。
前記第二対象者は、前記収集条件として、前記第二対象者が放送メディアに接触するために用いる機器がインターネットに接続されているという条件を満たす者である請求項１又は２に記載のデータ処理装置。
前記第二データは、前記第二対象者が前記機器を用いて前記放送メディアに接触した場合に前記機器が発信するログデータである請求項３に記載のデータ処理装置。
前記共通項目の内容は、前記放送メディアへの接触状況である請求項４に記載のデータ処理装置。
前記放送メディアへの接触状況は、テレビの視聴状況である請求項５に記載のデータ処理装置。
前記データ抽出部は、前記第一対象者と前記第二対象者との組み合わせを変えて前記組み合わせ別に前記類似度合いを算出し、それぞれの前記第一対象者について、前記類似度合いが最大となる前記組み合わせから順に該組み合わせに属する前記第二対象者を特定し、特定された前記第二対象者の人数が前記設定人数に達したときに、特定された前記設定人数分の前記第二対象者の前記第二データを前記集計用データとして抽出する請求項１乃至６のいずれか一項に記載のデータ処理装置。
前記データ抽出部が前記設定人数分の前記第二対象者を特定した際に、ある第二対象者が複数回重複して特定された場合、前記データ抽出部は、前記ある第二対象者の前記第二データを、前記ある第二対象者が特定された回数と同数の前記集計用データとして抽出する請求項７に記載のデータ処理装置。
第一記憶部が、ランダムに選出された第一対象者を対象として収集した第一データを、前記第一対象者の人数に応じた分、記憶しており、
第二記憶部が、予め定められた収集条件を満たしており前記第一対象者よりも多い第二対象者を対象として収集した第二データを、前記第二対象者の人数に応じた分、記憶しており、
コンピュータが、前記第二記憶部に記憶された前記第二データの中から、集計用データとして用いる前記第二データを抽出し、
前記第一データ及び前記第二データの双方には、当該双方に共通する共通項目の内容を示すデータが含まれており、
前記コンピュータは、前記第一データの各々と前記第二データの各々との間で前記共通項目の内容の類似度合いを算出し、算出した前記類似度合いに基づいて特定された設定人数分の前記第二対象者の前記第二データを、前記集計用データとして抽出することを特徴とするデータ処理方法。