JP7510025B1 - DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM - Google Patents
DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP7510025B1 JP7510025B1 JP2024024830A JP2024024830A JP7510025B1 JP 7510025 B1 JP7510025 B1 JP 7510025B1 JP 2024024830 A JP2024024830 A JP 2024024830A JP 2024024830 A JP2024024830 A JP 2024024830A JP 7510025 B1 JP7510025 B1 JP 7510025B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- medium
- contact
- pseudo
- target content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 27
- 238000003672 processing method Methods 0.000 title claims description 4
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000010586 diagram Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にする。
【解決手段】シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、第1の値と第2の値の相関係数が複数のユーザについてのシングルソースデータと変わらないように、シングルソースデータの疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、接触頻度割り当て部は、第1のメディアにおける対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における第1の値に基づいて、第1の接触頻度を算出する。
【選択図】図3
The present invention makes it possible to acquire pseudo-sample data that is useful for analyzing exposure to target content via multiple media.
[Solution] The system includes an actual data acquisition unit that acquires single-source data for multiple users, the single-source data including a first value indicating the usage status of a first medium and a second value indicating the usage status of a second medium of a single user; a pseudo data generation unit that generates a pseudo sample of the single-source data so that the correlation coefficient between the first value and the second value is the same as that of the single-source data for the multiple users; and a contact frequency allocation unit that calculates a first contact frequency to the target content via the first medium for each of the generated pseudo samples, where the contact frequency allocation unit uses data indicating the contact status to the target content in the first medium and calculates the first contact frequency based on the first value in each pseudo sample.
[Selected figure] Figure 3
Description
本発明は、コンテンツへの接触状況を、疑似標本を用いて増幅させたデータを用いて分析するデータ処理装置、データ処理方法、およびプログラムに関する。 The present invention relates to a data processing device, a data processing method, and a program that analyzes content exposure using data amplified with pseudo samples.
近年、ある商品の広告についてテレビコマーシャルと動画サイトの広告など、複数のメディアでの接触者数の規模を調査することが行われている。 In recent years, research has been conducted into the scale of exposure to a certain product through multiple media, such as television commercials and video site advertisements.
例えば、特許文献1には、テレビCMへの接触者数のデータと、デジタル広告への接触者数のデータ、および複数の対象者の各々について、当該テレビCMの視聴有無と当該デジタル広告が掲載されたサイトの閲覧回数を示すデータ(シングルソースデータ)を用いて、テレビCMとデジタル広告の少なくとも一方への接触者数を算出する方法が開示されている。
For example,
また、例えば、特許文献2に記載されているように、コンテンツへの接触状況の調査において、実際の標本データに基づいて作成された疑似標本データを用いて、データ数を増幅させることが知られている。
In addition, as described in
一般にシングルソースデータには、同一個人についての、複数のメディアへの接触状況を示す情報が含まれているが、複数のメディアを介した対象広告への接触頻度を示す情報が含まれているとは限らない。しかし、複数のメディアを介した対象広告への接触状況を分析するためには、各々のメディアでの実態に即した接触状況を示す情報を含むデータが求められていた。 Single-source data generally contains information indicating the same individual's exposure to multiple media, but does not necessarily contain information indicating the frequency of exposure to targeted advertising via multiple media. However, in order to analyze exposure to targeted advertising via multiple media, data containing information indicating exposure that reflects the actual situation for each medium was required.
本発明は、複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にすることを目的とする。 The present invention aims to make it possible to obtain pseudo-sample data that is useful for analyzing exposure to target content via multiple media.
本発明に係るデータ処理装置は、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、前記接触頻度割り当て部は、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。 The data processing device according to the present invention includes an actual data acquisition unit that acquires single-source data for a plurality of users, including a first value indicating the usage status of a first medium and a second value indicating the usage status of a second medium for a single user; a pseudo data generation unit that generates pseudo samples such that the correlation coefficient between the first value and the second value is not different from that of the single-source data for the plurality of users; and a contact frequency allocation unit that calculates a first contact frequency to a target content via the first medium for each of the generated pseudo samples, the contact frequency allocation unit using data indicating the contact status to the target content in the first medium and calculating the first contact frequency based on the first value in each pseudo sample.
本発明に係るデータ処理方法は、プロセッサが、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する工程と、プロセッサが、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する工程と、プロセッサが、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する工程と、を備え、前記第1の接触頻度を算出する工程では、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。 The data processing method according to the present invention includes a step of acquiring single-source data for a plurality of users, the single-source data including a first value indicating the usage status of a first medium and a second value indicating the usage status of a second medium by a single user, a step of generating pseudo samples of the single-source data such that the correlation coefficient between the first value and the second value is the same as that of the single-source data for the plurality of users, and a step of calculating a first contact frequency of contact with the target content via the first medium for each of the generated pseudo samples, in which the step of calculating the first contact frequency uses data indicating the contact status of the target content in the first medium and calculates the first contact frequency based on the first value in each pseudo sample.
本発明に係るプログラムは、コンピュータを、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部として機能させ、前記接触頻度割り当て部は、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。 The program of the present invention causes a computer to function as an actual data acquisition unit that acquires single-source data for multiple users, including a first value indicating the usage status of a first medium and a second value indicating the usage status of a second medium for a single user; a pseudo data generation unit that generates a pseudo sample of the single-source data such that the correlation coefficient between the first value and the second value is not different from that of the single-source data for the multiple users; and a contact frequency allocation unit that calculates a first contact frequency to a target content via the first medium for each of the generated pseudo samples, the contact frequency allocation unit using data indicating the contact status to the target content in the first medium and calculating the first contact frequency based on the first value in each pseudo sample.
本発明によれば、複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にすることができる。 The present invention makes it possible to obtain pseudo-sample data that is useful for analyzing exposure to target content via multiple media.
次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1によるデータ処理装置1の構成を示すブロック図である。データ処理装置1は、1台または通信回線で接続された複数のコンピュータによって構成される。データ処理装置1は、プロセッサ11と、メインメモリ12と、入出力インタフェース13と、通信インタフェース14と、記憶装置15を備えている。記憶装置15は、半導体メモリ(例えば、揮発性メモリや不揮発性メモリ)、またはディスク媒体(例えば、磁気記録媒体や光磁気記録媒体)などのコンピュータ読み取り可能な記録媒体である。記憶装置15には、プロセッサ11に実行させるためのプログラムや、各種データ等が記憶されている。プログラムは、記憶装置15からメインメモリ12に読み込まれ、プロセッサ11により解釈及び実行されることにより、各種機能が実行される。
Next, an embodiment of the present invention will be described in detail with reference to the drawings.
(Embodiment 1)
1 is a block diagram showing the configuration of a
図2は、データ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールを示すブロック図である。図2に示すように、データ処理装置1のプロセッサ11によって実行される機能モジュールには、実データ取得部101、疑似データ生成部102、接触頻度割り当て部103、集計部104が含まれる。
Figure 2 is a block diagram showing the functional modules of a program executed by the
記憶装置15には、実測のシングルソースデータ(実データ)や実データに基づいて生成した疑似標本データが記憶されている。シングルソースデータとは、シングルユーザ(同一個人)における複数のメディアへの接触状況を測定した結果を含むデータである。本実施形態では、一例として、同一個人における、テレビ利用時間、テレビで広告に接触した回数、および動画サイト(YouTube(登録商標)等)の利用時間の計測結果を含むデータをシングルソースデータとして利用する。
The
次に、図3のフローチャートを用いて、データ処理装置1による、データ処理の流れについて説明する。データ処理装置1は、ある広告C(対象コンテンツ)について、テレビ(第2のメディア)での広告Cへの接触状況と、ウェブの動画サイト(第1のメディア)での広告Cへの接触状況を分析するためのデータを生成する。なお、ここでは、複数メディアでの対象広告への接触状況を分析する例を挙げているが、接触状況を分析する対象コンテンツは広告には限られず、例えば特定の番組や動画等であってもよい。
Next, the flow of data processing by the
まず、実測データ取得部101は、テレビ(第2のメディア)の利用履歴とウェブの動画サイト(第1のメディア)の利用履歴に関するシングルソースデータ(実データ)を取得する(ステップS101)。図4(A)は、シングルソースデータの具体例を示す図である。図4(A)に示すように、シングルソースデータには、各々の調査対象ユーザ(Sno001,002,…)についての所定の調査期間(例えば、1週間)におけるテレビ利用時間(分)(利用状況を示す第2の値)、テレビで広告Cに接触した回数(回)、動画サイト(Youtube等)の利用時間(分)(利用状況を示す第1の値)を含んでいる。なお、シングルソースデータには、動画サイトにおける広告Cへの接触回数は含まれていない。
First, the actual
また、シングルソースデータは、ユーザの属性情報(性別、年齢等)を含んでいてもよい。図4(A)の例では、属性情報として性別・年齢区分を含んでおり、図に示すように18~24歳の男性(M18-24)のユーザに関するシングルソースデータが取得されている。 The single-source data may also include user attribute information (gender, age, etc.). In the example of FIG. 4(A), attribute information includes gender and age category, and as shown in the figure, single-source data is obtained for male users aged 18-24 (M18-24).
次に、疑似データ生成部102は、取得したシングルソースデータと同様のデータ項目を持ち、同様の分布を持つ疑似標本データを生成する(ステップS102)。図4(B)は、図4(A)のシングルソースデータに基づいて生成した疑似標本データを例示する図である。疑似データ生成部102は、ステップS101で取得したシングルソースデータに基づいて、データを構成する3項目(テレビ利用時間、テレビ広告接触回数、動画サイトの利用時間)についての3次元正規分布を求める。さらに、求めた3次元正規分布に従って、ランダムに疑似標本データを生成する。疑似データ生成部102は、生成した疑似標本データにおいて、各項目(テレビ利用時間、テレビ広告接触回数、動画サイトの利用時間)の平均および項目間の相関係数が、元のシングルソースデータにおける平均および相関係数と同じになるように疑似標本データを生成する。なお、図4(B)の例では、疑似標本の各項目の数値には正規分布乱数が割り当てられているため、例えばテレビ広告接触回数についても、自然数ではなく小数点以下を含む数値となっている。
Next, the pseudo
また、疑似データ生成部102が生成する疑似標本の数は調査の目的に応じて設定することができる。図4(B)の例では、図5に例示するテレビ所有者人口の性別/年齢構成の統計データに基づいて疑似標本数を決定している。図5は、疑似標本人数を10万人とした場合の各性別/年齢区分におけるテレビ所有者人口を示しており、MF、M、Fはそれぞれ男女、男性、女性を表し、その横の数字が年齢層を表している。図4(B)は、18~24歳の男性(M18-24)の実データに基づいて生成された疑似標本であり、図5によれば、全TV所有者人口を10万人とした場合、そのうちの18~24歳の男性の人数は3346人となるため、図4(B)の例では3346件の疑似標本を生成している。なお、ここでは性別/年齢区分毎のテレビ所有者人口を想定したデータを用いているが、テレビ所有者人口のみならず、例えば性別/年齢区分毎の全人口などを想定することもできる。
The number of pseudo samples generated by the pseudo
次に、接触頻度割り当て部103は、生成した各々の疑似標本について、動画サイトを介して広告Cに接触した回数(第1の接触頻度)を算出する(ステップS103)。
Next, the contact
図6を用いて、接触頻度割り当て部103による動画サイトでの広告Cへの接触回数の算出方法について説明する。接触回数の算出には、公式データとして提供されている動画サイトにおける広告Cへの接触回数の分布データを利用する。図6(A)の表の2列目には、所定の母集団における広告Cへの接触回数(0回~10回以上)の分布(公式データ)が例示されており、3列目には、ステップS102で生成した疑似標本(図4(B)の例では3346人分のデータ)を、2列目の分布に合わせて各接触回数(0回~10回以上)に割り当てた標本数(データ数)が示されている。また、4列目には、3列目の数値の小数点以下を四捨五入し、接触回数10回以上の人数を調整して合計が3346人になるようにした結果を示している。
Using FIG. 6, a method for calculating the number of contacts to advertisement C on a video site by the contact
図6(B)は、ステップS102で生成した各疑似標本に、テレビCMの接触回数の順位(表3列目)と動画サイトの利用時間の順位(表6列目)を付与した例を示す図である。テレビCMの接触回数の順位(表3列目)は、表4列目のテレビで広告Cに接触した回数が小さい順に、順位が付与されている。一方、動画サイトの利用時間の順位(表6列目)は、動画サイトの利用時間が短い順に順位が付与されている。 Figure 6 (B) shows an example in which the pseudo samples generated in step S102 are ranked by the number of exposures to TV commercials (third column of the table) and the time spent on video sites (sixth column of the table). The ranking of the number of exposures to TV commercials (third column of the table) is based on the number of exposures to advertisement C on TV in the fourth column of the table, in ascending order. On the other hand, the ranking of the time spent on video sites (sixth column of the table) is based on the time spent on video sites, in descending order.
接触頻度割り当て部103は、図6(A)に示す動画サイトにおける広告Cへの接触回数の分布に基づいて、図6(B)の各疑似標本についての動画サイトにおける広告Cへの接触回数を算出する。図6(A)の4列目を参照すると、疑似標本の3346件のうち、1255件については、動画サイトにおける広告Cへの接触回数は「0」回である。このため、接触頻度割り当て部103は、図6(B)の疑似標本のうち、動画サイトの利用時間が短い順に1255番目までの疑似標本について、広告Cへの接触回数を「0」回とする。同様に、1256番目から1690番目までの標本については、広告Cへの接触回数を「1」回、1691番目から2008番目までは「2」回、2009番目から2319番目までは「3」回、2320番目から2677番目までは「4」回とする。図6(B)の例で、Sno001,002の標本は1255番目までに含まれるため広告Cへの接触回数は0回となる。一方、Sno003の標本は、2320番目から2677番目の範囲に含まれるため、広告Cへの接触回数は4回となる。以上のようにして、疑似標本データにおける動画サイトでの広告Cへの接触回数を設定することができる。
The contact
また、テレビCMの接触回数については疑似標本に既に値が含まれているが、テレビCMの接触回数の順位に基づいて、改めて設定するようにしてもよい。具体的には、動画サイトでの広告Cへの接触回数と同様に、公式データとして提供されているテレビでの広告Cへの接触回数の分布データ(図7の2列目)を利用し、3346人分のデータを各接触回数(例えば、0回~10回以上)に割り当てて(図7の3列目)、各接触回数の割り当てデータ数を求め(図7の4列目)、図6(B)の3列目の順位にしたがって、テレビでの広告Cへの接触回数を割り当てていくようにしてもよい。これにより、テレビ広告についても、公式データの分布に整合する接触回数分布を持った疑似標本を作成することができる。例えば、図6(B)の例で、Sno001は、疑似標本に元々示されているテレビCMの接触回数は5.6回であるが、テレビCMのランクが2253番目のため、図7の分布に従うと接触回数は2回となる。また、Sno002は、疑似標本に元々示されているテレビCMの接触回数は3.3回であるが、テレビCMのランクが1521番目のため、図7の分布に従うと接触回数は0回となる。 In addition, although the pseudo sample already contains values for the number of exposures to TV commercials, it may be set again based on the ranking of the number of exposures to TV commercials. Specifically, similar to the number of exposures to advertisement C on a video site, the distribution data of the number of exposures to advertisement C on television provided as official data (second column of FIG. 7) is used, and data for 3346 people is assigned to each number of exposures (for example, 0 to 10 or more) (third column of FIG. 7), the number of assigned data for each number of exposures is found (fourth column of FIG. 7), and the number of exposures to advertisement C on television may be assigned according to the ranking in the third column of FIG. 6(B). This makes it possible to create a pseudo sample with a distribution of the number of exposures that matches the distribution of the official data for television advertisements as well. For example, in the example of FIG. 6(B), Sno001 has a number of exposures to TV commercials originally shown in the pseudo sample of 5.6, but since the rank of the TV commercial is 2253rd, the number of exposures according to the distribution of FIG. 7 is 2. In addition, for Sno002, the number of exposures to the TV commercial originally shown in the pseudo sample is 3.3 times, but because the TV commercial is ranked 1521st, the number of exposures is 0 according to the distribution in Figure 7.
以上のステップS101~S103の手順によって、テレビ利用時間、テレビにおける広告Cへの接触回数、および動画サイトの利用時間を含む限られた件数のシングルソースデータ(実データ)から、テレビにおける広告Cへの接触回数と動画サイトにおける広告Cへの接触回数を含む所望の件数の疑似標本を取得することができる。 By performing the above steps S101 to S103, a desired number of pseudo samples including the number of exposures to advertisement C on television and the number of exposures to advertisement C on the video site can be obtained from a limited number of single-source data (actual data) including television usage time, the number of exposures to advertisement C on television, and usage time on the video site.
(統合リーチ・重複リーチの分析)
集計部104は、生成した疑似標本を用いて統合リーチや重複リーチの推定を行う。統合リーチとは、複数の事象の少なくとも1つが成立する割合であり、上記の実施例ではテレビ広告と動画サイト広告の少なくとも一方に接触しているユーザの割合を示す。また、重複リーチとは、複数の事象の全てが成立する割合であり、上記の実施例ではテレビ広告と動画サイト広告の両方に接しているユーザの割合を示す。すなわち、上記の実施例では統合リーチと重複リーチは、例えば下記の式(1)、(2)で算出することができる。なお、下記の式(1)、(2)では、1回でも接触したユーザはリーチしたとみなすという前提で統合リーチ・重複リーチを計算している。リーチの定義はこれに限らず、例えば2回以上、3回以上接触した場合にリーチしたと判定する場合には、下記式において「接触回数≧2」、「接触回数≧3」と置き換えて計算することができる。
(Analysis of combined reach and overlapping reach)
The
統合リーチ=([テレビ広告の接触回数≧1のユーザの人数]+[動画サイト広告の接触回数≧1のユーザの人数]-[テレビ広告と動画サイト広告の両方の接触回数≧1のユーザの人数])/3346 …(1)
重複リーチ=[テレビ広告と動画サイト広告の両方の接触回数≧1のユーザの人数]
/3346 …(2)
Integrated reach = ([number of users with TV ad exposure count ≥ 1] + [number of users with video site ad exposure count ≥ 1] - [number of users with both TV ad exposure count and video site ad exposure count ≥ 1]) / 3346 ... (1)
Overlap reach = [number of users who have been exposed to both television ads and video site ads ≥ 1]
/3346 … (2)
生成した疑似標本を用いて統合リーチを求めることにより、テレビ広告と動画サイト広告それぞれへの接触率と、統合リーチの関係を分析し、効率の良い広告展開を行うために活用することができる。 By calculating the integrated reach using the generated pseudo-samples, the relationship between the contact rate for television ads and video site ads and the integrated reach can be analyzed, and this can be used to implement efficient advertising.
なお、上記の実施例では、テレビ広告と動画サイト広告への接触回数を含むシングルソースの疑似標本を取得しているが、疑似標本に含める項目は、分析目的によって調整することができる。例えば、動画サイトの広告Cに、テレビ画面で接触した場合とスマートフォンで接触した場合を区別するようにしてもよい。また、テレビの広告Cへの接触について、局別の接触回数を含むようにしてもよい。また、特定の時間帯や特定のサイトにおける接触回数も同様の手順で算出することができる。 In the above embodiment, a single-source pseudo sample is obtained that includes the number of exposures to television advertisements and video site advertisements, but the items included in the pseudo sample can be adjusted depending on the purpose of the analysis. For example, it is possible to distinguish between exposure to advertisement C on a video site on a television screen and exposure to it on a smartphone. In addition, the number of exposures to advertisement C on television may be included by station. The number of exposures during a specific time period or on a specific site can also be calculated using a similar procedure.
以上のように、本実施形態によれば、複数のメディアの利用時間を含むシングルソースデータを利用して、項目間の相関係数が変わらないように疑似標本を生成し、さらに、各メディアにおける対象広告Cへの接触回数の分布データを利用し、疑似標本における当該メディアの利用時間に基づいて、広告Cへの接触回数を割り当てるようにした。これにより、メディアの利用時間の情報しか含まれていないシングルソースデータを利用して、実態に即した接触回数を推定することができる。これにより、複数のメディアを介した広告Cへの接触状況の分析に活用できる疑似標本データを生成することができる。また、作成した疑似標本を用いて分析等を行っても、実測データを用いて分析した場合の結果と矛盾しない結果を得られることが期待できる。 As described above, according to this embodiment, single-source data including the usage time of multiple media is used to generate a pseudo sample so that the correlation coefficient between items does not change, and further, distribution data of the number of exposures to target advertisement C in each medium is used to assign the number of exposures to advertisement C based on the usage time of that medium in the pseudo sample. In this way, it is possible to estimate the number of exposures that is in line with the actual situation using single-source data that only includes information on the usage time of the media. This makes it possible to generate pseudo sample data that can be used to analyze the exposure situation to advertisement C via multiple media. Furthermore, even if an analysis is performed using the created pseudo sample, it is expected that results will be obtained that are not inconsistent with the results of an analysis using actual measured data.
本実施形態では、テレビ広告と動画サイトの広告への接触状況を示す疑似標本データを作成しているが、メディアの数や種類はこれに限られず、テレビやウェブの他に新聞やラジオなど複数のメディアへの接触状況に関する疑似標本の作成に利用することができる。また、統合リーチ、重複リーチ以外にも、シングルソースデータに基づいて分析、算出できる種々の指標や統計データを作成することができる。また、2種類のメディアの統合リーチや重複リーチに限らず、任意のメディア数の統合リーチや重複リーチ、その他の分析に対応することができる。 In this embodiment, pseudo sample data is created that indicates exposure to television advertisements and video site advertisements, but the number and types of media are not limited to this, and the data can be used to create pseudo samples related to exposure to multiple media, such as newspapers and radio in addition to television and the web. In addition to integrated reach and overlapping reach, various indicators and statistical data can be created that can be analyzed and calculated based on single-source data. Furthermore, the data is not limited to the integrated reach and overlapping reach of two types of media, but can handle the integrated reach and overlapping reach of any number of media, as well as other analyses.
また、作成した疑似標本データは、統合リーチ・重複リーチの分析だけでなく、例えば、以下のような用途にも利用することができる。
(1)広告接触者の属性プロフィールを描写に利用する。
(2)他のデータソースと融合させることにより、さらに様々な用途に利用することができる。具体的には以下のような例があげられる。
(2)-1:広告配信事業者のデータと融合し、リーチを補完するための効果的な配信を実現する。
(2)-2:ブランド評価データと融合し、ブランド評価への広告効果の分析に利用する。
(2)-3:購買履歴データと融合し、購買への広告効果の分析に利用する。
(2)-4:生活者の属性プロフィールデータと融合し、広告接触者の詳細なプロフィールの取得に利用する。
In addition, the pseudo-sample data that is created can be used not only for analyzing integrated reach and overlapping reach, but also for other purposes, such as the following:
(1) Use the demographic profile of those exposed to the ad to portray it.
(2) By combining it with other data sources, it can be used for a variety of purposes. Specific examples include the following:
(2)-1: By combining data from advertising distribution companies, we can achieve effective delivery to complement the reach.
(2)-2: Combine with brand evaluation data and use to analyze the effect of advertising on brand evaluation.
(2)-3: Combine with purchase history data and use to analyze the effectiveness of advertising on purchases.
(2)-4: Combine this with consumer attribute profile data to obtain detailed profiles of those who were exposed to the advertising.
(実施の形態2)
本発明の実施の形態2によるデータ処理装置1の構成およびデータ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールは、図1,2に示す実施の形態1と同様である。また、データ処理装置1によるデータ処理の流れは、図3のフローチャートに示す流れと同様である。すなわち、図4(A)に例示するようなシングルソースデータに基づいて、実施の形態1と同様に図4(B)に例示するような疑似標本データを生成する。さらに、接触頻度割り当て部103は、生成した各々の疑似標本について、動画サイトを介して広告Cに接触した回数(第1の接触頻度)を算出する。実施の形態2では、実施の形態1とは異なる方法で、動画サイトを介して広告Cに接触した回数を算出する。
(Embodiment 2)
The configuration of the
実施の形態1では、公式データとして、図6(A)に示すような動画サイトにおける広告Cへの接触回数の分布データが提供されており、これを利用して、各疑似標本における動画サイトを介して広告Cに接触した回数を算出した。一方、多くの動画サイトでは、上記のような広告Cへの接触回数の分布データは提供されていない。代わりに、当該動画サイトにおける広告Cへの接触の有無の比率を示すデータが提供されている場合がある。具体的には、所定の母集団(例えば、18~24歳の男性(M18-24))において、下記のように定義される値が提供されている。
接触有りの割合=動画サイトにおける広告Cへの接触者数/母集団の人数
接触無しの割合=1-(接触有りの割合)
In the first embodiment, distribution data of the number of times of contact with advertisement C on a video site as shown in FIG. 6(A) is provided as official data, and this is used to calculate the number of times each pseudo sample was contacted with advertisement C via the video site. On the other hand, many video sites do not provide distribution data of the number of times of contact with advertisement C as described above. Instead, data showing the ratio of whether or not there was contact with advertisement C on the video site may be provided. Specifically, values defined as follows are provided for a given population (for example, men aged 18 to 24 (M18-24)):
Percentage of people with exposure = number of people who were exposed to ad C on the video site / number of people in the population Percentage of people without exposure = 1 - (percentage of people with exposure)
また、併せて広告Cへの接触有りの集団における平均接触回数が提供されている場合がある。具体的には、下記のように定義される値が提供されている。
平均接触回数=動画サイトにおける広告Cの総表示回数/動画サイトにおける広告Cへの接触者数
In addition, the average number of contacts in the group that was exposed to advertisement C may also be provided. Specifically, values defined as follows are provided.
Average number of contacts = total number of times Ad C is displayed on the video site / number of people who came into contact with Ad C on the video site
実施の形態2では、動画サイトにおける広告Cへの接触の有無の比率を示すデータと、接触有りの集団における平均接触回数を利用して、各疑似標本における動画サイトを介して広告Cに接触した回数を算出する。 In the second embodiment, the number of times each pseudo sample was exposed to advertisement C via a video site is calculated using data indicating the ratio of those who were exposed to advertisement C on a video site and the average number of times the sample was exposed to advertisement C in the group who were exposed to advertisement C.
まず、接触頻度割り当て部103は、各疑似標本に、当該動画サイトにおける広告Cへの接触有無を割り当てる。図8(A)の表の2列目は、公式データとして得られるデータであり、所定の母集団(例えば、18~24歳の男性(M18-24))における動画サイトでの広告Cへの接触有無の比率が例示されている。3列目は、疑似標本(ここでは17964人分)を、2列目の比率に合わせて接触無し・接触有りに割り当てた人数を示している。また、4列目は、3列目の数値の小数点以下を四捨五入し、接触無しの人数を調整して合計が17964人になるようにした結果を示している。
First, the contact
図8(B)は、疑似標本に、動画サイトの利用時間の順位(表8列目)を付与した例を示す図である。動画サイトの利用時間の順位は、動画サイトの利用時間(表7列目)が短い順に順位が付与されている。接触頻度割り当て部103は、図8(A)に示す動画サイトにおける広告Cへの接触有無の比率に基づいて、図8(B)の各疑似標本に、動画サイトにおける広告Cへの接触有無を割り当てる。図8(A)の4列目を参照すると、疑似標本の17964人のうち、15719人については、動画サイトにおける広告Cへの接触は無しである。このため、接触頻度割り当て部103は、図8(B)の疑似標本のうち、動画サイトの利用時間が短い順に15719番目までの疑似標本について、広告Cへの接触「無し」を割り当てる。同様に、15720番目から17964番目までの標本については、広告Cへの接触「有り」を割り当てる。
Figure 8 (B) is a diagram showing an example in which the pseudo samples are ranked by the time spent on the video site (
次に、接触頻度割り当て部103は、広告Cへの接触「有り」の標本に対し、広告接触回数の期待値を割り当てる。接触頻度割り当て部103は、以下の3条件を満たす関係に基づき期待値を割り当てる。
条件1:期待値は、動画サイトの利用時間に比例する。
条件2:期待値の平均は、公式データの接触「有り」の集団における平均接触回数に一致する。
条件3:接触「有り」が割り当てられた疑似標本の中で、動画サイトの利用時間が最も短い標本の期待値は「1」になる。
Next, the contact
Condition 1: The expected value is proportional to the amount of time spent on the video site.
Condition 2: The average expected value matches the average number of contacts among the group of people who have contact in the official data.
Condition 3: Among the pseudo-samples that are assigned "contact," the expected value of the sample with the shortest time spent on video sites is "1."
条件1~3を満たす関係に基づき期待値を求める手順について具体的に説明する。まず、接触頻度割り当て部103は、図9に示すような(X,Y)=(利用時間,接触回数の期待値)で定義される平面における以下の2点を通る直線(条件1)の式Y=c+bXを求める。
点P1(条件3):(接触「有り」の標本における利用時間の最小値,1)
点P2(条件2):(接触「有り」の標本から算出した利用時間の平均At,期待値の平均Ar(ただし、期待値の平均Ar=公式データの「平均広告接触回数」))
A specific procedure for calculating the expected value based on the relationship that satisfies
Point P1 (Condition 3): (Minimum usage time in contact “present” samples, 1)
Point P2 (Condition 2): (Average usage time At calculated from samples with contact, average expected value Ar (where average expected value Ar = "average number of advertising contacts" in official data))
求められた直線の式(1)に、各標本の動画サイト利用時間(X)を代入して、各標本の広告接触回数の期待値Yを求める。
広告接触回数の期待値(Y)=c+b×動画サイト利用時間(X)…(1)
(c、bは定数)
The video site usage time (X) of each sample is substituted into the equation (1) for the obtained straight line to obtain an expected value Y of the number of advertisement exposures for each sample.
Expected number of ad exposures (Y) = c + b × video site usage time (X) (1)
(c and b are constants)
さらに、接触頻度割り当て部103は、求められた各標本の期待値を利用して、各標本の広告接触回数を算出する。接触頻度割り当て部103は、例えば、期待値が各標本の期待値と一致する切断ポアソン分布に従う乱数を1つ発生させて、当該標本の広告接触回数とするようにしてもよい。広告接触回数は1以上の整数であるため、定義域が1以上である切断ポアソン分布を用いるようにしてよい。なお、切断ポアソン分布の乱数を発生させるために、切断前のポアソン分布の期待値(λ)が必要な場合には、各標本の期待値の範囲に応じて個別にλを計算するようにしてもよい。1以上で切断された切断ポアソン分布の期待値Eと切断前のポアソン分布の期待値λには下記の式の関係がある。
E=λ/(1-exp(-λ))
Furthermore, the contact
E = λ/(1-exp(-λ))
実施の形態2によれば、動画サイトにおける広告接触回数分布のデータが得られない場合でも、広告接触有無の比率と平均広告接触回数のデータが得られれば、疑似標本の実態に即した広告接触回数を推定することができる。これにより、実施の形態1と同様に、複数のメディアを介した広告Cへの接触状況の分析に活用できる疑似標本データを生成することができる。また、作成した疑似標本を用いて分析等を行っても、実測データを用いて分析した場合の結果と矛盾しない結果を得られることが期待できる。 According to the second embodiment, even if data on the distribution of ad exposures on video sites cannot be obtained, if data on the ratio of ad exposures and the average ad exposures can be obtained, the ad exposures can be estimated based on the actual situation of the pseudo sample. As a result, as in the first embodiment, pseudo sample data can be generated that can be used to analyze exposure to advertisement C via multiple media. Furthermore, even if an analysis is performed using the created pseudo sample, it is expected that results will be obtained that are consistent with the results of an analysis using actual data.
なお、期待値から広告接触回数を発生させるのに用いる確率分布は切断ポアソン分布に限られない。例えば、二項分布、負の二項分布、幾何分布、ベータ二項分布などを用いることもできる。また、実施の形態1と同様に、テレビCMの接触回数についても、テレビCMの接触回数の順位に基づいて、改めて設定するようにしてもよい。 The probability distribution used to generate the number of ad exposures from the expected value is not limited to the truncated Poisson distribution. For example, binomial distribution, negative binomial distribution, geometric distribution, beta binomial distribution, etc. can also be used. As in the first embodiment, the number of exposures to television commercials may also be reset based on the ranking of the number of exposures to television commercials.
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、上述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、または並列に実行することができる。また、各処理ステップ間に他のステップを追加してもよい。また、1ステップとして記載されているステップを、複数ステップに分けて実行してもよいし、複数ステップに分けて記載されているものを、1ステップとして把握することもできる。 The present invention is not limited to the above-described embodiment, and can be implemented in various other forms without departing from the spirit of the present invention. For this reason, the above-described embodiment is merely illustrative in every respect, and should not be interpreted in a restrictive manner. For example, the above-described processing steps can be arbitrarily changed in order or executed in parallel as long as no inconsistency occurs in the processing content. Other steps may be added between each processing step. A step described as one step may be divided into multiple steps and executed, and something described as being divided into multiple steps can be understood as one step.
1…データ処理装置
11…プロセッサ
12…メインメモリ
13…入出力インタフェース
14…通信インタフェース
15…記憶装置
101…実データ取得部
102…疑似データ生成部
103…接触頻度割り当て部
104…集計部
1...
Claims (7)
前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、
生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、
前記接触頻度割り当て部は、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、データ処理装置。 an actual data acquisition unit that acquires single source data for a plurality of users, the single user including a first value indicating a usage status of a first medium and a second value indicating a usage status of a second medium;
a pseudo data generating unit configured to generate a pseudo sample of the single-source data such that a correlation coefficient between the first value and the second value is the same as that of the single-source data for the plurality of users;
a contact frequency allocation unit that calculates a first contact frequency of the target content via the first medium for each of the generated pseudo samples,
The contact frequency allocation unit
A data processing device that uses data indicating a contact state with the target content in the first medium and calculates the first contact frequency based on the first value in each pseudo sample.
前記接触頻度割り当て部は、
各々の疑似標本を、前記第1のメディアの利用時間の長さに応じて順位付けし、前記対象コンテンツへの接触頻度の分布データに基づいて、前記第1の接触頻度を割り当てる、請求項1に記載のデータ処理装置。 the data indicating the contact status with the target content is distribution data of contact frequency,
The contact frequency allocation unit
The data processing apparatus according to claim 1 , further comprising: ranking each pseudo sample according to a length of time spent using the first medium; and allocating the first exposure frequency based on distribution data of exposure frequency to the target content.
前記接触頻度割り当て部は、
各々の疑似標本を、前記第1のメディアの利用時間の長さに応じて順位付けし、前記対象コンテンツへの接触有無の比率を示すデータに基づいて、各々の疑似標本に前記対象コンテンツへの接触有無を割り当て、前記対象コンテンツへの接触有りが割り当てられた疑似標本について、前記第1のメディアの利用時間の長さに基づいて前記第1の接触頻度を割り当てる、請求項1に記載のデータ処理装置。 The data indicating the contact status with the target content is data indicating a ratio of contact presence/absence,
The contact frequency allocation unit
2. The data processing device of claim 1, further comprising: ranking each pseudo sample according to the length of time the pseudo sample has spent using the first medium; assigning each pseudo sample a status of contact with the target content based on data indicating the ratio of contact with the target content to a status of contact; and assigning the first contact frequency to each pseudo sample that has been assigned a status of contact with the target content based on the length of time the pseudo sample has spent using the first medium.
前記対象コンテンツへの接触有りが割り当てられた疑似標本について、前記第1のメディアの利用時間の長さに比例する期待値を持つ確率分布に従う乱数を前記第1の接触頻度として割り当てる、請求項3に記載のデータ処理装置。 The contact frequency allocation unit
The data processing device according to claim 3 , wherein for a pseudo sample that is assigned a contact with the target content, a random number that follows a probability distribution having an expected value proportional to a length of time of using the first medium is assigned as the first contact frequency.
前記接触頻度割り当て部は、
各々の疑似標本を、前記第2の接触頻度に応じて順位付けし、前記第2のメディアにおける前記対象コンテンツへの状況を示すデータに基づいて、前記第2の接触頻度の割り当てなおしを行う、請求項1または3に記載のデータ処理装置。 the single-source data includes a second frequency of exposure to the target content via the second medium;
The contact frequency allocation unit
The data processing device according to claim 1 or 3, wherein each pseudo sample is ranked according to the second contact frequency, and the second contact frequency is reallocated based on data indicating a situation regarding the target content in the second medium.
プロセッサが、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する工程と、
プロセッサが、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する工程と、を備え、
前記第1の接触頻度を算出する工程では、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、データ処理方法。 a processor obtaining single source data for a plurality of users, the single user including a first value indicative of a usage of a first medium and a second value indicative of a usage of a second medium;
a processor generating a pseudo-sample of the single-source data such that a correlation coefficient between the first values and the second values is invariant to single-source data for the plurality of users;
and calculating, by the processor, a first frequency of exposure to target content via the first medium for each of the generated pseudo samples;
In the step of calculating the first contact frequency,
A data processing method comprising: utilizing data indicating an exposure state to the target content in the first medium; and calculating the first exposure frequency based on the first value in each pseudo sample.
シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、
前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、
生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部として機能させ、
前記接触頻度割り当て部は、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、プログラム。 Computer,
an actual data acquisition unit that acquires single source data for a plurality of users, the single user including a first value indicating a usage status of a first medium and a second value indicating a usage status of a second medium;
a pseudo data generating unit configured to generate a pseudo sample of the single-source data such that a correlation coefficient between the first value and the second value is the same as that of the single-source data for the plurality of users;
a contact frequency allocation unit that calculates a first contact frequency of the target content via the first medium for each of the generated pseudo samples;
The contact frequency allocation unit
a program for calculating the first exposure frequency based on the first value for each pseudo sample by using data indicating an exposure state to the target content in the first medium;
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023202728 | 2023-11-30 | ||
JP2023202728 | 2023-11-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7510025B1 true JP7510025B1 (en) | 2024-07-02 |
Family
ID=91671317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024024830A Active JP7510025B1 (en) | 2023-11-30 | 2024-02-21 | DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7510025B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005032234A (en) | 2003-06-19 | 2005-02-03 | Matsushita Electric Ind Co Ltd | Viewing control device, viewing control program, and secure module |
JP2018028859A (en) | 2016-08-19 | 2018-02-22 | 株式会社インテージ | Advertisement contact state analysis system and advertisement contact state analysis method |
JP2020160657A (en) | 2019-03-26 | 2020-10-01 | 株式会社ビデオリサーチ | Data processing device, and data processing method |
JP2022028370A (en) | 2020-08-03 | 2022-02-16 | 株式会社ビデオリサーチ | Dummy sample making device, method for making dummy sample, and program |
-
2024
- 2024-02-21 JP JP2024024830A patent/JP7510025B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005032234A (en) | 2003-06-19 | 2005-02-03 | Matsushita Electric Ind Co Ltd | Viewing control device, viewing control program, and secure module |
JP2018028859A (en) | 2016-08-19 | 2018-02-22 | 株式会社インテージ | Advertisement contact state analysis system and advertisement contact state analysis method |
JP2020160657A (en) | 2019-03-26 | 2020-10-01 | 株式会社ビデオリサーチ | Data processing device, and data processing method |
JP2022028370A (en) | 2020-08-03 | 2022-02-16 | 株式会社ビデオリサーチ | Dummy sample making device, method for making dummy sample, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11710141B2 (en) | System and method of determining a website demographic profile | |
JP6254283B2 (en) | Method and system for creating a data-driven attribution model that assigns attribution achievements to multiple events | |
KR101651245B1 (en) | Conversion crediting | |
US8639575B2 (en) | Audience segment estimation | |
US8676799B1 (en) | Evaluating techniques for clustering geographic entities | |
US20030074252A1 (en) | System and method for determining internet advertising strategy | |
US20210084370A1 (en) | Computer system and method for estimating viewers of addressable advertisements | |
US20110276392A1 (en) | Performing Geography-Based Advertising Experiments | |
AU2011230597A1 (en) | Exposure based customization of surveys | |
CN103942236A (en) | System and method for serving electronic content | |
US20160350814A1 (en) | Systems, methods, and apparatus for budget allocation | |
JP7510025B1 (en) | DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM | |
JP7469983B2 (en) | Pseudo specimen preparation device, pseudo specimen preparation method, and program | |
JP6975355B1 (en) | Information processing system, information processing method, and computer program | |
JP6698129B2 (en) | Viewing analysis device and viewing analysis method | |
US10194215B2 (en) | Method and system for broadcasting an advertisement to a potential customer | |
Cheong et al. | Evaluating the multivariate beta binomial distribution for estimating magazine and internet exposure frequency distributions | |
KR20130135557A (en) | Search advertisement system and search advertisement method | |
US20150088636A1 (en) | Classification of geographic performance data | |
KR20240152635A (en) | Advertising performance analysis system and method using AI | |
JP2023136278A (en) | Advertising space trading system, advertising space trading method and computer program | |
KR20200092266A (en) | Marketing support system, marketing support method and program thereof | |
JP2016051406A (en) | Analysis device, analysis method and analysis program | |
CN115633542A (en) | Attribution model for correlated and mixed content item responses | |
JP2019139601A (en) | Information processing apparatus, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240222 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240222 |
|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20240315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240612 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7510025 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |