JP7510025B1 - DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM - Google Patents

DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM Download PDF

Info

Publication number
JP7510025B1
JP7510025B1 JP2024024830A JP2024024830A JP7510025B1 JP 7510025 B1 JP7510025 B1 JP 7510025B1 JP 2024024830 A JP2024024830 A JP 2024024830A JP 2024024830 A JP2024024830 A JP 2024024830A JP 7510025 B1 JP7510025 B1 JP 7510025B1
Authority
JP
Japan
Prior art keywords
data
medium
contact
pseudo
target content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024024830A
Other languages
Japanese (ja)
Inventor
達也 河原
暁 鈴木
玄 田村
弘幸 青島
耕太 坂田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Video Research Co Ltd
Original Assignee
Video Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Video Research Co Ltd filed Critical Video Research Co Ltd
Application granted granted Critical
Publication of JP7510025B1 publication Critical patent/JP7510025B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Figure 0007510025000001

【課題】複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にする。
【解決手段】シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、第1の値と第2の値の相関係数が複数のユーザについてのシングルソースデータと変わらないように、シングルソースデータの疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、接触頻度割り当て部は、第1のメディアにおける対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における第1の値に基づいて、第1の接触頻度を算出する。
【選択図】図3

Figure 0007510025000001

The present invention makes it possible to acquire pseudo-sample data that is useful for analyzing exposure to target content via multiple media.
[Solution] The system includes an actual data acquisition unit that acquires single-source data for multiple users, the single-source data including a first value indicating the usage status of a first medium and a second value indicating the usage status of a second medium of a single user; a pseudo data generation unit that generates a pseudo sample of the single-source data so that the correlation coefficient between the first value and the second value is the same as that of the single-source data for the multiple users; and a contact frequency allocation unit that calculates a first contact frequency to the target content via the first medium for each of the generated pseudo samples, where the contact frequency allocation unit uses data indicating the contact status to the target content in the first medium and calculates the first contact frequency based on the first value in each pseudo sample.
[Selected figure] Figure 3

Description

本発明は、コンテンツへの接触状況を、疑似標本を用いて増幅させたデータを用いて分析するデータ処理装置、データ処理方法、およびプログラムに関する。 The present invention relates to a data processing device, a data processing method, and a program that analyzes content exposure using data amplified with pseudo samples.

近年、ある商品の広告についてテレビコマーシャルと動画サイトの広告など、複数のメディアでの接触者数の規模を調査することが行われている。 In recent years, research has been conducted into the scale of exposure to a certain product through multiple media, such as television commercials and video site advertisements.

例えば、特許文献1には、テレビCMへの接触者数のデータと、デジタル広告への接触者数のデータ、および複数の対象者の各々について、当該テレビCMの視聴有無と当該デジタル広告が掲載されたサイトの閲覧回数を示すデータ(シングルソースデータ)を用いて、テレビCMとデジタル広告の少なくとも一方への接触者数を算出する方法が開示されている。 For example, Patent Document 1 discloses a method for calculating the number of people exposed to at least one of a television commercial and a digital advertisement, using data on the number of people exposed to a television commercial, data on the number of people exposed to a digital advertisement, and data (single-source data) indicating, for each of a number of targets, whether or not the target person viewed the television commercial and the number of times the site on which the digital advertisement was posted was viewed.

また、例えば、特許文献2に記載されているように、コンテンツへの接触状況の調査において、実際の標本データに基づいて作成された疑似標本データを用いて、データ数を増幅させることが知られている。 In addition, as described in Patent Document 2, for example, it is known that in a survey of content exposure, pseudo sample data created based on actual sample data is used to increase the amount of data.

特開2020-160657号公報JP 2020-160657 A 特開2022-028370号公報JP 2022-028370 A

一般にシングルソースデータには、同一個人についての、複数のメディアへの接触状況を示す情報が含まれているが、複数のメディアを介した対象広告への接触頻度を示す情報が含まれているとは限らない。しかし、複数のメディアを介した対象広告への接触状況を分析するためには、各々のメディアでの実態に即した接触状況を示す情報を含むデータが求められていた。 Single-source data generally contains information indicating the same individual's exposure to multiple media, but does not necessarily contain information indicating the frequency of exposure to targeted advertising via multiple media. However, in order to analyze exposure to targeted advertising via multiple media, data containing information indicating exposure that reflects the actual situation for each medium was required.

本発明は、複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にすることを目的とする。 The present invention aims to make it possible to obtain pseudo-sample data that is useful for analyzing exposure to target content via multiple media.

本発明に係るデータ処理装置は、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、前記接触頻度割り当て部は、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。 The data processing device according to the present invention includes an actual data acquisition unit that acquires single-source data for a plurality of users, including a first value indicating the usage status of a first medium and a second value indicating the usage status of a second medium for a single user; a pseudo data generation unit that generates pseudo samples such that the correlation coefficient between the first value and the second value is not different from that of the single-source data for the plurality of users; and a contact frequency allocation unit that calculates a first contact frequency to a target content via the first medium for each of the generated pseudo samples, the contact frequency allocation unit using data indicating the contact status to the target content in the first medium and calculating the first contact frequency based on the first value in each pseudo sample.

本発明に係るデータ処理方法は、プロセッサが、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する工程と、プロセッサが、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する工程と、プロセッサが、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する工程と、を備え、前記第1の接触頻度を算出する工程では、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。 The data processing method according to the present invention includes a step of acquiring single-source data for a plurality of users, the single-source data including a first value indicating the usage status of a first medium and a second value indicating the usage status of a second medium by a single user, a step of generating pseudo samples of the single-source data such that the correlation coefficient between the first value and the second value is the same as that of the single-source data for the plurality of users, and a step of calculating a first contact frequency of contact with the target content via the first medium for each of the generated pseudo samples, in which the step of calculating the first contact frequency uses data indicating the contact status of the target content in the first medium and calculates the first contact frequency based on the first value in each pseudo sample.

本発明に係るプログラムは、コンピュータを、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部として機能させ、前記接触頻度割り当て部は、前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出するものである。 The program of the present invention causes a computer to function as an actual data acquisition unit that acquires single-source data for multiple users, including a first value indicating the usage status of a first medium and a second value indicating the usage status of a second medium for a single user; a pseudo data generation unit that generates a pseudo sample of the single-source data such that the correlation coefficient between the first value and the second value is not different from that of the single-source data for the multiple users; and a contact frequency allocation unit that calculates a first contact frequency to a target content via the first medium for each of the generated pseudo samples, the contact frequency allocation unit using data indicating the contact status to the target content in the first medium and calculating the first contact frequency based on the first value in each pseudo sample.

本発明によれば、複数のメディアを介した対象コンテンツへの接触状況の分析に有用な疑似標本データの取得を可能にすることができる。 The present invention makes it possible to obtain pseudo-sample data that is useful for analyzing exposure to target content via multiple media.

本発明の実施の形態1による、データ処理装置1の構成を示すブロック図。1 is a block diagram showing a configuration of a data processing device 1 according to a first embodiment of the present invention. 本発明の実施の形態1による、データ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールを示すブロック図。1 is a block diagram showing functional modules of a program executed by a processor 11 of a data processing device 1 according to a first embodiment of the present invention. 本発明の実施の形態1による、データ処理装置1の動作のフローチャート。3 is a flowchart of the operation of the data processing device 1 according to the first embodiment of the present invention. 本発明の実施の形態1による、シングルソースデータと疑似標本の具体例を示す図。3A and 3B are diagrams showing specific examples of single-source data and pseudo samples according to the first embodiment of the present invention. 本発明の実施の形態1による、疑似標本数の決定に利用する、テレビ所有者人口の性別/年齢構成の統計データを例示する図。FIG. 2 is a diagram illustrating statistical data on the gender/age structure of the television owner population used to determine the pseudo sample size according to the first embodiment of the present invention. 本発明の実施の形態1による、動画サイトでの広告Cへの接触回数の算出方法について説明する図。5 is a diagram for explaining a method for calculating the number of exposures to advertisement C on a video site according to the first embodiment of the present invention. FIG. 本発明の実施の形態1による、テレビでの広告Cへの接触回数の算出方法について説明する図。FIG. 4 is a diagram for explaining a method for calculating the number of exposures to advertisement C on television according to the first embodiment of the present invention. 本発明の実施の形態2による、動画サイトでの広告Cへの接触回数の算出方法について説明する図。FIG. 11 is a diagram for explaining a method for calculating the number of exposures to advertisement C on a video site according to the second embodiment of the present invention. 本発明の実施の形態2による、動画サイトでの広告Cへの接触回数の算出方法について説明する図。FIG. 11 is a diagram for explaining a method for calculating the number of exposures to advertisement C on a video site according to the second embodiment of the present invention.

次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1によるデータ処理装置1の構成を示すブロック図である。データ処理装置1は、1台または通信回線で接続された複数のコンピュータによって構成される。データ処理装置1は、プロセッサ11と、メインメモリ12と、入出力インタフェース13と、通信インタフェース14と、記憶装置15を備えている。記憶装置15は、半導体メモリ(例えば、揮発性メモリや不揮発性メモリ)、またはディスク媒体(例えば、磁気記録媒体や光磁気記録媒体)などのコンピュータ読み取り可能な記録媒体である。記憶装置15には、プロセッサ11に実行させるためのプログラムや、各種データ等が記憶されている。プログラムは、記憶装置15からメインメモリ12に読み込まれ、プロセッサ11により解釈及び実行されることにより、各種機能が実行される。
Next, an embodiment of the present invention will be described in detail with reference to the drawings.
(Embodiment 1)
1 is a block diagram showing the configuration of a data processing device 1 according to a first embodiment of the present invention. The data processing device 1 is composed of one computer or a plurality of computers connected by a communication line. The data processing device 1 includes a processor 11, a main memory 12, an input/output interface 13, a communication interface 14, and a storage device 15. The storage device 15 is a computer-readable recording medium such as a semiconductor memory (e.g., a volatile memory or a non-volatile memory) or a disk medium (e.g., a magnetic recording medium or a magneto-optical recording medium). The storage device 15 stores programs to be executed by the processor 11, various data, and the like. The programs are read from the storage device 15 into the main memory 12, and are interpreted and executed by the processor 11 to perform various functions.

図2は、データ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールを示すブロック図である。図2に示すように、データ処理装置1のプロセッサ11によって実行される機能モジュールには、実データ取得部101、疑似データ生成部102、接触頻度割り当て部103、集計部104が含まれる。 Figure 2 is a block diagram showing the functional modules of a program executed by the processor 11 of the data processing device 1. As shown in Figure 2, the functional modules executed by the processor 11 of the data processing device 1 include an actual data acquisition unit 101, a pseudo data generation unit 102, a contact frequency allocation unit 103, and a counting unit 104.

記憶装置15には、実測のシングルソースデータ(実データ)や実データに基づいて生成した疑似標本データが記憶されている。シングルソースデータとは、シングルユーザ(同一個人)における複数のメディアへの接触状況を測定した結果を含むデータである。本実施形態では、一例として、同一個人における、テレビ利用時間、テレビで広告に接触した回数、および動画サイト(YouTube(登録商標)等)の利用時間の計測結果を含むデータをシングルソースデータとして利用する。 The storage device 15 stores actual single-source data (actual data) and pseudo-sample data generated based on the actual data. Single-source data is data that includes the results of measuring the exposure of a single user (the same individual) to multiple media. In this embodiment, as an example, data that includes the results of measuring the amount of time a single individual spends watching television, the number of times they have been exposed to advertisements on television, and the amount of time they spend watching video sites (such as YouTube (registered trademark))) is used as single-source data.

次に、図3のフローチャートを用いて、データ処理装置1による、データ処理の流れについて説明する。データ処理装置1は、ある広告C(対象コンテンツ)について、テレビ(第2のメディア)での広告Cへの接触状況と、ウェブの動画サイト(第1のメディア)での広告Cへの接触状況を分析するためのデータを生成する。なお、ここでは、複数メディアでの対象広告への接触状況を分析する例を挙げているが、接触状況を分析する対象コンテンツは広告には限られず、例えば特定の番組や動画等であってもよい。 Next, the flow of data processing by the data processing device 1 will be described with reference to the flowchart of FIG. 3. For a certain advertisement C (target content), the data processing device 1 generates data for analyzing the exposure to advertisement C on television (second medium) and the exposure to advertisement C on a web video site (first medium). Note that, although an example of analyzing the exposure to a target advertisement in multiple media is given here, the target content for which the exposure is analyzed is not limited to advertisements and may be, for example, a specific program or video.

まず、実測データ取得部101は、テレビ(第2のメディア)の利用履歴とウェブの動画サイト(第1のメディア)の利用履歴に関するシングルソースデータ(実データ)を取得する(ステップS101)。図4(A)は、シングルソースデータの具体例を示す図である。図4(A)に示すように、シングルソースデータには、各々の調査対象ユーザ(Sno001,002,…)についての所定の調査期間(例えば、1週間)におけるテレビ利用時間(分)(利用状況を示す第2の値)、テレビで広告Cに接触した回数(回)、動画サイト(Youtube等)の利用時間(分)(利用状況を示す第1の値)を含んでいる。なお、シングルソースデータには、動画サイトにおける広告Cへの接触回数は含まれていない。 First, the actual data acquisition unit 101 acquires single source data (actual data) related to the usage history of television (second medium) and the usage history of a web video site (first medium) (step S101). FIG. 4 (A) is a diagram showing a specific example of single source data. As shown in FIG. 4 (A), the single source data includes the television usage time (minutes) (second value indicating usage status) for each survey target user (Sno001, 002, ...) in a specified survey period (e.g., one week), the number of times (times) that the user came into contact with advertisement C on television, and the usage time (minutes) (first value indicating usage status) of a video site (YouTube, etc.). Note that the single source data does not include the number of times that the user came into contact with advertisement C on the video site.

また、シングルソースデータは、ユーザの属性情報(性別、年齢等)を含んでいてもよい。図4(A)の例では、属性情報として性別・年齢区分を含んでおり、図に示すように18~24歳の男性(M18-24)のユーザに関するシングルソースデータが取得されている。 The single-source data may also include user attribute information (gender, age, etc.). In the example of FIG. 4(A), attribute information includes gender and age category, and as shown in the figure, single-source data is obtained for male users aged 18-24 (M18-24).

次に、疑似データ生成部102は、取得したシングルソースデータと同様のデータ項目を持ち、同様の分布を持つ疑似標本データを生成する(ステップS102)。図4(B)は、図4(A)のシングルソースデータに基づいて生成した疑似標本データを例示する図である。疑似データ生成部102は、ステップS101で取得したシングルソースデータに基づいて、データを構成する3項目(テレビ利用時間、テレビ広告接触回数、動画サイトの利用時間)についての3次元正規分布を求める。さらに、求めた3次元正規分布に従って、ランダムに疑似標本データを生成する。疑似データ生成部102は、生成した疑似標本データにおいて、各項目(テレビ利用時間、テレビ広告接触回数、動画サイトの利用時間)の平均および項目間の相関係数が、元のシングルソースデータにおける平均および相関係数と同じになるように疑似標本データを生成する。なお、図4(B)の例では、疑似標本の各項目の数値には正規分布乱数が割り当てられているため、例えばテレビ広告接触回数についても、自然数ではなく小数点以下を含む数値となっている。 Next, the pseudo data generating unit 102 generates pseudo sample data having the same data items and the same distribution as the acquired single source data (step S102). FIG. 4B is a diagram illustrating pseudo sample data generated based on the single source data of FIG. 4A. The pseudo data generating unit 102 obtains a three-dimensional normal distribution for the three items constituting the data (television usage time, number of exposures to television advertisements, and usage time of video sites) based on the single source data acquired in step S101. Furthermore, the pseudo sample data is generated randomly according to the obtained three-dimensional normal distribution. The pseudo data generating unit 102 generates pseudo sample data so that the average and correlation coefficient between the items (television usage time, number of exposures to television advertisements, and usage time of video sites) in the generated pseudo sample data are the same as the average and correlation coefficient in the original single source data. Note that in the example of FIG. 4B, a normal distribution random number is assigned to the numerical value of each item of the pseudo sample, so that, for example, the number of exposures to television advertisements is not a natural number but a numerical value including a decimal point.

また、疑似データ生成部102が生成する疑似標本の数は調査の目的に応じて設定することができる。図4(B)の例では、図5に例示するテレビ所有者人口の性別/年齢構成の統計データに基づいて疑似標本数を決定している。図5は、疑似標本人数を10万人とした場合の各性別/年齢区分におけるテレビ所有者人口を示しており、MF、M、Fはそれぞれ男女、男性、女性を表し、その横の数字が年齢層を表している。図4(B)は、18~24歳の男性(M18-24)の実データに基づいて生成された疑似標本であり、図5によれば、全TV所有者人口を10万人とした場合、そのうちの18~24歳の男性の人数は3346人となるため、図4(B)の例では3346件の疑似標本を生成している。なお、ここでは性別/年齢区分毎のテレビ所有者人口を想定したデータを用いているが、テレビ所有者人口のみならず、例えば性別/年齢区分毎の全人口などを想定することもできる。 The number of pseudo samples generated by the pseudo data generating unit 102 can be set according to the purpose of the survey. In the example of FIG. 4(B), the number of pseudo samples is determined based on the statistical data of the gender/age composition of the television owner population shown in FIG. 5. FIG. 5 shows the television owner population in each gender/age category when the number of pseudo samples is 100,000, where MF, M, and F represent male and female, male, and female, respectively, and the numbers next to them represent the age group. FIG. 4(B) shows a pseudo sample generated based on actual data of men aged 18 to 24 (M18-24). According to FIG. 5, when the total TV owner population is 100,000, the number of men aged 18 to 24 is 3346, so in the example of FIG. 4(B), 3346 pseudo samples are generated. Note that here, data assuming the television owner population for each gender/age category is used, but it is also possible to assume not only the television owner population, but also the total population for each gender/age category, for example.

次に、接触頻度割り当て部103は、生成した各々の疑似標本について、動画サイトを介して広告Cに接触した回数(第1の接触頻度)を算出する(ステップS103)。 Next, the contact frequency allocation unit 103 calculates the number of times advertisement C was contacted via the video site (first contact frequency) for each of the generated pseudo samples (step S103).

図6を用いて、接触頻度割り当て部103による動画サイトでの広告Cへの接触回数の算出方法について説明する。接触回数の算出には、公式データとして提供されている動画サイトにおける広告Cへの接触回数の分布データを利用する。図6(A)の表の2列目には、所定の母集団における広告Cへの接触回数(0回~10回以上)の分布(公式データ)が例示されており、3列目には、ステップS102で生成した疑似標本(図4(B)の例では3346人分のデータ)を、2列目の分布に合わせて各接触回数(0回~10回以上)に割り当てた標本数(データ数)が示されている。また、4列目には、3列目の数値の小数点以下を四捨五入し、接触回数10回以上の人数を調整して合計が3346人になるようにした結果を示している。 Using FIG. 6, a method for calculating the number of contacts to advertisement C on a video site by the contact frequency allocation unit 103 will be described. The distribution data of the number of contacts to advertisement C on a video site provided as official data is used to calculate the number of contacts. The second column of the table in FIG. 6(A) illustrates the distribution (official data) of the number of contacts to advertisement C in a given population (0 to 10 or more), and the third column shows the number of samples (number of data) allocated to each number of contacts (0 to 10 or more) from the pseudo sample generated in step S102 (data for 3,346 people in the example of FIG. 4(B)) in accordance with the distribution in the second column. The fourth column shows the result of rounding off the decimal point of the numbers in the third column and adjusting the number of people with 10 or more contacts so that the total is 3,346 people.

図6(B)は、ステップS102で生成した各疑似標本に、テレビCMの接触回数の順位(表3列目)と動画サイトの利用時間の順位(表6列目)を付与した例を示す図である。テレビCMの接触回数の順位(表3列目)は、表4列目のテレビで広告Cに接触した回数が小さい順に、順位が付与されている。一方、動画サイトの利用時間の順位(表6列目)は、動画サイトの利用時間が短い順に順位が付与されている。 Figure 6 (B) shows an example in which the pseudo samples generated in step S102 are ranked by the number of exposures to TV commercials (third column of the table) and the time spent on video sites (sixth column of the table). The ranking of the number of exposures to TV commercials (third column of the table) is based on the number of exposures to advertisement C on TV in the fourth column of the table, in ascending order. On the other hand, the ranking of the time spent on video sites (sixth column of the table) is based on the time spent on video sites, in descending order.

接触頻度割り当て部103は、図6(A)に示す動画サイトにおける広告Cへの接触回数の分布に基づいて、図6(B)の各疑似標本についての動画サイトにおける広告Cへの接触回数を算出する。図6(A)の4列目を参照すると、疑似標本の3346件のうち、1255件については、動画サイトにおける広告Cへの接触回数は「0」回である。このため、接触頻度割り当て部103は、図6(B)の疑似標本のうち、動画サイトの利用時間が短い順に1255番目までの疑似標本について、広告Cへの接触回数を「0」回とする。同様に、1256番目から1690番目までの標本については、広告Cへの接触回数を「1」回、1691番目から2008番目までは「2」回、2009番目から2319番目までは「3」回、2320番目から2677番目までは「4」回とする。図6(B)の例で、Sno001,002の標本は1255番目までに含まれるため広告Cへの接触回数は0回となる。一方、Sno003の標本は、2320番目から2677番目の範囲に含まれるため、広告Cへの接触回数は4回となる。以上のようにして、疑似標本データにおける動画サイトでの広告Cへの接触回数を設定することができる。 The contact frequency allocation unit 103 calculates the number of contacts to advertisement C on the video site for each pseudo sample in FIG. 6(B) based on the distribution of the number of contacts to advertisement C on the video site shown in FIG. 6(A). Referring to the fourth column in FIG. 6(A), for 1255 of the 3346 pseudo samples, the number of contacts to advertisement C on the video site is "0". Therefore, the contact frequency allocation unit 103 sets the number of contacts to advertisement C to "0" for the pseudo samples up to the 1255th pseudo sample in the order of the shortest usage time of the video site among the pseudo samples in FIG. 6(B). Similarly, for the 1256th to 1690th samples, the number of contacts to advertisement C is "1", for the 1691st to 2008th samples, "2", for the 2009th to 2319th samples, "3", and for the 2320th to 2677th samples, "4". In the example of FIG. 6(B), samples Sno 001 and 002 are included up to the 1255th, so the number of exposures to advertisement C is 0. On the other hand, sample Sno 003 is included in the range from the 2320th to the 2677th, so the number of exposures to advertisement C is 4. In this way, the number of exposures to advertisement C on the video site in the pseudo sample data can be set.

また、テレビCMの接触回数については疑似標本に既に値が含まれているが、テレビCMの接触回数の順位に基づいて、改めて設定するようにしてもよい。具体的には、動画サイトでの広告Cへの接触回数と同様に、公式データとして提供されているテレビでの広告Cへの接触回数の分布データ(図7の2列目)を利用し、3346人分のデータを各接触回数(例えば、0回~10回以上)に割り当てて(図7の3列目)、各接触回数の割り当てデータ数を求め(図7の4列目)、図6(B)の3列目の順位にしたがって、テレビでの広告Cへの接触回数を割り当てていくようにしてもよい。これにより、テレビ広告についても、公式データの分布に整合する接触回数分布を持った疑似標本を作成することができる。例えば、図6(B)の例で、Sno001は、疑似標本に元々示されているテレビCMの接触回数は5.6回であるが、テレビCMのランクが2253番目のため、図7の分布に従うと接触回数は2回となる。また、Sno002は、疑似標本に元々示されているテレビCMの接触回数は3.3回であるが、テレビCMのランクが1521番目のため、図7の分布に従うと接触回数は0回となる。 In addition, although the pseudo sample already contains values for the number of exposures to TV commercials, it may be set again based on the ranking of the number of exposures to TV commercials. Specifically, similar to the number of exposures to advertisement C on a video site, the distribution data of the number of exposures to advertisement C on television provided as official data (second column of FIG. 7) is used, and data for 3346 people is assigned to each number of exposures (for example, 0 to 10 or more) (third column of FIG. 7), the number of assigned data for each number of exposures is found (fourth column of FIG. 7), and the number of exposures to advertisement C on television may be assigned according to the ranking in the third column of FIG. 6(B). This makes it possible to create a pseudo sample with a distribution of the number of exposures that matches the distribution of the official data for television advertisements as well. For example, in the example of FIG. 6(B), Sno001 has a number of exposures to TV commercials originally shown in the pseudo sample of 5.6, but since the rank of the TV commercial is 2253rd, the number of exposures according to the distribution of FIG. 7 is 2. In addition, for Sno002, the number of exposures to the TV commercial originally shown in the pseudo sample is 3.3 times, but because the TV commercial is ranked 1521st, the number of exposures is 0 according to the distribution in Figure 7.

以上のステップS101~S103の手順によって、テレビ利用時間、テレビにおける広告Cへの接触回数、および動画サイトの利用時間を含む限られた件数のシングルソースデータ(実データ)から、テレビにおける広告Cへの接触回数と動画サイトにおける広告Cへの接触回数を含む所望の件数の疑似標本を取得することができる。 By performing the above steps S101 to S103, a desired number of pseudo samples including the number of exposures to advertisement C on television and the number of exposures to advertisement C on the video site can be obtained from a limited number of single-source data (actual data) including television usage time, the number of exposures to advertisement C on television, and usage time on the video site.

(統合リーチ・重複リーチの分析)
集計部104は、生成した疑似標本を用いて統合リーチや重複リーチの推定を行う。統合リーチとは、複数の事象の少なくとも1つが成立する割合であり、上記の実施例ではテレビ広告と動画サイト広告の少なくとも一方に接触しているユーザの割合を示す。また、重複リーチとは、複数の事象の全てが成立する割合であり、上記の実施例ではテレビ広告と動画サイト広告の両方に接しているユーザの割合を示す。すなわち、上記の実施例では統合リーチと重複リーチは、例えば下記の式(1)、(2)で算出することができる。なお、下記の式(1)、(2)では、1回でも接触したユーザはリーチしたとみなすという前提で統合リーチ・重複リーチを計算している。リーチの定義はこれに限らず、例えば2回以上、3回以上接触した場合にリーチしたと判定する場合には、下記式において「接触回数≧2」、「接触回数≧3」と置き換えて計算することができる。
(Analysis of combined reach and overlapping reach)
The aggregation unit 104 estimates the integrated reach and overlapping reach using the generated pseudo sample. The integrated reach is the rate at which at least one of a plurality of events occurs, and in the above embodiment, it indicates the rate of users who are exposed to at least one of the television advertisement and the video site advertisement. The overlapping reach is the rate at which all of a plurality of events occur, and in the above embodiment, it indicates the rate of users who are exposed to both the television advertisement and the video site advertisement. That is, in the above embodiment, the integrated reach and overlapping reach can be calculated, for example, by the following formulas (1) and (2). Note that in the following formulas (1) and (2), the integrated reach and overlapping reach are calculated on the premise that a user who has been exposed even once is considered to have been reached. The definition of the reach is not limited to this, and for example, if it is determined that a user has been exposed two or more times, or three or more times, it can be calculated by replacing "number of exposures ≧ 2" and "number of exposures ≧ 3" in the following formulas.

統合リーチ=([テレビ広告の接触回数≧1のユーザの人数]+[動画サイト広告の接触回数≧1のユーザの人数]-[テレビ広告と動画サイト広告の両方の接触回数≧1のユーザの人数])/3346 …(1)
重複リーチ=[テレビ広告と動画サイト広告の両方の接触回数≧1のユーザの人数]
/3346 …(2)
Integrated reach = ([number of users with TV ad exposure count ≥ 1] + [number of users with video site ad exposure count ≥ 1] - [number of users with both TV ad exposure count and video site ad exposure count ≥ 1]) / 3346 ... (1)
Overlap reach = [number of users who have been exposed to both television ads and video site ads ≥ 1]
/3346 … (2)

生成した疑似標本を用いて統合リーチを求めることにより、テレビ広告と動画サイト広告それぞれへの接触率と、統合リーチの関係を分析し、効率の良い広告展開を行うために活用することができる。 By calculating the integrated reach using the generated pseudo-samples, the relationship between the contact rate for television ads and video site ads and the integrated reach can be analyzed, and this can be used to implement efficient advertising.

なお、上記の実施例では、テレビ広告と動画サイト広告への接触回数を含むシングルソースの疑似標本を取得しているが、疑似標本に含める項目は、分析目的によって調整することができる。例えば、動画サイトの広告Cに、テレビ画面で接触した場合とスマートフォンで接触した場合を区別するようにしてもよい。また、テレビの広告Cへの接触について、局別の接触回数を含むようにしてもよい。また、特定の時間帯や特定のサイトにおける接触回数も同様の手順で算出することができる。 In the above embodiment, a single-source pseudo sample is obtained that includes the number of exposures to television advertisements and video site advertisements, but the items included in the pseudo sample can be adjusted depending on the purpose of the analysis. For example, it is possible to distinguish between exposure to advertisement C on a video site on a television screen and exposure to it on a smartphone. In addition, the number of exposures to advertisement C on television may be included by station. The number of exposures during a specific time period or on a specific site can also be calculated using a similar procedure.

以上のように、本実施形態によれば、複数のメディアの利用時間を含むシングルソースデータを利用して、項目間の相関係数が変わらないように疑似標本を生成し、さらに、各メディアにおける対象広告Cへの接触回数の分布データを利用し、疑似標本における当該メディアの利用時間に基づいて、広告Cへの接触回数を割り当てるようにした。これにより、メディアの利用時間の情報しか含まれていないシングルソースデータを利用して、実態に即した接触回数を推定することができる。これにより、複数のメディアを介した広告Cへの接触状況の分析に活用できる疑似標本データを生成することができる。また、作成した疑似標本を用いて分析等を行っても、実測データを用いて分析した場合の結果と矛盾しない結果を得られることが期待できる。 As described above, according to this embodiment, single-source data including the usage time of multiple media is used to generate a pseudo sample so that the correlation coefficient between items does not change, and further, distribution data of the number of exposures to target advertisement C in each medium is used to assign the number of exposures to advertisement C based on the usage time of that medium in the pseudo sample. In this way, it is possible to estimate the number of exposures that is in line with the actual situation using single-source data that only includes information on the usage time of the media. This makes it possible to generate pseudo sample data that can be used to analyze the exposure situation to advertisement C via multiple media. Furthermore, even if an analysis is performed using the created pseudo sample, it is expected that results will be obtained that are not inconsistent with the results of an analysis using actual measured data.

本実施形態では、テレビ広告と動画サイトの広告への接触状況を示す疑似標本データを作成しているが、メディアの数や種類はこれに限られず、テレビやウェブの他に新聞やラジオなど複数のメディアへの接触状況に関する疑似標本の作成に利用することができる。また、統合リーチ、重複リーチ以外にも、シングルソースデータに基づいて分析、算出できる種々の指標や統計データを作成することができる。また、2種類のメディアの統合リーチや重複リーチに限らず、任意のメディア数の統合リーチや重複リーチ、その他の分析に対応することができる。 In this embodiment, pseudo sample data is created that indicates exposure to television advertisements and video site advertisements, but the number and types of media are not limited to this, and the data can be used to create pseudo samples related to exposure to multiple media, such as newspapers and radio in addition to television and the web. In addition to integrated reach and overlapping reach, various indicators and statistical data can be created that can be analyzed and calculated based on single-source data. Furthermore, the data is not limited to the integrated reach and overlapping reach of two types of media, but can handle the integrated reach and overlapping reach of any number of media, as well as other analyses.

また、作成した疑似標本データは、統合リーチ・重複リーチの分析だけでなく、例えば、以下のような用途にも利用することができる。
(1)広告接触者の属性プロフィールを描写に利用する。
(2)他のデータソースと融合させることにより、さらに様々な用途に利用することができる。具体的には以下のような例があげられる。
(2)-1:広告配信事業者のデータと融合し、リーチを補完するための効果的な配信を実現する。
(2)-2:ブランド評価データと融合し、ブランド評価への広告効果の分析に利用する。
(2)-3:購買履歴データと融合し、購買への広告効果の分析に利用する。
(2)-4:生活者の属性プロフィールデータと融合し、広告接触者の詳細なプロフィールの取得に利用する。
In addition, the pseudo-sample data that is created can be used not only for analyzing integrated reach and overlapping reach, but also for other purposes, such as the following:
(1) Use the demographic profile of those exposed to the ad to portray it.
(2) By combining it with other data sources, it can be used for a variety of purposes. Specific examples include the following:
(2)-1: By combining data from advertising distribution companies, we can achieve effective delivery to complement the reach.
(2)-2: Combine with brand evaluation data and use to analyze the effect of advertising on brand evaluation.
(2)-3: Combine with purchase history data and use to analyze the effectiveness of advertising on purchases.
(2)-4: Combine this with consumer attribute profile data to obtain detailed profiles of those who were exposed to the advertising.

(実施の形態2)
本発明の実施の形態2によるデータ処理装置1の構成およびデータ処理装置1のプロセッサ11によって実行されるプログラムの機能モジュールは、図1,2に示す実施の形態1と同様である。また、データ処理装置1によるデータ処理の流れは、図3のフローチャートに示す流れと同様である。すなわち、図4(A)に例示するようなシングルソースデータに基づいて、実施の形態1と同様に図4(B)に例示するような疑似標本データを生成する。さらに、接触頻度割り当て部103は、生成した各々の疑似標本について、動画サイトを介して広告Cに接触した回数(第1の接触頻度)を算出する。実施の形態2では、実施の形態1とは異なる方法で、動画サイトを介して広告Cに接触した回数を算出する。
(Embodiment 2)
The configuration of the data processing device 1 according to the second embodiment of the present invention and the functional modules of the program executed by the processor 11 of the data processing device 1 are the same as those of the first embodiment shown in Figures 1 and 2. Moreover, the flow of data processing by the data processing device 1 is the same as that shown in the flowchart of Figure 3. That is, based on single-source data as exemplified in Figure 4(A), pseudo sample data as exemplified in Figure 4(B) is generated as in the first embodiment. Furthermore, the contact frequency allocation unit 103 calculates the number of times advertisement C was contacted via the video site (first contact frequency) for each of the generated pseudo samples. In the second embodiment, the number of times advertisement C was contacted via the video site is calculated by a method different from that of the first embodiment.

実施の形態1では、公式データとして、図6(A)に示すような動画サイトにおける広告Cへの接触回数の分布データが提供されており、これを利用して、各疑似標本における動画サイトを介して広告Cに接触した回数を算出した。一方、多くの動画サイトでは、上記のような広告Cへの接触回数の分布データは提供されていない。代わりに、当該動画サイトにおける広告Cへの接触の有無の比率を示すデータが提供されている場合がある。具体的には、所定の母集団(例えば、18~24歳の男性(M18-24))において、下記のように定義される値が提供されている。
接触有りの割合=動画サイトにおける広告Cへの接触者数/母集団の人数
接触無しの割合=1-(接触有りの割合)
In the first embodiment, distribution data of the number of times of contact with advertisement C on a video site as shown in FIG. 6(A) is provided as official data, and this is used to calculate the number of times each pseudo sample was contacted with advertisement C via the video site. On the other hand, many video sites do not provide distribution data of the number of times of contact with advertisement C as described above. Instead, data showing the ratio of whether or not there was contact with advertisement C on the video site may be provided. Specifically, values defined as follows are provided for a given population (for example, men aged 18 to 24 (M18-24)):
Percentage of people with exposure = number of people who were exposed to ad C on the video site / number of people in the population Percentage of people without exposure = 1 - (percentage of people with exposure)

また、併せて広告Cへの接触有りの集団における平均接触回数が提供されている場合がある。具体的には、下記のように定義される値が提供されている。
平均接触回数=動画サイトにおける広告Cの総表示回数/動画サイトにおける広告Cへの接触者数
In addition, the average number of contacts in the group that was exposed to advertisement C may also be provided. Specifically, values defined as follows are provided.
Average number of contacts = total number of times Ad C is displayed on the video site / number of people who came into contact with Ad C on the video site

実施の形態2では、動画サイトにおける広告Cへの接触の有無の比率を示すデータと、接触有りの集団における平均接触回数を利用して、各疑似標本における動画サイトを介して広告Cに接触した回数を算出する。 In the second embodiment, the number of times each pseudo sample was exposed to advertisement C via a video site is calculated using data indicating the ratio of those who were exposed to advertisement C on a video site and the average number of times the sample was exposed to advertisement C in the group who were exposed to advertisement C.

まず、接触頻度割り当て部103は、各疑似標本に、当該動画サイトにおける広告Cへの接触有無を割り当てる。図8(A)の表の2列目は、公式データとして得られるデータであり、所定の母集団(例えば、18~24歳の男性(M18-24))における動画サイトでの広告Cへの接触有無の比率が例示されている。3列目は、疑似標本(ここでは17964人分)を、2列目の比率に合わせて接触無し・接触有りに割り当てた人数を示している。また、4列目は、3列目の数値の小数点以下を四捨五入し、接触無しの人数を調整して合計が17964人になるようにした結果を示している。 First, the contact frequency allocation unit 103 allocates to each pseudo sample whether or not they have been exposed to advertisement C on the video site. The second column of the table in FIG. 8(A) is data obtained as official data, and illustrates the ratio of whether or not a specific population (for example, men aged 18 to 24 (M18-24)) has been exposed to advertisement C on a video site. The third column shows the number of people in the pseudo sample (17,964 people in this case) who have been allocated to no contact or contact according to the ratio in the second column. In addition, the fourth column shows the result of rounding off the decimal point of the numbers in the third column and adjusting the number of people with no contact so that the total is 17,964 people.

図8(B)は、疑似標本に、動画サイトの利用時間の順位(表8列目)を付与した例を示す図である。動画サイトの利用時間の順位は、動画サイトの利用時間(表7列目)が短い順に順位が付与されている。接触頻度割り当て部103は、図8(A)に示す動画サイトにおける広告Cへの接触有無の比率に基づいて、図8(B)の各疑似標本に、動画サイトにおける広告Cへの接触有無を割り当てる。図8(A)の4列目を参照すると、疑似標本の17964人のうち、15719人については、動画サイトにおける広告Cへの接触は無しである。このため、接触頻度割り当て部103は、図8(B)の疑似標本のうち、動画サイトの利用時間が短い順に15719番目までの疑似標本について、広告Cへの接触「無し」を割り当てる。同様に、15720番目から17964番目までの標本については、広告Cへの接触「有り」を割り当てる。 Figure 8 (B) is a diagram showing an example in which the pseudo samples are ranked by the time spent on the video site (column 8 of the table). The ranking of the time spent on the video site (column 7 of the table) is assigned in ascending order. The contact frequency allocation unit 103 assigns the presence or absence of contact with advertisement C on the video site to each pseudo sample in Figure 8 (B) based on the ratio of the presence or absence of contact with advertisement C on the video site shown in Figure 8 (A). With reference to the fourth column of Figure 8 (A), 15719 out of 17964 people in the pseudo sample have no contact with advertisement C on the video site. Therefore, the contact frequency allocation unit 103 assigns "no contact" with advertisement C to the 15719th pseudo sample in Figure 8 (B) in descending order of the time spent on the video site. Similarly, the 15720th to 17964th samples are assigned "yes" to contact with advertisement C.

次に、接触頻度割り当て部103は、広告Cへの接触「有り」の標本に対し、広告接触回数の期待値を割り当てる。接触頻度割り当て部103は、以下の3条件を満たす関係に基づき期待値を割り当てる。
条件1:期待値は、動画サイトの利用時間に比例する。
条件2:期待値の平均は、公式データの接触「有り」の集団における平均接触回数に一致する。
条件3:接触「有り」が割り当てられた疑似標本の中で、動画サイトの利用時間が最も短い標本の期待値は「1」になる。
Next, the contact frequency allocation unit 103 allocates an expected value of the number of advertisement contacts to the samples with “existence” of contact with advertisement C. The contact frequency allocation unit 103 allocates an expected value based on a relationship that satisfies the following three conditions.
Condition 1: The expected value is proportional to the amount of time spent on the video site.
Condition 2: The average expected value matches the average number of contacts among the group of people who have contact in the official data.
Condition 3: Among the pseudo-samples that are assigned "contact," the expected value of the sample with the shortest time spent on video sites is "1."

条件1~3を満たす関係に基づき期待値を求める手順について具体的に説明する。まず、接触頻度割り当て部103は、図9に示すような(X,Y)=(利用時間,接触回数の期待値)で定義される平面における以下の2点を通る直線(条件1)の式Y=c+bXを求める。
点P1(条件3):(接触「有り」の標本における利用時間の最小値,1)
点P2(条件2):(接触「有り」の標本から算出した利用時間の平均At,期待値の平均Ar(ただし、期待値の平均Ar=公式データの「平均広告接触回数」))
A specific procedure for calculating the expected value based on the relationship that satisfies conditions 1 to 3 will be described below. First, the contact frequency allocation unit 103 calculates the equation Y=c+bX for a straight line (condition 1) that passes through the following two points on a plane defined by (X, Y)=(usage time, expected value of number of contacts) as shown in FIG.
Point P1 (Condition 3): (Minimum usage time in contact “present” samples, 1)
Point P2 (Condition 2): (Average usage time At calculated from samples with contact, average expected value Ar (where average expected value Ar = "average number of advertising contacts" in official data))

求められた直線の式(1)に、各標本の動画サイト利用時間(X)を代入して、各標本の広告接触回数の期待値Yを求める。
広告接触回数の期待値(Y)=c+b×動画サイト利用時間(X)…(1)
(c、bは定数)
The video site usage time (X) of each sample is substituted into the equation (1) for the obtained straight line to obtain an expected value Y of the number of advertisement exposures for each sample.
Expected number of ad exposures (Y) = c + b × video site usage time (X) (1)
(c and b are constants)

さらに、接触頻度割り当て部103は、求められた各標本の期待値を利用して、各標本の広告接触回数を算出する。接触頻度割り当て部103は、例えば、期待値が各標本の期待値と一致する切断ポアソン分布に従う乱数を1つ発生させて、当該標本の広告接触回数とするようにしてもよい。広告接触回数は1以上の整数であるため、定義域が1以上である切断ポアソン分布を用いるようにしてよい。なお、切断ポアソン分布の乱数を発生させるために、切断前のポアソン分布の期待値(λ)が必要な場合には、各標本の期待値の範囲に応じて個別にλを計算するようにしてもよい。1以上で切断された切断ポアソン分布の期待値Eと切断前のポアソン分布の期待値λには下記の式の関係がある。
E=λ/(1-exp(-λ))
Furthermore, the contact frequency allocation unit 103 uses the expected value of each sample thus obtained to calculate the number of advertisement contacts for each sample. The contact frequency allocation unit 103 may, for example, generate a random number according to a truncated Poisson distribution whose expected value coincides with the expected value of each sample, and set it as the number of advertisement contacts for that sample. Since the number of advertisement contacts is an integer of 1 or more, a truncated Poisson distribution whose domain is 1 or more may be used. Note that, if the expected value (λ) of the Poisson distribution before truncation is required to generate random numbers of the truncated Poisson distribution, λ may be calculated individually according to the range of the expected value of each sample. The expected value E of the truncated Poisson distribution truncated at 1 or more and the expected value λ of the Poisson distribution before truncation have the following relationship:
E = λ/(1-exp(-λ))

実施の形態2によれば、動画サイトにおける広告接触回数分布のデータが得られない場合でも、広告接触有無の比率と平均広告接触回数のデータが得られれば、疑似標本の実態に即した広告接触回数を推定することができる。これにより、実施の形態1と同様に、複数のメディアを介した広告Cへの接触状況の分析に活用できる疑似標本データを生成することができる。また、作成した疑似標本を用いて分析等を行っても、実測データを用いて分析した場合の結果と矛盾しない結果を得られることが期待できる。 According to the second embodiment, even if data on the distribution of ad exposures on video sites cannot be obtained, if data on the ratio of ad exposures and the average ad exposures can be obtained, the ad exposures can be estimated based on the actual situation of the pseudo sample. As a result, as in the first embodiment, pseudo sample data can be generated that can be used to analyze exposure to advertisement C via multiple media. Furthermore, even if an analysis is performed using the created pseudo sample, it is expected that results will be obtained that are consistent with the results of an analysis using actual data.

なお、期待値から広告接触回数を発生させるのに用いる確率分布は切断ポアソン分布に限られない。例えば、二項分布、負の二項分布、幾何分布、ベータ二項分布などを用いることもできる。また、実施の形態1と同様に、テレビCMの接触回数についても、テレビCMの接触回数の順位に基づいて、改めて設定するようにしてもよい。 The probability distribution used to generate the number of ad exposures from the expected value is not limited to the truncated Poisson distribution. For example, binomial distribution, negative binomial distribution, geometric distribution, beta binomial distribution, etc. can also be used. As in the first embodiment, the number of exposures to television commercials may also be reset based on the ranking of the number of exposures to television commercials.

なお、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、上述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、または並列に実行することができる。また、各処理ステップ間に他のステップを追加してもよい。また、1ステップとして記載されているステップを、複数ステップに分けて実行してもよいし、複数ステップに分けて記載されているものを、1ステップとして把握することもできる。 The present invention is not limited to the above-described embodiment, and can be implemented in various other forms without departing from the spirit of the present invention. For this reason, the above-described embodiment is merely illustrative in every respect, and should not be interpreted in a restrictive manner. For example, the above-described processing steps can be arbitrarily changed in order or executed in parallel as long as no inconsistency occurs in the processing content. Other steps may be added between each processing step. A step described as one step may be divided into multiple steps and executed, and something described as being divided into multiple steps can be understood as one step.

1…データ処理装置
11…プロセッサ
12…メインメモリ
13…入出力インタフェース
14…通信インタフェース
15…記憶装置
101…実データ取得部
102…疑似データ生成部
103…接触頻度割り当て部
104…集計部
1... data processing device 11... processor 12... main memory 13... input/output interface 14... communication interface 15... storage device 101... actual data acquisition unit 102... pseudo data generation unit 103... contact frequency allocation unit 104... counting unit

Claims (7)

シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、
前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、
生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部と、を備え、
前記接触頻度割り当て部は、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、データ処理装置。
an actual data acquisition unit that acquires single source data for a plurality of users, the single user including a first value indicating a usage status of a first medium and a second value indicating a usage status of a second medium;
a pseudo data generating unit configured to generate a pseudo sample of the single-source data such that a correlation coefficient between the first value and the second value is the same as that of the single-source data for the plurality of users;
a contact frequency allocation unit that calculates a first contact frequency of the target content via the first medium for each of the generated pseudo samples,
The contact frequency allocation unit
A data processing device that uses data indicating a contact state with the target content in the first medium and calculates the first contact frequency based on the first value in each pseudo sample.
前記対象コンテンツへの接触状況を示すデータは、接触頻度の分布データであり、
前記接触頻度割り当て部は、
各々の疑似標本を、前記第1のメディアの利用時間の長さに応じて順位付けし、前記対象コンテンツへの接触頻度の分布データに基づいて、前記第1の接触頻度を割り当てる、請求項1に記載のデータ処理装置。
the data indicating the contact status with the target content is distribution data of contact frequency,
The contact frequency allocation unit
The data processing apparatus according to claim 1 , further comprising: ranking each pseudo sample according to a length of time spent using the first medium; and allocating the first exposure frequency based on distribution data of exposure frequency to the target content.
前記対象コンテンツへの接触状況を示すデータは、接触有無の比率を示すデータであり、
前記接触頻度割り当て部は、
各々の疑似標本を、前記第1のメディアの利用時間の長さに応じて順位付けし、前記対象コンテンツへの接触有無の比率を示すデータに基づいて、各々の疑似標本に前記対象コンテンツへの接触有無を割り当て、前記対象コンテンツへの接触有りが割り当てられた疑似標本について、前記第1のメディアの利用時間の長さに基づいて前記第1の接触頻度を割り当てる、請求項1に記載のデータ処理装置。
The data indicating the contact status with the target content is data indicating a ratio of contact presence/absence,
The contact frequency allocation unit
2. The data processing device of claim 1, further comprising: ranking each pseudo sample according to the length of time the pseudo sample has spent using the first medium; assigning each pseudo sample a status of contact with the target content based on data indicating the ratio of contact with the target content to a status of contact; and assigning the first contact frequency to each pseudo sample that has been assigned a status of contact with the target content based on the length of time the pseudo sample has spent using the first medium.
前記接触頻度割り当て部は、
前記対象コンテンツへの接触有りが割り当てられた疑似標本について、前記第1のメディアの利用時間の長さに比例する期待値を持つ確率分布に従う乱数を前記第1の接触頻度として割り当てる、請求項3に記載のデータ処理装置。
The contact frequency allocation unit
The data processing device according to claim 3 , wherein for a pseudo sample that is assigned a contact with the target content, a random number that follows a probability distribution having an expected value proportional to a length of time of using the first medium is assigned as the first contact frequency.
前記シングルソースデータは、前記第2のメディアを介して前記対象コンテンツへ接触した第2の接触頻度を含み、
前記接触頻度割り当て部は、
各々の疑似標本を、前記第2の接触頻度に応じて順位付けし、前記第2のメディアにおける前記対象コンテンツへの状況を示すデータに基づいて、前記第2の接触頻度の割り当てなおしを行う、請求項1または3に記載のデータ処理装置。
the single-source data includes a second frequency of exposure to the target content via the second medium;
The contact frequency allocation unit
The data processing device according to claim 1 or 3, wherein each pseudo sample is ranked according to the second contact frequency, and the second contact frequency is reallocated based on data indicating a situation regarding the target content in the second medium.
プロセッサが、シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する工程と、
プロセッサが、前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する工程と、
プロセッサが、生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する工程と、を備え、
前記第1の接触頻度を算出する工程では、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、データ処理方法。
a processor obtaining single source data for a plurality of users, the single user including a first value indicative of a usage of a first medium and a second value indicative of a usage of a second medium;
a processor generating a pseudo-sample of the single-source data such that a correlation coefficient between the first values and the second values is invariant to single-source data for the plurality of users;
and calculating, by the processor, a first frequency of exposure to target content via the first medium for each of the generated pseudo samples;
In the step of calculating the first contact frequency,
A data processing method comprising: utilizing data indicating an exposure state to the target content in the first medium; and calculating the first exposure frequency based on the first value in each pseudo sample.
コンピュータを、
シングルユーザの第1のメディアの利用状況を示す第1の値および第2のメディアの利用状況を示す第2の値を含む複数のユーザについてのシングルソースデータを取得する実データ取得部と、
前記第1の値と前記第2の値の相関係数が前記複数のユーザについてのシングルソースデータと変わらないように、前記シングルソースデータの疑似標本を生成する疑似データ生成部と、
生成した各々の疑似標本について、前記第1のメディアを介して対象コンテンツへ接触した第1の接触頻度を算出する接触頻度割り当て部として機能させ、
前記接触頻度割り当て部は、
前記第1のメディアにおける前記対象コンテンツへの接触状況を示すデータを利用し、各々の疑似標本における前記第1の値に基づいて、前記第1の接触頻度を算出する、プログラム。
Computer,
an actual data acquisition unit that acquires single source data for a plurality of users, the single user including a first value indicating a usage status of a first medium and a second value indicating a usage status of a second medium;
a pseudo data generating unit configured to generate a pseudo sample of the single-source data such that a correlation coefficient between the first value and the second value is the same as that of the single-source data for the plurality of users;
a contact frequency allocation unit that calculates a first contact frequency of the target content via the first medium for each of the generated pseudo samples;
The contact frequency allocation unit
a program for calculating the first exposure frequency based on the first value for each pseudo sample by using data indicating an exposure state to the target content in the first medium;
JP2024024830A 2023-11-30 2024-02-21 DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM Active JP7510025B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023202728 2023-11-30
JP2023202728 2023-11-30

Publications (1)

Publication Number Publication Date
JP7510025B1 true JP7510025B1 (en) 2024-07-02

Family

ID=91671317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024024830A Active JP7510025B1 (en) 2023-11-30 2024-02-21 DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP7510025B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005032234A (en) 2003-06-19 2005-02-03 Matsushita Electric Ind Co Ltd Viewing control device, viewing control program, and secure module
JP2018028859A (en) 2016-08-19 2018-02-22 株式会社インテージ Advertisement contact state analysis system and advertisement contact state analysis method
JP2020160657A (en) 2019-03-26 2020-10-01 株式会社ビデオリサーチ Data processing device, and data processing method
JP2022028370A (en) 2020-08-03 2022-02-16 株式会社ビデオリサーチ Dummy sample making device, method for making dummy sample, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005032234A (en) 2003-06-19 2005-02-03 Matsushita Electric Ind Co Ltd Viewing control device, viewing control program, and secure module
JP2018028859A (en) 2016-08-19 2018-02-22 株式会社インテージ Advertisement contact state analysis system and advertisement contact state analysis method
JP2020160657A (en) 2019-03-26 2020-10-01 株式会社ビデオリサーチ Data processing device, and data processing method
JP2022028370A (en) 2020-08-03 2022-02-16 株式会社ビデオリサーチ Dummy sample making device, method for making dummy sample, and program

Similar Documents

Publication Publication Date Title
US11710141B2 (en) System and method of determining a website demographic profile
JP6254283B2 (en) Method and system for creating a data-driven attribution model that assigns attribution achievements to multiple events
KR101651245B1 (en) Conversion crediting
US8639575B2 (en) Audience segment estimation
US8676799B1 (en) Evaluating techniques for clustering geographic entities
US20030074252A1 (en) System and method for determining internet advertising strategy
US20210084370A1 (en) Computer system and method for estimating viewers of addressable advertisements
US20110276392A1 (en) Performing Geography-Based Advertising Experiments
AU2011230597A1 (en) Exposure based customization of surveys
CN103942236A (en) System and method for serving electronic content
US20160350814A1 (en) Systems, methods, and apparatus for budget allocation
JP7510025B1 (en) DATA PROCESSING APPARATUS, DATA PROCESSING METHOD, AND PROGRAM
JP7469983B2 (en) Pseudo specimen preparation device, pseudo specimen preparation method, and program
JP6975355B1 (en) Information processing system, information processing method, and computer program
JP6698129B2 (en) Viewing analysis device and viewing analysis method
US10194215B2 (en) Method and system for broadcasting an advertisement to a potential customer
Cheong et al. Evaluating the multivariate beta binomial distribution for estimating magazine and internet exposure frequency distributions
KR20130135557A (en) Search advertisement system and search advertisement method
US20150088636A1 (en) Classification of geographic performance data
KR20240152635A (en) Advertising performance analysis system and method using AI
JP2023136278A (en) Advertising space trading system, advertising space trading method and computer program
KR20200092266A (en) Marketing support system, marketing support method and program thereof
JP2016051406A (en) Analysis device, analysis method and analysis program
CN115633542A (en) Attribution model for correlated and mixed content item responses
JP2019139601A (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240222

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20240222

AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20240315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240620

R150 Certificate of patent or registration of utility model

Ref document number: 7510025

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150