JP6809874B2 - 検定装置、検定方法、および検定プログラム - Google Patents

検定装置、検定方法、および検定プログラム Download PDF

Info

Publication number
JP6809874B2
JP6809874B2 JP2016222006A JP2016222006A JP6809874B2 JP 6809874 B2 JP6809874 B2 JP 6809874B2 JP 2016222006 A JP2016222006 A JP 2016222006A JP 2016222006 A JP2016222006 A JP 2016222006A JP 6809874 B2 JP6809874 B2 JP 6809874B2
Authority
JP
Japan
Prior art keywords
probability density
density distribution
feature
sample group
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016222006A
Other languages
English (en)
Other versions
JP2018081393A (ja
Inventor
僚太 中山
僚太 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016222006A priority Critical patent/JP6809874B2/ja
Publication of JP2018081393A publication Critical patent/JP2018081393A/ja
Application granted granted Critical
Publication of JP6809874B2 publication Critical patent/JP6809874B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、検定装置、検定方法、および検定プログラムに関する。
従来、広告を閲覧した利用者が広告依頼者の期待する所定の行動をとったことを、コンバージョンとして検出する技術が知られている(例えば特許文献1参照)。
特開2010−157151号公報
ところで、コンバージョンの数などの電子商取引に関連したKPI(Key Performance Indicator)を母集団とした確率密度分布のデータから二つの評価対象のデータを選び出し、これらの二つのデータの差について有意差検定を行う場合、従来の技術では、二つの評価対象のデータについて有意差が適切に評価されない場合があった。
本発明は、このような事情を考慮してなされたものであり、有意差検定の精度を向上させることができる検定装置、検定方法、および検定プログラムを提供することを目的の一つとする。
本発明の一態様は、母集団から抽出された二つの標本のうち一方の標本における第1確率密度分布と、他方の標本における第2確率密度分布との双方から、二つの共通する特徴を抽出する抽出部と、前記抽出部により抽出された前記二つの共通する特徴のそれぞれが、前記第1確率密度分布と前記第2確率密度分布とに対して寄与する割合に基づいて、前記二つの標本について検定を行う検定部と、を備える検定装置である。
本発明の一態様によれば、有意差検定の精度を向上させることができる。
実施形態における検定装置100を含む検定システム1の一例を示す図である。 実施形態における検定装置100の構成の一例を示す図である。 実母集団情報132の一例を示す図である。 制御部110による一連の処理の一例を示すフローチャートである。 第1疑似母集団および第2疑似母集団のそれぞれの確率密度分布の一例を示す図である。 第1疑似母集団および第2疑似母集団のそれぞれの確率密度分布の他の例を示す図である。 第1基底Fおよび第2基底Fの一例を示す図である。 差分αの導出結果の一例を示す図である。 確率とKPIとの関係の一例を示す図である。 情報出力部104により出力される画面の一例を示す図である。 実施形態の検定装置100のハードウェア構成の一例を示す図である。
以下、図面を参照し、本発明の検定装置、検定方法、および検定プログラムの実施形態について説明する。
[概要]
実施形態の検定装置は、一以上のプロセッサによって実現される。検定装置は、母集団から二つの標本を抽出し、抽出した二つの標本のうち一方の標本における第1確率密度分布と、他方の標本における第2確率密度分布との双方から、二つの共通する特徴を抽出する。そして、検定装置は、抽出した二つの共通する特徴のそれぞれが、第1確率密度分布と第2確率密度分布とに対して寄与する割合に基づいて、二つの標本について検定する。
二つの共通する特徴とは、例えば、第1確率密度分布および第2確率密度分布を含む特徴空間を形成する複数の基底のうち、いずれか二つの基底である。詳細については後述する。
[全体構成]
図1は、実施形態における検定装置100を含む検定システム1の一例を示す図である。実施形態における検定システム1は、一つ以上の情報収集装置10と、検定装置100とを備える。これらの装置は、ネットワークNWを介して互いに接続される。ネットワークNWは、例えば、無線基地局、Wi−Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。
情報収集装置10は、例えば、KPIとして、コンバージョンの成立数や、CVR(Conversion Rate)、ウェブサイト内における所定のウェブページのページビュー数、コンテンツのダウンロード数、広告が掲載されたウェブページのアクセス数(インプレッション数)、広告が掲載されたウェブページにおいて広告がクリックされたクリック数、CTR(Click Through Rate)などの評価指標値を収集する。本実施形態では説明を簡略化するために、代表的な事例として、KPIがコンバージョンの成立数である場合について説明する。
本実施形態におけるコンバージョンとは、ショッピングサイトやオークションサイト、フリーマーケットサイトなどのウェブサイト(以下、これらを総括して販売サイトと称する)において販売される商品またはサービス(以下、アイテムと称する)の広告を閲覧したユーザが、広告依頼者(例えば販売サイトの管理者など)の期待する所定の行動をとったこと、と定義される。所定の行動とは、例えば、広告を閲覧したユーザが、販売サイトにおいて販売されるアイテムを購入したり、販売サイトにおいて販売されるアイテムを掲載するウェブページにアクセスしたりすることである。また、広告とは、所謂インターネット広告やオンライン広告、ウェブ広告と呼ばれるものであり、ウェブページ上にバナーやテキスト、動画として表示されたり、メール内に表示されたりする。
例えば、情報収集装置10は、販売サイトにおいて、ユーザごとにコンバージョンが成立したか否かを判定する。そして、複数の情報収集装置10−1から10−nのそれぞれは、ユーザごとにコンバージョンの成立数(以下、コンバージョン数と称する)をカウントする。なお、販売サイトは、情報収集装置10によって提供されるものとして説明するが、他のウェブサーバ装置によって提供されてもよい。
また、情報収集装置10は、ウェブブラウザを介して販売サイトを提供するウェブサーバ装置の代わりに、アプリケーションサーバ装置であってもよい。アプリケーションサーバ装置は、例えば、販売サイトに相当するアプリケーション(例えばショッピングアプリなど)が起動された端末装置(不図示)と通信を行って、各種情報の受け渡しを行う。これによって、端末装置には、販売サイトと同様のサービスが提供される。この場合、広告は、アプリケーションのプログラムによって端末装置の画面に表示されてよい。以下、説明を簡略化するために、情報収集装置10が、販売サイトを提供するウェブサーバ装置であるものとして説明する。
例えば、情報収集装置10は、広告の選択に伴って生成される管理情報の有無に基づいて、ユーザごとにコンバージョンが成立したか否かを判定する。例えば、販売サイト内で広告がクリック操作やタップ操作などで選択されると、情報収集装置10は、広告を選択した端末装置に管理情報を送信する。管理情報とは、例えば、ウェブブラウザごとに管理されるクッキー(HTTP cookie)またはWeb Storage機能に関する情報である。一方、販売サイト内でアイテムが購入された場合、情報収集装置10は、アイテムの購入時に利用された端末装置から管理情報を取得する。情報収集装置10は、取得した管理情報が、広告選択時に生成された管理情報であるのか否かを判定し、これら管理情報が一致する場合に、コンバージョンが成立したと判定する。
情報収集装置10は、例えば、所定期間(例えば2週間程度)ごとに、各ユーザの成立したコンバージョン数をカウントする。そして、情報収集装置10は、カウントしたユーザごとのコンバージョン数の解析依頼として、ユーザごとのコンバージョン数に関する情報を、検定装置100に送信する。
検定装置100は、情報収集装置10から解析依頼として受信したユーザごとのコンバージョン数に関する情報に基づいて、種々の解析を行う。本実施形態において、検定装置100は、情報収集装置10によってカウントされた、ユーザごとのコンバージョン数を基に、有意差検定を行う。
[検定装置の構成]
図2は、実施形態における検定装置100の構成の一例を示す図である。図示のように、検定装置100は、例えば、通信部102と、情報出力部104と、制御部110と、記憶部130とを備える。
通信部102は、例えば、NIC等の通信インターフェースを含む。通信部102は、ネットワークNWを介して他装置と通信する。例えば、通信部102は、情報収集装置10からユーザごとのコンバージョン数に関する情報を受信する。ユーザごとのコンバージョン数に関する情報は、後述する実母集団情報132として記憶部130に記憶される。
情報出力部104は、例えば、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)ディスプレイなどの表示装置を含み、制御部110により出力される情報に基づいて画像を表示する。また、情報出力部104は、音声を出力するスピーカなどを含んでいてもよい。
制御部110は、例えば、母数推定部112と、第1生成部114と、第2生成部116と、抽出部118と、検定部120と、出力制御部122とを備える。これらの構成要素の一部または全部は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また、制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)などにより実現される。記憶部130には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他、実母集団情報132、第1疑似母集団情報134、第2疑似母集団情報136などの情報が記憶される。
図3は、実母集団情報132の一例を示す図である。図示の例のように、実母集団情報132は、個々のユーザを特定可能なユーザ識別情報に対して、KPIの一つであるコンバージョン数が対応付けられた情報である。ユーザ識別情報は、例えば、コンバージョンの成立可否の判定において参照されたクッキーなどの管理情報である。例えば、実母集団情報132には、十数万人から数十万人分のユーザのコンバージョン数が蓄積されている。このような実母集団は、ユーザごとのコンバージョン数を変数とした確率密度分布によって表すことができる。一般的に、購入回数が少ないユーザほどその存在確率は高く、購入回数が多いユーザほど、その存在確率は低くなる傾向がある。従って、ユーザごとのコンバージョン数を変数とした確率密度分布は、非対称性を有する分布となる場合がある。
以下、フローチャートに即して、制御部110による一連の処理について説明する。図4は、制御部110による一連の処理の一例を示すフローチャートである。本フローチャートの処理は、例えば、通信部102によって情報収集装置10から解析依頼としてコンバージョン数に関する情報が受信されると行われる。
まず、母数推定部112は、実母集団情報132を参照し、実母集団情報132が示すユーザごとのコンバージョン数の集合をある母集団として扱い、この母集団の母数(母集団を示す確率密度分布を特徴づけるパラメータ)を推定する(S100)。
例えば、母数推定部112は、母数の推定対象である母集団が負の二項分布に従うモデルに近似するものと仮定し、この負の二項分布に基づいて、平均μおよび分散σを母数として推定する。このとき、ユーザごとのコンバージョン数は、独立に同一の確率密度分布(この場合、負の二項分布)に従うものとする(独立性が担保されている)。
次に、第1生成部114は、母数推定部112により推定された平均μおよび分散σに基づいて、仮想的な疑似母集団を生成する(S102)。以下、第1生成部114により生成される疑似母集団を、第1疑似母集団と称して説明する。第1疑似母集団を示す情報は、第1疑似母集団情報134として記憶部130に記憶される。
第2生成部116は、母数推定部112により推定された平均μ、すなわち第1疑似母集団の平均μを増加または減少させたリフト平均μ#と、母数推定部112により推定された分散σ、すなわち第1疑似母集団の分散σとに基づいて、仮想的な疑似母集団を生成する(S104)。以下、第2生成部116により生成される疑似母集団を、第2疑似母集団と称して説明する。リフト平均μ#とは、第1疑似母集団の平均μに、増減率nを乗算した平均μを加算した指標である。
例えば、第1疑似母集団の平均μが1.0であり、且つ増減率nがプラス10%である場合、第2疑似母集団の平均μ#は、1.1μとなる。また、第1疑似母集団の平均μが1.0であり、且つ増減率nがマイナス10%である場合、第2疑似母集団の平均μ#は、0.9μとなる。第2疑似母集団を示す情報は、第2疑似母集団情報136として記憶部130に記憶される。
図5は、第1疑似母集団および第2疑似母集団のそれぞれの確率密度分布の一例を示す図である。第1疑似母集団の確率密度分布(以下、第1確率密度分布Dと称する)と、第2疑似母集団の確率密度分布(以下、第2確率密度分布Dと称する)とは、負の二項分布に近似させた母集団の母数を用いて生成されているため、非対称な分布となる。これらの第1確率密度分布Dおよび第2確率密度分布Dは、負の二項分布から求めた平均μおよび分散σを基に理論的に生成された確率密度分布であるため、極限を考えた場合、各母集団に含まれるサンプルの数は無限、或いはこれに近い値となってよい(すなわちサンプルサイズを無限大としてよい)。
抽出部118は、第1生成部114により生成された第1疑似母集団から、サンプル数が互いに異なる複数種類のコントロールバケットを抽出する(S106)。コントロールバケットは、有意差検定に用いる二つのサンプル集合のうち、一方のサンプル集合に相当する。
例えば、抽出部118は、10万サンプル数のコントロールバケットや、50万サンプル数のコントロールバケット、100万サンプル数のコントロールバケット、500万サンプル数のコントロールバケットを抽出する。これらのサンプル数はあくまでも一例であり、例えば、販売サイトを利用するユーザの最大数を基準に任意に変更してよい。例えば、抽出部118は、販売サイトを利用するユーザの最大数が100万人程度である場合、100万程度のサンプル数から対数的に2倍、3倍とサンプル数を増加させながらコントロールバケットを抽出してよい。より具体的には、抽出部118は、コントロールバケットのサンプル数を、ln(販売サイトの利用者数×n)(nは任意の倍率)にするように抽出する。なお、コントロールバケットに含まれるサンプルは、第1疑似母集団から偏りなく抽出されているものとする(不偏性が担保されている)。これによって、コントロールバケットを示す確率密度分布は、抽出元の第1疑似母集団の確率密度分布、すなわち第1確率密度分布Dに従うことになる。
また、抽出部118は、第2生成部116により生成された第2疑似母集団から、サンプル数が互いに異なる複数種類のテストバケットを抽出する(S108)。テストバケットは、有意差検定に用いる二つのサンプル集合のうち、他方のサンプル集合に相当する。
例えば、抽出部118は、抽出したコントロールバケットに含まれるサンプル数と同数のサンプルを含むように、複数種類のテストバケットを抽出する。例えば、抽出部118は、10万サンプル数のテストバケットや、50万サンプル数のテストバケット、100万サンプル数のテストバケット、500万サンプル数のテストバケットを抽出する。なお、テストバケットに含まれるサンプルは、コントロールバケットに含まれるサンプルと同様に、第2疑似母集団から偏りなく抽出されているものとする。これによって、テストバケットを示す確率密度分布は、抽出元の第2疑似母集団の確率密度分布、すなわち第2確率密度分布Dに従うことになる。
なお、上述した第1疑似母集団および第2疑似母集団は、負の二項分布に従うものとしたがこれに限られず、正規分布に従うものとしてもよい。例えば、母数推定部112は、母数の推定対象である母集団が正規分布に従うモデルに近似するものと仮定し、この正規分布に基づいて、平均μおよび分散σを母数として推定する。これによって、第1確率密度分布および第2確率密度分布は、対称な分布となる。
図6は、第1疑似母集団および第2疑似母集団のそれぞれの確率密度分布の他の例を示す図である。図示のように、第2確率密度分布は、第1確率密度分布の平均μをずらしたリフト平均μ#をとるため、第1確率密度分布を平行移動させた分布となる。
次に、抽出部118は、コントロールバケットの第1確率密度分布Dおよびテストバケットの第2確率密度分布Dから、共通する二つの基底を抽出する(S110)。以下、二つの基底のうち一方を第1基底Fと称し、他方を第2基底Fと称して説明する。これらの基底は、第1確率密度分布Dおよび第2確率密度分布Dを含む特徴空間を形成する複数の基底のうち、いずれか二つの基底である。第1確率密度分布Dおよび第2確率密度分布Dは、以下の数式(1)によって表すことができる。
Figure 0006809874
数式(1)のpAは、第1確率密度分布Dにおける共通する第1基底Fおよび第2基底Fの寄与の割合を表している。すなわち、pAは、第1確率密度分布Dにおける第1基底Fの重みを表し、(1−pA)は、第1確率密度分布Dにおける第2基底Fの重みを表している。また、pBは、第2確率密度分布Dにおける共通する第1基底Fおよび第2基底Fの混合の割合を表している。すなわち、pBは、第2確率密度分布Dにおける第1基底Fの重みを表し、(1−pB)は、第2確率密度分布Dにおける第2基底Fの重みを表している。
また、上記の数式(1)は、以下の数式(2)のように変形することができる。
Figure 0006809874
数式(2)のαは、以下の数式(3)に示すようにpBとpAとの差分(pBからpAを減算した値)を表している。
Figure 0006809874
例えば、抽出部118は、第1確率密度分布Dおよび第2確率密度分布Dを含む特徴空間において、第1基底Fと第2基底Fとが互いに最も遠い位置関係にあるという前提のもとで、以下の条件式(4)、(5)を満たしながら、重みpAおよび重みpBを導出する。
Figure 0006809874
Figure 0006809874
上記数式中のパラメータmおよびMは、第1確率密度分布Dおよび第2確率密度分布Dの任意のサンプル(確率変数)xでの比率の上限および下限を表している。
図7は、第1基底Fおよび第2基底Fの一例を示す図である。図示のように、例えば、第1基底Fは、負の二項分布と同じ、または類似した分布の一成分であり、第2基底Fは、正規分布と同じ、または類似した分布の一成分である。
次に、抽出部118は、導出した重みpA、pBを基に、これらの重みの差分α(数式(3)参照)を導出する(S112)。
次に、抽出部118は、所定回数(例えば100回程度)に亘って差分αを抽出したか否かを判定する(S114)。所定回数に亘って差分αを抽出していない場合、抽出部118は、上述したS106の処理に戻る。この際、抽出部118は、S106の処理として、同じ第1疑似母集団から前回抽出したコントロールバケットと異なるコントロールバケットを抽出する。バケットが異なるとは、例えば、前回疑似母集団からバケットとして抽出したサンプルと異なるサンプルを今回のバケットとして抽出することをいう。また、抽出部118は、S108の処理として、同じ第2疑似母集団から前回抽出したテストバケットと異なるテストバケットを抽出する。そして、抽出部118は、今回新たに抽出したコントロールバケットの第1確率密度分布D´と、テストバケットの第2確率密度分布D´から、共通する第1基底Fおよび第2基底Fを抽出する。これによって、重みpA、pBが新たに導出されることで、新たな差分αが導出される。このように、抽出部118は、ブートストラップ法と呼ばれる繰り返し処理を行うことで、所定回数分の差分αを抽出する。
図8は、差分αの導出結果の一例を示す図である。図示のように、ブートストラップ法により繰り返される処理回数ごとに、差分αが導出される。また、差分αには、その導出元であるコントロールバケットとテストバケットとの組み合わせが対応付けられている。
抽出部118により所定回数に亘って差分αを抽出された場合、検定部120は、t検定やカイ二乗検定などの所定の検定を行って、各差分αについて、その差分αの導出に利用したコントロールバケットとテストバケットとの間に有意差があるのかどうかを評価する(S116)。例えば、上述した図8において、差分αが所定値以下(例えば0のとき)である場合、二つのバケット間に有意差がないと評価され、差分αが所定値を超える場合、二つのバケット間に有意差があると評価される。
また、検定部120は、検定の結果、差分αが所定値を超え二つのバケット間に有意差があると評価した場合、有意差のある各差分αについて、その導出元のテストバケットの第2確率密度分布Dにおいて、第1基底Fおよび第2基底Fのどちらの方がより重みが大きいのかを評価してよい。例えば、差分αが大きいほど、重みpAよりも重みpBが大きくなるため、テストバケットの第2確率密度分布Dは、コントロールバケットの第1確率密度分布Dと比べて、より第1基底Fの寄与の度合が大きいと評価することができる。一方、コントロールバケットの第1確率密度分布Dは、テストバケットの第2確率密度分布Dと比べて、より第2基底Fの寄与の度合が大きいと評価することができる。言い換えれば、テストバケットは、より第1基底Fに偏重し、コントロールバケットは、より第2基底Fに偏重していると評価することができる。
例えば、第1基底Fがポジティブな状態(事象)を表し、第2基底Fがネガティブな状態(事象)を表している場合、差分αが大きければコントロールバケットと比べてテストバケットの方が、よりポジティブな状態であると評価することができる。例えば、ポジティブな状態とは、コンバージョン数やダウンロード数、クリック数が多い状態、CVRやCTRが高い状態であることをいう。言い換えれば、ポジティブな状態とは、広告依頼者などから見て好ましい状態であることをいう。一方、ネガティブな状態とは、これらが少ない、または低いことをいう。
図9は、確率とKPIとの関係の一例を示す図である。図中横軸は、KPI値(本実施形態ではコンバージョン数)を表し、縦軸は、各基底に重みを乗算した値、すなわち確率密度分布における各基底に対応した確率を表している。図示のように、例えば、KPI値が大きくなるほど、どちらの基底の確率も減少していく。このとき、第1基底Fに対応する確率については、KPIが5000を超えると増加し始め、8000付近で第2のピークが出現する。KPIが大きいときに確率が高くなるほどより好ましい状態であるため、第2基底Fよりも第1基底Fの方がポジティブな状態であると判断することができる。例えば、上述したように差分αが大きい場合、テストバケットの第2確率密度分布Dは、第2基底Fよりも第1基底Fの方が寄与の度合が大きくなるため、コントロールバケットと比べてテストバケットの方がよりポジティブであると評価することができる。
次に、出力制御部122は、検定部120による検定結果(評価結果)を、例えば、情報出力部104に出力させる(S118)。また、出力制御部122は、通信部102を介して、情報出力部104に出力させる情報(例えば画像情報など)を、外部の表示装置などに出力することで、その出力先の表示装置などに検定部120による評価結果を出力させてもよい。情報出力部104および出力制御部122は、「出力部」の一例である。
図10は、情報出力部104により出力される画面の一例を示す図である。図示のように、例えば、情報出力部104の画面には、上述した図9に示すようなグラフ図とともに、差分αの値や、有意差の有無、各バケットの状態(ポジティブ/ネガティブ)などの情報が表示される。これによって、解析依頼者(例えば、情報収集装置10の管理者等)は、例えば、過去の実測された実母集団をコントロールバケットとし、今回実測した実母集団をテストバケットとしたときに、これらのバケットに有意差があるのかどうかを把握することができる。また、有意差があれば、更にその結果がポジティブであるのか(今回の実測期間のデータの方がよりKPIが良好である)といったことを把握することができる。
以上説明した実施形態によれば、実母集団情報132が示す実母集団から生成した二つの疑似母集団から、コントロールバケットとテストバケットとを抽出し、抽出した二つのバケットのうち、コントロールバケットにおける第1確率密度分布Dと、テストバケットにおける第2確率密度分布Dとの双方から、二つの共通す基底として、第1基底Fおよび第2基底Fを抽出する抽出部118と、抽出部118により抽出された第1基底Fおよび第2基底Fのそれぞれが、第1確率密度分布Dと第2確率密度分布Dとに対して寄与する割合、すなわち重みpA、pBに基づいて、コントロールバケットとテストバケットについて有意差検定を行う検定部120とを備えることにより、有意差検定の精度を向上させることができる。
例えば、従来の方法として、各バケットの差について有意差検定を行った場合、各バケットが示す確率密度分布の分散が異なっていても(例えば、一方の分布が凝集し他方の分布が拡散している場合)、双方の確率密度分布において平均値が同じであれば有意差なしと評価されてしまう場合がある。これに対して、本実施形態では、各バケットが示す確率密度分布を共通の二つの基底に分け、各確率密度分布における二つの基底の寄与の度合の差について検定するため、上記の例のように分散が異なる確率密度分布においても精度良く有意差検定を行うことができる。
また、上述した実施形態によれば、第1基底Fと第2基底Fとが互いに最も遠い位置関係にあるため、各確率密度分布において寄与の度合をはかる際に、どちらの基底により寄与しているのかが判別しやすくなる。この結果、バケットがポジティブな状態であるのかネガティブな状態であるのかを区別しやすくなる。
<ハードウェア構成>
上述した実施形態の検定システム1に含まれる複数の装置のうち、少なくとも検定装置100は、例えば、図11に示すようなハードウェア構成により実現される。図11は、実施形態の検定装置100のハードウェア構成の一例を示す図である。
検定装置100は、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることで、制御部110が実現される。制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…検定システム、10…情報収集装置、100…検定装置、102…通信部、104…情報出力部、110…制御部、112…母数推定部、114…第1生成部、116…第2生成部、118…抽出部、120…検定部、122…出力制御部、130…記憶部、132…実母集団情報、134…第1疑似母集団情報、136…第2疑似母集団情報、NW…ネットワーク

Claims (10)

  1. 電子商取引に関連した複数の指標値の集合である二つの母集団のそれぞれから複数の標本を含む標本群を抽出し、前記二つの母集団のうち一方の母集団である第1母集団から抽出した第1標本群の確率密度分布である第1確率密度分布と、前記二つの母集団のうち他方の母集団である第2母集団から抽出した第2標本群の確率密度分布である第2確率密度分布との双方から、共通する第1特徴及び第2特徴を抽出し、前記第1確率密度分布から抽出した第1特徴及び第2特徴のそれぞれの重みと、前記第2確率密度分布から抽出した第1特徴及び第2特徴のそれぞれの重みとを導出し、前記第1確率密度分布から抽出した前記第1特徴の重みと前記第2確率密度分布から抽出した前記第1特徴の重みとの差分を導出する抽出部と、
    前記差分が所定値を超える場合、前記第1標本群と前記第2標本群との間に有意差が生じたと判定し、前記差分が前記所定値以下である場合、前記第1標本群と前記第2標本群との間に有意差が生じていないと判定する検定部と、
    を備える検定装置。
  2. 前記電子商取引に関連した複数の指標値の集合の実母集団の母数を推定する推定部と、
    前記推定部によって推定された前記母数に基づいて、疑似的な母集団として前記第1母集団を生成する第1生成部と、
    前記推定部によって推定された前記母数に基づいて、疑似的な母集団として前記第2母集団を生成する第2生成部と、を更に備える、
    請求項1に記載の検定装置。
  3. 前記推定部は、前記実母集団が負の二項分布であるものとして、前記母数を推定する、
    請求項2に記載の検定装置。
  4. 前記第1特徴は、非対称性を有する確率密度分布の成分を表す特徴であり、
    前記第2特徴は、対称性を有する確率密度分布の成分を表す特徴であり、
    前記検定部は、前記第1標本群と前記第2標本群との間に有意差が生じていると判定した場合、更に、前記第1特徴の重みと前記第2特徴の重みとの差分に基づいて、前記第1確率密度分布及び前記第2確率密度分布のそれぞれが、前記第1特徴に偏重しているのか、又は前記第2特徴に偏重しているかを判定する、
    請求項1から3のうちいずれか1項に記載の検定装置。
  5. 前記検定部は、前記第1確率密度分布の前記第1特徴の重みよりも前記第2確率密度分布の前記第1特徴の重みの方が大きい場合、前記第1確率密度分布が前記第2特徴に偏重し、前記第2確率密度分布が前記第1特徴に偏重していると判定する、
    請求項4に記載の検定装置。
  6. 前記抽出部が、
    前記第1母集団から新たな前記第1標本群を抽出するとともに、前記第2母集団から新たな前記第2標本群を抽出し、
    新たに抽出した前記第1標本群の確率密度分布である前記第1確率密度分布と、新たに抽出した前記第2標本群の確率密度分布である前記第2確率密度分布との双方から、前記第1特徴及び前記第2特徴を抽出し、
    前記第1確率密度分布から抽出した前記第1特徴及び前記第2特徴のそれぞれの重みと、前記第2確率密度分布から抽出した前記第1特徴及び前記第2特徴のそれぞれの重みとを導出することを繰り返し、
    前記検定部が、
    前記繰り返し導出された重みに基づいて、前記第1標本群と前記第2標本群との間に有意差が生じたか否かを判定する、
    請求項1から5のうちいずれか1項に記載の検定装置。
  7. 前記検定部は、
    前記第1確率密度分布から抽出された前記第1特徴の重みと前記第2確率密度分布から抽出された前記第1特徴の重みとの差分が所定値以下の場合に、前記第1標本群と前記第2標本群との間に有意差がないと判定し、
    前記第1確率密度分布から抽出された前記第1特徴の重みと前記第2確率密度分布から抽出された前記第1特徴の重みとの差分が所定値を超える場合に、前記第1標本群と前記第2標本群との間に有意差があると判定する、
    請求項1から6のうちいずれか1項に記載の検定装置。
  8. 前記第1特徴及び前記第2特徴は、前記第1確率密度分布および前記第2確率密度分布を含む特徴空間を形成する二つの基底であり、
    前記二つの基底は、前記特徴空間において互いに最も遠い位置関係にある、
    請求項1から7のうちいずれか1項に記載の検定装置。
  9. コンピュータが、
    電子商取引に関連した複数の指標値の集合である二つの母集団のそれぞれから複数の標本を含む標本群を抽出し、
    前記二つの母集団のうち一方の母集団である第1母集団から抽出した第1標本群の確率密度分布である第1確率密度分布と、前記二つの母集団のうち他方の母集団である第2母集団から抽出した第2標本群の確率密度分布である第2確率密度分布との双方から、共通する第1特徴及び第2特徴を抽出し、
    前記第1確率密度分布から抽出した第1特徴及び第2特徴のそれぞれの重みと、前記第2確率密度分布から抽出した第1特徴及び第2特徴のそれぞれの重みとを導出し、
    前記第1確率密度分布から抽出した前記第1特徴の重みと前記第2確率密度分布から抽出した前記第1特徴の重みとの差分を導出し、
    前記差分が所定値を超える場合、前記第1標本群と前記第2標本群との間に有意差が生じたと判定し、前記差分が前記所定値以下である場合、前記第1標本群と前記第2標本群との間に有意差が生じていないと判定する
    検定方法。
  10. コンピュータに、
    電子商取引に関連した複数の指標値の集合である二つの母集団のそれぞれから複数の標本を含む標本群を抽出すること、
    前記二つの母集団のうち一方の母集団である第1母集団から抽出した第1標本群の確率密度分布である第1確率密度分布と、前記二つの母集団のうち他方の母集団である第2母集団から抽出した第2標本群の確率密度分布である第2確率密度分布との双方から、共通する第1特徴及び第2特徴を抽出すること、
    前記第1確率密度分布から抽出した第1特徴及び第2特徴のそれぞれの重みと、前記第2確率密度分布から抽出した第1特徴及び第2特徴のそれぞれの重みとを導出すること
    前記第1確率密度分布から抽出した前記第1特徴の重みと前記第2確率密度分布から抽出した前記第1特徴の重みとの差分を導出すること、
    前記差分が所定値を超える場合、前記第1標本群と前記第2標本群との間に有意差が生じたと判定し、前記差分が前記所定値以下である場合、前記第1標本群と前記第2標本群との間に有意差が生じていないと判定すること
    を実行させるための検定プログラム。
JP2016222006A 2016-11-15 2016-11-15 検定装置、検定方法、および検定プログラム Active JP6809874B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016222006A JP6809874B2 (ja) 2016-11-15 2016-11-15 検定装置、検定方法、および検定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016222006A JP6809874B2 (ja) 2016-11-15 2016-11-15 検定装置、検定方法、および検定プログラム

Publications (2)

Publication Number Publication Date
JP2018081393A JP2018081393A (ja) 2018-05-24
JP6809874B2 true JP6809874B2 (ja) 2021-01-06

Family

ID=62198191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016222006A Active JP6809874B2 (ja) 2016-11-15 2016-11-15 検定装置、検定方法、および検定プログラム

Country Status (1)

Country Link
JP (1) JP6809874B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010159979A (ja) * 2009-01-06 2010-07-22 Hitachi Ltd 外観検査方法及び外観検査システム
JP5334181B2 (ja) * 2009-05-08 2013-11-06 Kddi株式会社 アンケートシステム
JP5399834B2 (ja) * 2009-09-15 2014-01-29 正生 中村 有意性評価プログラム及び記録媒体
JP5014500B1 (ja) * 2011-04-04 2012-08-29 シャープ株式会社 異常要因特定方法および装置、上記異常要因特定方法をコンピュータに実行させるためのプログラム、並びに上記プログラムを記録したコンピュータ読み取り可能な記録媒体
US20160103758A1 (en) * 2014-10-08 2016-04-14 Yahoo! Inc. Online product testing using bucket tests

Also Published As

Publication number Publication date
JP2018081393A (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
US20180276325A1 (en) Consumer Performance Index Scoring for Websites and Web-Based Applications
US20130198376A1 (en) Hybrid internet traffic measurement using site-centric and panel data
US20240232252A1 (en) Methods and apparatus for estimating total unique audiences
JP2018077821A (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
CN110753920A (zh) 用于优化和模拟网页排序和流量的系统和方法
WO2019191875A1 (en) Processor systems to estimate audience sizes and impression counts for different frequency intervals
US20150278157A1 (en) Generating anonymous data from web data
US20200159866A1 (en) Perceived Web Page Loading Time
WO2013112312A2 (en) Hybrid internet traffic measurement usint site-centric and panel data
WO2019001463A1 (zh) 数据处理方法及装置
US10296924B2 (en) Document performance indicators based on referral context
US10242101B2 (en) Automatic identification of sources of web metric changes
CN110675069B (zh) 地产行业客户签约风险预警方法、服务器及存储介质
US20230281696A1 (en) Method and apparatus for detecting false transaction order
JP6809874B2 (ja) 検定装置、検定方法、および検定プログラム
JP6570501B2 (ja) 情報提供装置、情報提供方法、および情報提供プログラム
JP7003081B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109472454B (zh) 活动评估方法、装置、电子设备及存储介质
JP2013239065A (ja) 初回購買推定装置、方法、及びプログラム
CN110737693A (zh) 数据挖掘处理方法、装置、设备及计算机可读存储介质
JP2011227720A (ja) 推薦システム、推薦方法、及び推薦プログラム
JP5865975B1 (ja) 分析装置、分析方法及び分析プログラム
US11157967B2 (en) Method and system for providing content supply adjustment
JP6701026B2 (ja) 判定装置、判定方法および判定プログラム
JP5041797B2 (ja) ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201210

R150 Certificate of patent or registration of utility model

Ref document number: 6809874

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350