JP6570501B2 - 情報提供装置、情報提供方法、および情報提供プログラム - Google Patents

情報提供装置、情報提供方法、および情報提供プログラム Download PDF

Info

Publication number
JP6570501B2
JP6570501B2 JP2016216155A JP2016216155A JP6570501B2 JP 6570501 B2 JP6570501 B2 JP 6570501B2 JP 2016216155 A JP2016216155 A JP 2016216155A JP 2016216155 A JP2016216155 A JP 2016216155A JP 6570501 B2 JP6570501 B2 JP 6570501B2
Authority
JP
Japan
Prior art keywords
population
pseudo
test
unit
information providing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016216155A
Other languages
English (en)
Other versions
JP2018073341A (ja
Inventor
僚太 中山
僚太 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016216155A priority Critical patent/JP6570501B2/ja
Publication of JP2018073341A publication Critical patent/JP2018073341A/ja
Application granted granted Critical
Publication of JP6570501B2 publication Critical patent/JP6570501B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、情報提供装置、情報提供方法、および情報提供プログラムに関する。
広告を閲覧した利用者が広告依頼者の期待する所定の行動をとったことを、コンバージョンとして検出する技術が知られている(例えば特許文献1参照)。一方で、ある母集団分布の母数に関する仮説を、その母集団から抽出したサンプルを用いて検証する仮説検定手法が知られている。近年、このような検定手法を用いて、コンバージョンなどの電子商取引に関連した評価指標を分析することが研究されている。
特開2010−157151号公報
しかしながら、従来の技術では、検定の対象とする母集団の分布が歪んでいる場合、検定の精度が低下する場合があり、種々の解析に好ましくない影響を与えるおそれがあった。
本発明は、このような事情を考慮してなされたものであり、検定時の精度を一定以上に保つために必要な条件に関する情報を提供することを目的の一つとする。
本発明の一態様は、負の二項分布に基づいて、複数の観測データを含む実母集団の平均および分散を推定する推定部と、前記推定部により推定された平均および分散に基づいて、第1の疑似母集団を生成する第1の生成部と、前記第1の生成部により生成された第1の疑似母集団の平均を増加または減少させたリフト平均と、前記第1の疑似母集団の分散とに基づいて、第2の疑似母集団を生成する第2の生成部と、前記第1の生成部により生成された第1の疑似母集団から、複数のサンプルを含む第1のサンプル集合を抽出すると共に、前記第2の生成部により生成された第2の疑似母集団から、複数のサンプルを含む第2のサンプル集合を抽出する抽出部と、前記抽出部により抽出された第1のサンプル集合および第2のサンプル集合に基づいて検定を行う検定部と、前記検定部により行われた検定の結果を評価する評価部と、前記評価部による評価結果を出力する出力部と、を備える情報提供装置である。
本発明の一態様によれば、検定時の精度を一定以上に保つために必要な条件に関する情報を提供することができる。
実施形態における情報提供装置100を含む情報提供システム1の一例を示す図である。 実施形態における情報提供装置100の構成の一例を示す図である。 実母集団情報132の一例を示す図である。 制御部110による一連の処理の一例を示すフローチャートである。 第1疑似母集団および第2疑似母集団の一例を示す図である。 コントロールバケットおよびテストバケットの一例を示す図である。 検定結果の一例を示す図である。 Type 1 errorと、コントロールバケットおよびテストバケットに含まれるサンプル数との関係の一例を示す図である。 検出力と増減率nとの関係の一例を示す図である。 検出力と、コントロールバケットおよびテストバケットに含まれるサンプル数との関係の一例を示す図である。 情報出力部104により出力される画面の一例を示す図である。 実施形態の情報提供装置100のハードウェア構成の一例を示す図である。
以下、図面を参照し、本発明の情報提供装置、情報提供方法、および情報提供プログラムの実施形態について説明する。
[概要]
実施形態の情報提供装置は、一以上のプロセッサによって実現される。情報提供装置は、負の二項分布に基づいて、複数の観測データを含む実母集団の平均および分散を推定し、推定した平均および分散に基づいて二つの疑似母集団を生成する。実母集団は、例えば、ユーザごとのコンバージョンの成立数を観測データとして有する統計的なデータの集合である。コンバージョンについては後述する。
そして、情報提供装置は、それぞれの疑似母集団から幾つかのサンプルを含むサンプル集合を抽出し、抽出した二つのサンプル集合に基づいて仮説検定を行うと共に、その仮説検定の手法を評価し、その評価結果を出力する。これによって、検定時の精度を一定以上に保つために必要な条件に関する情報を提供することができる。検定時の精度を一定以上に保つために必要な条件とは、例えば、疑似母集団から抽出するサンプル集合において最低限必要なサンプル数であったり、二つの疑似母集団の重複度合(後述する増減率)であったり、その他種々の条件のことをいう。
[全体構成]
図1は、実施形態における情報提供装置100を含む情報提供システム1の一例を示す図である。実施形態における情報提供システム1は、複数の情報収集装置10−1から10−n(nは任意の自然数)と、情報提供装置100とを備える。これらの装置は、ネットワークNWを介して互いに接続される。ネットワークNWは、例えば、無線基地局、Wi−Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。
複数の情報収集装置10−1から10−nのそれぞれは、例えば、ショッピングサイトやオークションサイト、フリーマーケットサイトなどのウェブサイト(以下、これらを総括して販売サイトと称する)において、ユーザごとにコンバージョンが成立したか否かを判定する。そして、複数の情報収集装置10−1から10−nのそれぞれは、ユーザごとにコンバージョンの成立数(以下、コンバージョン数と称する)をカウントする。
本実施形態におけるコンバージョンとは、販売サイトにおいて販売される商品またはサービス(以下、アイテムと称する)の広告を閲覧したユーザが、広告依頼者(例えば販売サイトの管理者など)の期待する所定の行動をとったこと、と定義される。所定の行動とは、例えば、広告を閲覧したユーザが、販売サイトにおいて販売されるアイテムを購入したり、販売サイトにおいて販売されるアイテムを掲載するウェブページにアクセスしたりすることである。また、広告とは、所謂インターネット広告やオンライン広告、ウェブ広告と呼ばれるものであり、ウェブページ上にバナーやテキスト、動画として表示されたり、メール内に表示されたりする。以下、複数の情報収集装置10−1から10−nのそれぞれを区別しない場合、単に情報収集装置10と称して説明する。また、販売サイトは、情報収集装置10によって提供されるものとして説明するが、他のウェブサーバ装置によって提供されてもよい。
また、情報収集装置10は、ウェブブラウザを介して販売サイトを提供するウェブサーバ装置の代わりに、アプリケーションサーバ装置であってもよい。アプリケーションサーバ装置は、例えば、販売サイトに相当するアプリケーション(例えばショッピングアプリなど)が起動された端末装置(不図示)と通信を行って、各種情報の受け渡しを行う。これによって、端末装置には、販売サイトと同様のサービスが提供される。この場合、広告は、アプリケーションのプログラムによって端末装置の画面に表示されてよい。以下、説明を簡略化するために、情報収集装置10は、販売サイトを提供するウェブサーバ装置であるものとして説明する。
例えば、情報収集装置10は、広告の選択に伴って生成される管理情報の有無に基づいて、ユーザごとにコンバージョンが成立したか否かを判定する。例えば、販売サイト内で広告がクリック操作やタップ操作などで選択されると、情報収集装置10は、広告を選択した端末装置に管理情報を送信する。管理情報とは、例えば、ウェブブラウザごとに管理されるクッキー(HTTP cookie)またはWeb Storage機能に関する情報である。一方、販売サイト内でアイテムが購入された場合、情報収集装置10は、アイテムの購入時に利用された端末装置から管理情報を取得する。情報収集装置10は、取得した管理情報が、広告選択時に生成された管理情報であるのか否かを判定し、これら管理情報が一致する場合に、コンバージョンが成立したと判定する。
情報収集装置10は、例えば、所定期間(例えば2週間程度)ごとに、各ユーザの成立したコンバージョン数をカウントする。そして、情報収集装置10は、カウントしたユーザごとのコンバージョン数の解析依頼として、ユーザごとのコンバージョン数に関する情報を、情報提供装置100に送信する。
情報提供装置100は、情報収集装置10から解析依頼として受信したユーザごとのコンバージョン数に関する情報に基づいて、種々の解析を行う。本実施形態において、情報提供装置100は、情報収集装置10によってカウントされた、ユーザごとのコンバージョン数を基に、仮説検定を行う。
[情報提供装置の構成]
図2は、実施形態における情報提供装置100の構成の一例を示す図である。図示のように、情報提供装置100は、例えば、通信部102と、情報出力部104と、制御部110と、記憶部130とを備える。
通信部102は、例えば、NIC等の通信インターフェースを含む。通信部102は、ネットワークNWを介して他装置と通信する。例えば、通信部102は、情報収集装置10からユーザごとのコンバージョン数に関する情報を受信する。ユーザごとのコンバージョン数に関する情報は、後述する実母集団情報132として記憶部130に記憶される。
情報出力部104は、例えば、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)ディスプレイなどの表示装置を含み、制御部110により出力される情報に基づいて画像を表示する。また、情報出力部104は、音声を出力するスピーカなどを含んでいてもよい。
制御部110は、例えば、母数推定部112と、第1生成部114と、第2生成部116と、抽出部118と、検定部120と、評価部122と、出力制御部124とを備える。これらの構成要素の一部または全部は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また、制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)などにより実現される。記憶部130には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他、実母集団情報132、第1疑似母集団情報134、第2疑似母集団情報136、コントロールバケット138、テストバケット140などの情報が記憶される。
図3は、実母集団情報132の一例を示す図である。図示の例のように、実母集団情報132は、個々のユーザを特定可能なユーザ識別情報に対して、コンバージョン数が対応付けられた情報である。ユーザ識別情報は、例えば、コンバージョンの成立可否の判定において参照されたクッキーなどの管理情報である。例えば、実母集団情報132には、十数万人から数十万人分のユーザのコンバージョン数が蓄積されている。このような実母集団は、ユーザごとのコンバージョン数を変数とした確率密度分布によって表すことができる。一般的に、購入回数が少ないユーザほどその存在確率は高く、購入回数が多いユーザほど、その存在確率は低くなる傾向がある。従って、ユーザごとのコンバージョン数を変数とした確率密度分布、すなわち実母集団の分布は、非対称性を有する分布となる。
以下、フローチャートに即して、制御部110による一連の処理について説明する。図4は、制御部110による一連の処理の一例を示すフローチャートである。本フローチャートの処理は、例えば、通信部102によって情報収集装置10から解析依頼としてコンバージョン数に関する情報が受信されると行われる。
まず、母数推定部112は、実母集団情報132を参照し、実母集団情報132が示すユーザごとのコンバージョン数の集合をある母集団として扱い、この母集団の母数(母集団を示す確率密度分布を特徴づけるパラメータ)を推定する(S100)。
例えば、母数推定部112は、母数の推定対象である母集団が負の二項分布に従うモデルに近似するものと仮定し、この負の二項分布に基づいて、平均μおよび分散σを母数として推定する。このとき、ユーザごとのコンバージョン数は、独立に同一の確率密度分布、すなわち負の二項分布に従うものとする(独立性が担保されている)。
より具体的には、母数推定部112は、統計解析のプログラミング言語であるR言語において、負の二項分布に従う乱数を生成するrnegbin関数の引数のうち、平均μおよび分散σに相当する引数を、同じR言語におけるglm.nb関数を用いて推定する。
次に、第1生成部114は、母数推定部112により推定された平均μおよび分散σに基づいて、仮想的な疑似母集団を生成する(S102)。以下、第1生成部114により生成される疑似母集団を、第1疑似母集団と称して説明する。
例えば、第1生成部114は、上述したrnegbin関数において、推定された平均μおよび分散σを引数として代入し、第1疑似母集団を生成する。第1疑似母集団を示す情報は、第1疑似母集団情報134として記憶部130に記憶される。
第2生成部116は、母数推定部112により推定された平均μ、すなわち第1疑似母集団の平均μを増加または減少させたリフト平均μ#と、母数推定部112により推定された分散σ、すなわち第1疑似母集団の分散σとに基づいて、仮想的な疑似母集団を生成する(S104)。以下、第2生成部116により生成される疑似母集団を、第2疑似母集団と称して説明する。リフト平均μ#とは、第1疑似母集団の平均μに、増減率nを乗算した平均μを加算した指標である。
例えば、第1疑似母集団の平均μが1.0であり、且つ増減率nがプラス10%である場合、第2疑似母集団の平均μ#は、1.1μとなる。また、第1疑似母集団の平均μが1.0であり、且つ増減率nがマイナス10%である場合、第2疑似母集団の平均μ#は、0.9μとなる。例えば、第2生成部116は、上述したrnegbin関数において、リフト平均μ#および分散σを引数として代入し、第2疑似母集団を生成する。このとき、第2生成部116は、1%、3%、5%、10%、15%、…といったように増減率nを逐次変更しながら、複数の第2疑似母集団を生成する。第2疑似母集団を示す情報は、第2疑似母集団情報136として記憶部130に記憶される。
図5は、第1疑似母集団および第2疑似母集団の一例を示す図である。図示のように、第1疑似母集団および第2疑似母集団のそれぞれの分布は、負の二項分布に近似させた母集団の母数を用いて生成されているため、非対称な分布となる。図示の例では、増減率nごとの第2疑似母集団のうち、代表的な一つの第2疑似母集団を示す分布のみ表されている。これらの第1疑似母集団および第2疑似母集団は、負の二項分布から求めた平均μおよび分散σを基に理論的に生成された母集団であるため、極限を考えた場合、各母集団に含まれるサンプルの数は無限、或いはこれに近い値となってよい(すなわちサンプルサイズを無限大としてよい)。
抽出部118は、第1生成部114により生成された第1疑似母集団から、サンプル数が互いに異なる複数種類のコントロールバケットを抽出する(S106)。コントロールバケットは、仮説検定に用いる二つのサンプル集合のうち、一方のサンプル集合に相当する。コントロールバケットは、「第1のサンプル集合」の一例である。
例えば、抽出部118は、10万サンプル数のコントロールバケットや、50万サンプル数のコントロールバケット、100万サンプル数のコントロールバケット、500万サンプル数のコントロールバケットを抽出する。これらのサンプル数はあくまでも一例であり、例えば、販売サイトを利用するユーザの最大数を基準に任意に変更してよい。例えば、抽出部118は、販売サイトを利用するユーザの最大数が100万人程度である場合、100万程度のサンプル数から対数的に2倍、3倍とサンプル数を増加させながらコントロールバケットを抽出してよい。より具体的には、抽出部118は、コントロールバケットのサンプル数を、ln(販売サイトの利用者数×n)(nは任意の倍率)にするように抽出する。なお、コントロールバケットに含まれるサンプルは、第1疑似母集団から偏りなく抽出されているものとする(不偏性が担保されている)。
また、抽出部118は、第2生成部116により生成された第2疑似母集団から、サンプル数が互いに異なる複数種類のテストバケットを抽出する(S108)。テストバケットは、仮説検定に用いる二つのサンプル集合のうち、他方のサンプル集合に相当する。テストバケットは、「第2のサンプル集合」の一例である。
例えば、抽出部118は、抽出したコントロールバケットに含まれるサンプル数と同数のサンプルを含むように、複数種類のテストバケットを抽出する。例えば、抽出部118は、10万サンプル数のテストバケットや、50万サンプル数のテストバケット、100万サンプル数のテストバケット、500万サンプル数のテストバケットを抽出する。なお、テストバケットに含まれるサンプルは、コントロールバケットに含まれるサンプルと同様に、第2疑似母集団から偏りなく抽出されているものとする。
図6は、コントロールバケットおよびテストバケットの一例を示す図である。図中(a)に示すコントロールバケットと(b)に示すテストバケットは、抽出元の疑似母集団と同様に、それぞれ非対称な分布となる。
次に、抽出部118は、テストバケットの抽出回数が所定回数X(例えば300回)に達したか否かを判定し(S110)、テストバケットの抽出回数が所定回数Xに達していない場合、繰り返しテストバケットを抽出する。これによって、抽出部118は、例えば、増減率nが1%、3%、5%、10%、15%のそれぞれで生成された第2疑似母集団から、X個のテストバケットを抽出する。X個のテストバケット同士は、互いにサンプルの一部が重複していてもよい。
検定部120は、抽出部118による抽出回数が所定回数Xに達した場合、抽出部118により抽出されたコントロールバケットおよびテストバケットに基づいて、仮説検定を行う(S112)。例えば、検定部120は、仮説検定として、t検定およびカイ二乗検定の一方または双方を行う。本実施形態では、t検定およびカイ二乗検定の双方を行うものとして説明する。
そして、検定部120は、検定結果として、第一種過誤が生じる確率α(以下、Type 1 errorと称する)と、第二種過誤が生じる確率βに基づく値(以下、検出力と称する)とを出力する。Type 1 errorは、コントロールバケットとテストバケットとの間に本来有意差がない場合でも有意差があると判定する確率である。検出力は、1から第二種過誤が生じる確率βを減算した値(1−β)のことであり、コントロールバケットとテストバケットとの間に有意差がある場合に、有意差があると判定する確率である。Type 1 errorが小さく、且つ検出力が大きいほど、精度良く検定が行われていると評価することができる。
図7は、検定結果の一例を示す図である。図示のように、Type 1 errorおよび検出力は、10万、50万、100万、500万といったように、各バケットに含まれるサンプルの数ごとに導出される。また、Type 1 errorおよび検出力は、第2疑似母集団の生成時に変更される増減率nごとに導出される。これらのType 1 errorおよび検出力は、所定数X個のテストバケットのType 1 errorおよび検出力の平均である。例えば、各サンプル数の各増減率nにおいて、300個のテストバケットが抽出された場合、300通りのType 1 errorおよび検出力のそれぞれの総和を300で除算することで、そのサンプル数および増減率nでのType 1 errorおよび検出力が導出される。また、これらのType 1 errorおよび検出力は、t検定およびカイ二乗検定のそれぞれで導出されてよい。
次に、評価部122は、検定部120により行われた仮説検定の結果を評価する(S114)。例えば、評価部122は、Type 1 errorと、コントロールバケットおよびテストバケットに含まれるサンプル数との関係について評価する。
図8は、Type 1 errorと、コントロールバケットおよびテストバケットに含まれるサンプル数との関係の一例を示す図である。横軸は、例えば、10万、50万、100万といった各バケットのサンプルサイズ(サンプル数)を表している。また、縦軸は、所定回数Xで除算したType 1 errorの平均を表している。言い換えれば、縦軸のType 1 errorは、所定回数Xに亘って行われた検定において、コントロールバケットとテストバケットとの間に有意差がない状態で有意差があると判定された回数を、所定回数Xで除算した値を表している。有意差がない状態とは、増減率nが0で生成された第2疑似母集団、すなわち、第1疑似母集団の期待値と同じ第2疑似母集団からテストバケットが抽出された状態のことである。
図示の結果に示すように、t検定およびカイ二乗検定の双方において、各バケットのサンプルサイズが増加するのに応じて、Type 1 errorがより減少している。例えば、t検定において、Type 1 errorが5%程度以下の分析精度が必要な場合、各バケットのサンプルサイズは、100万以上必要であることがわかる。また、t検定とカイ二乗検定とを比較した場合、t検定の方が、より小さいサンプルサイズでType 1 errorを低下させることができる。
また、評価部122は、検出力と増減率nとの関係について評価してもよい。
図9は、検出力と増減率nとの関係の一例を示す図である。横軸は、増減率nを表している。また、縦軸は、所定回数Xで除算した検出力の平均を表している。例えば、負の二項分布に近似させる実母集団のサンプルサイズが19万程度であった場合、一般的に「好ましい」とされる検出力(例えば80%程度以上)を得るためには、t検定およびカイ二乗検定のそれぞれにおいて、第1疑似母集団の平均μを8〜9%程度以上増加させて第2疑似母集団を生成する必要がある。このように、最終的に得たい検出力との関係から、増減率nをいくつにすべきなのかを決定することができる。
また、評価部122は、検出力と、コントロールバケットおよびテストバケットに含まれるサンプル数との関係について評価してもよい。
図10は、検出力と、コントロールバケットおよびテストバケットに含まれるサンプル数との関係の一例を示す図である。横軸は、例えば、各バケットのサンプルサイズ(サンプル数)を表している。また、縦軸は、所定回数Xで除算した検出力の平均を表している。図示のように、サンプルサイズに対して検出力は、概ね線形な関係にある。一般的に、ショッピングサイトなどにおいて得られたユーザごとのコンバージョン数の検定では、コントロールバケットの抽出元の母集団の平均に対する、テストバケットの抽出元の母集団の平均の増減率は、専ら3%程度であるということが知られている。従って、このような従来から頻繁に使われてきた「3%」という値を増減率nに適用してテストバケットを疑似的に抽出する場合、好ましいとされる80%程度以上の検出力を得るためには、100万以上のサンプルサイズが必要であることがわかる。
このように、評価部122による種々の評価結果によれば、検出力は、サンプルサイズを大きくしたり、コントロールバケットに対するテストバケットの平均の差、すなわち増減率nを大きくしたりすることで向上させることができる。
本実施形態では、実母集団を負の二項分布に近似させ、仮想的に大きく歪んだ確率密度分布を想定することで各種検定を行った。このような歪んだ確率密度分布について、以下の参考文献では、t検定を精度良く機能させるためには、分布の歪みの度合が大きくなるほど、より大きなサンプルサイズが必要であるとの研究結果を示している。従って、本実施形態における情報提供装置100は、参考文献に例示された、サンプルサイズと各検定結果との関係の評価結果を、別の観点(アプローチ)から評価していることになる。
[参考文献]Ron Kohav, Alex Deng,Roger Longbotham and Ya Xu Seven Rules of Thumb for Web Site Experimenters.
次に、出力制御部124は、評価部122による評価結果を、例えば、情報出力部104に出力させる(S116)。また、出力制御部124は、通信部102を介して、情報出力部104に出力させる情報(例えば画像情報など)を、外部の表示装置などに出力することで、その出力先の表示装置などに評価部122による評価結果を出力させてもよい。情報出力部104および出力制御部124は、「出力部」の一例である。
図11は、情報出力部104により出力される画面の一例を示す図である。図示のように、例えば、情報出力部104の画面には、解析依頼時に取得した実母集団のサンプルサイズの値が表示されてもよいし、評価結果である各検定のType 1 errorおよび検出力の値が表示されてもよい。また、情報出力部104の画面には、各検定のType 1 errorおよび検出力の値が閾値未満の場合に、その閾値を超えるために必要なサンプル数などが表示されてよい。閾値は、例えば、Type 1 errorなら5%程度、検出力なら80%程度に設定される。また、情報出力部104の画面には、仮説検定に用いるバケットの増減率nをいくつにする必要があるのかを表示してもよい。これによって、解析依頼者(例えば、情報収集装置10の管理者等)は、更に何人のユーザのコンバージョン数を得ればよいのか、あるいは提示された増減率nがいくつであるから、検定に用いる二つのバケットの重複度合を考慮すると、バケットの抽出元である母集団のサンプルサイズは最低限どの程度のサンプルサイズであればよいのか、といったことを把握することができる。
以上説明した実施形態によれば、負の二項分布に基づいて、複数の観測データを含む実母集団の平均μおよび分散σを推定する母数推定部112と、母数推定部112により推定された平均μおよび分散σに基づいて、第1疑似母集団を生成する第1生成部114と、第1疑似母集団の平均μを増加または減少させたリフト平均μ#と、第1疑似母集団の分散σとに基づいて、第2疑似母集団を生成する第2生成部116と、第1疑似母集団からコントロールバケットを抽出すると共に、第2疑似母集団からテストバケットを抽出する抽出部118と、抽出部118により抽出されたコントロールバケットおよびテストバケットに基づいて検定を行う検定部120と、検定部120により行われた検定の結果を評価する評価部122と、評価部122による評価結果を情報出力部104などに出力させる出力制御部124とを備えることにより、検定時の精度を一定以上に保つために必要な条件に関する情報を提供することができる。
<その他の実施形態>
以下、その他の実施形態として、上述した実施形態の変形例について説明する。上述した実施形態における母数推定部112は、実母集団が歪んでいることを考慮して、サンプル整形処理を行ってよい。サンプル整形処理とは、例えば、実母集団において、コンバージョン数が、その最大値から1%程度の範囲に含まれるユーザのサンプルを除外する処理である。これによって、実母集団を負の二項分布に近似する際に、その分布の歪みの度合を低下させることができる。
<ハードウェア構成>
上述した実施形態の情報提供システム1に含まれる複数の装置のうち、少なくとも情報提供装置100は、例えば、図12に示すようなハードウェア構成により実現される。図12は、実施形態の情報提供装置100のハードウェア構成の一例を示す図である。
情報提供装置100は、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることで、制御部110が実現される。制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…情報提供システム、10…情報収集装置、100…情報提供装置、102…通信部、104…情報出力部、110…制御部、112…母数推定部、114…第1生成部、116…第2生成部、118…抽出部、120…検定部、122…評価部、124…出力制御部、130…記憶部、132…実母集団情報、134…第1疑似母集団情報、136…第2疑似母集団情報、138…コントロールバケット、140…テストバケット、NW…ネットワーク

Claims (10)

  1. 負の二項分布に基づいて、複数の観測データを含む実母集団の平均および分散を推定する推定部と、
    前記推定部により推定された平均および分散に基づいて、第1の疑似母集団を生成する第1の生成部と、
    前記第1の生成部により生成された第1の疑似母集団の平均を増加または減少させたリフト平均と、前記第1の疑似母集団の分散とに基づいて、第2の疑似母集団を生成する第2の生成部と、
    前記第1の生成部により生成された第1の疑似母集団から、複数のサンプルを含む第1のサンプル集合を抽出すると共に、前記第2の生成部により生成された第2の疑似母集団から、複数のサンプルを含む第2のサンプル集合を抽出する抽出部と、
    前記抽出部により抽出された第1のサンプル集合および第2のサンプル集合に基づいて検定を行う検定部と、
    前記検定部により行われた検定の結果を評価する評価部と、
    前記評価部による評価結果を出力する出力部と、
    を備える情報提供装置。
  2. 前記第1の疑似母集団を示す分布および前記第2の疑似母集団を示す分布は、非対称な分布である、
    請求項1に記載の情報提供装置。
  3. 前記実母集団は、各利用者のコンバージョン数を観測データとして含む統計的なデータの集合である、
    請求項1または2に記載の情報提供装置。
  4. 前記検定部は、t検定またはカイ二乗検定の少なくとも一方を行う、
    請求項1から3のうちいずれか1項に記載の情報提供装置。
  5. 前記抽出部は、前記実母集団に含まれる観測データの数に基づいて、前記第1の疑似母集団から、サンプル数が互いに異なる複数種類の前記第1のサンプル集合を抽出すると共に、前記第2の疑似母集団から、サンプル数が互いに異なる複数種類の前記第2のサンプル集合を抽出する、
    請求項1から4のうちいずれか1項に記載の情報提供装置。
  6. 前記評価部は、前記検定の結果として得られる、第一種過誤が生じる確率と、前記第1のサンプル集合または前記第2のサンプル集合に含まれるサンプル数との関係について評価する、
    請求項1から5のうちいずれか1項に記載の情報提供装置。
  7. 前記評価部は、前記リフト平均として、前記第1の疑似母集団の平均を増加または減少させたときの増加度合または減少度合と、前記検定の結果として得られる、第二種過誤が生じる確率に基づく値との関係について評価する、
    請求項1から6のうちいずれか1項に記載の情報提供装置。
  8. 前記評価部は、前記検定の結果として得られる、第二種過誤が生じる確率に基づく値と、前記第1のサンプル集合または前記第2のサンプル集合に含まれるサンプル数との関係について評価する、
    請求項1から7のうちいずれか1項に記載の情報提供装置。
  9. コンピュータが、
    負の二項分布に基づいて、複数の観測データを含む実母集団の平均および分散を推定し、
    前記推定した平均および分散に基づいて、第1の疑似母集団を生成し、
    前記生成した第1の疑似母集団の平均を増加または減少させたリフト平均と、前記第1の疑似母集団の分散とに基づいて、第2の疑似母集団を生成し、
    前記生成した第1の疑似母集団から、複数のサンプルを含む第1のサンプル集合を抽出すると共に、前記生成した第2の疑似母集団から、複数のサンプルを含む第2のサンプル集合を抽出し、
    前記抽出した第1のサンプル集合および第2のサンプル集合に基づいて検定を行い、
    前記行った検定の結果を評価し、
    前記評価した結果を出力する、
    情報提供方法。
  10. コンピュータに、
    負の二項分布に基づいて、複数の観測データを含む実母集団の平均および分散を推定させ、
    前記推定させた平均および分散に基づいて、第1の疑似母集団を生成させ、
    前記生成させた第1の疑似母集団の平均を増加または減少させたリフト平均と、前記第1の疑似母集団の分散とに基づいて、第2の疑似母集団を生成させ、
    前記生成させた第1の疑似母集団から、複数のサンプルを含む第1のサンプル集合を抽出させると共に、前記生成させた第2の疑似母集団から、複数のサンプルを含む第2のサンプル集合を抽出させ、
    前記抽出させた第1のサンプル集合および第2のサンプル集合に基づいて検定を行わせ、
    前記行わせた検定の結果を評価させ、
    前記評価させた結果を出力させる、
    情報提供プログラム。
JP2016216155A 2016-11-04 2016-11-04 情報提供装置、情報提供方法、および情報提供プログラム Active JP6570501B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016216155A JP6570501B2 (ja) 2016-11-04 2016-11-04 情報提供装置、情報提供方法、および情報提供プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016216155A JP6570501B2 (ja) 2016-11-04 2016-11-04 情報提供装置、情報提供方法、および情報提供プログラム

Publications (2)

Publication Number Publication Date
JP2018073341A JP2018073341A (ja) 2018-05-10
JP6570501B2 true JP6570501B2 (ja) 2019-09-04

Family

ID=62115473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016216155A Active JP6570501B2 (ja) 2016-11-04 2016-11-04 情報提供装置、情報提供方法、および情報提供プログラム

Country Status (1)

Country Link
JP (1) JP6570501B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7469983B2 (ja) 2020-08-03 2024-04-17 株式会社ビデオリサーチ 疑似標本作成装置、疑似標本作成方法、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3780469B2 (ja) * 1999-08-16 2006-05-31 株式会社日立製作所 金融資産の将来価値予測システム
US8209597B2 (en) * 2009-03-23 2012-06-26 Cognitive Electronics, Inc. System and method for achieving improved accuracy from efficient computer architectures
JP6239486B2 (ja) * 2014-11-05 2017-11-29 株式会社東芝 予測モデル作成方法

Also Published As

Publication number Publication date
JP2018073341A (ja) 2018-05-10

Similar Documents

Publication Publication Date Title
US11301525B2 (en) Method and apparatus for processing information
US10699204B2 (en) Knowledge discovery from belief networks
CN105573966B (zh) 电子表格中所呈现的内容的自适应修改
US11194860B2 (en) Question generation systems and methods for automating diagnosis
WO2017190610A1 (zh) 目标用户定向方法、装置和计算机存储介质
CN109976997B (zh) 测试方法和装置
US20210295388A1 (en) Methods and apparatus for managing models for classification of online users
US10776816B2 (en) System and method for building a targeted audience for an online advertising campaign
US11361046B2 (en) Machine learning classification of an application link as broken or working
WO2019072128A1 (zh) 对象识别方法及其系统
US20110191282A1 (en) Evaluating Statistical Significance Of Test Statistics Using Placebo Actions
JP2018077821A (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
JP2019191975A (ja) 人材選定装置、人材選定システム、人材選定方法及びプログラム
US20180089652A1 (en) Determination of Paywall Metrics
CN113159934A (zh) 一种网点客流量的预测方法、系统、电子设备及存储介质
US20220188876A1 (en) Advertising method and apparatus for generating advertising strategy
CN109344347B (zh) 显示控制方法、装置、电子设备及计算机可读存储介质
WO2022017082A1 (zh) 用于检测虚假交易订单的方法和装置
US20200159866A1 (en) Perceived Web Page Loading Time
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
JP6570501B2 (ja) 情報提供装置、情報提供方法、および情報提供プログラム
CN107357847B (zh) 数据处理方法及其装置
JP6809874B2 (ja) 検定装置、検定方法、および検定プログラム
CN111126649B (zh) 用于生成信息的方法和装置
CN113391988A (zh) 流失用户留存的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190806

R150 Certificate of patent or registration of utility model

Ref document number: 6570501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350