JP7042982B1 - ターゲット選定システム、ターゲット選定方法、およびターゲット選定プログラム - Google Patents

ターゲット選定システム、ターゲット選定方法、およびターゲット選定プログラム Download PDF

Info

Publication number
JP7042982B1
JP7042982B1 JP2021550161A JP2021550161A JP7042982B1 JP 7042982 B1 JP7042982 B1 JP 7042982B1 JP 2021550161 A JP2021550161 A JP 2021550161A JP 2021550161 A JP2021550161 A JP 2021550161A JP 7042982 B1 JP7042982 B1 JP 7042982B1
Authority
JP
Japan
Prior art keywords
target selection
target
inference
learning device
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021550161A
Other languages
English (en)
Other versions
JPWO2022130524A1 (ja
Inventor
一樹 山根
和朗 徳永
一行 太田
博之 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP7042982B1 publication Critical patent/JP7042982B1/ja
Publication of JPWO2022130524A1 publication Critical patent/JPWO2022130524A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

施策を実施するターゲットを選定するターゲット選定システムは、学習器生成部およびターゲット選定部を有する。学習器生成部は、ターゲットごとに属性と成果とが対応付けられたデータ群から抽出した複数の学習用データセットのそれぞれにおける属性と成果との対応関係を学習した複数の学習器を学習器群として生成する。ターゲット選定部は、データ群から抽出した推論用データセットに推論用として選択した学習器群を適用して推論用データセットにおける属性に対応する成果を学習器ごとに予測し、学習器ごとに予測された成果の平均および成果の不確実性を表す指標値のうちの少なくとも何れかを推論用データセットにおける属性ごとに算出し、算出した平均および指標値の少なくとも何れか基づいて施策を実施するターゲットを推論用データセットから選定する。

Description

本発明は、ターゲット選定システム、ターゲット選定方法、およびターゲット選定プログラムに関する。
特定のターゲット(売り上げ額や購入率といった高い報酬が見込めるターゲット)を対象とする施策を、対象を広げて行いたい場合がある。例えば、事業拡大に伴って、DM配信などのダイレクトマーケティング業務を、対象の顧客属性を広げて行うといった場合である。
ここでターゲットに対する施策についてターゲットに応じた効果が未知である場合に、バンディットアルゴリズムを用いて効果を最大化するように施策を選択する従来技術がある。
例えば特許文献1には、複数のユーザをメンバとするグループのサブグループに対して推奨するアイテムを、バンディットアルゴリズムを用いて計算する技術が開示されている。また非特許文献1には、ユーザに対するニュース記事の推奨をコンテキストバンディット問題としてモデル化し、ユーザと記事に関するコンテキスト情報に基づいて、ユーザに対して推奨する記事を選択する技術が開示されている。
特表2015-513154号公報
Lihong Li, Wei Chu, John Langford, Robert E. Schapire, "AContextual-Bandit Approach to Personalized News Article Recommendation," Presentedat the Nineteenth International Conference on World Wide Web (WWW 2010), 2010.
しかしながら上述の従来技術では、新たなターゲットに対して必ずしも最適とは限らない施策を一定確率でランダムに選択するため、施策の候補が多いほど選択が非効率になり、施策の「無駄打ち」が生じやすくなるという問題がある。
またベイズ推定を用いて、施策の効果の確率分布を学習し、新たなターゲットに応じた未知の効果を推定することも考えられる。しかしベイズ推定を用いることで、処理時間と計算機リソースを要するという問題がある。
本発明は、上記に鑑みてなされたものであり、より軽量な計算で、新たなターゲットに応じた効果をより高精度で推定することを目的とする。
上記目的を達成するために、施策を実施するターゲットを選定するターゲット選定システムであって、前記ターゲットごとに属性と成果とが対応付けられたデータ群から抽出した複数の学習用データセットのそれぞれにおける属性と成果との対応関係を学習した複数の学習器を学習器群として生成する学習器生成部と、前記データ群から抽出した推論用データセットに推論用として選択した前記学習器群を適用して前記推論用データセットにおける属性に対応する成果を前記学習器ごとに予測し、前記学習器ごとに予測された成果の平均および該成果の不確実性を表す指標値のうちの少なくとも何れかを前記推論用データセットにおける属性ごとに算出し、算出した前記平均および前記指標値の少なくとも何れか基づいて前記施策を実施する前記ターゲットを前記推論用データセットから選定するターゲット選定部とを有することを特徴とする。
本発明によれば、より軽量な計算で、新たなターゲットに応じた効果をより高精度で推定することができる。
ターゲット選定システムの構成例を示す図。 学習エンジンが扱う顧客属性データ(学習用)のフォーマット例を示す図。 施策ターゲット選定エンジンが扱う顧客属性データ(予測用)のフォーマット例を示す図。 学習器による当月の購入金額の予測結果の例を示す図。 施策ターゲットリストファイルのデータ構造の例を示す図。 ターゲット選定システムの全体処理の例を示すフローチャート。 学習器群作成処理の例を示すフローチャート。 予測用学習器群選定処理の例を示すフローチャート。 コンセプトドリフト有無判定処理の例を示すフローチャート。 施策ターゲットリスト作成処理の例を示すフローチャート。 施策実行処理の例を示すフローチャート。 変形例の施策ターゲットリストファイルのデータ構造を示す図。 コンピュータのハードウェアの構成例を示す図。
以下、本発明の実施形態について、図面を参照して説明する。なお以下に説明する実施形態は、特許請求の範囲に係る発明を限定するものではない。また実施形態の中で説明されている諸要素およびその組合せの全てが発明の解決手段に必須であるとは限らない。発明の構成に必須だが周知である構成については、図示および説明を省略する場合がある。また各図に示す各要素の統合および分散は一例であって、処理負荷や効率などの観点から適宜統合または分散できる。
以下の説明において、テーブル形式で情報を説明することがあるが、この情報は、どのような構造のデータでもよく、例えばCSV形式などでもよい。また以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部または一部が1つのテーブルであってもよい。また以下の説明において、情報はDB(Data Base)に格納されるとして説明するが、DBは記憶部の一例である。また学習器はストレージに格納されるとして説明するが、ストレージも記憶部の一例である。また格納場所を明示しない情報も何らかの記憶部に格納される。
以下の説明において、「XXXエンジン」は、メモリとの協働でプログラムを実行し処理を行うCPU(Central Processing Unit)などのプロセッサであるため、「XXX部」と言い換えることができる。
(ターゲット選定システムSの構成)
図1は、ターゲット選定システムSの構成例を示す図である。ターゲット選定システムSは、顧客データ前処理エンジン1、学習エンジン2、施策ターゲット選定エンジン3、施策実行エンジン4、顧客属性DB11、設定情報DB12、学習器ストレージ13、および施策ターゲットリストファイル14を含んで構成される。ターゲット選定システムSは、1または連携する複数のコンピュータ上に構築される。
顧客データ前処理エンジン1は、学習エンジン2が学習器の作成の際に用いる顧客属性データ(学習用)11D1(図2)を、顧客属性DB11に格納されている顧客属性データから生成する。顧客データ前処理エンジン1は、設定情報DB12から取得した学習用データ参照クエリを用い、復元抽出により、顧客属性DB11に格納されている顧客属性データからN組(Nは2以上、好ましくは10以上)の顧客属性データ(学習用)11D1を作成する。
図2は、学習エンジン2が扱う顧客属性データ(学習用)11D1のフォーマット例を示す図である。顧客属性データ(学習用)11D1は、性別、年齢、入会年度、昨年度購入額、前月の購入額、前々月の購入額、および当月の購入額の項目を有する。性別、年齢、および入会年度は顧客属性の例である。
また顧客データ前処理エンジン1は、施策ターゲット選定エンジン3が施策ターゲットリストファイル14の作成の際に用いる顧客属性データ(予測用)11D2(図3)を、顧客属性DB11に格納されている顧客属性データから生成する。顧客データ前処理エンジン1は、設定情報DB12から取得した予測用データ参照クエリを用い、顧客属性DB11に格納されている顧客属性データから1組の顧客属性データ(予測用)11D2を作成する。
図3は、施策ターゲット選定エンジン3が扱う顧客属性データ(予測用)11D2のフォーマット例を示す図である。顧客属性データ(予測用)11D2は、顧客ID、性別、年齢、入会年度、昨年度購入額、前月の購入額、および前々月の購入額の項目を有する。
学習エンジン2は、顧客データ前処理エンジン1によって作成されたN組の顧客属性データ(学習用)11D1毎に学習を行ってN個の学習器を作成し、学習器ストレージ13に格納する。学習エンジン2は、設定情報DB12から取得した学習器作成のループ回数Nおよび学習アルゴリズム等の設定情報に従ってN個の学習器(学習器(1)、学習器(2)、・・・学習器(N))を作成する。
施策ターゲット選定エンジン3の推論エンジンは、設定情報DB12から予測に用いる学習器のIDを取得し、学習器ストレージ13に格納されているN個の学習器のそれぞれを用いて、顧客属性データ(予測用)11D2の各顧客(顧客ID毎)の当月の購入額を予測する。図4は、学習器による当月の購入金額の予測結果13Dの例を示す図である。
そして施策ターゲット選定エンジン3は、当月の購入金額の予測結果13Dから、顧客ID毎に当月の購入金額の予測値の平均および標準偏差を算出する。施策ターゲット選定エンジン3は、例えば複数の顧客IDの平均のうちの最大値で各顧客IDの平均を割ることで平均を正規化する。同様に施策ターゲット選定エンジン3の推論エンジンは、例えば複数の顧客IDの標準偏差のうちの最大値で各顧客IDの標準偏差を割ることで標準偏差を正規化する。このようにして各顧客IDに対応する当月の購入金額の予測値の「平均(正規化済)」および当月の購入金額の予測値の「標準偏差(正規化済)」が求まる。
そして施策ターゲット選定エンジン3は、各顧客IDに付与する施策適用優先度を、各顧客IDに対応する「平均(正規化済)」および「標準偏差(正規化済)」を用いて、例えば式(1)のように加重平均により計算する。式(1)におけるαは0以上1以下であり、本実施形態ではα=0.5のマニュアル設定値とする。
施策適用優先度=α×平均(正規化済)+(1-α)×標準偏差(正規化済)・・・(1)
“平均(正規化済)”が高いということは、施策実行によって高い報酬(成果)が見込めるということを表す。得意客を見つけるためには、平均が高い顧客を優先して施策を実行すればよい。
また“標準偏差(正規化済)”が高いということは施策実行により得られる報酬にバラつきがあって不確実性があり、自信度(すなわち(1-標準偏差))が低いということを表す。
自信度は、過去データに顧客の属性の類似例が多いデータについて予測を行った場合には大きな値になりやすく、過去データに顧客の属性の類似例が少ないデータについて予測を行った場合には小さな値になりやすい。過去データに類似例が多いデータは、各学習器の学習において類似のデータがコンスタントに一定以上出現するので、異なる学習器であっても予測結果が似通りやすい。他方、過去データに類似例が少ないデータは、各学習器の学習で類似のデータがほとんど出現しないため、予測結果が学習器によって異なりやすい。よって過去データに顧客の属性の類似例が多いデータは予測結果が似通って標準偏差が小さくなり、自信度が高くなる。他方、類似例が少ないと予測結果がバラついて標準偏差が大きくなり、自信度が低くなる。
つまり、未知のセグメントに属する顧客にアプローチするには、自信度が低い顧客を優先して施策を実行すればよい。
よって、式(1)のように、予測結果の平均と自信度の両者を加味した施策適用優先度の値が高い順序で優先して施策を実行すれば、未知のセグメントに属する得意客にアプローチしやすくなる。
なお予測結果の平均と自信度(あるいは予測結果の不確実性を表す指標値)の何れか一方を算出し、この何れか一方に基づいて施策適用優先度を決定してもよい。
ただし上述のαは、自動算出でもよい。例えば、式(1)の施策適用優先度の上位M1人の顧客のうち、当月の購入額の予測値の平均(正規化済)の上位M2人には含まれない顧客の数が、顧客総数(施策ターゲットリストファイル14の総行数)のp%以内となるαを求める。これにより、施策適用優先度を用いて施策実行のターゲットを選定する場合に、購入額の平均だけを用いて施策実行のターゲットを選定する場合と比較して施策実行対象から外れてしまう顧客数に一定の歯止めをかけることができる。但しM1、M2は所定数であり、M2=M1でもM2≠M1でもよい。またpは所定百分率である。このαを次回以降の施策適用優先度の計算に用いてもよい。
このようにして算出した顧客ID毎の平均(正規化済)、標準偏差(正規化済)、および施策適用優先度は、例えば図5のようになる。図5は、施策ターゲットリストファイル14のデータ構造の例を示す図である。図5に示す施策適用優先度の値が高い顧客ほど、優先して施策を実行する対象となる。
施策実行エンジン4は、施策実行部4Aを有する。施策実行エンジン4は、設定情報DB12から実行する施策ターゲットリストファイル14(図5)のファイルパスおよび施策実行件数nを取得し、施策実行部4Aに施策ターゲットリストファイル14における施策適用優先度が上位n個の顧客IDの顧客に対して施策を実行させる。
施策実行エンジン4は、施策実行部4Aから、施策実行とは非同期(施策実行から一定時間経過後)に取得した施策の実行結果(報酬(あるいは成果)、本実施形態では施策実行対象の顧客属性に対応する各月の購入額)を、顧客属性DB11に格納されている顧客属性データに追記する。すなわち施策実行エンジン4は、マーケティング施策の実行結果として、顧客毎の商品購入の実績を定期的に顧客属性DB11に保存する。蓄積したデータは、次回の学習器の作成に用いられる。
(ターゲット選定システムSの全体処理)
図6は、ターゲット選定システムSの全体処理の例を示すフローチャートである。S11では、ターゲット選定システムSは、学習器群作成処理(図7)を実行する。次にS12では、ターゲット選定システムSは、予測用学習器群選定処理(図8)を実行する。次にS13では、ターゲット選定システムSは、施策ターゲットリスト作成処理(図10)を実行する。次にS14では、ターゲット選定システムSは、施策実行処理(図11)を実行する。
(学習器群作成処理)
図7は、S11(図6)の学習器群作成処理の例を示すフローチャートである。S111では、顧客データ前処理エンジン1は、設定情報DB12から学習用データ参照クエリを取得する。次にS112では、顧客データ前処理エンジン1は、顧客属性DB11から顧客属性データを読み出す。次にS113では、顧客データ前処理エンジン1は、顧客属性DB11から読み出した顧客属性データを学習エンジン2が取り扱うことができるフォーマット(顧客属性データ(学習用)11D1)に変換し、学習エンジン2に送信する。
次にS114では、学習エンジン2は、設定情報DB12から学習器作成のループ回数Nおよび学習アルゴリズム等の設定情報を読み出す。
次に学習エンジン2は、S115~S116のループ処理を、S114で読み出した学習器作成のループ回数Nだけ繰り返す。
S115では、学習エンジン2は、所定数のレコードの復元抽出により、顧客属性DB11に格納されている顧客属性データから学習用データセット(顧客属性データ(学習用)11D1)を作成する。次にS116では、学習エンジン2は、S114で読み出した学習アルゴリズムを用いて、S115で作成した学習用データセット(顧客属性データ(学習用)11D1)を学習し、学習器を作成する。
S115を実行する毎に、抽出されるレコードが異なり、作成される顧客属性データ(学習用)11D1が異なることから、S116で作成される学習器も異なる。よってS115~S116のループ処理がN回繰り返されることで、N個の学習器群が作成されることになる。
S115~S116のループ処理が終了すると、S117では、学習エンジン2は、S116で作成した学習器群をIDと紐づけて学習器ストレージ13に保存する。
(予測用学習器群選定処理)
図8は、S12(図6)の予測用学習器群選定処理の例を示すフローチャートである。先ずS121では、施策ターゲット選定エンジン3は、学習器ストレージ13から、最も直近(例えば1カ月前)に作成した学習器群(M_new)、および予測用に現在選定されている学習器群(M_old)を取得する。
次にS122では、顧客データ前処理エンジン1は、顧客属性DB11から、M_newおよびM_oldの何れの作成でも用いられていない最新(例えば直近1か月)の顧客データ(テストデータ)を取得する。次にS123では、施策ターゲット選定エンジン3は、テストデータを用いて、M_newおよびM_oldでそれぞれ予測を実施し、この予測結果の予測精度の指標の値を比較する。予測精度の指標としては、F値やRMSE(Root Mean Square Error)など、予測モデルの目的変数や問題設定に応じた指標を適宜選択できる。ただし、F値のように、値が大きいほど予測精度が高いことを示す指標を選択した場合は、値の正負を入れ替えるか、取りうる最大値から当該の値を減じるなど、値が小さいほど予測精度が高くなるように値を適切に変換する計算を、S123で行う予測精度の比較の直前に実施する必要がある。
次にS124では、施策ターゲット選定エンジン3は、M_newの予測精度の指標の値≧M_oldの予測精度の指標の値であるか否かを判定する。施策ターゲット選定エンジン3は、M_newの予測精度の指標の値≧M_oldの予測精度の指標の値である場合(S124Yes)にS125へ処理を移し、M_newの予測精度の指標の値<M_oldの予測精度の指標の値である場合(S124No)にS128へ処理を移す。
S125では、施策ターゲット選定エンジン3は、コンセプトドリフト有無判定処理(図9)を実行する。施策ターゲット選定エンジン3は、コンセプトドリフト発生有りの場合(S126Yes)にS128へ処理を移し、コンセプトドリフト発生無しの場合(S126No)にS127へ処理を移す。
S127では、施策ターゲット選定エンジン3は、設定情報DB12に、M_oldのIDを予測用学習器群のIDとして再登録する(またはM_oldのIDを更新しない)。S128では、施策ターゲット選定エンジン3は、設定情報DB12に、M_newのIDを予測用学習器群のIDとして登録する。
図9は、S125(図8)のコンセプトドリフト有無判定処理の例を示すフローチャートである。先ずS1251では、施策ターゲット選定エンジン3は、S123において、S122で取得したテストデータを用いてM_newおよびM_oldのそれぞれで実施した予測結果を取得する。
次にS1252では、施策ターゲット選定エンジン3は、テストデータの各レコードに対する予測結果を用いて非類似度を計算する。S1252では、M_newがテストデータのi番目(例えば顧客ID=i)のレコードを用いた予測結果の集合をY_new_i、同じく、M_oldによる予測結果の集合をY_old_iとしたとき、全てのiに対して、非類似度を与える非類似度関数D(Y_new_i,Y_old_i)の値を求める。
ここで非類似度関数D(Y_new_i,Y_old_i)について説明する。D(Y_new_i,Y_old_i)は式(2)で定義される。式(2)は、Ward法の階層型クラスタリング技術において、クラスタ間の距離を求める指標を与える。
D(Y_new_i,Y_old_i)=
L(Y_new_i∪Y_old_i)-L(Y_new_i)-L(Y_old_i)・・・(2)
式(2)中の関数L(X)は、集合Xの全要素についての偏差の二乗和を表す。L(Y_new_i∪Y_old_i)は、集合Y_new_iと集合Y_old_iの和集合の全要素についての偏差の二乗和を表す。L(Y_new_i)は、集合Y_new_iの全要素についての偏差の二乗和を表す。L(Y_old_i)は、集合Y_old_iの全要素についての偏差の二乗和を表す。
式(2)の定義による非類似度関数Dでは、新旧のモデルによる推論結果が安定しており、かつ新旧のモデルによる推定値が離れているほどモデル距離が大きくなるので、新旧のモデルの期間内で該当領域のデータが十分にある場合に、適切にコンセプトドリフトを検出できる。
次にS1253では、施策ターゲット選定エンジン3は、設定情報DB12から、非類似度の外れ値判定閾値Dout_thおよびコンセプトドリフト発生判定閾値(例えば10%)を取得する。次にS1254では、施策ターゲット選定エンジン3は、S1252で計算した非類似度が、非類似度の外れ値判定閾値Dout_th以上の値を取るレコードの件数(外れ値件数)を計算する。
次にS1255では、施策ターゲット選定エンジン3は、外れ値件数÷テストデータの全レコード件数の計算結果がコンセプトドリフト発生閾値(本実施形態では10%)以上か否かを判定する。
施策ターゲット選定エンジン3は、外れ値件数÷テストデータの全レコード件数が、コンセプトドリフト発生閾値以上の場合(S1255Yes)にS1256へ処理を移し、コンセプトドリフト発生閾値未満の場合(S1255No)にS1257へ処理を移す。
例えばテストデータの全レコード件数=1000とし、非類似度関数Dの値が非類似度の外れ値判定閾値Dout_th以上となっている外れ値件数が120件である場合、外れ値件数の割合が12%となりコンセプトドリフト発生判定閾値(10%)以上となっているので、コンセプトドリフトありと判定される。
S1256では、施策ターゲット選定エンジン3は、コンセプトドリフト発生有りとする。S1257では、施策ターゲット選定エンジン3は、コンセプトドリフト発生無しとする。
(施策ターゲットリスト作成処理)
図10は、S13(図6)の施策ターゲットリスト作成処理の例を示すフローチャートである。先ずS131では、顧客データ前処理エンジン1は、設定情報DB12から予測用データ参照クエリを取得する。次にS132では、顧客データ前処理エンジン1は、顧客属性DB11から顧客属性データを読み出す。
次にS133では、顧客データ前処理エンジン1は、S132で顧客属性DB11から読み出した顧客属性データを、施策ターゲット選定エンジン3の推論エンジンが取り扱うことができるフォーマット(顧客属性データ(予測用)11D2)に変換し、推論エンジンに送信する。
次にS134では、施策ターゲット選定エンジン3の推論エンジンは、設定情報DB12から推論に用いる学習器群のIDを読み出し、学習器ストレージ13からIDと紐付けられた学習器群を取得する。次にS135では、施策ターゲット選定エンジン3の推論エンジンは、顧客属性データをS134で取得した学習器群に入力し、各顧客に対応する推論結果群を取得し、顧客ごとに推論結果群の平均および標準偏差を算出する。
次にS136では、施策ターゲット選定エンジン3は、S135で算出した平均および標準偏差を正規化する。次にS137では、施策ターゲット選定エンジン3は、式(1)に基づき、各顧客の推論結果群の正規化後の平均および標準偏差に従う指標を計算し、その指標値を各顧客の施策適用優先度とする。
次にS138では、施策ターゲット選定エンジン3は、各顧客について、顧客IDおよび施策適用優先度を列挙した施策ターゲットリストファイルを作成し、記憶領域に保存する。
(施策実行処理)
図11は、S14(図6)の施策実行処理の例を示すフローチャートである。先ずS141では、施策実行エンジン4は、設定情報DB12から、実行する施策ターゲットリストファイル14のパスおよび施策実行件数nを取得する。次にS142では、施策実行エンジン4は、S141で取得したパスを参照し、施策ターゲットリストファイル14を1つ取得する。
次にS143では、施策実行エンジン4は、施策実行エンジン4は、施策ターゲットリストファイル14から施策実行件数分nに該当する施策実行優先度の上位n個の顧客ID群を取得する。次にS144では、施策実行エンジン4は、顧客属性DB11から、S143で取得した顧客ID群に対応する施策実行に必要な情報(例えばDMを送付するメールアドレスや住所などの情報)を取得する。
次にS145では、施策実行エンジン4は、各顧客の顧客IDおよび施策実行に必要な情報を施策実行部4Aに送信する。次にS146では、施策実行部4Aは、各顧客への施策(例えばDM送付)を実行し、実行結果を非同期に(実行直後ではないタイミングで)取得して、施策実行エンジン4に送信する。次にS147では、施策実行エンジン4は、施策実行部4Aから受信した顧客への施策実行結果を、顧客属性DB11に保存する。
(実施形態の効果)
上記実施形態では、ターゲット(顧客)の属性変数がなす空間において、属性変数に基づいて予測される報酬(平均)をKPI(Key Performance Index)とし、KPIの高さと不確実性(分散)を考慮した施策適用優先度が大きい順序でターゲットを選定し、施策を実行する。顧客属性に応じた報酬が従う確率分布を、バギングと呼ばれる複数の学習器を生成する手法を用いて推定するため、処理負荷が軽い。過去の成功例は少ない(分散が小さい)が、成功率(平均)が高い属性をターゲットとして、新たな顧客開拓を行い、施策実行の報酬を高めることができる。
施策報酬の見込みと不確実性の算出には、複数の学習器のそれぞれを用いて予測した複数の予測値の平均と分散を用いる。このようにすることでベイズ推定など大量の計算を伴う従来手法でないと実現できなかった、報酬の平均や標準偏差の予測を、より軽量な計算で実現する。
すなわちターゲット顧客の属性変数がなす空間おける施策報酬が高く自信度が低い範囲の発見、および、当該範囲の報酬予測の精度向上を、従来よりも軽量かつ効率的な方法で実現できる。
また施策適用優先度を算出する際の予測値の平均と分散の加重平均の係数αとして、式(1)の施策適用優先度の上位M1人の顧客のうち、当月の購入額の予測値の平均(正規化済)の上位M2位には含まれない顧客の数が、顧客総数(施策ターゲットリストファイル14の総行数)のp%以内となる係数αを求める。そして、この係数αを次回以降の施策適用優先度の計算に用いる。これにより施策適用優先度の妥当性を評価し、評価結果をフィードバックすることができる。
また学習器群の予測精度低下またはコンセプトドリフトを検出した場合に、新たな顧客属性データを使って作成された新たな学習器群で更新する。そして新たな学習器群による予測結果に基づく施策適用優先度に従って新たなターゲットに対して施策を実行する。そして施策の実行結果を顧客属性データに保存する。
このように、最新の顧客属性データ(学習用)11D1を用いて作成された最新の学習器群と、最新の顧客属性データ(予測用)11D2を用いた予測結果に基づいて、ターゲットが決定されるので、施策の無駄打ちをなくし、より適切な施策を実施することができる。
(変形例)
上記実施形態では、標準偏差(正規化済)を予測の不確実性(自信の低さ)を表す評価指標(自信度)とした。しかしこれに限らず、他の予測の不確実性の評価指標も考えうる。以下他の予測の不確実性の評価指標について、変形例として説明する。図12は、変形例の施策ターゲットリストファイル14-1のデータ構造を示す図である。
例えば顧客属性(年代および性別)別のDM配信回数をもとにした評価指標(配信回数指標)を、予測の不確かさの指標とすることもできる。図12の配信回数指標表T1に示すように、年代および性別の組合せで得られる集団ごとにDM配信回数を合計し、DM配信回数が少ないものほど予測が不確かと見なせる指標(配信回数指標)を作成することができる。
これは、未知のセグメントの顧客を開拓するために、予測の不確実性が高い顧客に対して施策を実行してアプローチするという実施形態の趣旨に照らすと、予測の不確実性が高い顧客は未知のセグメントの顧客であることになる。そこで、DM配信回数が少ないほど未知のセグメントの顧客であることから、DM配信回数が少ないほど不確実性が高く、多いほど不確実性が低くなる配信回数指標を定義する。
この配信回数指標を、変形例の施策ターゲットリストファイル14-1において、上記実施形態の施策ターゲットリストファイル14の「当月の購入額の予測値の標準偏差(正規化済)」に代えて採用し、施策適用優先度を算出する。
このようにして、予測の不確実性を示す指標として、予測値の分散に限らず、他の指標を採用することができる。
(コンピュータ500のハードウェア)
図13は、コンピュータ500のハードウェアの構成例を示す図である。図13は、ターゲット選定システムS、顧客データ前処理エンジン1、学習エンジン2、および施策ターゲット選定エンジン3の各エンジンを実現するコンピュータ500のハードウェアを示す図である。コンピュータ500では、CPU(Central Processing Unit)などのプロセッサ510、RAM(Random Access Memory)などのメモリ520、SSD(Solid State Drive)やHDD(Hard Disk Drive)などのストレージ530、ネットワークI/F(Inter/Face)540、入出力装置550(例えばキーボード、マウス、タッチパネル、ディスプレイ等)、および周辺装置560が、バスを介して接続されている。
コンピュータ500において、ターゲット選定システムSおよび各エンジンを実現するためのプログラムがストレージ530から読み出されプロセッサ510およびメモリ520の協働により実行されることで、各システムが実現される。あるいは、ターゲット選定システムSおよび各エンジンを実現するための各プログラムは、ネットワークI/F540を介した通信により外部のコンピュータから取得されてもよい。あるいは各プログラムは、非一時的記録媒体に記録され、媒体読み取り装置によって読み出されることで取得されてもよい。
上述した実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。さらに、上述した複数の実施形態および変形例において、本発明の主旨を変えない範囲内で、装置またはシステム構成の変更や、一部の構成または処理手順の省略や入れ替え、組み合わせを行ってもよい。さらに、機能ブロック図およびハードウェア図では、制御線や情報線は説明上必要と考えられるものだけを示しており、必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
S:ターゲット選定システム、1:顧客データ前処理エンジン、1A:施策実行部、2:学習エンジン、3:施策ターゲット選定エンジン、4:施策実行エンジン、4A:施策実行部、11:顧客属性DB、12:設定情報DB、13:学習器ストレージ、14,14-1:施策ターゲットリストファイル、500:コンピュータ

Claims (10)

  1. 施策を実施するターゲットを選定するターゲット選定システムであって、
    前記ターゲットごとに属性と成果とが対応付けられたデータ群から抽出した複数の学習用データセットのそれぞれにおける属性と成果との対応関係を学習した複数の学習器を学習器群として生成する学習器生成部と、
    前記データ群から抽出した推論用データセットに推論用として選択した前記学習器群を適用して前記推論用データセットにおける属性に対応する成果を前記学習器ごとに予測し、前記学習器ごとに予測した成果の平均および該成果の不確実性を表す指標値のうちの少なくとも何れかを前記推論用データセットにおける属性ごとに算出し、算出した前記平均および前記指標値の少なくとも何れか基づいて前記施策を実施する前記ターゲットを前記推論用データセットから選定するターゲット選定部と
    を有することを特徴とするターゲット選定システム。
  2. 請求項1に記載のターゲット選定システムにおいて、
    前記指標値は、前記学習器ごとに予測された前記推論用データセットにおける属性に対応する成果の該属性ごとの標準偏差である
    ことを特徴とするターゲット選定システム。
  3. 請求項1に記載のターゲット選定システムにおいて、
    前記ターゲット選定部は、
    前記属性ごとの前記平均と前記指標値の加重平均に基づいて前記ターゲットを選定する
    ことを特徴とするターゲット選定システム。
  4. 請求項3に記載のターゲット選定システムであって、
    前記ターゲット選定部は、
    前記推論用データセットにおいて、前記加重平均が上位の第1の数に含まれる前記ターゲットのうち、前記平均が上位の第2の数に含まれない前記ターゲットの数が、前記推論用データセットの全レコード数に対して所定割合以内となるように、前記加重平均の係数を算出し、
    次回以降の前記ターゲットの選定の際、前記係数を用いた前記加重平均に基づいて前記ターゲットを選定する
    ことを特徴とするターゲット選定システム。
  5. 請求項1に記載のターゲット選定システムであって、
    前記ターゲット選定部によって選定された前記ターゲットに対して前記施策を実行する施策実行部
    を備えたことを特徴とするターゲット選定システム。
  6. 請求項5に記載のターゲット選定システムであって、
    前記施策実行部は、
    前記ターゲット選定部によって選定された前記ターゲットに対して前記施策を実行したことで得られた成果を、前記データ群において該ターゲットの属性に対応付けて保存する
    ことを特徴とするターゲット選定システム。
  7. 請求項1に記載のターゲット選定システムであって、
    前記ターゲット選定部は、
    前記データ群から抽出したテスト用データセットに、前記学習器生成部によって最近に生成された推論用として選択前の前記学習器群を適用することで予測される第1の成果に関する第1の予測精度と、推論用として選択中の前記学習器群を適用することで予測される第2の成果に関する第2の予測精度と、を比較し、前記第1の予測精度が前記第2の予測精度を上回っている場合に、前記第1の成果を予測する前記学習器群を推論用として選択する
    ことを特徴とするターゲット選定システム。
  8. 請求項7に記載のターゲット選定システムであって、
    前記ターゲット選定部は、
    前記第1の予測精度が前記第2の予測精度以下の場合に、予測された前記第1の成果と前記第2の成果とに基づいて、前記第2の成果を予測する前記学習器群にコンセプトドリフトが発生しているか否かを判定し、コンセプトドリフトが発生している場合に、前記第1の成果を予測する前記学習器群を推論用として選択する
    ことを特徴とするターゲット選定システム。
  9. 施策を実施するターゲットを選定するターゲット選定システムが行うターゲット選定方法であって、
    前記ターゲット選定システムが、
    前記ターゲットごとに属性と成果とが対応付けられたデータ群から抽出した複数の学習用データセットのそれぞれにおける属性と成果との対応関係を学習した複数の学習器を学習器群として生成し、
    前記データ群から抽出した推論用データセットに推論用として選択した前記学習器群を適用して前記推論用データセットにおける属性に対応する成果を前記学習器ごとに予測し、
    前記学習器ごとに予測された成果の平均および該成果の不確実性を表す指標値のうちの少なくとも何れかを前記推論用データセットにおける属性ごとに算出し、
    算出した前記平均および前記指標値の少なくとも何れか基づいて前記施策を実施する前記ターゲットを前記推論用データセットから選定する
    各処理を含んだことを特徴とするターゲット選定方法
  10. コンピュータを、施策を実施するターゲットを選定するターゲット選定システムとして機能させるためのターゲット選定プログラムであって、
    前記コンピュータを、
    前記ターゲットごとに属性と成果とが対応付けられたデータ群から抽出した複数の学習用データセットのそれぞれにおける属性と成果との対応関係を学習した複数の学習器を学習器群として生成する学習器生成部、
    前記データ群から抽出した推論用データセットに推論用として選択した前記学習器群を適用して前記推論用データセットにおける属性に対応する成果を前記学習器ごとに予測し、前記学習器ごとに予測された成果の平均および該成果の不確実性を表す指標値のうちの少なくとも何れかを前記推論用データセットにおける属性ごとに算出し、算出した前記平均および前記指標値の少なくとも何れか基づいて前記施策を実施する前記ターゲットを前記推論用データセットから選定するターゲット選定部
    として機能させるためのターゲット選定プログラム。
JP2021550161A 2020-12-16 2020-12-16 ターゲット選定システム、ターゲット選定方法、およびターゲット選定プログラム Active JP7042982B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/046888 WO2022130524A1 (ja) 2020-12-16 2020-12-16 ターゲット選定システム、ターゲット選定方法、およびターゲット選定プログラム

Publications (2)

Publication Number Publication Date
JP7042982B1 true JP7042982B1 (ja) 2022-03-28
JPWO2022130524A1 JPWO2022130524A1 (ja) 2022-06-23

Family

ID=81214506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021550161A Active JP7042982B1 (ja) 2020-12-16 2020-12-16 ターゲット選定システム、ターゲット選定方法、およびターゲット選定プログラム

Country Status (3)

Country Link
US (1) US20220270115A1 (ja)
JP (1) JP7042982B1 (ja)
WO (1) WO2022130524A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221310A (ja) * 2005-02-09 2006-08-24 Fuji Electric Holdings Co Ltd 予測方法、予測装置、予測プログラムおよび記録媒体
WO2007037178A1 (ja) * 2005-09-29 2007-04-05 Japan Tobacco Inc. シミュレーション装置、効果測定装置、および販売促進支援システム
US20100257053A1 (en) * 1999-11-08 2010-10-07 Aol Advertising Inc. Systems and methods for placing electronic advertisements
US20200273064A1 (en) * 2019-02-27 2020-08-27 Nanocorp AG Generating Campaign Datasets for Use in Automated Assessment of Online Marketing Campaigns Run on Online Advertising Platforms

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271336B2 (en) * 1999-11-22 2012-09-18 Accenture Global Services Gmbh Increased visibility during order management in a network-based supply chain environment
US20050096950A1 (en) * 2003-10-29 2005-05-05 Caplan Scott M. Method and apparatus for creating and evaluating strategies
US20090043637A1 (en) * 2004-06-01 2009-02-12 Eder Jeffrey Scott Extended value and risk management system
US20060143071A1 (en) * 2004-12-14 2006-06-29 Hsbc North America Holdings Inc. Methods, systems and mediums for scoring customers for marketing
US20080243912A1 (en) * 2007-03-28 2008-10-02 British Telecommunctions Public Limited Company Method of providing business intelligence
WO2009134817A1 (en) * 2008-04-28 2009-11-05 Strands, Inc. Method for providing personalized recommendations of financial products based on user data
US8285719B1 (en) * 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
US11151486B1 (en) * 2013-12-30 2021-10-19 Massachusetts Mutual Life Insurance Company System and method for managing routing of leads
US20150294246A1 (en) * 2014-04-10 2015-10-15 International Business Machines Corporation Selecting optimal training data set for service contract prediction
US20160155067A1 (en) * 2014-11-20 2016-06-02 Shlomo Dubnov Mapping Documents to Associated Outcome based on Sequential Evolution of Their Contents
US11074652B2 (en) * 2015-10-28 2021-07-27 Qomplx, Inc. System and method for model-based prediction using a distributed computational graph workflow
US10937089B2 (en) * 2017-12-11 2021-03-02 Accenture Global Solutions Limited Machine learning classification and prediction system
US11544724B1 (en) * 2019-01-09 2023-01-03 Blue Yonder Group, Inc. System and method of cyclic boosting for explainable supervised machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100257053A1 (en) * 1999-11-08 2010-10-07 Aol Advertising Inc. Systems and methods for placing electronic advertisements
JP2006221310A (ja) * 2005-02-09 2006-08-24 Fuji Electric Holdings Co Ltd 予測方法、予測装置、予測プログラムおよび記録媒体
WO2007037178A1 (ja) * 2005-09-29 2007-04-05 Japan Tobacco Inc. シミュレーション装置、効果測定装置、および販売促進支援システム
US20200273064A1 (en) * 2019-02-27 2020-08-27 Nanocorp AG Generating Campaign Datasets for Use in Automated Assessment of Online Marketing Campaigns Run on Online Advertising Platforms

Also Published As

Publication number Publication date
US20220270115A1 (en) 2022-08-25
JPWO2022130524A1 (ja) 2022-06-23
WO2022130524A1 (ja) 2022-06-23

Similar Documents

Publication Publication Date Title
US8370280B1 (en) Combining predictive models in predictive analytical modeling
US10291559B1 (en) Systems and method for communications routing based on electronic communication data
US20160125435A1 (en) Interrogation of mean field system
Hammou et al. An effective distributed predictive model with Matrix factorization and random forest for Big Data recommendation systems
US20150170048A1 (en) Determining a Type of Predictive Model for Training Data
JP7350590B2 (ja) 反復的な人工知能を用いて、通信決定木を通る経路の方向を指定する
US11100559B2 (en) Recommendation system using linear stochastic bandits and confidence interval generation
US20220083914A1 (en) Learning apparatus, learning method, and a non-transitory computer-readable storage medium
JP7006616B2 (ja) 予測モデル生成システム、方法およびプログラム
Chen et al. Increasing the effectiveness of associative classification in terms of class imbalance by using a novel pruning algorithm
US20210192361A1 (en) Intelligent data object generation and assignment using artificial intelligence techniques
JP7042982B1 (ja) ターゲット選定システム、ターゲット選定方法、およびターゲット選定プログラム
CA3059904A1 (en) Method and system for generating aspects associated with a future event for a subject
Wang et al. Efficient learning to learn a robust CTR model for web-scale online sponsored search advertising
US20220083822A1 (en) Classification apparatus, classification method, a non-transitory computer-readable storage medium
US20220083913A1 (en) Learning apparatus, learning method, and a non-transitory computer-readable storage medium
JP5491430B2 (ja) クラス分類装置、クラス分類方法、及びクラス分類プログラム
JP6988817B2 (ja) 予測モデル生成システム、方法およびプログラム
Syed et al. A Comparison of Machine Learning Classifiers on Laptop Products Classification Task
WO2021077227A1 (en) Method and system for generating aspects associated with a future event for a subject
Etminan Prediction of Lead Conversion With Imbalanced Data: A method based on Predictive Lead Scoring
Li et al. Analysis and research of retail customer consumption behavior based on support vector machine
JP6558860B2 (ja) 推定装置、予測装置、方法、及びプログラム
Dasoomi et al. Predict the Shopping Trip (Online and Offline) using a combination of a Gray Wolf Optimization Algorithm (GWO) and a Deep Convolutional Neural Network: A case study of Tehran, Iran
JP2019160064A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210827

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220315

R150 Certificate of patent or registration of utility model

Ref document number: 7042982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150