JP5984147B2

JP5984147B2 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP5984147B2
Application number: JP2014067160A
Authority: JP
Inventors: 貴幸吉住; 力矢高橋; 秀行水田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2014-03-27
Filing date: 2014-03-27
Publication date: 2016-09-06
Anticipated expiration: 2034-03-27
Also published as: US20150278725A1; US20150294350A1; JP2015191375A

Description

本発明は、情報処理装置、情報処理方法、及び、プログラムに関する。

過去の販売実績等の記録をマルコフ決定過程又は強化学習で定式化し、将来の施策を最適化する手法が知られている（非特許文献１−２及び特許文献１−２）。しかし、既知の方法によるとダイレクトメール等の対象を特定したダイレクト・マーケティング施策（ダイレクト施策とする）を最適化することはできるが、不特定多数の対象に向けたテレビＣＭ等のマス・マーケティング施策（マス施策とする）を同時に最適化することができない。
［非特許文献１］A. Labbi and C. Berrospi. Optimizing marketing planning and budgeting using Markov decision processes: An airline case study. IBM Journal of Research and Development, 51(3):421-432, 2007
［非特許文献２］N. Abe, N. K. Verma, C. Apt´e, and R. Schroko. Cross channel optimized marketing by reinforcement learning. In Proceedings of the 10th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2004), pages 767-772, 2004
［特許文献１］特開２０１０−１９１９６３号公報
［特許文献２］特表２０１１−５１３８１７号公報

本発明は、ダイレクト施策のみでなくマス施策を含む施策を最適化して出力することを課題とする。

本発明の第１の態様においては、各状態にある対象数が施策に応じて遷移する遷移モデルにおける施策を最適化する情報処理装置であって、施策の合計コストを制約するコスト制約を取得するコスト制約取得部と、２以上の状態における対象に対して一括して行うマス施策について、各状態に属すると予め定められた対象数と、マス施策が対象に届く到達率とに基づいて、各状態におけるマス施策の適用対象数を設定するマス施策設定部と、マス施策について到達率を最適化対象の変数として、全期間の総報酬に基づく目的関数をコスト制約を満たしつつ最大化する処理部と、を備える情報処理装置を提供する。

なお、上記の発明の概要は、本発明の特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

本実施形態の情報処理装置１０のブロック図を示す。本実施形態の情報処理装置１０による処理フローを示す。コスト制約取得部１３０が取得するコスト制約の一例を示す。コスト制約取得部１３０が取得するコスト関数の一例を示す。マス施策設定部１４２が設定するマス施策の適用対象数を示す。出力部１５０が出力する施策の配分の一例を示す。本実施形態のＳ１３０の具体的な処理フローを示す。分類部１２２が回帰木により状態ベクトルを分類する例を示す。分類部１２２が二分木により状態ベクトルを分類する例を示す。コンピュータ１９００のハードウェア構成の一例を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本実施形態に係る情報処理装置１０のブロック図を示す。本実施形態の情報処理装置１０は、複数の状態が定義され、各状態にある対象数（例えば、各状態に分類される対象の数）が施策に応じて遷移する遷移モデルにおいて、複数時点及び／又は複数状態に亘るコスト制約を組み入れた上で、２以上の状態における対象に対して一括して行うマス施策、及び、状態毎に行うダイレクト施策を最適化する。情報処理装置１０は、学習データ取得部１１０、モデル生成部１２０、コスト制約取得部１３０、処理部１４０、マス施策設定部１４２、及び、出力部１５０を備える。

学習データ取得部１１０は、複数の対象について施策に対する反応を記録した学習データを取得する。例えば、学習データ取得部１１０は、複数の消費者等の対象に対してダイレクトメール等のダイレクト施策並びにテレビＣＭ等のマス施策を含む施策、及び、消費者等による購買等の施策に対する反応を記録した学習データをデータベース等から取得する。学習データ取得部１１０は、取得した学習データをモデル生成部１２０に供給する。

モデル生成部１２０は、学習データ取得部１１０が取得した学習データに基づいて、複数の状態が定義され、対象が状態間をある確率で遷移する遷移モデルを生成する。モデル生成部１２０は、分類部１２２、及び、算出部１２４を有する。

分類部１２２は、学習データに含まれる複数の対象を各状態に分類する。例えば、分類部１２２は、学習データに含まれる複数の対象に対するダイレクト施策及びマス施策を含む施策、及び、反応に基づいて、対象の状態ベクトルの時系列を生成し、状態ベクトル空間上の位置に応じて複数の状態ベクトルを複数の状態に分類する。

算出部１２４は、分類部１２２が分類した複数の状態において、各状態の対象が施策に応じて各状態に遷移する確率を示す状態遷移確率、及び、各状態で施策を実行したときに得られる直近の期待利得を、回帰分析を用いて算出する。算出部１２４は、算出した状態遷移確率、及び、期待利得を処理部１４０に供給する。

コスト制約取得部１３０は、複数時点及び複数状態の少なくとも一方に亘るダイレクト施策、及び／又は、マス施策の合計コストを制約するコスト制約を含む複数のコスト制約を取得する。例えば、コスト制約取得部１３０は、ユーザから、１又は２以上の時点を含む連続した期間において、指定した１又は２以上の状態の対象に指定した１又は２以上のダイレクト施策、及び／又は、マス施策を実行するために費やすことができる予算金額をコスト制約として取得する。

また、コスト制約取得部１３０は、マス施策の到達率とマス施策のコストとの関係を表すコスト関数を取得する。コスト制約取得部１３０は、マス施策が対象とする複数のマスセグメント（例えば、２０代男性、及び、２０代女性等の対象となる消費者等のセグメント）及びマス施策ごとにコスト関数を取得してよい。コスト制約取得部１３０は、取得したコスト制約、及び、コスト関数を処理部１４０に供給する。

処理部１４０は、マス施策を除いたダイレクト施策のみで施策の配分の最適化を実行する。例えば、処理部１４０は、マス施策を除いてダイレクト施策についての施策の配分を最適化対象の変数として、全期間の総報酬に基づく目的関数を最大化するダイレクト施策の配分を算出する。ここで処理部１４０は、各時点及び各状態における施策の適用対象数と遷移モデルによる状態遷移に応じた各時点及び各状態の推定対象数との間の誤差に応じた項を全期間の総報酬から減じた目的関数を、複数のコスト制約を満たしつつ最大化する。処理部１４０は、算出した各時点及び各状態における施策の配分を、予め定められた対象数としてマス施策設定部１４２に供給する。

また、処理部１４０は、マス施策及びダイレクト施策を含む施策の最適化を実行する。例えば、処理部１４０は、マス施策設定部１４２から受け取った各時点及び各状態におけるマス施策の適用対象数に基づき、マス施策について各時点におけるマスセグメントごとの到達率を最適化対象の変数とし、ダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、全期間の総報酬に基づく目的関数をコスト制約を満たしつつ最大化する。処理部１４０は、線形計画問題等を解くことにより、目的関数を最大化するためのマス施策の到達率、及び、ダイレクト施策の配分を取得し、出力部１５０に供給する。

マス施策設定部１４２は、処理部１４０によるマス施策を含む施策の最適化のために、各状態におけるマス施策の適用対象数を設定する。例えば、マス施策設定部１４２は、処理部１４０が算出したマス施策を除いて各時点及び各状態に属すると予め定められた対象数を定数として受け取り、当該予め定められた対象数と、ユーザに設定されたマス施策が対象に届く到達率とに基づいて、各時点及び各状態におけるマス施策の適用対象数を設定する。マス施策設定部１４２は、設定した適用対象数を処理部１４０に供給する。

出力部１５０は、目的関数を最大化するマスセグメントごとの各時点のマス施策の到達率、及び、各時点及び各状態におけるダイレクト施策の配分を出力する。出力部１５０は、出力結果を情報処理装置１０の表示装置に表示させ、及び／又は、記憶媒体等に出力してもよい。

このように、本実施形態の情報処理装置１０は、マス施策設定部１４２が処理部１４０から受け取ったマス施策なしの各状態の対象数に基づいてマス施策の適用対象数を設定し、これを用いて処理部１４０が全期間の総報酬を最大化するマス施策を含む施策を算出する。

特に、処理部１４０は、マス施策の適用対象数に関する制約に、事前にマス施策なしで最適化したダイレクト施策の配分を定数として含めるので、マス施策を含む施策の最適化問題を線形計画問題として解くことができる。これにより、情報処理装置１０によれば、マス施策を含む施策を最適化した結果を提供することができる。

図２は、本実施形態の情報処理装置１０による処理フローを示す。本実施形態において、情報処理装置１０は、Ｓ１１０〜Ｓ２１０の処理を実行することにより、最適な施策の配分を出力する。

まず、Ｓ１１０において、学習データ取得部１１０は、複数の対象について施策に対する反応を記録した学習データを取得する。例えば、学習データ取得部１１０は、施策、及び、施策を実行して刺激を与えたときの、顧客、消費者、購読者及び／又は法人等の１又は複数の対象による商品等の購買、購読、及び／又はその他の応答を含む対象の反応の時系列の記録を学習データとして取得する。

ここで、学習データ取得部１１０は、施策ａ（ａ∈Ａ_Ｄ∪Ａ_Ｍ）として、ダイレクトメール、及び、Ｅメール等の特定の対象に向けられるダイレクト施策ａ（ａ∈Ａ_Ｄ）、及び、テレビＣＭ、新聞、及び、ラジオ等の不特定多数に対して実行されるマス施策（ａ∈Ａ_Ｍ）を取得する。学習データ取得部１１０は、取得した学習データをモデル生成部１２０に供給する。

次にＳ１３０において、モデル生成部１２０は、学習データに含まれる複数の対象を各状態に分類し、各状態及び各施策ごとの状態遷移確率、並びに、期待利得を算出する。モデル生成部１２０は、状態遷移確率、及び、期待利得を処理部１４０に供給する。なお、Ｓ１３０の具体的な処理内容は後述する。

次にＳ１５０において、コスト制約取得部１３０は、複数時点、及び、複数状態の少なくとも一方に亘るダイレクト施策の合計コストを制約するコスト制約を含む複数のコスト制約を取得する。コスト制約取得部１３０は、複数のダイレクト施策の合計コストを制約するコスト制約を取得してもよい。

例えば、コスト制約取得部１３０は、金銭的コストの制約（例えば、施策に費やすことができる予算の金額等）、施策の実行する回数コストの制約（例えば、施策を実行可能な回数等）、消費する資源等の資源コストの制約（例えば、施策の実行において使用可能な資源重量の合計等）、及び／又は、環境負荷等の社会的コストの制約（例えば、施策において排出可能なＣＯ_２量等）などダイレクト施策を実行することに発生するコストの制約を、コスト制約として取得してよい。コスト制約取得部１３０は、１以上のコスト制約を取得してよく、特に複数のコスト制約を取得してよい。

図３は、コスト制約取得部１３０が取得するコスト制約の一例を示す。コスト制約取得部１３０は、図示するように、全体又は一部の時点を含む期間、１又は２以上の状態、及び、１又は２以上のダイレクト施策毎に定義されたコスト制約を取得してよい。

例えば、コスト制約取得部１３０は、時点１〜ｔ１までの期間において、状態ｓ１〜ｓ３にある対象に対してダイレクト施策１を実行する予算として１０Ｍドル、ダイレクト施策２及びダイレクト施策３を実行する予算として５０Ｍドルを取得し、同期間の状態ｓ４及び状態ｓ５にある対象に対して全ダイレクト施策の実行予算として３０Ｍドルを取得してよい。また、例えば、コスト制約取得部１３０は、時点ｔ１〜ｔ２までの期間において、全状態にある対象に対して全ダイレクト施策を実行する予算として２０Ｍドルを取得してよい。

また、コスト制約取得部１３０は、マスセグメントごとにマス施策の到達率とマス施策のコストとの関係を含むマス施策コスト情報を取得する。例えば、コスト制約取得部１３０は、コスト情報として、マス施策の到達率とマス施策に要するコストの関係を表すコスト関数を取得してよい。

一般的に、マス施策の到達率θが１（すなわち全対象にマス施策が到達する状態）に近づくにつれて、マス施策に要するコストは逓増的に増加する。例えば、単位時間当たりの確率ｘのポアソン過程に従い消費者等の対象がＴＶ広告等のマス施策に確率的に接触すると仮定したとき、マス施策のコストｃ及び到達率θについて、
θ＝１−ｅｘｐ（−ｘ／１００）＝１−ｅｘｐ（−ｃ／１００ｕ_ａ）
が成り立つ。なお、ｕ_ａはユーザから与えられる１ＴＲＰ（ＴａｒｇｅｔＲａｔｉｎｇＰｏｉｎｔ）当たりの単価を表す。ここから、実際のコスト関数ｆ_ａ（θ）について、
ｆ_ａ（θ）＝−１００ｕ_ａｌｏｇ（１−θ）
が成り立つ。

ここで、コスト制約取得部１３０は、処理部１４０にマス施策に関する制約式を線形計画問題等で最適化させるために、マス施策の実際のコスト関数ｆ_ａ（θ）を区分線形関数で近似したコスト関数を取得する。

図４に、コスト制約取得部１３０が取得するコスト関数の一例を示す。グラフの横軸は、時刻ｔにおいてマスセグメントｍに対してマス施策ａ（ａ∈Ａ_Ｍ）を実行する際の到達率θ_{ｔ，ｍ，ａ}∈［０，１］を表し、縦軸は当該マス施策ａに必要なコストｃ_{ｔ，ｍ，ａ}を表し、横軸上の点はｆ_ａ（θ）を近似するための区分線形関数のサンプル点θ^ａ，ｋ（ｋ＝０，１，...，Ｋ_ａ）を表す。

区分線形関数はＫ_ａ個の区間を有し、各区間の線分はｂ_ａ，ｋ＋ｗ_ａ，ｋθ_{ｔ，ｍ，ａ}で表される。ｗ_ａ，ｋはサンプル点θ^{ａ，ｋ―１}とサンプル点θ^ａ，ｋとの間の区間の区分線形関数の傾きを表し、ｂ_ａ，ｋは当該区間の区分線形関数のθ_{ｔ，ｍ，ａ}＝０における切片を表す。図示するように、各区分における区分線形関数はサンプル点の前後において連続となるので、数式（１）が成立する。

区分線形関数は、下向きの凸関数となるので数式（２）が成立する。

また、区分線形関数はサンプル点として原点θ^ａ，０＝０を有し、原点θ^ａ，０において値が０となるので、ｂ_ａ，１＝０となる。

コスト制約取得部１３０は、ａ∈Ａ_Ｍ，ｋ∈Ｋ_ａユついてユーザから予め定義されたサンプル点θ^ａ，ｋ、傾きｗ_ａ，ｋ及び切片ｂ_ａ，ｋの情報をコスト関数として取得する。

次に、図２に戻りＳ１７０において、処理部１４０は、マス施策を含まずダイレクト施策のみの施策で目的関数を最大化する。具体的には、処理部１４０は、各時点及び各状態におけるダイレクト施策の配分、及び、誤差の範囲を最適化対象の変数として、目的関数を複数のコスト制約を満たしつつ最大化する各変数の値を算出する。

処理部１４０が最大化の対象とする目的関数の一例を数式（３）に示す。

ここで、γは予め定められた０＜γ≦１となる将来利得に対する割引率を示し、ｎ^{^} _{ｔ，ｓ，ａ}は時点ｔ及び状態ｓにおいてダイレクト施策ａ（ａ∈Ａ_Ｄ）が配分される適用対象数を示し、Ｎ_ｔ，ｓは時点ｔにおける状態ｓにおける対象数を示し、ｒ^＾ _{ｔ，ｓ，ａ}は時点ｔ及び状態ｓにおけるダイレクト施策ａ（ａ∈Ａ_Ｄ）による期待利得を示し、σ_ｔ，ｓは時点ｔ及び状態ｓにおける施策の適用対象数と遷移モデルによる状態遷移に応じた時点ｔ及び状態ｓの推定対象数との間の誤差の範囲により与えられるスラック変数を示し、η_ｔ，ｓはスラック変数σ_ｔ，ｓに対して与えられる重み係数を示す。

数式（３）に示すように、適用対象数ｎ^{^} _{ｔ，ｓ，ａ}と期待利得ｒ^＾ _{ｔ，ｓ，ａ}との積の全ダイレクト施策ａ（ａ∈Ａ_Ｄ）及び全状態ｓ∈Ｓにおける総和に各時刻ｔに対応する割引率の累乗γ^ｔを乗じた値の全時刻（ｔ＝１，...，Ｔ）における総和を全期間の総報酬に応じた項とし、重み係数η_ｔ，ｓとスラック変数σ_ｔ，ｓとの積の全状態及びｔ＝２以降の全時刻における総和を誤差に応じた項としたときに、目的関数は全期間の総報酬に応じた項から誤差に応じた項を減じることにより得られる。

なお、数式（３）におけるΣ_ａ∈ＡＤｎ^{^} _{１，ｓ，ａ}＝Ｎ_１，ｓは、期間の開始時点（時点１）の状態ｓにおいてダイレクト施策ａが配分される適用対象数ｎ^{^} _{ｔ，ｓ，ａ}の全ダイレクト施策ａ（ａ∈Ａ_Ｄ）における総和を、対象数Ｎ_ｔ，ｓにより定義する。これにより、処理部１４０は、開始時点における各状態ｓの対象数（例えば、人口）を決定的に与える。

重み係数η_ｔ，ｓは、予め定められた係数であってよく、これに代えて、処理部１４０は、重み係数η_ｔ，ｓをη_ｔ，ｓ＝λγ^ｔΣ_{（ａ∈ＡＤ）}｜ｒ^＾ _{ｔ，ｓ，ａ}｜から算出してもよい。ここで、λはグローバルリラクゼーションハイパパラメータであり、例えば、処理部１４０は、λを１、１０、１０^−１、１０^２、又は１０^−２から選択してよく、不連続状態マルコフ決定過程、又は、エージェントベースシミュレーションの結果に基づき最適なλを設定してよい。

処理部１４０が最適化の対象とするスラック変数σ_ｔ，ｓに対する制約を数式（４）及び（５）に示す。

ここで、ｐ^＾ _{ｓ｜ｓ'，ａ}はダイレクト施策ａ（ａ∈Ａ_Ｄ）を実行したときに状態ｓ'から状態ｓに遷移する確率に対応する状態遷移確率を示す。

数式（４）及び（５）の不等式右辺の括弧内の式は、各時点及び各状態におけるダイレクト施策の適用対象数と遷移モデルによる状態遷移に応じた各時点及び各状態の推定対象数との間の誤差を示す。

例えば、Σｎ^{^} _{ｔ＋１，ｓ，ａ}は一の時点ｔ＋１の各状態ｓにおけるダイレクト施策ａの適用対象数の全ダイレクト施策ａ（ａ∈Ａ_Ｄ）に対する総和である。処理部１４０は、時点ｔ＋１及び状態ｓのセグメントにΣｎ^{^} _{ｔ＋１，ｓ，ａ}の対象数を実際に割り当てる。

また、例えば、ΣΣｐ^＾ _{ｓ｜ｓ'，ａ'}ｎ^{^} _{ｔ，ｓ'，ａ'}は、処理部１４０が、一の時点ｔ＋１の前の時点ｔの各状態ｓ'（ｓ'∈Ｓ）におけるダイレクト施策ａの適用対象数ｎ^{^} _{ｔ，ｓ'，ａ'}の配分及び状態遷移確率ｐ^＾ _{ｓ｜ｓ'，ａ}に応じた状態遷移によって一の時点ｔ＋１及び各状態ｓに遷移してくると推定して算出する推定対象数の全状態ｓ'∈Ｓ及び全ダイレクト施策ａ'に対する総和である。

つまり、数式（４）及び（５）の不等式右辺の括弧内の式は、時点ｔ＋１及び状態ｓに存在する実際の対象数と状態遷移確率等及び前の時点ｔの対象数により推定される推定対象数との間の誤差を表す。処理部１４０は、式（４）及び（５）の不等式の制約により、スラック変数σ_ｔ，ｓの下限値に当該誤差の絶対値を与える。従って、誤差が大きく遷移モデルの信頼性が低いと推定される条件下でスラック変数σ_ｔ，ｓは増大する。

なお、処理部１４０は、スラック変数σ_ｔ，ｓの下限値に誤差の絶対値を与える代わりに、０と誤差とのうち大きい値である一方をスラック変数σ_ｔ，ｓの下限値としてもよい。

数式（３）では、誤差に応じた項が増大すると目的関数が減少する関係にあり、誤差に応じた項はスラック変数σ_ｔ，ｓに比例して増大する。これにより、処理部１４０は、遷移モデルの信頼性の低さを罰則値として目的関数に導入し、目的関数を最大化することで総報酬の大きさと信頼性の大きさとを両立する条件を算出する。

処理部１４０は、数式（６）に示すコスト制約を更に用いて、目的関数を最大化する。

ここで、ｃ_{ｔ，ｓ，ａ}は、時点ｔで状態ｓにダイレクト施策ａを実行する場合のコストを示し、Ｃ_ｉはｉ番目（ｉ＝１，...，Ｉ、Ｉは１以上の整数）のコスト制約に関する合計コストの指定値、上限値、又は、下限値を示す。コストは、時点ｔ、状態ｓ、及び／又は、ダイレクト施策ａごとに予め定められてよく、又は、コスト制約取得部１３０がユーザから取得してもよい。

処理部１４０は、数式（７）に示す対象数に関する制約条件を更に用いて、目的関数を最大化する。

ここで、Ｎは、予め定められた、又は、ユーザにより定義される全対象数（例えば、全消費者人口）を示す。

数式（７）は、各時点ｔ及び各状態ｓにおけるダイレクト施策ａの適用対象数ｎ^{^} _{ｔ，ｓ，ａ}の合計が予め定められた全対象数Ｎと等しくなる旨の制約条件を示す。これにより、処理部１４０は、全ての時刻において、全状態における全ダイレクト施策の対象者の数が、全消費者人口に常に等しいことを制約条件に含める。

処理部１４０は、数式（３）〜（７）に示す制約を含む線形計画問題又は混合整数計画問題を解くことにより、各時点ｔ、各状態ｓ、及び、各ダイレクト施策ａに割り当てられる適用対象数ｎ^{^} _{ｔ，ｓ，ａ}をダイレクト施策の配分を算出する。

次に、処理部１４０は、算出したダイレクト施策の配分ｎ^{^} _{ｔ，ｓ，ａ}のダイレクト施策ａ（ａ∈Ａ_Ｄ）についての総和Σｎ^{^} _{ｔ，ｓ，ａ}を算出することで、各時点ｔ、各状態ｓについての対象数ｎ^{^} _ｔ，ｓを取得する。処理部１４０は、取得した対象数ｎ^{^} _ｔ，ｓを予め定められた対象数としてマス施策設定部１４２に供給する。

Ｓ１７０において、最大化の対象となる目的関数に対象数の誤差に関する項、すなわちスラック変数を含む項を導入することにより、処理部１４０は、複数時点、複数期間及び／又は複数状態に亘るコスト制約を線形計画問題等の高速で解くことが可能な問題として扱い、大きな総報酬を高い精度でもたらす施策の配分を出力することができる。

次に、Ｓ１９０において、処理部１４０は、マス施策及びダイレクト施策を含む施策の最適化して、目的関数を最大化する。例えば、処理部１４０は、マス施策ａ（ａ∈Ａ_Ｍ）について各時点ｔにおけるマスセグメントｍごとの到達率θ_{ｔ，ｍ，ａ}を最適化対象の変数とし、ダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、全期間の総報酬に基づく目的関数をコスト制約を満たしつつ最大化する。

処理部１４０が最大化の対象とする目的関数の一例を数式（８）に示す。

ここで、γ_１は予め定められた０＜γ_１≦１となる将来利得に対する割引率を示し、γ_２は予め定められた０＜γ_２≦１となる将来コストに対する割引率を示し、ｎ_{ｔ，ｓ，ａ}は時点ｔ及び状態ｓにおいてダイレクト施策ａ（ａ∈Ａ_Ｄ）及びマス施策ａ（ａ∈Ａ_Ｍ）が配分される適用対象の数を示し、Ｎ_ｔ，ｓは時点ｔにおける状態ｓにおける対象数を示し、ｒ^＾ _{ｔ，ｓ，ａ}は時点ｔ及び状態ｓにおけるダイレクト施策ａ（ａ∈Ａ_Ｄ）及びマス施策ａ（ａ∈Ａ_Ｍ）による期待利得を示し、δ_{ｔ，ｍ，ａ}は時点ｔ、及び、マスセグメントｍ、及び、マス施策ａのコスト関数により与えられるスラック変数を示す。

数式（８）に示すように、適用対象数ｎ_{ｔ，ｓ，ａ}と期待利得ｒ^＾ _{ｔ，ｓ，ａ}との積の全施策ａ（ａ∈Ａ_Ｄ∪Ａ_Ｍ）及び全状態ｓ∈Ｓにおける総和に各時刻ｔに対応する割引率の累乗γ_１ ^ｔを乗じた値の全時刻（ｔ＝１，...，Ｔ）における総和を全期間の総報酬に応じた項とし、スラック変数δ_{ｔ，ｍ，ａ}の全マスセグメントｍ及び全マス施策ａ（ａ∈Ａ_Ｍ）における総和に割引率γ_２を乗じた値の全時刻（ｔ＝１，...，Ｔ）における総和をマス施策のコストに応じた項としたときに、目的関数は全期間の総報酬に応じた項からマス施策のコストに応じた項を減じることにより得られる。

なお、数式（８）におけるΣ_{ａ∈ＡＤ∪ＡＭ}ｎ_{１，ｓ，ａ}＝Ｎ_１，ｓは、期間の開始時点（時点１）の状態ｓにおいて施策ａが配分される適用対象数ｎ_{ｔ，ｓ，ａ}の全施策ａ∈Ａ_Ｄ∪Ａ_Ｍにおける総和を、対象数Ｎ_ｔ，ｓにより定義する。これにより、処理部１４０は、開始時点における各状態ｓの対象数（例えば、人口）を決定的に与える。

処理部１４０が最適化の対象とするスラック変数δ_{ｔ，ｍ，ａ}に対する制約を数式（９）に示す。

ここで、数式（９）の不等式の右辺は、図４で説明したマス施策のコスト関数を近似した区分線形関数を表す。Ｉ（ｌｏｇｉｃ）は、ｌｏｇｉｃが成立しているときに１となり、ｌｏｇｉｃが成立していないときに０となるインジケータ関数であり、（ｂ_ａ，ｋ＋ｗ_ａ，ｋθ_{ｔ，ｍ，ａ}）の項はコスト関数の各区間における線分を表す。従って、数式（９）の不等式右辺は、区分線形関数に近似されたコスト関数を表す。数式（９）より、到達率θ_{ｔ，ｍ，ａ}が増大することによりマス施策のコストが増大すると、スラック変数δ_{ｔ，ｍ，ａ}も増大する。

数式（８）では、スラック変数を含む項が増大すると目的関数が減少する。これにより、処理部１４０は、マス施策のコストの大きさを罰則値として目的関数に導入し、目的関数を最大化することでマス施策のコストが大きくなり過ぎずに総報酬が大きくなる条件を算出する。

処理部１４０は、数式（１０）に示すダイレクト施策に関するコスト制約を更に用いて、目的関数を最大化する。

ここで、ｃ_{ｔ，ｓ，ａ}は、時点ｔで状態ｓにダイレクト施策ａ（ａ∈Ａ_Ｄ）を実行する場合のコストを示し、Ｃ_ｉはｉ番目（ｉ＝１，...，Ｉ、Ｉは１以上の整数）のコスト制約に関する合計コストの指定値、上限値、又は、下限値を示す。コストは、時点ｔ、状態ｓ、及び／又は、ダイレクト施策ａごとに予め定められてよく、又は、コスト制約取得部１３０がユーザから取得してもよい。処理部１４０は、マス施策についてのコスト制約も更に用いてよい。

処理部１４０は、数式（１１）に示す対象数に関する制約条件を更に用いて、目的関数を最大化する。

数式（１１）は、各時点ｔ及び各状態ｓにおける全施策ａ∈Ａ_Ｄ∪Ａ_Ｍの適用対象数ｎ_{ｔ，ｓ，ａ}の合計が予め定められた全対象数Ｎと等しくなる旨の制約条件を示す。これにより、処理部１４０は、全ての時刻において、全状態におけるダイレクト施策及びマス施策を含む全施策の対象者の数が、全消費者人口に常に等しいことを制約条件に含める。

処理部１４０は、数式（１２）に示す各マス施策の対象数に関する制約条件を更に用いて、目的関数を最大化する。

数式（１２）は、時点ｔ、状態ｓ、及び、マス施策ａ（ａ∈Ａ_Ｍ）に割り当てられたマス施策の適用対象数ｎ_{ｔ，ｓ，ａ}の制約を示す。処理部１４０は、マス施策設定部１４２から数式（１２）の括弧内の右辺の値を取得する。ここで、マス施策設定部１４２による当該値の算出方法について説明する。

マス施策設定部１４２は、Ｓ１７０でマス施策を除いて目的関数を最大化して得られた結果に基づいて、マス施策における予め定められた対象数を設定して各状態におけるマス施策の適用対象数ｎ_{ｔ，ｓ，ａ}を設定する。

図５は、マス施策設定部１４２が設定するマス施策の適用対象数ｎ_{ｔ，ｓ，ａ}の概要を示す。図中の四角形の領域は全対象（例えば、対象とする全消費者）を示す。図示するように、全対象は、複数の状態（状態ｓ１、状態ｓ２、状態ｓ３…）に分割される。各状態はＳ１７０で処理部１４０が算出した予め定められた対象数ｎ^{^} _ｔ，ｓの対象を有し、例えば、状態ｓ１は対象数ｎ^{^} _ｔ，ｓ１の対象を有し、状態ｓ２は対象数ｎ^{^} _ｔ，ｓ２の対象を有し、状態ｓ３は対象数ｎ^{^} _ｔ，ｓ３の対象を有する。

各状態は、複数のマスセグメントｍに分割される。例えば、各状態ｓは、マスセグメントｍ１（例えば、２０代男性）、マスセグメントｍ２（例えば、２０代女性）、マスセグメントｍ３（例えば、３０代男性）…に分割される。各状態ｓにおいてマスセグメントｍに占める割合はマスセグメント割合φ_ｍ｜ｓで表される。

例えば、状態ｓ１においてマスセグメントｍ１はマスセグメント割合φ_１｜ｓ１を占め、状態ｓ２においてマスセグメントｍ２はマスセグメント割合φ_１｜ｓ２を占め、状態ｓ１においてマスセグメントｍ３はマスセグメント割合φ_１｜ｓ３を占める。マス施策設定部１４２は、マスセグメント割合φ_ｍ｜ｓをユーザから取得してよく、又は、過去のデータから別途算出してよい。

更に、各マスセグメントｍにおいて、時点ｔ及びマス施策ａごとの到達率θ_{ｔ，ｍ，ａ}で施策が対象に到達する。例えば、図示するように、マスセグメントｍ３において、時点ｔのマス施策ａ１（新聞広告）の到達率θ_{ｔ，３，１}∈［０，１］の割合でマス施策ａ１が対象に到達し、時点ｔのマス施策ａ２（新聞広告）の到達率θ_{ｔ，３，２}の割合でマス施策ａ２が対象に到達する。

到達率θ_{ｔ，ｍ，ａ}は２以上の状態ｓにおいて共通の値としてよい。これは、マス施策が到達する割合は、対象の状態ｓに依存せず、対象の属するマスセグメントｍに因るという前提に基づく。

マス施策設定部１４２は、数式（１２）の等式右辺に示すように、時点ｔ及び状態ｓ１のセグメントｍ１についてマス施策ａの適用対象者をθ_{ｔ，ｍ，ａ}φ_ｍ｜ｓ１ｎ^＾ _ｔ，ｓ１を算出した値に対して、全セグメントｍ∈Ｍの総和を算出して、時点ｔ及び状態ｓ１についてのマス施策ａの適用対象者ｎ_{ｔ，ｓ，ａ}を取得する。マス施策設定部１４２は、当該２以上の状態ｓのそれぞれにおけるマス施策ａの適用対象者ｎ_{ｔ，ｓ，ａ}を設定する。

処理部１４０は、数式（８）〜（１２）に示す制約を含む線形計画問題又は混合整数計画問題を解くことにより、各時点ｔ、各状態ｓ、及び、各ダイレクト施策ａ（ａ∈Ａ_Ｄ）に割り当てられる適用対象数ｎ_{ｔ，ｓ，ａ}をダイレクト施策の配分として取得し、各時点ｔ、各マスセグメントｍ、及び、マス施策ａ（ａ∈Ａ_Ｍ）の到達率θ_{ｔ，ｍ，ａ}をマス施策の実行目標として取得する。

なお、数式（１２）においてφ_ｍ｜ｓ１及びｎ^＾ _ｔ，ｓ１は定数であるので、処理部１４０は数式（１２）を線形計画問題として処理することができる。処理部１４０は、算出した施策の配分等を出力部１５０に供給する。

ここで、情報処理装置１０は、Ｓ１９０の処理を予め定められた回数繰り返し実行してもよい。この場合、マス施策設定部１４２は、直前のＳ１９０で処理部１４０が目的関数をコスト制約を満たしつつ最大化して得られた結果に基づいて、マス施策における予め定められた対象数ｎ^＾ _ｔ，ｓ１を設定して各状態におけるマス施策の適用対象数を設定する。例えば、マス施策設定部１４２は、各時点及び各状態について、施策の配分ｎ_{ｔ，ｓ，ａ}の全施策ａ∈Ａ_Ｄ∪Ａ_Ｍの総和を予め定められた対象数ｎ^＾ _ｔ，ｓ１としてよい。

繰り返しにおいて、処理部１４０は、マス施策ａ（ａ∈Ａ_Ｍ）については各時点における到達率θ_{ｔ，ｍ，ａ}を最適化対象の変数とし、状態毎に行うダイレクト施策（ａ∈Ａ_Ｄ）については各時点および各状態における施策の配分ｎ_{ｔ，ｓ，ａ}を最適化対象の変数として、目的関数をコスト制約を満たしつつ最大化する処理を再度実行する。繰り返し処理により、処理部１４０は、到達率θ_{ｔ，ｍ，ａ}及び施策の配分ｎ_{ｔ，ｓ，ａ}の精度を向上させることができる。

次にＳ２１０において、出力部１５０が目的関数を最大化するダイレクト施策の配分ｎ_{ｔ，ｓ，ａ}及びマス施策の目標となる到達率θ_{ｔ，ｍ，ａ}を出力する。

図６は、出力部１５０が出力する施策の配分及び達成率の一例を示す。図示するように、出力部１５０は、各時点ｔ及び各状態ｓごとの各ダイレクト施策ａの適用対象数ｎ_{ｔ，ｓ，ａ}を出力する。

例えば、出力部１５０は、時刻ｔの状態ｓ１にある対象者に対して、ダイレクト施策１（例えばＥメール）を３０人に対して実施し、ダイレクト施策２（例えばダイレクトメール）を１４０人に対して実施し、ダイレクト施策３（例えば何もしないこと）を２０人に対して実施することを示す施策の配分を出力する。また、出力部１５０は、時刻ｔの状態ｓ２にある対象者に対して、ダイレクト施策１を１０人に対して実施し、ダイレクト施策２を３０人に対して実施し、ダイレクト施策３を１１０人に対して実施することを示す施策の配分を出力する。

出力部１５０は、各時点ｔ及び各マスセグメントｍごとの各マス施策ａの到達率θ_{ｔ，ｍ，ａ}を出力する。例えば、時点ｔでマス施策１（例えば、新聞広告）のマスセグメントｍ１（例えば、２０代男性）に対する目標到達率５％を出力し、マスセグメントｍ２（例えば、２０代女性）に対する目標到達率２０％を出力する。また、例えば、マス施策２（例えば、テレビＣＭ）のマスセグメントｍ１に対する目標到達率１５％を出力し、マスセグメントｍ２に対する目標到達率３０％を出力する。

このように、情報処理装置１０によると、まず処理部１４０がマス施策を除いて、全期間の総報酬を最大化する施策を実行したときの各時点及び各状態の対象数を算出し、マス施策設定部１４２が処理部１４０から受け取った対象数に基づいてマス施策の適用対象数を設定し、処理部１４０が、全期間の総報酬からマス施策のコストを減じた目的関数を最大化するマス施策及びダイレクト施策を算出する。これにより、情報処理装置１０によれば、マス施策を含む施策を最適化した結果を高速に提供することができる。

また、情報処理装置１０は、線形計画問題等により最適化を実行するので、極めて高次元のモデル、すなわち、多種類の状態及び／又は施策を有するモデルの問題を解決することができる。更に、情報処理装置１０は、多目的最適化問題にも容易に拡張することができる。例えば、情報処理装置１０は、期待利得ｒ_{ｔ，ｓ，ａ}が単純なスカラーでなく、複数の値を有する場合（例えば、ネット店舗の売上と実店舗の売上を分けて考慮する場合）、これらの値の線形結合で表される多目的関数を目的関数とすることにより、容易に最適化を実行することができる。

なお、情報処理装置１０は、Ｓ１９０の処理において、制約式にマス施策のコストについてのスラック変数δ_{ｔ，ｍ，ａ}を罰則項として導入する代わりに、Ｓ１７０と同様に推定対象者と適用対象者の誤差の範囲で定義されるスラック変数を導入してもよい。この場合、マス施策のコストはコスト制約に関する数式（１０）で制約されてよい。

図７は、本実施形態のＳ１３０の具体的な処理フローを示す。モデル生成部１２０は、Ｓ１３０の処理においてＳ１３２〜Ｓ１３６の処理を実行する。

まず、Ｓ１３２において、モデル生成部１２０の分類部１２２は、学習データに含まれる複数の対象のそれぞれに対するダイレクト施策及びマス施策を含む施策及び反応に基づいて、当該対象の状態ベクトルを生成する。例えば、分類部１２２は、対象のそれぞれについて、予め定められた期間内において、対象に対して実行された施策及び／又は対象の反応の基づいた値を成分として有する状態ベクトルを生成する。

一例として、分類部１２２は、第１成分としてある一の消費者が直近過去１週間で購買をした回数を有し、第２成分として当該一の消費者が直近過去２週間で購買をした回数を有し、第３成分として当該一の消費者に対し直近過去１週間に送信されたダイレクトメールの数を有し、第４成分として当該一の消費者が属するマスセグメントにおけるＴＶＣＭの回数と平均視聴率との積の値を有する状態ベクトルを生成してよい。

次にＳ１３４において、分類部１２２は、複数の対象を状態ベクトルに基づいて分類する。例えば、分類部１２２は、教師あり学習又は教師なし学習を適用して状態ベクトルに決定木を適合することにより、複数の対象を分類する。

教師あり学習の例として、分類部１２２は、一の対象の状態ベクトルを入力ベクトルｘとし、当該一の対象の状態ベクトルを観測した時刻以降の予め定められた期間における対象からの反応を示すベクトル（例えば、状態ベクトルの観測時点から１年間の間に計上される製品毎の売上金額を成分とするベクトル）を出力ベクトルｙとし、出力ベクトルｙを最も精度よく予測できる回帰木を適合する。分類部１２２は、回帰木の葉ノード毎に各状態を割り当てることにより、複数の対象に係る状態ベクトルを離散化して、複数の対象を複数の状態に分類する。

図８は、分類部１２２が回帰木により状態ベクトルを分類する例を示す。ここでは、分類部１２２が、２つの成分ｘ１及びｘ２を有する複数の状態ベクトルを分類する例を示す。図中のグラフの縦軸及び横軸は状態ベクトルの成分ｘ１及びｘ２の大きさを示し、グラフにプロットされる複数の点は複数の対象に対応する複数の状態ベクトルを示し、破線で囲まれる領域は回帰木の各葉ノードに含まれる条件となる状態ベクトルの範囲を示す。

図示するように、分類部１２２は、複数の状態ベクトルを回帰木の葉ノード毎に分類する。これにより、分類部１２２は、複数の状態ベクトルを複数の状態ｓ１〜ｓ３に分類する。

教師なし学習の例として、分類部１２２は、二分木により状態ベクトルの分散が最大となる軸によって複数の対象に係る状態ベクトルを分類していくことにより、複数の対象に係る状態ベクトルを離散化して、複数の対象を複数の状態に分類する。

図９は、分類部１２２が二分木により状態ベクトルを分類する例を示す。図８と同様に、図中のグラフの縦軸及び横軸は状態ベクトルの成分ｘ１及びｘ２の大きさを示し、グラフにプロットされる複数の点は複数の対象に対応する状態ベクトルを示す。

分類部１２２は、複数の状態ベクトルを軸で分割して複数のグループに分けたときに、分割後の全グループの状態ベクトルの分散の合計が最大となるような軸を算出し、算出した軸で複数の状態ベクトルを二分割することで離散化する。図示するように、分類部１２２は、予め定められた回数分割を繰り返すことで、複数の対象に係る複数の状態ベクトルを複数の状態ｓ１〜ｓ４に分類する。

図７に戻り、次にＳ１３６において、算出部１２４は、状態遷移確率ｐ^＾ _{ｓ｜ｓ'，ａ}、及び、期待利得ｒ^＾ _{ｔ，ｓ，ａ}を算出する。例えば、算出部１２４は、分類部１２２により分類された各状態の対象が施策に応じてどの状態に遷移したかに基づき回帰分析を実行して、状態遷移確率ｐ^＾ _{ｓ｜ｓ'，ａ}を算出する。一例として、算出部１２４は、ＭｏｄｉｆｉｅｄＫｎｅｓｅｒ−ＮｅｙＳｍｏｏｔｈｉｎｇを用いることにより、状態遷移確率ｐ^＾ _{ｓ｜ｓ'，ａ}を算出してよい。

また、例えば、算出部１２４は、分類部１２２により分類された各状態の対象が施策を実行した直後にどの程度の大きさの期待利得をもたらしたかに基づき、回帰分析を実行して期待利得ｒ^＾ _{ｔ，ｓ，ａ}を算出する。一例として、算出部１２４は、Ｌ１−正則化ポアソン回帰及び／又はＬ１−正則化対数正規回帰を用いて、精度よく期待利得ｒ^＾ _{ｔ，ｓ，ａ}を算出してよい。なお、算出部１２４は、期待利得として、施策を実行した際に期待される利益から施策の実行に必要なコストを減じたもの（例えば、売上−マーケティングコスト）を用いてよい。

図１０は、情報処理装置１０として機能するコンピュータ１９００のハードウェア構成の一例を示す。本実施形態に係るコンピュータ１９００は、ホスト・コントローラ２０８２により相互に接続されるＣＰＵ２０００、ＲＡＭ２０２０、グラフィック・コントローラ２０７５、及び表示装置２０８０を有するＣＰＵ周辺部と、入出力コントローラ２０８４によりホスト・コントローラ２０８２に接続される通信インターフェイス２０３０、ハードディスクドライブ２０４０、及びＣＤ−ＲＯＭドライブ２０６０を有する入出力部と、入出力コントローラ２０８４に接続されるＲＯＭ２０１０、フレキシブルディスク・ドライブ２０５０、及び入出力チップ２０７０を有するレガシー入出力部を備える。

ホスト・コントローラ２０８２は、ＲＡＭ２０２０と、高い転送レートでＲＡＭ２０２０をアクセスするＣＰＵ２０００及びグラフィック・コントローラ２０７５とを接続する。ＣＰＵ２０００は、ＲＯＭ２０１０及びＲＡＭ２０２０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ２０７５は、ＣＰＵ２０００等がＲＡＭ２０２０内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置２０８０上に表示させる。これに代えて、グラフィック・コントローラ２０７５は、ＣＰＵ２０００等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。

入出力コントローラ２０８４は、ホスト・コントローラ２０８２と、比較的高速な入出力装置である通信インターフェイス２０３０、ハードディスクドライブ２０４０、ＣＤ−ＲＯＭドライブ２０６０を接続する。通信インターフェイス２０３０は、有線又は無線によりネットワークを介して他の装置と通信する。また、通信インターフェイスは、通信を行うハードウェアとして機能する。ハードディスクドライブ２０４０は、コンピュータ１９００内のＣＰＵ２０００が使用するプログラム及びデータを格納する。ＣＤ−ＲＯＭドライブ２０６０は、ＣＤ−ＲＯＭ２０９５からプログラム又はデータを読み取り、ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供する。

また、入出力コントローラ２０８４には、ＲＯＭ２０１０と、フレキシブルディスク・ドライブ２０５０、及び入出力チップ２０７０の比較的低速な入出力装置とが接続される。ＲＯＭ２０１０は、コンピュータ１９００が起動時に実行するブート・プログラム、及び／又は、コンピュータ１９００のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ２０５０は、フレキシブルディスク２０９０からプログラム又はデータを読み取り、ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供する。入出力チップ２０７０は、フレキシブルディスク・ドライブ２０５０を入出力コントローラ２０８４へと接続するとともに、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ２０８４へと接続する。

ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供されるプログラムは、フレキシブルディスク２０９０、ＣＤ−ＲＯＭ２０９５、又はＩＣカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、ＲＡＭ２０２０を介してコンピュータ１９００内のハードディスクドライブ２０４０にインストールされ、ＣＰＵ２０００において実行される。

コンピュータ１９００にインストールされ、コンピュータ１９００を情報処理装置１０として機能させるプログラムは、学習データ取得モジュール、モデル生成モジュール、分類モジュール、算出モジュール、コスト制約取得モジュール、処理モジュール、マス施策設定モジュール、出力モジュールを備える。これらのプログラム又はモジュールは、ＣＰＵ２０００等に働きかけて、コンピュータ１９００を、学習データ取得部１１０、モデル生成部１２０、分類部１２２、算出部１２４、コスト制約取得部１３０、処理部１４０、マス施策設定部１４２、及び、出力部１５０としてそれぞれ機能させてよい。

これらのプログラムに記述された情報処理は、コンピュータ１９００に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である学習データ取得部１１０、モデル生成部１２０、分類部１２２、算出部１２４、コスト制約取得部１３０、処理部１４０、マス施策設定部１４２、及び、出力部１５０として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ１９００の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の情報処理装置１０が構築される。

一例として、コンピュータ１９００と外部の装置等との間で通信を行う場合には、ＣＰＵ２０００は、ＲＡＭ２０２０上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス２０３０に対して通信処理を指示する。通信インターフェイス２０３０は、ＣＰＵ２０００の制御を受けて、ＲＡＭ２０２０、ハードディスクドライブ２０４０、フレキシブルディスク２０９０、又はＣＤ−ＲＯＭ２０９５等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス２０３０は、ＤＭＡ（ダイレクト・メモリ・アクセス）方式により記憶装置との間で送受信データを転送してもよく、これに代えて、ＣＰＵ２０００が転送元の記憶装置又は通信インターフェイス２０３０からデータを読み出し、転送先の通信インターフェイス２０３０又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。

また、ＣＰＵ２０００は、ハードディスクドライブ２０４０、ＣＤ−ＲＯＭドライブ２０６０（ＣＤ−ＲＯＭ２０９５）、フレキシブルディスク・ドライブ２０５０（フレキシブルディスク２０９０）等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をＤＭＡ転送等によりＲＡＭ２０２０へと読み込ませ、ＲＡＭ２０２０上のデータに対して各種の処理を行う。そして、ＣＰＵ２０００は、処理を終えたデータを、ＤＭＡ転送等により外部記憶装置へと書き戻す。このような処理において、ＲＡＭ２０２０は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはＲＡＭ２０２０及び外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。

本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、ＣＰＵ２０００は、ＲＡＭ２０２０の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはＲＡＭ２０２０の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもＲＡＭ２０２０、メモリ、及び／又は記憶装置に含まれるものとする。

また、ＣＰＵ２０００は、ＲＡＭ２０２０から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、ＲＡＭ２０２０へと書き戻す。例えば、ＣＰＵ２０００は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすか否かを判断し、条件が成立した場合（又は不成立であった場合）に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。

また、ＣＰＵ２０００は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第１属性の属性値に対し第２属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、ＣＰＵ２０００は、記憶装置に格納されている複数のエントリの中から第１属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第２属性の属性値を読み出すことにより、所定の条件を満たす第１属性に対応付けられた第２属性の属性値を得ることができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０情報処理装置、１１０学習データ取得部、１２０モデル生成部、１２２分類部、１２４算出部、１３０コスト制約取得部、１４０処理部、１４２マス施策設定部、１５０出力部、１９００コンピュータ、２０００ＣＰＵ、２０１０ＲＯＭ、２０２０ＲＡＭ、２０３０通信インターフェイス、２０４０ハードディスクドライブ、２０５０フレキシブルディスク・ドライブ、２０６０ＣＤ−ＲＯＭドライブ、２０７０入出力チップ、２０７５グラフィック・コントローラ、２０８０表示装置、２０８２ホスト・コントローラ、２０８４入出力コントローラ、２０９０フレキシブルディスク、２０９５ＣＤ−ＲＯＭ

Claims

各状態にある対象数が施策に応じて遷移する遷移モデルにおける施策を最適化する情報処理装置であって、
施策の合計コストを制約するコスト制約を取得するコスト制約取得部と、
２以上の状態における対象に対して一括して行うマス施策について、各状態に属すると予め定められた対象数と、前記マス施策が対象に届く到達率とに基づいて、各状態における前記マス施策の適用対象数を設定するマス施策設定部と、
前記マス施策について前記到達率を最適化対象の変数として、全期間の総報酬に基づく目的関数を前記コスト制約を満たしつつ最大化する処理部と、
を備える情報処理装置。
前記マス施策設定部は、２以上の状態における対象に対して一括して行う前記マス施策について、各状態に属すると予め決定された対象数と、当該２以上の状態に共通の前記到達率とに基づいて、当該２以上の状態のそれぞれにおける前記マス施策の適用対象数を設定する請求項１に記載の情報処理装置。
前記マス施策設定部は、前記マス施策について、各時点及び各状態における予め決定された対象数と、前記マス施策が対象に届く到達率とに基づいて、各時点及び各状態における前記マス施策の適用対象数を設定し、
前記処理部は、前記マス施策については各時点における前記到達率を最適化対象の変数とし、状態毎に行うダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、前記目的関数を前記コスト制約を満たしつつ最大化する
請求項１または２に記載の情報処理装置。
前記処理部は、前記マス施策を除いて前記ダイレクト施策についての施策の配分を最適化対象の変数として、前記目的関数を最大化する施策の配分を算出し、
前記マス施策設定部は、前記マス施策を除いて前記目的関数を最大化して得られた結果に基づいて、前記マス施策における前記予め定められた対象数を設定して各状態における前記マス施策の適用対象数を設定し、
前記処理部は、前記マス施策については各時点における前記到達率を最適化対象の変数とし、状態毎に行うダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、前記目的関数を前記コスト制約を満たしつつ最大化する
請求項３に記載の情報処理装置。
前記マス施策設定部は、前記目的関数を前記コスト制約を満たしつつ最大化して得られた結果に基づいて、前記マス施策における前記予め定められた対象数を設定して各状態における前記マス施策の適用対象数を設定し、
前記処理部は、前記マス施策については各時点における前記到達率を最適化対象の変数とし、状態毎に行うダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、前記目的関数を前記コスト制約を満たしつつ最大化する処理を再度実行する
請求項１から４のいずれか一項に記載の情報処理装置。
前記コスト制約取得部は、複数時点及び複数状態の少なくとも一方に亘る施策の合計コストを制約するコスト制約を含む複数の前記コスト制約を取得し、
前記処理部は、前記マス施策については各時点における前記到達率を最適化対象の変数とし、前記ダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、各時点及び各状態における施策の適用対象数と前記遷移モデルによる状態遷移に応じた各時点及び各状態の推定対象数との間の誤差に応じた項を全期間の総報酬から減じた目的関数を、前記複数のコスト制約を満たしつつ最大化する
請求項３から５のいずれか一項に記載の情報処理装置。
前記処理部は、各時点及び各状態における、前記誤差の範囲を最適化対象の変数に加えて前記目的関数を最大化する請求項６に記載の情報処理装置。
前記処理部は、一の時点の各状態における施策の適用対象数に対し、当該一の時点の各状態における施策の配分に応じた状態遷移によって各時点及び各状態に遷移してくる対象数を算出して推定対象数とする請求項６または７に記載の情報処理装置。
複数の対象について施策に対する反応を記録した学習データを取得する学習データ取得部と、
前記学習データに基づいて、前記遷移モデルを生成するモデル生成部と、
を備える請求項１から８のいずれか一項に記載の情報処理装置。
前記モデル生成部は、
前記学習データに含まれる前記複数の対象を各状態に分類する分類部と、
各状態の対象が施策に応じてどの状態に遷移したかに基づいて、状態遷移確率を算出する算出部と、
を備える請求項９に記載の情報処理装置。
前記分類部は、
前記学習データに含まれる前記複数の対象のそれぞれに対する施策及び反応に基づいて、当該対象の状態ベクトルを生成し、
前記状態ベクトルの分散が最大となる軸によって前記複数の対象を分類していくことにより、前記複数の対象を複数の状態に分類する
請求項１０に記載の情報処理装置。
コンピュータにより実行される、各状態にある対象数が施策に応じて遷移する遷移モデルにおける施策を最適化する情報処理方法であって、
施策の合計コストを制約するコスト制約を取得するコスト制約取得段階と、
２以上の状態における対象に対して一括して行うマス施策について、各状態に属すると予め定められた対象数と、前記マス施策が対象に届く到達率とに基づいて、各状態における前記マス施策の適用対象数を設定するマス施策設定段階と、
前記マス施策について前記到達率を最適化対象の変数として、全期間の総報酬に基づく目的関数を前記コスト制約を満たしつつ最大化する処理段階と、
を備える情報処理方法。
前記マス施策設定段階において、２以上の状態における対象に対して一括して行う前記マス施策について、各状態に属すると予め決定された対象数と、当該２以上の状態に共通の前記到達率とに基づいて、当該２以上の状態のそれぞれにおける前記マス施策の適用対象数を設定する請求項１２に記載の情報処理方法。
前記マス施策設定段階において、前記マス施策について、各時点及び各状態における予め決定された対象数と、前記マス施策が対象に届く到達率とに基づいて、各時点及び各状態における前記マス施策の適用対象数を設定し、
前記処理段階において、前記マス施策については各時点における前記到達率を最適化対象の変数とし、状態毎に行うダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、前記目的関数を前記コスト制約を満たしつつ最大化する
請求項１２または１３に記載の情報処理方法。
前記処理段階において、前記マス施策を除いて前記ダイレクト施策についての施策の配分を最適化対象の変数として、前記目的関数を最大化する施策の配分を算出し、
前記マス施策設定段階において、前記マス施策を除いて前記目的関数を最大化して得られた結果に基づいて、前記マス施策における前記予め定められた対象数を設定して各状態における前記マス施策の適用対象数を設定し、
前記処理段階において、前記マス施策については各時点における前記到達率を最適化対象の変数とし、状態毎に行うダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、前記目的関数を前記コスト制約を満たしつつ最大化する
請求項１４に記載の情報処理方法。
前記マス施策設定段階において、前記目的関数を前記コスト制約を満たしつつ最大化して得られた結果に基づいて、前記マス施策における前記予め定められた対象数を設定して各状態における前記マス施策の適用対象数を設定し、
前記処理段階において、前記マス施策については各時点における前記到達率を最適化対象の変数とし、状態毎に行うダイレクト施策については各時点及び各状態における施策の配分を最適化対象の変数として、前記目的関数を前記コスト制約を満たしつつ最大化する処理を再度実行する
請求項１２から１５のいずれか一項に記載の情報処理方法。
コンピュータを、各状態にある対象数が施策に応じて遷移する遷移モデルにおける施策を最適化する情報処理装置として機能させるプログラムであって、
実行されると当該コンピュータを、
施策の合計コストを制約するコスト制約を取得するコスト制約取得部と、
２以上の状態における対象に対して一括して行うマス施策について、各状態に属すると予め定められた対象数と、前記マス施策が対象に届く到達率とに基づいて、各状態における前記マス施策の適用対象数を設定するマス施策設定部と、
前記マス施策について前記到達率を最適化対象の変数として、全期間の総報酬に基づく目的関数を前記コスト制約を満たしつつ最大化する処理部と、
として機能させるプログラム。