JP6978871B2

JP6978871B2 - 販売促進システム、機械学習装置および機械学習用データ提供装置

Info

Publication number: JP6978871B2
Application number: JP2017150310A
Authority: JP
Inventors: 貴裕中原
Original assignee: 株式会社アスコン
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2021-12-08
Anticipated expiration: 2037-08-03
Also published as: JP2019028899A

Description

本発明は、例えば、広告、クーポン、イベント情報、商品入荷情報等の販売促進情報を消費者に提供する販売促進システム、機械学習装置、機械学習用データ提供装置およびプログラムに関する。詳しくは、コンピュータネットワークを利用して消費を誘発して販売を促進させる販売促進情報を消費者に提供する販売促進システム、その販売促進システムに用いられる機械学習装置および機械学習用データ提供装置に関する。

この種の販売促進システム、機械学習装置および機械学習用データ提供装置において、近年、人工知能を用いた機械学習により販売促進を図る傾向が出てきた。例えば、店舗内での顧客の商品に対する動的情報（立止り総時間とか接触総時間等）を収集して機械学習により販売促進を行うものがある（例えば特許文献１）。また、広告媒体としてのデジタルサイネージを閲覧している人物の撮影映像に基づいて機械学習により人物の属性（年齢等）を推定して広告効果測定を行うものがある（例えば特許文献２）。

特開２０１６―２１８８２１号公報特開２０１３―５８０６０号公報

特許文献１に記載のものは、店舗内での顧客接点に絞って人工知能を利用した機械学習により販売促進等を行うものである。また、特許文献２に記載のものは、デジタルサイネージでの顧客接点に絞って人工知能を利用した機械学習により広告効果測定を行うものである。つまり、何れのものも、１つの顧客接点に絞って人工知能を利用した機械学習により販売促進等を行うものである。

ところが、近年、消費者が広告等の販売促進情報に接する場面は、例えばＳＮＳや各種ＷＥＢサイトの閲覧時、特定のエリアに進入した消費者の携帯端末（スマートフォン等）への広告のプッシュ配信、デジタルサイネージからの広告配信等、多面的になっている。このような種々の場面で販売促進情報に接する消費者に対し、或る１場面の顧客接点に絞って人工知能を利用した機械学習を行ったとしても、販売促進効果に自ずと限界がある。

本発明は、かかる実情に鑑み考え出されたものであり、その目的は、或る１場面の顧客接点に絞って人工知能を利用した機械学習を行うことによる販売促進効果の限界を打破することである。

本発明のある局面に従う販売促進システムは、コンピュータネットワーク（例えば、インターネット７９）を利用して消費を誘発して販売を促進させる販売促進情報を消費者に提供する販売促進システムであって、
消費者の行動に伴う複数の場面毎（例えば、自宅、店舗アプリ起動時、ジオフェンシングエリア内への進入時、ＳＮＳログイン時、サイネージ６での報知エリア内への進入時、店内進入時）に対応した形態で前記販売促進情報を当該消費者に提供する複数場面毎情報提供手段（例えば、Ｓ６２、Ｓ７４、Ｓ９４、Ｓ１０４、Ｓ１１４、Ｓ１２４）と、
消費者の行動データに基づいて人工知能が機械学習を行い、その学習結果を前記複数の場面での前記販売促進情報の提供に反映させる機械学習手段（例えば、Ｓ２、Ｓ３３、Ｓ７２、Ｓ９２、Ｓ１０２、Ｓ１１２、Ｓ１２２、Ｓ１３０）と、を備え、
前記機械学習手段は、前記複数の場面で前記販売促進情報が提供された後の消費者の行動（例えば、ゴルフクラブ購入、ネックレス購入、〇〇デパート来店）に基づいて機械学習を行うものであり（例えば、Ｓ１１、図６（ｂ）の報酬テーブル、Ｓ６１、Ｓ７７）、消費者の行動環境内で収集された行動データをエージェントが観測して選択した販売促進情報を前記複数の場面で当該消費者に提供した後にその消費者が取った行動に従ってエージェントに報酬が与えられ（例えば、Ｓ１１、図６（ｂ）の報酬テーブル）、該報酬の累積を最大化する方策（例えば、π ^＊（ｓ _ｔ）：Choose ａ _ｔ ^＊ ifＱ ^＊（ｓ _ｔ，ａ _ｔ ^＊））を学習し、該学習された方策に基づいて前記販売促進情報を選択して消費者に提供する強化学習手段（例えば、Ｓ６１、Ｓ６２、Ｓ７７、Ｓ７８）を含み、
前記複数の場面は、第１場面（例えば、ＳＮＳへのログイン）と第２場面（例えば、サイネージ６での報知エリア内へ進入）とを含み、
前記エージェントは、前記第１場面に専属して販売促進情報を提供する第１場面専属エージェント（例えば、ＳＮＳ専属エージェント１１）と、前記第２場面に専属して販売促進情報を提供する第２場面専属エージェント（例えば、サイネージ専属エージェント１２）と、前記複数の場面を統括して全体最適化を図る統括エージェント（例えば、統括エージェント１５）とを含み、
前記強化学習手段は、前記第１場面専属エージェントおよび前記第２場面専属エージェントが前記統括エージェントと協調して動作するマルチエージェントシステム（例えば、図１に示すマルチエージェントシステム）を含む。

好ましくは、前記機械学習手段は、前記複数の場面で提供された複数の前記販売促進情報（例えば、ユーザテーブルやその他学習テーブルに格納された他行為ａ_ｉｊ）と、該複数の前記販売促進情報が提供された後の消費者の行動データ（例えば、ユーザテーブルに格納された状態ｓ）とに基づいて、機械学習を行うようにしてもよい（例えば、Ｓ６１、Ｓ６２、Ｓ７７、Ｓ７８、複雑ネットワーク学習テーブル、その他学習テーブル）。

好ましくは、前記第１場面専属エージェントと前記第２場面専属エージェントとに与えられる報酬が前記統括エージェントによって影響されるように制御する報酬制御手段（例えば、Ｓ１１、図６（ｂ）の報酬テーブル）をさらに含んでもよい。

本発明の他の局面に従う機械学習装置は、コンピュータネットワーク（例えば、インターネット７９）を利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面（例えば、自宅、店舗アプリ起動時、ジオフェンシングエリア内への進入時、ＳＮＳログイン時、サイネージ６での報知エリア内への進入時、店内進入時）毎に対応した形態で消費者に提供する複数場面毎情報提供手段（例えば、Ｓ６２、Ｓ７４、Ｓ９４、Ｓ１０４、Ｓ１１４、Ｓ１２４）を備えた販売促進システムに用いられる機械学習装置であって、
人工知能が機械学習を行い、その学習結果を前記販売促進情報の提供に反映させるための機械学習手段（例えば、Ｓ６１、Ｓ６２、Ｓ７７、Ｓ７８、複雑ネットワーク学習テーブル、その他学習テーブル）を備え、
前記機械学習手段は、前記複数の場面で提供された複数の前記販売促進情報（例えば、ユーザテーブルやその他学習テーブルに格納された他行為ａｉｊ）と、該複数の前記販売促進情報が提供された後の消費者の行動データ（例えば、ユーザテーブルに格納された状態ｓ）とに基づいて、機械学習を行うものであり、消費者の行動環境内で収集された行動データをエージェントが観測して選択した販売促進情報を前記複数の場面で当該消費者に提供した後にその消費者が取った行動に従ってエージェントが報酬を受け取り（例えば、Ｓ６０、Ｓ７６、図６（ｂ）の報酬テーブル）、該報酬の累積を最大化する方策（例えば、π ^＊（ｓ _ｔ）：Choose ａ _ｔ ^＊ ifＱ ^＊（ｓ _ｔ，ａ _ｔ ^＊））を学習し、該学習された方策に基づいて前記販売促進情報を選択して消費者に提供する強化学習手段（例えば、Ｓ６１、Ｓ６２、Ｓ７７、Ｓ７８）を含み、
前記複数の場面は、第１場面（例えば、ＳＮＳへのログイン）と第２場面（例えば、サイネージ６での報知エリア内へ進入）とを含み、
前記エージェントは、前記第１場面に専属して販売促進情報を提供する第１場面専属エージェント（例えば、ＳＮＳ専属エージェント１１）と、前記第２場面に専属して販売促進情報を提供する第２場面専属エージェント（例えば、サイネージ専属エージェント１２）とを含み、
前記強化学習手段は、前記第１場面専属エージェントおよび前記第２場面専属エージェントが、前記複数の場面を統括して全体最適化を図る統括エージェント（例えば、統括エージェント１５）と協調して動作するマルチエージェントシステムを含む。

本発明のさらに他の局面に従う機械学習用データ提供装置は、コンピュータネットワーク（例えば、インターネット７９）を利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面毎（例えば、自宅、店舗アプリ起動時、ジオフェンシングエリア内への進入時、ＳＮＳログイン時、サイネージ６での報知エリア内への進入時、店内進入時）に対応した形態で消費者に提供する複数場面毎情報提供手段（例えば、Ｓ６２、Ｓ７４、Ｓ９４、Ｓ１０４、Ｓ１１４、Ｓ１２４）を備えた販売促進システムに用いられる機械学習装置に対し、機械学習に必要なデータを提供する機械学習用データ提供装置であって、
前記機械学習装置は、消費者の行動環境内で収集された行動データをエージェントが観測して選択した販売促進情報を前記複数の場面で当該消費者に提供した後にその消費者が取った行動に従ってエージェントに報酬が与えられ（例えば、Ｓ１１、図６（ｂ）の報酬テーブル）、該報酬の累積を最大化する方策（例えば、π^＊（ｓ_ｔ）：Choose ａ_ｔ ^＊ifＱ^＊（ｓ_ｔ，ａ_ｔ ^＊））を学習し、該学習された方策に基づいて前記販売促進情報を選択して消費者に提供する強化学習手段（例えば、Ｓ６１、Ｓ６２、Ｓ７７、Ｓ７８）を含み、
前記複数の場面は、第１場面と第２場面とを含み、
前記エージェントは、前記第１場面（例えば、ＳＮＳへのログイン）に専属して販売促進情報を提供する第１場面専属エージェント（例えば、ＳＮＳ専属エージェント１１）と、前記第２場面（例えば、サイネージ６での報知エリア内へ進入）に専属して販売促進情報を提供する第２場面専属エージェント（例えば、サイネージ専属エージェント１２）とを含み、
前記第１場面専属エージェントが提供した販売促進情報を前記第２場面専属エージェントに提供すると共に、前記第２場面専属エージェントが提供した販売促進情報を前記第１場面専属エージェントに提供する販売促進情報提供手段（例えば、Ｓ８）と、を備えた。

好ましくは、前記販売促進情報を提供された消費者がその後取った行動を当該消費者に前記販売促進情報を提供した専属エージェントに提供する行動データ提供手段（例えば、Ｓ１０）と、
報酬を算出して前記第１場面専属エージェントと前記第２場面専属エージェントとに与える報酬算出付与手段（例えば、Ｓ１１、Ｓ２０〜Ｓ２４、図６（ｂ）の報酬テーブル）とをさらに備え、
前記報酬算出付与手段は、前記複数の場面を統括して全体最適化を達成するための報酬を算出する（例えば、Ｓ２０〜Ｓ２４、図６（ｂ）の報酬テーブル）ようにしてもよい。

本発明のさらに他の局面に従うプログラムは、コンピュータネットワーク（例えば、インターネット７９）を利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面（例えば、自宅、店舗アプリ起動時、ジオフェンシングエリア内への進入時、ＳＮＳログイン時、サイネージ６での報知エリア内への進入時、店内進入時）毎に対応した形態で消費者に提供する複数場面毎情報提供手段（例えば、Ｓ６２、Ｓ７４、Ｓ９４、Ｓ１０４、Ｓ１１４、Ｓ１２４）を備えた販売促進システムに用いられるコンピュータにより実行されるプログラムであって、
人工知能が機械学習を行い、その学習結果を前記複数の場面での前記販売促進情報の提供に反映させるためのステップ（例えば、Ｓ６０〜Ｓ６２、Ｓ７６〜Ｓ７８）を前記コンピュータに実行させ、
前記ステップは、前記複数の場面で提供された複数の前記販売促進情報（例えば、ユーザテーブルやその他学習テーブルに格納された他行為ａ_ｉｊ）と、該複数の前記販売促進情報が提供された後の消費者の行動データ（例えば、ユーザテーブルに格納された状態ｓ）とに基づいて、機械学習を行う。

販売促進システムの全体構成を示す図である。販売促進システム全体のハードウェア構成を示す図である。（ａ）はスマートフォンの制御回路を示すブロック図であり、（ｂ）は各種サーバの制御回路を示すブロック図である。（ａ）は統括エージェントのメインルーチンを示すフローチャートであり、（ｂ）は各専属エージェントとの通信処理のサブルーチンプログラムを示すフローチャートであり、（ｃ）は強化学習処理のサブルーチンプログラムを示すフローチャートである。（ａ）は消費者データベースに格納されているテーブルを示す図であり、（ｂ）はＩＤテーブルを示す図であり、（ｃ）は購入額テーブルを示す図である。（ａ）は報酬データベース１７に格納されているテーブルを示す図であり、（ｂ）は報酬テーブルを示す図であり、（ｃ）行為テーブルを示す図である。（ａ）はハウス専属エージェントのメインルーチンを示すフローチャートであり、（ｂ）は統括エージェントとの通信処理のサブルーチンプログラムを示すフローチャートであり、（ｃ）はユーザデータベースに格納されているテーブルデータを示す図である。（ａ）は強化学習処理のサブルーチンプログラムを示す図であり、（ｂ）はＳＮＳ専属エージェントのメインルーチンを示すフローチャートであり、（ｃ）は複雑ネットワーク理論に基づいたレコメンデーション処理のサブルーチンプログラムを示すフローチャートである。（ａ）はユーザベースネットワークの原理を示す図であり、（ｂ）はユーザデータベースに格納されているテーブルとその１つである複雑ネットワーク学習テーブルのデータを示す図である。（ａ）はその他学習テーブルのデータを示す図であり、（ｂ）はユーザテーブルのデータを示す図であり、（ｃ）は強化学習処理のサブルーチンプログラムを示す図である。（ａ）は販促コンテンツ報知処理のサブルーチンプログラムを示す図であり、（ｂ）は店舗アプリ専属エージェントのメインルーチンを示すフローチャートである。（ａ）はジオフェンシングアプリ専属エージェントのメインルーチンを示すフローチャートであり、（ｂ）はサイネージ専属エージェントのメインルーチンを示すフローチャートであり、（ｃ）は店内専属エージェントのメインルーチンを示すフローチャートである。（ａ）は店舗サーバ専属エージェントのフローチャートであり、（ｂ）はユーザデータベースに格納されているテーブルおよびその１つのその他学習テーブルのデータを示す図である。

本実施の形態における販売促進システムを図面に基づいて詳細に説明する。以下には、アプリケーションソフトウェアを単にアプリ、データベースをＤＢ、販売促進を販促、人工知能をＡＩと記載する。本実施の形態における販促システムはＡＩによる機械学習を利用したものであり、その全体システム構成を図１に基づいて説明する。

消費者の行動環境１内でユーザ（消費者ともいう）２が、種々の消費行動を行う。例えばＷＥＢサイトを訪問したユーザ２が或る商店での安売り情報を閲覧した場合に、そのユーザ２が自宅から出て街中を移動してその商店の外から店の入り口に進入して店内において各種商品を購入する。このようなユーザ２の消費行動環境を消費者の行動環境１として示している。

この販促システムにおけるＡＩでの機械学習は、主に強化学習が用いられている。強化学習とは、ある環境の状態に置かれたエージェントが、行動を選択したときに与えられる報酬をもとに、初期状態からゴールまでの累積報酬を最大化するような方策を獲得する仕組みのことである。強化学習ではＡＩの一種であるソフトウェアエージェント（以下「エージェント」という）と環境が相互作用することで学習を進めていく。ここにエージェントとはＡＩの一種であり、ユーザやソフトウェアなどと通信しながら自らがある程度の判断能力を持って自律的にふるまい永続的に活動するソフトウェアのことである。エージェントが環境に対して或る行為ａを行うことによりその環境の状態ｓが変化し或る目的状態に達することにより報酬ｒがエージェントに与えられる。エージェントは、この報酬ｒを最大化することを目的として状態ｓを入力として行為ａを出力する関数を学習する。

強化学習は次の単純なステップを繰り返すことで時間が進行していく。
１エージェントは環境から受け取った観測o（あるいは直接、環境の状態s）を受け取り、方策πに基いて環境に行為aを返す。
２環境はエージェントから受け取った行為aと現在の状態sに基いて、次の状態s′に変化し、その遷移に基いて次の観測o′と、報酬rと呼ばれる直前の行動の良し悪しを示す1つの数（スカラー量）をエージェントに返す。
３時間の進行：t←t+1
ここで←は代入操作を表す。

なお、この販促システムにおけるＡＩでは、上記強化学習を行う前に、販促コンテンツとそれを提供された消費者の行動データとビッグデータ等を含む既存の蓄積データを教師データとしてＡＩ（エージェント）に与えて教師あり学習を行っておくのが望ましい。

この販促システムでは、ユーザ２の各種行動場面において当該ユーザ２に行為ａ_１〜ａ_５を行う各種専属エージェント９〜１２、１４と、それら専属エージェントを統括する統括エージェント１５とを備えている。なお、店舗サーバ専属エージェント１３はユーザに対して行為を行うものではなく、店内での商品配列の最適化等の店作り用の提案を行うものである。これら各専属エージェント９〜１４と統括エージェント１５とが連携して販促を行うマルチエージェントシステムで本販促システムが構成されている。

ユーザ２の自宅において、ユーザ２がパーソナルコンピュータやスマートフォン５５を操作してＷＥＢサイトの閲覧や電子ショッピング等を行う。なお、自宅には後述するようにＡＩサーバ４１（図２参照）が設置されており、各種センサ（マイクを含む）４０から収集されたユーザ２の声やユーザ２の位置に基づいて各種スピーカ５８から情報提供やメッセージ等を発話する。これら情報提供やメッセージ等の発話は、ＡＩサーバ４１にインストールされているハウス専属エージェント９がユーザに対し行う行為ａ_１である。なお各種スピーカ５８に加えて液晶等の表示装置により映像を映し出すことによって情報発信してもよい。

次に、街中に出たユーザ２がスマートフォン５５を操作してアプリ４を起動したときに、アプリ専属エージェント１０がそのアプリ４を介してユーザ２に対し販促コンテンツ配信等の行為ａ_２を行う。このアプリ４は、後に詳しく説明するが、或る店で商品を購入した時のポイントを累積記憶したり当該店における販促コンテンツを表示したりする店舗アプリと、街中を移動するユーザ２が所定のエリア内に進入したときにそのユーザ２に販促コンテンツをプッシュ配信するためのジオフェンシングアプリとがある。ゆえに、アプリ専属エージェント１０のその２種類のアプリに合わせて、店舗アプリ専属エージェントとジオフェンシングアプリ専属エージェントとの２種類が用意されている。街中を移動するユーザ２が例えばＳＮＳ５にログインしたときに、ＳＮＳ専属エージェント１１がそのＳＮＳ５を介してユーザに対し販促コンテンツ配信等の行為ａ_３を行う。街中あるいは店頭付近に設置されたサイネージ６による報知エリア内にユーザ２が進入したときに、サイネージ専属エージェント１２がそのサイネージ６を介してユーザ２に対し販促コンテンツ配信等の行為ａ_４を行う。

店の入り口から進入したユーザ２のスマートフォン５５と通信することにより、店舗サーバ５０が来店客数の計測、ユーザ２の店内での動線、行動、滞在時間、リピート回数等を集計してその集計データを店のスタッフに表示する。また、店舗サーバ専属エージェント１３がそれら集計データや顧客属性データ、店舗データ等の一般的ビッグデータに基づいてデータマイニング等を行い、商品配置の最適化等の店づくり用のメッセージを店舗サーバ５０により表示させる。更に、店内においてスマートフォン５５と交信することにより、ユーザ２の店内移動を検知して移動場所に応じた店内プッシュ配信８をユーザ２のスマートフォン５５に対して行う。その店内プッシュ配信８が店内専属エージェント１４の行為ａ_５である。

各種専属エージェント９〜１２、１４がユーザ２に対して行った行為ａ_１〜ａ_５が統括エージェント１５側の消費者ＤＢ１６に収集されて格納される。そして、行動環境１内での消費者２の状態が変化した場合、例えば消費者２がある店を訪問した場合やある商品を購入した場合に、ユーザ２がどのような商品をいくらの金額で購入したか等の消費者の行動データが消費者ＤＢ１６に入力されてその金額等が記憶される。そして、その行動データが状態ｓとして統括エージェント１５により各専属エージェント９〜１４へ送信される。そして、統括エージェント１５は、報酬ＤＢ１７に格納されている報酬テーブルを参照して、所定の専属エージェントに対して行為に見合った報酬ｒ１〜ｒ５を送信する。

このように、本実施形態における販促システムでの強化学習では、全体を統括する統括エージェント１５が報酬を決めて各専属エージェント９〜１４に与えている点が特徴である。従来から一般的な強化学習においては、単独のエージェント（専属エージェント）が行為を行ってその結果である状態に応じてあらかじめ定められた報酬を得るように構成されている。

ところが、本実施の形態における販促システムにおいては、消費者の行動環境１におけるユーザ２の種々の場面で行為を行う各種専属エージェントが状態ｓに応じて予め定められた報酬を得るようにした場合には、各専属エージェントが自分のテリトリーのみでの最適化を学習することとなり、全体最適化とはならない不都合が生ずる。例えば、サイネージ専属エージェント１２単独で考えた場合に、サイネージ専属エージェント１２の使命はユーザ２を商店に誘導することである。よって、販促コンテンツとしてある商店への訪問を促すメッセージをサイネージ６を介してユーザに報知する行為を行ってその商店にユーザ２が訪れれば高い報酬が得られることとなる。ところが、本実施形態における販促システムのように、各場面毎にそれぞれの専属エージェントがユーザ２に対して行為を行う場合、例えばハウス専属エージェント９が高額のゴルフクラブの情報をユーザ２に報知してユーザ２がそのゴルフクラブを購入するために商店に移動する最中にサイネージ６によって地酒フェアを行っている商店の情報がユーザ２に報知されたとする。

ユーザ２はそれを見てその店を訪問して地酒を購入した結果、高額ゴルフクラブを購入するための資金が不足してしまい、ゴルフクラブの購入をあきらめた場合、全体としてユーザ２の消費の促進にはなっていない。このように、各専属エージェントが単独で強化学習を行った場合には部分最適化に走り全体最適化にならないという欠点が生ずる。そこで、この販促システムでは、全体を統括する統括エージェント１５が全体を見て消費の促進になったか否かで報酬を決めて各専属エージェントに与えるように制御している。

各専属エージェント９〜１２、１４が行った行為ａ_１〜ａ_５は消費者ＤＢ１６に収集されて格納されるとともに他の専属エージェントが行った行為が他行為ａとしてそれぞれの専属エージェントに配信される。例えば、ハウス専属エージェント９には他行為としてアプリ専属エージェントの行為ａ２、ＳＮＳ専属エージェントの行為ａ_３、サイネージ専属エージェントの行為ａ_４、店内専属エージェント１４の行為ａ_５が配信される。

次に、販促システムの全体ハードウェア構成を図２に基づいて説明する。ユーザ宅５６には、ＡＩサーバ４１、各種センサ４０、各種スピーカ５８およびユーザＤＢ５７がそれぞれ通信可能に設置されている。各種センサ４０は、ユーザの移動および居場所を検知する人感センサ、温度や湿度を検知するセンサおよびユーザの音声を入力するマイクが含まれている。ＡＩサーバ４１にはハウス専属エージェント９がインストールされている。またＡＩサーバ４１にはネット上を巡回して情報を収集するクローラもインストールされている。このＡＩサーバ４１がインターネット７９に接続されており、クローラがインターネット上を巡回して各種情報を収集し、その収集された情報の中からユーザにマッチする情報のみをハウス専属エージェント９が選び出してユーザＤＢ５７に格納する。このユーザＤＢ５７に格納されたデータおよび各種センサ４０から入力されたデータに基づいて、ハウス専属エージェント９の発話機能によりユーザにマッチするメッセージや情報を各種スピーカ５８から報知する。

ＳＮＳ業者５９には、ＷＥＢサーバ４２、ＡＩサーバ４３、ユーザＤＢ６０および販促ＤＢ６１が互いに通信可能に設置されている。ＷＥＢサーバ４２とＡＩサーバ４３とはインターネット７９に接続されている。ユーザ２がスマートフォン５５またはパーソナルコンピュータ５４を操作してＳＮＳにログインした場合にＷＥＢサーバ４２がそのＷＥＢ閲覧のための制御を行う。またＷＥＢサーバ４２は、販促ＤＢ６１に格納されている各種ＳＮＳ広告等の販促コンテンツの中からログインしているユーザにマッチする販促コンテンツを表示する。ユーザＤＢ６２は、会員ユーザの各種行動データが格納されている。行動データとしては、トラッキング型クッキーで収集した他ＷＥＢサイトへの閲覧履歴やユーザ２が頻繁に訪問する地域等のロケーションデータである。これらのデータに基づいてＡＩサーバ４３にインストールされているＳＮＳ専属エージェント１１が強化学習を行いユーザ２にとって最適な販促コンテンツを販促ＤＢ６１から選び出して行為ａ_３としてＷＥＢサーバ４２を介してユーザに提供する。

図１に基づいて説明した店舗アプリがユーザ２のパーソナルコンピュータ５４およびスマートフォン５５にインストールされている。ユーザ２がそれらパーソナルコンピュータ５４またはスマートフォン５５で店舗アプリを起動させれば店舗アプリサーバ４４が各種情報をパーソナルコンピュータ５４またはスマートフォン５５へ送信する。前述した店舗アプリ専属エージェントがＡＩサーバ４５にインストールされている。店舗アプリサーバ４４、ＡＩ４５、ユーザＤＢ６２および販促ＤＢ６３が互いに通信可能に接続されている。店舗アプリサーバ４４とＡＩサーバ４５とがインターネット７９に接続されている。ユーザＤＢ６２には店舗アプリをインストールしている各ユーザ２毎の購買履歴データ等が格納されている。また販促ＤＢ６３には店舗での販売商品情報や特売情報、レシピ、クーポン、プレゼント応募情報等の各種販促コンテンツが格納されている。ＡＩサーバ４５にインストールされている店舗アプリ専属エージェントは、前述した強化学習を行って、各ユーザ毎に最適な販促コンテンツを選び出して店舗アプリを介してユーザ２に提供する。

図１に基づいて説明したジオフェンシングアプリがユーザ２のスマートフォン５５にインストールされている。そのスマートフォン５５に販促コンテンツを送信するためのアプリがジオフェンシングサーバ４６にインストールされているとともにジオフェンシングアプリ専属エージェントがＡＩサーバ４７にインストールされている。それらサーバ４６、４７に対してユーザＤＢ６４と販促ＤＢ６５とが互いに通信可能に接続されている。ジオフェンシングアプリをインストールしているスマートフォン５５を所持したユーザ２が、予めジオフェンシングサーバ４６に登録されているプッシュ配信エリアに進入した場合に予め登録されている販促コンテンツを販促ＤＢ６５から選びだしてそのスマートフォン５５にプッシュ配信する。

ユーザＤＢ６４にはユーザ毎の購買履歴データ等が格納されており、ジオフェンシングアプリ専属エージェントが強化学習を行って購買履歴データ等に基づいて最適な販促コンテンツをユーザのスマートフォン５５に提供する。例えば、既購入商品で再購入時期が来るものを金額の高い順に優先して当該ユーザのスマートフォン５５に表示させる制御を行う。なお、店舗アプリとジオフェンシングアプリとを別々にスマートフォン５５等にインストールするのに代えて、両アプリを一体のものに構成して一括スマートフォン５５にインストールできるようにしてもよい。

サイネージ６に表示させるための販促コンテンツが販促ＤＢ７０に格納されている。その販促ＤＢ７０とユーザＤＢ６９とサイネージサーバ４８とＡＩサーバ４９とが互いに通信可能に接続されている。サイネージサーバ４８とＡＩサーバ４９とがインターネット７９を経由してサイネージコントローラ６８と通信可能に接続されている。オペレータがサイネージサーバ４８を操作してサイネージ６に表示させるための販促コンテンツをあらかじめ販促ＤＢ７０に格納しておく。スマートフォン５５のブルートゥース（登録商標）をオンにしているユーザがサイネージ６による報知エリア内に進入した場合に、そのスマートフォン５５がビーコン６６の識別ＩＤを受信しその識別ＩＤを無線ＬＡＮルータ６７、サイネージコントローラ６８、インターネット７９を経由してサイネージサーバ４８およびＡＩサーバ４９に送信される。またスマートフォン５５はそのビーコン６６の識別ＩＤの送信とともにユーザＩＤもサイネージサーバ４８およびＡＩサーバ４９へ送信する。なお、ＬＡＮはLocal Area Networkのことである。

ＡＩサーバ４９にインストールされているサイネージ専属エージェント１２は、送信されてきたユーザＩＤに基づいてユーザＤＢ６９を検索してユーザを特定し、そのユーザについての強化学習を行い、当該ユーザに最適な販促コンテンツを販促ＤＢ７０から選択して、その販促コンテンツをインターネット７９、サイネージコントローラ６８を経由してサイネージ６により表示させる。

小売店７１には、店舗サーバ５０、ＡＩサーバ５１、熱感知センサ７２、無線ＬＡＮルータ６７、ユーザＤＢ７３、販促ＤＢ７４、プッシュ配信サーバ５２およびビーコン６６が設置されている。ＡＩサーバ５１には、図１に基づいて説明した店舗サーバ専属エージェント１３と店内専属エージェント１４とがインストールされている。店舗サーバ５０とＡＩサーバ５１とがインターネット７９に接続されている。ユーザ２が店の入り口に進入した場合にそのユーザを熱感知センサ７２が検出して店舗サーバ５０へ検出信号を送信する。店内の要所要所に設置されたビーコン６６の通信エリア内にユーザ２のスマートフォン５５が進入した場合に、そのスマートフォン５５がブルートゥース通信によってビーコンから発信された識別ＩＤを受信し、その識別ＩＤを無線ＬＡＮルータ６７に送信し、その識別ＩＤが店舗サーバ５０、ＡＩサーバ５１およびプッシュ配信サーバ５２に送信される。

店内の要所要所に設置された各ビーコン６６から送信されてくるそれぞれの識別ＩＤを店舗サーバ５０が受信することにより、店内でのユーザ２の動線、行動、滞在時間とを集計することができる。またユーザが当該小売店７１内において商品を購入した場合にはその購入商品の種類と購入金額とユーザＩＤとが店舗サーバ５０およびＡＩサーバ５１に送信される。このユーザ２の購入データが消費者の行動データとして統括管理業者７５の統括管理用ＡＩサーバ５３へ送信され、消費者ＤＢ７６に格納される。

また、ＡＩサーバ５１にインストールされている店舗サーバ専属エージェント１３は、店舗サーバ５０によって集計されたユーザ毎のデータに基づいて、また一般ビッグデータＤＢ７７に格納されている天候データ等のビッグデータに基づいて、データマイニングを行って売れ筋商品パターンや売れ筋商品組合わせを見つけ出し、商品の配置等の店づくり用のメッセージを店舗サーバ５０に表示させる。さらにＡＩサーバ５１にインストールされている店内専属エージェント１４は、各ビーコン６６から送られてくるそれぞれの識別ＩＤによりユーザの居場所を特定し、それぞれの居場所に応じた当該ユーザに最適な販促コンテンツを販促ＤＢ７４から選び出してプッシュ配信サーバ５２を経由してユーザのスマートフォン５５に表示させる。この販促ＤＢ７４には、例えば、当該ユーザに最適なクーポン、当該ユーザの過去の購入履歴に応じたリピート商品の提案、何も購入しなかったユーザに対して再訪問を誘導するための次回に使えるクーポン等が格納されている。

統括管理業者７５の統括管理用ＡＩサーバ５３には、図１に基づいて説明した統括エージェント１５がインストールされている。この統括管理用ＡＩサーバ５３に対して消費者ＤＢ７６と報酬ＤＢ１７とが接続されている。また統括管理用ＡＩサーバ５３はインターネット７９に接続されている。

更に、インターネット７９には一般ビッグデータＤＢ７７とロケーションＤＢ７８とが接続されている。一般ビッグデータＤＢ７７には前述した天候情報や催事の情報等が格納されている。ロケーションＤＢ７８には、ユーザＩＤ毎に当該ユーザが移動した地理的位置データ（ロケーションデータ）が格納されている。

次に、スマートフォン５５の制御回路のハードウェア構成を説明する。制御中枢としてのＣＰＵ（Central Processing Unit）２３、ＣＰＵ２３のワークエリアであるＲＡＭ（Read Only Member）２４、各種機能を実行するためのプログラムを保存したＲＯＭ２５、ＥＥＰＲＯＭ（Electronically Erasable and Programmable Read Only Memory）２６がバス２７により接続されている。ＥＥＰＲＯＭ２６には、インターネット７９を通じてダウンロードしたアプリ等が記憶されている。

バス２７は、インタフェース部２８を介して種々のデバイスが接続されている。例えば、カメラ入力部２９、表示部３０、基地局と無線通信してインターネット７９を介してサーバ等とデータ通信する無線通信処理部３１、入力操作部３２、ユーザが音声により通話をするための音声出力部３３と音声入力部３４、衛星からのＧＰＳ情報と基地局からの電波と無線ＬＡＮアクセスポイントからの無線電波とに基づいて、現在位置を取得するための位置情報取得部３５、Wi-FiやBluetooth（登録商標）、Wi-Fi Direct、Zigbee、Zwave、Ant+などを用いて通信する無線通信インタフェース部３６などが、インタフェース部２８に接続されている。

次に、図３（ｂ）に基づいて、各種サーバ４１〜５３およびパーソナルコンピュータ５４の制御回路のハードウェア構成を説明する。前述と同様に、ＣＰＵ８０、ＲＡＭ８１およびＲＯＭ８２がバス８３により接続されている。そのバス８３が接続されているインタフェース部８４には、インターネット７９等との通信部８５、オペレータに映像や情報を表示する表示部８６、オペレータからの操作を受付ける入力操作部８７が接続されている。ＡＩサーバ４１、４３、４５、４７、４９、５１、５３は、ノイマン型の一般的なコンピュータを用いているが、ニューラル・ネット・プロセッサー（ＮＮＰ）を用いてもよい。ＮＮＰのチップ上には本物のニューロンをモデルにした「人工ニューロン」が多数搭載されており、各ニューロンはネットワークでそれぞれ連携し合う。また、「量子アニーリング方式」を採用した量子コンピュータを用いてもよい。これにより、機械学習における最適化計算の所要時間を大幅に短縮できる。

次に図４〜図６に基づいて統括エージェント１５の制御動作を説明する。統括エージェント１５には、前述したように、各専属エージェント９〜１４に与える報酬ｒ１〜ｒ５を制御することにより各専属エージェント９〜１４をコントロールして全体最適化を図るものである。図４（ａ）を参照してステップ（以下単にＳという）１により各専属エージェントとの通信処理を行い、Ｓ２により強化学習処理を行い、制御がＳ１に戻る。各専属エージェントとの通信処理の具体的制御動作を図４（ｂ）に基づいて説明する。Ｓ５により仮ＩＤと行為ａ_ｉｊを受信したか否か判定する。受信していない場合にはこの通信処理が終了してリターンしＳ２に制御が移行する。

図１に基づいて説明したように、各専属エージェント９〜１２、１４はユーザ毎に最適と思われる行為ａ_１〜ａ_５を行うのであり、その行為を受けたユーザ２がその後どのような行動を取ったかを統括エージェント１５が特定してその行動を状態ｓとして各専属エージェント９〜１４に配信する。よって、各専属エージェント９〜１４と統括エージェント１５との間で同一のユーザを同定する識別子が必要となる。それを満たす１番シンプルな方法としては、各専属エージェント９〜１４および統括エージェント１５の全てに共通する統一ＩＤを各ユーザ毎に割り振ることである。しかし、そのように統一ＩＤを割り振った場合には、ある専属エージェントと他の専属エージェントとの間で統一ＩＤに基づいた名寄せが可能となり、ユーザ毎に個人情報を横流しするというプライバシー上の問題が生ずる虞がある。しかも、ＳＮＳ５等にアカウント登録しているユーザ２の場合には当該ＳＮＳ固有のユーザＩＤを既に保有している。小売店７１や店舗アプリをインストールしているユーザ２においても同様に固有のユーザＩＤを既に登録している場合がある。そこで本実施の形態においては、各専属エージェント毎の固有のユーザＩＤの他に各専属エージェント毎の仮ＩＤをユーザ毎に登録してもらい、その専属エージェント毎の各仮ＩＤと統一ＩＤとを紐づけるようにしている。

図５に示すように、消費者ＤＢ１６に格納されているＩＤテーブルにおいて、例えばユーザ山田太郎がハウス用仮ＩＤ、店舗アプリ用仮ＩＤ、ジオフェンシング用仮ＩＤ、ＳＮＳ用仮ＩＤ、サイネージ用仮ＩＤ、店舗用仮ＩＤをそれぞれ登録してそれらの仮ＩＤを統括管理用ＡＩサーバ５３へ送信する。統括管理用ＡＩサーバ５３では、その送信されてきたユーザ山田太郎の各仮ＩＤに対し統一ＩＤを割り振ってそれぞれ紐づけてＩＤテーブルに記憶する。このように構成することにより、前述した名寄せによるユーザのプライバシー問題を解決することができる。しかも、統括管理用ＡＩサーバ５３においては、各専属エージェント９〜１４におけるそれぞれの仮ＩＤまでは知得できるがその仮ＩＤから専属エージェント固有のユーザＩＤを知得することができないため、その固有のユーザＩＤに紐づいたユーザの個人情報を不正に入手することが防止できる。

図５（ｂ）に示すように、仮ＩＤは例えばhttp://abcsf27aのように、送信元のインターネット上の住所である「http://abc」と、ユーザのＩＤである「sf27a」とから成り立っており、この仮ＩＤ単独でその送信元の専属エージェントを特定することができる。

図４（ｂ）に戻り、仮ＩＤと行為ａ_ｉｊを受信した場合にＳ５によりＹＥＳと判定されて制御がＳ６へ進み、ＩＤテーブルを検索して専属エージェントと統一ＩＤとを特定する処理が行われる。例えば受信した仮ＩＤがhttp://jkmec89cであった場合に図５（ｂ）のＩＤテーブルを参照して、ＳＮＳ専属エージェントから送られてきた仮ＩＤであって統一ＩＤが０００００２であることが分かる。次にＳ７により、その特定された専属エージェントの統一ＩＤエリア（行為テーブルのエリア）に行為ａ_ｉｊを記憶するとともにＴ期間を経過した古い行為ａ_ｉｊの記憶を消去する処理が行われる。例えばＳＮＳ専属エージェントから送られてきた統一ＩＤが０００００２の仮ＩＤの場合には図６（ｃ）を参照して行為テーブル（Ｔ期間内）における統一ＩＤが０００００２の行でＳＮＳ専属エージェントの列で特定されるエリアにａ_３２を記憶する。そしてその行為テーブルではＴ期間を経過した古いデータが消去される。

次に制御がＳ８へ進み、受信した行為ａ_ｉｊを他の専属エージェントへ送信する制御が行われる。例えば、受信した仮ＩＤがＳＮＳ専属エージェント１１からのものであった場合にはＳＮＳ専属エージェント１１以外の専属エージェントであるハウス専属エージェント９、店舗アプリ専属エージェント、ジオフェンシング専属エージェント、サイネージ専属エージェント１２および店内専属エージェント１４に対して受信した行為ａ_３２を送信する。次に制御がＳ９へ進み、仮ＩＤと消費者の行動データとを受信したか否か判定され、受信していない場合にはこの各専属エージェントとの通信処理がリターンして制御がＳ２へ移行する。一方、いずれかの専属エージェントから仮ＩＤと消費者の行動データとを受信した場合には制御がＳ１０へ進み、その受信した行動データを状態ｓとして各専属エージェントへ送信する。この行動データとは例えばユーザがゴルフクラブを購入した等のデータである。このＳ１０では、どのユーザの行動データかを各専属エージェントが分かるようにその行動を起こしたユーザの仮ＩＤを各専属エージェントへ送信する。例えば、Ｓ９により受信したと判定された仮ＩＤがhttp://qrsp32qcであった場合には統一ＩＤが０００００１のユーザであるために、そのユーザを特定できる仮ＩＤ、すなわち、ハウス専属エージェントに対してhttp://abcsf27a、店舗アプリ専属エージェントに対してhttp://defak8b3、ジオフェンシング専属エージェントに対してhttp://ghim2s2a、ＳＮＳエージェントに対してhttp://jkmrn33c、サイネージ専属エージェント１２に対してhttp://nopt6a3c、店舗サーバ専属エージェント１３と店内専属エージェント１４に対してhttp://qrsp32gcを送信する。次に制御がＳ１１へ進み、報酬テーブルを参照して報酬ｒを算出して該当する専属エージェントへ送信する。この報酬テーブルは図６（ｂ）に示されている。次に制御がＳ１２へ進み、Ｓ５により受信したと判定された行動データが購入データの場合にその購入金額を購入額テーブル（図５（ｃ）参照）に加算更新する。例えば統一ＩＤが０００００１のユーザが平成２９年５月に４０００円の地酒を購入した場合には購入額テーブルを参照して統一ＩＤが０００００１の行におけるＨ２９．５の行の「５１３２０円」が「５５３２０円」に加算更新されることとなる。

次に、Ｓ２に示した強化学習処理のサブルーチンプログラムのフローチャートを図４（ｃ）に基づいて説明する。Ｓ２０により学習更新時期か否か判定される。統括エージェント１５では例えば１ヶ月毎に学習更新を行うように設定されている。例えば月末が学習更新時期である。学習更新時期でない場合にはＳ２０によりＮＯと判定されてこの強化学習処理がリターンして制御がＳ１へ戻る。一方月末が到来した場合にはＳ２０によりＹＥＳと判定されて制御がＳ２１へ進み、購入額テーブル（図５（ｃ）参照）を参照して当月（例えばＨ２９．５）おの平均購入額Ｇ_ｔを算出する。図５（ｃ）に示す購入額テーブルの場合には例えば５１２０１円となっている。次にＳ２２により、報酬ｒ_ｔ＝（Ｇ_ｔ−Ｇ_ｔ−１）／Ｃを計算する。このＣは定数であり例えば１０００等の数字である。またｔは月数を示し５月の場合には５となる。したがって、５月の報酬ｒ_５＝（Ｇ_５−Ｇ_４）／１０００＝（５１２０１−５０００１）／１０００＝１．２となる。

次にＳ２３へ進み、ＰＤ学習により最適政策π^＊に従った行為データａ１〜ａ４を求める制御が行われる。時間ｔのときの状態をｓ_ｔとすると一般的に最適政策は、
π^＊（ｓ_ｔ）：Choose ａ_ｔ ^＊ifＱ^＊（ｓ_ｔ，ａ_ｔ ^＊）
の式で表される。ＰＤ学習とはTemporal Differelce学習のことであり、モデルフリーの手法を用いてＱ値を推定するものである。

また行為データａ１〜ａ４は図６（ｂ）に示す報酬テーブルに示されたａ１〜ａ４のことであり、各専属エージェントへの報酬ｒを算出する際の係数（定数）のことである。そしてＳ２４により報酬テーブルのａ１〜ａ４をＳ２３により求めた値に更新する制御が行われる。

このように、統括エージェント１５は、Ｓ２２により求めた報酬ｒ_ｔすなわち今月のユーザの平均購入額から先月のユーザの平均購入額を引いた差が大きくなるように最適政策π^＊を決定してその最適政策π^＊に従って行為データａ１〜ａ４を更新して各専属エージェントへの最適な報酬ｒを学習する。その結果、各専属エージェントが部分最適化に走ることなく全体最適化すなわち全ユーザにおける平均購入額の最大化を達成することができる。

図５（ａ）を参照して、統括エージェント１５側の消費者ＤＢ１６にはＩＤテーブルと購入額テーブルとが記憶されている。ＩＤテーブルとは図５（ｂ）に示すように、各専属エージェント用の仮ＩＤとそれに対応する統一ＩＤとが紐づけで記憶されている。また購入額テーブルは図５（ｃ）に示すように、ユーザ毎すなわち統一ＩＤ毎に各月のトータルの購入額が記憶されており、購入額テーブルの最終行に全ユーザの平均購入額が月毎に記憶されている。

図６（ａ）を参照して報酬ＤＢ１７には、報酬テーブルと行為テーブルとが記憶されている。報酬テーブルは図６（ｂ）に示すように状態ｓの欄と報酬ｒの欄とからなる。状態ｓすなわちユーザの行動が金額Ｋの商品を購入した場合には、購入前Ｔ期間内に購入対象をレコメンドした各専属エージェントへの報酬を、
ｒ＝ａ１・Ｋ／（Ｒ+購入対象レコメンド回数）で計算する。Ｒはレコメンドした品目数である。この式からわかるように、専属エージェントがレコメンドした品目数が少なくかつユーザの購入対象（例えばゴルフクラブ）のレコメンド回数が少ないほど、報酬ｒが大きくなる。

また購入前Ｔ期間内に購入対象をレコメンドしなかった各専属エージェントへの報酬を、
ｒ＝−ａ２・ｋ・Ｒで算出する。ここに・は乗算を意味している。

また状態ｓとしてユーザが来店したが購入しなかった場合には、来店前Ｔ周期内に来店を促した各専属エージェントの報酬ｒ＝ａ３、来店前Ｔ周期内に来店を促さなかった各専属エージェントへの報酬ｒ＝−ａ４とする。

行為テーブルは図６（ｃ）に示すように、ユーザ毎すなわち統一ＩＤ毎に各専属エージェントが行った行為が記されている。例えば統一ＩＤ０００００１のユーザに対しては、ハウス専属エージェント９がａ_１１，店舗アプリ専属エージェントがａ_２１、ＳＮＳ専属エージェントがａ_３１、店内専属エージェントがａ_６１の行為を行っている。この行為テーブルに記憶されるデータの記憶期間はＴ期間であり、Ｔ期間を経過した古いデータは記録から削除される。また各専属エージェントがユーザに対して行った行為ａ_ｉｊは，例えばゴルフクラブの商品を含む販促コンテンツをユーザに提示したとか、○○デパートがコスメフェアを開催している旨の販促コンテンツを提示した等である。そして、ユーザがゴルフクラブを購入した場合にはそのゴルフクラブをレコメンドする販促コンテンツをユーザに提示した各専属エージェントに対して報酬が与えられる。またユーザが○○デパートを訪問した場合には○○デパートのレコメンドを含むコンテンツをユーザに提示した各専属エージェントに対して報酬を与える。

次に、ユーザ宅５６のＡＩサーバ４１にインストールされているハウス専属エージェント９の制御動作を説明する。まず図７（ａ）に基づいてハウス専属エージェントのメインルーチンを説明する。Ｓ３０によりクローラが収集したデータ中にユーザにマッチするものが有るか否か判定される。ない場合には制御Ｓ３２に進むが、有る場合にはＳ３１によりユーザＤＢ５７にそのマッチするデータが格納される。その状態が図７（ｃ）のユーザＤＢ５７に格納されているテーブルデータにおける「収集格納データ」の列に示されている。ユーザ宅５６には、山田太郎、山田花子、山田さくらの三人家族であり、例えば山田太郎に対してはマッチする収集データとして○○商店ゴルフ大安売り、〇〇デパート地酒フェアー等のデータである。次にＳ３２に進み、統括エージェントとの通信処理が行われ、Ｓ３３により強化学習処理が行われた後、制御Ｓ３０へ戻る。

次にＳ３２に示された統括エージェントとの通信処理のサブルーチンプログラムのフローチャートを図７（ｂ）に基づいて説明する。Ｓ３８により、ハウス専属エージェント９以外の専属エージェント１０〜１２、１４がユーザに対し行なった他行為ａを統括エージェント１５から受信したか否か判定され、受信していない場合には制御がＳ４０に進むが、受信した場合にはＳ３９によりその受信した他行為ａをユーザＤＢ５７に格納する処理が行われる。その結果、図７（ｃ）に示すように、ユーザＤＢ５７のテーブルデータ中の「他行為ａ_ｉｊ」の列に他行為が記憶される。例えば、山田太郎の場合には、店舗アプリ専属エージェントが行なった他行為ａ_２１、ＳＮＳ専属エージェント１１が行なった他行為ａ_３１、店内専属エージェント１４が行なった他行為ａ_６１が記憶されている。

Ｓ４０によりユーザの状態ｓを統括エージェント１５から受信したか否か判定される。受信していない場合には制御がＳ４２へ進むが、受信した場合にはＳ４１によりユーザＤＢ５７にその受信した状態ｓが格納される。その状態が図７（ｃ）のテーブルデータ中の「状態ｓ」の列に示されている。例えば山田太郎の場合には状態ｓとして「ゴルフクラブ購入」となっている。

次にＳ４２により、ハウス専属エージェント９がユーザ２に対し行為ａ_１ｊを行ったか否か判定する。行っていない場合にはこの統括エージェントとの通信処理が終了してリターンする。ハウス専属エージェント９は、ユーザ２と対話する機能を有しており、例えば山田太郎の「ゴルフクラブの安売りを行っているところないかなあ」の問いかけに対して、現時点での最適政策π^＊に従って最適な行為、例えば「○○商店でゴルフの大安売りを行っています」のメッセージを山田太郎に報知する。このような行為ａ_１ｊが行われた場合には、Ｓ４２によりＹＥＳと判定されて制御がＳ４３へ進み、当該ユーザの仮ＩＤとを行為ａ_１ｊとをエージェント１５へ送信するとともにａ_１ｊを自行為としてユーザＤＢ５７に格納する処理がなされた後リターンする。自行為がユーザＤＢ５７に格納された状態が図７（ｃ）に示されている。例えば山田太郎の場合には自行為ａ_１ｊの列においてａ_１１が格納されている。

現時点における最適政策π^＊に従った行為ａ_１ｊを求める際には、他行為ａ_ｉｊとして既に他の専属エージェントがユーザに対し行った行為も考慮して行われる。例えば山田太郎の場合には、他行為として既にａ_２１，ａ_３１，ａ_６１が行われているために、それらをも考慮して自行為を求める。後述するＳ６１による行為を求める場合も同様である。この点が本販促システムにおける重要な特徴点である。一般的な強化学習の場合には、単独のエージェントが行なった行為に対して報酬ｒが与えられるのが一般的であるが、本販促システムの場合には複数の専属エージェント９〜１２、１４が連携して１人のユーザ（山田太郎）に対して行為を行うために、他の専属エージェントが既に行った行為をも考慮して次に自分が行う自行為を決定するのである。

また、ユーザＤＢ５７には、ハウス用仮ＩＤも格納されている。例えば山田太郎の場合にはhttp://abcsf27aとなっている。

次にＳ３３に示された強化学習処理のサブルーチンプログラムを図８（ａ）に基づいて説明する。Ｓ６０により統括エージェント１５から報酬ｒを受信したか否か判定され、受信してない場合には、この強化学習処理がリターンする。報酬ｒを受信すれば制御がＳ６１へ進み、ＴＤ学習により最適政策π^＊に従った行為ａ_１ｊ求める処理が行われる。次にＳ６２によりその求めたａ_１ｊをユーザに報知するとともにユーザＤＢ５７に格納する処理が行われる。

次にＳＮＳ専属エージェント１１の制御動作を説明する。図８（ｂ）に基づいてまずＳＮＳ専属エージェント１１のメインルーチンを説明する。Ｓ７０により複雑ネットワーク理論に基づいた販促処理が行われる。次にＳ７１により統括エージェントとの通信処理が行われ、次にＳ７２により強化学習処理が行われ、次にＳ７３によりユーザのログインがあったか否か判定される。ない場合には制御Ｓ７０へ戻るがログインがあった場合には制御がＳ７４へ進み、販促コンテンツ報知処理が行われた後制御がＳ７０へ戻る。

次にＳ７０に示された複雑ネットワーク理論に基づいた販促処理のサブルーチンプログラムのフローチャートを図８（ｃ）に基づいて説明する。Ｓ５０により仮想コミュニティの更新時期になったか否か判定される。未だ更新時期になっていない場合にはこのサブルーチンプログラムがリターンする。仮想コミュニティの更新は例えば１週間毎に行われ、その更新時期が到来した段階でＳ５０によりＹＥＳと判定されて制御がＳ５１へ進む。この仮想コミュニティとは、ユーザ集合により消費形態の関連性が高いユーザ同士をグルーピングして分割した各分割コミュニティのことであり、その詳細は後述する。ＳＮＳ会員ユーザの増加、ユーザに対するレコメンド回数の増加、およびレコメンドした結果のユーザの反応（販促コンテンツの閲覧やそれに基づいた商品の購入）等により、定期的に仮想コミュニティを更新する必要がある。その予め定められた更新時期が来たか否かをこのＳ５０により判定している。

Ｓ５１では、購入履歴データに基づいたユーザベースのネットワークＫを作成する処理が行われる。このユーザベースネットワークＫの原理を図９（ａ）に基づいて説明する。図９（ａ）では、分りやすさを優先するために、ユーザ数をＡ、Ｂ、Ｃ、Ｄ、Ｅの５人に絞り、商品数を１、２、３、４の４品に絞ってシンプル化している。ユーザ集合１４０の各ユーザが商品集合１４１の内のどの商品を購入したかを矢印→で示している。例えばユーザＡは商品１と２と３を購入している。ユーザＢは商品１と２とを購入している。そして、同じ商品を購入したユーザ同士をリンク（またはエッジともいう）で繋いだネットワークがユーザベースネットワーク１４２である。Ｓ５１は、購入履歴データに基づいたユーザベースネットワークＫを作成する。ゆえに、このユーザベースネットワークＫは同じ商品を購入したユーザ同士をリンクで繋いだネットワークである。

次にＳ５２により、来店履歴データに基づいたユーザベースネットワークＳを作成する処理がなされる。その結果、このユーザベースネットワークＳは、同じ商店に来店したユーザ同士をリンクで繋いだネットワークとなる。次にＳ５３により、ユーザがアカウント登録時に入力したユーザ属性データに基づいたユーザネットワークＺを作成する処理が行われる。このユーザ属性データとは、例えば、ユーザの年齢、性別、好みのブランドや好みの色等のユーザの嗜好情報などである。これにより、このユーザベースネットワークＺは、各種嗜好情報や年齢等の各属性が同じユーザ同士をリンクで繋いだネットワークとなる。

次に、Ｓ５４により、ユーザベースネットワークＫ，Ｓ，Ｚの各々に基づいて仮想コミュニティ分割Ｋ（ｋ１，ｋ２，ｋ３…），Ｓ（ｓ１，ｓ２，ｓ３…），Ｚ（ｚ１，ｚ２，ｚ３…）を作成する処理がなされる。この仮想コミュニティ分割について以下に簡単に説明する。図９（ａ）のユーザベースネットワーク１４２において、各ユーザＡ，Ｂ，Ｃ，Ｄ，Ｅをノードとしてそれぞれのユーザを繋いでいる線をリンクとして、両者の関係を次数分布という視点でみるとべき乗則に従っている。このべき乗則に従っているという現象は、複雑ネットワーク理論におけるスケールフリー性と呼ばれるものであり、多種多様な消費活動において何らかの自己相似的な行動パターンが存在することを示すものである。

このような性質を有するユーザベースネットワーク１４２において、辺の媒介中心性を算出する。これは、ネットワークにおいてどのくらい中心的な指標であるかをリンクに適応したものである。例えば、あるユーザと他のユーザとの繋がり（リンク）を除外すると、コミュニティ間の繋がりがなくなったり、あるいは、遠くなったりするような繋がり（リンク）ほどスコア（指標）が高くなる。この各リンクについて算出された媒介中心性の値が最大となるリンクを取り除いてネットワークを分割するという処理を繰り返すことにより、コミュニティを分割していく。このコミュニティの分割回数（ステップ数）についてどのステップ数まで行うかは、モジュラリティＱの指標を用いる。このモジュラリティＱは、分割されたコミュニティ内の繋がり具合とコミュニティ間の繋がり具合とを比較した指標である。このモジュラリティＱが最大となる分割ステップ数まで分割処理を行う。

このようにして、ユーザベースネットワークＫ，Ｓ，Ｚの各々について仮想コミュニティ分割を行う。Ｓ５４のＫ（ｋ１，ｋ２，ｋ３…）は、ユーザベースネットワークＫについて仮想コミュニティ分割を行い、ｋ１，ｋ２，ｋ３…の各仮想コミュニティ分割がなされたことを示している。Ｓ（ｓ１，ｓ２，ｓ３…）とＺ（ｚ１，ｚ２，ｚ３…）も同様の意味を示している。

そしてＳ５５により、上記３つの仮想コミュニティ分割Ｋ，Ｓ，Ｚの各分割コミュニティ内で商品ベースネットワークを作成する処理がなされる。この商品ベースネットワークとは、同じユーザが購入した商品同士（または訪問した商店同士）をリンクで繋いだネットワークのことである。ただし、前述したユーザ属性についてのネットワークは作成しない。

次にＳ５６により、その各分割コミュニティ毎の商品ベースネットワークにおいてリンク数の多い商品順に優先順位をつけて記憶する処理がなされる。各ユーザベースネットワークの分割コミュニティは、商品購入に関する関連性の高いユーザ同士の分割コミュニティ、訪問した商店についての関連性の高いユーザ同士のコミュニティ、ユーザ属性について関連性の高いユーザ同士のコミュニティというように、消費形態の関連性の高いユーザ同士のコミュニティ内において、関連性の高い商品同士がリンクで繋がっているのであり、そのリンク数の多い商品とは各コミュニティ内において関連性の高い商品ということになる。よって、レコメンデーションする場合においてそれら関連性の高い商品から順にレコメンドするのが効率的となる。例えば、ユーザＡは、各商品コミュニティ分割の内ｋ１とｓ２とｚ３とのコミュニティ分割に属している場合に、ｋ１内でのリンクの多い優先順位の高い商品から順にレコメンドし、ｓ２内でのリンク数の多い優先順位の高い商品からレコメンドし、ｚ３内でのリンク数の多い優先順位の高い商品からレコメンドするのが効率的である。ＳＮＳ専属エージェント１１はそのような優先順位の高い商品を含む販促コンテンツを優先してユーザに報知する。

図８（ｂ）に戻り、Ｓ７１により統括エージェントとの通信処理が行われる。この統括エージェントとの通信処理は図７（ｂ）に示した統括エージェントとの通信処理と同様の内容であり、ここでは説明の繰り返しを省略する。この統括エージェントとの通信処理（Ｓ７１）の結果、ユーザＤＢ６０に格納されたユーザテーブルに図１０（ｂ）のようなデータが格納されることとなる。このユーザテーブルにおいて「ユーザＩＤ」は、ＳＮＳ業者５９のＳＮＳにおいてアカウント登録しているユーザにおけるそのアカウント登録時のユーザＩＤである。

図９（ｂ）を参照して、ユーザＤＢ６０には、複雑ネットワーク学習テーブルとその他学習テーブルとユーザテーブルとが格納されている。複雑ネットワーク学習テーブルは、仮想コミュニティ分割と状態データＳ（購入額／レコメンド回数）と行為データａ（重み付け）との項で構成されている。前述した各仮想コミュニティ分割ｋ１，ｋ２，ｋ３…，ｓ１，ｓ２，ｓ３…，ｚ１，ｚ２，ｚ３…毎に、状態データＳ（購入額／レコメンド回数）と行為データａ（重み付け）とが対応付けて記憶されている。状態データＳは、各コミュニティ分割に属するユーザに対して商品のレコメンドを行った結果、当該ユーザが商品を購入した場合の購入額をレコメンド回数で割った商である。例えば仮想コミュニティ分割ｋ１のユーザに対し、１０回のレコメンドを行った結果１３３００円のスーツを当該ユーザが購入した場合には、１３３００／１０＝１３３０となる。

行為データａは、前述のＳ５６で算出された各分割コミュニティ毎の優先順位に対し、各分割コミュニティ毎の重み付けの値である。例えば、分割コミュニティｋ１についての優先順位に対しては、重み付けが７であり、当該優先順位をその重み付け７で割った商を最終的な優先順位として使用する。例えば、仮想コミュニティｓ２の場合には重み付けが５となっており、当該仮想コミュニティ分割ｓ２の優先順位に対し５で割った商を最終的な優先順位として用いる。

よって、例えば仮想コミュニティ分割ｋ１では最終的な優先順位が１／７，２／７，３／７…となる一方、仮想コミュニティｓ２の優先順位は１／５，２／５，３／５…となる。そして、例えばユーザが仮想コミュニティ分割ｋ１とｓ２との両方に属している人物であった場合には、当該ユーザにレコメンドする優先順位として、優先順位の値の小さい商品から順にレコメンドする。上記の人物の例では優先順位として、１／７，１／５，２／７，２／５，３／７，３／５…となる。

次に、ユーザＤＢ６０に格納されているその他学習テーブルを図１０（ａ）に基づいて説明する。その他学習テーブルでは、商品類別の項と行為データａ（重み付け）の項とから構成されている。ユーザが既に購入した既購入商品で再購入時期がくるものについて金額の大きいもの順に優先順位を定め、それに対する行為データａ（重み付け）が１０と記憶されている。他の専属エージェントが行った他行為ａ_ｉｊとしてレコメンドされた商品についてその金額の大きい順に優先順位が定められそれに対する行為データａ（重み付け）が８と記憶されている。ユーザが閲覧したＷＥＢサイトでの取扱商品についてはユーザが訪問した訪問回数の多いウェブサイト順に優先順位が定められ、それに対する行為データａ（重み付け）が５と記憶されている。ユーザが訪問した地域に位置する店の情報についてはユーザが訪問した回数の多い地域順に優先順位が定められそれに対する行為データａ（重み付け）が４と記憶されている。

以上により、例えばユーザが仮想コミュニティ分割ｋ１とｓ２との両者に属し且つ当該ユーザに対し他行為ａ_ｉｊとしてレコメンドされた商品が複数ある場合の優先順位としては、１／８，１／７，１／５，２／８，２／７，３／８，２／５，３／７，４／８，３／５…となる。

次に、ユーザＤＢ６０に格納されているユーザテーブルを図１０（ｂ）に基づいて説明する。このユーザテーブルではユーザＩＤ、ＳＮＳ用仮ＩＤ，他行為ａ_ｉｊ、自行為ａ_３ｊ、状態ｓに加えてユーザの行動データが記憶されている。この行動データとしては、ユーザがどのサイトを閲覧したかやどの地域を訪問したか等である。どのサイトを閲覧したかはトラッキング型クッキーを用いてＷＥＢサーバ４２が収集する。またどの地域を訪問したかは当該ユーザがＧＰＳ機能をオンにしたスマートフォン５５を所持して移動したときのＧＰＳデータ等に基づいてデータ収集する。例えばユーザＩＤ４８２３１のユーザの場合には、ゴルフサイトと地酒サイトを閲覧している。その結果、状態ｓとしてゴルフクラブが購入されている。

次に、Ｓ７２で示した強化学習処理のサブルーチンプログラムのフローチャートを図１０（ｃ）に基づいて説明する。この強化学習処理は図８（ａ）に示した強化学習処理とほぼ同じであるが、相違点としては、Ｓ７７において、ＴＤ学習により最適政策π^＊に従った行為データａ（重み付け）を求める点である。Ｓ６１ではユーザに対して行う行為自体を求めているが、このＳ７７では、図９（ｂ）および図１０（ａ）に示した行為データａ（重み付け）を求めるのである。そして複雑ネットワークテーブルおよびその他学習テーブルに記録されている行為データａ（重み付け）の値を新たなものに更新する処理がＳ７８により行われる。

なお、図９（ｂ）、図１０（ａ）、図１０（ｂ）に示した複雑ネットワークテーブル、その他学習テーブルおよびユーザテーブルは、ユーザＤＢ６０ばかりでなくユーザＤＢ６２、ユーザＤＢ６４、ユーザＤＢ６９によっても同様のものが格納されている。なおユーザＤＢ７３については、複雑ネットワーク学習テーブルとユーザテーブルとについは同様のものが格納されているが、その他学習テーブルについては後述する図１３（ｂ）に示すデータが格納されている。

次に、Ｓ７４に示された販促コンテンツ報知処理のサブルーチンプログラムのフローチャートを図１１（ａ）に基づいて説明する。Ｓ８０によりユーザの属する各仮想コミュニティ分割毎の商品優先順位が検索され、Ｓ８１により、その検索された各商品優先順位に対し現時点での行為データａで割った商を算出する処理がなされ、Ｓ８２により、その他学習テーブルの各商品類別に該当するユーザの商品優先順位を検索する処理がなされ、Ｓ８３により、その検索された各商品優先順位に対し現時点での行為データａで割った商を算出する処理がなされる。そして、Ｓ８４により、全ての算出された商についてその商が小さい商品を含む販促コンテンツを優先してユーザに報知する制御が行われる。

次に、ＡＩサーバ４５にインストールされている店舗アプリ専属エージェントのメインルーチンを図１１（ｂ）に基づいて説明する。Ｓ９０により複雑ネットワーク理論に基づいた販促処理が行われ、Ｓ９１により統括エージェント１５との通信処理が行われ、Ｓ９２により強化学習処理が行われ、Ｓ９３により新たな報酬を受信しているか否か判定され、受信していない場合には制御がＳ９０へ戻る。一方、新たな報酬を受信している場合には制御がＳ９４へ進み、販促コンテンツ報知処理が行われた後制御がＳ９０へ戻る。

Ｓ９０の複雑ネットワーク理論に基づいた販促処理は図８（ｃ）に示したものと同じであり、Ｓ９０の統括エージェントとの通信処理は図７（ｂ）に示したものと同じであり、Ｓ９２強化学習処理は図１０（ｃ）に示したものと同じであり、Ｓ９４に示す販促コンテンツ報知処理は図１１（ａ）に示したものと同じであり、ここではこれらの処理の説明の繰り返しを省略する。

ジオフェンシング専属エージェントのメインルーチンを図１２（ａ）に、サイネージ専属エージェントのメインルーチンを図１２（ｂ）に、店内専属エージェントのメインルーチンを図１２（ｃ）に示す。これらメインルーチンは、図１１（ｂ）に示した店舗アプリ専属エージェントのメインルーチンとほぼ同じである。相違点としては、ジオフェンシング専属エージェントではＳ１０３でユーザ２がジオフェンシングによる販促コンテンツの配信エリア内に進入したか否か判定される。サイネージ専属エージェントではＳ１１３でサイネージによる販促コンテンツの報知エリア内にユーザ２が進入したか否か判定される。店内専属エージェントではＳ１２３でユーザ２がプッシュ配信エリア内に進入したか否か判定される。

次に、店舗サーバ専属エージェント１３の制御を図１３（ａ）に基づいて説明する。Ｓ１３０により、過去の購買商品データ、購買日時、天候データ、顧客属性データに基づいてデータマイニングを行い、売れ筋商品のパターンと売れ筋商品の組合わせとを見つけ出す処理がなされる。売れ筋商品のパターンとは、気温、天候、曜日、時間帯別にどのような商品がよく売れるかのパターンのことである。また売れ筋商品の組合わせとは、Ａの商品を購入した客は高い確率でＢの商品も購入する等の商品同士の相関関係のことである。

次にＳ１３１により、売れ筋商品のパターンと売れ筋商品の組合わせとに基づいて店づくり用メッセージを報知する処理が行われる。例えば、売れ筋商品のパターンに該当する日時においてはその売れ筋商品を店の前面に出すとか、売れ筋商品の組合わせに基づいて相関関係のある商品同士を隣接する売り場に配置する等のメッセージを行う。次にＳ１３２により、売れ筋商品のパターンと売れ筋商品の組合わせと行為データａ（重み付け）の初期値とをユーザＤＢ７３のその他学習データテーブルに格納する処理が行われる。

次に図１３（ｂ）を参照して、ユーザＤＢ７３には、複雑ネットワーク学習テーブルとその他学習テーブルとユーザテーブルとが格納されている。複雑ネットワーク学習テーブルとユーザテーブルとは図９（ｂ）、図１０（ｂ）と同じ内容であるためにここでは説明の繰り返しを省略する。その他学習テーブルにおいては、商品類別の項において、既購入商品で最購入時期が来るもの（金額順）と、他行為ａ_ｉｊとしてレコメンドされた商品（金額順）とは、図１０（ａ）に示したものと同じである。

そして、このユーザＤＢ７３には、商品類別の列において、売れ筋商品のパターン（金額順）と売れ筋商品の組合わせ（金額順）とそれぞれに対応した行為データａ（重み付け）とが記憶されている。前述した店内専属エージェントのＳ１２２に示した強化学習処では、図１３（ｂ）のその他学習テーブルに示した商品類別の各々に対応づけられた行為データａ（重み付け）を最適化する学習が行われる。

次に、以上説明した実施形態の変形例や特徴点等を以下に列挙する。

（１）前述した実施形態における販促システムでは、各専属エージェント９〜１４とそれを統括する統括エージェント１５とにより強化学習を行っているが、それに代えて、全ての専属エージェントの機能あるいは一部の専属エージェントの機能を統括エージェント１５に持たせ、統括エージェント１５がその専属エージェントの役割を担うようにしてもよい。その場合に、統括エージェント１５をモバイルエージェントで構成し、専属エージェントのＡＩサーバへ移動して専属エージェントの機能を発揮できるように構成してもよい。更に、各専属エージェント９〜１４と統括エージェント１５とのプログラムがインターネット経由でＡＩサーバにインストールされる代わりに、これらエージェントプログラムの全部または一部を記録媒体（ＣＤ−ＲＯＭ）を介してＡＩサーバにインストールしてもよい。さらに、これらエージェント機能の全部または一部をクラウドサービスで実現してもよい。

（２）前述の実施形態では、各専属エージェント９〜１４および統括エージェント１５が強化学習を行っているが、深層強化学習（Deep Q-Network）を行うようにしてもよい。深層強化学習とは、強化学習の関数近似に深層学習（Deep Learning）の技術を適用したものである。強化学習におけるＱ学習の最大の特徴は、(s，a)の全ての組からサンプル (s，a，r，s′)が無限回得られるとするなら、それらをどのような順番で与えたとしても必ず最適な価値関数Ｑ^＊(s，a)が得られるという点にある。全ての状態と行動についてテーブル関数Ｑ(s，a)を作成するとなると、処理するデータ量が膨大なものとなるために、Ｑ(s，a)に関数近似を用いる。この関数近似に深層学習の技術を適用したものが深層強化学習である。従って、深層強化学習も強化学習の１種であり、「強化学習」の用語は「深層強化学習」も包含する広い概念である。

（３）本実施形態では、各専属エージェントに与えられる報酬を１００％統括エージェント１５が単独で決定しているが、それに代えて、各専属エージェントに与えられる報酬のうちのＮ％を統括エージェント１５側で決定し残りの（１００−Ｎ）％を専属エージェント側で決定するようにしてもよい。この場合、統括エージェント１５側で決定された報酬と専属エージェント側で決定された報酬との和が当該専属エージェントに与えられる報酬となる。

（４）前述した実施形態では、マルチエージェントシステムのアイデア（特徴点）を販促システムに適用したものを例示したが、用途としては販促システムに限定されるものではなく、複数の専属エージェントと統括エージェントとが連携する一般的なマルチエージェントシステムに適用できる汎用性のあるアイデアである。

（５）前述した実施形態では、統括管理業者７５に設置された統括管理用ＡＩサーバ５３にインストールされている統括エージェント１５が、各専属エージェント９〜１２、１４に対し行為ａ_１〜ａ_５を与えると共に、各専属エージェント９〜１４に対し報酬ｒと状態（消費者の行動データ）ｓとを与えているが、その代わりに、統括管理用ＡＩサーバ５３が行為ａ_１〜ａ_５のみを各専属エージェント９〜１４に与え、報酬は各専属エージェント９〜１４自身が算出して取得すると共に状態（消費者の行動データ）ｓを各専属エージェント９〜１４自身が収集するように制御してもよい。各専属エージェント９〜１４は、自身が算出した報酬および自身が収集した状態（消費者の行動データ）ｓと統括エージェント１５から与えられた行為ａ_１〜ａ_５とに基づいて強化学習を行う。

さらには、統括エージェント１５が各専属エージェント９〜１２、１４に対し行為ａ_１〜ａ_５を提供する代わりに、ユーザ自身が自分に提供された販促コンテンツ等の行為ａ_１〜ａ_５を各専属エージェント９〜１２、１４に提供するように制御してもよい。例えば、自分に提供された販促コンテンツ等の行為ａ_１〜ａ_５をユーザがスマートフォン５５等のユーザ端末に記憶させておき、定期的（例えば１時間毎や１日毎等）に各専属エージェント９〜１２、１４に送信する。他の方法としては、各ユーザの行動履歴データ（ライフログ等）をクラウド上のデータベース（情報バンク）に収集して蓄積しておき、蓄積されている行動履歴データ中の販促コンテンツ等の行為ａ_１〜ａ_５を各ユーザの意思に従って各専属エージェント９〜１２、１４に送信するように制御してもよい。

（６）前述した実施形態では、販促コンテンツとして、販売商品情報や特売情報、レシピ、クーポン、プレゼント応募情報等を示したが、さらに、ユーザとのコミュニケーションを促進させるためのコミュニケーション用コンテンツを販促コンテンツに含ませてもよい。特に、ＳＮＳ業者５９の販促ＤＢ６１にこのコミュニケーション用コンテンツを記憶させることにより、ユーザとＳＮＳ専属エージェント１１とのコミュニケーションが促進され、ユーザのＳＮＳサイトへの訪問回数が増加する効果が期待できる。また、一般ビッグデータＤＢ７７にデジタル口コミのデータを記憶させ、デジタル口コミのデータを販促に利用できるように制御してもよい。

（７）以下のプログラムを格納（記録）した記録媒体（例えばＣＤ−ＲＯＭ等）を流通させてもよい。

コンピュータネットワーク（例えば、インターネット７９）を利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面（例えば、自宅、店舗アプリ起動時、ジオフェンシングエリア内への進入時、ＳＮＳログイン時、サイネージ６での報知エリア内への進入時、店内進入時）毎に対応した形態で消費者に提供する複数場面毎情報提供手段（例えば、Ｓ６２、Ｓ７４、Ｓ９４、Ｓ１０４、Ｓ１１４、Ｓ１２４）を備えた販売促進システムに用いられるコンピュータにより実行されるプログラムであって、
人工知能が機械学習を行い、その学習結果を前記複数の場面での前記販売促進情報の提供に反映させるためのステップ（例えば、Ｓ６０〜Ｓ６２、Ｓ７６〜Ｓ７８）を前記コンピュータに実行させ、
前記ステップは、前記複数の場面で提供された複数の前記販売促進情報（例えば、ユーザテーブルやその他学習テーブルに格納された他行為ａ_ｉｊ）と、該複数の前記販売促進情報が提供された後の消費者の行動データ（例えば、ユーザテーブルに格納された状態ｓ）とに基づいて、機械学習を行うプログラム。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１行動環境、９ハウス専属エージェント、１０アプリ専属エージェント、１１ＳＮＳ専属エージェント、１２サイネージ専属エージェント１３店舗サーバ専属エージェント、１４店内専属エージェント、１５統括エージェント、１６消費者ＤＢ、１７報酬ＤＢ。

Claims

コンピュータネットワークを利用して消費を誘発して販売を促進させる販売促進情報を消費者に提供する販売促進システムであって、
消費者の行動に伴う複数の場面毎に対応した形態で前記販売促進情報を当該消費者に提供する複数場面毎情報提供手段と、
消費者の行動データに基づいて人工知能が機械学習を行い、その学習結果を前記複数の場面での前記販売促進情報の提供に反映させる機械学習手段と、を備え、
前記機械学習手段は、前記複数の場面で前記販売促進情報が提供された後の消費者の行動に基づいて機械学習を行うものであり、消費者の行動環境内で収集された行動データをエージェントが観測して選択した販売促進情報を前記複数の場面で当該消費者に提供した後にその消費者が取った行動に従ってエージェントに報酬が与えられ、該報酬の累積を最大化する方策を学習し、該学習された方策に基づいて前記販売促進情報を選択して消費者に提供する強化学習手段を含み、
前記複数の場面は、第１場面と第２場面とを含み、
前記エージェントは、前記第１場面に専属して販売促進情報を提供する第１場面専属エージェントと、前記第２場面に専属して販売促進情報を提供する第２場面専属エージェントと、前記複数の場面を統括して全体最適化を図る統括エージェントとを含み、
前記強化学習手段は、前記第１場面専属エージェントおよび前記第２場面専属エージェントが前記統括エージェントと協調して動作するマルチエージェントシステムを含む、販売促進システム。
前記機械学習手段は、前記複数の場面で提供された複数の前記販売促進情報と、該複数の前記販売促進情報が提供された後の消費者の行動データとに基づいて、機械学習を行う、請求項１に記載の販売促進システム。
前記第１場面専属エージェントと前記第２場面専属エージェントとに与えられる報酬が前記統括エージェントによって影響されるように制御する報酬制御手段をさらに含む、請求項１または２に記載の販売促進システム。
コンピュータネットワークを利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面毎に対応した形態で消費者に提供する複数場面毎情報提供手段を備えた販売促進システムに用いられる機械学習装置であって、
人工知能が機械学習を行い、その学習結果を前記販売促進情報の提供に反映させるための機械学習手段を備え、
前記機械学習手段は、前記複数の場面で提供された複数の前記販売促進情報と、該複数の前記販売促進情報が提供された後の消費者の行動データとに基づいて、機械学習を行うものであり、消費者の行動環境内で収集された行動データをエージェントが観測して選択した販売促進情報を前記複数の場面で当該消費者に提供した後にその消費者が取った行動に従ってエージェントが報酬を受け取り、該報酬の累積を最大化する方策を学習し、該学習された方策に基づいて前記販売促進情報を選択して消費者に提供する強化学習手段を含み、
前記複数の場面は、第１場面と第２場面とを含み、
前記エージェントは、前記第１場面に専属して販売促進情報を提供する第１場面専属エージェントと、前記第２場面に専属して販売促進情報を提供する第２場面専属エージェントとを含み、
前記強化学習手段は、前記第１場面専属エージェントおよび前記第２場面専属エージェントが、前記複数の場面を統括して全体最適化を図る統括エージェントと協調して動作するマルチエージェントシステムを含む、機械学習装置。
コンピュータネットワークを利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面毎に対応した形態で消費者に提供する複数場面毎情報提供手段を備えた販売促進システムに用いられる機械学習装置に対し、機械学習に必要なデータを提供する機械学習用データ提供装置であって、
前記機械学習装置は、消費者の行動環境内で収集された行動データをエージェントが観測して選択した販売促進情報を前記複数の場面で当該消費者に提供した後にその消費者が取った行動に従ってエージェントに報酬が与えられ、該報酬の累積を最大化する方策を学習し、該学習された方策に基づいて前記販売促進情報を選択して消費者に提供する強化学習手段を含み、
前記複数の場面は、第１場面と第２場面とを含み、
前記エージェントは、前記第１場面に専属して販売促進情報を提供する第１場面専属エージェントと、前記第２場面に専属して販売促進情報を提供する第２場面専属エージェントとを含み、
前記第１場面専属エージェントが提供した販売促進情報を前記第２場面専属エージェントに提供すると共に、前記第２場面専属エージェントが提供した販売促進情報を前記第１場面専属エージェントに提供する販売促進情報提供手段と、を備えた、機械学習用データ提供装置。
前記販売促進情報を提供された消費者がその後取った行動を当該消費者に前記販売促進情報を提供した専属エージェントに提供する行動データ提供手段と、
報酬を算出して前記第１場面専属エージェントと前記第２場面専属エージェントとに与える報酬算出付与手段とをさらに備え、
前記報酬算出付与手段は、前記複数の場面を統括して全体最適化を達成するための報酬を算出する、請求項５に記載の機械学習用データ提供装置。