JP6886186B2

JP6886186B2 - 食品仕入れ数決定支援システム

Info

Publication number: JP6886186B2
Application number: JP2018090814A
Authority: JP
Inventors: 洋一平嶋
Original assignee: Josho Gakuen Educational Foundation
Current assignee: Josho Gakuen Educational Foundation
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2021-06-16
Anticipated expiration: 2038-05-09
Also published as: JP2019197374A

Description

本開示は、概略、食品仕入れ数決定支援システムに関し、特に、機会ロス、廃棄ロス、及び割引ロスを考慮した粗利最大化のための食品仕入れ数決定支援システムに関する。

食品仕入れ業務は各品目について、在庫数、賞味期限、売上実績などから仕入れ数を決定するものである。賞味期限間近の品目については値引き販売を行い、賞味期限切の品目が売れ残ると廃棄となる。値引きには値引きロス、廃棄には廃棄ロス、そして在庫切れには機会ロスが伴う。

現状では、食品仕入れ業務における意思決定部分は人間が行っており、非常に専門性の高い業務として扱われている。品目（商品）点数は、例えば、２万点程度であり、専門知識を有する人間が一人で全体について把握することは困難である。このことから、人材は常に不足している。

また、品目（商品）点数が数万点であり、品目毎の仕入れ数の選択肢数が数個から数十個あることから、組合せ爆発を起こすことになるため、既存の数学的計画手法は、食品仕入れ数決定においては有効に機能しない。更に、仕入れ数について相関を持った品目が多数存在するため、例えば、既存のＡＩ手法の適用が困難な業務である。

特開２００３−１８２８５４号公報

R. Sutton and A. Barto: Reinforcement Learning, MIT Press (1999). Y. Hirashima: "A reinforcement learning method for train marshaling based on movements of locomotive", IAENG Int. J. Comput. Sci., Vol. 38, No. 3, 242/248 (2011).

本開示は、値引き・廃棄・機会ロスを最小に抑えつつ、粗利を最大化するように各品目の仕入数を組み合わせることができ、更に、各組み合せに対して評価を行い、選択肢間の優劣を示すことができる、意思決定支援システムである食品仕入れ数決定支援システムを提示することを目的とする。

本開示は、上記の目的を達成するためのものである。本開示に係る食品仕入れ数決定支援システムは、食品仕入れ数の最適組合せ学習及び導出法に係る食品仕入れ数決定支援システムであって、
食品仕入れ数最適組み合わせの学習モデルを作成する学習部と、並びに、
前記学習モデルに基づいて、各品目の仕入れ数候補毎の評価値、及び、一品目の仕入れ数が複数に割り当てられる場合の割当比率候補毎の評価値を算出する演算部とを備え、
前記学習モデルは少なくとも、各品目における仕入れ数候補と、状態記述パラメータと、割引率と、及び第１の評価関数と、並びに、一品目の仕入れ数が複数に割り当てられる場合の割当比率候補と、状態記述パラメータと、及び第２の評価関数とで、構成され、
前記学習部は、
各品目について、ロス額に基づいて割引率を決定し、仕入れ数候補毎に、状態記述パラメータ及び確定した粗利に基づいて第１の評価関数を決定し、
更に、一品目の仕入れ数が複数に割り当てられる場合に、割当比率候補毎に、状態記述パラメータ及び確定した粗利に基づいて第２の評価関数を決定し、
前記演算部は、
各品目の仕入れ数候補毎の評価値を、前記学習モデルにおける、各品目の仕入れ数候補毎の第１の評価関数から導出し、
一品目の仕入れ数が複数に割り当てられる場合の割当比率候補毎の評価値を、前記学習モデルにおける、割当比率候補毎の第２の評価関数から導出する。

現状人間が行っている専門性の高い業務を、本開示に係る食品仕入れ数決定支援システムが実施し、取扱品目全体に係る仕入れを見直すことによって、様々なロスの削減が可能となる。更に、本開示に係る食品仕入れ数決定支援システムにより、仕入れ業務に関する教育効果を得ることができる。

図１は、本開示に係る食品仕入れ数決定支援システムにおける、意思決定フローを模式的に示す図である。図２は、第１の実施形態に係る食品仕入れ数決定支援システムのブロック図である。図３は、第１の実施形態に係る食品仕入れ数決定支援システムのうちの、食品仕入れ数決定支援装置の動作を示すフローチャートである。図４は、第１の実施形態に係る食品仕入れ数決定支援装置における、予備学習の処理の詳細な動作を示すフローチャートである。図５は、品目Ａについての仕入れ数の候補、及びその評価を表示する、第１の実施形態に係る食品仕入れ数決定支援装置の表示部による画面例である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

［本開示に至る経緯］
食品仕入れ業務は、数万点に及ぶ品目について毎日、仕入れ個数を決定・発注する作業を伴っており、スーパーマーケットや食料品店等の店舗の利益に直接影響を及ぼす重要な業務である。

各品目には消費期限が設定されており消費期限を過ぎると廃棄されるが、廃棄によるコストを廃棄ロスと呼ぶ。廃棄ロスを抑えるために消費期限が迫った商品について割引による販売促進対策をとる場合がある。この場合は希望小売価格に対する値引きロスが生じる。また、品切れによる販売機会の喪失を防止するために在庫を用意するのが一般的であるが、品切れによって生じる売上損失を機会ロスと呼ぶ。

さらに、食品のうち生鮮食品は消費期限が加工品に比べて短いものが多く、在庫として保存可能な期間が品目ごとに同じとは限らない。そして、生食可能な魚類を焼き物、惣菜、弁当へ転用するなど、１品目の仕入れが複数の販売品目と相関しているものが存在する。つまり、食品仕入れ業務では、多数の品目の仕入れ数を個別に決定する際、在庫数、売行き、消費期限、相関のある商品の仕入れ・販売状況、廃棄・値引・機会ロスの状況、粗利などを考慮する必要がある。

ロスを抑えつつ粗利を最大化することを目標として、品目数と考慮する要素との相関関係に基づいて仕入れ数を決定するために検討すべき組合せ数は、膨大である。よって、食品仕入れ業務は、高い専門性を有する少数の従業員が担当せざるを得ないのが現状である。これら従業員は代替不可能であり、同等の技能を有する人材を育成し確保するためには相当な現場経験が必要である。更に、かような技能を有する人材のための教育法や育成法も確立されていない。これらのことから、食品仕入れ業務を適切に行い得る人材は、慢性的に不足している。

一方、仕入れ数の組合せに対して、ロス額などを評価対象として、組合せ最適化問題としてモデル化を行うことは可能である。しかしながら、相関のある品目数に対しては、仕入れ数の組合せが指数関数的に増加するため、当該品目数が１００を超える場合には従来の数学的プログラミングによる求解は困難となる。仕入れ業務の現場では、天候、季節、イベント、時事情報、などにより複数の関連品目の売上が増減する現象もよく知られている。実際に従来手法では実用規模の問題を解決できていない。

以上のような問題点を解決するべく、本願の発明者は、強化学習を用いた、ロスを評価基準とする、仕入れ数の最適組合せ学習・導出法に係る、本開示の食品仕入れ数決定支援システムの考案に到った。本開示に係る食品仕入れ数決定支援システムでは、仕入れ数を逐次決定し、決定済みの仕入れ数を状態記述パラメータとして順次加えていくことにより、品目間の相関に対応する。そして、具体的な個別仕入れ数の組合せについて、確定した粗利、ロス額から評価を計算し、評価値を各仕入れ数に伝播する。伝播は最適方程式に基づいて行い、最適な粗利とロス額を得るための最適な仕入れ数が各品目に関する意思決定段階において得られることを保証する。

［１．本開示の基本的特徴］
本開示に係る食品仕入れ数決定支援システムについての基本的特徴を以下、説明する。

［１．１．モデリング］
［１．１．１仕入れ数決定作業］
品目数をk、第i品目に対する仕入れ数の選択肢数をm_iとし、現場の仕入れ決定作業と同じ順序で仕入れ数o_iの決定を行う。現場の運用形態に依存するがこの際、外部（例えば、外部の管理サーバからの）入力として、決定対象品目の在庫数をs_i(i=1, ・・・ , k)、売行き予測をb_iと表し、初期値を与える。また、消費期限をl_i、予算残額をM_i、相関のある他商品の仕入れ数をp_i=[p_i1, ・・・ , p_il] とし、状態記述パラメータx_iを次式で表す：

ただし，p_ij(1≦j≦l)が未決定の場合にはp_ij=0とする。全ての品目について仕入れ数が決定したのち、所定の確率モデルによって当日の販売数を推定し、ロス額と粗利を確定する。与えられた予算枠において、粗利を最大化する状態遷移の組合せ[x₁,x₂, ・・・ ,x_k] が最適解である。

以上のモデルでは、解の構成要素が数万個に及ぶ実用規模では、解の評価を全て保持する必要がある手法の実現が困難となる。

［１．１．２学習モデル］
（１）仕入れ数の評価値と更新則
上記［１．１．１仕入れ数決定作業］で述べたモデルに対し、第i品目に対する仕入れ数を、各候補

から選択する。この際、状態パラメータx_iに対し、仕入れ数候補との組み合わせに対する評価値を

としてQ1_iの値に基づいて選択を行う。

そして仕入れ数を決定した際、選択結果をo_iで表し、これに対応する評価値Q1を次式で更新する：

ここで、αは学習率（係数）、γは割引率である。

Ｒは報酬であり、当日の販売実施後、目標粗利額をG_o，粗利額をGとして次式で決定する：

つまり、Rは目標達成率であり、粗利確定までは値が０である。

（２）１品目に対して複数の販売形態が存在する場合
生食可能な魚類を焼き物、惣菜、弁当へ転用するなど、１品目の仕入れが複数の販売品目と相関している場合、対応する販売品目に対する割当比率がロス額に影響する。そこで、割当比率を選択肢として、局所評価を行う。つまり、割当比率の候補を

から選択する。この際、状態パラメータx_iに対し、割当比率との組み合わせに対する評価値を

としてQ2_iの値に基づいて関連品目への割当比率を選択する。

そして、

の中から選択した結果w_iに対応するQ2_iを次式で更新する：

適切に

を選択するために、必要に応じてp_iの構成要素の一部を他品目の仕入れ数から割当比率に変更する。

［１．１．３割引率の計算］
各品目の仕入れ数が販売後の粗利とロス額に影響を及ぼす。
このとき、各仕入れ数の候補の評価に粗利とロス額を反映するために、次式で第i品目のo_i,w_iに対する割引率γ_i(i=1, ・・・ , k) を計算する：

ここで、D_iは第i品目で生じたロス額、T_pはk品目によって得られた当日の総売上額、δ は割引率の範囲を調整するパラメータである。上式（５）はロス額が小さい仕入れ数の選択肢に対する割引率を小さく設定する。また、粗利が大きくなる仕入れ数の組合せに対しては相対的に割引率が小さくなる。

上式（２）、（４）は十分な更新回数実行後に

に収束する。Ｒは粗利確定後にのみに与えるので、仕入れ数の決定作業の進捗に伴って評価値が単調増加する。上式（２）〜（５）は、最良の選択肢に対する評価値を用いて伝播を行うので、各状態における評価値が目標状態に至る最良の仕入れ数の組合せを反映することになる。

［１．１．４動作選択］
目標配置、移動対象、貨車移動先、移動貨車台数は、Soft-Max法（非特許文献１参照）によって確率的選択を行う。本更新則では、Q_i(i=1,2)の値が、割引回数の増加とともに小さくなる。一般に大規模問題では、品目数の増加に伴って、仕入れ数の組み合わせ数が大きくなるため、特に初期配置周辺の評価値が過剰に小さくなる。この場合、学習前半部分の導出における探索範囲が過剰に広がり、十分な学習効果が得られない。

改善方法として、Q_i(i=1,2)を正規化した

を用い、

に対する動作の選択確率Pn(x_i,u)を次式で決定する（非特許文献２参照）。

ただし、ξは温度定数であり、

の各値に対して動作選択確率の違いを拡大/縮小することによって、探索範囲を調整する役割を果たす（非特許文献２参照）。

［１．２．意思決定支援］
十分な学習を実行後、各品目における仕入れ数候補には、少なくとも探索済み領域内において導出した粗利とロス額を反映した評価値が対応付けられているため、すべての候補について評価値を取出し、大小関係を比較することによって、仕入れ数の優劣に関する順位付けが可能になる。

評価値は品目ごとの各選択肢に対応しているため、仕入れ数決定に伴う状態遷移にしたがって順次参照可能になる。そして、すべての品目について最高順位の選択肢を選ぶ組み合わせが最良解であり、各候補の評価値を使って最良解からの乖離の大きさに関する情報が得られる。

［１．３．システムの動作］
意思決定支援を行うために予備学習を行い、Q_iによる評価関数を獲得する。Q_iは初期値０から始め、粗利確定時に受け取るＲが割引を伴って伝播する。予備学習を繰り返すことによって、全仕入れ数が決定した状態から初期状態に向かって徐々に評価値が広がっていくが、この際、決定仕入れ数に関わらず、最大の評価値を持つ状態から伝播を実施する。つまり、評価値が粗利に対するロス率を反映している場合にはロス率最小となる選択肢の評価が伝播し、Q_iによる評価関数が任意の状態から最良の仕入れ数組み合わせに対する評価を関数値としてとることになる。

売上や来店予測を所定の確率モデルを使って構成した場合、各状態における仕入れ数の評価が、設定した確率分布にしたがった、ロス率の期待値を学習することになる。

［１．４．意思決定フローの例］
図１は、本開示に係る食品仕入れ数決定支援システムにおける、意思決定フローを模式的に示す図である。例えば、品目Ａについては「仕入れ数１」、「仕入れ数２」・・・「仕入れ数ｎ」という、仕入数の選択肢が存在することが示されている。また、例えば、品目Ａについては「生食用」、「寿司用」、「弁当用」に割り当てられ得ることが示されている。更に、粗利、ロス率に基づく評価が、各仕入数候補に順次、伝播する様子を示している。

［１．５．オリジナリティと優位性］
上記の［１．１．１仕入れ数決定作業］で述べた仕入れ数決定モデル、［１．１．２学習モデル］の学習モデル、［１．１．３割引率の計算］の割引計算法が夫々、意思決定支援、最適性、粗利とロス率の考慮に必要な基礎理論上の新規手法であり、既存技術では代替手法が存在しない。

対象としている問題については大量の教師データが蓄積されているわけではない。例えば、専門職員の発注記録データは残っている（存在している）ものの、判断基準や決定ルールなどについては記録が採られていない。一般に、現場のデータから意思決定ルールを抽出するためには専門職員を対象とする詳細な聞き取り調査が必要になるため、短期間で本開示の模倣に必要な解析を短期間で完了することは困難であり、本開示に係る研究による候補の拡張・抽出や来店予測モデルの拡張・開発の速度が、模倣のそれを上回ることができると考えられる。

データから決定ルールを抽出する方法に関する国内における研究は、２００５年前後に、主に、化学プラントの反応器オペレータが持っていた、オペレーションに関する操作決定ルールを抽出するものに関して、盛んに行われていた経緯がある。化学プラントでは、反応器の動作に関する数値データは蓄積されているが、オペレータによる操作量や操作タイミングについての意図や判断基準などは、記録されていなかったため、特に職歴の長いオペレータの持つオペレーションに関する操作決定ルールを抽出する研究が必要となった次第である。当該分野にて数多くの研究が行われたが、有効な解決手段は示されていない。

［第１の実施形態］
続いて、以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

［２．１．食品仕入れ数決定支援システムの構成］
図２は、第１の実施形態に係る食品仕入れ数決定支援システム１のブロック図である。図１に示す食品仕入れ数決定支援システム１は、ＰＤＡ等により構成され外部ネットワーク１６と接続する食品仕入れ数決定支援装置２と、及び、外部ネットワーク１６と接続する管理サーバ１８とを含む。外部ネットワーク１６は、例えば、ＬＡＮ、ＷＡＮ、及びインターネットなどである。

図１に示す食品仕入れ数決定支援装置２は、制御部４、入力部８、表示部６、記憶部１０、及び通信インタフェース部１２により構成される。制御部４は、演算処理及び装置全体の制御処理を行う。入力部８は、装置２に対する入力データを生成する若しくは受け取る部位であり、通常、キーボード、マウス、タッチパネル等により構成される。入力部８は、表示部６の表示面に重畳して設けられたタッチセンサで構成されてもよい。このとき入力部８は、表示部６によって表示された画像に対するタッチ（接触）操作を受け付ける。このように入力部８と表示部６とは一体的に構成されてもよいし、別体で構成されてもよい。

表示部６は、制御部４による処理結果等を画像により表示する部位であり、液晶ディスプレイ、有機ＥＬディスプレイ、プラズマディスプレイ等により構成される。表示部６は出力部として補助的にスピーカ等の聴覚用デバイスを含んでもよい。記憶部１０は、制御部４で稼働するプログラムや食品仕入れ数決定支援に必要なパラメータデータ等が記録されている。記憶部１０は、例えばフラッシュメモリで構成される。通信インタフェース部１２は、外部ネットワーク１６とのインタフェースとして動作する部位である。これらの制御部４、入力部８、表示部６、記憶部１０、及び通信インタフェース部１２は、適切なバス１４により相互に接続されている。

食品仕入れ数決定支援装置２は、ＰＤＡ（ポータブルデジタルアシスタント）、タブレット端末、ノートパソコン、デスクトップパソコン、若しくはワークステーションなどの、情報処理装置で構成される。

制御部４は、例えばＣＰＵやＭＰＵで構成され、食品仕入れ数決定支援装置２全体の動
作を制御する。制御部４における演算処理や装置全体の制御処理は、ハードウエア資源であるプロセッサと、記憶部１０に記録される、若しくは外部ネットワーク１６を介して外部から取り込まれる、ソフトウエアであるプログラムとの協働により実現される。制御部４は、専用に設計された電子回路や再構成可能な電子回路などのハードウエア回路（ＡＳＩＣ、ＦＰＧＡ等）で実現されてもよい。第１の実施形態に係る食品仕入れ数決定支援装置２の特徴的動作は、制御部４における演算処理及び制御処理により実現される。

管理サーバ１８は、食品仕入れ業務を行うスーパーマーケットや食料品店に係る全体業務をサポートし管理するコンピュータシステムを構成する。管理サーバ１８は、在庫数、売行き予測、消費期限、予算残額、売上、イベント、来店数などのデータを格納しており、食品仕入れ数決定支援装置２は、外部ネットワーク１６及び通信インタフェース部１２を介して、適宜それらデータを取り込み、記憶部１０に記録したり、制御部４での演算処理に用いたりする。

在庫数、売行き予測、消費期限、予算残額、売上、イベント、来店数などのデータは、前に説明したように、食品仕入れ数決定支援に必要な状態記述パラメータのデータである。

なお、食品仕入れ数決定支援装置２における処理のうちの、全部又は一部が、管理サーバ１８にて行われてもよい。また、上述の食品仕入れ数決定支援装置２における処理を実行するコンピュータプログラムが、管理サーバ１８の記憶部（図示せず）に格納されていてもよく、必要時に、食品仕入れ数決定支援装置２が自らの記憶部１０にダウンロードする、というような構成であってもよい。

［２．２．食品仕入れ数決定支援システムの動作］
図３及び図４は、第１の実施形態に係る食品仕入れ数決定支援システム１のうちの、食品仕入れ数決定支援装置２の動作を示すフローチャートである。図３及び図４を用いて、第１の実施形態に係る食品仕入れ数決定支援装置２の動作を説明する。

作業開始（ステップＳ０２）して、先ず営業日数が決定される（ステップＳ０４）。営業日数は、例えば、入力部８から入力される。次に、決定する品目の仕入れ数の、初期化を行う（ステップＳ０６）。

次に、予備学習を実行する（ステップＳ０８）。予備学習の処理は、各営業日に対して実行され、例えば、管理サーバ１８から在庫数と売行き予測に関するデータを入力して各仕入数の評価を計算する。予備学習の処理の詳細な内容は、図４を用いて後で説明する。

予備学習の実行後、仕入れ数が未決定の品目が存在するか、判断される（ステップＳ１０）。仕入れ数が未決定の品目が存在するのであれば（ステップＳ１０・ＹＥＳ）、未決定の品目についての仕入れ数候補及びその評価が表示部６に表示され、これに基づき仕入れ数が選択される（ステップＳ１２）。仕入数候補の評価は、予備学習により算出されるものである。選択された仕入れ数は、仕入れ表p_iを構成する（ステップＳ１４）。

なお、図５は、品目Ａについての仕入れ数の候補、及びその評価を表示する、食品仕入れ数決定支援装置２の表示部６における画面例である。食品仕入れ数決定支援装置２の操作者は、画面に表示される仕入れ数候補のうちの一つを選択する。

次に、割当比率が未決定の品目が存在するか、判断される（ステップＳ１６）。割当比率が未決定の品目が存在するのであれば（ステップＳ１６・ＹＥＳ）、未決定の品目についての割当比率候補及びその評価が表示部６に表示され、これに基づき割当比率が選択される（ステップＳ１８）。割当比率候補の評価は、予備学習により算出されるものである。選択された割当比率は、割当表p_iを構成する（ステップＳ２０）。更に割当比率が未決定の品目が存在するのであれば（ステップＳ１６・ＹＥＳ）、その品目についてステップＳ１８、ステップＳ２０が実行される。なお、割当比率が未決定の品目が存在しないのであれば（ステップＳ１６・ＮＯ）、ステップＳ１０に戻る。

ステップＳ１０にて、仕入れ数が未決定の品目が更に存在するのであれば（ステップＳ１０・ＹＥＳ）、ステップＳ１２〜ステップＳ１６が実行される（繰り返される）。ステップＳ１０にて、仕入れ数が未決定の品目が存在しない、と判断されれば（ステップＳ１０・ＮＯ）、報酬Ｒが計算されて受理され、更に在庫数が更新される（ステップＳ２２）。

更に、作業を終了するかどうか確認され（ステップＳ２４）、ステップＳ０４にて決定した営業日数について全て作業が終了したのであれば（ステップＳ２４・ＹＥＳ）、全体作業を終了する（ステップＳ２６）。終了しないのであれば（ステップＳ２４・ＮＯ）、ステップＳ０６に戻る。ここで次の営業日についての作業に切り替わる。決定する品目の仕入れ数が初期化され、各品目の発注数は０に戻るが、在庫総数・賞味期限日の在庫数は前日の売上結果を引き継いで更新することになる。更にステップＳ０８〜が実行される。

図４は、第１の実施形態に係る食品仕入れ数決定支援装置２における、予備学習の処理の詳細な動作を示すフローチャートである。図４を用いて、予備学習の処理の詳細な動作を説明する。

学習開始（ステップＳ０８０２）して、決定する品目の仕入れ数の、初期化を行う（ステップＳ０８０４）。

次に、仕入れ数が未決定の品目が存在するか、判断される（ステップＳ０８０６）。仕入れ数が未決定の品目が存在するのであれば（ステップＳ０８０６・ＹＥＳ）、未決定の品目についての仕入れ数が選択され、これに基づき、割引率γ_iが計算され、Q1_i、Q2_iが更新される（ステップＳ０８０８）。なお、Q1_i、Q2_iの更新では、最も新しい選択結果が仕入れ数であったか、割当（比率）であったかによって更新対象が決まる。続いて、仕入れ表p_iを構成し、

を格納する（ステップＳ０８１０）。

次に、割当比率が未決定の品目が存在するか、判断される（ステップＳ０８１２）。割当比率が未決定の品目が存在するのであれば（ステップＳ０８１２・ＹＥＳ）、未決定の品目についての割当比率が選択され、これに基づき、割引率γ_iが計算され、Q2_i、Q1_iが更新される（ステップＳ０８１４）。なお、Q2_i、Q1_iの更新では、最も新しい選択結果が仕入れ数であったか、割当（比率）であったかによって更新対象が決まる。続いて、仕入れ表p_iを構成し、

を格納する（ステップＳ０８１６）。更に割当比率が未決定の品目が存在するのであれば（ステップＳ０８１２・ＹＥＳ）、その品目についてステップＳ０８１４、ステップＳ０８１６が実行される（繰り返される）。なお、割当比率が未決定の品目が存在しないのであれば（ステップＳ０８１２・ＮＯ）、ステップＳ０８０６に戻る。

ステップＳ０８０６にて、仕入れ数が未決定の品目が更に存在するのであれば（ステップＳ０８０６・ＹＥＳ）、ステップＳ０８０８〜ステップＳ０８１２が実行される（繰り返される）。ステップＳ０８０６にて、仕入れ数が未決定の品目が存在しない、と判断されれば（ステップＳ０８０６・ＮＯ）、報酬Ｒが計算されて受理され、更に在庫数が更新される（ステップＳ０８１８）。

更に、作業を終了するかどうか確認され（ステップＳ０８２０）、終了するのであれば（ステップＳ０８２０・ＹＥＳ）、全体作業を終了する（ステップＳ０８２２）。終了しないのであれば（ステップＳ０８２０・ＮＯ）、ステップＳ０８０４に戻り、決定する品目の仕入れ数の初期化から予備学習を再開する。

［他の実施形態］
以上のように、本出願において開示する技術の例示として、第１の実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。

また、実施形態を説明するために、添付図面および詳細な説明を提供した。したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

１・・・食品仕入れ数決定支援システム、２・・・食品仕入れ数決定支援装置、４・・・制御部、６・・・表示部、８・・・入力部、１０・・・記憶部、１２・・・通信インタフェース部、１４・・・バス、１６・・・外部ネットワーク、１８・・・管理サーバ。

Claims

食品仕入れ数の最適組合せ学習及び導出法に係る食品仕入れ数決定支援システムにおいて、
食品仕入れ数最適組み合わせの学習モデルを作成する学習部と、並びに、
前記学習モデルに基づいて、各品目の仕入れ数候補毎の評価値、及び、一品目の仕入れ数が複数に割り当てられる場合の割当比率候補毎の評価値を算出する演算部とを備え、
前記学習モデルは少なくとも、各品目における仕入れ数候補と、状態記述パラメータと、割引率と、及び第１の評価関数と、並びに、一品目の仕入れ数が複数に割り当てられる場合の割当比率候補と、状態記述パラメータと、及び第２の評価関数とで、構成され、
前記学習部は、
各品目について、ロス額に基づいて割引率を決定し、仕入れ数候補毎に、状態記述パラメータ及び確定した粗利に基づいて第１の評価関数を決定し、
更に、一品目の仕入れ数が複数に割り当てられる場合に、割当比率候補毎に、状態記述パラメータ及び確定した粗利に基づいて第２の評価関数を決定し、
前記演算部は、
各品目の仕入れ数候補毎の評価値を、前記学習モデルにおける、各品目の仕入れ数候補毎の第１の評価関数から導出し、
一品目の仕入れ数が複数に割り当てられる場合の割当比率候補毎の評価値を、前記学習モデルにおける、割当比率候補毎の第２の評価関数から導出する、
食品仕入れ数決定支援システム。