JP2020071811A

JP2020071811A - 情報処理装置、情報処理システム、学習装置、学習済の推定モデル、および学習用データの収集方法

Info

Publication number: JP2020071811A
Application number: JP2018207329A
Authority: JP
Inventors: 悠樹北原; Yuki Kitahara; 玄嗣小原; Genji Kohara; 岳川上; Gaku Kawakami
Original assignee: Shinwa Patent Service Co Ltd
Current assignee: Shinwa Patent Service Co Ltd
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2020-05-07
Anticipated expiration: 2038-11-02
Also published as: WO2020090117A1; JP6472925B1

Abstract

【課題】客の特徴を表わす特徴量に基づいて、複数の服飾アイテムの中から客に応じた服飾アイテムをより高い精度で提案する技術を提供する。【解決手段】情報処理装置は、カメラで客を撮像して得られた画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定するための領域特定部と、画像の顔領域から第１特徴量を抽出するとともに、画像の体領域から第２特徴量を抽出するための画像特徴抽出部と、マイクロフォンで収集された音声のうち客の発話に対応する部分の音声から第３特徴量を抽出するための音声特徴抽出部と、第１特徴量、第２特徴量および第３特徴量の入力を受けて、複数の服飾アイテムの各々が提案されるべき服飾アイテムであるそれぞれの可能性を、推定結果として出力する学習済の推定モデルと、推定結果に基づいて、客に応じた服飾アイテムを表示するための表示部とを含む。【選択図】図１１

Description

本発明は、複数の服飾アイテムの中からに応じた服飾アイテムを提案する技術に関する。

服飾アイテムを販売する店舗においては、多くの服飾アイテムが陳列されており、購入予定者が目的の服飾アイテムを探すことが容易ではない。

例えば、特開２０１７−２１５６６７号公報（特許文献１）は、来店した顧客に対し、当該顧客が所持している物や顧客が見ている販売商品に基づく推奨商品を簡単にレコメンドすることができなかったといった課題に対して、店舗に来店した顧客に対して、当該顧客が身に着けている物品や店舗内の顧客がいる位置に陳列されている販売商品を撮影した写真を用いて、当該写真に写っている物品等の所有者情報に応じた種類の推奨商品に関する商品情報を提案する構成を開示する。

国際公開第２００３／０６９５２６号公報（特許文献２）は、身体的特徴が入力されたとき、その特徴に似合うファッション内容のデータを出力する第１データベース装置と、その第１データベース装置から出力されたファッション内容のデータに基づき、そのファッション内容を提供する店舗のデータを出力する第２データベース装置とを備えているファッションアドバイジングシステムを開示する。

特表２００１−５０２０９０号公報（特許文献３）は、顧客によるファッションショッピングの方法に関し、具体的には、顧客に関するデータに基づいて、購入するための適切なファッションを選択するのを助ける方法を開示する。

特開２０１７−２１５６６７号公報国際公開第２００３／０６９５２６号公報特表２００１−５０２０９０号公報

特許文献１に開示される構成は、写真に写っている物品の種類と異なる商品で、例えば、色、形状、模様などのデザイン要素がその物品に合う商品、あるいは、所有者情報が第二所有者情報の場合の推奨商品は、例えば、写真に写っている物品の種類と同じ商品で、例えば、色、形状、模様などのデザイン要素がその物品に合う商品を、レコメンドするものであり、客の嗜好に応じた商品をレコメンドするようなものではない。

特許文献２に開示される構成は、客の身体的特徴が入力されたとき、その特徴に似合うファッション内容を決定することが主眼に置かれており、客の嗜好に応じたファッションを提供するようなものではない。

特許文献３に開示される構成は、バスト、ヒップ、ウエスト、腕長、身長、および正面中心の測定値を含む個人情報を取得して、購入するための衣服アイテムの選択を支援するものであり、衣服アイテムの提案には個人情報が必要となり、汎用的な運用には適さない構成である。

本発明は、客の特徴を表わす特徴量に基づいて、複数の服飾アイテムの中から客に応じた服飾アイテムをより高い精度で提案する技術を提供することを目的としている。

本発明のある局面によれば、客の特徴を表わす特徴量に基づいて複数の服飾アイテムの中から当該客に応じた服飾アイテムを提案する情報処理装置が提供される。情報処理装置は、客を撮像するためのカメラと、音声を収集するためのマイクロフォンと、カメラで客を撮像して得られた画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定するための領域特定部と、画像の顔領域から第１特徴量を抽出するとともに、画像の体領域から第２特徴量を抽出するための画像特徴抽出部と、マイクロフォンで収集された音声のうち客の発話に対応する部分の音声から第３特徴量を抽出するための音声特徴抽出部と、第１特徴量、第２特徴量および第３特徴量の入力を受けて、複数の服飾アイテムの各々が提案されるべき服飾アイテムであるそれぞれの可能性を、推定結果として出力する学習済の推定モデルと、推定結果に基づいて、客に応じた服飾アイテムを表示するための表示部とを含む。推定モデルは、学習用データセットを用いた学習処理により生成され、学習用データセットは、他の客を撮像して得られた画像および当該他の客が発話した音声に対して、当該他の客が購入した服飾アイテムをラベル付けした学習用データを複数含む。

表示部は、マイクロフォンによる音声の収集前に、服飾アイテムの分類を示すカテゴリのリストを表示するとともに、当該リストに表示されているカテゴリのいずれかを音声で選択することを客に促すメッセージを表示するようにしてもよい。

領域特定部は、客が身につけている服飾を表わす部分を体領域として特定するようにしてもよい。

複数の服飾アイテムの各々は、予め定められた複数のカテゴリのいずれかに属していてもよい。情報処理装置は、客が発話した音声に基づいて、複数のカテゴリの中から、客によって選択されたカテゴリを特定するための音声解析部をさらに含んでいてもよい。表示部は、推定結果に基づいて表示される服飾アイテムのうち、音声解析部により特定されたカテゴリに属する服飾アイテムと、当該特定されたカテゴリに属さない服飾アイテムとを異なる表示態様で表示するようにしてもよい。

本発明の別の局面に従う情報処理システムは、客の特徴を表わす特徴量を学習済の推定モデルに入力して複数の服飾アイテムの中から当該客に応じた服飾アイテムを提案する情報処理装置と、推定モデルを生成するための学習装置とを含む。情報処理装置は、客を撮像するためのカメラと、音声を収集するためのマイクロフォンと、カメラで客を撮像して得られた入力画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定するための領域特定部と、入力画像の顔領域から第１特徴量を抽出するとともに、入力画像の体領域から第２特徴量を抽出するための画像特徴抽出部と、マイクロフォンで収集された音声のうち客の発話に対応する部分の音声から第３特徴量を抽出するための音声特徴抽出部とを含む。推定モデルは、第１特徴量、第２特徴量および第３特徴量の入力を受けて、第１特徴量、第２特徴量および第３特徴量の入力を受けて、複数の服飾アイテムの各々が提案されるべき服飾アイテムであるそれぞれの可能性を、推定結果として出力するように学習されている。情報処理装置は、推定結果に基づいて、客に応じた服飾アイテムを表示するための表示部をさらに含む。学習装置は、学習用データセットを取得するための取得部を含む。学習用データセットは、他の客を撮像して得られた学習用画像および当該他の客が発話した学習用音声に対して、当該他の客が購入した服飾アイテムをラベル付けした学習用データを複数含む。学習装置は、さらに、学習用画像内において、他の客の顔を表わす顔領域と、他の客の体を表わす体領域とを特定するための領域特定部と、学習用画像の顔領域から第１学習用特徴量を抽出するとともに、学習用画像の体領域から第２学習用特徴量を抽出するための画像特徴抽出部と、学習用音声のうち他の客の発話に対応する部分の音声から第３学習用特徴量を抽出するための音声特徴抽出部と、学習用データから抽出された、第１学習用特徴量、第２学習用特徴量および第３学習用特徴量を推定モデルに入力して出力される推定結果が、当該学習用データにラベル付けされている服飾アイテムの購入実績に近付くように、推定モデルを最適化するための学習部とを含む。

本発明のさらに別の局面に従えば、客の特徴を表わす特徴量の入力を受けて複数の服飾アイテムの中から当該客に応じた服飾アイテムの提案に用いられる推定モデルを生成するための学習装置が提供される。学習装置は、学習用データセットを取得するための取得部を含む。学習用データセットは、客を撮像して得られた画像および当該客が発話した音声に対して、当該客が購入した服飾アイテムをラベル付けした学習用データを複数含む。学習装置は、画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定するための領域特定部と、画像の顔領域から第１特徴量を抽出するとともに、画像の体領域から第２特徴量を抽出するための画像特徴抽出部と、音声のうち客の発話に対応する部分の音声から第３特徴量を抽出するための音声特徴抽出部と、学習用データから抽出された、第１特徴量、第２特徴量および第３特徴量を推定モデルに入力して出力される推定結果が、当該学習用データにラベル付けされている服飾アイテムの購入実績に近付くように、推定モデルを最適化するための学習部とを含む。

本発明のさらに別の局面に従えば、客の特徴を表わす特徴量の入力を受けて複数の服飾アイテムの中から当該客に応じた服飾アイテムの提案に用いられる学習済の推定モデルが提供される。推定モデルは、学習用データセットを用いた学習処理により生成される。学習用データセットは、客を撮像して得られた画像および当該客が発話した音声に対して、当該客が購入した服飾アイテムをラベル付けした学習用データを複数含む。学習処理は、学習用データの各々について、画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定するステップと、画像の顔領域から第１特徴量を抽出するとともに、画像の体領域から第２特徴量を抽出するステップと、音声のうち客の発話に対応する部分の音声から第３特徴量を抽出するステップと、第１特徴量、第２特徴量および第３特徴量を推定モデルに入力して出力される推定結果が、当該学習用データにラベル付けされている服飾アイテムの購入実績に近付くように、推定モデルを最適化するステップとを含む。

本発明のさらに別の局面に従えば、客の特徴を表わす特徴量の入力を受けて複数の服飾アイテムの中から当該客に応じた服飾アイテムの提案に用いられる推定モデルの学習に用いられる学習用データの収集方法が提供される。学習用データの収集方法は、客を撮像して得られた画像および客の発話を含む音声を取得するステップと、画像および音声から抽出される複数の特徴量を学習済の推定モデルに入力して当該客に応じた服飾アイテムの提案を生成するステップと、識別情報を生成するステップと、生成された服飾アイテムの提案および生成された識別情報を含む、服飾アイテムの購入を促す媒体を発行するステップと、生成された識別情報と画像および音声とを関連付けるステップと、媒体に含まれる識別情報および客が購入した服飾アイテムを取得するステップと、媒体から取得された識別情報と客が購入した服飾アイテムとを関連付けるステップと、識別情報をキーとして画像および音声と客が購入した服飾アイテムとを関連付けて、推定モデルの学習に用いられる学習用データとして保存するステップとを含む。

本発明によれば、客の特徴を表わす特徴量に基づいて、複数の服飾アイテムの中から客に応じた服飾アイテムをより高い精度で提案できる。

本実施の形態に従う服飾提案システムが配置される店舗の外観の一例を示す模式図である。本実施の形態に従う服飾提案システムを構成する表示端末での処理を説明するための図である。本実施の形態に従う服飾提案システムを構成する表示端末での処理を説明するための図である。本実施の形態に従う服飾提案システムを構成する表示端末から出力されたクーポンを利用する来店者を説明するための図である。本実施の形態に従う服飾提案システムにおける学習用データセットの生成処理を説明するための図である。本実施の形態に従う服飾提案システムのシステム構成の一例を示す模式図である。本実施の形態に従う服飾提案システムを構成する表示端末のハードウェア構成の一例を示す模式図である。本実施の形態に従う服飾提案システムを構成するＰＯＳ端末のハードウェア構成の一例を示す模式図である。本実施の形態に従う服飾提案システムを構成する管理装置のハードウェア構成の一例を示す模式図である。本実施の形態に従う服飾提案システムを構成する表示端末の機能構成の一例を示す模式図である。本実施の形態に従う服飾提案システムを構成する表示端末の提案アイテム推定機能における処理内容を説明するための図である。図１１に示す領域特定モジュールによる領域特定の処理を説明するための図である。図１１に示す区間特定モジュールによる区間特定の処理を説明するための図である。図１１に示す推定モデルのネットワーク構成例を示す模式図である。本実施の形態に従う服飾提案システムを構成する表示端末の表示制御機能１５０およびクーポン発行制御機能における処理内容を説明するための図である。本実施の形態に従う服飾提案システムを構成する表示端末の画像音声保存機能１７０における処理内容を説明するための図である。本実施の形態に従う服飾提案システムを構成する表示端末におけるアイテム推定処理の処理手順を示すフローチャートである。本実施の形態に従う服飾提案システムを構成するＰＯＳ端末の機能構成の一例を示す模式図である。本実施の形態に従う服飾提案システムを構成するＰＯＳ端末の売上情報保存機能２５０における処理内容を説明するための図である。本実施の形態に従う服飾提案システムを構成するＰＯＳ端末における売上管理処理の処理手順を示すフローチャートである。本実施の形態に従う服飾提案システムにおける学習フェーズの概要について説明するための図である。本実施の形態に従う服飾提案システムを構成する管理装置の機能構成の一例を示す模式図である。本実施の形態に従う服飾提案システムを構成する管理装置の学習用データセット生成機能３５０における処理内容を説明するための図である。本実施の形態に従う服飾提案システムを構成する管理装置の学習機能３６０における処理内容を説明するための図である。本実施の形態に従う服飾提案システムを構成する管理装置における学習処理の処理手順を示すフローチャートである。本実施の形態の変形例１に従う服飾提案システムのシステム構成の一例を示す模式図である。本実施の形態の変形例２に従う服飾提案システムの表示端末に表示されるアイテム提案画面を説明するための図である。本実施の形態の変形例２に従う服飾提案システムを構成する表示端末の表示制御機能およびクーポン発行制御機能における処理内容を説明するための図である。本実施の形態の変形例３に従う服飾提案システムを構成する表示端末の提案アイテム推定機能における処理内容を説明するための図である。本実施の形態の変形例４に従う服飾提案システムを構成する表示端末の提案アイテム推定機能における処理内容を説明するための図である。本実施の形態の変形例５に従う服飾提案システムの使用例を示す模式図である。本実施の形態の変形例５に従う服飾提案システムの実装例を示す模式図である。

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

＜Ａ．服飾提案システムの概要＞
まず、本発明に係る情報処理システムの典型例として、本実施の形態に従う服飾提案システム１の概要について説明する。

本明細書において、「服飾」は、人が身につける衣服（衣類）および装身具（装飾品）の全般を意味する。「服飾アイテム」は、服飾に含まれる任意の商品を指し示す用語である。説明の簡単化のため、「服飾アイテム」を単に「アイテム」と称することもある。

本明細書において、「客」は、服飾アイテムについて何らかの購入意思を有するユーザ一般を意味するものである。以下の説明においては、店舗の来店する客を「来店者」とも称す。また、携帯端末を介して本実施の形態に従うシステムを利用する客を「ネットユーザ」とも称す。

図１は、本実施の形態に従う服飾提案システム１が配置される店舗の外観の一例を示す模式図である。図２および図３は、本実施の形態に従う服飾提案システム１を構成する表示端末１００での処理を説明するための図である。

図１に示すように、店舗３０に客（以下、「来店者４０」とも称す。）が入店したとする。店舗３０の店内の入り口付近には、情報処理装置の一例である表示端末１００が配置されている。表示端末１００は、比較的大型のディスプレイ１０２と、ディスプレイ１０２に近傍に配置された人感センサ１２８、カメラ１３０およびマイクロフォン１３２とを含む。ディスプレイ１０２の下部には、プリンタ１２０が配置されている。

来店者４０が表示端末１００に接近すると（図２（ａ））、人感センサ１２８がその接近を検知して、ディスプレイ１０２にはカテゴリ選択受付画面５０が表示される（図２（ｂ））。この状態において、表示端末１００のカメラ１３０により来店者４０が撮像される。すなわち、表示端末１００では来店者４０を示す画像（以下、「撮像画像１３６」とも称す。）が取得される。

カテゴリ選択受付画面５０には、１または複数のカテゴリがリスト表示されている。併せて、来店者４０の発話を促すための、「音声でカテゴリを選択して下さい」とのメッセージが表示されている。

その後、表示端末１００のマイクロフォン１３２により音声の収集が開始され、来店者４０が希望するカテゴリを示す音声（図２に示す例では、「ジャケット」）を発すると（図２（ｃ））、ディスプレイ１０２にはアイテム提案画面５２が出力される（図３（ａ））。このとき、表示端末１００では来店者４０が発した音声（以下、「収集音声１３８」とも称す。）が取得される。

このように、ディスプレイ１０２は、マイクロフォン１３２による音声の収集前に、服飾アイテムの分類を示すカテゴリのリストを表示するとともに、当該リストに表示されているカテゴリのいずれかを音声で選択することを来店者４０に促すメッセージを表示する。

アイテム提案画面５２は、来店者４０の嗜好に応じて「おすすめ」と推定された服飾アイテムの一覧表示５４を含む。アイテム提案画面５２に一覧表示されるアイテムは、後述するような学習済モデルを用いたアイテム推定処理の実行により得られる推定結果に基づいて決定される。このように、情報処理装置の一例である表示端末１００は、客の特徴を表わす特徴量（典型的には、撮像画像１３６および収集音声１３８）に基づいて複数の服飾アイテムの中から当該客に応じた服飾アイテムを提案する。

アイテム提案画面５２は、クーポン発行ボタン５６をさらに有している。クーポン発行ボタン５６の押下に応答して、プリンタ１２０からはクーポン１０が出力される。

プリンタ１２０から出力されるクーポン１０は、割引額表示１２に加えて、アイテム提案画面５２に含まれる一覧表示５４に対応する一覧表示１４と、一覧表示１４に含まれる各アイテムが店舗内のいずれに位置にあるのかを示す地図１６とを含む（図３（ｂ））。

さらに、クーポン１０は、後述するクーポンＩＤを示すＱＲコード（登録商標）などの識別画像１８を含む。識別画像１８が示すクーポンＩＤを用いることで、推定モデルの学習に用いられる学習用データセットが生成される。

図４は、本実施の形態に従う服飾提案システム１を構成する表示端末１００から出力されたクーポン１０を利用する来店者４０を説明するための図である。来店者４０は、クーポン１０に印字された内容を参考にしながら、ショッピングを楽しむことができる（図４（ａ））。クーポン１０を提示することで割引が適用されるので、通常、来店者４０は、表示端末１００から出力されたクーポン１０を会計時に提示する（図４（ｂ））。

図５は、本実施の形態に従う服飾提案システム１における学習用データセットの生成処理を説明するための図である。図５を参照して、表示端末１００において取得された撮像画像１３６および収集音声１３８と、購入されたアイテムの情報（以下、「売上情報２１８」とも称す。）とは、クーポン１０（正確には、クーポンＩＤ１６６）を媒介として対応付けられる。このように、対応付けられた撮像画像１３６および収集音声１３８と売上情報２１８とが学習用データセットとして推定モデルの学習に用いられる。

このように、本実施の形態に従う服飾提案システム１においては、入店時に来店者４０の嗜好に基づくアイテムの提案を行うとともに、来店者４０が実際に購入したアイテムの情報を用いて、アイテムの提案を行うための推定モデルを学習することができる。

＜Ｂ．服飾提案システムのハードウェア構成例＞
次に、本実施の形態に従う服飾提案システム１のシステム構成例について説明する。先に、服飾提案システム１の全体構成例を説明した上で、服飾提案システム１に含まれる主要装置のハードウェア構成例について説明する。

（ｂ１：システム構成例）
図６は、本実施の形態に従う服飾提案システム１のシステム構成の一例を示す模式図である。図６を参照して、服飾提案システム１は、ローカルネットワーク２を介して接続された、１または複数の表示端末１００と、１または複数のＰＯＳ端末２００と、管理装置３００とを含む。

表示端末１００は、典型的には店舗３０の入口付近に配置されて、来店者の嗜好に応じた服飾を提案する。より具体的には、表示端末１００は、来店者を撮像することで画像を取得するとともに、当該来店者が発する音声を収集する。表示端末１００は、来店者の画像（以下、「撮像画像」とも称す。）および音声（以下、「収集音声」とも称す。）を学習済モデルに入力することで、当該来店者の嗜好への適合度（以下、「スコア」とも称す。）を販売しているアイテム毎に算出する。表示端末１００は、上位のスコアを有するアイテムを当該来店者へ提案する。表示端末１００は、来店者へ提案したアイテムが印字されたクーポンを発行することもできる。

表示端末１００は、さらに、撮像画像および収集音声を要求に応じて管理装置３００へ送信することもできる。

ＰＯＳ端末２００は、来店者が購入を希望するアイテムの会計処理を実行する。ＰＯＳ端末２００は、購入されたアイテムの情報（売上情報）を生成するとともに、要求に応じて管理装置３００へ送信することもできる。

管理装置３００は、表示端末１００が利用する学習済モデルの管理および更新を担当する。より具体的には、管理装置３００は、表示端末１００から撮像画像および収集音声を取得するとともに、ＰＯＳ端末２００から売上情報を取得する。そして、管理装置３００は、取得した撮像画像および収集音声と取得した売上情報とから学習用データセットを生成する。管理装置３００は、生成した学習用データセットを用いて、学習済モデルの学習（新規学習および追加学習の両方を含み得る。）を実行する。

管理装置３００により生成または更新された学習済モデルは、表示端末１００へ送信される。

（ｂ２：表示端末１００）
図７は、本実施の形態に従う服飾提案システム１を構成する表示端末１００のハードウェア構成の一例を示す模式図である。表示端末１００は、汎用コンピュータを用いて実現されてもよい。

図７を参照して、表示端末１００は、主要なハードウェア要素として、ディスプレイ１０２と、プロセッサ１０４と、メモリ１０６と、ネットワークコントローラ１０８と、ストレージ１１０と、プリンタ１２０と、光学ドライブ１２２と、タッチ検出部１２６と、人感センサ１２８と、カメラ１３０と、マイクロフォン１３２とを含む。

ディスプレイ１０２は、カテゴリ選択受付画面５０やアイテム提案画面５２などを出力する。ディスプレイ１０２は、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイなどで構成される。

プロセッサ１０４は、後述するような各種プログラムを実行することで、表示端末１００の実現に必要な処理を実行する演算主体である、プロセッサ１０４としては、例えば、１または複数のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで構成される。複数のコアを有するＣＰＵまたはＧＰＵを用いてもよい。

メモリ１０６は、プロセッサ１０４がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ１０６としては、例えば、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）などの揮発性メモリデバイスを用いてもよい。

ネットワークコントローラ１０８は、ローカルネットワーク２を介して、管理装置３００を含む任意の情報処理装置などとの間でデータを送受信する。ネットワークコントローラ１０８は、例えば、イーサネット（登録商標）、無線ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式に対応するようにしてもよい。

ストレージ１１０は、プロセッサ１０４にて実行されるＯＳ（Operating System）１１２、後述するような機能構成を実現するためのアプリケーションプログラム１１４、学習済モデル１１６、およびアイテム提案画面５２を生成するためのアイテム画像１１８などを格納する。ストレージ１１０としては、例えば、ハードディスク、ＳＳＤ（Solid State Drive）などの不揮発性メモリデバイスを用いてもよい。さらに、ストレージ１１０には、来店者を撮像して取得される撮像画像および当該来店者が発する音声である収集音声を格納するようにしてもよい。

アプリケーションプログラム１１４をプロセッサ１０４で実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳ１１２が標準で提供するライブラリまたは機能モジュールを用いるようにしてもよい。この場合には、アプリケーションプログラム１１４単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳ１１２の実行環境下にインストールされることで、後述するような機能構成を実現できることになる。そのため、このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

プリンタ１２０は、来店者へ提案したアイテムが印字されたクーポンを発行する。プリンタ１２０としては、電子写真方式、インクジェット方式および感熱紙方式などの任意の印刷方式を採用できる。

光学ドライブ１２２は、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）などの光学ディスク１２４に格納されているプログラムなどの情報を読み出す。光学ディスク１２４は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ１２２が光学ディスク１２４からプログラムを読み出して、ストレージ１１０にインストールすることで、本実施の形態に従う表示端末１００を構成できる。したがって、本発明の主題は、ストレージ１１０などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク１２４などの記録媒体でもあり得る。

図７には、非一過的な記録媒体の一例として、光学ディスク１２４などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（Magneto-Optical disk）などの光磁気記録媒体を用いてもよい。

あるいは、表示端末１００を実現するためのプログラムは、上述したような任意の記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

タッチ検出部１２６は、ディスプレイ１０２に対応付けられて配置されており、ディスプレイ１０２への入力操作を検知する。タッチ検出部１２６としては、静電容量方式、抵抗膜方式、超音波表面弾性波方式などの任意の検出方式を採用できる。

人感センサ１２８は、赤外線などを用いて、表示端末１００への来店者の接近を検知する。

カメラ１３０は、来店者を撮像するデバイスであり、ディスプレイ１０２の表示エリアの近傍などに配置され、ディスプレイ１０２に正対する来店者を視野に含むように構成される。カメラ１３０は、視野範囲を所定周期で連続的に撮像するようにしてもよいし、プロセッサ１０４などから発せられる指令に応じて撮像を行うようにしてもよい。

マイクロフォン１３２は、音声を収集するためのデバイスであり、来店者が発する音声を収集可能な、ディスプレイ１０２の表示エリアの近傍などに配置される。マイクロフォン１３２は、ディスプレイ１０２に正対する来店者の声のみを収集することが好ましく、そのため、先鋭な指向性を有することが好ましい。

図７には、汎用コンピュータ（プロセッサ１０４）がアプリケーションプログラム１１４を実行することで表示端末１００を実現する構成例を示すが、表示端末１００を実現するために必要な機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired circuit）を用いて実現してもよい。例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などを用いて実現してもよい。

（ｂ３：ＰＯＳ端末２００）
図８は、本実施の形態に従う服飾提案システム１を構成するＰＯＳ端末２００のハードウェア構成の一例を示す模式図である。図８を参照して、ＰＯＳ端末２００は、主要なハードウェア要素として、ディスプレイ２０２と、プロセッサ２０４と、メモリ２０６と、ネットワークコントローラ２０８と、ストレージ２１０と、プリンタ２２０と、光学ドライブ２２２と、タッチ検出部２２６と、光学読取機２２８と、入力部２３０と、決済処理部２３２とを含む。

ディスプレイ２０２は、アイテムの会計処理に必要な情報などを表示する。ディスプレイ２０２は、例えば、ＬＣＤや有機ＥＬディスプレイなどで構成される。

プロセッサ２０４は、後述するような各種プログラムを実行することで、ＰＯＳ端末２００の実現に必要な処理を実行する演算主体である、プロセッサ２０４としては、例えば、１または複数のＣＰＵなどで構成される。複数のコアを有するＣＰＵを用いてもよい。

メモリ２０６は、プロセッサ２０４がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ２０６としては、例えば、ＤＲＡＭやＳＲＡＭなどの揮発性メモリデバイスを用いてもよい。

ネットワークコントローラ２０８は、ローカルネットワーク２を介して、管理装置３００を含む任意の情報処理装置などとの間でデータを送受信する。ネットワークコントローラ２０８は、例えば、イーサネット、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈなどの任意の通信方式に対応するようにしてもよい。

ストレージ２１０は、プロセッサ２０４にて実行されるＯＳ２１２、後述するような機能構成を実現するためのアプリケーションプログラム２１４、会計処理に必要な各アイテムの価格や属性情報などを含むアイテム情報２１６、および購入されたアイテムの情報である売上情報２１８などを格納する。ストレージ２１０としては、例えば、ハードディスク、ＳＳＤなどの不揮発性メモリデバイスを用いてもよい。

アプリケーションプログラム２１４をプロセッサ２０４で実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳ２１２が標準で提供するライブラリまたは機能モジュールを用いるようにしてもよい。この場合には、アプリケーションプログラム２１４単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳ２１２の実行環境下にインストールされることで、後述するような機能構成を実現できることになる。そのため、このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

プリンタ２２０は、会計処理の結果など印字されたレシートを発行する。プリンタ２２０としては、電子写真方式、インクジェット方式および感熱紙方式などの任意の印刷方式を採用できる。

光学ドライブ２２２は、ＣＤ−ＲＯＭ、ＤＶＤなどの光学ディスク２２４に格納されているプログラムなどの情報を読み出す。光学ディスク２２４は、非一過的な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ２２２が光学ディスク２２４からプログラムを読み出して、ストレージ２１０にインストールすることで、本実施の形態に従うＰＯＳ端末２００を構成できる。したがって、本発明の主題は、ストレージ２１０などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク２２４などの記録媒体でもあり得る。

図８には、非一過的な記録媒体の一例として、光学ディスク２２４などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯなどの光磁気記録媒体を用いてもよい。

あるいは、ＰＯＳ端末２００を実現するためのプログラムは、上述したような任意の記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

タッチ検出部２２６は、ディスプレイ２０２に対応付けられて配置されており、ディスプレイ２０２への入力操作を検知する。タッチ検出部２２６としては、静電容量方式、抵抗膜方式、超音波表面弾性波方式などの任意の検出方式を採用できる。

光学読取機２２８は、アイテムに付されているアイテムタグの情報やクーポンに含まれるＱＲコードなどを光学的に読み取る。光学読取機２２８としては、レーザスキャン方式やイメージセンシング方式などの任意の検出方式を採用できる。

入力部２３０は、金額は品種などの入力操作を受け付ける。入力部２３０としては、例えば、レジキー、キーボード、マウス、タッチパネル、ペンなどを用いてもよい。

決済処理部２３２は、現金決済に必要な機構、ならびに、クレジットカードなどの電子的決済に必要な機構を含む。より具体的には、決済処理部２３２は、現金決済に関して、紙幣や硬貨を格納するための現金格納部および売上額を管理する売上管理部などを含む。決済処理部２３２は、電子決済に関して、クレジットカードに格納された情報を読み取って決済センタなどとの間で決済情報を遣り取りする機構などを含む。

図８には、汎用コンピュータ（プロセッサ２０４）がアプリケーションプログラム２１４を実行することでＰＯＳ端末２００を実現する構成例を示すが、ＰＯＳ端末２００を実現するために必要な機能の全部または一部を、集積回路などのハードワイヤード回路を用いて実現してもよい。例えば、ＡＳＩＣやＦＰＧＡなどを用いて実現してもよい。

（ｂ４：管理装置３００）
図９は、本実施の形態に従う服飾提案システム１を構成する管理装置３００のハードウェア構成の一例を示す模式図である。図９を参照して、管理装置３００は、主要なハードウェア要素として、ディスプレイ３０２と、プロセッサ３０４と、メモリ３０６と、ネットワークコントローラ３０８と、ストレージ３１０と、入力部３３０とを含む。

ディスプレイ３０２は、管理装置３００での処理に必要な情報を表示する。ディスプレイ３０２は、例えば、ＬＣＤや有機ＥＬディスプレイなどで構成される。

プロセッサ３０４は、後述するような各種プログラムを実行することで、管理装置３００の実現に必要な処理を実行する演算主体である、プロセッサ３０４としては、例えば、１または複数のＣＰＵやＧＰＵなどで構成される。複数のコアを有するＣＰＵまたはＧＰＵを用いてもよい。管理装置３００においては、学習済モデルを生成するための学習処理に適したＧＰＵなどを採用することが好ましい。

メモリ３０６は、プロセッサ３０４がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域を提供する。メモリ３０６としては、例えば、ＤＲＡＭやＳＲＡＭなどの揮発性メモリデバイスを用いてもよい。

ネットワークコントローラ３０８は、ローカルネットワーク２を介して、表示端末１００およびＰＯＳ端末２００を含む任意の情報処理装置などとの間でデータを送受信する。ネットワークコントローラ３０８は、例えば、イーサネット、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈなどの任意の通信方式に対応するようにしてもよい。

ストレージ３１０は、プロセッサ３０４にて実行されるＯＳ３１２、後述するような機能構成を実現するためのアプリケーションプログラム３１４、画像／音声情報３２０および売上情報３２２から学習用データセット３２４を生成するための前処理プログラム３１６、ならびに、学習用データセット３２４を用いて学習済モデル３２６を生成するための学習用プログラム３１８などを格納する。

画像／音声情報３２０は、表示端末１００から取得される撮像画像１３６および収集音声１３８からなる。売上情報３２２は、ＰＯＳ端末２００から取得された売上情報２１８からなる。画像／音声情報３２０および売上情報３２２の取得処理については、後に詳述する。

学習用データセット３２４は、画像／音声情報３２０に売上情報３２２をラベル（あるいは、タグ）として付与した訓練データセットである。学習済モデル３２６は、学習用データセット３２４を用いて学習処理を実行することで得られる推定モデルである。

ストレージ３１０としては、例えば、ハードディスク、ＳＳＤなどの不揮発性メモリデバイスを用いてもよい。

アプリケーションプログラム３１４、前処理プログラム３１６および学習用プログラム３１８をプロセッサ３０４で実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳ３１２が標準で提供するライブラリまたは機能モジュールを用いるようにしてもよい。この場合には、アプリケーションプログラム３１４、前処理プログラム３１６および学習用プログラム３１８の各単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳ３１２の実行環境下にインストールされることで、後述するような機能構成を実現できることになる。そのため、このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

アプリケーションプログラム３１４、前処理プログラム３１６および学習用プログラム３１８は、光学ディスクなどの光学記録媒体、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ならびにＭＯなどの光磁気記録媒体といった非一過的な記録媒体に格納されて流通し、ストレージ３１０にインストールされてもよい。したがって、本発明の主題は、ストレージ３１０などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した記録媒体でもあり得る。

あるいは、管理装置３００を実現するためのプログラムは、上述したような任意の記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

入力部３３０は、各種の入力操作を受け付ける。入力部３３０としては、例えば、キーボード、マウス、タッチパネル、ペンなどを用いてもよい。

図９には、汎用コンピュータ（プロセッサ３０４）がアプリケーションプログラム３１４、前処理プログラム３１６および学習用プログラム３１８を実行することで管理装置３００を実現する構成例を示すが、管理装置３００を実現するために必要な機能の全部または一部を、集積回路などのハードワイヤード回路を用いて実現してもよい。例えば、ＡＳＩＣやＦＰＧＡなどを用いて実現してもよい。

（ｂ５：統合型構成／クラウド構成）
図６〜図９には、典型例として、表示端末１００、ＰＯＳ端末２００および管理装置３００の各々が担当する機能を実現するためにプロセッサを有している構成を例示したが、これに限らず、服飾提案システム１の実現に必要な機能をより少ない演算主体で実現する統合型の構成を採用してもよい。

このような統合型の構成の一例としては、表示端末１００およびＰＯＳ端末２００が担当する機能を管理装置３００において実現するとともに、表示端末１００およびＰＯＳ端末２００は、いわばシンクライアントのようなユーザインターフェイスのみを提供するようにしてもよい。

さらに、管理装置３００についても、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して実現するようにしてもよい。複数のコンピュータが連携する場合、一部のコンピュータがいわゆるクラウドコンピュータと称される、ネットワーク上にある不特定のコンピュータであってもよい。

当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う服飾提案システム１を実現できるであろう。

＜Ｃ．表示端末１００の機能および処理＞
次に、本実施の形態に従う服飾提案システム１を構成する表示端末１００の機能および処理について説明する。服飾提案システム１において、表示端末１００は、学習済モデル（推定モデル）を用いた服飾の提案という運用フェーズを担当するとともに、学習済モデルを構築するための学習フェーズの一部も担当することになる。

（ｃ１：表示端末１００の機能構成）
図１０は、本実施の形態に従う服飾提案システム１を構成する表示端末１００の機能構成の一例を示す模式図である。図１０に示す各機能は、典型的には、表示端末１００のプロセッサ１０４がＯＳ１１２およびアプリケーションプログラム１１４（いずれも図７参照）を実行することで実現されてもよい。

図１０を参照して、表示端末１００は、機能構成として、提案アイテム推定機能１４０と、表示制御機能１５０と、クーポン発行制御機能１６０と、画像音声保存機能１７０とを有している。

提案アイテム推定機能１４０は、カメラ１３０により来店者を撮像して得られた撮像画像１３６、および、マイクロフォン１３２により来店者が発した音声を収集して得られた収集音声１３８を入力として受け付けて、学習済モデル１１６に入力することで、推定結果を出力する。

表示制御機能１５０は、提案アイテム推定機能１４０からの推定結果を受け付けて、来店者の嗜好に応じた服飾を提案する画面を生成する。

クーポン発行制御機能１６０は、表示制御機能１５０が来店者に提案したアイテムの情報を受け付けて、クーポンＩＤ１６６を生成するとともに、提案アイテムおよびクーポンＩＤ１６６が印字されたクーポン１０を発行する。

画像音声保存機能１７０は、提案アイテム推定機能１４０が入力として受け付けた撮像画像１３６および収集音声１３８に、クーポン発行制御機能１６０が生成したクーポンＩＤ１６６を付与して保存する。画像音声保存機能１７０により保存される撮像画像１３６および収集音声１３８（クーポンＩＤ１６６が付与されている）は、後述するように、管理装置３００へ送信されて、学習済モデルを生成するための学習処理に用いられる。

（ｃ２：提案アイテム推定機能１４０）
次に、図１０に示す表示端末１００の提案アイテム推定機能１４０の詳細について説明する。

図１１は、本実施の形態に従う服飾提案システム１を構成する表示端末１００の提案アイテム推定機能１４０における処理内容を説明するための図である。図１１を参照して、表示端末１００は、提案アイテム推定機能１４０として、領域特定モジュール１４１と、サイズ調整モジュール１４２，１４３と、区間特定モジュール１４４と、リサンプリングモジュール１４５とを含む。

領域特定モジュール１４１は、撮像画像１３６に含まれる被写体（来店者）を解析して、顔領域および体領域を特定する。すなわち、領域特定モジュール１４１は、カメラ１３０で客を撮像して得られた画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定する。領域特定モジュール１４１は、特定した顔領域および体領域に対応する顔領域部分画像１４７および体領域部分画像１４８を撮像画像１３６から抽出して出力する。

典型的には、領域特定モジュール１４１は、目や鼻などの顔特徴を抽出するとともに、手足などの骨格特徴を抽出することで、顔領域および体領域を特定する。このとき、領域特定モジュール１４１は、客が身につけている服飾を表わす部分を体領域として特定するようにしてもよい。

図１２は、図１１に示す領域特定モジュール１４１による領域特定の処理を説明するための図である。図１２を参照して、領域特定モジュール１４１は、来店者の顔を含む領域を顔領域部分画像１４７として抽出し、来店者の顔より下部の領域を体領域部分画像１４８として抽出する。

顔領域部分画像１４７は、来店者の性別や年齢などの属性情報を含むと考えられ、体領域部分画像１４８は、来店者の現在の服装に関する情報（すなわち、服飾の嗜好傾向を示す情報）を含むと考えられる。

再度図１１を参照して、領域特定モジュール１４１が撮像画像１３６から抽出した顔領域部分画像１４７は、サイズ調整モジュール１４２へ出力される。同様に、領域特定モジュール１４１が撮像画像１３６から抽出した体領域部分画像１４８は、サイズ調整モジュール１４３へ出力される。

サイズ調整モジュール１４２および１４３において、顔領域部分画像１４７および体領域部分画像１４８は、予め定められた次元をもつ特徴量（特徴量ベクトル）に変換されて推定モデル１４００に与えられる。ここで、領域特定モジュール１４１により抽出される顔領域部分画像１４７および体領域部分画像１４８の画像サイズは変動し得るため、サイズ調整モジュール１４２および１４３は画像サイズを規格化する。

より具体的には、サイズ調整モジュール１４２は、領域特定モジュール１４１からの顔領域部分画像１４７を予め定められた画素数の画像に調整した上で、調整後の画像を構成する各画素の画素値を顔領域特徴量１４１０として推定モデル１４００に入力する。

同様に、サイズ調整モジュール１４３は、領域特定モジュール１４１からの体領域部分画像１４８を予め定められた画素数の画像に調整した上で、調整後の画像を構成する各画素の画素値を体領域特徴量１４２０として推定モデル１４００に入力する。

このように、サイズ調整モジュール１４２，１４３は、顔領域部分画像１４７（画像の顔領域）から顔領域特徴量１４１０（第１特徴量）を抽出するとともに、体領域部分画像１４８（画像の体領域）から体領域特徴量１４２０（第２特徴量）を抽出する。

区間特定モジュール１４４は、収集音声１３８に含まれる来店者が発した音声の区間を特定して、特定区間音声１４９を抽出して出力する。典型的には、区間特定モジュール１４４は、収集音声１３８が示す音声の時間的変化を解析して、表示端末１００の周囲にある雑音成分に対して、振幅あるいは周波数などが変化した区間を特定することで、特定区間音声１４９を抽出する。

図１３は、図１１に示す区間特定モジュール１４４による区間特定の処理を説明するための図である。図１３を参照して、区間特定モジュール１４４は、収集音声１３８が示す音声の時間的変化のうち、前後の時間的変化に対して有意な変化を示す区間を来店者による発話区間であるとして特定し、特定区間音声１４９として抽出する。

特定区間音声１４９は、来店者が希望するカテゴリを発話した音声であるので、希望するカテゴリを特定するための情報を含む。さらに、特定区間音声１４９は、来店者の現在のフィーリング（気分）を示す情報を含むと考えられる。

このように、区間特定モジュール１４４およびリサンプリングモジュール１４５は、マイクロフォン１３２で収集された音声のうち客の発話に対応する部分の音声から音声特徴量１４３０（第３特徴量）を抽出する。

再度図１１を参照して、リサンプリングモジュール１４５が収集音声１３８から抽出した特定区間音声１４９は、リサンプリングモジュール１４５へ出力される。リサンプリングモジュール１４５において、特定区間音声１４９は、予め定められた次元をもつ特徴量（特徴量ベクトル）に変換されて推定モデル１４００に与えられる。ここで、区間特定モジュール１４４により特定される特定区間音声１４９の音声の時間長さは変動し得るため、リサンプリングモジュール１４５が音声サンプリング数を規格化する。

より具体的には、リサンプリングモジュール１４５は、区間特定モジュール１４４からの特定区間音声１４９が示す音声の時間波形を予め定められたサンプル数でサンプリングすることで、各サンプリング点での振幅値を音声特徴量１４３０として推定モデル１４００に入力する。

推定モデル１４００は、ネットワーク構造および対応するパラメータを規定する学習済モデル１１６に基づいて構築される。顔領域特徴量１４１０、体領域特徴量１４２０および音声特徴量１４３０が推定モデル１４００に入力されることで、推定モデル１４００が定義する演算処理が実行されて、推定結果１４５０としてアイテム毎のスコアが算出される。ここで、アイテム毎のスコアは、各服飾アイテムが提案されるべき服飾アイテムであるそれぞれの可能性を示す値である。

推定モデル１４００は、後述するような学習用データセットを用いた学習処理により生成される。後述するように、学習用データセットは、他の客を撮像して得られた画像および当該他の客が発話した音声に対して、当該他の客が購入した服飾アイテムをラベル付けした学習用データを複数含む。

このように、学習済の推定モデルである推定モデル１４００は、顔領域特徴量１４１０（第１特徴量）、体領域特徴量１４２０（第２特徴量）および音声特徴量１４３０（第３特徴量）の入力を受けて、複数の服飾アイテムの各々が提案されるべき服飾アイテムであるそれぞれの可能性（スコア）を、推定結果１４５０として出力する。

（ｃ３：推定モデル１４００）
図１４は、図１１に示す推定モデル１４００のネットワーク構成例を示す模式図である。図１４を参照して、推定モデル１４００は、ＤＮＮ（Deep Neural Network）に分類されるネットワークである。推定モデル１４００は、ＣＮＮ（Convolutional Neural Network）に分類される前処理ネットワーク１４６０，１４７０，１４８０と、中間層１４９０と、出力層に相当する活性化関数１４９２と、Ｓｏｆｔｍａｘ関数１４９４とを含む。

前処理ネットワーク１４６０，１４７０，１４８０は、相対的に次数の大きな顔領域特徴量１４１０、体領域特徴量１４２０および音声特徴量１４３０から、推定結果１４５０を算出するために有効な特徴量を抽出するための一種のフィルタとして機能することが予定されている。前処理ネットワーク１４６０，１４７０，１４８０の各々は、畳み込み層（CONV）およびプーリング層（Pooling）が交互に配置された構成を有している。なお、畳み込み層とプーリング層との数は同数でなくてもよく、また、畳み込み層の出力側にはＲｅＬＵ（正規化線形関数：rectified linear unit）などの活性化関数が配置される。

より具体的には、前処理ネットワーク１４６０は、顔領域特徴量１４１０（ｘ_１１，ｘ_１２，・・・，ｘ_１ｒ）の入力を受けて、来店者の性別や年齢などの属性情報を示す内部特徴量を出力するように構築される。前処理ネットワーク１４７０は、体領域特徴量１４２０（ｘ_２１，ｘ_２２，・・・，ｘ_２ｓ）の入力を受けて、来店者の現在の服装に関する情報（すなわち、服飾の嗜好傾向を示す情報）を示す内部特徴量を出力するように構築される。前処理ネットワーク１４８０は、音声特徴量１４３０（ｘ_３１，ｘ_３２，・・・，ｘ_３ｔ）の入力を受けて、カテゴリを特定するための情報、および、来店者の現在のフィーリング（気分）を示す情報を示す内部特徴量を出力するように構築される。

中間層１４９０は、所定数の層数を有する全結合ネットワークからなり、前処理ネットワーク１４６０，１４７０，１４８０の各々からの出力を、各ノードについて決定される重みおよびバイアスを用いてノード毎に順次結合する。

中間層１４９０の出力側には、ＲｅＬＵなどの活性化関数１４９２が配置され、最終的には、Ｓｏｆｔｍａｘ関数１４９４により確率分布に正規化された上で、推定結果１４５０（ｙ_１，ｙ_２，・・・，ｙ_Ｎ）が出力される。

後述するような学習フェーズにおいては、推定モデル１４００のネットワークを構築する各エレメントのパラメータが最適化される。

（ｃ４：表示制御機能１５０およびクーポン発行制御機能１６０）
次に、図１０に示す表示端末１００の表示制御機能１５０およびクーポン発行制御機能１６０の詳細について説明する。

図１５は、本実施の形態に従う服飾提案システム１を構成する表示端末１００の表示制御機能１５０およびクーポン発行制御機能１６０における処理内容を説明するための図である。図１５を参照して、表示端末１００は、表示制御機能１５０として、表示制御モジュール１５２を含む。

表示制御モジュール１５２は、提案アイテム推定機能１４０により算出される推定結果１４５０を受け付けて、推定結果１４５０において上位のスコアを有するアイテムに対応するアイテム画像１１８を用いてアイテム提案画面５２を生成する。表示制御モジュール１５２は、生成したアイテム提案画面５２をディスプレイ１０２に出力する。すなわち、ディスプレイ１０２は、推定結果１４５０に基づいて、客に応じた服飾アイテムを表示する。

アイテム画像１１８は、アイテムの識別情報に対応付けられた各アイテムの画像を含む。表示制御モジュール１５２は、推定結果１４５０に基づいて、アイテム画像１１８に含まれる画像のうち必要な画像を抽出する。

また、表示端末１００は、クーポン発行制御機能１６０として、クーポン発行制御モジュール１６２と、クーポンＩＤ生成モジュール１６４とを含む。クーポン発行制御モジュール１６２は、表示制御モジュール１５２からの提案アイテムとクーポンＩＤ生成モジュール１６４からのクーポンＩＤ１６６とを受け付けて、それらの情報が印字されたクーポン１０をプリンタから発行する。

クーポンＩＤ生成モジュール１６４は、ユニークな識別情報であるクーポンＩＤ１６６を任意の方法で生成する。なお、クーポンＩＤ１６６は、ＱＲコードなどの形でクーポン１０に印字されてもよい。この場合には、クーポンＩＤ生成モジュール１６４は、所定数の文字列をランダムに生成するとともに、生成された文字列に対応するＱＲコードを生成するようにしてもよい。後述するように、クーポンＩＤ１６６は、学習用データセット３２４を生成するためのキーとして用いられる。

（ｃ５：画像音声保存機能１７０）
次に、図１０に示す表示端末１００の画像音声保存機能１７０の詳細について説明する。

図１６は、本実施の形態に従う服飾提案システム１を構成する表示端末１００の画像音声保存機能１７０における処理内容を説明するための図である。図１６を参照して、表示端末１００は、画像音声保存機能１７０として、対応付けモジュール１７２と、画像音声格納部１７４とを含む。

クーポン発行制御モジュール１６２（図１５参照）がクーポン１０を発行したことに応答して、対応付けモジュール１７２は、発行されたクーポン１０に付与されたクーポンＩＤ１６６を受け付けて、当該クーポン１０の発行に利用された撮像画像１３６および収集音声１３８に受け付けたクーポンＩＤ１６６を対応付ける。対応付けモジュール１７２は、対応付けられたクーポンＩＤ１６６と、撮像画像１３６および収集音声１３８とを一体として画像音声格納部１７４に格納する。

画像音声格納部１７４は、メモリ１０６あるいはストレージ１１０（いずれも図７参照）が提供する記憶領域の少なくとも一部を用いて実現される。画像音声格納部１７４には、クーポンＩＤ１６６、撮像画像１３６および収集音声１３８からなるデータセットの単位でデータが格納される。

（ｃ６：処理手順）
次に、服飾提案システム１を構成する表示端末１００において実行されるアイテム推定処理について説明する。

図１７は、本実施の形態に従う服飾提案システム１を構成する表示端末１００におけるアイテム推定処理の処理手順を示すフローチャートである。図１７に示す各ステップは、典型的には、表示端末１００のプロセッサ１０４がＯＳ１１２およびアプリケーションプログラム１１４（いずれも図７参照）を実行することで実現されてもよい。

図１７を参照して、まず、表示端末１００は、来店者を検知したか否かを判断する（ステップＳ１００）。ステップＳ１００においては、典型的には、人感センサ１２８（図７参照）からの検知結果に基づいて、来店者が存在しているか否かが判断される。来店者が検知されなければ（ステップＳ１００においてＮＯ）、ステップＳ１００の処理が繰り返される。

来店者が検知されると（ステップＳ１００においてＹＥＳ）、表示端末１００は、カテゴリ選択受付画面（図２参照）をディスプレイ１０２に表示する（ステップＳ１０２）。

続いて、表示端末１００は、表示端末１００に正対する来店者をカメラ１３０により撮像することで撮像画像１３６を取得する（ステップＳ１０４）。併せて、表示端末１００は、音声の収集を開始する（ステップＳ１０６）。そして、表示端末１００は、収集される音声に基づいて、来店者の発話を検知したか否かを判断する（ステップＳ１０８）。ステップＳ１０８においては、図１３に示すように、音声の時間的変化に対して有意な変化を示す区間（発話区間）が現れたか否かが判断される。来店者の発話が検知されなければ（ステップＳ１０８においてＮＯ）、ステップＳ１０６およびＳ１０８の処理が繰り返される。このように、表示端末１００は、客を撮像して得られた撮像画像１３６および客の発話を含む収集音声１３８を取得する処理を事項する。

来店者の発話が検知されると（ステップＳ１０８においてＹＥＳ）、表示端末１００は、撮像画像１３６から顔領域部分画像１４７および体領域部分画像１４８を抽出する（ステップＳ１１０）。そして、表示端末１００は、抽出した顔領域部分画像１４７および体領域部分画像１４８をサイズ調整して顔領域特徴量１４１０および体領域特徴量１４２０を抽出する（ステップＳ１１２）。

併せて、表示端末１００は、収集音声１３８に含まれる発話区間を特定区間音声１４９として抽出する（ステップＳ１１４）。そして、表示端末１００は、抽出した特定区間音声１４９をリサンプリングして音声特徴量１４３０を抽出する（ステップＳ１１６）。

表示端末１００は、ステップＳ１１２において生成した顔領域特徴量１４１０および体領域特徴量１４２０、ならびに、ステップＳ１１６において生成した音声特徴量１４３０を推定モデル１４００に入力して推定結果１４５０を生成する（ステップＳ１１８）。

このように、表示端末１００は、撮像画像１３６および収集音声１３８から抽出される複数の特徴量を学習済の推定モデル１４００に入力して当該客に応じた服飾アイテムの提案を生成する処理を実行する。

表示端末１００は、ステップＳ１１８において生成した推定結果１４５０においてスコアが上位のアイテムに基づいてアイテム提案画面５２を生成して出力する（ステップＳ１２０）。

表示端末１００は、クーポン発行ボタンが押下されたか否かを判断する（ステップＳ１２２）。クーポン発行ボタンが押下されなければ（ステップＳ１２２においてＮＯ）、ステップＳ１２２の処理が繰り返される。

クーポン発行ボタンが押下されると（ステップＳ１２２においてＹＥＳ）、表示端末１００は、クーポンＩＤ１６６を生成するとともに、提案アイテムおよびクーポンＩＤ１６６が印字されたクーポン１０を発行する（ステップＳ１２４）。すなわち、表示端末１００は、識別情報であるクーポンＩＤ１６６を生成する処理を実行するとともに、媒体であるクーポン１０を発行する処理を実行する。クーポン１０は、生成された服飾アイテムの提案および生成されたクーポンＩＤ１６６（識別情報）を含むとともに、服飾アイテムの購入を促すための割引の内容が表示されている。

最終的に、表示端末１００は、クーポンＩＤ１６６に対応付けて撮像画像１３６および収集音声１３８を保存する（ステップＳ１２６）。すなわち、表示端末１００は、生成されたクーポンＩＤ１６６（識別情報）と撮像画像１３６および収集音声１３８とを関連付ける処理を実行する。

以上により、一人の来店者に対するアイテム推定処理は完了する。
（ｃ７：小括）
本実施の形態に従う表示端末１００は、来店者の顔領域部分画像１４７から生成される顔領域特徴量１４１０と、来店者の体領域部分画像１４８から生成される体領域特徴量１４２０と、来店者の特定区間音声１４９から生成される音声特徴量１４３０とを推定モデル１４００に与えることで、来店者の嗜好に応じた服飾を提案できる。

また、本実施の形態に従う表示端末１００は、クーポンＩＤ１６６を含むクーポン１０を発行することで、後述するような学習フェーズで使用される学習データセットを生成するためのプラットフォームを提供できる。

＜Ｄ．ＰＯＳ端末２００の機能構成＞
次に、本実施の形態に従う服飾提案システム１を構成するＰＯＳ端末２００の機能および処理について説明する。服飾提案システム１において、ＰＯＳ端末２００は、主として、学習済モデルを構築するための学習フェーズの一部を担当することになる。

（ｄ１：ＰＯＳ端末２００の機能構成）
図１８は、本実施の形態に従う服飾提案システム１を構成するＰＯＳ端末２００の機能構成の一例を示す模式図である。図１８に示す各機能は、典型的には、ＰＯＳ端末２００のプロセッサ２０４がＯＳ２１２およびアプリケーションプログラム２１４（いずれも図８参照）を実行することで実現されてもよい。

図１８を参照して、ＰＯＳ端末２００は、機能構成として、会計機能２４０と、売上情報保存機能２５０とを有している。

会計機能２４０は、来店者がアイテムを購入する際の決済処理を担当する。より具体的には、会計機能２４０は、購入対象のアイテムに付されているアイテムタグ２０の情報およびクーポンから読み取られるクーポンＩＤ１６６に基づいて、購入対象アイテムの金額、割引額、支払額などを算出するとともに、決済処理を実行する。会計機能２４０は、決済処理されたアイテムを示す売上情報２１８を出力する。

売上情報保存機能２５０は、会計機能２４０から出力される売上情報２１８に、クーポン１０から読み取られたクーポンＩＤ１６６を付与して保存する。売上情報保存機能２５０により保存される売上情報２１８（クーポンＩＤ１６６が付与されている）は、後述するように、管理装置３００へ送信されて、学習済モデルを生成するための学習処理に用いられる。

（ｄ２：売上情報保存機能２５０）
次に、図１８に示すＰＯＳ端末２００の売上情報保存機能２５０の詳細について説明する。

図１９は、本実施の形態に従う服飾提案システム１を構成するＰＯＳ端末２００の売上情報保存機能２５０における処理内容を説明するための図である。図１９を参照して、ＰＯＳ端末２００は、売上情報保存機能２５０として、対応付けモジュール２５２と、売上情報格納部２５４とを含む。

会計機能２４０（図１８参照）から売上情報２１８およびクーポンＩＤ１６６が入力されたことに応答して、対応付けモジュール２５２は、売上情報２１８に係るアイテムの購入時に使用されたクーポン１０に付与されていたクーポンＩＤ１６６を受け付けて、売上情報２１８と対応付ける。対応付けモジュール２５２は、対応付けられたクーポンＩＤ１６６と売上情報２１８とを一体として売上情報格納部２５４に格納する。

売上情報格納部２５４は、メモリ１０６あるいはストレージ１１０（いずれも図７参照）が提供する記憶領域の少なくとも一部を用いて実現される。売上情報格納部２５４には、クーポンＩＤ１６６および売上情報２１８からなるデータセットの単位でデータが格納される。

売上情報２１８は、典型的には、アイテム種別（アイテム１，アイテム２，・・・，アイテムＮ）毎に売上個数が格納されている。

（ｄ３：処理手順）
次に、服飾提案システム１を構成するＰＯＳ端末２００において実行される売上管理処理について説明する。

図２０は、本実施の形態に従う服飾提案システム１を構成するＰＯＳ端末２００における売上管理処理の処理手順を示すフローチャートである。図２０に示す各ステップは、典型的には、ＰＯＳ端末２００のプロセッサ２０４がＯＳ２１２およびアプリケーションプログラム２１４（いずれも図８参照）を実行することで実現されてもよい。

図２０を参照して、まず、ＰＯＳ端末２００は、光学読取機２２８（図８参照）によりクーポン１０が読み取られたか否かを判断する（ステップＳ２００）。クーポン１０が読み取られると（ステップＳ２００においてＹＥＳ）、ＰＯＳ端末２００は、読み取られたクーポン１０のクーポンＩＤ１６６を取得する（ステップＳ２０２）。一方、クーポン１０が読み取られなければ（ステップＳ２００においてＮＯ）、ステップＳ２０２の処理はスキップされる。

続いて、ＰＯＳ端末２００は、光学読取機２２８（図８参照）により購入対象のアイテムに付されているアイテムタグ２０が読み取られたか否かを判断する（ステップＳ２０４）。アイテムタグ２０が読み取られると（ステップＳ２０４においてＹＥＳ）、ＰＯＳ端末２００は、読み取られたアイテムタグ２０のアイテム情報を売上情報２１８に追加する（ステップＳ２０６）。

そして、ＰＯＳ端末２００は、アイテムタグの読み取り終了指示が与えられたか否かを判断する（ステップＳ２０８）。アイテムタグの読み取り終了指示が与えられていなければ（ステップＳ２０８においてＮＯ）、ステップＳ２０４以下の処理が繰り返される。

アイテムタグの読み取り終了指示が与えられると（ステップＳ２０８においてＹＥＳ）、ＰＯＳ端末２００は、クーポン１０の有無および現在の売上情報２１８に基づいて支払額を算出する（ステップＳ２１０）。そして、ＰＯＳ端末２００は、ステップＳ２１０において算出した支払額について決済処理を実行する（ステップＳ２１２）。

続いて、ＰＯＳ端末２００は、クーポンＩＤ１６６が取得済であるか否かを判断する（ステップＳ２１４）。すなわち、ステップＳ２００において、クーポン１０が読み取られているか否かを判断する。

クーポンＩＤ１６６が取得済であれば（ステップＳ２１４においてＹＥＳ）、ＰＯＳ端末２００は、クーポンＩＤ１６６に対応付けて売上情報２１８を保存する（ステップＳ２１６）。一方、クーポンＩＤ１６６が取得済でなければ（ステップＳ２１４においてＮＯ）、ステップＳ２１６の処理はスキップされる。以上により、一人の来店者に対する売上管理処理は完了する。

（ｄ４：小括）
本実施の形態に従うＰＯＳ端末２００は、来店者が購入するアイテムの決済処理を実行するとともに、その際に提示されるクーポン１０に付与されているクーポンＩＤ１６６を読み取り、購入されたアイテムと対応付けて保存する。この保存された購入されたアイテムの情報（売上情報２１８）は、後述するような学習フェーズで使用される学習データセットの生成に利用される。

＜Ｅ．学習フェーズの概要＞
次に、本実施の形態に従う服飾提案システム１における学習フェーズの概要について説明する。

本実施の形態に従う服飾提案システム１は、同一の来店者についての、表示端末１００に保存される撮像画像１３６および収集音声１３８と、ＰＯＳ端末２００に保存される売上情報２１８とを対応付けることで、学習用データセット３２４を生成し、生成した学習用データセット３２４を用いて推定モデルを学習する。

図２１は、本実施の形態に従う服飾提案システム１における学習フェーズの概要について説明するための図である。図２１を参照して、表示端末１００は、アイテム推定処理の実行の際に取得した、クーポンＩＤ１６６が対応付けられた撮像画像１３６および収集音声１３８を管理装置３００へ送信する（シーケンスＳＱ１）。同様に、ＰＯＳ端末２００は、売上管理処理の実行の際に取得した、クーポンＩＤ１６６が対応付けられた売上情報２１８を管理装置３００へ送信する（シーケンスＳＱ２）。

管理装置３００は、表示端末１００から送信された撮像画像１３６および収集音声１３８と、ＰＯＳ端末２００から送信された売上情報２１８とを、クーポンＩＤ１６６をキーにして対応付けることで、学習用データセット３２４を生成する（シーケンスＳＱ３）。すなわち、シーケンスＳＱ３は、学習用データセット３２４を生成するための前処理に相当する。

管理装置３００は、生成した学習用データセット３２４を用いて、推定モデルを学習または追加学習することで、学習済モデル３２６を生成する（シーケンスＳＱ４）。そして、管理装置３００は、生成した学習済モデル３２６を表示端末１００の各々に送信する（シーケンスＳＱ５）。表示端末１００は、管理装置３００から送信された学習済モデル３２６を学習済モデル１１６として保存する。すなわち、表示端末１００の学習済モデル１１６が設定あるいは更新される。

図２１に示すように、本実施の形態に従う服飾提案システム１においては、クーポン１０に付与されたクーポンＩＤ１６６を用いて、表示端末１００およびＰＯＳ端末２００のそれぞれで取得される情報同士を結合できるので、来店者に負担を与えることなく、推定モデルの推定精度を高めるための学習用データセット３２４を容易に生成できる。

＜Ｆ．管理装置３００の機能構成＞
次に、本実施の形態に従う服飾提案システム１を構成する管理装置３００の機能および処理について説明する。服飾提案システム１において、管理装置３００は、主として、学習済モデルを構築するための学習フェーズの一部を担当することになる。

（ｆ１：管理装置３００の機能構成）
図２２は、本実施の形態に従う服飾提案システム１を構成する管理装置３００の機能構成の一例を示す模式図である。図２２に示す各機能は、典型的には、管理装置３００のプロセッサ３０４がＯＳ３１２、アプリケーションプログラム３１４、前処理プログラム３１６、および学習用プログラム３１８（いずれも図９参照）を実行することで実現されてもよい。

図２２を参照して、管理装置３００は、機能構成として、撮像画像・収集音声・売上情報取得機能３４０と、学習用データセット生成機能３５０と、学習機能３６０とを有している。

撮像画像・収集音声・売上情報取得機能３４０は、表示端末１００に保存されている、クーポンＩＤ１６６が対応付けられた撮像画像１３６および収集音声１３８、ならびに、ＰＯＳ端末２００に保存されている、クーポンＩＤ１６６が対応付けられた売上情報２１８を取得する。これらのデータは、学習用データセットとして用いられることになる。すなわち、管理装置３００の撮像画像・収集音声・売上情報取得機能３４０は、学習用データセットを取得するための構成に相当する。

表示端末１００およびＰＯＳ端末２００からのデータ取得の方法としては、例えば、表示端末１００およびＰＯＳ端末２００に対して何らかの指令を与えて表示端末１００およびＰＯＳ端末２００がそれぞれデータを送信するようにしてもよいし、管理装置３００が表示端末１００およびＰＯＳ端末２００にアクセスしてそれぞれデータを取得するようにしてもよい。あるいは、表示端末１００およびＰＯＳ端末２００は、予め定められた周期毎にデータを管理装置３００へ送信するようにしてもよい。

学習用データセット生成機能３５０は、表示端末１００から取得されたクーポンＩＤ１６６が対応付けられた撮像画像１３６および収集音声１３８と、ＰＯＳ端末２００から取得されたクーポンＩＤ１６６が対応付けられた売上情報２１８とから、学習用データセット３２４を生成する。

学習機能３６０は、学習用データセット生成機能３５０により生成された学習用データセット３２４を用いて、推定モデルを学習することで学習済モデル３２６を生成する。生成された学習済モデル３２６は、表示端末１００へ送信される。

（ｆ２：学習用データセット生成機能３５０）
次に、図２２に示す管理装置３００の学習用データセット生成機能３５０の詳細について説明する。

図２３は、本実施の形態に従う服飾提案システム１を構成する管理装置３００の学習用データセット生成機能３５０における処理内容を説明するための図である。図２３を参照して、学習用データセット生成機能３５０に関して、管理装置３００は、表示端末１００から取得された、クーポンＩＤ１６６が対応付けられた撮像画像１３６および収集音声１３８と、ＰＯＳ端末２００から取得された、クーポンＩＤ１６６が対応付けられた売上情報２１８とを比較して、同一のクーポンＩＤ１６６を有するデータ間を対応付ける。

図２３には、一例として、クーポンＩＤ１６６として「０１」，「０２」，「０３」がそれぞれ付与された撮像画像１３６と収集音声１３８とのデータの組、ならびに、クーポンＩＤ１６６として「０２」，「０３」，「０８」がそれぞれ付与された売上情報２１８が示されている。これらのうち、クーポンＩＤ１６６が「０２」および「０３」が付与されたデータについては、撮像画像１３６、収集音声１３８および売上情報２１８のすべてが揃うことになる。これらの３種類のデータを学習用データ（入力情報と推定結果の正解値との関係）として決定できる。複数のクーポンＩＤ１６６について学習用データをそれぞれ生成することで、学習用データセット３２４を生成できる。

このとき、後述するような学習処理に適合させるために、売上情報２１８がラベル（タグ）として用いられる。すなわち、学習用データセット３２４は、任意の客を撮像して得られた撮像画像１３６（学習用画像）および当該任意の客が発話した収集音声１３８（学習用音声）に対して、当該任意の客が購入した服飾アイテム（売上情報２１８）がラベル付けされている。

（ｆ３：学習機能３６０）
次に、図２２に示す管理装置３００の学習機能３６０の詳細について説明する。

図２４は、本実施の形態に従う服飾提案システム１を構成する管理装置３００の学習機能３６０における処理内容を説明するための図である。図２４を参照して、管理装置３００は、学習機能３６０として、領域特定モジュール１４１と、サイズ調整モジュール１４２，１４３と、区間特定モジュール１４４と、リサンプリングモジュール１４５とを含む。これらのモジュールは、表示端末１００が、提案アイテム推定機能１４０として有しているモジュールと実質的に同一である。そのため、これらのモジュールについての詳細な説明は繰り返さない。

さらに、管理装置３００は、学習機能３６０として、パラメータ最適化モジュール３６２を含む。パラメータ最適化モジュール３６２は、推定モデル１４００を規定するためのモデルパラメータ３６４を最適化することで、学習済モデル３２６を生成する。

パラメータ最適化モジュール３６２は、学習用データセット３２４に含まれる撮像画像１３６、収集音声１３８および売上情報２１８の各組（学習用データ）を用いて、モデルパラメータ３６４を最適化する。

より具体的には、パラメータ最適化モジュール３６２は、学習用データセット３２４に含まれる各組の撮像画像１３６および収集音声１３８から、顔領域特徴量１４１０、体領域特徴量１４２０および音声特徴量１４３０を生成して、推定モデル１４００に入力することで推定結果１４５０を算出する。そして、パラメータ最適化モジュール３６２は、推定モデル１４００から出力される推定結果１４５０と対応する売上情報２１８（正解ラベル）とを比較することで誤差を算出し、算出した誤差に応じてモデルパラメータ３６４の値を最適化（調整）する。

すなわち、パラメータ最適化モジュール３６２は、学習部に相当し、学習用データ（撮像画像１３６および収集音声１３８に売上情報２１８がラベル付けされている）から抽出された、顔領域特徴量１４１０（第１特徴量）、体領域特徴量１４２０（第２特徴量）および音声特徴量１４３０（第３特徴量）を推定モデル１４００に入力して出力される推定結果１４５０が、当該学習用データにラベル付けされている服飾アイテムの購入実績（売上情報２１８）に近付くように、推定モデル１４００を最適化する。言い換えれば、パラメータ最適化モジュール３６２は、学習用データに含まれる撮像画像１３６および収集音声１３８から特徴量を抽出して推定モデル１４００に入力したときに算出される推定結果１４５０が対応する売上情報２１８と一致するようにモデルパラメータ３６４を調整する。

同様の手順で、学習用データセット３２４に含まれる各学習用データ（撮像画像１３６、収集音声１３８および売上情報２１８）に基づいて、推定モデル１４００のモデルパラメータ３６４を繰り返し最適化することで、学習済モデル３２６が生成される。

パラメータ最適化モジュール３６２がモデルパラメータ３６４の値を最適化するにあたっては、任意の最適化アルゴリズムを用いることができる。より具体的には、最適化アルゴリズムとしては、例えば、ＳＧＤ（Stochastic Gradient Descent：確率的勾配降下法）、ＭｏｍｅｎｔｕｍＳＧＤ（慣性項付加ＳＧＤ）、ＡｄａＧｒａｄ、ＲＭＳｐｒｏｐ、ＡｄａＤｅｌｔａ、Ａｄａｍ（Adaptive moment estimation）などの勾配法を用いることができる。

なお、推定モデル１４００から出力される推定結果１４５０の各要素を正規化された確率として出力する場合には、売上情報２１８に含まれるアイテム種別（アイテム１，アイテム２，・・・，アイテムＮ）毎の売上個数（図１９参照）についても正規化しておくことが好ましい。

パラメータ最適化モジュール３６２によりモデルパラメータ３６４を最適化された推定モデル１４００は、学習済モデル３２６に相当し、表示端末１００へ送信される。

（ｆ４：処理手順）
次に、服飾提案システム１を構成する管理装置３００において実行される学習処理について説明する。

図２５は、本実施の形態に従う服飾提案システム１を構成する管理装置３００における学習処理の処理手順を示すフローチャートである。図２５に示す各ステップは、典型的には、管理装置３００のプロセッサ３０４がＯＳ３１２、アプリケーションプログラム３１４、前処理プログラム３１６、および学習用プログラム３１８（いずれも図９参照）を実行することで実現されてもよい。

図２５を参照して、管理装置３００は、表示端末１００からクーポンＩＤ１６６が付与された撮像画像１３６および収集音声１３８を取得する（ステップＳ３００）。併せて、管理装置３００は、ＰＯＳ端末２００からクーポンＩＤ１６６が付与された売上情報２１８を取得する（ステップＳ３０２）。すなわち、管理装置３００は、媒体であるクーポン１０に含まれるクーポンＩＤ１６６（識別情報）および客が購入した服飾アイテム（売上情報２１８）を取得する処理を実行する。

そして、管理装置３００は、クーポンＩＤ１６６をキーにして、撮像画像１３６および収集音声１３８と、売上情報２１８とを対応付けることで、学習用データセット３２４を生成する（ステップＳ３０４）。すなわち、管理装置３００は、媒体であるクーポン１０から取得されたクーポンＩＤ１６６（識別情報）と客が購入した服飾アイテム（売上情報２１８）とを関連付ける処理を実行し、さらに、クーポンＩＤ１６６をキーとして撮像画像１３６および収集音声１３８と売上情報２１８とを関連付けて、推定モデル１４００の学習に用いられる学習用データとして保存する処理を実行する。

管理装置３００は、生成した学習用データセット３２４のうち、１つのデータの組（学習用データ）を選択する（ステップＳ３０６）。

管理装置３００は、選択したデータの撮像画像１３６から顔領域部分画像１４７および体領域部分画像１４８を抽出する（ステップＳ３０８）。そして、管理装置３００は、抽出した顔領域部分画像１４７および体領域部分画像１４８をサイズ調整して顔領域特徴量１４１０および体領域特徴量１４２０を抽出する（ステップＳ３１０）。

このように、管理装置３００は、各学習用データの撮像画像１３６内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定する処理を実行する。そして、管理装置３００は、撮像画像１３６の顔領域から顔領域特徴量１４１０（第１特徴量）を抽出するとともに、撮像画像１３６の体領域から体領域特徴量１４２０（第２特徴量）を抽出する処理を実行する。

併せて、管理装置３００は、選択したデータの収集音声１３８に含まれる発話区間を特定区間音声１４９として抽出する（ステップＳ３１２）。そして、管理装置３００は、抽出した特定区間音声１４９をリサンプリングして音声特徴量１４３０を抽出する（ステップＳ３１４）。このように、管理装置３００は、収集音声１３８のうち客の発話に対応する部分の音声から音声特徴量１４３０（第３特徴量）を抽出する処理を実行する。

管理装置３００は、ステップＳ３１０において生成した顔領域特徴量１４１０および体領域特徴量１４２０、ならびに、ステップＳ３１４において生成した音声特徴量１４３０を推定モデル１４００に入力して推定結果１４５０を生成する（ステップＳ３１６）。

管理装置３００は、選択したデータの売上情報２１８とステップＳ３１６において生成した推定結果１４５０との誤差に基づいて推定モデルのモデルパラメータ３６４を最適化する（ステップＳ３１８）。

このように、管理装置３００は、顔領域特徴量１４１０（第１特徴量）、体領域特徴量１４２０（第２特徴量）および音声特徴量１４３０（第３特徴量）を推定モデル１４００に入力して出力される推定結果１４５０が、当該学習用データにラベル付けされている服飾アイテムの購入実績（売上情報２１８）に近付くように、推定モデル１４００を最適化する処理を実行する。

そして、管理装置３００は、ステップＳ３０４において生成した学習用データセット３２４のすべてを処理したか否かを判断する（ステップＳ３２０）。学習用データセット３２４のすべてを処理していなければ（ステップＳ３２０においてＮＯ）、ステップＳ３０６以下の処理が繰り返される。

学習用データセット３２４のすべてを処理していれば（ステップＳ３２０においてＹＥＳ）、管理装置３００は、現在のモデルパラメータ３６４により規定される学習済モデル３２６を各表示端末１００へ送信する（ステップＳ３２２）。以上により、学習処理は完了する。

（ｆ５：小括）
本実施の形態に従う管理装置３００は、表示端末１００から取得される撮像画像１３６および収集音声１３８と、ＰＯＳ端末２００から取得される売上情報２１８とを、クーポンＩＤ１６６をキーにして対応付けることで、学習用データセット３２４を容易に生成できる。このような学習用データセット３２４を用いることで、推定モデルの構築あるいは学習済モデル３２６の追加学習が可能となる。これによって、服飾の提案精度を高めることができる。

＜Ｇ．変形例＞
上述の実施の形態においては、典型例として、表示端末１００、ＰＯＳ端末２００および管理装置３００が単一の店舗３０に配置された服飾提案システム１を例示したが、これに限らず、各種の変形が可能である。以下、いくつかの変形例について説明する。

（ｇ１：複数店舗連携：変形例１）
一変形例として、管理装置３００が複数の店舗間を管理するようにしてもよい。

図２６は、本実施の形態の変形例１に従う服飾提案システム１Ａのシステム構成の一例を示す模式図である。図２６を参照して、店舗３０Ａおよび店舗３０Ｂの各々には、１または複数の表示端末１００および１または複数のＰＯＳ端末２００が配置されている。各店舗３０は、広域ネットワーク４を介して同一の管理装置３００と接続されている。

管理装置３００は、店舗３０Ａの表示端末１００およびＰＯＳ端末２００から必要な情報（撮像画像１３６、収集音声１３８および売上情報２１８）を取得するとともに、店舗３０Ｂの表示端末１００およびＰＯＳ端末２００から必要な情報を取得する。そして、管理装置３００は、収集した情報に基づいて、両店舗に共通の学習済モデル、あるいは、店舗毎の学習済モデルを生成する。

図２６に示すような構成を採用することで、管理装置３００の配置数を低減できるとともに、より多くの学習用データセットを取得できるので、学習済モデルの推定精度を高めることができる。

（ｇ２：カテゴリ別のアイテム提案：変形例２）
上述の実施の形態に従う推定モデル１４００（図１１参照）には、カテゴリ選択受付画面５０に表示されるカテゴリのいずれかに対応する音声特徴量１４３０が入力されるので、基本的には、出力される推定結果１４５０において、発声されたカテゴリに属するアイテムは相対的に高いスコアを有することになる。なお、複数の服飾アイテムの各々は、予め定められた複数のカテゴリ（商品カテゴリ）のいずれかに属することになる。

但し、選択されたカテゴリに属するアイテムと同時に購入された他のカテゴリに属するアイテムが多数存在する場合には、推定結果１４５０には、相対的に高いスコアを有する他のカテゴリに属するアイテムが混在し得る。このような場合には、アイテム提案画面５２には、選択されたカテゴリ以外のカテゴリに属するアイテムも提案されることになる。

図２７は、本実施の形態の変形例２に従う服飾提案システム１の表示端末１００に表示されるアイテム提案画面を説明するための図である。図２７（ａ）に示すように、推定結果１４５０に他のカテゴリに属するアイテムが相対的に高いスコアを有する場合には、アイテム提案画面５２の一覧表示５４には、当該他のカテゴリに属するアイテム（符号５４Ｍ）が含まれることになる。

このような他のカテゴリに属するアイテムを含み得るアイテム提案画面５２を表示するようにしてもよいが、図２７（ｂ）に示すように、選択されたカテゴリに属するアイテムと、それ以外のカテゴリに属するアイテムとを異なる表示態様で提案してもよい。

すなわち、図２７（ｂ）に示すアイテム提案画面５２は、来店者４０が音声で選択したカテゴリに属するアイテムからなる一覧表示５４と、来店者４０が音声で選択したカテゴリ以外のカテゴリに属するアイテムからなる一覧表示５５とを含む。一覧表示５５には、選択されたカテゴリとは異なるカテゴリではあるものの、過去の販売実績に基づいて、提案にふさわしいアイテムであることを示す「こちらもどうですか」といったメッセージが併せて表示される。

図２８は、本実施の形態の変形例２に従う服飾提案システム１を構成する表示端末１００の表示制御機能１５０Ａおよびクーポン発行制御機能１６０における処理内容を説明するための図である。図２８を参照して、表示端末１００は、表示制御機能１５０Ａとして、表示制御モジュール１５２Ａと、音声解析モジュール１５４と、カテゴリ・アイテム対応情報１５６とを有している。

音声解析モジュール１５４は、来店者４０が発話した収集音声１３８を音声解析することで、来店者４０が音声で選択したカテゴリを特定する。すなわち、音声解析モジュール１５４は、客が発話した音声に基づいて、複数のカテゴリの中から、客によって選択されたカテゴリを特定する。なお、音声解析モジュール１５４による音声解析方法は、公知の任意のアルゴリズムを用いることができる。音声解析モジュール１５４により特定されたカテゴリは、表示制御モジュール１５２Ａへ与えられる。

表示制御モジュール１５２Ａは、提案アイテム推定機能１４０により算出される推定結果１４５０を受け付けて、推定結果１４５０において上位のスコアを有するアイテムを特定する。表示制御モジュール１５２Ａは、カテゴリ・アイテム対応情報１５６を参照して、推定結果１４５０において上位のスコアを有するアイテムの各々が、音声解析モジュール１５４により特定されたカテゴリに属するか否かを判断する。そして、表示制御モジュール１５２Ａは、アイテム画像１１８を参照して、音声解析モジュール１５４により特定されたカテゴリに属するアイテムについては、その画像を一覧表示５４に追加し、音声解析モジュール１５４により特定されたカテゴリ以外のカテゴリに属するアイテムについては、その画像を一覧表示５５に追加することで、アイテム提案画面５２Ａを生成する。生成されたアイテム提案画面５２Ａは、ディスプレイ１０２に表示される。

以上のような表示制御モジュール１５２Ａでの処理が実行されることで、図２７（ｂ）に示されるようなアイテム提案画面５２Ａが提供される。すなわち、ディスプレイ１０２は、推定結果１４５０に基づいて表示される服飾アイテムのうち、音声解析モジュール１５４により特定されたカテゴリに属する服飾アイテムと、当該特定されたカテゴリに属さない服飾アイテムとを異なる表示態様で表示する。このような表示態様を採用することで、来店者４０が選択したカテゴリ以外のアイテムについても購入を促すことができる。

その他の処理および機能については、図１５を参照して説明した内容と実質的に同一であるので、詳細な説明は繰り返さない。

（ｇ３：ネットワーク：変形例３）
上述の実施の形態においては、顔領域特徴量１４１０、体領域特徴量１４２０および音声特徴量１４３０が入力される推定モデル１４００を例示したが、さらに追加の情報を入力可能な推定モデルを採用してもよい。

図２９は、本実施の形態の変形例３に従う服飾提案システム１を構成する表示端末１００の提案アイテム推定機能１４０における処理内容を説明するための図である。図２９には、天気や気温といった気象情報を入力特徴量１４４０として受け付ける推定モデル１４００Ａを示す。このように、入力情報を追加することで、推定精度を高めることができる。

推定モデル１４００Ａに入力する特徴量を追加した場合には、推定モデル１４００Ａの学習に用いられる学習用データセットに含める情報についても、入力される特徴量に対応させて増加させることになる。

なお、図２９には、典型例として、気象情報を示すが、追加的に入力する情報は、これに限らず、提案するアイテムの決定に何らかの関連性が推定される情報であれば、任意の情報を採用できる。例えば、風速や日照時間などの他の気象情報、日時や曜日といった時間情報、当該店舗の混雑具合などの情報を用いてもよい。

（ｇ４：ネットワーク：変形例４）
上述の実施の形態においては、顔領域特徴量１４１０、体領域特徴量１４２０および音声特徴量１４３０が入力される推定モデル１４００を例示したが、一部の情報を代替するような推定モデルを採用してもよい。

図３０は、本実施の形態の変形例４に従う服飾提案システム１を構成する表示端末１００の提案アイテム推定機能１４０における処理内容を説明するための図である。図３０には、音声特徴量１４３０に代えて、カテゴリを示す入力特徴量１４４２を入力する構成例を示す。入力特徴量１４４２については、来店者４０が発話した収集音声１３８を音声解析することで、来店者４０が音声で選択したカテゴリを特定することで生成してもよい。

あるいは、来店者４０が、表示端末１００に表示されるカテゴリ選択受付画面５０において、カテゴリに対応する部分をタッチすることで選択した場合には、そのタッチ操作により選択されたカテゴリを入力特徴量１４４２として入力するようにしてもよい。

なお、図３０には、カテゴリを示す入力特徴量１４４２を入力する例を示すが、上述の図２８に示すような構成を採用することで、入力特徴量１４４２の入力も削除するようにしてもよい。

（ｇ５：携帯端末を用いたアイテム提案：変形例５）
一変形例として、実店舗に代えて、個人所有の携帯端末上で上述したようなアイテム提案を行うようにしてもよい。

図３１は、本実施の形態の変形例５に従う服飾提案システム１Ｂの使用例を示す模式図である。図３１を参照して、携帯端末５００のアプリケーションをインストールすることで、表示端末１００と同様の機能を携帯端末５００上で実現できる。ネットユーザは、携帯端末５００でアプリケーションを実行するとともに、携帯端末５００に搭載されているカメラを用いて自身を撮像しつつ、希望するカテゴリを発声することで、上述したような服飾の提案を受けることができる。

携帯端末５００で本実施の形態に従うアイテム推定処理を実現するための実装としては、任意の形態を採用できる。

図３２は、本実施の形態の変形例５に従う服飾提案システムの実装例を示す模式図である。

図３２（ａ）は、携帯端末５００単体でアイテム推定処理を実現する実装例を示す。図３２（ａ）に示すように、サーバ装置４００からアプリケーション５１０を携帯端末５００にインストールする。アプリケーション５１０は、提案アイテム推定機能５１２と、表示制御機能５１４と、クーポン発行制御機能５１６とを有している。提案アイテム推定機能５１２、表示制御機能５１４およびクーポン発行制御機能５１６は、表示端末１００の提案アイテム推定機能１４０、表示制御機能１５０およびクーポン発行制御機能１６０（いずれも図１０参照）と実質的に同一の処理を実行する。

図３２（ａ）に示す実装例においては、学習済モデル５１８（表示端末１００に配置される学習済モデル１１６と実質的に同一）が携帯端末５００に配置されるので、サーバ装置４００との通信が行えない場合であっても、アイテム推定処理を実行できる。

図３２（ｂ）は、サーバ装置４００と携帯端末５００とが連携してアイテム推定処理を実現する実装例を示す。図３２（ｂ）に示すように、サーバ装置４００からアプリケーション５２０を携帯端末５００にインストールする。アプリケーション５２０は、特徴量生成機能５２２および表示機能５２４を有している。特徴量生成機能５２２は、ネットユーザを撮像することで得られる撮像画像から顔領域特徴量１４１０および体領域特徴量１４２０を抽出するとともに、ネットユーザが発した収集音声１３８から音声特徴量１４３０を生成して、サーバ装置４００へ送信する。

表示機能５２４は、サーバ装置４００からの表示内容を携帯端末５００のディスプレイに出力する。

一方、サーバ装置４００は、提案アイテム推定機能４１２と、表示制御機能４１４と、クーポン発行制御機能４１６とを有している。提案アイテム推定機能４１２は、表示端末１００の提案アイテム推定機能１４０（図１１参照）において特徴量を抽出する機能を除いた部分に対応する。表示制御機能４１４およびクーポン発行制御機能４１６は、表示端末１００の表示制御機能１５０およびクーポン発行制御機能１６０（いずれも図１０参照）と実質的に同一の処理を実行する。

図３２（ｂ）に示す実装例においては、学習済モデル５１８（表示端末１００に配置される学習済モデル１１６と実質的に同一）がサーバ装置４００に配置されるので、サーバ装置４００において学習済モデル５１８の適宜更新などが可能になる。また、携帯端末５００では、特徴量のみを抽出すればよいので、携帯端末５００側のリソースの消費を低減できる。

図３２（ｃ）は、サーバ装置４００と携帯端末５００とが連携してアイテム推定処理を実現する実装例を示す。図３２（ｃ）に示すように、サーバ装置４００からアプリケーション５３０を携帯端末５００にインストールする。アプリケーション５３０は、画像音声送信機能５３２および表示機能５２４を有している。画像音声送信機能５３２は、ネットユーザを撮像することで得られる撮像画像およびネットユーザが発した収集音声１３８をサーバ装置４００へ送信する。

表示機能５３４は、サーバ装置４００からの表示内容を携帯端末５００のディスプレイに出力する。

一方、サーバ装置４００は、提案アイテム推定機能４１２と、表示制御機能４１４と、クーポン発行制御機能４１６とを有している。提案アイテム推定機能４１２、表示制御機能４１４およびクーポン発行制御機能４１６は、表示端末１００の表示制御機能１５０およびクーポン発行制御機能１６０（いずれも図１０参照）と実質的に同一の処理を実行する。

図３２（ｃ）に示す実装例においては、学習済モデル５１８（表示端末１００に配置される学習済モデル１１６と実質的に同一）がサーバ装置４００に配置されるので、サーバ装置４００において学習済モデル５１８の適宜更新などが可能になる。また、携帯端末５００では、撮像画像１３６および収集音声１３８をそのままサーバ装置４００へ送信すればよいので、携帯端末５００側のリソースの消費を低減できる。

（ｇ６：その他）
上述したような変形例に限らず、本発明の趣旨に沿った各種変形が可能であることは自明である。また、上述したそれぞれの変形例については、１または複数を任意に組み合わせることもできる。

＜Ｈ．まとめ＞
本実施の形態に従う服飾提案システム１によれば、来店者の顔領域部分画像１４７から生成される顔領域特徴量１４１０と、来店者の体領域部分画像１４８から生成される体領域特徴量１４２０と、来店者の特定区間音声１４９から生成される音声特徴量１４３０とを入力情報として用いることで、来店者の嗜好に応じた服飾をより高い精度で提案できる。

また、本実施の形態に従う服飾提案システム１によれば、来店者から取得された入力情報（撮像画像１３６および収集音声１３８）と、当該来店者が実際に購入したアイテムとを、クーポン１０に付与されたクーポンＩＤ１６６を用いて互いに対応付けることで学習用データセット３２４を生成できる。このような学習用データセット３２４を用いて、推定モデルを学習することで、推定精度を継続的に高めることができるとともに、新たなアイテムが追加された場合であっても、推定モデルを適合させることができる。

さらに、本実施の形態に従う服飾提案システム１は、支払金額が割り引かれるクーポン１０を発行するので、来店者はクーポン１０を積極的に利用しようとするインセンティブが存在する。その結果、学習用データセット３２４を生成するための情報を収集する可能性を高めることができる。

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１，１Ａ，１Ｂ服飾提案システム、２ローカルネットワーク、４広域ネットワーク、１０クーポン、１２割引額表示、１４，５４，５５一覧表示、１６地図、１８識別画像、２０アイテムタグ、３０，３０Ａ，３０Ｂ店舗、４０来店者、５０カテゴリ選択受付画面、５２，５２Ａアイテム提案画面、５６クーポン発行ボタン、１００表示端末、１０２，２０２，３０２ディスプレイ、１０４，２０４，３０４プロセッサ、１０６，２０６，３０６メモリ、１０８，２０８，３０８ネットワークコントローラ、１１０，２１０，３１０ストレージ、１１２，２１２，３１２ＯＳ、１１４，２１４，３１４アプリケーションプログラム、１１６，３２６，５１８学習済モデル、１１８アイテム画像、１２０，２２０プリンタ、１２２，２２２光学ドライブ、１２４，２２４光学ディスク、１２６，２２６タッチ検出部、１２８人感センサ、１３０カメラ、１３２マイクロフォン、１３６撮像画像、１３８収集音声、１４０，４１２，５１２提案アイテム推定機能、１４１領域特定モジュール、１４２，１４３サイズ調整モジュール、１４４区間特定モジュール、１４５リサンプリングモジュール、１４７顔領域部分画像、１４８体領域部分画像、１４９特定区間音声、１５０，１５０Ａ，４１４，５１４表示制御機能、１５２，１５２Ａ表示制御モジュール、１５４音声解析モジュール、１５６カテゴリ・アイテム対応情報、１６０，４１６，５１６クーポン発行制御機能、１６２クーポン発行制御モジュール、１６４クーポンＩＤ生成モジュール、１６６クーポンＩＤ、１７０画像音声保存機能、１７２，２５２対応付けモジュール、１７４画像音声格納部、２００ＰＯＳ端末、２１６アイテム情報、２１８，３２２売上情報、２２８光学読取機、２３０，３３０入力部、２３２決済処理部、２４０会計機能、２５０売上情報保存機能、２５４売上情報格納部、３００管理装置、３１６前処理プログラム、３１８学習用プログラム、３２０音声情報、３２４学習用データセット、３４０売上情報取得機能、３５０学習用データセット生成機能、３６０学習機能、３６２パラメータ最適化モジュール、３６４モデルパラメータ、４００サーバ装置、５００携帯端末、５１０，５２０，５３０アプリケーション、５２２特徴量生成機能、５２４，５３４表示機能、５３２画像音声送信機能、１４００，１４００Ａ推定モデル、１４１０顔領域特徴量、１４２０体領域特徴量、１４３０音声特徴量、１４４０，１４４２入力特徴量、１４５０推定結果、１４６０，１４７０，１４８０前処理ネットワーク、１４９０中間層、１４９２活性化関数、１４９４Ｓｏｆｔｍａｘ関数。

本発明は、複数の服飾アイテムの中から客に応じた服飾アイテムを提案する技術に関する。

本発明の別の局面に従う情報処理システムは、客の特徴を表わす特徴量を学習済の推定モデルに入力して複数の服飾アイテムの中から当該客に応じた服飾アイテムを提案する情報処理装置と、推定モデルを生成するための学習装置とを含む。情報処理装置は、客を撮像するためのカメラと、音声を収集するためのマイクロフォンと、カメラで客を撮像して得られた入力画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定するための領域特定部と、入力画像の顔領域から第１特徴量を抽出するとともに、入力画像の体領域から第２特徴量を抽出するための画像特徴抽出部と、マイクロフォンで収集された音声のうち客の発話に対応する部分の音声から第３特徴量を抽出するための音声特徴抽出部とを含む。推定モデルは、第１特徴量、第２特徴量および第３特徴量の入力を受けて、複数の服飾アイテムの各々が提案されるべき服飾アイテムであるそれぞれの可能性を、推定結果として出力するように学習されている。情報処理装置は、推定結果に基づいて、客に応じた服飾アイテムを表示するための表示部をさらに含む。学習装置は、学習用データセットを取得するための取得部を含む。学習用データセットは、他の客を撮像して得られた学習用画像および当該他の客が発話した学習用音声に対して、当該他の客が購入した服飾アイテムをラベル付けした学習用データを複数含む。学習装置は、さらに、学習用画像内において、他の客の顔を表わす顔領域と、他の客の体を表わす体領域とを特定するための領域特定部と、学習用画像の顔領域から第１学習用特徴量を抽出するとともに、学習用画像の体領域から第２学習用特徴量を抽出するための画像特徴抽出部と、学習用音声のうち他の客の発話に対応する部分の音声から第３学習用特徴量を抽出するための音声特徴抽出部と、学習用データから抽出された、第１学習用特徴量、第２学習用特徴量および第３学習用特徴量を推定モデルに入力して出力される推定結果が、当該学習用データにラベル付けされている服飾アイテムの購入実績に近付くように、推定モデルを最適化するための学習部とを含む。

続いて、表示端末１００は、表示端末１００に正対する来店者をカメラ１３０により撮像することで撮像画像１３６を取得する（ステップＳ１０４）。併せて、表示端末１００は、音声の収集を開始する（ステップＳ１０６）。そして、表示端末１００は、収集される音声に基づいて、来店者の発話を検知したか否かを判断する（ステップＳ１０８）。ステップＳ１０８においては、図１３に示すように、音声の時間的変化に対して有意な変化を示す区間（発話区間）が現れたか否かが判断される。来店者の発話が検知されなければ（ステップＳ１０８においてＮＯ）、ステップＳ１０６およびＳ１０８の処理が繰り返される。このように、表示端末１００は、客を撮像して得られた撮像画像１３６および客の発話を含む収集音声１３８を取得する処理を実行する。

Claims

客の特徴を表わす特徴量に基づいて複数の服飾アイテムの中から当該客に応じた服飾アイテムを提案する情報処理装置であって、
前記客を撮像するためのカメラと、
音声を収集するためのマイクロフォンと、
前記カメラで前記客を撮像して得られた画像内において、前記客の顔を表わす顔領域と、前記客の体を表わす体領域とを特定するための領域特定部と、
前記画像の前記顔領域から第１特徴量を抽出するとともに、前記画像の前記体領域から第２特徴量を抽出するための画像特徴抽出部と、
前記マイクロフォンで収集された音声のうち前記客の発話に対応する部分の音声から第３特徴量を抽出するための音声特徴抽出部と、
前記第１特徴量、前記第２特徴量および前記第３特徴量の入力を受けて、前記複数の服飾アイテムの各々が提案されるべき服飾アイテムであるそれぞれの可能性を、推定結果として出力する学習済の推定モデルと、
前記推定結果に基づいて、前記客に応じた服飾アイテムを表示するための表示部とを備え、
前記推定モデルは、学習用データセットを用いた学習処理により生成され、前記学習用データセットは、他の客を撮像して得られた画像および当該他の客が発話した音声に対して、当該他の客が購入した服飾アイテムをラベル付けした学習用データを複数含む、情報処理装置。
前記表示部は、前記マイクロフォンによる音声の収集前に、服飾アイテムの分類を示すカテゴリのリストを表示するとともに、当該リストに表示されているカテゴリのいずれかを音声で選択することを前記客に促すメッセージを表示する、請求項１に記載の情報処理装置。
前記領域特定部は、前記客が身につけている服飾を表わす部分を前記体領域として特定する、請求項１または２に記載の情報処理装置。
前記複数の服飾アイテムの各々は、予め定められた複数のカテゴリのいずれかに属しており、
前記情報処理装置は、前記客が発話した音声に基づいて、前記複数のカテゴリの中から、前記客によって選択されたカテゴリを特定するための音声解析部をさらに備え、
前記表示部は、前記推定結果に基づいて表示される服飾アイテムのうち、前記音声解析部により特定されたカテゴリに属する服飾アイテムと、当該特定されたカテゴリに属さない服飾アイテムとを異なる表示態様で表示する、請求項１〜３のいずれか１項に記載の情報処理装置。
情報処理システムであって、
客の特徴を表わす特徴量を学習済の推定モデルに入力して複数の服飾アイテムの中から当該客に応じた服飾アイテムを提案する情報処理装置と、
前記推定モデルを生成するための学習装置とを備え、
前記情報処理装置は、
前記客を撮像するためのカメラと、
音声を収集するためのマイクロフォンと、
前記カメラで前記客を撮像して得られた入力画像内において、前記客の顔を表わす顔領域と、前記客の体を表わす体領域とを特定するための領域特定部と、
前記入力画像の前記顔領域から第１特徴量を抽出するとともに、前記入力画像の前記体領域から第２特徴量を抽出するための画像特徴抽出部と、
前記マイクロフォンで収集された音声のうち前記客の発話に対応する部分の音声から第３特徴量を抽出するための音声特徴抽出部とを備え、
前記推定モデルは、前記第１特徴量、前記第２特徴量および前記第３特徴量の入力を受けて、
前記第１特徴量、前記第２特徴量および前記第３特徴量の入力を受けて、前記複数の服飾アイテムの各々が提案されるべき服飾アイテムであるそれぞれの可能性を、推定結果として出力するように学習されており、
前記情報処理装置は、前記推定結果に基づいて、前記客に応じた服飾アイテムを表示するための表示部をさらに備え、
前記学習装置は、
学習用データセットを取得するための取得部を含み、前記学習用データセットは、他の客を撮像して得られた学習用画像および当該他の客が発話した学習用音声に対して、当該他の客が購入した服飾アイテムをラベル付けした学習用データを複数含み、さらに
前記学習用画像内において、前記他の客の顔を表わす顔領域と、前記他の客の体を表わす体領域とを特定するための領域特定部と、
前記学習用画像の前記顔領域から第１学習用特徴量を抽出するとともに、前記学習用画像の前記体領域から第２学習用特徴量を抽出するための画像特徴抽出部と、
前記学習用音声のうち前記他の客の発話に対応する部分の音声から第３学習用特徴量を抽出するための音声特徴抽出部と、
前記学習用データから抽出された、前記第１学習用特徴量、前記第２学習用特徴量および前記第３学習用特徴量を前記推定モデルに入力して出力される推定結果が、当該学習用データにラベル付けされている服飾アイテムの購入実績に近付くように、前記推定モデルを最適化するための学習部とを含む、情報処理システム。
客の特徴を表わす特徴量の入力を受けて複数の服飾アイテムの中から当該客に応じた服飾アイテムの提案に用いられる推定モデルを生成するための学習装置であって、
学習用データセットを取得するための取得部を備え、前記学習用データセットは、客を撮像して得られた画像および当該客が発話した音声に対して、当該客が購入した服飾アイテムをラベル付けした学習用データを複数含み、さらに
前記画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定するための領域特定部と、
前記画像の前記顔領域から第１特徴量を抽出するとともに、前記画像の前記体領域から第２特徴量を抽出するための画像特徴抽出部と、
前記音声のうち客の発話に対応する部分の音声から第３特徴量を抽出するための音声特徴抽出部と、
前記学習用データから抽出された、前記第１特徴量、前記第２特徴量および前記第３特徴量を前記推定モデルに入力して出力される推定結果が、当該学習用データにラベル付けされている服飾アイテムの購入実績に近付くように、前記推定モデルを最適化するための学習部とを備える、学習装置。
客の特徴を表わす特徴量の入力を受けて複数の服飾アイテムの中から当該客に応じた服飾アイテムの提案に用いられる学習済の推定モデルであって、
前記推定モデルは、学習用データセットを用いた学習処理により生成され、
前記学習用データセットは、客を撮像して得られた画像および当該客が発話した音声に対して、当該客が購入した服飾アイテムをラベル付けした学習用データを複数含み、
前記学習処理は、前記学習用データの各々について、
前記画像内において、客の顔を表わす顔領域と、客の体を表わす体領域とを特定するステップと、
前記画像の前記顔領域から第１特徴量を抽出するとともに、前記画像の前記体領域から第２特徴量を抽出するステップと、
前記音声のうち客の発話に対応する部分の音声から第３特徴量を抽出するステップと、
前記第１特徴量、前記第２特徴量および前記第３特徴量を前記推定モデルに入力して出力される推定結果が、当該学習用データにラベル付けされている服飾アイテムの購入実績に近付くように、前記推定モデルを最適化するステップとを含む、学習済の推定モデル。
客の特徴を表わす特徴量の入力を受けて複数の服飾アイテムの中から当該客に応じた服飾アイテムの提案に用いられる推定モデルの学習に用いられる学習用データの収集方法であって、
前記客を撮像して得られた画像および前記客の発話を含む音声を取得するステップと、
前記画像および前記音声から抽出される複数の特徴量を学習済の推定モデルに入力して当該客に応じた服飾アイテムの提案を生成するステップと、
識別情報を生成するステップと、
前記生成された服飾アイテムの提案および前記生成された識別情報を含む、服飾アイテムの購入を促す媒体を発行するステップと、
前記生成された識別情報と前記画像および前記音声とを関連付けるステップと、
前記媒体に含まれる前記識別情報および前記客が購入した服飾アイテムを取得するステップと、
前記媒体から取得された識別情報と前記客が購入した服飾アイテムとを関連付けるステップと、
前記識別情報をキーとして前記画像および前記音声と前記客が購入した服飾アイテムとを関連付けて、前記推定モデルの学習に用いられる学習用データとして保存するステップとを備える、学習用データの収集方法。