JP2020181392A

JP2020181392A - 情報処理装置、方法及びプログラム

Info

Publication number: JP2020181392A
Application number: JP2019084366A
Authority: JP
Inventors: 誠幸佐々木; Masayuki Sasaki
Original assignee: Pixie Dust Technologies Inc
Current assignee: Pixie Dust Technologies Inc
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-11-05
Anticipated expiration: 2039-04-25
Also published as: JP7055300B2

Abstract

【課題】ユーザの希望を反映した画像をユーザに提供する情報処理装置、方法及びプログラムを提供する。【解決手段】情報処理装置（端末装置）において、方法は、ユーザに関連付けられる第１の入力値を取得するステップＳ７０１と、推定モデルに対し第１の入力値を入力することで、推定結果として第１の変数を推定するステップＳ７０５と、第１の変数を生成モデルに入力することにより第１のデータである画像を生成するステップＳ７０９と、生成された第１のデータをユーザに提示するステップＳ７１３と、を含む。【選択図】図７

Description

本明細書における開示は、情報処理装置、方法及びプログラムに関する。

学習データを用いて学習された学習済モデルを用いて、新たなデータを生成することが知られている。

このような学習済みモデルを得る方法として、敵対的ネットワーク（ＧＡＮ：Generative Adversarial Networks）、変分自己符号化器（ＶＡＥ：Variational Auto Encoder）などの深層学習を利用する技術が知られている。例えば、特開２０１８−１３９０７１号公報（特許文献１）には、敵対的ネットワーク（ＧＡＮ）を利用した学習方法について記載されている。ＧＡＮは、生成器(Generator)と識別器(Discriminator)の2つのネットワークから構成されている。識別器は、入力されたデータが学習データであるか、又は、生成器によって生成されたものかを識別する。生成器は、学習データと同じようなデータを生成しようとする。生成器は、より精巧な偽物のデータを生成しようとし、識別器は、より正確に偽物のデータを見分けるように学習する。このように生成器と識別器とが学習を繰り返すことにより、学習データとは見分けのつかないデータを生成器が生成できるようにする。

特開２０１８−１３９０７１号公報

ＧＡＮにより、学習データとは一見して見分けがつかない画像を生成することができる。一方、ユーザの趣味嗜好は様々である。そのため、ＧＡＮにより生成される多様な画像には、ユーザの趣味嗜好に適合しないものも含まれる。ユーザが所望するものを考慮して生成器で画像を生成しようとすると、これらユーザの希望が反映された学習済みモデルを予め用意しておく必要がある。

しかしながら、学習済みモデルを構築するには時間を要するため、ユーザの希望に応じた画像の生成にも長時間を要する。
したがって、ユーザの希望に応じた画像の生成を、よりいっそう容易にする技術が必要とされている。

本開示に示す一実施形態によると、情報処理装置は、学習済みの生成モデル、及び、生成モデルへ入力する変数を推定するための関数を記憶する記憶部と、一又は複数のコンピュータプロセッサと、を備える。一又は複数コンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、ユーザに関連付けられる第１の入力値を取得するステップと、推定モデルに対し第１の入力値を入力することで、推定結果として第１の変数を推定するステップと、第１の変数を生成モデルに入力することにより第１のデータを生成するステップと、生成された第１のデータをユーザに提示するステップと、を行う。

一実施形態によると、ユーザの希望に応じたデータを生成するための時間を短縮化することができ、ユーザの操作感がよりいっそう向上する。

本実施形態の端末装置１０のハードウェア構成例を示す図である。端末装置１０の機能的な構成を示す図である。生成モデル学習モジュール１０４２の詳細を説明する図である。端末装置１０が保持するデータのデータ構造を示す図である。推定モデル決定モジュール１０４３が、推定モデル１８３を得る過程を示す図である。本実施形態における画面例を示す図である。端末装置１０の動作を示すフローチャートである。

以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、説明を繰り返さない。

＜概要＞
本実施形態では、データ（例えば、画像データ）を生成するための学習済みモデルに潜在変数を与えることにより、当該潜在変数に応じたデータを得て、当該データに対し、ユーザの入力などによりタグ情報を設定する。学習済みモデルに対して様々な潜在変数を与えることにより、潜在変数に応じたデータが生成される。そのため、（ｉ）入力となる潜在変数と、（ｉｉ）学習済みモデルにより生成されるデータと、（ｉｉｉ）当該データに設定されるタグとがデータベースに蓄積されていくこととなる。

ここで、タグ情報を指定した場合に潜在変数を推定するモデルを用意しておくとする。この場合、当該指定されるタグ情報に基づいて潜在変数を推定し、推定した潜在変数を学習済みモデルに入力することでデータを得ることができる。ユーザが趣味嗜好等に基づいて入力操作によりタグ情報を指定した場合、これにより推定される潜在変数に基づき学習済みモデルで生成するデータは、ユーザの趣味嗜好等が反映されたものといえる。

＜構成＞
図１は、本実施形態の端末装置１０のハードウェア構成例を示す図である。端末装置１０は、各ユーザが操作する装置である。端末装置１０は、例えば据え置き型のＰＣ（Personal Computer）、ラップトップＰＣ、移動体通信システムに対応したスマートフォン、タブレット等の携帯端末などにより実現される。端末装置１０は、プロセッサ１０１と、メモリ１０２と、記憶部１０３と、入力装置１０４と、出力装置１０６と、通信ＩＦ（Interface）１０７とを備える。

端末装置１０は、ネットワークを介してサーバ等の他の装置（図示しない）と通信可能に接続される。端末装置１０は、所定の通信規格に対応した無線基地局、ＩＥＥＥ８０２．１１などの無線ＬＡＮ規格に対応した無線ＬＡＮルータ等の通信機器と通信することによりネットワークに接続される。ユーザは、例えば、オフィスに設置されるＰＣ、外出時に使用する携帯端末のいずれからでもサーバと通信して、サーバを介したデータの入出力操作を行うことができる。例えば、ユーザは、オフィス滞在時であっても、外出時であっても、端末装置１０によりサーバと通信し、サーバで管理される各種データを参照し、データを入力することができる。

プロセッサ１０１は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。端末装置１０は、一又は複数のコンピュータプロセッサを含んで構成されている。

メモリ１０２は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

記憶部１０３は、データを保存するための記憶装置であり、例えばフラッシュメモリ、ＨＤＤ（Hard Disc Drive）である。

入力装置１０４は、ユーザからの入力操作を受け付けるための装置（例えば、タッチセンシティブデバイス、マウス等のポインティングデバイス、キーボード、マイクロフォン、モーションセンサ等）である。

出力装置１０６は、ユーザに対し情報を提示するための装置（ディスプレイ、スピーカ等）である。

通信ＩＦ１０７は、端末装置１０が外部の装置と通信するため、信号を入出力するためのインタフェースである。

なお、図１の例では、端末装置１０は、単一のコンピュータにより構成されているが、これに限らず、例えばネットワークを介して接続された複数のコンピュータにより構成された形態であってもよい。

また、図示していないが、端末装置１０は、ＧＰＳ（Global Positioning System）モジュール等により端末装置１０の位置を検出する位置情報センサを含んでいてもよい。端末装置１０は、端末装置１０を使用するユーザの現在地を、位置情報センサにより取得することができる。この他にも、端末装置１０は、端末装置１０を振動させ、振動によりユーザに通知を行うためのバイブレータを含んでいてもよい。

次に、端末装置１０の機能的な構成について説明する。
図２は、端末装置１０の機能的な構成を示す図である。図２に示すように、端末装置１０Ａは、通信部１０７Ａと、記憶部１０３Ａと、制御部１０１Ａとしての機能を発揮する。

制御部１０１Ａは、端末装置１０Ａのプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。各モジュールの詳細は後述する。

記憶部１０３Ａは、端末装置１０が使用するデータ及びプログラムを記憶する。記憶部１０３Ａは、生成モデル１８１と、生成画像データベース１８２と、推定モデル１８３と、ユーザ行動ログデータベース１８４とを記憶している。

生成モデル１８１は、後述する生成モデル学習モジュールにより得られるモデルである。本実施形態では、生成モデル１８１は、潜在変数を入力とすることで、画像データを生成する。

生成画像データベース１８２は、生成モデル１８１に入力として与える潜在変数と、生成モデル１８１によって生成された画像と、当該画像に対して設定されるタグ情報とを含むデータベースである。

推定モデル１８３は、後述する推定モデル決定モジュール１０４３により得られるモデルである。

ユーザ行動ログデータベース１８４は、ユーザが行動した内容をログとして記録するデータベースである。ユーザが行動した内容の情報としては、例えば、端末装置１０又はユーザが装着するウェアラブルデバイスなど、ユーザが所持するデバイスのセンサ装置等により取得されるライフログデータがある。例えば、ユーザの位置情報、ユーザの音声、ユーザの生体情報その他の情報がライフログデータに含まれる。この他に、ユーザが行動した内容の情報としては、ユーザがブラウザ等によりウェブサイトにアクセスした履歴も含まれる。アクセスの履歴としては、例えば、ユーザがＥＣ（electronic commerce）サイトを閲覧した場合に、当該ウェブサイトを閲覧していた時間、商品を指定したこと、購買を行ったことその他の情報がある。

通信部１０７Ａは、端末装置１０Ａが外部の装置と通信するための処理を行う。

操作内容取得モジュール１０４１は、入力装置１０４に対するユーザの入力操作を取得して、操作内容を判別する。

生成モデル学習モジュール１０４２は、データを生成するためのモデルを学習する。生成モデル学習モジュール１０４２は、学習済みのモデルを、生成モデル１８１として記憶部１０３に記憶させる。詳細は後述するが、本実施形態では、深層学習を利用してモデルを得るものとして説明する。具体的には、生成モデル学習モジュール１０４２は、敵対的ネットワーク（ＧＡＮ）を利用して、画像データを生成するためのモデルを学習する。

推定モデル決定モジュール１０４３は、生成モデル１８１に入力として与える変数（潜在変数）を推定するための関数を決定する。詳細は後述する。推定モデル決定モジュール１０４３は、決定した関数を、推定モデル１８３として記憶部１０３に記憶させる。

潜在変数推定モジュール１０４４は、推定モデル１８３を利用して、生成モデル１８１に入力として与える変数を得る。詳細は後述するが、潜在変数推定モジュール１０４４は、ユーザに関連付けられる入力値を取得して、取得した入力値を推定モデル１８３の入力とすることで、生成モデル１８１に入力するための潜在変数を得ることができる。

画像生成モジュール１０４５は、潜在変数推定モジュール１０４４により得られる潜在変数を生成モデル１８１の入力とすることで、データとして画像データを生成する。

行動ログ解析モジュール１０４６は、ユーザ行動ログデータベース１８４に蓄積される、ユーザが行動した内容の情報に基づいて、潜在変数推定モジュール１０４４の入力とする変数を演算する。すなわち、ユーザが行動した内容の情報は、各種センサ装置等が生成した情報、ユーザがウェブサイトで行動した内容の情報などを含むため、これら情報を統合して、潜在変数推定モジュール１０４４の入力とするための潜在変数に変換する。

図３は、生成モデル学習モジュール１０４２の詳細を説明する図である。図３に示すように、生成モデル学習モジュール１０４２は、生成器３０１と、学習データセット３０２と、識別器３０３とを含む。上記のように、生成モデル学習モジュール１０４２は、敵対的ネットワークの学習方法の一例としてＧＡＮを利用するが、これに限られない。図３において、「Ｘ」は識別器３０３に入力される入力変数である。「Ｙ」は識別器３０３が出力する出力変数である。「Ｚ」は生成器３０１に入力される入力変数（潜在変数）である。

識別器３０３は、入力変数Ｘが学習データセット３０２であるか、生成器３０１により生成されたデータ（生成データ）であるかを識別可能なように学習される。図３の例では、識別器３０３は、生成器３０１から生成されたデータに対し、出力Ｙが０になるように学習する。識別器３０３は、学習データセット３０２から選ばれた入力変数Ｘに対し、出力変数Ｙが１になるように学習する。すなわち、識別器３０３において、入力変数Ｘが生成器３０１により生成されたデータの場合は出力変数Ｙを０とし、入力変数Ｘが学習データセット３０２のものである場合は出力変数Ｙを１とするように、識別器３０３を構成する各パラメータの値が学習される。

一方、生成器３０１は、識別器３０３が学習データセット３０２の学習データと識別できないデータを生成するように学習される。図３の例では、生成器３０１は、ノイズｚを入力とし、学習データと同じようなデータを生成するよう学習する。例えば、入力変数Ｘが学習データセット３０２の学習データである場合は出力変数Ｙが０になるように、生成器３０１を構成する各パラメータの値が学習される。上記学習を繰り返すことで、識別器３０３の識別精度が向上し、生成器３０１の生成精度（生成器３０１が生成するデータが学習データセット３０２の学習データに類似する精度）が向上する。

上記のような学習は、以下の（式１）に示す評価関数を解くことにより実現される。（式１）において、「Ｖ」は評価値、「Ｄ」は識別器３０３を構成するパラメータ群、「Ｇ」は生成器３０１を構成するパラメータ群、Ｅ［・］は期待値、「x~pdata」はデータセットからサンプリングされた学習データの集合（入力変数Ｘ）に相当する。また、「z~pz」は潜在変数Ｚ、Ｄ（Ｘ）は入力変数Ｘが入力された場合の出力変数Ｙ、Ｇ（Ｚ）は潜在変数Ｚを入力とした場合に生成されるデータに相当する。

（式１）の式の右辺第１項は、識別器３０３の評価値に相当し、識別器３０３の識別精度が高いほど、高い値となる。（式１）の式の右辺第２項は、生成器３０１の評価値に相当し、識別器３０３が、生成器３０１が生成するデータを、学習データセット３０２のデータであると誤認識するほど（つまり、識別器３０３の識別エラーが多いほど）、高い値となる。

よって、識別器３０３の学習が進むほど、（式１）の右辺第１項が高くなり、右辺第２項が低くなる。また、生成器３０１の学習が進むほど、（式１）の右辺第１項が低くなり、右辺第２項が高くなる。

＜データ構造＞
図４は、端末装置１０が保持するデータのデータ構造を示す図である。

図４に示すように、生成画像データベース１８２の各レコードは、項目「生成画像ＩＤ」と、項目「画像生成時の潜在変数」と、項目「タグ」とを含む。

項目「生成画像ＩＤ」は、生成モデル１８１が生成した画像を特定するための識別情報である。

項目「画像生成時の潜在変数」は、項目「生成画像ＩＤ」により特定される画像を生成モデル１８１が生成した際に、入力値として与えられる潜在変数である。

項目「タグ」は、項目「生成画像ＩＤ」により特定される画像に対して設定されたタグ情報の内容を示す。

タグ情報は、画像に含まれる対象物に関する情報であってもよい。以下に説明するように、タグ情報は、対象物の「売れやすさ」、「ブランド」、「年代」、「色彩パターン」、「ファッション系統」など、１又は複数の項目の情報を含む。
画像に含まれる対象物としては、ファッションアイテム、日用品（電化製品など）、芸術作品その他の物品がある。これらの物品は、その外観がユーザにとって鑑賞の対象となるものであり、また、購買の動機となるものである。

タグ情報には、対象物の出所（ブランド名、販売会社など）に関する情報が含まれ得る。タグ情報には、対象物が生成された時期の情報（製作された年代、販売開始された時期、公開された時期など）が含まれる。タグ情報には、対象物の色彩に関する情報が含まれる。このように、タグ情報に設定される内容は、仮にユーザが対象物を購入する場合に、購入をする決断をするために参照される項目であるとしてもよい。例えば、生成モデル１８１が生成した画像に対し、ユーザが、タグ情報として特定のブランドを指定したとする。この場合、タグ情報は、画像に含まれる対象物が、「特定のブランドであろう」とユーザが評価した度合いを示すこととしてもよい。また、タグ情報には、ファッション系統の情報が含まれることとしてもよい。ファッション系統とは、「カジュアル」、「きれいめ」、「コンサバ」、「ガーリッシュ」など、ユーザの視点から分類されるカテゴリである。この場合、タグ情報は、画像に含まれる対象物が、特定の系統に適合するとユーザが評価した度合いを示すこととしてもよい。

タグ情報は、当該対象物に対するユーザの評価項目に関する情報であってもよい。例えば、ユーザが当該画像に対して入力した評価値を含む。評価値としては、例えば、当該画像に含まれる対象物が、ファッションアイテムなどユーザの趣味嗜好により購買される傾向があるものである場合、当該対象物をユーザが評価する度合（「売れやすさ」、「流行しそう」などと表現してもよい）を数値化したものとしてもよい。また、タグ情報における評価値としては、ユーザの感情を評価した値であるとしてもよい。例えば、画像に対して、対象物を好意的に評価する「いいね」、対象物を否定的に評価する「そうでもない」をユーザが指定できることとしてもよい。

また、画像に含まれる対象物としては、「製品」、「人物」、「動物」などが含まれ得る。タグ情報は、「製品」、「人物」、「動物」に対して趣味嗜好に適合する度合いを示す情報であるとしてもよいし、感情の評価値の情報であるとしてもよい。

ユーザ行動ログデータベース１８４の各レコードは、ユーザの識別情報（ユーザＩＤ）と対応付けて、項目「サイト行動ログ」と、項目「ＳＮＳ行動ログ」と、項目「ライフログデータ」とを含んで構成されている。

項目「サイト行動ログ」は、ユーザがブラウザ等によりウェブサイトを訪問し、ウェブサイト（例えば、ＥＣサイト）内で行った行動のログを示す。例えば、「サイト行動ログ」には、ウェブサイトにアクセスしたタイミングの情報、当該ウェブサイトでユーザが閲覧したページの情報、当該ウェブサイトでユーザが購買行動を行ったページ又は画像の情報などを含む。

項目「ＳＮＳ行動ログ」は、ユーザがＳＮＳ（Social Network Service）において行った行動のログを示す。行動のログとして、例えば、ユーザが他のユーザの情報を閲覧したこと、ユーザが画像などのデータに対してアクションを行ったこと（「いいね」を押下した分布）などが含まれる。

項目「ライフログデータ」は、端末装置１０、又は、ウェアラブル装置によって取得される各種ライフログのデータである。例えば、ユーザの位置の情報、音声の情報などが含まれる。ライフログの情報としては、他にも、ユーザが端末装置１０等で動作させることで生成されるデータも含む。例えば、ユーザが端末装置１０のメモ作成用のアプリケーションを実行した場合に、当該メモの内容がライフログの情報になり得る。

図５は、推定モデル決定モジュール１０４３が、推定モデル１８３を得る過程を示す図である。

図５（Ａ）の状態に示すように、まず、生成モデル１８１（生成器３０１を学習させた結果）に対して潜在変数を入力することにより、画像を生成する。ここで、潜在変数は、Ｎ（Ｎは１以上の整数）次元の値を有するものとする。生成モデル１８１によって生成された画像に対して、タグ情報を設定する。

図５（Ｂ）の状態に示すように、生成画像データベース１８２には、潜在変数と、タグ情報とが対応付けて記憶されている。例えば、タグ情報としてユーザの評価値（画像に含まれる製品を気に入るか否か、など）を使用することがあり得る。なお、図５（Ｂ）の状態は、上述するように、生成画像データベース１８２を概念的に示したものである。図５（Ｂ）の状態に示すように、複数の潜在変数について、（ｉ）潜在変数と、（ｉｉ）設定されるタグ情報とが関連付けられている。これらデータセットに深層学習、又は重回帰分析などを行うことにより、推定モデル１８３を得る。

図５では、タグ情報として、１次元の値を使用して、推定モデル１８３を得る例を示しているが、タグ情報は、多次元の値を有するベクトルであってもよい。例えば、タグ情報は、複数の項目を有しており、それぞれの項目について評価値を有することとしてもよい。例えば、タグ情報が、ファッションブランドに関する評価値と、年代に関する評価値とを有する（例えば、ファッションアイテムなど物品に関する項目として、「特定のブランドっぽさ」と、「発表された年代」などの複数の項目）といったように、別の概念の評価値を有することとしてもよい。また、タグ情報が、第１のブランドに対応する値と、第２のブランドに対応する値を有する（例えば、物品に関する項目として、「第１のブランドっぽさ」と、「第２のブランドっぽさ」などの複数の項目）といったように、同概念だが別の種類の評価値を有することとしてもよい。

図６は、本実施形態における画面例を示す図である。
図６（Ａ）の画面例は、生成モデル１８１に潜在変数Ｚを入力値として与えることにより生成された画像に対して、ユーザの評価を受け付ける局面を示す。これにより、生成画像データベース１８２において、潜在変数と、画像の識別情報と対応付けて、ユーザの評価をタグ情報として保持することができる。

図６（Ａ）の画面例では、一例として、出力装置１０６がディスプレイであり、入力装置１０４がタッチセンシティブデバイスである場合を示す。端末装置１０は、出力装置１０６（ディスプレイ）に、画像表示部１０６Ａと、評価値表示部１０６Ｂと、評価入力部１０６Ｃとを表示する。

画像表示部１０６Ａは、生成モデル１８１に潜在変数を入力することで生成された画像を表示する。

評価値表示部１０６Ｂは、ユーザが入力している評価値を表示する。

評価入力部１０６Ｃは、ユーザから、評価値の入力を受け付ける。評価入力部１０６Ｃは、図示するように、評価項目として、画像表示部１０６Ａに表示される対象物（図示する例では、ファッションアイテム）に対して、売れやすさ（流行りそうか）を設定している。ユーザは、スライドバー１０６Ｄにより、売れやすさ（流行りそうか、そうではなさそうか）を入力する。ユーザは、指１０６Ｆにより、スライドバー１０６Ｄのアイコン１０６Ｅをスライドさせる。図示する例では、端末装置１０は、評価値として一定の範囲の値をユーザから受け付ける。端末装置１０は、ユーザがアイコン１０６Ｅをスライドバー１０６Ｄ上で左右に移動させることに伴って、スライドバー１０６Ｄ上の位置に応じた評価値の入力を受け付けて、その評価値を評価値表示部１０６Ｂに表示する。

端末装置１０は、ユーザから、対象となる評価項目（例えば、「売れやすさ」）の評価値を確定させる操作を受け付けることにより、生成画像データベース１８２を更新して、画像の識別情報と関連付けて（つまり、当該画像を生成モデル１８１により生成する際の潜在変数と関連付けて）、当該評価項目の評価値をタグ情報として保持する。

図６（Ｂ）の画面例は、ユーザが入力値を指定することで、推定モデル１８３により潜在変数を推定し、推定した潜在変数により画像を生成する局面を示す。端末装置１０は、出力装置１０６に、調整画像表示部１０６Ｇと、評価値表示部１０６Ｈと、評価値入力部１０６Ｊと、登録受付部１０６Ｌと、情報取得部１０６Ｍとを表示する。

端末装置１０は、ユーザが指１０６Ｆにより、アイコン１０６Ｅを、評価値入力部１０６Ｊに表示されるスライドバー１０６Ｋ上で移動させることで、入力する評価値を調整する。評価値表示部１０６Ｈは、ユーザが入力している評価値を表示するための領域である。

端末装置１０は、ユーザが評価値を変更させる操作を行うことに応答して、都度、推定モデル１８３により、潜在変数を推定する。端末装置１０は、推定した潜在変数を生成モデル１８１の入力値として画像を生成し、生成した画像を調整画像表示部１０６Ｇに表示する。これにより、ユーザは、スライドバー１０６Ｋ上で評価値の入力を更新するたびに、画像表示部１０６Ａに表示される画像を確認することができる。

登録受付部１０６Ｌは、ユーザが、調整画像表示部１０６Ｇに表示される画像を保存するための操作を受け付ける。これにより、端末装置１０は、調整画像表示部１０６Ｇに表示される画像の識別情報と、ユーザが入力した評価値と、推定モデル１８３により推定された潜在変数とを関連付けて、例えば生成画像データベース１８２に保持させる。端末装置１０は、このようにして生成画像データベース１８２が更新されることに応答して、推定モデル決定モジュール１０４３により推定モデル１８３を決定することとしてもよい。

情報取得部１０６Ｍは、ユーザのライフログ情報に基づいて、推定モデル１８３に入力するための値を取得する。端末装置１０は、情報取得部１０６Ｍへのユーザの操作に応答して、ユーザ行動ログデータベース１８４の項目「ライフログデータ」を読み出し、読み出した各種ライフログのデータを参照して、ユーザの嗜好性に関する指標値を計算する。これにより、端末装置１０は、指標値を推定モデル１８３に入力することにより潜在変数を推定し、推定した潜在変数と生成モデル１８１とにより調整画像表示部１０６Ｇに画像を表示することができる。

図６（Ｃ）の画面例は、図６（Ｂ）の画面例のように、推定モデル１８３により潜在変数を推定することで画像を生成する局面を示す。図６（Ｂ）の画面例と比較すると、図６（Ｂ）の画面例では、ユーザが入力する評価値が一次元の値であるのに対し、図６（Ｃ）の画面例では、多次元の値である点で異なる。

端末装置１０は、図６（Ｂ）の画面例とは異なる評価値入力部１０６Ｐと、評価値表示部１０６Ｎとを表示する。

端末装置１０は、評価値入力部１０６Ｐにおいて、多次元の値の入力をユーザから受け付ける入力受付画像１０６Ｑを表示する。図６（Ｃ）の画面例では、一例として、３次元（ｘ、ｙ、ｚ）の評価値をユーザから受け付けることとしている。端末装置１０は、入力受付画像１０６Ｑとして、各次元の値を調整可能な図形を表示する。図示する例では、入力受付画像１０６Ｑは、六角形の形状を有している。当該六角形の形状において、頂点間を接続することで、３次元の値の入力を受け付ける。例えば、水平方向は、「ｘ」の値の入力を示し、右上がりの方向は、「ｙ」の値の入力を示し、右下がりの方向は、「ｚ」の値の入力を示す。ユーザは、指１０６Ｆにより、アイコン１０６Ｅを、入力受付画像１０６Ｑで移動させることにより、３次元の評価値を入力することができる。

端末装置１０は、ユーザが評価値入力部１０６Ｐで入力した多次元の入力値を、評価値表示部１０６Ｎに表示する。

以上のように、図６（Ｂ）の画面例、図６（Ｃ）の画面例では、スライドバー１０６Ｋ、評価値入力部１０６Ｐにより、ユーザが評価値を入力する例を説明した。この他に、ユーザが評価値を入力することなく、ユーザから所定の操作を受け付けることで、推定モデル１８３に入力する入力値を決定することとしてもよい。

図６（Ｄ）の画面例は、端末装置１０が、ユーザに対して画像などのデータを複数提示して、ユーザが選択する操作を受け付けることにより、ユーザの趣味嗜好等を推定する局面を示す。端末装置１０は、このようにしてユーザの趣味嗜好等の傾向を予測することで、推定モデル１８３に与える入力値を決定する。

図６（Ｄ）の画面例に示すように、端末装置１０は、出力装置１０６に、複数の画像（画像１０６Ｒ１、１０６Ｒ２、１０６Ｒ３、１０６Ｒ４）を表示している。当該画像は、例えばファッションアイテムなどの物品の画像である。これら画像には、予め、ブランド名、製作された年代、ファッション系統等の分類が付与されている。
このように、ユーザにサンプルを提示して、ユーザの趣味嗜好等の傾向を推定する際、サンプルとして、音楽をユーザに提示することとしてもよい。例えば、ユーザに提示する音楽がカテゴリに分類されており、ユーザが選択した音楽に付与された分類に基づいて、ユーザの趣味嗜好等の傾向を推定することができる。また、ユーザに雑誌（ファッション雑誌など）コンテンツを提示することとしてもよい。雑誌は、通常、顧客セグメントを定義して製作されていることが多いため、ユーザが選択した雑誌コンテンツに付与された情報に基づいて、ユーザの趣味嗜好等の傾向を推定することができる。また、ユーザに、有名な人物（芸能人、著名人）の情報を提示することとしてもよい。これら人物に付与された情報（年代、ファッション傾向、製作しているコンテンツ等）に基づいて、ユーザの趣味嗜好等の傾向を推定することができる。

このように、端末装置１０は、ユーザに複数の画像を提示して、ユーザから選択を受け付ける処理を繰り返すにつれて、選択された画像に付与された分類に基づいて、ユーザの趣味嗜好等の傾向を推定することができる。端末装置１０は、このようにして推定したユーザの趣味嗜好等の傾向のデータに基づいて、所定の処理を行うことにより、推定モデル１８３に入力する入力値を決定する。

＜動作＞
図７は、端末装置１０の動作を示すフローチャートである。

ステップＳ７０１において、端末装置１０（操作内容取得モジュール１０４１）は、推定モデル１８３に入力するための入力値をユーザから受け付けるＵＩ（User Interface）部品を出力装置１０６に表示する。図６（Ｂ）の画面例の評価値入力部１０６Ｊを表示すること等に対応する。

ステップＳ７０５において、端末装置１０（潜在変数推定モジュール１０４４）は、ユーザが指定した入力値を、推定モデル１８３に入力する。これにより、端末装置１０は、潜在変数の推定結果を取得する。

ステップＳ７０９において、端末装置１０（画像生成モジュール１０４５）は、ステップＳ７０５で取得した潜在変数を、生成モデル１８１の入力とすることにより画像を生成する。

ステップＳ７１３において、端末装置１０は、生成した画像と、ユーザが指定した入力値とを出力装置１０６に表示する。図６（Ｂ）の画面例の調整画像表示部１０６Ｇ、評価値表示部１０６Ｈを表示すること等に対応する。

＜変形例＞
（１）生成モデル１８１の学習方法
上記の実施形態で、図３等を用いて、生成モデル１８１の学習方法について説明した。ここで、学習用のデータとして、例えばファッションアイテムなどの物品において特定のブランドの画像を用いることとしてもよい。これにより、生成モデル１８１は、特定のブランドの物品のような画像を生成することができる。
また、学習用のデータとして、複数のブランドの画像を用いることとしてもよい。これにより、生成モデル１８１は、複数のブランドが混合したような画像を生成することができる。

（２）画像生成方法を提供する態様
例えば、本実施形態における画像生成方法を、ＥＣサイト等のウェブサイトにおいて提供することとしてもよい。例えばファッションアイテムを販売するＥＣサイトである場合、当該ＥＣサイトにおいてユーザが所定の行動をしたことに応答して、図６（Ｂ）の画面例に示すようにユーザから評価値の入力を受け付けて調整画像表示部１０６Ｇに画像を表示することとしてもよい。当該図６（Ｂ）の画面例において登録受付部１０６Ｌへの操作をユーザが行うこと等により、ＥＣサイト側において、ユーザが所望するファッションアイテムの情報を取得することができる。

ここで、所定の行動としては、例えば、ユーザがアイテムを検索するためにキーワードを入力したこと、ユーザがアイテムを購入するにあたりカートにアイテムを追加したこと、ユーザがアイテムを購入する決済処理を行うこと、等が含まれる。ＥＣサイトは、ユーザがこれら所定の行動を行ったときに、抽選で、図６（Ｂ）の画面例のようにユーザから評価値の入力を受け付ける画面を表示することとしてもよい。これにより、ＥＣサイトでの購入体験に意外感を持たせて、継続してＥＣサイトを訪問するよう動機づけることができ得る。

＜付記＞
以上の実施形態で説明した事項を、以下に付記する。

（付記１）一実施形態によると、情報処理装置（１０）が提供される。
情報処理装置（１０）は、学習済みの生成モデル（１８１）、及び、生成モデルへ入力する変数を推定するための推定モデル（１８３）を記憶する記憶部（１０３Ａ）と、一又は複数のコンピュータプロセッサ（１０１Ａ）と、を備える。一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、ユーザに関連付けられる第１の入力値を取得するステップ（１０４１、１０６Ｊ、１０６Ｐ）と、推定モデルに対し第１の入力値を入力することで、推定結果として第１の変数を推定するステップ（１０４４）と、第１の変数を生成モデルに入力することにより第１のデータを生成するステップ（１０４５）と、生成された第１のデータをユーザに提示するステップ（１０６Ｇ）と、を行う。

（付記２）（付記１）において、記憶部は、生成モデルに入力する変数と、当該変数を入力することで生成されるデータに対して関連付けられるタグ情報とを記憶するように構成されている（１８２）。一又は複数のコンピュータプロセッサは、記憶される複数の変数及びタグ情報を分析することにより、推定モデルを決定するステップ（１０４４３、図５）を行い、推定モデルは、タグ情報に関する入力値に応じて変数を推定する。

（付記３）（付記２）において、生成モデルは、変数の入力に応答して画像データを生成するものであり、タグ情報は、画像データとして生成される対象物に関する情報、又は、当該対象物に対するユーザの評価項目に関する情報の少なくともいずれかを含む（１８２）。

（付記４）（付記３）において、タグ情報は、対象物に関する情報であり、対象物には、ファッションアイテム、日用品、芸術作品その他の物品が含まれ、対象物に関する情報には、物品の出所に関する情報、物品が生成された時期の情報、物品の色彩に関する情報の少なくともいずれかを含む（１８２）。

（付記５）（付記３）において、タグ情報は、対象物に対するユーザの評価項目に関する情報であり、対象物に関するユーザの評価項目に関する情報は、ユーザの趣味嗜好に適合する度合を示す情報、ユーザの感情の評価値の情報の少なくともいずれかを含む（１８２）。

（付記６）（付記５）において、対象物には、製品、人、又は、動物が含まれ、対象物に関するユーザの評価項目に関する情報は、生成される画像データに含まれる製品、人又は動物に対して趣味嗜好に適合する度合を示す情報、感情の評価値の情報の少なくともいずれかを含む（１８２）。

（付記７）（付記４）から（付記６）のいずれかにおいて、一又は複数のコンピュータプロセッサは、学習データに基づいて、生成モデルを学習するステップを行い（１０４２）、学習するステップにおいて、一又は複数の特定のブランドの製品の画像データを学習データとして生成モデルを学習し、第１の入力値を取得するステップにおいて、第１の入力値として、ブランドに関する情報を受け付ける。

（付記８）（付記１）から（付記７）のいずれかにおいて、第１の入力値を取得するステップにおいて、ユーザに対し、第１の入力値の入力を受け付けるための第１のインタフェースを提示し（１０６Ｊ、１０６Ｐ）、推定するステップにおいて、第１のインタフェースに対する入力結果を推定モデルに入力する。

（付記９）（付記８）において、第１の入力値は、複数の入力項目の情報を含み、第１の入力値を取得するステップにおいて、ユーザに対し、複数の入力項目について第１の入力値の入力を受け付け（１０６Ｐ）、推定するステップにおいて、複数の入力項目の情報を含む第１の入力値に応答して第１の変数を推定する。

（付記１０）（付記９）において、第１の入力値を取得するステップにおいて、ユーザに対し、多次元の入力を受け付ける画像（１０６Ｑ）を第１のインタフェースとして提示する。

（付記１１）（付記８）から（付記１０）のいずれかにおいて、提示するステップにおいて、第１の入力値の入力を受け付けるための第１のインタフェース（１０６Ｊ）と、生成される第１のデータ（１０６Ｇ）と、入力値（１０６Ｈ）と、当該第１のデータをユーザが確定する操作を受け付けるための第２のインタフェース（１０６Ｌ）とを一画面でユーザに提示し、一又は複数のコンピュータプロセッサは、確定する操作を受け付けることにより、入力値をタグ情報として第１データと関連付けて記憶部に記憶させるステップを行う（１８２）。

（付記１２）（付記１）から（付記１１）のいずれかにおいて、一又は複数のコンピュータプロセッサは、ユーザの行動のログを取得するステップを行い（１８４）、第１の入力値を取得するステップにおいて、ユーザの行動のログに基づき第１の入力値を取得する。

（付記１３）（付記１）から（付記１２）のいずれかにおいて、第３のインタフェースにより、所定の情報をユーザに提示し（１０６Ｒ１、１０６Ｒ２、１０６Ｒ３、１０６Ｒ４）、ユーザからの応答の内容に基づいて、第１の入力値を取得する。

（付記１４）（付記１）から（付記１３）のいずれかにおいて、一又は複数のコンピュータプロセッサは、学習データに基づいて、生成モデルを学習するステップを行い（１０４２）、学習するステップにおいて、データを生成する生成器（３０１）と、学習データ（３０２）及び生成器により生成されたデータを識別する識別器（３０３）と、を含む敵対的ネットワークの学習方法により、生成モデルを学習する。

以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

Claims

学習済みの生成モデル、及び、前記生成モデルへ入力する変数を推定するための推定モデルを記憶する記憶部と、一又は複数のコンピュータプロセッサと、を備え、
前記一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、
ユーザに関連付けられる第１の入力値を取得するステップと、
前記推定モデルに対し前記第１の入力値を入力することで、推定結果として第１の変数を推定するステップと、
前記第１の変数を前記生成モデルに入力することにより第１のデータを生成するステップと、
生成された前記第１のデータを前記ユーザに提示するステップと、を行う、情報処理装置。
前記記憶部は、前記生成モデルに入力する変数と、当該変数を入力することで生成されるデータに対して関連付けられるタグ情報とを記憶するように構成されており、
前記一又は複数のコンピュータプロセッサは、
前記記憶される複数の前記変数及び前記タグ情報を分析することにより、前記推定モデルを決定するステップを行い、
前記推定モデルは、前記タグ情報に関する入力値に応じて前記変数を推定する、請求項１に記載の情報処理装置。
前記生成モデルは、変数の入力に応答して画像データを生成するものであり、
前記タグ情報は、画像データとして生成される対象物に関する情報、又は、当該対象物に対するユーザの評価項目に関する情報の少なくともいずれかを含む、請求項２に記載の情報処理装置。
前記タグ情報は、前記対象物に関する情報であり、
前記対象物には、ファッションアイテム、日用品、芸術作品その他の物品が含まれ、
前記対象物に関する情報には、前記物品の出所に関する情報、前記物品が生成された時期の情報、前記物品の色彩に関する情報の少なくともいずれかを含む、請求項３に記載の情報処理装置。
前記タグ情報は、前記対象物に対するユーザの評価項目に関する情報であり、
前記対象物に関するユーザの評価項目に関する情報は、ユーザの趣味嗜好に適合する度合を示す情報、ユーザの感情の評価値の情報の少なくともいずれかを含む、請求項３に記載の情報処理装置。
前記対象物には、製品、人、又は、動物が含まれ、
前記対象物に関するユーザの評価項目に関する情報は、生成される前記画像データに含まれる製品、人又は動物に対して前記趣味嗜好に適合する度合を示す情報、前記感情の評価値の情報の少なくともいずれかを含む、請求項５に記載の情報処理装置。
前記一又は複数のコンピュータプロセッサは、
前記学習データに基づいて、前記生成モデルを学習するステップを行い、
前記学習するステップにおいて、一又は複数の特定のブランドの製品の画像データを学習データとして前記生成モデルを学習し、
前記第１の入力値を取得するステップにおいて、前記第１の入力値として、前記ブランドに関する情報を受け付ける、請求項４から６のいずれか１項に記載の情報処理装置。
前記第１の入力値を取得するステップにおいて、前記ユーザに対し、前記第１の入力値の入力を受け付けるための第１のインタフェースを提示し、
前記推定するステップにおいて、前記第１のインタフェースに対する入力結果を前記推定モデルに入力する、請求項１から７のいずれか１項に記載の情報処理装置。
前記第１の入力値は、複数の入力項目の情報を含み、
前記第１の入力値を取得するステップにおいて、前記ユーザに対し、複数の入力項目について前記第１の入力値の入力を受け付け、
前記推定するステップにおいて、前記複数の入力項目の情報を含む前記第１の入力値に応答して前記第１の変数を推定する、請求項８に記載の情報処理装置。
前記第１の入力値を取得するステップにおいて、前記ユーザに対し、多次元の入力を受け付ける画像を前記第１のインタフェースとして提示する、請求項９に記載の情報処理装置。
前記提示するステップにおいて、前記第１の入力値の入力を受け付けるための前記第１のインタフェースと、生成される前記第１のデータと、前記入力値と、当該第１のデータを前記ユーザが確定する操作を受け付けるための第２のインタフェースとを一画面で前記ユーザに提示し、
前記一又は複数のコンピュータプロセッサは、前記確定する操作を受け付けることにより、前記入力値をタグ情報として前記第１データと関連付けて前記記憶部に記憶させるステップを行う、請求項８から１０のいずれか１項に記載の情報処理装置。
前記一又は複数のコンピュータプロセッサは、ユーザの行動のログを取得するステップを行い、
前記第１の入力値を取得するステップにおいて、前記ユーザの行動のログに基づき前記第１の入力値を取得する、請求項１から１１のいずれか１項に記載の情報処理装置。
第３のインタフェースにより、所定の情報を前記ユーザに提示し、前記ユーザからの応答の内容に基づいて、前記第１の入力値を取得する、請求項１から１２のいずれか１項に記載の情報処理装置。
前記一又は複数のコンピュータプロセッサは、
前記学習データに基づいて、前記生成モデルを学習するステップを行い、
前記学習するステップにおいて、データを生成する生成器と、学習データ及び前記生成器により生成されたデータを識別する識別器と、を含む敵対的ネットワークの学習方法により、前記生成モデルを学習する、請求項１から１３のいずれか１項に記載の情報処理装置。
コンピュータにより実行される方法であって、
前記コンピュータは、学習済みの生成モデル、及び、前記生成モデルへ入力する変数を推定するための推定モデルを記憶する記憶部と、一又は複数のコンピュータプロセッサと、を備え、
前記方法は、前記一又は複数のコンピュータプロセッサが、コンピュータ読み取り可能な命令を実行することにより、
ユーザに関連付けられる第１の入力値を取得するステップと、
前記推定モデルに対し前記第１の入力値を入力することで、推定結果として第１の変数を推定するステップと、
前記第１の変数を前記生成モデルに入力することにより第１のデータを生成するステップと、
生成された前記第１のデータを前記ユーザに提示するステップと、を行うことを含む、方法。
コンピュータにより実行されるプログラムであって、
前記コンピュータは、学習済みの生成モデル、及び、前記生成モデルへ入力する変数を推定するための推定モデルを記憶する記憶部と、一又は複数のコンピュータプロセッサと、を備え、
前記プログラムは、前記一又は複数のコンピュータプロセッサに、
ユーザに関連付けられる第１の入力値を取得するステップと、
前記推定モデルに対し前記第１の入力値を入力することで、推定結果として第１の変数を推定するステップと、
前記第１の変数を前記生成モデルに入力することにより第１のデータを生成するステップと、
生成された前記第１のデータを前記ユーザに提示するステップと、を実行させる、プログラム。