JP7457157B2

JP7457157B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP7457157B2
Application number: JP2022566386A
Authority: JP
Inventors: ビヨンシュテンガー; 満中澤
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2024-03-27
Anticipated expiration: 2041-12-21
Also published as: WO2023119394A1; JPWO2023119394A1; US20240221050A1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、広告のための動画を提供するための技術に関する。

近年、ウェブページ上での商品やサービス等のアイテムに係る宣伝広告が広く実施されている。当該宣伝広告は、テキストを含む画像や当該画像のスライドショー形式の動画等で構成され、ユーザの関心を引き付けるための工夫が施されている。

特許文献１には、所定のルールに従って選択された複数の画像と、当該ルールに従って作成された作成指示情報とに基づいて、当該複数の画像を用いたスライドショーを作成する手法が記載されている。

特開２０１７－０２１５９４号公報

しかしながら、特許文献１に記載の手法では、所定のルールに基づいてスライドショーを作成することができるが、当該ルールは予め設定されたものである。よって、当該文献の手法を用いて広告動画を作成する場合には、任意のユーザに最適化された広告コンテンツが作成されず、広告効果を高めることができなかった。

本発明は上記課題に鑑みてなされたものであり、任意のユーザに対して広告効果が高い動画を提供するための技術を提供することを目的とする。

上記課題を解決するために、本発明による情報処理装置の一態様は、所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定手段と、対象のユーザの属性を取得する取得手段と、前記複数の画像コンテンツと、前記対象のユーザの属性とに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定手段と、前記推定されたスタイルに従う動画を前記ユーザに提供する提供手段と、を有する。

前記情報処理装置において、前記提供手段は、前記複数のスタイルのそれぞれに従う動画を、前記対象のユーザを含む複数のユーザから選択された１以上のユーザに提供し、前記推定手段は、前記複数のスタイルのそれぞれについて、前記１以上のユーザから広告の効果を示すスコアを取得し、当該スコアに基づいて、前記対象のユーザに最適なスタイルを推定しうる。

前記情報処理装置において、前記推定手段は、前記対象のユーザに関し、前記複数のスタイルのうち、前記スコアが最高値であるスタイルを、前記最適なスタイルとして推定しうる。

前記情報処理装置において、前記取得手段は、前記複数のユーザの属性を取得し、前記推定手段は、前記複数のスタイルのうち、前記対象のユーザから前記スコアが取得されていないスタイルについての前記スコアを、前記対象のユーザの属性と類似する属性を有するユーザのグループに属する複数のユーザから取得された前記スコアを用いて導出しうる。

前記情報処理装置において、前記推定手段は、前記対象のユーザの属性に応じて、前記ユーザのグループのサイズを変更しうる。

前記情報処理装置は、前記複数のスタイルのうち１つのスタイルを選択する選択手段をさらに有し、前記推定手段は、選択されたスタイルにさらに基づいて前記対象のユーザに最適なスタイルを推定しうる。

前記情報処理装置において、前記推定手段は、前記複数の画像コンテンツの特徴ベクトルを抽出し、前記複数の画像コンテンツの特徴ベクトルと、選択されたスタイルと、前記対象のユーザの属性とを機械学習モデルに入力することにより、選択されたスタイルについての前記スコアを出力しうる。

前記情報処理装置において、前記設定手段は、前記複数のスタイルを前記スコアに応じて更新しうる。

前記複数の画像コンテンツのそれぞれは、静止画または動画で構成されうる。

前記複数の画像コンテンツのそれぞれは、前記所定のアイテムについてのテキスト情報を含みうる。

前記複数の画像コンテンツのそれぞれは、前記所定のアイテムに対応するウェブページを構成する画像コンテンツでありうる。

前記複数のスタイルのそれぞれは、複数の設定を組み合わせて個別に構成されうる。

前記複数の設定は、少なくとも、前記複数の画像コンテンツからの２つ以上の画像コンテンツの選択の設定を含みうる。

前記複数の設定は、前記２つ以上の画像コンテンツから構成される動画における再生順序の設定、前記２つ以上の画像コンテンツから構成される動画全体の再生時間長の設定、前記２つ以上の画像コンテンツの１画像コンテンツ当たりの再生時間の設定、前記２つ以上の画像コンテンツ間のトランジションモードの設定、テキスト情報およびグラフィックスの表示の設定、前記２つ以上の画像コンテンツから構成される動画の初期画像および／または最終画像の設定、音楽の設定、アクティブリンクの有無の設定、前記２つ以上の画像コンテンツから構成される動画の表示時の画像アスペクト比、の少なくとも１つを含みうる。

前記所定のアイテムは、有形または無形の商品またはサービスでありうる。

上記課題を解決するために、本発明による情報処理方法の一態様は、所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定工程と、対象のユーザの属性を取得する取得工程と、前記複数の画像コンテンツと、前記対象のユーザの属性とに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定工程と、前記推定されたスタイルに従う動画を前記ユーザに提供する提供工程と、を含む。

上記課題を解決するために、本発明による情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定処理と、対象のユーザの属性を取得する取得処理と、前記複数の画像コンテンツと、前記対象のユーザの属性とに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定処理と、前記推定されたスタイルに従う動画を前記ユーザに提供する提供処理と、を含む処理を実行させるためのものである。

本発明によれば、任意のユーザに対して広告効果が高い動画を生成することが可能となる。

図１は、情報処理システムの構成例を示す。図２は、第１実施形態による情報処理装置１０の機能構成例を示す。図３は、動画情報記憶部１１０に格納されているデータ例を示す。図４は、広告動画の再生の概念図を示す。図５は、情報処理装置１０とユーザ装置１１のハードウェア構成例を示す。図６は、情報処理装置１０により実行される処理のフローチャートを示す。図７は、スコア表の例を示す。図８は、第２実施形態による情報処理装置１０の機能構成例を示す。図９は、学習部１０８の構成例を示す。図１０は、アスペクト比が異なる画像コンテンツの例を示す。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

＜第１実施形態＞
［情報処理システムの構成］
図１に、本実施形態による情報処理システムの構成例を示す。本情報処理システムは、その一例として、図１に示すように、情報処理装置１０と、任意の複数のユーザ１～Ｎにより使用される複数のユーザ装置１１－１～１１－Ｎ（Ｎ＞１）とを含んで構成される。なお、以下の説明において、特に説明がない限り、ユーザ装置１１－１～１１－Ｎをユーザ装置１１と総称しうる。また、以下の説明において、ユーザ装置とユーザという語は同義に使用されうる。

ユーザ装置１１は、例えば、スマートフォンやタブレットといったデバイスであり、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）等の公衆網や、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等の無線通信網を介して、情報処理装置１０と通信可能に構成されている。ユーザ装置１１は、液晶ディスプレイ等の表示部（表示面）を有し、ユーザ１～Ｎは、当該液晶ディスプレイに装備されたＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）により各種操作を行うことができる。当該操作は、指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、画面に表示された画像等のコンテンツに対する各種の操作を含む。
なお、ユーザ装置１１は、図１に示すような形態のデバイスに限らず、デスクトップ型のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）や、ノート型のＰＣといったデバイスであってもよい。その場合、ユーザ１～Ｎによる操作は、マウスやキーボードといった入力装置を用いて行われうる。また、ユーザ装置１１は、表示面を別に備えてもよい。

情報処理装置１０は、ユーザ装置１１－１～１１－Ｎに対して、有形または無形の商品やサービス（例えば、旅行商品）等のアイテムに関する広告動画を提供（配信）し、ユーザ装置１１－１～１１－Ｎのそれぞれは、受信した当該広告動画をユーザ装置１１－１～１１－Ｎの表示部（図５の表示部５６に対応）に表示させる。ここで、無形の商品は、例えばデジタルコンテンツを含む。情報処理装置１０は、ユーザ装置１１－１～１１－Ｎに提供した広告動画の広告の効果を示す指標（以下、効果指標と称する）を受け付け、当該効果指標に基づいたスコア（広告動画の広告の効果を示す値）を取得する。そして、情報処理装置１０は、取得したスコアに基づいて、ユーザ１～Ｎのうちの任意のユーザに適した広告動画を生成し、当該任意のユーザのユーザ装置に提供する。効果指標とスコアの例については後述する。

［情報処理装置１０の機能構成］
本実施形態による情報処理装置１０は、複数の動画構造スタイル（（ＣｏｍｐｏｓｉｔｉｏｎＳｔｙｌｅ）以下、構造スタイル、スタイルとも称しうる）を設定し、当該複数のスタイルから選択したスタイルに従って、広告動画を生成してユーザ装置１１－１～１１－Ｎの少なくともいずれか１以上の装置に提供（配信）する。すなわち、情報処理装置１０は、複数の異なるスタイルに従って、複数の広告動画を生成し、当該複数の広告動画のそれぞれを、ユーザ装置１１－１～１１－Ｎの全てではなく、少なくとも一部の装置に対して提供する。当該提供後、情報処理装置１０は、ユーザ装置１１－１～１１－Ｎから受信した効果指標（広告の効果を測定するための指標）から、当該動画に関するスコアを取得する。情報処理装置１０は、当該スコアと各ユーザの属性に基づいて、任意のユーザに対して最適な広告動画を生成して、当該任意のユーザのユーザ装置に提供する。

本実施形態による情報処理装置１０の機能構成の一例を図２に示す。本実施形態による情報処理装置１０は、その機能構成の一例として、スタイル設定部１０１、スタイル決定部１０２、動画生成部１０３、提供部１０４、スコア取得部１０５、属性取得部１０６、推定部１０７、および動画情報記憶部１１０を備える。動画情報記憶部１１０には、画像コンテンツ群１１１、音楽コンテンツ群１１２、動画構造スタイル群１１３、補助的コンテンツ群１１４が格納されている。

画像コンテンツ群１１１には、広告動画に使用することができる複数の画像コンテンツが含まれる。なお、本明細書において、画像（画像コンテンツ）という言葉は、静止画および／または動画を含む意味で解釈されるものとする。
音楽コンテンツ群１１２には、生成された広告動画の再生とともに再生することができる複数の音楽コンテンツが含まれる。当該音楽コンテンツは、例えば、ＭＰ３、ＡＡＣといった音楽ファイルの形式で、音楽コンテンツ群１１２に格納されうる。
動画構造スタイル群１１３には、広告動画を生成するための複数のスタイルが含まれる。本実施形態では、動画構造スタイル群１１３には、少なくとも、所定の１つのアイテム（有形または無形の商品やサービス）に関する広告動画を生成するための複数のスタイルが含まれているものとする。各スタイルは、複数の設定を組み合わせて個別に構成される。スタイルの一例については後述する。本実施形態では、動画構造スタイル群１１３に含まれる複数のスタイルから決定（選択）された１つのスタイルに従って、広告動画が生成される。
補助的コンテンツ群１１４には、生成された広告動画の再生とともに表示することができる複数のテキスト情報およびグラフィックスや、シンボル等を補助的コンテンツとして含む。

スタイル設定部１０１は、画像コンテンツ群１１１に含まれる複数の画像コンテンツ、音楽コンテンツ群１１２に含まれる複数の音楽コンテンツ、補助的コンテンツ群１１４に含まれる複数の補助的コンテンツの少なくともいずれかを用いて、複数のスタイルを設定（生成）する。設定された複数のスタイルは、動画構造スタイル群１１３に格納される。スタイルの例については後述する。

スタイル決定部１０２は、動画構造スタイル群１１３に含まれる複数のスタイルのうち、どのスタイルに従って広告動画を生成するかを決定する。すなわち、スタイル決定部１０２は、広告動画を生成するために用いるスタイルを、動画構造スタイル群１１３から選択する。当該決定は、情報処理装置１０の操作者によって行われてもよいし、予め情報処理装置１０に設定されたシナリオ等に従って行われてもよい。スタイル決定部１０２は、選択したスタイルの情報を動画生成部１０３に出力する。

動画生成部１０３は、スタイル決定部１０２によって選択されたスタイルに従って、広告動画を生成する。広告動画は、当該選択されたスタイルに従って、動画情報記憶部１１０に記憶されている各種情報を用いて生成される。

提供部１０４は、動画生成部１０３により生成された広告動画を、ユーザ装置１１－１～１１－Ｎの少なくともいずれかに提供（配信）する。本実施形態では、スタイル決定部１０２は、動画構造スタイル群１１３から順次異なるスタイルを選択し、これに応じて、動画生成部１０３は、順次異なる広告動画を生成し、提供部１０４は、当該広告動画を、ユーザ装置１１－１～１１－Ｎの少なくともいずれかに提供する。当該広告動画を受信したユーザ装置１１は、当該広告動画を表示部に表示させる。

スコア取得部１０５は、提供部１０４により提供された複数の異なる広告動画に関する、広告の効果を示す指標（効果指標）を受信し、当該効果指標に応じたスコアを取得する。当該取得は、算出処理も含まれうる。ここで、算出処理とは、ルールベースでスコアを一意的に求める処理であってよく、機械学習モデル等の何らかのモデルによりスコアを推定する処理であってよく、その態様に制限はない。

ここで、効果指標およびスコアの一例について説明する。効果指標は、広告動画に関する広告の効果を示す指標であり、ユーザに対する広告の効果を示す指標であり、例えばＣＶＲ（ＣｏｎｖｅｒｓｉｏｎＲａｔｅ）やＣＴＲ（ＣｌｉｃｋＴｈｒｏｕｇｈＲａｔｅ）が使用される。ＣＶＲは、広告のリンク（動作中のリンク）をクリック（選択）した数のうち、何割がコンバージョン（商品購入や資料請求といった最終成果）に至ったかの割合を示す指標である。また、ＣＴＲは、広告が表示されたユーザのうちクリックした割合を示す指標である。なお、動作中のリンクは、選択およびクリックすることにより所定のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）に対応するサイトへ移動する場所であり、以下、アクティブリンクとも称する。ここで、アクティブリンクとは、上記所定のＵＲＬと対応するオブジェクトを指してもよい。

本実施形態において、アクティブリンクは、ユーザ装置１１において再生された広告動画または当該動画の近傍に表示されうる。効果指標としてＣＶＲを使用する場合は、ＣＶＲは、ユーザ装置１１のユーザが当該アクティブリンクをクリックした数のうち、アクティブリンクのクリックを介して、対象のアイテムを購入する数の割合により導出される。効果指標としてＣＶＲが使用される場合、スコア取得部１０５は当該ＣＶＲをそのままスコアとして用いることができる。

また、効果指標は、ユーザ装置１１において再生された広告動画に対する、ユーザの視聴時間に基づく指標であってもよい。情報処理装置１０側で視聴時間の情報を取得することが難しい場合、視聴時間を、ユーザ装置１１において再生される広告動画の表示時間で近似してもよい。ユーザ装置１１の表示部には、広告動画以外のあらゆる情報も表示されうるが、広告動画が表示される画面が表示部に表示されていた時間を、視聴時間と近似することは合理的な手法である。効果指標として視聴時間が使用される場合、スコア取得部１０５は、とりうる最大の広告動画の動画長以下の所定の最大時間を設定し、当該最大時間に対する視聴時間（表示時間）の割合を、スコアとして算出することができる。

属性取得部１０６は、ユーザ装置１１－１～１１－Ｎのユーザ１～Ｎのそれぞれの属性（属性を表す情報）を取得する。属性（ユーザの属性）とは、性別、年齢、年収、学歴、居住地といった人口統計学的属性（デモグラフィック属性）や、趣味、趣向といった心理学的属性（サイコグラフィック属性）や、過去のインターネットでの検索履歴、閲覧履歴、購買履歴といった行動学的属性（ビヘイビオラル属性）や、特定のアプリケーションによる登録情報等の少なくとも一部を示す。

推定部１０７は、スコア取得部１０５により取得されたスコアと、属性取得部１０６により取得された各ユーザの属性に基づき、任意のユーザに最適なスタイルを推定する。推定部１０７による処理については後述する。

次に、動画情報記憶部１１０における画像コンテンツ群１１１、音楽コンテンツ群１１２、動画構造スタイル群１１３に格納されているデータについて、図３を参照して説明する。

図３（ａ）は、画像コンテンツ群１１１に含まれる複数の画像コンテンツの例を表す。本実施形態では、所定の１つのアイテムに関する広告動画を生成することを想定し、画像コンテンツ群１１１には当該所定のアイテムに関連する複数の画像コンテンツが含まれる。例えば、アイテムが旅行商品の場合は、画像コンテンツ群１１１には、景色の画像、ホテルの外観や内装の画像、ホテルで提供される食事等の画像コンテンツが含まれる。

図３（ａ）では、画像コンテンツ群１１１がｍ（＞１）個の画像コンテンツ（“ｉｍｇ”）を含み、各画像コンテンツを“＃１”～“＃ｍ”で識別する例を表している。前述のように、各画像コンテンツは、静止画および／または動画を含むことができるものとする。また、各画像コンテンツは、テキスト情報を含みうる。画像コンテンツは、ＪＰＥＧ、ＢＭＰ、ＧＩＦ、ＭＰＥＧ４等、任意のデータ形式でありうる。

本実施形態において、画像コンテンツ群１１１における各画像コンテンツは、所定の物体検出モデルにより検出された物体に係る情報と対応付けられてよい。ここで、当該物体とは、例として、人物、動物、植物、飲食物、構造物、景観といった種々の種別の物体を指す。また、当該各画像コンテンツは、色調パラメータ等の画像編集パラメータが対応付けられてよい。また、当該各画像コンテンツは、審美性評価モデル等により行われる評価の結果である審美性スコア等の画像評価スコアが対応付けられていてよい。

本実施形態において、画像コンテンツ群１１１として各画像コンテンツは、前述の所定の１つのアイテムに対応する１以上のウェブページを構成する画像コンテンツであってよい。つまり、本実施形態において生成される広告動画とは、例として、アイテムのウェブページを構成するコンテンツを素材とする広告動画に相当する。当該アイテムがホテル等の宿泊施設に係る宿泊サービスである場合、当該ウェブページを構成する画像コンテンツは、当該宿泊施設の内観または外観を示す画像コンテンツであってよく、当該宿泊サービスにおいて提供される飲食物を示す画像コンテンツであってよく、当該宿泊サービスに関連する景観を示す画像コンテンツであってよい。本実施形態における画像コンテンツ群１１１は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）等のマークアップ言語に基づき記述され構造化されたウェブページから抽出された画像コンテンツを含んでよく、ウェブページのスクリーンショット等から切り抜かれた画像コンテンツを含んでよく、その態様に制限はない。ここで、画像コンテンツが含みうるテキスト情報とは、例として、画像コンテンツを含む当該ウェブページに記載等されているテキスト情報を指す。本実施形態において、画像コンテンツ群１１１は、当該アイテムに係るウェブページに固有な複数の画像コンテンツにより構成されてよく、値段、場所、カテゴリ等の何らかのアイテム属性が共通する異なる２以上のアイテムに係る複数のコンテンツにより構成されてもよい。ここで、画像コンテンツ群１１１は、アイテムおよび／またはアイテム属性に対応付けられてよい。

図３（ｂ）は、音楽コンテンツ群１１２に含まれる複数の音楽コンテンツの例を表す。図３（ｂ）では、音楽コンテンツ群１１２がｎ（＞１）個の音楽コンテンツ（“ｍｓｃ”）を含み、各音楽コンテンツを“＃１”～“＃ｎ”で識別する例を表している。なお、他の実施形態では、音楽コンテンツ群１１２は１つのみの音楽コンテンツを含むように構成されてもよい。前述のように、音楽コンテンツは、ＭＰ３、ＡＡＣといった音楽ファイルの形式でありうる。本実施形態において、音楽コンテンツ群１１２は、画像コンテンツ群１１１と同様、アイテムに係るウェブページを構成する画像コンテンツであってよいし、当該アイテムのウェブページとの対応関係をもたない複数の音楽コンテンツであってよい。

図３（ｃ）は、動画構造スタイル群１１３に含まれるスタイルの例を表す。本実施形態では、各スタイルは、スタイル設定部１０１により設定される。なお、各スタイルは、予め情報処理装置１０に設定されていてもよい。
本実施形態によるスタイルは、一例として、以下の（１）～（９）の設定を含む。各スタイルは、これらの設定の２つ以上を組み合わせて個別に構成される。

（１）画像選択
本設定は、画像コンテンツ群１１１に含まれる複数の画像コンテンツのうち、生成する広告動画を構成する２つ以上の画像コンテンツを選択するための設定である。具体的には、２つ以上の画像コンテンツを識別する情報が選択される。
第１スタイルの例では、図３（ａ）を参照して、“ｉｍｇ＃１”、“ｉｍｇ＃３”、“ｉｍｇ＃４”が設定されている。

本実施形態は、スタイルにおける画像選択として、特定の画像コンテンツの組み合わせを例示しているが、所定の傾向の画像コンテンツの組み合わせを画像コンテンツ群１１１の中から指定するような当該画像選択としてもよい。例として、当該画像選択は、特定の物体を示すような画像コンテンツを指定する画像選択であってよい。具体的には、当該画像選択は、人物、動物、植物、飲食物、構造物、景観といった種々の種別のうち１以上の特定の種別の物体を示す画像コンテンツを指定する画像選択であってよい。さらに、具体的には、当該画像選択は、飲食物である物体を示す画像コンテンツを指定する場合において、日本料理等の特定の飲食物を示す画像コンテンツを指定してよい。ここで、当該画像選択における指定の対象となる、画像コンテンツ中の物体に係る分類の細密度に制限はない。また、例として、当該画像選択は、特定の画像編集パラメータを示す画像コンテンツを指定する画像選択であってよい。具体的には、当該画像選択は、所定範囲の色調パラメータ、濃淡パラメータ、露出パラメータ、明暗差（コントラスト）パラメータ等の画像編集パラメータを示す画像コンテンツを指定する画像選択であってよい。また、例として、当該画像選択は、画像コンテンツを評価するための機械学習モデルにより出力される画像評価スコアが高い画像コンテンツを指定する画像選択であってよい。具体的には、当該画像選択は、審美性スコアや顕著性スコアなどの画像評価スコアが所定のしきい値を超過するような画像コンテンツを指定する画像選択であってよい。なお、所定の傾向の画像コンテンツとして複数の画像コンテンツが候補となる場合、当該画像選択は、これら種々の傾向のうち複数の傾向を組み合わせて所定の画像コンテンツを指定してよい。具体的には、例として、当該画像選択は、特定の種別の物体を示す複数の画像コンテンツが候補となる場合、審美性スコア等の何らかの画像評価スコアが高い画像コンテンツを指定してよい。なお、当該画像選択は、互いの画像類似性スコアが最も低くなる複数の画像コンテンツの組み合わせを指定してよい。ここで、画像類似性スコアは、機械学習モデルによる２の画像コンテンツに係る画像類似性評価の結果であってよく、ルールベース処理による当該画像類似性評価の結果であってよい。

（２）画像順序
本設定は、（１）の設定において選択された２つ以上の画像コンテンツから構成される広告動画における、当該２つ以上の画像コンテンツの再生順序の設定である。
第１スタイルの例では、本設定に“ｉｍｇ＃１”、“ｉｍｇ＃４”、“ｉｍｇ＃３”の順序が設定されている。

本実施形態において、スタイルにおける画像順序として、特定の複数の画像コンテンツの順序を例示しているが、前述の傾向に基づいた順序を指定するものであってもよい。

（３）目標動画長
本設定は、（１）の設定において選択された２つ以上の画像コンテンツから構成される広告動画全体の再生時間長の設定である。
第１スタイルの例では、本設定に「３０ｓｅｃ（秒）」が設定されている。

（４）１画像コンテンツ当たりの目標時間
本設定は、（１）の設定において選択された２つ以上の画像コンテンツのそれぞれに対して設定される再生時間の設定である。
第１スタイルの例では、本設定に「１０ｓｅｃ」が設定されている。第１スタイルの例では、再生する各画像コンテンツに対して等しい再生時間（３つの画像コンテンツに対して３０ｓｅｃ）が設定されているが、異なる再生時間が設定されてもよい。

（５）画像コンテンツ間のトランジションモード
本設定は、（１）の設定において選択された２つ以上の画像コンテンツの再生（表示）の切り替え時のエフェクトの設定である。当該トランジションモードには、例えば、ブレンドモード（前後の画像の色合いを所定の手法で合成する（フェード、ディゾルブとも称される））、ブラックアウト（暗転）モード、ホワイトアウトモード、ワイプ（拭き取られるように画像が切り替わる）モード等が存在する。
第１スタイルの例では、本設定に「ブレンドモード」が設定されている。

（６）関連テキストおよび／またはグラフィックスの表示
本設定は、（１）の設定において選択された２つ以上の画像コンテンツから構成される広告動画の再生時に併せて表示する、アイテムに関連するテキスト情報および／またはグラフィックスの表示の設定である。当該関連テキスト情報および／またはグラフィックスは、画像コンテンツに含まれるテキスト情報（例えば、アイテム情報）とは異なり、例えば、対象アイテムに関連して受賞したアワードのロゴマークを表す画像情報等である。当該関連テキスト情報およびグラフィックスは、画像コンテンツとして画像コンテンツ群１１１に含まれうる。本設定では、「無」あるいは「有」が設定される。本設定が「有」の場合、画像コンテンツ群１１１における画像コンテンツを識別する情報が併せて設定されうる。
第１スタイルの例では、本設定に「無」が設定されている。

（７）広告動画の初期画像および／または最終画像の設定
本設定は、（１）の設定において選択された２つ以上の画像コンテンツから構成される広告動画の初期画像（いわゆる、イントロ、オープニング）および／または最終画像（いわゆる、アウトロ、エンディング）の設定である。例えば、初期画像は、広告動画の概要を表すための画像でありうる。また、最終画像は、広告動画の終了を表すための画像でありうる。初期画像や最終画像は、静止画であってもよいし、動画であってもよい。また、初期画像や最終画像は、生成される広告動画と同じまたは異なる音楽と共に再生されるように構成されてもよい。本設定では、「無」あるいは「有」が設定される。本設定が「有」の場合、画像コンテンツ群１１１における画像コンテンツを識別する情報が併せて設定されうる。また、本設定が「有」の場合、音楽コンテンツ群１１２における音楽コンテンツを識別する情報も設定されうる。
第１スタイルの例では、本設定に「無」が設定されている。

（８）音楽の選択
本設定は、（１）の設定において選択された２つ以上の画像コンテンツから構成される広告動画に伴って再生される、音楽コンテンツ群１１２に含まれるいずれかの音楽コンテンツ（楽曲）を選択するための設定である。具体的には、音楽コンテンツの識別情報が選択される。広告動画の再生中に楽曲を切り替えることも可能であり、複数の識別情報が選択されてもよい。その場合、各楽曲の再生時間も併せて設定されうる。
第１スタイルの例では、図３（ａ）を参照して、“ｍｓｃ＃１”が設定されている。

（９）広告動画におけるアクティブリンクの有無
本設定は、（１）の設定において選択された２つ以上の画像コンテンツから構成される広告動画の再生中に表示されるアクティブリンクの設定である。当該アクティブリンクは、広告動画が再生される枠の中に表示されてもよいし、当該枠の外に表示されてもよい。また、当該アクティブリンクは、再生中の全時間にわたって表示されてもよいし、特定のタイミングで表示されてもよい。当該アクティブリンクは、広告の対象である、有形または無形の商品やサービスを購入（契約）または購入に関連するためのサイトへのリンクでありうる。本設定では、「無」あるいは「有」が設定される。本設定が「有」の場合、対象のアイテムのための所定のアクティブリンクが併せて設定される。さらに、アクティブリンクを表示するタイミング（再生時間におけるタイミングや画像コンテンツを識別する情報）も設定されうる。アクティブリンクを表示するタイミングが設定されない場合は、再生中の全時間にわたってアクティブリンクが表示されうる。
第１スタイルの例では、「有」および対象のアイテムのための所定のリンクが設定されている。また、当該リンクを表示するタイミングとして画像コンテンツの情報“ｉｍｇ＃３”が設定されている。

スタイル決定部１０２により、図３（ｃ）に示す第１スタイルが選択された場合の、動画生成部１０３により生成される広告動画の再生の概念図を図４に示す。
図３（ｃ）の第１シナリオを参照し、画像コンテンツはｉｍｇ＃１”、“ｉｍｇ＃４”、“ｉｍｇ＃３”の順序で再生され、音楽コンテンツ“ｍｓｃ＃１”も再生される。各画像コンテンツの再生時間は１０ｓｅｃであり、広告動画全体の再生時間は３０ｓｅｃである。また、広告動画は、画像コンテンツ間がブレンドモードで切り替わるように構成される。また、広告動画は、画像コンテンツ“ｉｍｇ＃３”の再生時に、対象のアイテムのためのアクティブリンクが表示されるように構成される。なお、アクティブリンクは、図４に示すような、文字列で表示される形態に限らず、“ｉｍｇ＃３”の画像範囲の任意の部分をユーザが選択することにより、当該リンクが示すリンク先に移動するように構成されてもよい。

［情報処理装置１０のハードウェア構成］
図５は、本実施形態による情報処理装置１０のハードウェア構成の一例を示すブロック図である。
本実施形態による情報処理装置１０は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図５を参照して、情報処理装置１０は、単一のコンピュータに実装される例が示されているが、本実施形態による情報処理装置１０は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。

図５に示すように、情報処理装置１０は、ＣＰＵ５１と、ＲＯＭ５２と、ＲＡＭ５３と、ＨＤＤ５４と、入力部５５と、表示部５６と、通信Ｉ／Ｆ５７と、システムバス５８とを備えてよい。情報処理装置１０はまた、外部メモリを備えてよい。
ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５１は、情報処理装置１０における動作を統括的に制御するものであり、データ伝送路であるシステムバス５８を介して、各構成部（５２～５７）を制御する。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５２は、ＣＰＵ５１が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）５４、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性メモリや着脱可能な記憶媒体（不図示）等の外部メモリに記憶されていてもよい。
ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５３は、揮発性メモリであり、ＣＰＵ５１の主メモリ、ワークエリア等として機能する。すなわち、ＣＰＵ５１は、処理の実行に際してＲＯＭ５２から必要なプログラム等をＲＡＭ５３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。ＲＯＭ５２またはＲＡＭ５３は、図２に示す動画情報記憶部１１０を含みうる。

ＨＤＤ５４は、例えば、ＣＰＵ５１がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、ＨＤＤ５４には、例えば、ＣＰＵ５１がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部５５は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部５６は、液晶ディスプレイ（ＬＣＤ）等のモニターにより構成される。表示部５６は、入力部５５と組み合わせて構成されることにより、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）として機能してもよい。

通信Ｉ／Ｆ５７は、情報処理装置１０と外部装置との通信を制御するインタフェースである。
通信Ｉ／Ｆ５７は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信Ｉ／Ｆ５７を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信Ｉ／Ｆ５７は、イーサネット（登録商標）等の通信規格に準拠する有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＺｉｇＢｅｅ（登録商標）、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）等の無線ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）を含む。また、Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）（登録商標）等の無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、ＷｉＭＡＸ（登録商標）等の無線ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）を含む。さらに、ＬＴＥ、３Ｇ、４Ｇ、５Ｇ等の無線ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。

図５に示す情報処理装置１０の各要素のうち少なくとも一部の機能は、ＣＰＵ５１がプログラムを実行することで実現することができる。ただし、図５に示す情報処理装置１０の各要素のうち少なくとも一部の機能が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、ＣＰＵ５１の制御に基づいて動作する。

［ユーザ装置１１のハードウェア構成］
図１に示すユーザ装置１１のハードウェア構成は、図５と同様でありうる。すなわち、ユーザ装置１１は、ＣＰＵ５１と、ＲＯＭ５２と、ＲＡＭ５３と、ＨＤＤ５４と、入力部５５と、表示部５６と、通信Ｉ／Ｆ５７と、システムバス５８とを備えうる。ユーザ装置１１は、情報処理装置１０により提供された各種情報を、表示部５６に表示し、ＧＵＩ（入力部５５と表示部５６による構成）を介してユーザ１から受け付ける入力操作に対応する処理を行うことができる。

［処理の流れ］
図６に、本実施形態による情報処理装置１０により実行される処理のフローチャートを示す。図６に示す処理は、情報処理装置１０のＣＰＵ５１がＲＯＭ５２等に格納されたプログラムをＲＡＭ５３にロードして実行することによって実現されうる。

Ｓ６０１で、スタイル設定部１０１は、画像コンテンツ群１１１に含まれる複数の画像コンテンツおよびその傾向、音楽コンテンツ群１１２に含まれる複数の音楽コンテンツ、補助的コンテンツ群１１４に含まれる複数の補助的コンテンツの少なくともいずれかを用いて、複数のスタイルを設定（生成）する。スタイルの例としての第１スタイルと第２スタイルは、図３（ｃ）に示した通りである。スタイル設定部１０１は、複数のスタイルを、当該複数のスタイルを、動画構造スタイル群１１３に格納する。スタイル設定部１０１は、例えば、情報処理装置１０の操作者による設定や、予め情報処理装置１０に設定されたシナリオ等に従って、複数のスタイルを設定することができる。なお、複数のスタイルは、予め情報処理装置１０に設定されていてもよく、その場合、Ｓ６０１における複数のスタイルの設定処理は省略される。
また、Ｓ６０１では、属性取得部１０６が、ユーザ装置１１－１～１１－Ｎの各ユーザの属性を取得する。

Ｓ６０２では、スタイル決定部１０２は、動画構造スタイル群１１３に含まれる複数のスタイルから、１つのスタイルを選択（決定）する。当該選択は、情報処理装置１０の操作者によって行われてもよいし、予め情報処理装置１０に設定されたシナリオ等に従って行われてもよい。

Ｓ６０３では、動画生成部１０３は、スタイル決定部１０２によって選択されたスタイルに従って、広告動画を生成する。図３（ｃ）の第１スタイルの例では、例えば図４に示すイメージの広告動画が生成される。生成された広告動画は、ＲＡＭ５３といった記憶部に一時的に格納されてよく、ＲＯＭ５２といった記憶部に記録されてよい。

Ｓ６０４では、提供部１０４は、動画生成部１０３により生成された広告動画を、ユーザ装置１１－１～１１－Ｎの少なくともいずれかに提供（配信）する。本実施形態では、提供部１０４は、動画生成部１０３により生成された広告動画を、図１に示すユーザ装置１１－１～１１－Ｎの全てではなく、１以上のユーザ装置に提供する。各動画を提供する１つ以上のユーザ装置は、動画提供毎にランダムに選択されてもよい。また、各動画を提供する１つ以上のユーザ装置は、情報処理装置１０の操作者によって選択されてもよいし、予め情報処理装置１０に設定されたシナリオ等に従って選択されてもよい。

Ｓ６０５では、提供部１０４は、Ｓ６０１で生成された複数のスタイルのそれぞれに従う各広告動画の全てをユーザ装置１１に提供したか否かを判定する。複数のスタイルに従う広告動画を全てユーザ装置１１へ提供していない場合（Ｓ６０５でＮｏ）、情報処理装置１０は、Ｓ６０２～Ｓ６０４の処理を繰り返す。複数のスタイルに従う広告動画を全てユーザ装置１１へ提供した場合は（Ｓ６０５でＹｅｓ）、処理はＳ６０６へ進む。

なお、Ｓ６０４の広告動画のユーザ装置１１への提供について、提供部１０４は、各広告動画を順次提供してもよいし、Ｓ６０１で生成された複数のスタイルに従う広告動画を、同時に提供してもよい。

本実施形態では、前述のように、各広告動画は、ユーザ装置１１－１～１１－Ｎの全てではなく、一部の装置に提供される。例えば、異なるスタイルの広告動画が１００本ある場合、提供部１０４は、１００本の広告動画をユーザ装置１１－１～１１－Ｎの全てには提供せず、各動画を、ユーザ装置１１－１～１１－Ｎから選択した１つ以上のユーザ装置に提供する。

Ｓ６０１で生成された複数のスタイルに従う広告動画の全てをユーザ装置１１に提供後、Ｓ６０６では、スコア取得部１０５は、ユーザ装置１１－１～１１－Ｎからの効果指標に基づいて、スコアを取得し、取得したスコアを登録したスコア表を生成する。本実施形態において、スコアの最大値は１とし、スコアの高さが広告効果の高さを示す。

スコア表の例を図７（ａ）に示す。図７（ａ）に示すスコア表では、各ユーザ装置のユーザについて、異なるスタイル（第１スタイル７１－１～第Ｓスタイル７１－Ｓ（Ｓ＞１））に対するスコアが示されている。前述のように、Ｓ６０４において、提供部１０４は、異なるスタイルの広告動画を、ユーザ装置１１－１～１１－Ｎのうちの１つ以上のユーザ装置へ提供し、Ｓ６０６でスコアを取得する。全スタイルについて、全ユーザ装置１１－１～１１－Ｎの全てではなく、一部の装置からスコアが取得されることから、スコア表は、スコアがまばらに（スパースに）存在する表となる。

全てのスタイル（第１スタイル７１－１～第Ｓスタイル７１－Ｓ）についてのスコアを取得してスコア表が生成された後、Ｓ６０７では、推定部１０７は、対象となる任意のユーザを決定する。以下、Ｓ６０７で決定した任意のユーザ装置をユーザ装置１１－Ｃ、ユーザ装置１１－ＣのユーザをユーザＣと称する。
Ｓ６０７ではさらに、推定部１０７は、Ｓ６０８の補完処理のベースとなるユーザグループを決定する。具体的には、推定部１０７は、図１に示すユーザ装置１１－１～１１－Ｎのユーザ１～Ｎから、Ｓ６０１において属性取得部１０６により取得された各ユーザの属性に基づいて複数のユーザを選択してグループを生成する。本実施形態では、推定部１０７は、ユーザＣの属性と類似した（または同じ）属性を有する複数のユーザをグルーピングし、１つのグループ（グループＣと称する）を生成する。類似した属性とは、前述のユーザの属性を特徴ベクトルとして表した場合に、特徴ベクトルが分布した特徴空間において所定の範囲に含まれる特徴ベクトルに対応する属性である。

属性は、粗い分類（例えば、性別）から細かい分類（例えば、特定のアイテムの購買履歴から特定される趣向）に分類される。グルーピングにおける属性の粒度（ｇｒａｎｕｌａｒｉｔｙ）は、粗いほど、多数ユーザのユーザグループが生成され、細かいほど、ユーザＣの個別の属性のより類似した属性を有する複数ユーザのユーザグループが生成される。すなわち、グループのサイズが変化する。当該グルーピングの粒度は、情報処理装置１０において予め設定されていてもよいし、機械学習によって決定されてもよい。本実施形態における最も荒いグループとは、ユーザ装置１１－１～１１－Ｎと対応する全ユーザを含む１つの全体のグループである。なお、本実施形態におけるグルーピングは、既知の手法に基づくクラスタリングによりなされてよい。

続いて、Ｓ６０８では、Ｓ６０７で決定した任意のユーザＣから取得されていないスタイルについてのスコアを、Ｓ６０７で生成したグループＣの属するユーザから取得されたスコアに基づいて補完（導出）し、スコア表を補完する。当該補完処理については、図７（ｂ）を参照して後述する。

スコア表の補完後、Ｓ６０９では、推定部１０７は、任意のユーザＣについて、最高値のスコアのスタイルを決定し、当該最高値のスコアに対応するスタイルを、ユーザＣに最適なスタイルと推定する。

Ｓ６１０では、動画生成部１０３は、Ｓ６０９で推定された最適なスタイルに従う広告動画を生成し、提供部１０４は、ユーザ装置１１－Ｃ（もしくはグループＣに属する複数のユーザのユーザ装置）に提供する。なお、最適なスタイルに従う広告動画がすでに生成され、ＲＡＭ５３といった記憶部に格納されている場合は、提供部１０４は、当該記憶部から対象の広告動画を読み出して、ユーザ装置１１－Ｃに提供してもよい。

次に、図６におけるＳ６０７～Ｓ６０９の処理について、図７（ｂ）を参照して説明する。図７（ｂ）は、図７（ａ）と同様のスコア表であり、Ｓ６０７～Ｓ６０９の処理を説明するためのものである。ここでは、Ｓ６０７において任意のユーザとして決定したユーザＣについて最適なスタイルを決定する例について説明する。前述したように、Ｓ６０７では、推定部１０７はユーザのグループＣを、各ユーザの属性に基づいて決定する。図７（ｂ）の例では、ユーザ１～３、Ｃを含むグループＣが生成されるものとする。

続くＳ６０８では、推定部１０７は、ユーザＣについて、スコア表を補完する。まず、推定部１０７は、全てのスタイル（第１スタイル７１－１～第Ｓスタイル７１－Ｓ）について、グループＣに属するユーザのうち、ユーザＣのスコアと類似するスコアを有する複数の他のユーザを選択する。図７（ｂ）の例では、推定部１０７は、第１スタイル７１－１について、ユーザＣのスコア（＝０．７）と類似している、ユーザ１のスコア（＝０．６７）とユーザ３のスコア（＝０．７３）を確認し、ユーザ１とユーザ３を選択する。ユーザＣのスコアと類似と認定されるスコアの範囲は任意に決定することができる。

そして、推定部１０７は、選択したユーザ１とユーザ３について、第１スタイル７１－１以外のスタイルの中から、スコアが類似しているスタイルを特定する。図７（ｂ）の例では、第３スタイル７１－３が特定される。推定部１０７は、第３スタイル７１－３について、ユーザＣのスコアが存在しないことから、ユーザ１のスコア（＝０．３）とユーザ３のスコア（＝０．４）を用いて、ユーザＣのスコアを算出（推定）して補完する。本実施形態では、ユーザ１とユーザ３のスコアの平均値として、０．３５が算出される。
推定部１０７は、このような補完処理を、全スタイルにわたって実施し、ユーザＣについて、スコア表を補完する。

本実施形態における任意のユーザに係るスコアの補完処理は、任意のユーザと同一のグループに属する他のユーザに係るスコアの統計値に基づいてよい。当該統計値は、例として、平均値であってよく、中央値であってよく、最頻値であってよく、慣用の統計的指標と対応する何らかの値であればその態様に制限はない。また、当該補完処理は、任意のユーザおよび他のユーザにおける属性の特徴ベクトルに係る類似性に基づいてもよい。具体的には、当該補完処理は、例として、任意のユーザおよび他のユーザ間の属性の特徴ベクトルに係るコサイン類似度等の慣用の類似度に基づき、他のユーザのスコアを補正する処理であってもよい。ここで、ユーザの属性に代えて、ユーザ装置１１－１～１１－Ｎと対応する全ユーザの範囲内で、ユーザが属するグループの属性が用いられてもよい。この場合、他のグループの統計値を補正したものを任意のユーザに係るスコアとしてよい。また、ここで、補正された他のユーザまたは他のグループのスコアは所定の範囲を有してよく、異なる複数の他のユーザまたは他のグループにかかる補正されたスコアが重複する範囲内で任意のユーザのスコアが決定されてもよい。なお、当該補正処理は、補正された他のユーザまたは他のグループのスコアの統計値に基づいてもよい。

スコア表の補完後、推定部１０７は、ユーザＣに対して、最高値のスコアのスタイルを、ユーザＣに最適なスタイルを推定する。図７（ｂ）の例では、第３スタイル７１－３についてのスコアが追加されたが、第１スタイル７１－１のスコアの方が大きい値であり、図７（ｂ）のスコア表ではユーザＣについて最高値を示すため、推定部１０７は、第１スタイル７１－１が、ユーザＣに最適なスタイルであると推定される。

このように、ユーザ装置１１－１～１１－Ｎから取得した効果指標に基づいたスコアから生成されるスコア表は、スコアがまばらに存在するスコア表であるが、対象のユーザＣについてのスコアを、他のスコアを用いて補完する。そして、推定部１０７は、最終的に生成されたスコアから、最高値のスコアに対応するスタイルを、ユーザＣに最適なスタイルとして推定する。

以上、第１実施形態について説明した。本実施形態によれば、複数のスタイルに従う複数の広告画像を全ユーザに提供しなくても、一部のユーザ装置に提供して当該提供に応答して取得されたスコアに基づいて、任意のユーザに対して最適なスタイルを推定することが可能となる。よって、当該任意のユーザにパーソナライズされた広告動画の提供が可能となり、広告効果がより向上する。

＜第２実施形態＞
第１実施形態では、複数のスタイルから、スコアとユーザの属性に応じて、任意のユーザに最適なスタイルを推定して決定した。本実施形態では、スタイル、画像コンテンツ、およびユーザの属性に基づいて、機械学習を用いて当該スタイルのスコアを推定する手法について説明する。
以下、本実施形態について、第１実施形態と異なる点について説明する。

本実施形態による情報処理装置１０の機能構成を図８に示す。図１と比較して、学習部１０８、学習モデル記憶部１２０が追加された点で異なる。学習部１０８は、スタイルとスコアを教師データとして用いてスコア推定モデル１２１を学習（トレーニング）させ、学習済みの学習モデルを、学習モデル記憶部１２０に格納する。スタイルとスコアの組み合わせは、第１実施形態において説明した手法により、取得または推定することができる。また、学習部１０８は、当該教師データのバッチにより、スコア推定モデル１２１の学習を継続し、スコア推定モデル１２１を更新することができる。ＲＯＭ５２またはＲＡＭ５３は、学習モデル記憶部１２０を含みうる。

図９に、学習部１０８の構成例を示す。学習部１０８は、スタイル９１、ユーザの属性９２、画像コンテンツの特徴ベクトル９３を取得してスコア推定モデル１２１に入力し、スコア９４を出力する。
スタイル９１は、動画構造スタイル群１１３に含まれる複数のスタイルのうち、任意に選択されたスタイルを識別する情報である。
ユーザ属性９２は、属性取得部１０６により取得されたユーザ属性を表す情報である。なお、ユーザ属性９２は、個別の１ユーザの属性であってもよいし、類似した属性を有する複数のユーザのグループの属性（グループ属性）であってもよい。類似した属性とは、属性を特徴ベクトルとして表した場合に、特徴ベクトルが分布した特徴空間において所定の範囲に含まれる特徴ベクトルに対応する属性である。
画像コンテンツの特徴ベクトル９３は、画像コンテンツ群１１１に含まれる画像コンテンツの特徴を表す特徴ベクトルである。特徴ベクトル９３は、学習部１０８自身が、画像コンテンツをＲｅｓｎｅｔ、ＶＧＧ－１６、ＶＧＧ－１９といったＣＮＮ（畳み込みニューラルネットワーク）に適用することにより抽出されうる。

図９に示すように、スコア推定モデル１２１は、スタイル９１、ユーザ属性９２、画像コンテンツの特徴ベクトル９３を入力として、スタイル９１に対するスコア９４を予測する。スコア推定モデル１２１は、任意の深さを有するＣＮＮといったニューラルネットワークで構成されうる。

推定部１０７は、スコア推定モデル１２１を用いて出力（予測）されたスコア９４を用いて、任意のユーザ（もしくは、ユーザグループ）に最適なスタイルを決定することができる。例えば、推定部１０７は、学習部１０８により、ユーザ属性９２について、複数のスタイルに対して出力された複数のスコアを取得し、当該複数のスコアのうち最高値のスコアに対応するスタイルを、ユーザ属性９２に対応するユーザ（もしくは、ユーザグループ）に最適なスタイルと推定してもよい。あるいは、出力されたスコアを、第１実施形態において説明したスコア表に入力し、推定部１０７は、第１実施形態において説明した手順により、任意のユーザに最適なスタイルを推定してもよい。第１実施形態と同様に、推定された最適なスタイルに従って生成された広告動画は、ユーザ装置に提供される。

このように、本実施形態によれば、機械学習により、任意のスタイルとユーザ属性に対するスコアを予測（出力）することが可能となる。また、ユーザ属性９２の属性の粒度により、対象のユーザまたはユーザグループに適したスタイルを設定することが可能となる。すなわち、個別のユーザを対象とする場合、ユーザ属性９２の粒度を細かく設定し、当該個別のユーザに適したスタイルを推定することが可能となる。一方、ユーザグループを対象とする場合、ユーザ属性９２の粒度を粗く設定し、当該ユーザグループに適したスタイルを推定することが可能となる。このような処理により、所与の目的に沿ったスタイルを決定でき、それに応じて、対象のユーザ（もしくは、ユーザグループ）へ広告効果の高い広告動画を提供することが可能となる。

＜第３実施形態＞
上記の実施形態では、使用する複数のスタイルは予め設定されていた。すなわち、１００本といった所定数のスタイルがスタイル設定部１０１により設定され、もしくは予め設定され、その中から任意のユーザに最適なスタイルを推定して決定する例について説明した。
一方で、任意のユーザに最適なスタイルが、設定された複数のスタイルのうちの１つとは限らない。このことを考慮し、本実施形態では、スタイル設定部１０１は、スタイルのバリエーションを設定（生成）し、スコア取得部１０５に取得されたスコアに基づいて、動画構造スタイル群１１３に格納するスタイルを入れ替える（更新する）形態について説明する。以下、第１実施形態または第２実施形態と異なる点について説明する。

本実施形態による情報処理装置１０の構成は、図２や図８に示す構成と同様でありうる。本実施形態では、スタイル設定部１０１は、スタイルのバリエーションを生成する。例えば、スタイル設定部１０１は、既存のスタイルに対して、トランジションモードの変更、音楽の変更、再生時間の変更など、わずかな変更を加えた、新たなスタイルを生成し、動画構造スタイル群１１３に格納する。また、例えば、スタイル設定部１０１は、画像選択または画像順序が指定する画像コンテンツの傾向およびその組み合わせの変更を行った新たなスタイルを生成し、動画構造スタイル群１１３に格納する。

その後、第１実施形態において説明した図６に示すフローに従い、スタイル決定部１０２は、動画構造スタイル群１１３に格納されているスタイルを順次選択し、動画生成部１０３はこれに応じて広告動画を生成し、ユーザ装置１１－１～１１－Ｎの少なくとも一部に提供する。生成された新たなスタイルの格納前に動画構造スタイル群１１３に格納されていた複数のスタイルに従う広告動画をすでに提供していた場合は、情報処理装置１０は、当該新たなスタイルに従う広告動画のみを送信してもよい。続いて、スコア取得部１０５は、提供した広告動画を提供したユーザ装置による効果指標からスコアを取得する。

スコア取得部１０５により全てのスタイル（既存のスタイルと新たに設定されたスタイル）についてのスコアが取得されると、スタイル設定部１０１は、代表スコア同士を比較する。当該代表スコアは、例えば、各スタイルについて登録されている全スコアの合計や平均値等の統計値としてもよい。そして、スタイル設定部１０１は、最低スコアから数えて所定数のスコアに対応する複数のスタイルを、動画構造スタイル群１１３から削除する。すなわち、スタイル設定部１０１は、取得されたスコアに基づいて、動画構造スタイル群１１３に含める複数のスタイルを更新する。なお、当該所定数は、スタイル設定部１０１により設定（生成）された新たなスタイルの数とすることができる。

このように、本実施形態によれば、新たなバリエーションのスタイルが生成され、当該新たなスタイルと既存のスタイルのうち、スコアがより高いスタイルが、動画構造スタイル群１１３に残される。これにより、動画構造スタイル群１１３に格納されるスタイルをさらに最適化することが可能となる。

なお、上記実施形態では、動画構造スタイル群１１３に格納されるスタイルとして、図３（ｃ）を参照して説明したスタイルを用いたが、スタイルとして、他のあらゆるスタイルを用いることができる。例えば、動画の表示時の画像アスペクト比（矩形における長辺と短辺の比率）を用いてもよい。図１０に、画像アスペクト比が異なる画像コンテンツの例を示す。画像アスペクト比を変えることにより、映し出される風景が異なり、閲覧したユーザによる印象も変わりうる。画像アスペクト比を「横：縦」とし、図１０（ａ）では「９：１０」、図１０（ｂ）では「５：３」とする。
例えば、対象のアイテムが旅行商品であり、画像コンテンツがホテル周辺の景色を含む場合、図１０（ａ）のように、横と縦がほぼ同じ長さで建物が大きく映る画像は、建物に興味があるユーザに対して広告効果が高くなる。一方、図１０（ｂ）のように、横が縦より長く、空の景色がより大きく映る画像は、ホテル周辺の景色に興味があるユーザに対して広告効果が高くなる。

このように、上記実施形態によれば、任意のユーザもしくはユーザグループに最適なスタイルを推定し、当該スタイルに従う広告動画を生成して提供することができる。また、個別のユーザからの効果指標を得ることなく、任意のユーザもしくはユーザグループに対するターゲッティング広告を実施することができる。

上記実施形態では、アイテム（有形または無形の商品やサービス）に関する広告動画をユーザに対し提供する例について説明したが、有形または無形の商品やサービスに限らず、あらゆるアイテムに関する動画について、上記実施形態を適用可能である。すなわち、所定のアイテムに対する画像コンテンツを用いた当該アイテムに関する動画を提供する実施形態に、上記実施形態を適用可能である。

なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。

１～Ｎ：ユーザ、１０：情報処理装置、１１－１～１１－Ｎ：ユーザ装置、１０１：スタイル設定部、１０２：スタイル決定部、１０３：動画生成部、１０４：提供部、１０５：スコア取得部、１０６：属性取得部、１０７：推定部、１０８：学習部、１１０：動画情報記憶部、１１１：画像コンテンツ群、１１２：音楽コンテンツ群、１１３：動画構造スタイル群、１１４：補助的コンテンツ群、１２０：学習モデル記憶部、１２１：スコア推定モデル

Claims

所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定手段と、
前記複数のスタイルのそれぞれに従う動画を、対象のユーザを含む複数のユーザから選択された１以上のユーザに提供する第１の提供手段と、
前記複数のスタイルのそれぞれについて、前記１以上のユーザから広告の効果を示すスコアを取得し、当該スコアに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定手段と、
前記推定されたスタイルに従う動画を前記対象のユーザに提供する第２の提供手段と、
前記複数のユーザの属性を取得する取得手段と、
前記複数のユーザの属性のうち前記対象のユーザの属性と類似する属性を有するユーザのグループを生成する生成手段と、
前記ユーザのグループから、前記複数のスタイルのうちの同じスタイルについて、前記対象のユーザから取得された前記スコアと類似する前記スコアが取得された複数のユーザを選択する選択手段と、
を有し、
前記推定手段は、前記複数のスタイルのうち、前記対象のユーザから前記スコアが取得されていないスタイルについての前記スコアを、前記選択された複数のユーザから取得された前記スコアを用いて導出することを特徴とする情報処理装置。
前記推定手段は、前記対象のユーザに関し、前記複数のスタイルのうち、前記スコアが最高値であるスタイルを、前記最適なスタイルとして推定することを特徴とする請求項１に記載の情報処理装置。
前記推定手段は、前記対象のユーザの属性に応じて、前記ユーザのグループのサイズを変更することを特徴とする請求項１または２に記載の情報処理装置。
前記複数のスタイルのうち１つのスタイルを選択する選択手段をさらに有し、
前記推定手段は、選択されたスタイルにさらに基づいて前記対象のユーザに最適なスタイルを推定することを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記推定手段は、前記複数の画像コンテンツの特徴ベクトルを抽出し、前記複数の画像コンテンツの特徴ベクトルと、選択されたスタイルと、前記対象のユーザの属性とを機械学習モデルに入力することにより、選択されたスタイルについての前記スコアを出力することを特徴とする請求項４に記載の情報処理装置。
前記設定手段は、前記複数のスタイルを前記スコアに応じて更新することを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記複数の画像コンテンツのそれぞれは、静止画または動画で構成されることを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記複数の画像コンテンツのそれぞれは、前記所定のアイテムについてのテキスト情報を含むことを特徴とする請求項１から７のいずれか１項に記載の情報処理装置。
前記複数の画像コンテンツのそれぞれは、前記所定のアイテムに対応するウェブページを構成する画像コンテンツであることを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。
前記複数のスタイルのそれぞれは、複数の設定を組み合わせて個別に構成されることを特徴とする請求項１から９のいずれか１項に記載の情報処理装置。
前記複数の設定は、少なくとも、前記複数の画像コンテンツからの２つ以上の画像コンテンツの選択の設定を含むことを特徴とする請求項１０に記載の情報処理装置。
前記複数の設定は、前記２つ以上の画像コンテンツから構成される動画における再生順序の設定、前記２つ以上の画像コンテンツから構成される動画全体の再生時間長の設定、前記２つ以上の画像コンテンツの１画像コンテンツ当たりの再生時間の設定、前記２つ以上の画像コンテンツ間のトランジションモードの設定、テキスト情報およびグラフィックスの表示の設定、前記２つ以上の画像コンテンツから構成される動画の初期画像および／または最終画像の設定、音楽の設定、アクティブリンクの有無の設定、前記２つ以上の画像コンテンツから構成される動画の表示時の画像アスペクト比、の少なくとも１つを含むことを特徴とする請求項１１に記載の情報処理装置。
前記所定のアイテムは、有形または無形の商品またはサービスであることを特徴とする請求項１から１２のいずれか１項に記載の情報処理装置。
情報処理装置によって実行される情報処理方法であって、
所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定工程と、
前記複数のスタイルのそれぞれに従う動画を、対象のユーザを含む複数のユーザから選択された１以上のユーザに提供する第１の提供工程と、
前記複数のスタイルのそれぞれについて、前記１以上のユーザから広告の効果を示すスコアを取得し、当該スコアに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定工程と、
前記推定されたスタイルに従う動画を前記対象のユーザに提供する第２の提供工程と、
前記複数のユーザの属性を取得する取得工程と、
前記複数のユーザの属性のうち前記対象のユーザの属性と類似する属性を有するユーザのグループを生成する生成工程と、
前記ユーザのグループから、前記複数のスタイルのうちの同じスタイルについて、前記対象のユーザから取得された前記スコアと類似する前記スコアが取得された複数のユーザを選択する選択工程と、
を含み、
前記推定工程では、前記複数のスタイルのうち、前記対象のユーザから前記スコアが取得されていないスタイルについての前記スコアを、前記選択された複数のユーザから取得された前記スコアを用いて導出することを特徴とする情報処理方法。
情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、
所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定処理と、
前記複数のスタイルのそれぞれに従う動画を、対象のユーザを含む複数のユーザから選択された１以上のユーザに提供する第１の提供処理と、
前記複数のスタイルのそれぞれについて、前記１以上のユーザから広告の効果を示すスコアを取得し、当該スコアに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定処理と、
前記推定されたスタイルに従う動画を前記対象のユーザに提供する第２の提供処理と、
前記複数のユーザの属性を取得する取得処理と、
前記複数のユーザの属性のうち前記対象のユーザの属性と類似する属性を有するユーザのグループを生成する生成処理と、
前記ユーザのグループから、前記複数のスタイルのうちの同じスタイルについて、前記対象のユーザから取得された前記スコアと類似する前記スコアが取得された複数のユーザを選択する選択処理と、
を含む処理を実行させるためのものであり、
前記推定処理は、前記複数のスタイルのうち、前記対象のユーザから前記スコアが取得されていないスタイルについての前記スコアを、前記選択された複数のユーザから取得された前記スコアを用いて導出することを含む、情報処理プログラム。