JP7210792B2

JP7210792B2 - 情報処理方法、情報処理装置および情報処理プログラム

Info

Publication number: JP7210792B2
Application number: JP2022069393A
Authority: JP
Inventors: 慎一郎岡本
Original assignee: アクタピオ，インコーポレイテッド
Priority date: 2021-05-20
Filing date: 2022-04-20
Publication date: 2023-01-23
Anticipated expiration: 2042-04-20
Also published as: JP2022179360A; US20220374706A1

Description

本発明は、情報処理方法、情報処理装置および情報処理プログラムに関する。

近年、ＤＮＮ（Deep Neural Network）といったニューラルネットワーク等の各種モデルに対し、学習データが有する特徴を学習させることで、モデルに各種の予測や分類を行わせる技術が提案されている。このようなモデルの学習においては、ドロップアウトといった学習方法が用いられている。

特開２０２０－０７１８６２公報

また、上述した技術には、モデルの生成において改善の余地がある。例えば、上述した例では、ソフトマックス層の前に実施にドロップアウトを行っているに過ぎず、ドロップアウト率をどの程度にするか等の学習態様に応じて適切なサイズのモデルを生成することが望まれている。

本願に係る情報処理方法は、コンピュータが実行する情報処理方法であって、モデルの学習におけるドロップアウト率を示す情報を取得する取得工程と、前記ドロップアウト率に基づくサイズを有する前記モデルを生成する生成工程と、を含むことを特徴とする。

実施形態の一態様によれば、学習態様に応じたサイズのモデルを生成することができる。

実施形態に係る情報処理システムの一例を示す図である。実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。実施形態に係る情報処理装置の構成例を示す図である。実施形態に係る学習データデータベースに登録される情報の一例を示す図である。実施形態に係る情報処理の流れの一例を示すフローチャートである。実施形態に係る情報処理の流れの一例を示すフローチャートである。実施形態に係るモデルの構造の一例を示す図である。実施形態に係るパラメータの一例を示す図である。実施形態に係るドロップアウトの概念を示す図である。実施形態に係るバッチノーマライゼーションの概念を示す図である。第１の知見に関するグラフを示す図である。第２の知見に関するグラフを示す図である。第２の知見に関するグラフを示す図である。第３の知見に関するグラフを示す図である。第４の知見に関するモデルの一例を示す図である。第４の知見に関するグラフを示す図である。実験結果の一覧を示す図である。ハードウェア構成の一例を示す図である。

以下に、本願に係る情報処理方法、情報処理装置および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理方法、情報処理装置および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

［実施形態］
以下の実施形態では、最初にシステム構成等の前提について説明した後、複数の部分モデルを含むモデルの生成時の学習において、部分モデル毎にドロップアウトの処理を行って、モデルを生成する処理を説明する。なお、以下では、部分モデルのうち、隠れ層を含まないタイプの部分モデルを第１タイプの部分モデルと記載し、隠れ層を含むタイプの部分モデルを第２タイプの部分モデルと記載する場合がある。また、モデルを生成する処理を説明した後、上記のようなモデルの生成により得た知見や実験結果を提示して説明する。なお詳細には後述するが、ドロップアウト率、精度、及び隠れ層のサイズの間には相関があり、ドロップアウト率を大きくしたり、ドロップアウト率に応じた隠れ層のサイズに調節したりすることにより、精度が改善させることができる。ドロップアウト率を大きくしたり、ドロップアウト率に応じた隠れ層のサイズに調節したりすることにより、適切にモデルが生成され、モデルの出力（分類などの推論結果）がより自然なものとなると考えられる。このように、モデルの出力がより自然なものとなることで、モデルの精度の改善につながると考えられる。本実施形態では、上述したモデルの生成、知見等を示す前に、まずモデルを生成する情報処理システム１の構成等について説明する。

〔１．情報処理システムの構成〕
まず、図１を用いて、情報処理装置の一例である情報処理装置１０を有する情報処理システムの構成について説明する。図１は、実施形態に係る情報処理システムの一例を示す図である。図１に示すように、情報処理システム１は、情報処理装置１０、モデル生成サーバ２、および端末装置３を有する。なお、情報処理システム１は、複数のモデル生成サーバ２や複数の端末装置３を有していてもよい。また、情報処理装置１０と、モデル生成サーバ２とは、同一のサーバ装置やクラウドシステム等により実現されてもよい。ここで、情報処理装置１０、モデル生成サーバ２、および端末装置３は、ネットワークＮ（例えば、図３参照）を介して有線または無線により通信可能に接続される。

情報処理装置１０は、モデルの生成における指標（すなわち、モデルのレシピ）である生成指標を生成する指標生成処理と、生成指標に従ってモデルを生成するモデル生成処理とを実行し、生成した生成指標およびモデルを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。

モデル生成サーバ２は、学習データが有する特徴を学習させたモデルを生成する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、モデル生成サーバ２は、モデルの生成指標として、生成するモデルの種別や行動、どのように学習データの特徴を学習させるかといったコンフィグファイルを受付けると、受付けたコンフィグファイルに従って、モデルの自動生成を行う。なお、モデル生成サーバ２は、任意のモデル学習手法を用いて、モデルの学習を行ってもよい。また、例えば、モデル生成サーバ２は、ＡｕｔｏＭＬ（Automated Machine Learning）といった各種既存のサービスであってもよい。

端末装置３は、利用者Ｕによって利用される端末装置であり、例えば、ＰＣ（Personal Computer）やサーバ装置等により実現される。例えば、端末装置３は、情報処理装置１０とのやり取りを介して、モデルの生成指標を生成させ、生成させた生成指標に従ってモデル生成サーバ２が生成したモデルを取得する。

〔２．情報処理装置１０が実行する処理の概要〕
まず、情報処理装置１０が実行する処理の概要について説明する。まず、情報処理装置１０は、端末装置３からモデルに特徴を学習させる学習データの指摘を受付ける（ステップＳ１）。例えば、情報処理装置１０は、学習に用いる各種の学習データを所定の記憶装置に記憶させており、利用者Ｕが学習データに指定する学習データの指摘を受付ける。なお、情報処理装置１０は、例えば、端末装置３や各種外部のサーバから、学習に用いる学習データを取得してもよい。

ここで、学習データとは、任意のデータが採用可能である。例えば、情報処理装置１０は、各利用者の位置の履歴や各利用者が閲覧したウェブコンテンツの履歴、各利用者による購買履歴や検索クエリの履歴等、利用者に関する各種の情報を学習データとしてもよい。また、情報処理装置１０は、利用者のデモグラフィック属性やサイコグラフィック属性等を学習データとしてもよい。また、情報処理装置１０は、配信対象となる各種ウェブコンテンツの種別や内容、作成者等のメタデータ等を学習データとしてもよい。

このような場合、情報処理装置１０は、学習に用いる学習データの統計的な情報に基づいて、生成指標の候補を生成する（ステップＳ２）。例えば、情報処理装置１０は、学習データに含まれる値の特徴等に基づいて、どのようなモデルに対し、どのような学習手法により学習を行えばよいかを示す生成指標の候補を生成する。換言すると、情報処理装置１０は、学習データの特徴を精度よく学習可能なモデルやモデルに精度よく特徴を学習させるための学習手法を生成指標として生成する。すなわち、情報処理装置１０は、学習手法の最適化を行う。なお、どのような学習データが選択された場合に、どのような内容の生成指標を生成するかについては、後述する。

続いて、情報処理装置１０は、生成指標の候補を端末装置３に対して提供する（ステップＳ３）。このような場合、利用者Ｕは、生成指標の候補を嗜好や経験則等に応じて修正する（ステップＳ４）。そして、情報処理装置１０は、各生成指標の候補と学習データとをモデル生成サーバ２に提供する（ステップＳ５）。

一方、モデル生成サーバ２は、生成指標ごとに、モデルの生成を行う（ステップＳ６）。例えば、モデル生成サーバ２は、生成指標が示す構造を有するモデルに対し、生成指標が示す学習手法により学習データが有する特徴を学習させる。そして、モデル生成サーバ２は、生成したモデルを情報処理装置１０に提供する（ステップＳ７）。

ここで、モデル生成サーバ２によって生成された各モデルは、それぞれ生成指標の違いに由来する精度の違いが生じると考えられる。そこで、情報処理装置１０は、各モデルの精度に基づいて、遺伝的アルゴリズムにより新たな生成指標を生成し（ステップＳ８）、新たに生成した生成指標を用いたモデルの生成を繰り返し実行する（ステップＳ９）。

例えば、情報処理装置１０は、学習データを評価用データと学習用データとに分割し、学習用データが有する特徴を学習させたモデルであって、それぞれ異なる生成指標に従って生成された複数のモデルを取得する。例えば、情報処理装置１０は、１０個の生成指標を生成し、生成した１０個の生成指標と、学習用データとを用いて、１０個のモデルを生成する。このような場合、情報処理装置１０は、評価用データを用いて、１０個のモデルそれぞれの精度を測定する。

続いて、情報処理装置１０は、１０個のモデルのうち、精度が高い方から順に所定の数のモデル（例えば、５個）を選択する。そして、情報処理装置１０は、選択した５個のモデルを生成した際に採用された生成指標から、新たな生成指標を生成する。例えば、情報処理装置１０は、各生成指標を遺伝的アルゴリズムの個体と見做し、各生成指標が示すモデルの種別、モデルの構造、各種の学習手法（すなわち、生成指標が示す各種の指標）を遺伝的アルゴリズムにおける遺伝子と見做す。そして、情報処理装置１０は、遺伝子の交叉を行う個体の選択および遺伝子の交叉を行うことで、次世代の生成指標を１０個新たに生成する。なお、情報処理装置１０は、遺伝子の交叉を行う際に、突然変異を考慮してもよい。また、情報処理装置１０は、二点交叉、多点交叉、一様交叉、交叉対象となる遺伝子のランダムな選択を行ってもよい。また、情報処理装置１０は、例えば、モデルの精度が高い個体の遺伝子程、次世代の個体に引き継がれるように、交叉を行う際の交叉率を調整してもよい。

また、情報処理装置１０は、次世代の生成指標を用いて、再度新たな１０個のモデルを生成する。そして、情報処理装置１０は、新たな１０個のモデルの精度に基づいて、上述した遺伝的アルゴリズムによる新たな生成指標の生成を行う。このような処理を繰り返し実行することで、情報処理装置１０は、生成指標を学習データの特徴に応じた生成指標、すなわち、最適化された生成指標へと近づけることができる。

また、情報処理装置１０は、所定の回数新たな生成指標を生成した場合や、モデルの精度の最大値、平均値、若しくは最低値が所定の閾値を超えた場合等、所定の条件が満たされた場合は、最も精度が高いモデルを提供対象として選択する。そして、情報処理装置１０は、選択したモデルと共に、対応する生成指標を端末装置３に提供する（ステップＳ１０）。このような処理の結果、情報処理装置１０は、利用者から学習データを選択するだけで、適切なモデルの生成指標を生成するとともに、生成した生成指標に従うモデルを提供することができる。

なお、上述した例では、情報処理装置１０は、遺伝的アルゴリズムを用いて生成指標の段階的な最適化を実現したが、実施形態は、これに限定されるものではない。後述する説明で明らかとなるように、モデルの精度は、モデルの種別や構造といったモデルそのものの特徴のみならず、どのような学習データをどのようにモデルに入力するのか、どのようなハイパーパラメータを用いてモデルの学習を行うのかというように、モデルを生成する際（すなわち、学習データの特徴を学習させる際）の指標に応じて大きく変化する。

そこで、情報処理装置１０は、学習データに応じて、最適と推定される生成指標を生成するのであれば、遺伝的アルゴリズムを用いた最適化を行わずともよい。例えば、情報処理装置１０は、学習データが、経験則に応じて生成された各種の条件を満たすか否かに応じて生成した生成指標を利用者に提示するとともに、提示した生成指標に従ったモデルの生成を行ってもよい。また、情報処理装置１０は、提示した生成指標の修正を受付けると、受付けた修正後の生成指標に従ってモデルの生成を行い、生成したモデルの精度等を利用者に対して提示し、再度生成指標の修正を受付けてもよい。すなわち、情報処理装置１０は、利用者Ｕに最適な生成指標を試行錯誤させてもよい。

〔３．生成指標の生成について〕
以下、どのような学習データに対して、どのような生成指標を生成するかの一例について説明する。なお、以下の例は、あくまで一例であり、学習データが有する特徴に応じて生成指標を生成するのであれば、任意の処理が採用可能である。

〔３－１．生成指標について〕
まず、生成指標が示す情報の一例について説明する。例えば、学習データが有する特徴をモデルに学習させる場合、学習データをモデルに入力する際の態様、モデルの態様、およびモデルの学習態様（すなわち、ハイパーパラメータが示す特徴）が最終的に得られるモデルの精度に寄与すると考えられる。そこで、情報処理装置１０は、学習データの特徴に応じて、各態様を最適化した生成指標を生成することで、モデルの精度を向上させる。

例えば、学習データには、様々なラベルが付与されたデータ、すなわち、様々な特徴を示すデータが存在すると考えられる。しかしながら、データを分類する際に有用ではない特徴を示すデータを学習データとした場合、最終的に得られるモデルの精度は、悪化する恐れがある。そこで、情報処理装置１０は、学習データをモデルに入力する際の態様として、入力する学習データが有する特徴を決定する。例えば、情報処理装置１０は、学習データのうち、どのラベルが付与されたデータ（すなわち、どの特徴を示すデータ）を入力するかを決定する。換言すると、情報処理装置１０は、入力する特徴の組み合わせを最適化する。

また、学習データには、数値のみのデータや文字列が含まれるデータ等、各種形式のカラムが含まれていると考えられる。このような学習データをモデルに入力する際に、そのまま入力した場合と、他の形式のデータに変換した場合とで、モデルの精度が変化するとも考えられる。例えば、複数種別の学習データ（それぞれ異なる特徴を示す学習データ）であって、文字列の学習データと数値の学習データとを入力する際に、文字列と数値とをそのまま入力した場合と、文字列を数値に変換して数値のみを入力した場合と、数値を文字列と見做して入力した場合とでは、それぞれモデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルに入力する学習データの形式を決定する。例えば、情報処理装置１０は、モデルに入力する学習データを数値とするか、文字列とするかを決定する。換言すると、情報処理装置１０は、入力する特徴のカラムタイプを最適化する。

また、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせを同時に入力するかによって、モデルの精度が変化すると考えられる。すなわち、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせの特徴（すなわち、複数の特徴の組み合わせの関係性）を学習させるかにより、モデルの精度が変化すると考えられる。例えば、第１特徴（例えば、性別）を示す学習データと、第２特徴（例えば、住所）を示す学習データと、第３特徴（例えば、購買履歴）を示す学習データとが存在する場合、第１特徴を示す学習データと第２特徴を示す学習データとを同時に入力した場合と、第１特徴を示す学習データと第３特徴を示す学習データとを同時に入力した場合とでは、モデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルに関係性を学習させる特徴の組み合わせ（クロスフィーチャー）を最適化する。

ここで、各種のモデルは、入力データを所定の超平面により分割された所定次元の空間内に投影し、投影した位置が分割された空間のうちいずれの空間に属するかに応じて、入力データの分類を行うこととなる。このため、入力データを投影する空間の次元数が最適な次元数よりも低い場合は、入力データの分類能力が劣化する結果、モデルの精度が悪化する。また、入力データを投影する空間の次元数が最適な次元数よりも高い場合は、超平面との内積値が変化する結果、学習時に用いたデータとは異なるデータを適切に分類することができなくなる恐れがある。そこで、情報処理装置１０は、モデルに入力する入力データの次元数を最適化する。例えば、情報処理装置１０は、モデルが有する入力層のノードの数を制御することで、入力データの次元数を最適化する。換言すると、情報処理装置１０は、入力データの埋め込みを行う空間の次元数を最適化する。

また、モデルには、ＳＶＭに加え、複数の中間層（隠れ層）を有するニューラルネットワーク等が存在する。また、このようなニューラルネットワークには、入力層から出力層まで一方方向に情報が伝達されるフィードフォワード型のＤＮＮ、中間層で情報の畳み込みを行う畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、有向閉路を有する回帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、ボルツマンマシン等、各種のニューラルネットワークが知られている。また、このような各種ニューラルネットワークには、ＬＳＴＭ（Long short-term memory）やその他各種のニューラルネットワークが含まれている。

このように、学習データの各種特徴を学習するモデルの種別が異なる場合、モデルの精度は変化すると考えられる。そこで、情報処理装置１０は、学習データの特徴を精度良く学習すると推定されるモデルの種別を選択する。例えば、情報処理装置１０は、学習データのラベルとしてどのようなラベルが付与されているかに応じて、モデルの種別を選択する。より具体的な例を挙げると、情報処理装置１０は、ラベルとして「履歴」に関連する用語が付されたデータが存在する場合は、履歴の特徴をより良く学習することができると考えられるＲＮＮを選択し、ラベルとして「画像」に関連する用語が付されたデータが存在する場合は、画像の特徴をより良く学習することができると考えられるＣＮＮを選択する。これら以外にも、情報処理装置１０は、ラベルがあらかじめ指定された用語若しくは用語と類似する用語であるか否かを判定し、同一若しくは類似すると判定された用語と予め対応付けられた種別のモデルを選択すればよい。

また、モデルの中間層の数や１つの中間層に含まれるノードの数が変化した場合、モデルの学習精度が変化すると考えられる。例えば、モデルの中間層の数が多い場合（モデルが深い場合）、より抽象的な特徴に応じた分類を実現することができると考えられる一方で、バックプロパゲーションにおける局所誤差が入力層まで伝播しづらくなる結果、学習が適切に行えなくなる恐れがある。また、中間層に含まれるノードの数が少ない場合は、より高度な抽象化を行うことができるものの、ノードの数が少なすぎる場合は、分類に必要な情報が欠損する可能性が高い。そこで、情報処理装置１０は、中間層の数や中間層に含まれるノードの数の最適化を行う。すなわち、情報処理装置１０は、モデルのアーキテクチャの最適化を行う。

また、アテンションの有無やモデルに含まれるノードに自己回帰がある場合とない場合、どのノード間を接続するのかに応じて、ノードの精度が変化すると考えられる。そこで、情報処理装置１０は、自己回帰を有するか否か、どのノード間を接続するのかといったネットワークの最適化を行う。

また、モデルの学習を行う場合、モデルの最適化手法（学習時に用いるアルゴリズム）やドロップアウト率、ノードの活性化関数やユニット数等がハイパーパラメータとして設定される。このようなハイパーパラメータが変化した場合にも、モデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルを学習する際の学習態様、すなわち、ハイパーパラメータの最適化を行う。

また、モデルのサイズ（入力層、中間層、出力層の数やノード数）が変化した場合も、モデルの精度が変化する。そこで、情報処理装置１０は、モデルのサイズの最適化についても行う。

このように、情報処理装置１０は、上述した各種モデルを生成する際の指標について最適化を行う。例えば、情報処理装置１０は、各指標に対応する条件を予め保持しておく。なお、このような条件は、例えば、過去の学習モデルから生成された各種モデルの精度等の経験則により設定される。そして、情報処理装置１０は、学習データが各条件を満たすか否かを判定し、学習データが満たす若しくは満たさない条件に予め対応付けられた指標を生成指標（若しくはその候補）として採用する。この結果、情報処理装置１０は、学習データが有する特徴を精度良く学習可能な生成指標を生成することができる。

なお、上述したように、学習データから自動的に生成指標を生成し、生成指標に従ってモデルを作成する処理を自動的に行った場合、利用者は、学習データの内部を参照し、どのような分布のデータが存在するかといった判断を行わずともよい。この結果、情報処理装置１０は、例えば、モデルの作成に伴ってデータサイエンティスト等が学習データの認識を行う手間を削減するとともに、学習データの認識に伴うプライバシーの毀損を防ぐことができる。

〔３－２．データ種別に応じた生成指標〕
以下、生成指標を生成するための条件の一例について説明する。まず、学習データとしてどのようなデータが採用されているかに応じた条件の一例について説明する。

例えば、学習に用いられる学習データには、整数、浮動小数点、若しくは文字列等がデータとして含まれている。このため、入力されるデータの形式に対して適切なモデルを選択した場合は、モデルの学習精度がより高くなると推定される。そこで、情報処理装置１０は、学習データが整数であるか、浮動小数点であるか、若しくは文字列であるかに基いて、生成指標を生成する。

例えば、学習データが整数である場合、情報処理装置１０は、学習データの連続性に基いて、生成指標を生成する。例えば、情報処理装置１０は、学習データの密度が所定の第１閾値を超える場合、当該学習データが連続性を有するデータであると見做し、学習データの最大値が所定の第２閾値を上回るか否かに基いて生成指標を生成する。また、情報処理装置１０は、学習データの密度が所定の第１閾値を下回る場合、当該学習データがスパースな学習データであると見做し、学習データに含まれるユニークな値の数が所定の第３閾値を上回るか否かに基いて生成指標を生成する。

より具体的な例を説明する。なお、以下の例においては、生成指標として、ＡｕｔｏＭＬによりモデルを自動的に生成するモデル生成サーバ２に対して送信するコンフィグファイルのうち、特徴関数（feature function）を選択する処理の一例について説明する。例えば、情報処理装置１０は、学習データが整数である場合、その密度が所定の第１閾値を超えるか否かを判定する。例えば、情報処理装置１０は、学習データに含まれる値のうちユニークな値の数を、学習データの最大値に１を加算した値で除算した値を密度として算出する。

続いて、情報処理装置１０は、密度が所定の第１閾値を超える場合は、学習データが連続性を有する学習データであると判定し、学習データの最大値に１を加算した値が第２閾値を上回るか否かを判定する。そして、情報処理装置１０は、学習データの最大値に１を加算した値が第２閾値を上回る場合は、特徴関数として「Categorical_colum_with_identity & embedding_column」を選択する。一方、情報処理装置１０は、学習データの最大値に１を加算した値が第２閾値を下回る場合は、特徴関数として「Categorical_column_with_identity」を選択する。

一方、情報処理装置１０は、密度が所定の第１閾値を下回る場合は、学習データがスパースであると判定し、学習データに含まれるユニークな値の数が所定の第３閾値を超えるか否かを判定する。そして、情報処理装置１０は、学習データに含まれるユニークな値の数が所定の第３閾値を超える場合は、特徴関数として「Categorical_column_with_hash_bucket & embedding_column」を選択し、学習データに含まれるユニークな値の数が所定の第３閾値を下回る場合は、特徴関数として「Categorical_column_with_hash_bucket」を選択する。

また、情報処理装置１０は、学習データが文字列である場合、学習データに含まれる文字列の種別の数に基いて、生成指標を生成する。例えば、情報処理装置１０は、学習データに含まれるユニークな文字列の数（ユニークなデータの数）を計数し、計数した数が所定の第４閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_list」若しくは／および「categorical_column_with_vocabulary_file」を選択する。また、情報処理装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_file & embedding_column」を選択する。また、情報処理装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を上回る場合は、特徴関数として「categorical_column_with_hash_bucket & embedding_column」を選択する。

また、情報処理装置１０は、学習データが浮動小数点である場合、モデルの生成指標として、学習データをモデルに入力する入力データへの変換指標を生成する。例えば、情報処理装置１０は、特徴関数として「bucketized_column」もしくは「numeric_column」を選択する。すなわち、情報処理装置１０は、学習データをバケタイズ（グルーピング）し、バケットの番号を入力とするか、数値をそのまま入力するかを選択する。なお、情報処理装置１０は、例えば、各バケットに対して対応付けられる数値の範囲が同程度となるように、学習データのバケタイズを行ってもよく、例えば、各バケットに分類される学習データの数が同程度となるように、各バケットに対して数値の範囲を対応付けてもよい。また、情報処理装置１０は、バケットの数やバケットに対して対応付けられる数値の範囲を生成指標として選択してもよい。

また、情報処理装置１０は、複数の特徴を示す学習データを取得し、モデルの生成指標として、学習データが有する特徴のうちモデルに学習させる特徴を示す生成指標を生成する。例えば、情報処理装置１０は、どのラベルの学習データをモデルに入力するかを決定し、決定したラベルを示す生成指標を生成する。また、情報処理装置１０は、モデルの生成指標として、学習データの種別のうちモデルに対して相関を学習させる複数の種別を示す生成指標を生成する。例えば、情報処理装置１０は、モデルに対して同時に入力するラベルの組み合わせを決定し、決定した組み合わせを示す生成指標を生成する。

また、情報処理装置１０は、モデルの生成指標として、モデルに入力される学習データの次元数を示す生成指標を生成する。例えば、情報処理装置１０は、学習データに含まれるユニークなデータの数やモデルに入力するラベルの数、モデルに入力するラベルの数の組み合わせ、バケットの数等に応じて、モデルの入力層におけるノードの数を決定してもよい。

また、情報処理装置１０は、モデルの生成指標として、学習データの特徴を学習させるモデルの種別を示す生成指標を生成する。例えば、情報処理装置１０は、過去に学習対象とした学習データの密度やスパース具合、ラベルの内容、ラベルの数、ラベルの組み合わせの数等に応じて、生成するモデルの種別を決定し、決定した種別を示す生成指標を生成する。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおけるモデルのクラスとして「BaselineClassifier」、「LinearClassifier」、「DNNClassifier」、「DNNLinearCombinedClassifier」、「BoostedTreesClassifier」、「AdaNetClassifier」、「RNNClassifier」、「DNNResNetClassifier」、「AutoIntClassifier」等を示す生成指標を生成する。

なお、情報処理装置１０は、これら各クラスのモデルの各種独立変数を示す生成指標を生成してもよい。例えば、情報処理装置１０は、モデルの生成指標として、モデルが有する中間層の数若しくは各層に含まれるノードの数を示す生成指標を生成してもよい。また、情報処理装置１０は、モデルの生成指標として、モデルが有するノード間の接続態様を示す生成指標やモデルの大きさを示す生成指標を生成してもよい。これらの独立変数は、学習データが有する各種の統計的な特徴が所定の条件を満たすか否かに応じて、適宜選択されることとなる。

また、情報処理装置１０は、モデルの生成指標として、学習データが有する特徴をモデルに学習させる際の学習態様、すなわち、ハイパーパラメータを示す生成指標を生成してもよい。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおける学習態様の設定において、「stop_if_no_decrease_hook」、「stop_if_no_increase_hook」、「stop_if_higher_hook」、もしくは「stop_if_lower_hook」を示す生成指標を生成してもよい。

すなわち、情報処理装置１０は、学習に用いる学習データのラベルやデータそのものの特徴に基づいて、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を示す生成指標を生成する。より具体的には、情報処理装置１０は、ＡｕｔｏＭＬにおけるモデルの生成を制御するためのコンフィグファイルを生成する。

〔３－３．生成指標を決定する順序について〕
ここで、情報処理装置１０は、上述した各種の指標の最適化を同時並行的に行ってもよく、適宜順序だてて実行してもよい。また、情報処理装置１０は、各指標を最適化する順序を変更可能としてもよい。すなわち、情報処理装置１０は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付け、受け付けた順序で、各指標を決定してもよい。

例えば、情報処理装置１０は、生成指標の生成を開始した場合、入力する学習データの特徴や、どのような態様で学習データを入力するかといった入力素性の最適化を行い、続いて、どの特徴の組み合わせの特徴を学習させるかという入力クロス素性の最適化を行う。続いて、情報処理装置１０は、モデルの選択を行うとともに、モデル構造の最適化を行う。その後、情報処理装置１０は、ハイパーパラメータの最適化を行い、生成指標の生成を終了する。

ここで、情報処理装置１０は、入力素性最適化において、入力する学習データの特徴や入力態様といった各種入力素性の選択や修正、遺伝的アルゴリズムを用いた新たな入力素性の選択を行うことで、入力素性を繰り返し最適化してもよい。同様に、情報処理装置１０は、入力クロス素性最適化において、入力クロス素性を繰り返し最適化してもよく、モデル選択およびモデル構造の最適化を繰り返し実行してもよい。また、情報処理装置１０は、ハイパーパラメータの最適化を繰り返し実行してもよい。また、情報処理装置１０は、入力素性最適化、入力クロス素性最適化、モデル選択、モデル構造最適化、およびハイパーパラメータの最適化という一連の処理を繰り返し実行し、各指標の最適化を行ってもよい。

また、情報処理装置１０は、例えば、ハイパーパラメータの最適化を行ってから、モデル選択やモデル構造最適化を行ってもよく、モデル選択やモデル構造最適化の後に、入力素性の最適化や入力クロス素性の最適化を行ってもよい。また、情報処理装置１０は、例えば、入力素性最適化を繰り返し実行し、その後入力クロス素性最適化を繰り返し行う。その後、情報処理装置１０は、入力素性最適化と入力クロス素性最適化を繰り返し実行してもよい。このように、どの指標をどの順番で最適化するか、最適化においてどの最適化処理を繰り返し実行するかについては、任意の設定が採用可能となる。

〔３－４．情報処理装置が実現するモデル生成の流れについて〕
続いて、図２を用いて、情報処理装置１０を用いたモデル生成の流れの一例について説明する。図２は、実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。例えば、情報処理装置１０は、学習データと各学習データのラベルとを受付ける。なお、情報処理装置１０は、学習データの指定と共に、ラベルを受付けてもよい。

このような場合、情報処理装置１０は、データの分析を行い、分析結果に応じたデータ分割を行う。例えば、情報処理装置１０は、学習データを、モデルの学習に用いるトレーニング用データと、モデルの評価（すなわち、精度の測定）に用いる評価用データとに分割する。なお、情報処理装置１０は、各種テスト用のデータをさらに分割してもよい。なお、このような学習データをトレーニング用データと評価用データとに分割する処理は、各種任意の公知技術が採用可能である。

また、情報処理装置１０は、学習データを用いて、上述した各種の生成指標を生成する。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおいて生成されるモデルやモデルの学習を定義するコンフィグファイルを生成する。このようなコンフィグファイルにおいては、ＡｕｔｏＭＬで用いられる各種の関数がそのまま生成指標を示す情報として格納されることとなる。そして、情報処理装置１０は、トレーニング用データと生成指標とをモデル生成サーバ２に提供することで、モデルの生成を行う。

ここで、情報処理装置１０は、利用者によるモデルの評価と、モデルの自動生成とを繰り返し行うことで、生成指標の最適化、ひいてはモデルの最適化を実現してもよい。例えば、情報処理装置１０は、入力する特徴の最適化（入力素性や入力クロス素性の最適化）、ハイパーパラメータの最適化、および生成するモデルの最適化を行い、最適化された生成指標に従って自動でのモデル生成を行う。そして、情報処理装置１０は、生成したモデルを利用者に提供する。

一方、利用者は、自動生成されたモデルのトレーニングや評価、テストを行い、モデルの分析や提供を行う。そして、利用者は、生成された生成指標を修正することで、再度新たなモデルを自動生成させ、評価やテスト等を行う。このような処理を繰り返し実行することで、複雑な処理を実行することなく、試行錯誤しながらモデルの精度を向上させる処理を実現することができる。

〔４．情報処理装置の構成〕
次に、図３を用いて、実施形態に係る情報処理装置１０の機能構成の一例について説明する。図３は、実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、情報処理装置１０は、通信部２０と、記憶部３０と、制御部４０とを有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、モデル生成サーバ２や端末装置３との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１およびモデル生成用データベース３２を有する。

学習データデータベース３１は、学習に用いるデータに関する各種情報を記憶する。学習データデータベース３１には、モデルの学習に用いる学習データのデータセットが格納される。図４は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図４の例では、学習データデータベース３１は、「データセットＩＤ」、「データＩＤ」、「データ」といった項目が含まれる。

「データセットＩＤ」は、データセットを識別するための識別情報を示す。「データＩＤ」は、各データを識別するための識別情報を示す。また、「データ」は、データＩＤにより識別されるデータを示す。例えば、図４の例では、各学習データを識別するデータＩＤに対して、対応するデータ（学習データ）が対応付けられて登録されている。

図４の例では、データセットＩＤ「ＤＳ１」により識別されるデータセット（データセットＤＳ１）には、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される複数のデータ「ＤＴ１」、「ＤＴ２」、「ＤＴ３」等が含まれることを示す。なお、図４では、データを「ＤＴ１」、「ＤＴ２」、「ＤＴ３」等といった抽象的な文字列で示すが、データとしては、例えば各種整数、浮動小数点、もしくは文字列等の任意の形式の情報が登録されることとなる。

なお、図示は省略するが、学習データデータベース３１は、各データに対応するラベル（正解情報）を各データに対応付けて記憶してもよい。また、例えば、複数のデータを含むデータ群に１つのラベルを対応付けて記憶してもよい。この場合、複数のデータを含むデータ群がモデルに入力されるデータ（入力データ）に対応する。例えば、ラベルとしては、数値や文字列等の任意の形式の情報が用いられる。

なお、学習データデータベース３１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習データデータベース３１は、各データが学習処理に用いるデータ（トレーニング用データ）であるか、評価に用いるデータ（評価用データ）であるか等を特定可能に記憶してもよい。例えば、学習データデータベース３１は、各データがトレーニング用データ及び評価用データのいずれであるかを特定する情報（フラグ等）を、各データに対応付けて格納してもよい。

モデル生成用データベース３２は、学習データ以外でモデルの生成に用いられ各種の情報が記憶される。モデル生成用データベース３２には、生成するモデルに関する各種の情報が格納される。例えば、モデル生成用データベース３２には、ドロップアウト率に応じたモデルのサイズを決定するために用いる情報が格納される。例えば、モデル生成用データベース３２には、ドロップアウト率とユニットサイズとの関係を示す関数（例えば図１４の関数ＦＣ１１）が格納される。

例えば、モデル生成用データベース３２には、生成するモデルに関する各種のパラメータ等の設定値が格納される。モデル生成用データベース３２には、生成するモデルに含まれる部分モデルの数、及び各部分モデルに関する情報等、モデルの構造を示す情報が記憶される。

例えば、モデル生成用データベース３２には、各部分モデルのタイプを示す情報が記憶される。例えば、モデル生成用データベース３２には、各部分モデルが隠れ層を含むか否かを示す情報が記憶される。例えば、モデル生成用データベース３２には、部分モデルが隠れ層を含まない第１タイプの部分モデルである場合、第１タイプを示す情報を、その部分モデルに対応付けて記憶する。例えば、モデル生成用データベース３２には、部分モデルが隠れ層を含む第２タイプの部分モデルである場合、第２タイプを示す情報を、その部分モデルに対応付けて記憶する。

例えば、モデル生成用データベース３２には、各部分モデルが有する隠れ層のサイズを示す情報が記憶される。例えば、モデル生成用データベース３２には、各部分モデルに、その部分モデルが有する隠れ層のユニットサイズ（ノード数等）を対応付けて記憶する。

なお、モデル生成用データベース３２は、上記に限らず、モデルの生成に用いる情報であれば種々のモデル情報を記憶してもよい。

図３に戻り、説明を続ける。制御部４０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１０内部の記憶装置に記憶されている各種プログラム（例えばモデルを生成する処理を実行する生成プログラム、情報処理プログラム等、）がＲＡＭを作業領域として実行されることにより実現される。情報処理プログラムは、コンピュータを、第１の部分モデルと第２の部分モデルとを含むモデルとして動作させるために用いられる。例えば、情報処理プログラムは、学習データを用いて、第１の部分モデルを第１のドロップアウト率に基づくドロップアウトにより学習し、第２の部分モデルを第１のドロップアウト率とは異なる第２のドロップアウト率に基づくドロップアウトにより学習することにより、学習が行われたモデルとしてコンピュータ（例えば情報処理装置１０）を動作させる。また、制御部４０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。図３に示すように、制御部４０は、取得部４１、決定部４２、受付部４３、生成部４４、および提供部４５を有する。

取得部４１は、記憶部３０から情報を取得する。取得部４１は、モデルの学習に用いる学習データのデータセットを取得する。取得部４１は、モデルの学習に用いる学習データを取得する。例えば、取得部４１は、端末装置３から、学習データとして用いる各種のデータと、各種データに付与されるラベルを受付けると、受付けたデータとラベルとを学習データとして学習データデータベース３１に登録する。なお、取得部４１は、あらかじめ学習データデータベース３１に登録されたデータのうち、モデルの学習に用いる学習データの学習データＩＤやラベルの指定を受付けてもよい。

取得部４１は、第１の部分モデルと第２の部分モデルとを含むモデルの学習に用いる学習データを取得する。取得部４１は、ドロップアウト率を示す情報を取得する。取得部４１は、第１のドロップアウト率を示す情報を取得する。取得部４１は、第２のドロップアウト率を示す情報を取得する。

決定部４２は、学習態様を決定する。決定部４２は、ドロップアウト率を決定する。決定部４２は、各部分モデルのドロップアウト率を決定する。決定部４２は、モデルのサイズを決定する。決定部４２は、第２タイプの部分モデルに含まれる隠れ層のユニットサイズを決定する。

受付部４３は、利用者に対して提示した生成指標の修正を受付ける。また、受付部４３は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付ける。

生成部４４は、決定部４２による決定に応じて各種情報を生成する。また、生成部４４は、受付部４３により受け付けられた指示に応じて各種情報を生成する。例えば、生成部４４は、モデルの生成指標を生成してもよい。

生成部４４は、学習データを用いて、第１の部分モデルを第１のドロップアウト率に基づく第１のドロップアウトにより学習し、第２の部分モデルを第１のドロップアウト率とは異なる第２のドロップアウト率に基づく第２のドロップアウトにより学習することにより、モデルを生成する。生成部４４は、第１の部分モデルよりも層の数が多い第２の部分モデルを含むモデルを生成する。生成部４４は、隠れ層を有する第２の部分モデルを含むモデルを生成する。

生成部４４は、学習データが入力される入力層を含み、入力層からの出力が第１の部分モデル及び第２の部分モデルの各々に入力されるモデルを生成する。生成部４４は、入力をエンベディングするエンベディング層を含むモデルを生成する。生成部４４は、入力層からの入力をエンベディングする第１のエンベディング層を有する第１の部分モデルを含むモデルを生成する。生成部４４は、入力層からの入力をエンベディングする第２のエンベディング層を有する第２の部分モデルを含むモデルを生成する。

生成部４４は、第１の部分モデルからの出力と第２の部分モデルからの出力とを合成する合成層を含むモデルを生成する。生成部４４は、合成層へ出力する第１の出力層を有する第１の部分モデルを含むモデルを生成する。生成部４４は、合成層へ出力する第２の出力層を有する第２の部分モデルを含むモデルを生成する。生成部４４は、ソフトマックス層を有する合成層を含むモデルを生成する。生成部４４は、ソフトマックス層の前に第１の部分モデルの出力及び第２の部分モデルの出力の合成処理を行う合成層を含むモデルを生成する。

生成部４４は、ドロップアウト率でのドロップアウトの後にバッチノーマライゼーションを行って生成することにより、モデルを生成する。生成部４４は、第１のドロップアウトの後にバッチノーマライゼーションを行って学習することにより、モデルを生成する。生成部４４は、第２のドロップアウトの後にバッチノーマライゼーションを行って学習することにより、モデルを生成する。

生成部４４は、ドロップアウト率に基づくサイズを有するモデルを生成する。生成部４４は、第１のドロップアウト率に基づくサイズを有する第１の部分モデルを含むモデルを生成する。生成部４４は、第２のドロップアウト率に基づくサイズを有する第２の部分モデルを含むモデルを生成する。生成部４４は、第２のドロップアウト率に基づく隠れ層を含む第２の部分モデルを含むモデルを生成する。生成部４４は、第２のドロップアウト率に基づいて決定されるサイズの隠れ層を含む第２の部分モデルを含むモデルを生成する。

生成部４４は、ドロップアウト率に基づいて決定されるサイズの隠れ層を含むモデルを生成する。生成部４４は、ドロップアウト率と隠れ層のサイズとの相関性に基づいて決定されるサイズの隠れ層を含むモデルを生成する。生成部４４は、ドロップアウト率と隠れ層のサイズとの正の相関に基づいてモデルを生成する。生成部４４は、ドロップアウト率と隠れ層のサイズとを変数とする関数を用いて決定されるサイズの隠れ層を含むモデルを生成する。

生成部４４は、関数を基に特定されるドロップアウト率に対応する隠れ層のサイズである対象サイズに基づいて、モデルを生成する。生成部４４は、対象サイズから所定範囲内のサイズの隠れ層を含むモデルを生成する。生成部４４は、対象サイズから所定範囲内の複数のサイズのうち、最も精度が高いサイズの隠れ層を含むモデルを生成する。生成部４４は、対象サイズから所定範囲内の複数のサイズの各々に対応する複数のモデルを学習し、複数のモデルのうち、最も精度が高い一のモデルをモデルとして生成する。

生成部４４は、モデルの生成に用いるデータを外部のモデル生成サーバ２に送信することにより、モデル生成サーバ２にモデルの学習を要求し、モデル生成サーバ２からモデル生成サーバ２が学習したモデルを受信することにより、モデルを生成する。

例えば、生成部４４は、学習データデータベース３１に登録されたデータを用いて、モデルを生成する。生成部４４は、トレーニング用データとして用いられる各データとラベルとに基づいて、モデルを生成する。生成部４４は、トレーニング用データを入力した場合にモデルが出力する出力結果と、ラベルとが一致するように学習を行うことにより、モデルを生成する。例えば、生成部４４は、トレーニング用データとして用いられる各データとラベルとをモデル生成サーバ２に送信することにより、モデル生成サーバ２にモデルを学習させることにより、モデルを生成する。

例えば、生成部４４は、学習データデータベース３１に登録されたデータを用いて、モデルの精度を測定する。生成部４４は、評価用データとして用いられる各データとラベルとに基づいて、モデルの精度を測定する。生成部４４は、評価用データを入力した場合にモデルが出力する出力結果と、ラベルとを比較した結果を収集することにより、モデルの精度を測定する。

提供部４５は、生成されたモデルを利用者に提供する。提供部４５は、利用者の端末装置３を複数の部分モデルを含むモデル（例えばモデルＭ１）として動作させる情報処理プログラムを利用者の端末装置３に送信する。例えば、提供部４５は、生成部４４により生成されたモデルの精度が所定の閾値を超えた場合は、そのモデルとともに、モデルと対応する生成指標を端末装置３へと送信する。この結果、利用者は、モデルの評価や試用を行うとともに、生成指標の修正を行うことができる。

提供部４５は、生成部４４により生成された指標を利用者に提示する。例えば、提供部４５は、生成指標として生成されたＡｕｔｏＭＬのコンフィグファイルを端末装置３に送信する。また、提供部４５は、生成指標が生成される度に生成指標を利用者に提示してもよく、例えば、精度が所定の閾値を超えたモデルと対応する生成指標のみを利用者に提示してもよい。

〔５．情報処理システムの処理フロー〕
次に、図５及び図６を用いて、情報処理装置１０が実行する処理の手順について説明する。図５及び図６は、実施形態に係る情報処理の流れの一例を示すフローチャートである。また、以下では、情報処理システム１が処理を行う場合を一例として説明するが、以下に示す処理は、情報処理システム１に含まれる情報処理装置１０、モデル生成サーバ２、端末装置３等、情報処理システム１に含まれるいずれの装置が行ってもよい。

情報処理システム１における部分モデルごとにドロップアウト率を設定してモデルを生成する処理の流れの概要について、図５を用いて説明する。図５では、情報処理システム１は、第１の部分モデルと第２の部分モデルとを含むモデルの学習に用いる学習データを取得する（ステップＳ１０１）。そして、情報処理システム１は、学習データを用いて、第１の部分モデルを第１のドロップアウト率に基づく第１のドロップアウトにより学習し、第２の部分モデルを第１のドロップアウト率とは異なる第２のドロップアウト率に基づく第２のドロップアウトにより学習することにより、モデルを生成する（ステップＳ１０２）。

次に、情報処理システム１において、ドロップアウト率に応じたサイズに設定してモデルを生成する処理の流れの概要について図６を用いて説明する。例えば、情報処理システム１では、第２タイプの部分モデルについて、ドロップアウト率に応じた隠れ層のサイズに設定して、モデルを生成する。図６では、情報処理システム１は、モデルの学習におけるドロップアウト率を示す情報を取得する（ステップＳ２０１）。例えば、情報処理システム１は、モデルの学習における第２タイプの部分モデルのドロップアウト率を示す情報を取得する。そして、情報処理システム１は、ドロップアウト率に基づくサイズを有するモデルを生成する（ステップＳ２０２）。例えば、情報処理システム１は、ドロップアウト率に基づいて第２タイプの部分モデルの隠れ層のユニットサイズを決定し、決定したユニットサイズの第２タイプの部分モデルを含むモデルを生成する。

なお、情報処理システム１は、ドロップアウト率に基づいて第１タイプの部分モデルのサイズを決定してもよい。情報処理システム１は、ドロップアウト率に基づいて第１タイプの部分モデルのエンベディング層のユニットサイズを決定してもよい。例えば、情報処理システム１は、ドロップアウト率が大きい程、第１タイプの部分モデルのエンベディング層のユニットサイズを大きくしてもよい。情報処理システム１は、ドロップアウト率とエンベディング層のユニットサイズとの関係を示す関数を用いて、第１タイプの部分モデルのエンベディング層のユニットサイズを決定してもよい。例えば、情報処理装置１０は、モデルに含まれる第１タイプの部分モデルのドロップアウト率を示す情報を取得し、その情報を基に第１タイプの部分モデルのエンベディング層のユニットサイズを決定してもよい。同様に、例えば、情報処理システム１は、ドロップアウト率に基づいて第１タイプの部分モデルのエンベディング層のユニットサイズを決定してもよい。

〔６．情報処理システムの処理例〕
ここで、上述した図５及び図６の処理を情報処理システム１が行う一例を説明する。情報処理装置１０は、学習データを取得する。情報処理装置１０は、モデルの生成に用いるパラメータ等の情報を取得する。例えば、情報処理装置１０は、モデルに含まれる第１タイプの部分モデルのドロップアウト率を示す情報、第２タイプの部分モデルのドロップアウト率を示す情報を取得する。なお、情報処理装置１０は、第１タイプの部分モデルが複数ある場合、第１タイプの部分モデルの各々についてのドロップアウト率を示す情報を取得する。また、情報処理装置１０は、第２タイプの部分モデルが複数ある場合、第２タイプの部分モデルの各々についてのドロップアウト率を示す情報を取得する。

また、情報処理装置１０は、第２タイプの部分モデルについて、ドロップアウト率に基づいて隠れ層のユニットサイズ（ノード数）を決定する。例えば、情報処理装置１０は、第２タイプの部分モデルについて、ドロップアウト率とユニットサイズとの関係を示す関数（例えば図１４の関数ＦＣ１１）を用いて、隠れ層のユニットサイズを決定する。

なお、情報処理システム１は、関数（例えば図１４の関数ＦＣ１１）に基づいて、隠れ層のユニットサイズを調節しながらモデルの学習を繰り返し、精度が高くなる隠れ層のユニットサイズを決定してもよい。

情報処理装置１０は、モデルを学習するモデル生成サーバ２へモデルの生成に用いる情報を送信する。例えば、情報処理装置１０は、学習データ、モデルの構造を示す情報、各部分モデルのドロップアウト率を示す情報をモデル生成サーバ２へ送信する。

情報処理装置１０から情報を受信したモデル生成サーバ２は、学習処理によりモデルを生成する。そして、モデル生成サーバ２は、生成したモデルを情報処理装置１０へ送信する。このように、本願でいう「モデルを生成する」ことには、自装置でモデルを学習する場合に限らず、他の装置にモデルの生成に必要な情報を提供することで、他の装置にモデルの生成し指示し、他の装置が学習したモデルを受信することを含む概念である。情報処理システム１においては、情報処理装置１０は、モデルを学習するモデル生成サーバ２へモデルの生成に用いる情報を送信し、モデル生成サーバ２が生成したモデルを取得することにより、モデルを生成する。このように、情報処理装置１０は、他の装置へモデルの生成に用いる情報を送信することによりモデルの生成を要求し、要求を受けた他の装置モデルにモデルを生成させることにより、モデルを生成する。

〔７．モデル〕
ここから、モデルについて説明する。以下では、情報処理システム１において生成されるモデルの構造及び学習態様等、モデルに関する各点について説明する。

〔７－１．モデルの構造例〕
まず、生成するモデルの構造の一例について、図７を用いて説明する。情報処理システム１は、図７に示すようなモデルＭ１を生成する。図７は、実施形態に係るモデルの構造の一例を示す図である。

図７において「Input Layer」と表記された入力層ＥＬ１は、入力情報が入力される層を示す。入力層ＥＬ１には、図７において「Input」と表記された情報（入力情報）が入力される。入力層ＥＬ１の後には、第１タイプの部分モデルである部分モデルＰＭ１と、第２タイプの部分モデルである部分モデルＰＭ２との２つの部分モデルが並列に配置される。図７に示すように、複数の部分モデルは並列に接続される。

部分モデルＰＭ１は、図７において「Embedding」と表記されたエンベディング層ＥＬ１１を含む。エンベディング層ＥＬ１１は、入力層ＥＬ１からの入力をエンベディングする第１のエンベディング層である。エンベディング層ＥＬ１１は、入力層ＥＬ１から取得した情報をベクトル化（エンベディング）する。エンベディング層ＥＬ１１は、部分モデルＰＭ１の入力層に対応する。

また、部分モデルＰＭ１は、図７において「Logits Layer」と表記されたロジット層ＥＬ１２を含む。ロジット層ＥＬ１２は、部分モデルＰＭ１の最後の層であり、後述するソフトマックス層ＥＬ３２を含む合成層ＬＹ１へ出力する情報（値）を生成する。ロジット層ＥＬ１２は、部分モデルＰＭ１の出力層に対応する。例えば、エンベディング層ＥＬ１１とロジット層ＥＬ１２とは、直接全結合で接続される。

図７においてエンベディング層ＥＬ１１とロジット層ＥＬ１２との間に示すドロップアウトＰＳ１１及びバッチノーマライゼーションＰＳ１２は、部分モデルＰＭ１を対象とする学習態様を示す。図７において「Dropout」と表記されたドロップアウトＰＳ１１は、部分モデルＰＭ１を対象として行うドロップアウト処理である第１のドロップアウトを示す。ドロップアウトＰＳ１１は、学習時においてエンベディング層ＥＬ１１とロジット層ＥＬ１２とを対象として行われる。

また、バッチノーマライゼーションＰＳ１２は、ドロップアウトＰＳ１１の後に行われる。例えば、バッチノーマライゼーションＰＳ１２は、ドロップアウトＰＳ１１の対象となった層の後に行われる。すなわち、バッチノーマライゼーションＰＳ１２は、ドロップアウトＰＳ１１におけるドロップアウトでランダムにアクティベートされたもの（ノード）を対象に行われる。これにより、モデルの学習時のバックプロパゲーション等において、アクティベートされていないノード等、学習対象になっていないものがバッチノーマライゼーションの対象となることを抑制することができる。すなわち、モデルＭ１の学習時のバックプロパゲーション等において、ドロップアウトＰＳ１１によりアクティベートされていないノード等、学習対象になっていないものがバッチノーマライゼーションＰＳ１２の対象となることを抑制することができる。

部分モデルＰＭ２は、図７において「Embedding」と表記されたエンベディング層ＥＬ２１を含む。エンベディング層ＥＬ２１は、入力層ＥＬ１からの入力をエンベディングする第２のエンベディング層である。エンベディング層ＥＬ２１は、入力層ＥＬ１から取得した情報をベクトル化（エンベディング）する。エンベディング層ＥＬ２１は、部分モデルＰＭ２の入力層に対応する。

部分モデルＰＭ２は、図７において「Hidden Layer」と表記された隠れ層ＥＬ２２を含む。隠れ層ＥＬ２２は、エンベディング層ＥＬ２１とロジット層ＥＬ２３との間に配置される隠れ層（中間層）である。図７に示すように、エンベディング層ＥＬ２１と隠れ層ＥＬ２２とが接続され、エンベディング層ＥＬ２１の出力が隠れ層ＥＬ２２に入力される。部分モデルＰＭ２は、部分モデルＰＭ１よりも層の数が多く設定される。

また、部分モデルＰＭ２は、図７において「Logits Layer」と表記されたロジット層ＥＬ２３を含む。ロジット層ＥＬ２３は、部分モデルＰＭ２の最後の層であり、後述するソフトマックス層ＥＬ３２を含む合成層ＬＹ１へ出力する情報（値）を生成する。ロジット層ＥＬ２３は、部分モデルＰＭ２の出力層に対応する。図７に示すように、隠れ層ＥＬ２２とロジット層ＥＬ２３とが接続され、隠れ層ＥＬ２２の出力がロジット層ＥＬ２３に入力される。

図７において隠れ層ＥＬ２２とロジット層ＥＬ２３との間に示すドロップアウトＰＳ２１及びバッチノーマライゼーションＰＳ２２は、部分モデルＰＭ２を対象とする学習態様を示す。図７において「Dropout」と表記されたドロップアウトＰＳ２１は、部分モデルＰＭ２を対象として行うドロップアウト処理である第２のドロップアウトを示す。ドロップアウトＰＳ２１は、学習時において隠れ層ＥＬ２２とロジット層ＥＬ２３とを対象として行われる。

例えば、バッチノーマライゼーションＰＳ２２は、ドロップアウトＰＳ２１の対象となった層の後に行われる。すなわち、バッチノーマライゼーションＰＳ２２は、ドロップアウトＰＳ２１におけるドロップアウトでランダムにアクティベートされたもの（ノード）を対象に行われる。これにより、モデルの学習時のバックプロパゲーション等において、アクティベートされていないノード等、学習対象になっていないものがバッチノーマライゼーションの対象となることを抑制することができる。すなわち、モデルＭ１の学習時のバックプロパゲーション等において、ドロップアウトＰＳ２１によりアクティベートされていないノード等、学習対象になっていないものがバッチノーマライゼーションＰＳ２２の対象となることを抑制することができる。なお、隠れ層ＥＬ２２、ドロップアウトＰＳ２１、バッチノーマライゼーションＰＳ２２の順番は、データ種別や収束時間で適宜変更してもよい。

部分モデルＰＭ１の出力及び部分モデルＰＭ２の出力は、合成層ＬＹ１へ入力される。合成層ＬＹ１は、部分モデルＰＭ１の出力及び部分モデルＰＭ２の出力を合成する合成処理層ＥＬ３１とソフトマックス層ＥＬ３２とを含む。合成層ＬＹ１は、モデルＭ１の出力層であってもよい。

合成処理層ＥＬ３１は、部分モデルＰＭ１の出力と部分モデルＰＭ２の出力との平均を算出する。例えば、合成処理層ＥＬ３１は、部分モデルＰＭ１の各出力と部分モデルＰＭ２の出力において対応する各出力との各々の平均を算出することにより、部分モデルＰＭ１の各出力と部分モデルＰＭ２の出力を合成した情報（合成出力）を生成する。

図７において「Softmax Layer」と表記されたソフトマックス層ＥＬ３２は、ソフトマックスの処理を行う。ソフトマックス層ＥＬ３２は、合成処理層ＥＬ３１が生成した合成出力を対象として、ソフトマックスの処理を行う。ソフトマックス層ＥＬ３２は、出力の総和が１００％（１）になるように各出力の値を変換する。

なお、上記構成は一例に過ぎず、複数の部分モデルが含まれれば、モデルは任意の構成が採用可能である。例えば、図７では、部分モデルが１個の第１タイプの部分モデルと１個の第２タイプの部分モデルとの２個である場合を示したが、部分モデルの数は２個に限られない。例えば、モデルには、２個以上の第２タイプの部分モデルが含まれてもよいし、２個以上の第１タイプの部分モデルが含まれてもよい。

上述のように、ドロップアウト率は部分モデルごとに設定されるが、情報処理システム１は、学習時は１つのモデルＭ１として学習する。情報処理システム１は、全体としてバックプロパゲーションを行うことにより、モデルＭ１のパラメータ（重み）を更新し、モデルＭ１を生成する。例えば、情報処理システム１は、重み（Weight）の初期化関数（Initializer）を用いて、Weightの初期値を設定する。なお、Weightの初期化関数のランダムシード（例えばtf_random_seed等）は最適化される。例えば、Weightの初期化関数のランダムシードの最適化は、ＮＴＫ（Neural Tangent Kernel）理論におけるパラメータ（例えばk(w₀)）を小さくできるWeight初期値を見つけることにより行われてもよい。Weightの初期化関数のランダムシードの最適化は、上記に限らず、任意の手法により行われてもよい。例えば、情報処理システム１は、最適化されたランダムシードを用いたWeightの初期化関数により、Weightの初期値を設定する。このように、情報処理システム１は、ランダムシードが最適化されたWeightの初期化関数を用いてWeightの初期値を設定することにより、生成するモデルの精度を向上させることができる。

例えば、情報処理システム１は、部分モデルＰＭ１についてドロップアウトＰＳ１１を行った状態で学習処理を行い、モデルＭ１のパラメータ（重み）を更新する。情報処理システム１は、部分モデルＰＭ１についてドロップアウトＰＳ１１を行った状態で学習処理を行い、全体としてバックプロパゲーションを行うことにより、モデルＭ１のパラメータ（重み）を更新し、モデルＭ１を生成する。この場合、例えば、情報処理システム１は、部分モデルＰＭ２についてドロップアウトＰＳ２１を行わない状態のネットワーク構成においてバッチノーマライゼーションＰＳ２２を行い、モデルＭ１のパラメータ（重み）を更新してもよい。

また、例えば、情報処理システム１は、部分モデルＰＭ２についてドロップアウトＰＳ２１を行った状態で学習処理を行い、モデルＭ１のパラメータ（重み）を更新する。この場合、情報処理システム１は、部分モデルＰＭ２についてドロップアウトＰＳ２１を行った状態で学習処理を行い、全体としてバックプロパゲーションを行うことにより、モデルＭ１のパラメータ（重み）を更新し、モデルＭ１を生成する。例えば、情報処理システム１は、部分モデルＰＭ１についてドロップアウトＰＳ１１を行わない状態のネットワーク構成においてバッチノーマライゼーションＰＳ１２を行い、モデルＭ１のパラメータ（重み）を更新してもよい。

次に、設定されるパラメータの一例について、図８を用いて説明する。情報処理システム１は、図８に示すようなパラメータを基にモデルＭ１を生成する。図８は、実施形態に係るパラメータの一例を示す図である。例えば、図８に示すパラメータは、図１５に示すモデルＭ１の生成におけるパラメータに対応する。

このように、情報処理システム１は、各部分モデルＰＭ１、ＰＭ２について、個別にドロップアウトを行い、１つのモデルＭ１として学習してもよい。また、情報処理システム１は、部分モデルＰＭ１、ＰＭ２の両方についてドロップアウトを行った状態で、１つのモデルＭ１として学習してもよい。情報処理システム１は、部分モデルＰＭ１、ＰＭ２の両方についてドロップアウトを行った状態で、全体としてバックプロパゲーションを行うことにより、モデルＭ１のパラメータ（重み）を更新し、モデルＭ１を生成してもよい。

図８は、２つの部分モデルを含むモデル構成が指定された場合を示す。図８での１つ目の部分モデルは、「hidden_units」が「－１」であり、隠れ層を含まない部分モデルであることを示す。すなわち、図８での１つ目の部分モデルは、第１タイプの部分モデルであることを示す。また、図８での１つ目の部分モデルのドロップアウト率は、「０．７０２１」に設定されたことを示す。

また、図８での２つ目の部分モデルは、「hidden_units」が「１５１９」であり、隠れ層のユニットサイズ（ノード数）が１５１９に指定された部分モデルであることを示す。すなわち、図８での２つ目の部分モデルは、第２タイプの部分モデルであることを示す。また、図８での２つ目の部分モデルのドロップアウト率は、「０．６２５７」に設定されたことを示す。

〔７－２．ドロップアウト〕
ここで、図７のドロップアウトＰＳ１１やドロップアウトＰＳ１２での処理で行われるドロップアウトの概要について説明する。図９は、実施形態に係るドロップアウトの概念を示す図である。

図９に示すモデルネットワークＮＷ１は、ドロップアウトが行われる前のモデルのネットワークの一部を示す。なお、図９では説明のため、全結合で接続された場合を示すが、モデルのネットワーク構成については全結合に限られない。モデルネットワークＮＷ１中の各円が、ユニット（ノード）を示し、線で接続された各円が結合（接続）されていることを示す。図９では、各々が５個のノードを含む４つの層を図示している。すなわち、図９では、モデルネットワークＮＷ１中の２０個のノードを図示し、縦方向に沿って各層の５個のノードが配置され、横方向に各層が並べられた状態を示す。

図９に示すモデルネットワークＮＷ２は、ドロップアウトが行われた状態のモデルのネットワークの一部を示す。図９では、ドロップアウト率が０．５に設定され、モデルネットワークＮＷ１を含むモデルにドロップアウトが実行される（ステップＳ２１）。

モデルネットワークＮＷ２中の２０個のノードのうち、点線の円が、ドロップアウトにより無効にされたノード、すなわちアクティベートされていないノードを示す。図９では、ドロップアウト率が０．５であるため、２０個のノードのうち、半分の１０個のノードが無効にされた状態を示す。また、モデルネットワークＮＷ２中の２０個のノードのうち、実線の円、すなわちモデルネットワークＮＷ１から変化がない円が、ドロップアウトにより無効にされていないノード、すなわちアクティベートされたノードを示す。

このように、ドロップアウトを用いた学習態様では、ドロップアウトによりいくつかのノードを無効した上で学習が行われる。ドロップアウトを用いた学習態様では、所定のサイクルで、無効にするノードを変更することにより、多くのノードを無効にして学習を行うことを繰り返す。

なお、ドロップアウトの処理については、ニューラルネットワークの学習において用いられる処理（技術）であり、詳細な説明は省略する。また、以下に示す知見等においては、ドロップアウト率を０．５よりも大きい値に設定することで、精度の改善が得られるがこの点については後述する。

〔７－３．バッチノーマライゼーション〕
次に、図７のバッチノーマライゼーションＰＳ１２やバッチノーマライゼーションＰＳ２２で行われるバッチノーマライゼーションの概要について説明する。図１０は、実施形態に係るバッチノーマライゼーションの概念を示す図である。図１０の全体像ＢＮ１は、バッチノーマライゼーションの概要を示す。図１０中のアルゴリズムＡＬ１は、バッチノーマライゼーションに関するアルゴリズムを示す。図１０中の関数ＦＣ１は、バッチノーマライゼーションを適用するための関数を示す。

関数ＦＣ１は、パラメータ「ｓｃａｌｅ」、「ｂｉａｓ」を用いて、入力（すなわち、前の層の出力）の正規化を行う関数の一例を示す。関数ＦＣ１中の矢印（←）の左側が、正規化後の値を示し、関数ＦＣ１中の矢印（←）の右側が、正規化前の値にパラメータ「ｓｃａｌｅ」を乗算し、パラメータ「ｂｉａｓ」を加算することにより算出される。このように、図１０の例では、パラメータ「ｓｃａｌｅ」、「ｂｉａｓ」により正規化される。具体的には、関数ＦＣ１により、正規化前の値にパラメータ「ｓｃａｌｅ」の値が乗算され、その乗算結果にパラメータ「ｂｉａｓ」の値が加算されることにより正規化される。

図１０の例では、パラメータ「ｓｃａｌｅ」、「ｂｉａｓ」の上限値及び下限値は、コードＣＤ１により規定される。パラメータ「ｓｃａｌｅ」の値は、コードＣＤ１と、関数ＦＣ２により決定される。例えば、関数ＦＣ２は、「ｓｃａｌｅ_ｍｉｎ」を下限、「ｓｃａｌｅ_ｍａｘ」を上限とする範囲の乱数を生成する関数である。

また、パラメータ「ｂｉａｓ」の値は、コードＣＤ１と、関数ＦＣ３により決定される。例えば、関数ＦＣ３は、「ｓｈｉｆｔ_ｍｉｎ」を下限、「ｓｈｉｆｔ_ｍａｘ」を上限とする範囲の乱数を生成する関数である。

図１０の例では、関数ＦＣ１を用いてバッチノーマライゼーションが行われる。例えば、情報処理システム１は、ドロップアウトＰＳ１１の対象となった層の後にバッチノーマライゼーションＰＳ１２を実行する。また、情報処理システム１は、ドロップアウトＰＳ２１の対象となった層の後にバッチノーマライゼーションＰＳ２２を実行する。これにより、情報処理システム１は、モデルの学習時のバックプロパゲーション等において、アクティベートされていないノード等、学習対象になっていないものがバッチノーマライゼーションの対象となることを抑制することができる。

例えば、モデル生成サーバ２がバッチノーマライゼーションの指定を受け付けるためのＡＰＩ（Application Programming Interface）が提供されている場合、情報処理装置１０は、そのＡＰＩを用いて、モデル生成サーバ２がバッチノーマライゼーションの実行を指示してもよい。

〔８．知見及び実験結果について〕
ここから、上述した処理により生成したモデルを基に得た知見及び実験結果を示す。

〔８－１．第１の知見〕
まず、図１１を用いて、第１の知見について説明する。図１１は、第１の知見に関するグラフを示す図である。具体的には、図１１のグラフＲＳ１の横軸がドロップアウト率、縦軸が精度を示す。第１の知見は、実験（測定）により、ドロップアウト率と精度との関係について得られた知見を示す。

例えば、第１の知見では、ユーザの行動に応じて、お勧めの宿泊施設をレコメンドするモデル（以下「対象モデル」ともいう）を生成し、そのモデル（対象モデル）の精度を測定した場合の知見を示す。ここで、対象モデルは、ユーザの行動データが入力された場合、例えば数万件等の多数の対象となる宿泊施設（「対象宿泊施設」ともいう）毎のスコアを出力するモデルである。

図１１では、モデルの精度の基準となる指標が「オフライン指標＃２」である場合を示す。図１１に示す実験結果は、オフライン指標＃２により、ユーザの行動データをモデルに入力し、そのモデルが出力したスコアの高い方から順に順位を付した場合に、ユーザが実際に閲覧した宿泊施設の最高順位の逆数の平均をとったものである。すなわち、オフライン指標＃２は、モデルが出力したスコアの高い方から順に並んだ一覧において、最初に現れたユーザが実際に閲覧した宿泊施設の順位の逆数の平均をとったものである。例えば、最初に現れたユーザが実際に閲覧した宿泊施設の順位が「２」である場合、「０．５（＝１／２）」となる。

図１１のグラフＲＳ１は、ドロップアウト率と精度との間には高い相関性があることを示す。図１１のグラフＲＳ１では、例えばドロップアウト率が０．５から０．９の間においては、ドロップアウト率と精度との間にはグラフＲＳ１中に点線で示すように、正の相関があることが示された。

また、図１１は、ドロップアウト率を固定し、隠れ層のユニットサイズを調節することにより得られた結果である。これにより、ドロップアウト率を大きくしながら隠れ層のユニットサイズを調節することで、モデルの精度が向上することが示された。

〔８－２．第２の知見〕
次に、図１２及び図１３を用いて、第２の知見について説明する。なお、第１の知見と同様の点については適宜説明を省略する。図１２及び図１３は、第２の知見に関するグラフを示す図である。具体的には、図１２のグラフＲＳ２の横軸が隠れ層のユニットサイズ、縦軸が精度を示す。図１３のグラフＲＳ３は、横軸を隠れ層のユニットサイズの常用対数（１０を底とする対数）とした場合を示す。第２の知見は、実験（測定）により、隠れ層のユニットサイズと精度との関係について得られた知見を示す。

図１２のグラフＲＳ２及び図１３のグラフＲＳ３は、隠れ層のユニットサイズと精度との間には高い相関性があることを示す。図１２のグラフＲＳ２及び図１３のグラフＲＳ３では、例えば隠れ層のユニットサイズが増えるほど精度が向上しており、隠れ層のユニットサイズと精度との間には正の相関があることが示された。

また、図１２及び図１３は、隠れ層のユニットサイズを固定し、ドロップアウト率を調節することにより得られた結果である。これにより、隠れ層のユニットサイズを大きくしながらドロップアウト率を調節することで、モデルの精度が向上することが示された。

〔８－３．第３の知見〕
まず、図１４を用いて、第３の知見について説明する。なお、上述した第１の知見、第２の知見と同様の点については適宜説明を省略する。図１４は、第３の知見に関するグラフを示す図である。具体的には、図１４のグラフＲＳ４の横軸が隠れ層のユニットサイズ、縦軸がドロップアウト率を示す。

図１４のグラフＲＳ４は、各ドロップアウト率における精度が最大のものを抜き出しプロットした結果を示す。例えば、図１４のグラフＲＳ４は、各ドロップアウト率において精度が最大であった際の隠れ層のユニットサイズを抽出し、プロットした結果を示す。図１４のグラフＲＳ４は、ドロップアウト率と隠れ層のユニットサイズとの間には高い相関性があることを示す。図１４のグラフＲＳ４では、ドロップアウト率と隠れ層のユニットサイズとの間にはグラフＲＳ４中に点線で示す関数ＦＣ１１のように、正の相関があることが示された。

例えば、関数ＦＣ１１は、隠れ層のユニットサイズに対応する変数を「ｙ」とし、ドロップアウト率に対応する変数を「ｘ」とした場合、「ｙ＝ａｘ＋ｂ」（ａ、ｂは数値）で表現される関数であってもよい。例えば、関数ＦＣ１１は、関数のフィッティングに関する種々の技術を適宜用いて導出される。なお、図１４の例では、関数が線形である場合を一例として示したが、ドロップアウト率と隠れ層のユニットサイズとの関係を表現可能であれば、関数ＦＣ１１は、どのような関数であってもよく、線形関数であってもよいし、非線形関数であってもよい。

第３の知見を利用することでパラメータの探索時間を大幅に短縮することができる。例えば、図１４に示すような関数ＦＣ１１を用いることで、情報処理装置１０は、各ドロップアウト率に適切な隠れ層のユニットサイズを決定することができる。これにより、情報処理装置１０は、ドロップアウト率に基づく隠れ層のユニットサイズを決定する時間を短縮することができる。情報処理装置１０は、ドロップアウト率に基づくサイズのモデルを適切に生成することができる。情報処理装置１０は、関数ＦＣ１１を基に特定されるドロップアウト率に対応する隠れ層のサイズ（対象サイズ）に基づいて、モデルを生成する。例えば、情報処理装置１０は、取得したドロップアウト率を関数ＦＣ１１に入力することにより、取得したドロップアウト率に対応する隠れ層の対象サイズを特定する。

そして、情報処理装置１０は、対象サイズから所定範囲内の複数のサイズの各々に対応する複数のモデルを学習する。例えば、情報処理装置１０は、対象サイズの上下５％の範囲に含まれる複数のサイズの各々に対応する複数のモデルを学習する。情報処理装置１０は、学習した複数のモデルのうち、最も精度が高い一のモデルを、そのドロップアウト率に対応する適切なモデルとして選択する。これにより、情報処理装置１０は、取得したドロップアウト率に対応する対象サイズから所定範囲内のサイズの隠れ層を含むモデルを生成する。

〔８－４．第４の知見〕
まず、図１５及び図１６を用いて、第４の知見について説明する。なお、上述した第１の知見、第２の知見、第３の知見と同様の点については適宜説明を省略する。図１５は、第４の知見に関するモデルの一例を示す図である。図１６は、第４の知見に関するグラフを示す図である。

図１５は、モデルＭ１の第１タイプの部分モデルである部分モデルＰＭ１及びモデルＭ１の第２タイプの部分モデルである部分モデルＰＭ２のパラメータを設定した場合を示す。具体的には、図１５は、部分モデルＰＭ１のドロップアウト率が「０．７０２１」に設定された場合を示す。また、図１５は、部分モデルＰＭ１のドロップアウト率が「０．６２５７」に設定され、、隠れ層のユニットサイズ（ノード数）が１５１９に設定された場合を示す。また、図１５では、エンベディング層ＥＬ１１とロジット層ＥＬ１２とを直接全結合層（Fully connected layer）で接続する。

ここで、図１６を用いてモデルのパラメータである重みとステップとの関係を示す。図１６のグラフＲＳ１１は、第１の部分モデルである部分モデルＰＭ１についての重みとステップとの関係を示す。図１６のグラフＲＳ１１の横軸がステップ、縦軸がＬｏｇｉｔｓ（部分モデルの出力）を示す。

グラフＲＳ１１は、第１の部分モデル（部分モデルＰＭ１）の出力とステップとの関係を示す。グラフＲＳ１１中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ１１中の９個の波形は、上から順にｍａｘｉｍｕｍ（最大値）、μ＋１．５σ、μ＋σ、μ＋０．５σ、μ、μ－０．５σ、μ－σ、μ－１．５σ、ｍｉｎｉｍｕｍ（最小値）に対応する。図１６の例では、中心μが一番濃く、外側に行くに連れて色が薄くなる態様により示す。

図１６のグラフＲＳ１２は、第２の部分モデルである部分モデルＰＭ２についての重みとステップとの関係を示す。図１６のグラフＲＳ１２の横軸がステップ、縦軸がＬｏｇｉｔｓ（部分モデルの出力）を示す。

グラフＲＳ１２は、第２の部分モデル（部分モデルＰＭ２）の出力とステップとの関係を示す。グラフＲＳ１２中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ１２中の９個の波形は、上から順にｍａｘｉｍｕｍ（最大値）、μ＋１．５σ、μ＋σ、μ＋０．５σ、μ、μ－０．５σ、μ－σ、μ－１．５σ、ｍｉｎｉｍｕｍ（最小値）に対応する。

図１６に示すように、ドロップアウト率を高くすると重みのばらつきを小さくすることができる。例えば、ドロップアウト率を高くすると重みのＬ２ノルムを大幅に小さくすることができる。例えば、第１の部分モデルの重みのばらつき（Ｌ２ノルム等）を小さくできれば、モデルの汎化性能を向上させることができる。なお、重みのノルムについては、例えば下記の文献に開示されている。
・Generalization in Deep Learning, Kenji Kawaguchi et al. <https://arxiv.org/abs/1710.05468>

〔８－５．第５の知見〕
次に、第５の知見について説明する。なお、上述した第１の知見、第２の知見、第３の知見、第４の知見と同様の点については適宜説明を省略する。第５の知見としては、図７や図１５のモデルＭ１に示すように、複数の部分モデルを並列に接続することにより、モデルの精度を向上させることができることが得られた。例えば、複数の部分モデルを並列に接続することにより、部分モデルを並列に接続しない場合に比べて、モデルの精度を向上させることができる。

〔８－６．第６の知見〕
次に、第６の知見について説明する。なお、上述した第１の知見～第５の知見と同様の点については適宜説明を省略する。第６の知見は、ドロップアウト率を大きくすることで、スパース性が増し、重みのばらつき（Ｌ２ノルム等）が減少するとの推測が得られた。

〔８－７．実験結果〕
実験結果の一例について図１７を用いて説明する。図１７は、実験結果の一覧を示す図である。図１７では、サービス＃１～＃３の３つのサービスの各々のデータセット＃１～＃３を用いた場合の実験結果を示す。なお、サービス＃１～＃３といった抽象的な名称で示すが、例えばサービス＃１は情報提供サービスであり、サービス＃２は書籍版売サービスであり、サービス＃３は旅行サービスである。

図１７中の「オフライン指標＃１」は、モデルの精度の基準となる指標を示す。オフライン指標＃１は、そのモデルが出力したスコアの高い方から順に候補を抽出し、その抽出した候補の中に正解が含まれる割合を示す。例えば、オフライン指標＃１は、ユーザの行動データをモデルに入力し、対象書籍のうち、そのモデルが出力したスコアの高い方から順に５件を抽出し、その５件の中にそのユーザが実際に（例えば対応するページ等のコンテンツを）閲覧した書籍が含まれる割合を示す。

また、図１７中の一覧のうち、「従来例＃１」は、第１の従来例を示し、「従来例＃２」は、第１の従来例よりも精度が向上された第２の従来例を示す。また、図１７中の一覧のうち、「本手法」は、上述した処理により生成された複数の部分モデルを並列に接続したモデルの精度を示す。

図１７に示す実験結果の各欄に「オフライン指標＃１：」の横に示す値は、各手法について対応するデータセットを用いた場合の精度を示す。例えば、「従来例＃１」と「データセット＃１」とに対応する欄に表記された「オフライン指標＃１：０．３５３３５３」は、サービス＃１のデータセット＃１を対象とした場合の従来例＃１の精度が０．３５３３５３であることを示す。また、「従来例＃１」と「データセット＃３」とに対応する欄が空欄であることは、サービス＃３のデータセット＃３を対象とした場合の従来例＃１の精度が未取得（未計測）であることを示す。

また、「従来例＃２」に対応する欄に示す数値は、「従来例＃１」からの精度の向上率を示す。例えば、「従来例＃２」と「データセット＃１」とに対応する欄に表記された「＋２０．６」は、サービス＃１のデータセット＃１を対象とした場合について、従来例＃２は、従来例＃１よりも精度が２０．６％向上したことを示す。

また、「本手法」に対応する欄に示す数値は、「従来例＃２」からの精度の向上率を示し、その横の括弧で囲まれた数値は、「従来例＃１」からの精度の向上率を示す。例えば、「本手法」と「データセット＃１」とに対応する欄に表記された「＋１２．１」は、サービス＃１のデータセット＃１を対象とした場合について、本手法は、従来例＃２よりも精度が１２．１％向上したことを示す。また、例えば、「本手法」と「データセット＃１」とに対応する欄に表記された「＋１２．１」の横の「［＋３２．７］」は、サービス＃１のデータセット＃１を対象とした場合について、本手法は、従来例＃１よりも精度が３２．７％向上したことを示す。

同様に、サービス＃２のデータセット＃２を対象とした場合について、本手法は、従来例＃２よりも精度が７．９％向上し、従来例＃１よりも精度が２３．４％向上したことを示す。また、サービス＃３のデータセット＃３を対象とした場合について、本手法は、従来例＃２よりも精度が６．２％向上したことを示す。図１７に示すように、本手法は、従来例＃１及び従来例＃２から精度の改善（上昇）が見られた。

〔９．変形例〕
上記では、情報処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報処理の変形例について説明する。

〔９－１．装置構成〕
上記実施形態では、情報処理システム１に、生成指標の生成を行う情報処理装置１０、および、生成指標に従ってモデルを生成するモデル生成サーバ２を有する例について説明したが、実施形態は、これに限定されるものではない。例えば、情報処理装置１０は、モデル生成サーバ２が有する機能を有していてもよい。また、情報処理装置１０が発揮する機能は、端末装置３に内包されていてもよい。このような場合、端末装置３は、生成指標を自動的に生成するとともに、モデル生成サーバ２を用いたモデルの生成を自動的に行うこととなる。

〔９－２．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔９－３．プログラム〕
また、上述してきた実施形態に係る情報処理装置１０は、例えば図１８に示すような構成のコンピュータ１０００によって実現される。図１８は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報処理装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

〔１０．効果〕
上述したように、情報処理装置１０は、モデルの学習におけるドロップアウト率を示す情報を取得する取得部（実施形態では取得部４１）と、ドロップアウト率に基づくサイズを有するモデル（例えば実施形態では部分モデルＰＭ２）を生成する生成部（実施形態では生成部４４）とを有する。これにより、情報処理装置１０は、ドロップアウト率に応じたサイズのモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、ドロップアウト率に基づく隠れ層を含むモデルを生成する。これにより、情報処理装置１０は、ドロップアウト率に応じた隠れ層を含むモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、ドロップアウト率に基づいて決定されるサイズの隠れ層を含むモデルを生成する。これにより、情報処理装置１０は、ドロップアウト率に基づいて決定されるサイズの隠れ層を含むモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、ドロップアウト率と隠れ層のサイズとの相関性に基づいて決定されるサイズの隠れ層を含むモデルを生成する。これにより、情報処理装置１０は、ドロップアウト率と隠れ層のサイズとの相関性に基づくサイズのモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、ドロップアウト率と隠れ層のサイズとの正の相関に基づいてモデルを生成する。例えば、生成部は、ドロップアウト率が上がるほど、隠れ層のサイズを大きくすることで精度が良くなることを示す相関性に基づいてモデルを生成する。これにより、情報処理装置１０は、ドロップアウト率と隠れ層のサイズとの正の相関に基づくサイズのモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、ドロップアウト率と隠れ層のサイズとを変数とする関数を用いて決定されるサイズの隠れ層を含むモデルを生成する。これにより、情報処理装置１０は、関数を用いて決定されたサイズのモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、関数を基に特定されるドロップアウト率に対応する隠れ層のサイズである対象サイズに基づいて、モデルを生成する。これにより、情報処理装置１０は、関数を基に特定される対象サイズに基づいてモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、対象サイズから所定範囲内のサイズの隠れ層を含むモデルを生成する。これにより、情報処理装置１０は、対象サイズから所定範囲内のサイズの隠れ層を含むモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、対象サイズから所定範囲内の複数のサイズのうち、最も精度が高いサイズの隠れ層を含むモデルを生成する。これにより、情報処理装置１０は、複数のサイズのうち最も精度が高いサイズの隠れ層を含むモデルを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、対象サイズから所定範囲内の複数のサイズの各々に対応する複数のモデルを学習し、複数のモデルのうち、最も精度が高い一のモデルをモデルとして生成する。これにより、情報処理装置１０は、複数のサイズの各々に対応する複数のモデルを学習し、最も精度が高い一のモデルを採用することより、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、ドロップアウト率でのドロップアウトの後にバッチノーマライゼーションを行って生成することにより、モデルを生成する。これにより、情報処理装置１０は、ドロップアウトとバッチノーマライゼーションとを適切に組み合わせて処理し、モデルをを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、モデルは、入力をエンベディングするエンベディング層を含む。これにより、情報処理装置１０は、エンベディング層を含み、ドロップアウト率に応じたサイズのモデルをを生成することができるため、学習態様に応じたサイズのモデルを生成することができる。

また、生成部は、モデルの生成に用いるデータを外部のモデル生成サーバ（実施形態では「モデル生成サーバ２」）に送信することにより、モデル生成サーバにモデルの学習を要求し、モデル生成サーバからモデル生成サーバが学習したモデルを受信することにより、モデルを生成する。これにより、情報処理装置１０は、モデル生成サーバにモデルを学習させ、そのモデルを受信することにより、適切にモデルを生成することができる。例えば、情報処理装置１０は、モデルを生成するモデル生成サーバ２等の外部装置に、学習データ、モデルの構造を示す情報及び各部分モデルのドロップアウト率を示す情報等を送信し、学習データを用いて外部装置にモデルを学習させることにより、適切にモデルを生成することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理システム
２モデル生成サーバ
３端末装置
１０情報処理装置
２０通信部
３０記憶部
４０制御部
４１取得部
４２決定部
４３受付部
４４生成部
４５提供部

Claims

コンピュータが実行する情報処理方法であって、
モデルの学習におけるドロップアウト率を示す情報を取得する取得工程と、
前記ドロップアウト率に基づくサイズを有する前記モデルを生成する生成工程と、
を含むことを特徴とする情報処理方法。
前記生成工程は、
前記ドロップアウト率に基づく隠れ層を含む前記モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。
前記生成工程は、
前記ドロップアウト率に基づいて決定されるサイズの隠れ層を含む前記モデルを生成する
ことを特徴とする請求項２に記載の情報処理方法。
前記生成工程は、
前記ドロップアウト率と前記隠れ層のサイズとの相関性に基づいて決定されるサイズの隠れ層を含む前記モデルを生成する
ことを特徴とする請求項３に記載の情報処理方法。
前記生成工程は、
前記ドロップアウト率と前記隠れ層のサイズとの正の相関に基づいて前記モデルを生成する
ことを特徴とする請求項４に記載の情報処理方法。
前記生成工程は、
前記ドロップアウト率と前記隠れ層のサイズとを変数とする関数を用いて決定されるサイズの隠れ層を含む前記モデルを生成する
ことを特徴とする請求項４に記載の情報処理方法。
前記生成工程は、
前記関数を基に特定される前記ドロップアウト率に対応する前記隠れ層のサイズである対象サイズに基づいて、前記モデルを生成する
ことを特徴とする請求項６に記載の情報処理方法。
前記生成工程は、
前記対象サイズから所定範囲内のサイズの隠れ層を含む前記モデルを生成する
ことを特徴とする請求項７に記載の情報処理方法。
前記生成工程は、
前記対象サイズから所定範囲内の複数のサイズのうち、最も精度が高いサイズの隠れ層を含む前記モデルを生成する
ことを特徴とする請求項８に記載の情報処理方法。
前記生成工程は、
前記対象サイズから所定範囲内の複数のサイズの各々に対応する複数のモデルを学習し、前記複数のモデルのうち、最も精度が高い一のモデルを前記モデルとして生成する
ことを特徴とする請求項９に記載の情報処理方法。
前記生成工程は、
前記ドロップアウト率でのドロップアウトの後にバッチノーマライゼーションを行って生成することにより、前記モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。
前記モデルは、入力をエンベディングするエンベディング層を含む
ことを特徴とする請求項１に記載の情報処理方法。
モデルの学習におけるドロップアウト率を示す情報を取得する取得部と、
前記ドロップアウト率に基づくサイズを有する前記モデルを生成する生成部と、
を有することを特徴とする情報処理装置。
モデルの学習におけるドロップアウト率を示す情報を取得する取得手順と、
前記ドロップアウト率に基づくサイズを有する前記モデルを生成する生成手順と、
をコンピュータに実行させるための情報処理プログラム。