JP2022097381A

JP2022097381A - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP2022097381A
Application number: JP2021177514A
Authority: JP
Inventors: 慎一郎岡本; Shinichiro Okamoto
Original assignee: Actapio Inc
Current assignee: Actapio Inc
Priority date: 2020-12-18
Filing date: 2021-10-29
Publication date: 2022-06-30
Also published as: US20220198329A1

Abstract

【課題】ハイパーパラメータではなく、モデル自体のパラメータを調整することにより、モデルの精度を改善する情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】情報処理装置は、モデルの学習に用いる学習データのデータセットを取得する取得部と、前記データセットを用いて、重みのばらつきが小さくなるようにモデルを生成する生成部と、を有する。生成部は、重みの標準偏差または分散が小さくなるようにモデルを生成する。生成部は、学習データが、モデルの重みのばらつきが小さくなるように変換された変換後学習データを用いて、モデルを生成する。【選択図】図３

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

近年、ＳＶＭ（Support Vector Machine）やＤＮＮ（Deep Neural Network）等の各種モデルに対し、学習データが有する特徴を学習させることで、モデルに各種の予測や分類を行わせる技術が提案されている。このような学習手法の一例として、ハイパーパラメータの値等に応じて、学習データの学習態様を動的に変化させる技術が提案されている。

特開２０１９－１６４７９３号公報

また、上述した技術では、モデルの精度を改善させる余地がある。例えば、上述した例では、ハイパーパラメータの値等に応じて、特徴の学習対象となる学習データを動的に変化させているに過ぎず、ハイパーパラメータの値が適切ではない場合、モデルの精度を改善することができない場合がある。そのため、ハイパーパラメータではなく、モデル自体のパラメータを調整することにより、モデルの精度を改善することが望まれている。

本願に係る情報処理装置は、モデルの学習に用いる学習データのデータセットを取得する取得部と、前記データセットを用いて、重みのばらつきが小さくなるようにモデルを生成する生成部とを有することを特徴とする。

実施形態の一態様によれば、モデルの精度を改善させることができる。

実施形態に係る情報処理システムの一例を示す図である。実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。実施形態に係る情報処理装置の構成例を示す図である。実施形態に係る学習データデータベースに登録される情報の一例を示す図である。実施形態に係るモデル生成用データベースに登録される情報の一例を示す図である。実施形態に係る情報処理の流れの一例を示すフローチャートである。実施形態に係る情報処理システムの処理手順を示すシーケンス図である。実施形態に係る第１処理の概念を示す図である。実施形態に係る第２処理の概念を示す図である。実施形態に係る第３処理の概念を示す図である。実験に用いたデータを示す図である。第１の実験結果の一覧を示す図である。第１の実験結果に関するグラフを示す図である。第１の実験結果に関するグラフを示す図である。第１の実験結果に関するグラフを示す図である。第２の実験結果の一覧を示す図である。第２の実験結果に関するグラフを示す図である。第２の実験結果に関するグラフを示す図である。第２の実験結果に関するグラフを示す図である。実験に用いたデータを示す図である。第３の実験結果の一覧を示す図である。第３の実験結果に関するグラフを示す図である。第３の実験結果に関するグラフを示す図である。第３の実験結果に関するグラフを示す図である。第４の実験結果の一覧を示す図である。第４の実験結果に関するグラフを示す図である。第４の実験結果に関するグラフを示す図である。第４の実験結果に関するグラフを示す図である。第５の実験結果の一覧を示す図である。第５の実験結果に関するグラフを示す図である。第５の実験結果に関するグラフを示す図である。第５の実験結果に関するグラフを示す図である。第６の実験結果の一覧を示す図である。第６の実験結果に関するグラフを示す図である。第６の実験結果に関するグラフを示す図である。ハードウェア構成の一例を示す図である。

以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

［実施形態］
以下の実施形態では、モデルのパラメータである重みのばらつきを小さくするための３つの処理（第１処理、第２処理、第３処理）を説明し、重みのばらつきを小さくすることによるモデルの精度の改善について実験結果を提示して説明する。実施形態ではばらつきを示す指標の一例として、標準偏差を例示するが、ばらつきを示す指標であれば分散等の他の指標であってもよい。なお詳細には後述するが、例えば、第１処理、第２処理、または第３処理の処理によりモデルの重みのばらつきを小さくすることで、モデルの出力（分類などの推論結果）がより自然なものとなると考えられる。このように、モデルの出力がより自然なものとなることで、モデルの精度の改善につながると考えられる。本実施形態では、上述した３つの処理及び実験結果を示す前に、まずモデルを生成する情報処理システム１の構成やモデルの学習について説明する。

〔１．情報処理システムの構成〕
まず、図１を用いて、情報処理装置の一例である情報処理装置１０を有する情報処理システムの構成について説明する。図１は、実施形態に係る情報処理システムの一例を示す図である。図１に示すように、情報処理システム１は、情報処理装置１０、モデル生成サーバ２、および端末装置３を有する。なお、情報処理システム１は、複数のモデル生成サーバ２や複数の端末装置３を有していてもよい。また、情報処理装置１０と、モデル生成サーバ２とは、同一のサーバ装置やクラウドシステム等により実現されてもよい。ここで、情報処理装置１０、モデル生成サーバ２、および端末装置３は、ネットワークＮ（例えば、図３参照）を介して有線または無線により通信可能に接続される。

情報処理装置１０は、モデルの生成における指標（すなわち、モデルのレシピ）である生成指標を生成する指標生成処理と、生成指標に従ってモデルを生成するモデル生成処理とを実行し、生成した生成指標およびモデルを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。

モデル生成サーバ２は、学習データが有する特徴を学習させたモデルを生成する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、モデル生成サーバ２は、モデルの生成指標として、生成するモデルの種別や行動、どのように学習データの特徴を学習させるかといったコンフィグファイルを受付けると、受付けたコンフィグファイルに従って、モデルの自動生成を行う。なお、モデル生成サーバ２は、任意のモデル学習手法を用いて、モデルの学習を行ってもよい。また、例えば、モデル生成サーバ２は、ＡｕｔｏＭＬ（Automated Machine Learning）といった各種既存のサービスであってもよい。

端末装置３は、利用者Ｕによって利用される端末装置であり、例えば、ＰＣ（Personal Computer）やサーバ装置等により実現される。例えば、端末装置３は、情報処理装置１０とのやり取りを介して、モデルの生成指標を生成させ、生成させた生成指標に従ってモデル生成サーバ２が生成したモデルを取得する。

〔２．情報処理装置１０が実行する処理の概要〕
まず、情報処理装置１０が実行する処理の概要について説明する。まず、情報処理装置１０は、端末装置３からモデルに特徴を学習させる学習データの指摘を受付ける（ステップＳ１）。例えば、情報処理装置１０は、学習に用いる各種の学習データを所定の記憶装置に記憶させており、利用者Ｕが学習データに指定する学習データの指摘を受付ける。なお、情報処理装置１０は、例えば、端末装置３や各種外部のサーバから、学習に用いる学習データを取得してもよい。

ここで、学習データとは、任意のデータが採用可能である。例えば、情報処理装置１０は、各利用者の位置の履歴や各利用者が閲覧したウェブコンテンツの履歴、各利用者による購買履歴や検索クエリの履歴等、利用者に関する各種の情報を学習データとしてもよい。また、情報処理装置１０は、利用者のデモグラフィック属性やサイコグラフィック属性等を学習データとしてもよい。また、情報処理装置１０は、配信対象となる各種ウェブコンテンツの種別や内容、作成者等のメタデータ等を学習データとしてもよい。

このような場合、情報処理装置１０は、学習に用いる学習データの統計的な情報に基づいて、生成指標の候補を生成する（ステップＳ２）。例えば、情報処理装置１０は、学習データに含まれる値の特徴等に基づいて、どのようなモデルに対し、どのような学習手法により学習を行えばよいかを示す生成指標の候補を生成する。換言すると、情報処理装置１０は、学習データの特徴を精度よく学習可能なモデルやモデルに精度よく特徴を学習させるための学習手法を生成指標として生成する。すなわち、情報処理装置１０は、学習手法の最適化を行う。なお、どのような学習データが選択された場合に、どのような内容の生成指標を生成するかについては、後述する。

続いて、情報処理装置１０は、生成指標の候補を端末装置３に対して提供する（ステップＳ３）。このような場合、利用者Ｕは、生成指標の候補を嗜好や経験則等に応じて修正する（ステップＳ４）。そして、情報処理装置１０は、各生成指標の候補と学習データとをモデル生成サーバ２に提供する（ステップＳ５）。

一方、モデル生成サーバ２は、生成指標ごとに、モデルの生成を行う（ステップＳ６）。例えば、モデル生成サーバ２は、生成指標が示す構造を有するモデルに対し、生成指標が示す学習手法により学習データが有する特徴を学習させる。そして、モデル生成サーバ２は、生成したモデルを情報処理装置１０に提供する（ステップＳ７）。

ここで、モデル生成サーバ２によって生成された各モデルは、それぞれ生成指標の違いに由来する精度の違いが生じると考えられる。そこで、情報処理装置１０は、各モデルの精度に基づいて、遺伝的アルゴリズムにより新たな生成指標を生成し（ステップＳ８）、新たに生成した生成指標を用いたモデルの生成を繰り返し実行する（ステップＳ９）。

例えば、情報処理装置１０は、学習データを評価用データと学習用データとに分割し、学習用データが有する特徴を学習させたモデルであって、それぞれ異なる生成指標に従って生成された複数のモデルを取得する。例えば、情報処理装置１０は、１０個の生成指標を生成し、生成した１０個の生成指標と、学習用データとを用いて、１０個のモデルを生成する。このような場合、情報処理装置１０は、評価用データを用いて、１０個のモデルそれぞれの精度を測定する。

続いて、情報処理装置１０は、１０個のモデルのうち、精度が高い方から順に所定の数のモデル（例えば、５個）を選択する。そして、情報処理装置１０は、選択した５個のモデルを生成した際に採用された生成指標から、新たな生成指標を生成する。例えば、情報処理装置１０は、各生成指標を遺伝的アルゴリズムの個体と見做し、各生成指標が示すモデルの種別、モデルの構造、各種の学習手法（すなわち、生成指標が示す各種の指標）を遺伝的アルゴリズムにおける遺伝子と見做す。そして、情報処理装置１０は、遺伝子の交叉を行う個体の選択および遺伝子の交叉を行うことで、次世代の生成指標を１０個新たに生成する。なお、情報処理装置１０は、遺伝子の交叉を行う際に、突然変異を考慮してもよい。また、情報処理装置１０は、二点交叉、多点交叉、一様交叉、交叉対象となる遺伝子のランダムな選択を行ってもよい。また、情報処理装置１０は、例えば、モデルの精度が高い個体の遺伝子程、次世代の個体に引き継がれるように、交叉を行う際の交叉率を調整してもよい。

また、情報処理装置１０は、次世代の生成指標を用いて、再度新たな１０個のモデルを生成する。そして、情報処理装置１０は、新たな１０個のモデルの精度に基づいて、上述した遺伝的アルゴリズムによる新たな生成指標の生成を行う。このような処理を繰り返し実行することで、情報処理装置１０は、生成指標を学習データの特徴に応じた生成指標、すなわち、最適化された生成指標へと近づけることができる。

また、情報処理装置１０は、所定の回数新たな生成指標を生成した場合や、モデルの精度の最大値、平均値、若しくは最低値が所定の閾値を超えた場合等、所定の条件が満たされた場合は、最も精度が高いモデルを提供対象として選択する。そして、情報処理装置１０は、選択したモデルと共に、対応する生成指標を端末装置３に提供する（ステップＳ１０）。このような処理の結果、情報処理装置１０は、利用者から学習データを選択するだけで、適切なモデルの生成指標を生成するとともに、生成した生成指標に従うモデルを提供することができる。

なお、上述した例では、情報処理装置１０は、遺伝的アルゴリズムを用いて生成指標の段階的な最適化を実現したが、実施形態は、これに限定されるものではない。後述する説明で明らかとなるように、モデルの精度は、モデルの種別や構造といったモデルそのものの特徴のみならず、どのような学習データをどのようにモデルに入力するのか、どのようなハイパーパラメータを用いてモデルの学習を行うのかというように、モデルを生成する際（すなわち、学習データの特徴を学習させる際）の指標に応じて大きく変化する。

そこで、情報処理装置１０は、学習データに応じて、最適と推定される生成指標を生成するのであれば、遺伝的アルゴリズムを用いた最適化を行わずともよい。例えば、情報処理装置１０は、学習データが、経験則に応じて生成された各種の条件を満たすか否かに応じて生成した生成指標を利用者に提示するとともに、提示した生成指標に従ったモデルの生成を行ってもよい。また、情報処理装置１０は、提示した生成指標の修正を受付けると、受付けた修正後の生成指標に従ってモデルの生成を行い、生成したモデルの精度等を利用者に対して提示し、再度生成指標の修正を受付けてもよい。すなわち、情報処理装置１０は、利用者Ｕに最適な生成指標を試行錯誤させてもよい。

〔３．生成指標の生成について〕
以下、どのような学習データに対して、どのような生成指標を生成するかの一例について説明する。なお、以下の例は、あくまで一例であり、学習データが有する特徴に応じて生成指標を生成するのであれば、任意の処理が採用可能である。

〔３－１．生成指標について〕
まず、生成指標が示す情報の一例について説明する。例えば、学習データが有する特徴をモデルに学習させる場合、学習データをモデルに入力する際の態様、モデルの態様、およびモデルの学習態様（すなわち、ハイパーパラメータが示す特徴）が最終的に得られるモデルの精度に寄与すると考えられる。そこで、情報処理装置１０は、学習データの特徴に応じて、各態様を最適化した生成指標を生成することで、モデルの精度を向上させる。

例えば、学習データには、様々なラベルが付与されたデータ、すなわち、様々な特徴を示すデータが存在すると考えられる。しかしながら、データを分類する際に有用ではない特徴を示すデータを学習データとした場合、最終的に得られるモデルの精度は、悪化する恐れがある。そこで、情報処理装置１０は、学習データをモデルに入力する際の態様として、入力する学習データが有する特徴を決定する。例えば、情報処理装置１０は、学習データのうち、どのラベルが付与されたデータ（すなわち、どの特徴を示すデータ）を入力するかを決定する。換言すると、情報処理装置１０は、入力する特徴の組み合わせを最適化する。

また、学習データには、数値のみのデータや文字列が含まれるデータ等、各種形式のカラムが含まれていると考えられる。このような学習データをモデルに入力する際に、そのまま入力した場合と、他の形式のデータに変換した場合とで、モデルの精度が変化するとも考えられる。例えば、複数種別の学習データ（それぞれ異なる特徴を示す学習データ）であって、文字列の学習データと数値の学習データとを入力する際に、文字列と数値とをそのまま入力した場合と、文字列を数値に変換して数値のみを入力した場合と、数値を文字列と見做して入力した場合とでは、それぞれモデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルに入力する学習データの形式を決定する。例えば、情報処理装置１０は、モデルに入力する学習データを数値とするか、文字列とするかを決定する。換言すると、情報処理装置１０は、入力する特徴のカラムタイプを最適化する。

また、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせを同時に入力するかによって、モデルの精度が変化すると考えられる。すなわち、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせの特徴（すなわち、複数の特徴の組み合わせの関係性）を学習させるかにより、モデルの精度が変化すると考えられる。例えば、第１特徴（例えば、性別）を示す学習データと、第２特徴（例えば、住所）を示す学習データと、第３特徴（例えば、購買履歴）を示す学習データとが存在する場合、第１特徴を示す学習データと第２特徴を示す学習データとを同時に入力した場合と、第１特徴を示す学習データと第３特徴を示す学習データとを同時に入力した場合とでは、モデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルに関係性を学習させる特徴の組み合わせ（クロスフィーチャー）を最適化する。

ここで、各種のモデルは、入力データを所定の超平面により分割された所定次元の空間内に投影し、投影した位置が分割された空間のうちいずれの空間に属するかに応じて、入力データの分類を行うこととなる。このため、入力データを投影する空間の次元数が最適な次元数よりも低い場合は、入力データの分類能力が劣化する結果、モデルの精度が悪化する。また、入力データを投影する空間の次元数が最適な次元数よりも高い場合は、超平面との内積値が変化する結果、学習時に用いたデータとは異なるデータを適切に分類することができなくなる恐れがある。そこで、情報処理装置１０は、モデルに入力する入力データの次元数を最適化する。例えば、情報処理装置１０は、モデルが有する入力層のノードの数を制御することで、入力データの次元数を最適化する。換言すると、情報処理装置１０は、入力データの埋め込みを行う空間の次元数を最適化する。

また、モデルには、ＳＶＭに加え、複数の中間層（隠れ層）を有するニューラルネットワーク等が存在する。また、このようなニューラルネットワークには、入力層から出力層まで一方方向に情報が伝達されるフィードフォワード型のＤＮＮ、中間層で情報の畳み込みを行う畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、有向閉路を有する回帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、ボルツマンマシン等、各種のニューラルネットワークが知られている。また、このような各種ニューラルネットワークには、ＬＳＴＭ（Long short-term memory）やその他各種のニューラルネットワークが含まれている。

このように、学習データの各種特徴を学習するモデルの種別が異なる場合、モデルの精度は変化すると考えられる。そこで、情報処理装置１０は、学習データの特徴を精度良く学習すると推定されるモデルの種別を選択する。例えば、情報処理装置１０は、学習データのラベルとしてどのようなラベルが付与されているかに応じて、モデルの種別を選択する。より具体的な例を挙げると、情報処理装置１０は、ラベルとして「履歴」に関連する用語が付されたデータが存在する場合は、履歴の特徴をより良く学習することができると考えられるＲＮＮを選択し、ラベルとして「画像」に関連する用語が付されたデータが存在する場合は、画像の特徴をより良く学習することができると考えられるＣＮＮを選択する。これら以外にも、情報処理装置１０は、ラベルがあらかじめ指定された用語若しくは用語と類似する用語であるか否かを判定し、同一若しくは類似すると判定された用語と予め対応付けられた種別のモデルを選択すればよい。

また、モデルの中間層の数や１つの中間層に含まれるノードの数が変化した場合、モデルの学習精度が変化すると考えられる。例えば、モデルの中間層の数が多い場合（モデルが深い場合）、より抽象的な特徴に応じた分類を実現することができると考えられる一方で、バックプロパゲーションにおける局所誤差が入力層まで伝播しづらくなる結果、学習が適切に行えなくなる恐れがある。また、中間層に含まれるノードの数が少ない場合は、より高度な抽象化を行うことができるものの、ノードの数が少なすぎる場合は、分類に必要な情報が欠損する可能性が高い。そこで、情報処理装置１０は、中間層の数や中間層に含まれるノードの数の最適化を行う。すなわち、情報処理装置１０は、モデルのアーキテクチャの最適化を行う。

また、アテンションの有無やモデルに含まれるノードに自己回帰がある場合とない場合、どのノード間を接続するのかに応じて、ノードの精度が変化すると考えられる。そこで、情報処理装置１０は、自己回帰を有するか否か、どのノード間を接続するのかといったネットワークの最適化を行う。

また、モデルの学習を行う場合、モデルの最適化手法（学習時に用いるアルゴリズム）やドロップアウト率、ノードの活性化関数やユニット数等がハイパーパラメータとして設定される。このようなハイパーパラメータが変化した場合にも、モデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルを学習する際の学習態様、すなわち、ハイパーパラメータの最適化を行う。

また、モデルのサイズ（入力層、中間層、出力層の数やノード数）が変化した場合も、モデルの精度が変化する。そこで、情報処理装置１０は、モデルのサイズの最適化についても行う。

このように、情報処理装置１０は、上述した各種モデルを生成する際の指標について最適化を行う。例えば、情報処理装置１０は、各指標に対応する条件を予め保持しておく。なお、このような条件は、例えば、過去の学習モデルから生成された各種モデルの精度等の経験則により設定される。そして、情報処理装置１０は、学習データが各条件を満たすか否かを判定し、学習データが満たす若しくは満たさない条件に予め対応付けられた指標を生成指標（若しくはその候補）として採用する。この結果、情報処理装置１０は、学習データが有する特徴を精度良く学習可能な生成指標を生成することができる。

なお、上述したように、学習データから自動的に生成指標を生成し、生成指標に従ってモデルを作成する処理を自動的に行った場合、利用者は、学習データの内部を参照し、どのような分布のデータが存在するかといった判断を行わずともよい。この結果、情報処理装置１０は、例えば、モデルの作成に伴ってデータサイエンティスト等が学習データの認識を行う手間を削減するとともに、学習データの認識に伴うプライバシーの毀損を防ぐことができる。

〔３－２．データ種別に応じた生成指標〕
以下、生成指標を生成するための条件の一例について説明する。まず、学習データとしてどのようなデータが採用されているかに応じた条件の一例について説明する。

例えば、学習に用いられる学習データには、整数、浮動小数点、若しくは文字列等がデータとして含まれている。このため、入力されるデータの形式に対して適切なモデルを選択した場合は、モデルの学習精度がより高くなると推定される。そこで、情報処理装置１０は、学習データが整数であるか、浮動小数点であるか、若しくは文字列であるかに基いて、生成指標を生成する。

例えば、学習データが整数である場合、情報処理装置１０は、学習データの連続性に基いて、生成指標を生成する。例えば、情報処理装置１０は、学習データの密度が所定の第１閾値を超える場合、当該学習データが連続性を有するデータであると見做し、学習データの最大値が所定の第２閾値を上回るか否かに基いて生成指標を生成する。また、情報処理装置１０は、学習データの密度が所定の第１閾値を下回る場合、当該学習データがスパースな学習データであると見做し、学習データに含まれるユニークな値の数が所定の第３閾値を上回るか否かに基いて生成指標を生成する。

より具体的な例を説明する。なお、以下の例においては、生成指標として、ＡｕｔｏＭＬによりモデルを自動的に生成するモデル生成サーバ２に対して送信するコンフィグファイルのうち、特徴関数（feature function）を選択する処理の一例について説明する。例えば、情報処理装置１０は、学習データが整数である場合、その密度が所定の第１閾値を超えるか否かを判定する。例えば、情報処理装置１０は、学習データに含まれる値のうちユニークな値の数を、学習データの最大値に１を加算した値で除算した値を密度として算出する。

続いて、情報処理装置１０は、密度が所定の第１閾値を超える場合は、学習データが連続性を有する学習データであると判定し、学習データの最大値に１を加算した値が第２閾値を上回るか否かを判定する。そして、情報処理装置１０は、学習データの最大値に１を加算した値が第２閾値を上回る場合は、特徴関数として「Categorical_colum_with_identity & embedding_column」を選択する。一方、情報処理装置１０は、学習データの最大値に１を加算した値が第２閾値を下回る場合は、特徴関数として「Categorical_column_with_identity」を選択する。

一方、情報処理装置１０は、密度が所定の第１閾値を下回る場合は、学習データがスパースであると判定し、学習データに含まれるユニークな値の数が所定の第３閾値を超えるか否かを判定する。そして、情報処理装置１０は、学習データに含まれるユニークな値の数が所定の第３閾値を超える場合は、特徴関数として「Categorical_column_with_hash_bucket & embedding_column」を選択し、学習データに含まれるユニークな値の数が所定の第３閾値を下回る場合は、特徴関数として「Categorical_column_with_hash_bucket」を選択する。

また、情報処理装置１０は、学習データが文字列である場合、学習データに含まれる文字列の種別の数に基いて、生成指標を生成する。例えば、情報処理装置１０は、学習データに含まれるユニークな文字列の数（ユニークなデータの数）を計数し、計数した数が所定の第４閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_list」若しくは／および「categorical_column_with_vocabulary_file」を選択する。また、情報処理装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_file & embedding_column」を選択する。また、情報処理装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を上回る場合は、特徴関数として「categorical_column_with_hash_bucket & embedding_column」を選択する。

また、情報処理装置１０は、学習データが浮動小数点である場合、モデルの生成指標として、学習データをモデルに入力する入力データへの変換指標を生成する。例えば、情報処理装置１０は、特徴関数として「bucketized_column」もしくは「numeric_column」を選択する。すなわち、情報処理装置１０は、学習データをバケタイズ（グルーピング）し、バケットの番号を入力とするか、数値をそのまま入力するかを選択する。なお、情報処理装置１０は、例えば、各バケットに対して対応付けられる数値の範囲が同程度となるように、学習データのバケタイズを行ってもよく、例えば、各バケットに分類される学習データの数が同程度となるように、各バケットに対して数値の範囲を対応付けてもよい。また、情報処理装置１０は、バケットの数やバケットに対して対応付けられる数値の範囲を生成指標として選択してもよい。

また、情報処理装置１０は、複数の特徴を示す学習データを取得し、モデルの生成指標として、学習データが有する特徴のうちモデルに学習させる特徴を示す生成指標を生成する。例えば、情報処理装置１０は、どのラベルの学習データをモデルに入力するかを決定し、決定したラベルを示す生成指標を生成する。また、情報処理装置１０は、モデルの生成指標として、学習データの種別のうちモデルに対して相関を学習させる複数の種別を示す生成指標を生成する。例えば、情報処理装置１０は、モデルに対して同時に入力するラベルの組み合わせを決定し、決定した組み合わせを示す生成指標を生成する。

また、情報処理装置１０は、モデルの生成指標として、モデルに入力される学習データの次元数を示す生成指標を生成する。例えば、情報処理装置１０は、学習データに含まれるユニークなデータの数やモデルに入力するラベルの数、モデルに入力するラベルの数の組み合わせ、バケットの数等に応じて、モデルの入力層におけるノードの数を決定してもよい。

また、情報処理装置１０は、モデルの生成指標として、学習データの特徴を学習させるモデルの種別を示す生成指標を生成する。例えば、情報処理装置１０は、過去に学習対象とした学習データの密度やスパース具合、ラベルの内容、ラベルの数、ラベルの組み合わせの数等に応じて、生成するモデルの種別を決定し、決定した種別を示す生成指標を生成する。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおけるモデルのクラスとして「BaselineClassifier」、「LinearClassifier」、「DNNClassifier」、「DNNLinearCombinedClassifier」、「BoostedTreesClassifier」、「AdaNetClassifier」、「RNNClassifier」、「DNNResNetClassifier」、「AutoIntClassifier」等を示す生成指標を生成する。

なお、情報処理装置１０は、これら各クラスのモデルの各種独立変数を示す生成指標を生成してもよい。例えば、情報処理装置１０は、モデルの生成指標として、モデルが有する中間層の数若しくは各層に含まれるノードの数を示す生成指標を生成してもよい。また、情報処理装置１０は、モデルの生成指標として、モデルが有するノード間の接続態様を示す生成指標やモデルの大きさを示す生成指標を生成してもよい。これらの独立変数は、学習データが有する各種の統計的な特徴が所定の条件を満たすか否かに応じて、適宜選択されることとなる。

また、情報処理装置１０は、モデルの生成指標として、学習データが有する特徴をモデルに学習させる際の学習態様、すなわち、ハイパーパラメータを示す生成指標を生成してもよい。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおける学習態様の設定において、「stop_if_no_decrease_hook」、「stop_if_no_increase_hook」、「stop_if_higher_hook」、もしくは「stop_if_lower_hook」を示す生成指標を生成してもよい。

すなわち、情報処理装置１０は、学習に用いる学習データのラベルやデータそのものの特徴に基づいて、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を示す生成指標を生成する。より具体的には、情報処理装置１０は、ＡｕｔｏＭＬにおけるモデルの生成を制御するためのコンフィグファイルを生成する。

〔３－３．生成指標を決定する順序について〕
ここで、情報処理装置１０は、上述した各種の指標の最適化を同時並行的に行ってもよく、適宜順序だてて実行してもよい。また、情報処理装置１０は、各指標を最適化する順序を変更可能としてもよい。すなわち、情報処理装置１０は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付け、受け付けた順序で、各指標を決定してもよい。

例えば、情報処理装置１０は、生成指標の生成を開始した場合、入力する学習データの特徴や、どのような態様で学習データを入力するかといった入力素性の最適化を行い、続いて、どの特徴の組み合わせの特徴を学習させるかという入力クロス素性の最適化を行う。続いて、情報処理装置１０は、モデルの選択を行うとともに、モデル構造の最適化を行う。その後、情報処理装置１０は、ハイパーパラメータの最適化を行い、生成指標の生成を終了する。

ここで、情報処理装置１０は、入力素性最適化において、入力する学習データの特徴や入力態様といった各種入力素性の選択や修正、遺伝的アルゴリズムを用いた新たな入力素性の選択を行うことで、入力素性を繰り返し最適化してもよい。同様に、情報処理装置１０は、入力クロス素性最適化において、入力クロス素性を繰り返し最適化してもよく、モデル選択およびモデル構造の最適化を繰り返し実行してもよい。また、情報処理装置１０は、ハイパーパラメータの最適化を繰り返し実行してもよい。また、情報処理装置１０は、入力素性最適化、入力クロス素性最適化、モデル選択、モデル構造最適化、およびハイパーパラメータの最適化という一連の処理を繰り返し実行し、各指標の最適化を行ってもよい。

また、情報処理装置１０は、例えば、ハイパーパラメータの最適化を行ってから、モデル選択やモデル構造最適化を行ってもよく、モデル選択やモデル構造最適化の後に、入力素性の最適化や入力クロス素性の最適化を行ってもよい。また、情報処理装置１０は、例えば、入力素性最適化を繰り返し実行し、その後入力クロス素性最適化を繰り返し行う。その後、情報処理装置１０は、入力素性最適化と入力クロス素性最適化を繰り返し実行してもよい。このように、どの指標をどの順番で最適化するか、最適化においてどの最適化処理を繰り返し実行するかについては、任意の設定が採用可能となる。

〔３－４．情報処理装置が実現するモデル生成の流れについて〕
続いて、図２を用いて、情報処理装置１０を用いたモデル生成の流れの一例について説明する。図２は、実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。例えば、情報処理装置１０は、学習データと各学習データのラベルとを受付ける。なお、情報処理装置１０は、学習データの指定と共に、ラベルを受付けてもよい。

このような場合、情報処理装置１０は、データの分析を行い、データの調整を行う。ここでいうデータの調整とは、データを変換したり、データを生成したりすることをいう。また、情報処理装置１０は、データ分割を行う。例えば、情報処理装置１０は、学習データを、モデルの学習に用いるトレーニング用データと、モデルの評価（すなわち、精度の測定）に用いる評価用データとに分割する。なお、情報処理装置１０は、各種テスト用のデータをさらに分割してもよい。なお、このような学習データをトレーニング用データと評価用データとに分割する処理は、各種任意の公知技術が採用可能である。

また、情報処理装置１０は、学習データを用いて、上述した各種の生成指標を生成する。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおいて生成されるモデルやモデルの学習を定義するコンフィグファイルを生成する。このようなコンフィグファイルにおいては、ＡｕｔｏＭＬで用いられる各種の関数がそのまま生成指標を示す情報として格納されることとなる。そして、情報処理装置１０は、トレーニング用データと生成指標とをモデル生成サーバ２に提供することで、モデルの生成を行う。

ここで、情報処理装置１０は、利用者によるモデルの評価と、モデルの自動生成とを繰り返し行うことで、生成指標の最適化、ひいてはモデルの最適化を実現してもよい。例えば、情報処理装置１０は、入力する特徴の最適化（入力素性や入力クロス素性の最適化）、ハイパーパラメータの最適化、および生成するモデルの最適化を行い、最適化された生成指標に従って自動でのモデル生成を行う。そして、情報処理装置１０は、生成したモデルを利用者に提供する。

一方、利用者は、自動生成されたモデルのトレーニングや評価、テストを行い、モデルの分析や提供を行う。そして、利用者は、生成された生成指標を修正することで、再度新たなモデルを自動生成させ、評価やテスト等を行う。このような処理を繰り返し実行することで、複雑な処理を実行することなく、試行錯誤しながらモデルの精度を向上させる処理を実現することができる。

〔４．情報処理装置の構成〕
次に、図３を用いて、実施形態に係る情報処理装置１０の機能構成の一例について説明する。図３は、実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、情報処理装置１０は、通信部２０と、記憶部３０と、制御部４０とを有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、モデル生成サーバ２や端末装置３との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１およびモデル生成用データベース３２を有する。

学習データデータベース３１は、学習に用いるデータに関する各種情報を記憶する。学習データデータベース３１には、モデルの学習に用いる学習データのデータセットが格納される。図４は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図４の例では、学習データデータベース３１は、「データセットＩＤ」、「データＩＤ」、「データ」といった項目が含まれる。

「データセットＩＤ」は、データセットを識別するための識別情報を示す。「データＩＤ」は、各データを識別するための識別情報を示す。また、「データ」は、データＩＤにより識別されるデータを示す。例えば、図４の例では、各学習データを識別するデータＩＤに対して、対応するデータ（学習データ）が対応付けられて登録されている。

図４の例では、データセットＩＤ「ＤＳ１」により識別されるデータセット（データセットＤＳ１）には、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される複数のデータ「ＤＴ１」、「ＤＴ２」、「ＤＴ３」等が含まれることを示す。なお、図４では、データを「ＤＴ１」、「ＤＴ２」、「ＤＴ３」等といった抽象的な文字列で示すが、データとしては、例えば各種整数、浮動小数点、もしくは文字列等の任意の形式の情報が登録されることとなる。

なお、図示は省略するが、学習データデータベース３１は、各データに対応するラベル（正解情報）を各データに対応付けて記憶してもよい。また、例えば、複数のデータを含むデータ群に１つのラベルを対応付けて記憶してもよい。この場合、複数のデータを含むデータ群がモデルに入力されるデータ（入力データ）に対応する。例えば、ラベルとしては、数値や文字列等の任意の形式の情報が用いられる。

なお、学習データデータベース３１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習データデータベース３１は、各データが学習処理に用いるデータ（トレーニング用データ）であるか、評価に用いるデータ（評価用データ）であるか等を特定可能に記憶してもよい。例えば、学習データデータベース３１は、各データがトレーニング用データ及び評価用データのいずれであるかを特定する情報（フラグ等）を、各データに対応付けて格納してもよい。

モデル生成用データベース３２は、学習データ以外でモデルの生成に用いられ各種の情報が記憶される。モデル生成用データベース３２には、モデルのパラメータである重みのばらつきを小さくするための３つの処理（第１処理、第２処理、第３処理）に関連する各種の情報が格納される。図５に示すモデル生成用データベース３２は、「用途」、「対象」、「処理」、「使用情報」といった項目が含まれる。

「用途」は、その情報が用いられる用途を示す。図５では、用途を「ＡＰ１」、「ＡＰ２」、「ＡＰ３」等といった抽象的な文字列で示すが、用途には各用途を識別するための識別情報（用途ＩＤ）や、各用途を具体的に示す文字列などが登録されることとなる。例えば、用途「ＡＰ１」は、第１処理に対応するデータ変換である。また、用途「ＡＰ２」は、第２処理に対応するデータ生成である。また、用途「ＡＰ３」は、第３処理に対応する学習態様である。このように、「用途」は、各情報がどのような処理のために用いられるかを示すものである。

「対象」は、処理を適用する対象を示す。「処理」は、対応する対象に対して適用する処理内容を示す。「使用情報」は、対応する処理に用いる情報や対応する処理を適用するか否か等を示す。

例えば、図５では、用途「ＡＰ１」であるデータ変換では、対象が「数値」である場合、数式ＩＮＦ１１を用いて正規化の処理が行われることを示す。なお、図５では、数式ＩＮＦ１１といった抽象的な文字列で示すが、数式ＩＮＦ１１は、後述する式（１）または式（２）等の正規化を適用するための具体的な数式（関数）である。すなわち、学習データが数値に関する項目に該当する場合、数式ＩＮＦ１１を適用して正規化されることを示す。

また、図５では、用途「ＡＰ１」であるデータ変換では、対象が「カテゴリ」である場合、モデルＩＮＦ１２を用いてエンベディング（ベクトル化）の処理が行われることを示す。なお、図５では、モデルＩＮＦ１２といった抽象的な文字列で示すが、モデルＩＮＦ１２には、図８に示すベクトル変換モデルＥＭ１に対応するネットワークに関する情報や関数等、そのモデルを構成する種々の情報が含まれる。すなわち、学習データがカテゴリに関する項目に該当する場合、モデルＩＮＦ１２を適用してエンベディング（ベクトル化）されることを示す。

また、図５では、用途「ＡＰ２」であるデータ生成では、対象「データセット」から、タイムウィンドウＩＮＦ２１を用いて、部分データを生成する処理が行われることを示す。なお、図５では、タイムウィンドウＩＮＦ２１といった抽象的な文字列で示すが、タイムウィンドウＩＮＦ２１は、１週間、１日、３時間等の所定の時間範囲を示す情報である。

また、図５では、用途「ＡＰ３」である学習態様では、対象「学習処理」において、バッチノーマライゼーションが適用（使用）されることを示す。なお、図５では、「有」といった文字列で示すが、適用（使用）しないことを示す「０」または適用（使用）することを示す「１」等の数値（フラグ）であってもよい。

なお、モデル生成用データベース３２は、上記に限らず、モデルの生成に用いる情報であれば種々のモデル情報を記憶してもよい。

図３に戻り、説明を続ける。制御部４０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部４０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。図３に示すように、制御部４０は、取得部４１、学習部４２、決定部４３、受付部４４、生成部４５、および提供部４６を有する。

取得部４１は、記憶部３０から情報を取得する。取得部４１は、モデルの学習に用いる学習データのデータセットを取得する。取得部４１は、モデルの学習に用いる学習データを取得する。例えば、取得部４１は、端末装置３から、学習データとして用いる各種のデータと、各種データに付与されるラベルを受付けると、受付けたデータとラベルとを学習データとして学習データデータベース３１に登録する。なお、取得部４１は、あらかじめ学習データデータベース３１に登録されたデータのうち、モデルの学習に用いる学習データの学習データＩＤやラベルの指摘を受付けてもよい。

学習部４２は、カテゴリに関する項目に該当する学習データをベクトルに変換するベクトル変換モデルを学習する。学習部４２は、学習処理によりベクトル変換モデルを生成する。学習部４２は、学習データが有する特徴を学習させたベクトル変換モデルを生成する。学習部４２は、ベクトル変換モデルが出力するベクトルの分布のばらつきが小さくなるようにベクトル変換モデルを生成する。

決定部４３は、学習態様を決定する。決定部４３は、モデル生成用データベース３２に格納されたバッチノーマライゼーションの適用有無の情報を基に、学習態様を決定する。

受付部４４は、利用者に対して提示した生成指標の修正を受付ける。また、受付部４４は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付ける。

生成部４５は、決定部４３による決定に応じて各種情報を生成する。また、生成部４５は、受付部４４により受け付けられた指示に応じて各種情報を生成する。例えば、生成部４５は、モデルの生成指標を生成してもよい。

生成部４５は、データセットを用いて、重みのばらつきが小さくなるようにモデルを生成する。生成部４５は、重みの標準偏差または分散が小さくなるようにモデルを生成する。

生成部４５は、学習データが、モデルの重みのばらつきが小さくなるように変換された変換後学習データを用いて、モデルを生成する。生成部４５は、学習データが正規化された変換後学習データを用いて、モデルを生成する。生成部４５は、学習データがベクトルに変換された変換後学習データを用いて、モデルを生成する。生成部４５は、学習データを変換後学習データに変換する。

生成部４５は、学習データが数値に関する項目に該当する場合、学習データを正規化して変換後学習データを生成する。生成部４５は、学習データの正規化を行う所定の変換関数を用いて、学習データが正規化された変換後学習データを生成する。生成部４５は、学習データがカテゴリに関する項目に該当する場合、学習データをベクトルに変換して変換後学習データを生成する。生成部４５は、学習データのエンベディングを行うベクトル変換モデルを用いて、学習データがベクトルに変換された変換後学習データを生成する。

生成部４５は、データセットから所定の範囲を基に生成した部分データ群を用いて、モデルを生成する。生成部４５は、各学習データが時間に対応付けられたデータセットから所定の時間範囲を示すタイムウィンドウを基に生成された部分データ群を用いて、モデルを生成する。生成部４５は、一の学習データを複数の部分データが重複して含む部分データ群を用いて、モデルを生成する。生成部４５は、部分データ群の各々に対応するデータをモデルに入力するデータとして、モデルを生成する。

生成部４５は、バッチノーマライゼーションを用いて、モデルを生成する。生成部４５は、モデルの層ごとに各層の入力を正規化するバッチノーマライゼーションを用いて、モデルを生成する。生成部４５は、モデルの生成に用いるデータを外部のモデル生成サーバ２に送信することにより、モデル生成サーバ２にモデルの学習を要求し、モデル生成サーバ２からモデル生成サーバ２が学習したモデルを受信することにより、モデルを生成する。

例えば、生成部４５は、学習データデータベース３１に登録されたデータを用いて、モデルを生成する。生成部４５は、トレーニング用データとして用いられる各データとラベルとに基づいて、モデルを生成する。生成部４５は、トレーニング用データを入力した場合にモデルが出力する出力結果と、ラベルとが一致するように学習を行うことにより、モデルを生成する。例えば、生成部４５は、トレーニング用データとして用いられる各データとラベルとをモデル生成サーバ２に送信することにより、モデル生成サーバ２にモデルを学習させることにより、モデルを生成する。

例えば、生成部４５は、学習データデータベース３１に登録されたデータを用いて、モデルの精度を測定する。生成部４５は、評価用データとして用いられる各データとラベルとに基づいて、モデルの精度を測定する。生成部４５は、評価用データを入力した場合にモデルが出力する出力結果と、ラベルとを比較した結果を収集することにより、モデルの精度を測定する。

提供部４６は、生成されたモデルを利用者に提供する。例えば、提供部４６は、生成部４５により生成されたモデルの精度が所定の閾値を超えた場合は、そのモデルとともに、モデルと対応する生成指標を端末装置３へと送信する。この結果、利用者は、モデルの評価や試用を行うとともに、生成指標の修正を行うことができる。

提供部４６は、生成部４５により生成された指標を利用者に提示する。例えば、提供部４６は、生成指標として生成されたＡｕｔｏＭＬのコンフィグファイルを端末装置３に送信する。また、提供部４６は、生成指標が生成される度に生成指標を利用者に提示してもよく、例えば、精度が所定の閾値を超えたモデルと対応する生成指標のみを利用者に提示してもよい。

〔５．情報処理装置の処理フロー〕
次に、図６を用いて、情報処理装置１０が実行する処理の手順について説明する。図６は、実施形態に係る情報処理の流れの一例を示すフローチャートである。

例えば、情報処理装置１０は、モデルの学習に用いる学習データを取得する（ステップＳ１０１）。そして、情報処理装置１０は、学習データを用いて、重みのばらつきが小さくなるように学習されたモデルを生成する（ステップＳ１０２）。

〔６．情報処理システムの処理フロー〕
次に、図７を用いて、情報処理システムに係る具体的な処理の一例について説明する。図７は、実施形態に係る情報処理システムの処理手順を示すシーケンス図である。

図７に示すように、情報処理装置１０は、学習データを取得する（ステップＳ２０１）。情報処理装置１０は、前処理を行う（ステップＳ２０２）。例えば、情報処理装置１０は、学習データを変換して、モデルに入力する変換後学習データを生成する。また、例えば、情報処理装置１０は、学習処理において、バッチノーマライゼーションを適用するか否かを決定する。

情報処理装置１０は、モデルを学習するモデル生成サーバ２へモデルの生成に用いる情報を送信する（ステップＳ２０３）。例えば、情報処理装置１０は、生成した変換後学習データや、バッチノーマライゼーションを適用するか否かを示す情報をモデル生成サーバ２へモデルの生成に用いる情報として送信する。

情報処理装置１０から情報を受信したモデル生成サーバ２は、学習処理によりモデルを生成する（ステップＳ２０４）。そして、モデル生成サーバ２は、生成したモデルを情報処理装置１０へ送信する。このように、本願でいう「モデルを生成する」ことには、自装置でモデルを学習する場合に限らず、他の装置にモデルの生成に必要な情報を提供することで、他の装置にモデルの生成し指示し、他の装置が学習したモデルを受信することを含む概念である。情報処理システム１においては、情報処理装置１０は、モデルを学習するモデル生成サーバ２へモデルの生成に用いる情報を送信し、モデル生成サーバ２が生成したモデルを取得することにより、モデルを生成する。このように、情報処理装置１０は、他の装置へモデルの生成に用いる情報を送信することによりモデルの生成を要求し、要求を受けた他の装置モデルにモデルを生成させることにより、モデルを生成する。

〔７．３つの処理について〕
ここから、モデルの重みのばらつきが小さくするための第１処理、第２処理、及び第３処理の３つの処理について説明する。なお、第１処理、第２処理、及び第３処理の３つの処理に関する情報は、上述した生成指標として用いられてもよい。すなわち、第１処理、第２処理、及び第３処理については、上述した生成指標を用いた処理として実行されてもよい。

例えば、情報処理装置１０は、第１処理で変換されたデータに関する情報を生成指標として用いてもよい。例えば、情報処理装置１０は、第１処理で変換されたデータがどのようなデータであるかを示す情報を生成指標（「第１生成指標」ともいう）として、モデル生成サーバ２に第１処理で変換されたデータとともに送信してもよい。この場合、モデル生成サーバ２は、第１処理で変換されたデータと第１生成指標とを用いて、モデルの生成を行う。

例えば、情報処理装置１０は、第２処理で決定したタイムウィンドウを示す情報を生成指標として用いてもよい。例えば、情報処理装置１０は、第２処理で決定したタイムウィンドウのサイズを生成指標（「第２生成指標」ともいう）として、モデル生成サーバ２に送信してもよい。この場合、モデル生成サーバ２は、第２生成指標が示すタイムウィンドウのサイズでデータを区切った部分データ群を用いて、モデルの生成を行う。

例えば、情報処理装置１０は、第３処理を実行するか否かを示す情報を生成指標として用いてもよい。例えば、情報処理装置１０は、第３処理を実行するか否かを示すフラグの情報を生成指標（「第３生成指標」ともいう）として、モデル生成サーバ２に送信してもよい。この場合、モデル生成サーバ２は、第３生成指標がバッチノーマライゼーションの実行を示すフラグ（の値）である場合、バッチノーマライゼーションを実行して、モデルの生成を行う。また、モデル生成サーバ２は、第３生成指標がバッチノーマライゼーションの不実行を示すフラグ（の値）である場合、バッチノーマライゼーションを実行せずに、モデルの生成を行う。

このように、第１処理、第２処理、及び第３処理の３つの処理については、上述した生成指標を用いたモデルの生成の一部として組み込まれてもよいし、上述した生成指標を用いたモデルの生成とは別に行われてもよい。

〔７－１．第１処理〕
まず、第１処理について説明する。情報処理装置１０は、モデルの重みのばらつきが小さくなるように学習データを変換する第１処理を行う。例えば、情報処理装置１０は、学習データを変換して、変換後学習データを生成する第１処理を行う。

情報処理装置１０は、データの種別に応じて、異なる変換を行うことにより第１処理を実行する。例えば、情報処理装置１０は、学習データが該当する項目が数値であるか、カテゴリであるかに応じて、異なる変換を行うことにより第１処理を実行する。

〔７－１－１．数値の場合〕
情報処理装置１０は、学習データが数値に関する項目に該当する場合、学習データを正規化する第１処理を行う。例えば、情報処理装置１０は、学習データが数値に関する項目に該当する場合、以下に示す式（１）に示すような変換関数を用いて、学習データを正規化する第１処理を行う。

ここで、上記式（１）中の左辺の「ｘ´」は、変換後学習データ（変換後の数値）を示す。また、上記式（１）中の右辺の「ｘ」は、変換前の学習データ（変換前の数値）を示す。上記式（１）中の右辺の「ｍａｘ（ｘ）」は、対応する項目に該当する学習データのうち最大値を示す。上記式（１）中の右辺の「ｍｉｎ（ｘ）」は、対応する項目に該当する学習データのうち最小値を示す。

情報処理装置１０は、式（１）に示すような変換関数を用いて、数値に関する項目に該当する学習データを０以上１以下の値に正規化する。これにより、情報処理装置１０は、数値に関する項目に該当する学習データのばらつきを抑制することができる。その結果として、情報処理装置１０は、モデルの重みのばらつきが小さくすることができ、モデルの精度を改善することができる。

また、情報処理装置１０は、上記式（１）に限らず、学習データが数値に関する項目に該当する場合、以下に示す式（２）に示すような変換関数を用いて、学習データを正規化する第１処理を行ってもよい。

上記式（１）と同様の点については説明を省略するが、上記式（２）中の右辺の「ａｖｅｒａｇｅ（ｘ）」は、対応する項目に該当する学習データの平均値を示す。なお、上記は一例に過ぎず、情報処理装置１０は、上記式（１）、式（２）に限らず、種々の情報を適宜用いて、数値に関する項目に該当する学習データを変換してもよい。

〔７－１－２．カテゴリの場合〕
情報処理装置１０は、学習データがカテゴリに関する項目に該当する場合、学習データを正規化する第１処理を行う。例えば、情報処理装置１０は、学習データがカテゴリに関する項目に該当する場合、ベクトル変換モデルを用いて、学習データをエンベディング（ベクトル化）する第１処理を行う。この場合、情報処理装置１０は、図８に示すようなベクトル変換モデルＥＭ１を用いて、学習データがベクトルに変換された変換後学習データを生成する。図８は、実施形態に係る第１処理の一例を示す図である。ベクトル変換モデルＥＭ１は、入力層ＩＮと、中間層に対応するエンベディング層ＥＬと、出力層とを含む。

例えば、ベクトル変換モデルＥＭ１は、入力層ＩＮにカテゴリに関する項目に該当する学習データが入力された場合、エンベディング層ＥＬにより特徴が抽出され、ベクトル化された学習データ（変換後学習データ）が出力層から出力される。図８中の出力データＯＴ中のエンベディングデータＥＤ１、ＥＤ２は、ベクトル変換モデルＥＭ１により第１処理が適用された後の学習データ、すなわち変換後学習データを示す。エンベディングデータＥＤ１、ＥＤ２は、Ｎ次元のベクトルデータ（変換後学習データ）を３次元空間に写像したイメージ図である。

情報処理装置１０は、ベクトル変換モデルＥＭ１を学習してもよい。この場合、情報処理装置１０は、ベクトル変換モデルＥＭ１の学習に用いるデータ（学習データ）が有する特徴を学習するように学習処理を実行する。例えば、情報処理装置１０は、ベクトル変換モデルＥＭ１が出力するベクトルの分布のばらつきが小さくなるように、ベクトル変換モデルＥＭ１を学習する。例えば、情報処理装置１０は、エンベディングデータＥＤ１に示すベクトルデータのばらつきが小さくなるように、ベクトル変換モデルＥＭ１を学習する。また、例えば、情報処理装置１０は、エンベディングデータＥＤ２に示すベクトルデータのばらつきが小さくなるように、ベクトル変換モデルＥＭ１を学習する。情報処理装置１０は、機械学習に関する種々の従来技術を適宜用いて、ベクトル変換モデルＥＭ１が出力するベクトルの分布のばらつきが小さくなるように、ベクトル変換モデルＥＭ１を学習する。

これにより、情報処理装置１０は、カテゴリに関する項目に該当する学習データのばらつきを抑制することができる。その結果として、情報処理装置１０は、モデルの重みのばらつきを小さくすることができ、モデルの精度を改善することができる。なお、上記は一例に過ぎず、情報処理装置１０は、種々の情報を適宜用いて、カテゴリに関する項目に該当する学習データを変換してもよい。

〔７－２．第２処理〕
次に、第２処理について説明する。情報処理装置１０は、モデルの重みのばらつきが小さくなるようにデータセットから所定の範囲を基に生成した部分データ群を生成する第２処理を行う。例えば、情報処理装置１０は、所定の時間範囲を示すタイムウィンドウを基に生成された部分データ群を生成する第２処理を行う。

このように、情報処理装置１０は、時間ごとに区切ったデータを用いてモデルを学習させる。この点について、図９を用いて説明する。図９は、実施形態に係る第２処理の概念を示す図である。図９中の左側のグラフは時間ごとに区切ったデータを生成する基となるデータＢＤ１を示す。例えば、データＢＤ１での横軸は時間に対応し、縦軸は例えばユーザによる所定の行動の回数等の所定の事象の発生回数を示す。データＢＤ１は、複数のデータの各々に対応する複数の線を合わせて示し、各線がモデルに入力される各データに対応する。このように、データＢＤ１では、縦軸方向のばらつきが多いデータとなる。このような場合、モデルに入力されるデータもばらつきが多くなる。

そこで、情報処理装置１０は、データＡＤ１を時間ごとに区切ってモデルに入力するデータに対応するデータを生成する。例えば、情報処理装置１０は、データＡＤ１の各データをタイムウィンドウ（例えば１２時間や１日等）ごとに区切ったデータＡＤ１を生成する。図９中の右側のグラフはタイムウィンドウで区切って生成されたデータデータＡＤ１を示す。

例えば、データＡＤ１での横軸は時間に対応し、縦軸は例えばユーザによる所定の行動の回数等の所定の事象の発生回数を示す。データＡＤ１は、タイムウィンドウで区切って生成した各データを重畳して示し、波形がモデルに入力される各データに対応する。このように、データＡＤ１では、縦軸方向のばらつきが抑制されたデータとなる。このような場合、モデルに入力されるデータのばらつきが抑制される。なお、データＡＤ１における各データには時間的な重複があってもよく、データＡＤ１における各データには重複したデータが含まれてもよい。

情報処理装置１０は、任意の時間範囲を示すタイムウィンドウによりデータを区切ってもよい。情報処理装置１０は、タイムウィンドウのサイズ、すなわち時間幅（時間範囲）の最適化を行ってもよい。例えば、情報処理装置１０は、タイムウィンドウで区切って生成されるデータに含まれるレコード数が所定の範囲になるように、タイムウィンドウを設定してもよい。例えば、情報処理装置１０は、タイムウィンドウで区切って生成される部分データ群（「区分データ」ともいう）に含まれるレコード数が１０万から２０万の範囲になるように、タイムウィンドウを設定してもよい。

上記のように、情報処理装置１０は、タイムウィンドウのサイズを決定する。情報処理装置１０は、区分データに含まれるレコード数が所定の範囲になるように、タイムウィンドウのサイズを決定する。例えば、情報処理装置１０は、過去のモデル生成において精度が高くなった区分データのレコード数の範囲（最適レコード数の範囲）の情報（レコード数情報）を用いて、タイムウィンドウのサイズを決定してもよい。情報処理装置１０は、各区分データに含まれるデータのレコード数が、レコード数情報が示す最適レコード数の範囲内になるように、タイムウィンドウのサイズを決定してもよい。

例えば、情報処理装置１０は、データの内容に応じて、タイムウィンドウのサイズを決定してもよい。例えば、情報処理装置１０は、データの種別に応じて、タイムウィンドウのサイズを決定してもよい。例えば、情報処理装置１０は、データの種別ごとにタイムウィンドウのサイズが対応付けられた情報（サイズ情報）を用いて、タイムウィンドウのサイズを決定してもよい。例えば、情報処理装置１０は、データの種別ごとに過去のモデル生成において精度が高くなったタイムウィンドウのサイズが対応付けられた情報（サイズ情報）を用いて、タイムウィンドウのサイズを決定してもよい。例えば、情報処理装置１０は、サイズ情報において、データの種別「ユーザ行動ログ」にタイムウィンドウのサイズ「１２時間」が対応付けられている場合、種別「ユーザ行動ログ」のデータを対象として、１２時間のサイズで区切り（分割し）、区分データを生成すると決定してもよい。

また、情報処理装置１０は、タイムウィンドウのサイズの最適化の際に、同時にバッチサイズと学習率の最適化も行ってもよい。これにより、情報処理装置１０は、さらにモデルの精度を向上させることができる。

〔７－３．第３処理〕
次に、第３処理について説明する。情報処理装置１０は、モデルの重みのばらつきが小さくなるようにバッチノーマライゼーションである第３処理を行う。例えば、情報処理装置１０は、モデルの層ごとに各層の入力を正規化する第３処理を行う。この点について、図１０を用いて説明する。図１０は、実施形態に係る第３処理の概念を示す図である。図１０の全体像ＢＮ１は、第３処理として行われるバッチノーマライゼーションの概要を示す。図１０中のアルゴリズムＡＬ１は、バッチノーマライゼーションに関するアルゴリズムを示す。図１０中の関数ＦＣ１は、バッチノーマライゼーションを適用するための関数を示す。図１０中の関数ＦＣ１は、以下の式（３）と同様である。

式（３）は、パラメータ「ｓｃａｌｅ」、「ｂｉａｓ」を用いて、入力（すなわち、前の層の出力）の正規化を行う関数の一例を示す。式（３）中の矢印（←）の左側が、正規化後の値を示し、式（３）中の矢印（←）の右側が、正規化前の値にパラメータ「ｓｃａｌｅ」を乗算し、パラメータ「ｂｉａｓ」を加算することにより算出される。このように、図１０の例では、パラメータ「ｓｃａｌｅ」、「ｂｉａｓ」により正規化される。具体的には、関数ＦＣ１により、正規化前の値にパラメータ「ｓｃａｌｅ」の値が乗算され、その乗算結果にパラメータ「ｂｉａｓ」の値が加算されることにより正規化される。

図１０の例では、パラメータ「ｓｃａｌｅ」、「ｂｉａｓ」の上限値及び下限値は、コードＣＤ１により規定される。パラメータ「ｓｃａｌｅ」の値は、コードＣＤ１と、関数ＦＣ２により決定される。例えば、関数ＦＣ２は、「ｓｃａｌｅ_ｍｉｎ」を下限、「ｓｃａｌｅ_ｍａｘ」を上限とする範囲の乱数を生成する関数である。

また、パラメータ「ｂｉａｓ」の値は、コードＣＤ１と、関数ＦＣ３により決定される。例えば、関数ＦＣ３は、「ｓｈｉｆｔ_ｍｉｎ」を下限、「ｓｈｉｆｔ_ｍａｘ」を上限とする範囲の乱数を生成する関数である。

図１０の例では、関数ＦＣ１を用いて第３処理が行われる。これにより、情報処理装置１０は、モデルの層ごとに各層の入力のばらつきを抑制することができる。その結果として、情報処理装置１０は、モデルの重みのばらつきが小さくすることができ、モデルの精度を改善することができる。

例えば、モデル生成サーバ２がバッチノーマライゼーションの指定を受け付けるためのＡＰＩ（Application Programming Interface）が提供されている場合、情報処理装置１０は、そのＡＰＩを用いて、モデル生成サーバ２が第３処理の実行を指示してもよい。

〔８．実験結果について〕
ここから、上述した処理を適用して生成したモデル等を用いた実験結果を示す。

〔８－１．第１の実験結果〕
まず、図１１～図１５を用いて、第１の実験結果について説明する。第１の実験結果は、ユーザの行動に応じて、お勧めの宿泊施設をレコメンドするモデル（以下「第１モデル」ともいう）を生成し、そのモデル（第１モデル）の精度を測定した場合の実験結果を示す。ここで、第１モデルは、ユーザの行動データが入力された場合、例えば数万件等の多数の対象となる宿泊施設（「対象宿泊施設」ともいう）毎のスコアを出力するモデルである。

まず、図１１を用いて実験に用いたデータを説明する。図１１は、実験に用いたデータを示す図である。図１１は、実験に用いたデータセットと時間との関係を示す。実験に用いたデータセットは、図１１中に「ＴｒｉａｌＡ」として示されるデータセットであり、データセットには各ユーザの行動データ（行動履歴）が含まれる。

図１１に示すように、データセットは、「３月２３日１４時０１分」～「４月２２日１３時２９分」までの時間範囲を有し、この中で最も古いデータ（３月２３日１４時０１分での行動データ）から、最も新しいデータ（４月２２日１３時２９分での行動データ）までが時系列順に並べられている。

図１１の例では、データセットのうち、「３月２３日１４時０１分」～「４月１８日１時２１分」の間のデータがチューニングのためのデータ（トレーニング用データ）として割り当てられている。すなわち、「３月２３日１４時０１分」～「４月１８日１時２１分」の間のデータをトレーニング用データとして、お勧めの宿泊施設をレコメンドするモデル（第１モデル）が生成されたことを示す。

また、図１１の例では、データセットのうち、「４月１８日１時２１分」～「４月２１日１６時３２分」の間のデータが評価のためのデータ（評価用データ）として割り当てられている。すなわち、「４月１８日１時２１分」～「４月２１日１６時３２分」の間のデータを評価用データとして、お勧めの宿泊施設をレコメンドするモデル（第１モデル）の評価が測定されたことを示す。

また、図１１の例では、データセットのうち、「４月２１日１６時３２分」～「４月２３日１３時２９分」の間のデータがテストのためのデータ（テスト用データ）として割り当てられている。すなわち、「４月２１日１６時３２分」～「４月２３日１３時２９分」の間のデータをテスト用データとして、お勧めの宿泊施設をレコメンドするモデル（第１モデル）のテストが行われたことを示す。

図１１に示すようなデータセットを用いた第１の実験結果を図１２に示す。図１２は、第１の実験結果の一覧を示す図である。図１２中の「オフライン指標＃１」は、モデルの精度の基準となる指標を示す。図１２中の「Ｅｖａｌ」は、評価用データを用いた場合の精度を示す。図１２中の「Ｔｅｓｔ」は、テスト用データを用いた場合の精度を示す。

また、図１２中の一覧のうち、「従来例」は、上述した第１処理、第２処理、及び第３処理のいずれも適用しなかった場合のモデルの精度を示す。また、図１２中の一覧のうち、「本手法」は、上述した第１処理及び第２処理を適用した場合のモデルの精度を示す。

図１２に示す実験結果は、オフライン指標＃１により、ユーザの行動データをモデルに入力し、対象宿泊施設のうち、そのモデルが出力したスコアの高い方から順に５件を抽出し、その５件の中にそのユーザが実際に（例えば対応するページ等のコンテンツを）閲覧した宿泊施設が含まれる割合を示す。

図１２に示すように、従来例については、評価用データを用いた場合の精度は「０．１７０４０２」となった。すなわち、評価用データを用いた従来例の実験では、ユーザの行動データを第１モデルに入力し、対象宿泊施設のうち、第１モデルが出力したスコアの高い方から順に抽出した５件の中にそのユーザが実際に閲覧した宿泊施設が１７％の割合で含まれていたことを示す。

一方で、本手法については、評価用データを用いた場合の精度は「０.１８８７９９」となった。すなわち、評価用データを用いた本手法の実験では、ユーザの行動データを第１モデルに入力し、対象宿泊施設のうち、第１モデルが出力したスコアの高い方から順に抽出した５件の中にそのユーザが実際に閲覧した宿泊施設が１８．８％の割合で含まれていたことを示す。

このように、評価用データを用いた場合の精度を比較した場合、本手法は、従来例から「１５．７％」の精度の改善（上昇）が見られた。

また、従来例については、テスト用データを用いた場合の精度は「０．１６３１９０」となった。一方で、本手法については、テスト用データを用いた場合の精度は「０．１８０３４８」となった。テスト用データを用いた場合の精度を比較した場合、本手法は、従来例から「１０．５％」の精度の改善（上昇）が見られた。

次に、実験結果に関連する点について説明する。まず、図１３を用いてステップとロス（損失）との関係を示す。図１３は、第１の実験結果に関するグラフを示す図である。図１３のグラフＲＳ１１の横軸がステップ、縦軸がロスを示す。

図１３のグラフＲＳ１１中の線ＬＮ１１～ＬＮ１３は、各値とステップとの関係を示す。線ＬＮ１１は、本手法での「Training Loss Value」（例えばトレーニング時のロス値）とステップとの関係を示す。また、線ＬＮ１２は、本手法での「Training Loss Value with EMA (Exponential Moving Average)」（例えばトレーニング時のロス値の指数平滑移動平均）とステップとの関係を示す。また、線ＬＮ１３は、本手法での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。図１３に示すように、本手法では、ロス値が略一定の値に収束している。

次に、図１４を用いてステップと精度との関係を示す。図１４は、第１の実験結果に関するグラフを示す図である。図１４のグラフＲＳ１２の横軸がステップ、縦軸が精度を示す。

図１４のグラフＲＳ１２中の線ＬＮ１４、ＬＮ１５は、各方法での精度とステップとの関係を示す。線ＬＮ１４は、従来例での精度とステップとの関係を示す。線ＬＮ１５は、本手法での精度とステップとの関係を示す。図１４に示すように、本手法の方が、従来例よりも精度が改善されている。

次に、図１５を用いてステップと重みとの関係を示す。図１５は、第１の実験結果に関するグラフを示す図である。図１５のグラフＲＳ１３、ＲＳ１４の横軸がステップ、縦軸がＬｏｇｉｔｓ（モデルの出力）を示す。また、図１５中に示す「ＷｉｎｄｏｗＳｉｚｅ：１７９０５０」は、本実験結果を得た際のタイムウィンドウを示す。「１７９０５０」がタイムウィンドウのサイズを示し、例えばこの値が大きい程、タイムウィンドウのサイズが大きくなる。例えば「ＷｉｎｄｏｗＳｉｚｅ」は、学習（Training）の際にモデルのinput（入力）にデータをfeed（フィード）するために使用するbuffer（バッファ）のSize（Shuffle Buffer Size）を示す。具体的には、「ＷｉｎｄｏｗＳｉｚｅ」は、モデルのinputにデータレコード（batch size単位）をfeedする際に行うShuffle（シャッフル）において使用するbufferを示す。例えば、ＴｅｎｓｏｒＦｌｏｗの場合、ＴｅｎｓｏｒＦｌｏｗに関する文献「https://www.tensorflow.org/api_docs/python/tf/data/Dataset#shuffle」に開示されるようなモジュールが使用される。図１５等に実験結果を示す実験においては、Shuffle BufferをWindow Bufferとして使用（流用）する。また、Window BufferのSizeは固定で、（Buffer に格納する）データレコードを時系列方向にバッチサイズ（batch size）分ずつ移動させながら、このBufferに格納し（データファイルからBufferにコピー）、Shuffleを行い、それをモデルのinputにfeedする。

図１５のグラフＲＳ１３は、従来例でのモデルの出力とステップとの関係を示す。グラフＲＳ１３中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ１３中の９個の波形は、上から順にｍａｘｉｍｕｍ（最大値）、μ＋１．５σ、μ＋σ、μ＋０．５σ、μ、μ－０．５σ、μ－σ、μ－１．５σ、ｍｉｎｉｍｕｍ（最小値）に対応する。図１５の例では、中心μが一番濃く、外側に行くに連れて色が薄くなる態様により示す。

図１５のグラフＲＳ１４は、本手法でのモデルの出力とステップとの関係を示す。グラフＲＳ１４中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ１４中の９個の波形は、グラフＲＳ１３と同様に、上から順にｍａｘｉｍｕｍ（最大値）、μ＋１．５σ、μ＋σ、μ＋０．５σ、μ、μ－０．５σ、μ－σ、μ－１．５σ、ｍｉｎｉｍｕｍ（最小値）に対応する。

図１５に示すように、従来例に比べ、本手法では、Ｌｏｇｉｔｓ（モデルの出力）のばらつきが小さくなる。そして、Ｌｏｇｉｔｓ（モデルの出力）値が小さくなると、結果的に重みの値（ＷｅｉｇｈｔＶａｌｕｅ）も小さくなるため、本手法では、重みのばらつきも小さくなる。

〔８－２．第２の実験結果〕
次に、図１６～図１９を用いて、第２の実験結果について説明する。なお、第１の実験結果と同様の点については適宜説明を省略する。第２の実験結果は、ユーザの行動に応じて、お勧めの宿泊施設をレコメンドするモデル（以下「第２モデル」ともいう）を生成し、そのモデル（第２モデル）の精度を測定した場合の実験結果を示す。ここで、第２モデルは、ユーザの行動データが入力された場合、例えば数万件等の多数の対象となる宿泊施設（対象宿泊施設）毎のスコアを出力するモデルである。例えば、第２モデルは、第１モデルと同じモデルである。

また、第２の実験結果は、モデルの精度の基準となる指標が「オフライン指標＃２」である。図１６に示す実験結果は、オフライン指標＃２により、ユーザの行動データをモデルに入力し、そのモデルが出力したスコアの高い方から順に順位を付した場合に、ユーザが実際に閲覧した宿泊施設の最高順位の逆数の平均をとったものである。すなわち、オフライン指標＃２は、モデルが出力したスコアの高い方から順に並んだ一覧において、最初に現れたユーザが実際に閲覧した宿泊施設の順位の逆数の平均をとったものである。例えば、最初に現れたユーザが実際に閲覧した宿泊施設の順位が「２」である場合、「０．５（＝１／２）」となる。

図１６は、第２の実験結果の一覧を示す図である。例えば、図１６は、図１１に示すようなデータセットを用いた第２の実験結果を示す。

図１６に示すように、従来例については、評価用データを用いた場合の精度は「０．１３８０」となった。一方で、本手法については、評価用データを用いた場合の精度は「０．１４４７０」となった。このように、評価用データを用いた場合の精度を比較した場合、本手法は、従来例から「４．９％」の精度の改善（上昇）が見られた。

また、従来例については、テスト用データを用いた場合の精度は「０．１２５５４」となった。一方で、本手法については、テスト用データを用いた場合の精度は「０．１３０１２」となった。テスト用データを用いた場合の精度を比較した場合、本手法は、従来例から「３．６％」の精度の改善（上昇）が見られた。

次に、実験結果に関連する点について説明する。まず、図１７を用いてステップとロス（損失）との関係を示す。図１７は、第２の実験結果に関するグラフを示す図である。図１７のグラフＲＳ２１の横軸がステップ、縦軸がロスを示す。

図１７のグラフＲＳ２１中の線ＬＮ２１、ＬＮ２２は、各値とステップとの関係を示す。線ＬＮ２１は、本手法での「Training Loss Value」（例えばトレーニング時のロス値）とステップとの関係を示す。また、線ＬＮ２２は、本手法での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。図１７に示すように、本手法では、ロス値が略一定の値に収束している。

次に、図１８を用いてステップと精度との関係を示す。図１８は、第２の実験結果に関するグラフを示す図である。図１８のグラフＲＳ２２の横軸がステップ、縦軸が精度を示す。

図１８のグラフＲＳ２２中の線ＬＮ２３、ＬＮ２４は、各方法での精度とステップとの関係を示す。線ＬＮ２３は、従来例での精度とステップとの関係を示す。線ＬＮ２４は、本手法での精度とステップとの関係を示す。図１８に示すように、本手法の方が、従来例よりも精度が改善されている。

次に、図１９を用いてステップと重みとの関係を示す。図１９は、第２の実験結果に関するグラフを示す図である。図１９のグラフＲＳ２３、ＲＳ２４の横軸がステップ、縦軸がＬｏｇｉｔｓ（モデルの出力）を示す。また、図１９中に示す「ＷｉｎｄｏｗＳｉｚｅ：１５８２００」は、本実験結果を得た際のタイムウィンドウを示す。

図１９のグラフＲＳ２３は、従来例でのモデルの出力とステップとの関係を示す。グラフＲＳ２３中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ２３中の９個の波形は、図１５中のグラフＲＳ１３と同様であるため、詳細な説明を省略する。また、図１９のグラフＲＳ２４は、本手法でのモデルの出力とステップとの関係を示す。グラフＲＳ２４中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ２４中の９個の波形は、図１５中のグラフＲＳ１４と同様であるため、詳細な説明を省略する。

図１９に示すように、従来例に比べ、本手法では、Ｌｏｇｉｔｓ（モデルの出力）のばらつきが小さくなる。そして、Ｌｏｇｉｔｓ（モデルの出力）値が小さくなると、結果的に重みの値（ＷｅｉｇｈｔＶａｌｕｅ）も小さくなるため、本手法では、重みのばらつきも小さくなる。

〔８－３．第３の実験結果〕
まず、図２０～図２４を用いて、第３の実験結果について説明する。なお、上述した第１の実験結果や第２の実験結果と同様の点については適宜説明を省略する。第３の実験結果は、ユーザの行動に応じて、お勧めの書籍をレコメンドするモデル（以下「第３モデル」ともいう）を生成し、そのモデル（第３モデル）の精度を測定した場合の実験結果を示す。ここで、第３モデルは、ユーザの行動データが入力された場合、例えば数万件等の多数の対象となる書籍（「対象書籍」ともいう）毎のスコアを出力するモデルである。

まず、図２０を用いて実験に用いたデータを説明する。図２０は、実験に用いたデータを示す図である。図２０は、実験に用いたデータセットと時間との関係を示す。実験に用いたデータセットは、図２０中に「ＴｒｉａｌＣ」として示されるデータセットであり、データセットには各ユーザの行動データ（行動履歴）が含まれる。

図２０に示すように、データセットは、「６月１１日０時０分」～「６月１９日０時０分」までの時間範囲を有し、この中で最も古いデータ（６月１１日０時０分での行動データ）から、最も新しいデータ（６月１９日０時０分での行動データ）までが時系列順に並べられている。

図２０の例では、データセットのうち、「６月１１日０時０分」～「６月１７日１２時０分」の間のデータがチューニングのためのデータ（トレーニング用データ）として割り当てられている。すなわち、「６月１１日０時０分」～「６月１７日１２時０分」の間のデータをトレーニング用データとして、お勧めの書籍をレコメンドするモデル（第３モデル）が生成されたことを示す。

また、図２０の例では、データセットのうち、「６月１７日１２時０分」～「６月１９日０時０分」の間のデータが評価のためのデータ（評価用データ）として割り当てられている。すなわち、「６月１７日１２時０分」～「６月１９日０時０分」の間のデータを評価用データとして、お勧めの書籍をレコメンドするモデル（第３モデル）の評価が測定されたことを示す。

図２０に示すようなデータセットを用いた第３の実験結果を図２１に示す。図２１は、第３の実験結果の一覧を示す図である。図２１中の「オフライン指標＃１」は、モデルの精度の基準となる指標を示す。

図２１に示す実験結果は、オフライン指標＃１により、ユーザの行動データをモデルに入力し、対象書籍のうち、そのモデルが出力したスコアの高い方から順に５件を抽出し、その５件の中にそのユーザが実際に（例えば対応するページ等のコンテンツを）閲覧した書籍が含まれる割合を示す。

図２１に示すように、従来例については、評価用データを用いた場合の精度は「０．１３２９４」となった。一方で、本手法については、評価用データを用いた場合の精度は「０．１５３４９」となった。このように、評価用データを用いた場合の精度を比較した場合、本手法は、従来例から「１５．５％」の精度の改善（上昇）が見られた。

次に、実験結果に関連する点について説明する。まず、図２２を用いてステップとロス（損失）との関係を示す。図２２は、第３の実験結果に関するグラフを示す図である。図２２のグラフＲＳ３１の横軸がステップ、縦軸がロスを示す。

図２２のグラフＲＳ３１中の線ＬＮ３１、ＬＮ３２は、各値とステップとの関係を示す。線ＬＮ３１は、本手法での「Training Loss Value」（例えばトレーニング時のロス値）とステップとの関係を示す。また、線ＬＮ３２は、本手法での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。図２２に示すように、本手法では、ロス値が略一定の値に収束している。

次に、図２３を用いてステップと精度との関係を示す。図２３は、第３の実験結果に関するグラフを示す図である。図２３のグラフＲＳ３２の横軸がステップ、縦軸が精度を示す。

図２３のグラフＲＳ３２中の線ＬＮ３３は、各方法での精度とステップとの関係を示す。線ＬＮ３３は、本手法での精度とステップとの関係を示す。図２３に示すように、本手法は、「０．１５３４９」まで精度が改善されている。

次に、図２４を用いてステップと重みとの関係を示す。図２４は、第３の実験結果に関するグラフを示す図である。図２４のグラフＲＳ３３、ＲＳ３４の横軸がステップ、縦軸がＬｏｇｉｔｓ（モデルの出力）を示す。また、図２４中に示す「ＷｉｎｄｏｗＳｉｚｅ：１３１２００」は、本実験結果を得た際のタイムウィンドウを示す。

図２４のグラフＲＳ３３は、従来例でのモデルの出力とステップとの関係を示す。グラフＲＳ３３中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ３３中の９個の波形は、図１５中のグラフＲＳ１３と同様であるため、詳細な説明を省略する。また、図２４のグラフＲＳ３４は、本手法でのモデルの出力とステップとの関係を示す。グラフＲＳ３４中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ３４中の９個の波形は、図１５中のグラフＲＳ１４と同様であるため、詳細な説明を省略する。

図２４に示すように、従来例に比べ、本手法では、Ｌｏｇｉｔｓ（モデルの出力）のばらつきが小さくなる。そして、Ｌｏｇｉｔｓ（モデルの出力）値が小さくなると、結果的に重みの値（ＷｅｉｇｈｔＶａｌｕｅ）も小さくなるため、本手法では、重みのばらつきも小さくなる。

〔８－４．第４の実験結果〕
まず、図２５～図２８を用いて、第４の実験結果について説明する。なお、上述した第１の実験結果、第２の実験結果、第３の実験結果と同様の点については適宜説明を省略する。第４の実験結果は、ユーザの行動に応じて、いわゆるナレッジコミュニティ等の知識検索サービスでのお勧めの情報（例えば質問が解決済みの情報）をレコメンドするモデル（以下「第４モデル」ともいう）を生成し、そのモデル（第４モデル）の精度を測定した場合の実験結果を示す。ここで、第４モデルは、ユーザの行動データが入力された場合、例えば数万件等の多数の対象となる情報（「対象情報」ともいう）毎のスコアを出力するモデルである。例えば、第４の実験結果は、図１１に示すデータセット（ＴｒｉａｌＡ）を用いて行われる。

図２５は、第４の実験結果の一覧を示す図である。図２５中の「オフライン指標＃１」は、モデルの精度の基準となる指標を示す。

図２５に示す実験結果は、オフライン指標＃１により、ユーザの行動データをモデルに入力し、対象情報のうち、そのモデルが出力したスコアの高い方から順に５件を抽出し、その５件の中にそのユーザが実際に（例えば対応するページ等のコンテンツを）閲覧した情報が含まれる割合を示す。

図２５に示すように、従来例については、評価用データを用いた場合の精度は「０．３５３３５３」となった。一方で、本手法については、評価用データを用いた場合の精度は「０．４２５９９６」となった。このように、評価用データを用いた場合の精度を比較した場合、本手法は、従来例から「２０．６％」の精度の改善（上昇）が見られた。

また、従来例については、テスト用データを用いた場合の精度は「０．３６７１７７」となった。一方で、本手法については、テスト用データを用いた場合の精度は「０．４３８９３０」となった。テスト用データを用いた場合の精度を比較した場合、本手法は、従来例から「１９．５％」の精度の改善（上昇）が見られた。

次に、実験結果に関連する点について説明する。まず、図２６を用いてステップとロス（損失）との関係を示す。図２６は、第４の実験結果に関するグラフを示す図である。図２６のグラフＲＳ４１の横軸がステップ、縦軸がロスを示す。

図２６のグラフＲＳ４１中の線ＬＮ４１～ＬＮ４４は、各値とステップとの関係を示す。線ＬＮ４１は、従来例での「Training Loss Value」（例えばトレーニング時のロス値）とステップとの関係を示す。また、線ＬＮ４２は、本手法での「Training Loss Value」（例えばトレーニング時のロス値）とステップとの関係を示す。また、線ＬＮ４３は、従来例での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。また、線ＬＮ４４は、本手法での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。図２６に示すように、本手法の方が、従来例よりもロス値が小さく抑えられている。

次に、図２７を用いてステップと精度との関係を示す。図２７は、第４の実験結果に関するグラフを示す図である。図２７のグラフＲＳ４２の横軸がステップ、縦軸が精度を示す。

図２７のグラフＲＳ４２中の線ＬＮ４５、ＬＮ４６は、各方法での精度とステップとの関係を示す。線ＬＮ４５は、従来例での精度とステップとの関係を示す。線ＬＮ４６は、本手法での精度とステップとの関係を示す。図２７に示すように、本手法の方が、従来例よりも精度が改善されている。

次に、図２８を用いてステップと重みとの関係を示す。図２８は、第４の実験結果に関するグラフを示す図である。図２８のグラフＲＳ４３、ＲＳ４４の横軸がステップ、縦軸がＬｏｇｉｔｓ（モデルの出力）を示す。また、図２８中に示す「ＷｉｎｄｏｗＳｉｚｅ：１３１２００」は、本実験結果を得た際のタイムウィンドウを示す。

図２８のグラフＲＳ４３は、従来例でのモデルの出力とステップとの関係を示す。グラフＲＳ４３中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ４３中の９個の波形は、図１５中のグラフＲＳ１３と同様であるため、詳細な説明を省略する。また、図２８のグラフＲＳ４４は、本手法でのモデルの出力とステップとの関係を示す。グラフＲＳ４４中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ４４中の９個の波形は、図１５中のグラフＲＳ１４と同様であるため、詳細な説明を省略する。

図２８に示すように、従来例に比べ、本手法では、Ｌｏｇｉｔｓ（モデルの出力）のばらつきが小さくなる。そして、Ｌｏｇｉｔｓ（モデルの出力）値が小さくなると、結果的に重みの値（ＷｅｉｇｈｔＶａｌｕｅ）も小さくなるため、本手法では、重みのばらつきも小さくなる。

〔８－５．第５の実験結果〕
まず、図２９～図３２を用いて、第５の実験結果について説明する。なお、上述した第１の実験結果、第２の実験結果、第３の実験結果、第４の実験結果と同様の点については適宜説明を省略する。第５の実験結果は、ユーザの行動に応じて、クーポンやセールなどの情報を提供するサービスでのお勧めの情報（例えばクーポン）をレコメンドするモデル（以下「第５モデル」ともいう）を生成し、そのモデル（第５モデル）の精度を測定した場合の実験結果を示す。ここで、第５モデルは、ユーザの行動データが入力された場合、例えば数万件等の多数の対象となる情報（「対象情報」ともいう）毎のスコアを出力するモデルである。例えば、第５の実験結果は、図１１に示すデータセット（ＴｒｉａｌＡ）を用いて行われる。

図２９は、第５の実験結果の一覧を示す図である。図２９中の「オフライン指標＃１」は、モデルの精度の基準となる指標を示す。

図２９に示す実験結果は、オフライン指標＃１により、ユーザの行動データをモデルに入力し、対象情報のうち、そのモデルが出力したスコアの高い方から順に５件を抽出し、その５件の中にそのユーザが実際に（例えば対応するページ等のコンテンツを）閲覧した情報が含まれる割合を示す。

図２９に示すように、従来例については、評価用データを用いた場合の精度は「０．２９８」となった。一方で、本手法については、評価用データを用いた場合の精度は「０．３２４５１６」となった。このように、評価用データを用いた場合の精度を比較した場合、本手法は、従来例から「８．９％」の精度の改善（上昇）が見られた。

また、本手法については、テスト用データを用いた場合の精度は「０．３３１０１０」となった。本手法では、テスト用データを用いた場合、評価用データを用いた場合よりも精度が上昇した。

次に、実験結果に関連する点について説明する。まず、図３０を用いてステップとロス（損失）との関係を示す。図３０は、第５の実験結果に関するグラフを示す図である。図３０のグラフＲＳ５１の横軸がステップ、縦軸がロスを示す。

図３０のグラフＲＳ５１中の線ＬＮ５１、ＬＮ５２は、各値とステップとの関係を示す。線ＬＮ５１は、従来例での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。また、線ＬＮ５２は、本手法での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。図３０に示すように、本手法の方が、従来例よりもロス値が小さく抑えられている。

次に、図３１を用いてステップと精度との関係を示す。図３１は、第５の実験結果に関するグラフを示す図である。図３１のグラフＲＳ５２の横軸がステップ、縦軸が精度を示す。

図３１のグラフＲＳ５２中の線ＬＮ５３、ＬＮ５４は、各方法での精度とステップとの関係を示す。線ＬＮ５３は、従来例での精度とステップとの関係を示す。線ＬＮ５４は、本手法での精度とステップとの関係を示す。図３１に示すように、本手法の方が、早いステップの段階で高い精度を達成すると共に、従来例よりも精度が改善されている。

次に、図３２を用いてステップと重みとの関係を示す。図３２は、第５の実験結果に関するグラフを示す図である。図３２のグラフＲＳ５３、ＲＳ５４の横軸がステップ、縦軸がＬｏｇｉｔｓ（モデルの出力）を示す。また、図３２中に示す「ＷｉｎｄｏｗＳｉｚｅ：１３１２００」は、本実験結果を得た際のタイムウィンドウを示す。

図３２のグラフＲＳ５３は、従来例でのモデルの出力とステップとの関係を示す。グラフＲＳ５３中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ５３中の９個の波形は、図１５中のグラフＲＳ１３と同様であるため、詳細な説明を省略する。また、図３２のグラフＲＳ５４は、本手法でのモデルの出力とステップとの関係を示す。グラフＲＳ５４中の波形は、モデルの出力のばらつきを、その標準偏差により示すものである。グラフＲＳ５４中の９個の波形は、図１５中のグラフＲＳ１４と同様であるため、詳細な説明を省略する。

図３２に示すように、従来例に比べ、本手法では、Ｌｏｇｉｔｓ（モデルの出力）のばらつきが小さくなる。そして、Ｌｏｇｉｔｓ（モデルの出力）値が小さくなると、結果的に重みの値（ＷｅｉｇｈｔＶａｌｕｅ）も小さくなるため、本手法では、重みのばらつきも小さくなる。

〔８－６．第６の実験結果〕
まず、図３３～図３５を用いて、第６の実験結果について説明する。なお、上述した第１の実験結果～第５の実験結果と同様の点については適宜説明を省略する。第６の実験結果は、例えばユーザの行動に応じて、初めて旅行サービスを利用するユーザを対象としてお勧めの宿泊施設をレコメンドするモデル（以下「第６モデル」ともいう）を生成し、そのモデル（第６モデル）の精度を測定した場合の実験結果を示す。ここで、第６モデルは、ユーザの行動データが入力された場合、例えば数万件等の多数の対象となる宿泊施設（「対象宿泊施設」ともいう）毎のスコアを出力するモデルである。例えば、第６の実験結果は、図１１に示すデータセット（ＴｒｉａｌＡ）を用いて行われる。

図３３は、第６の実験結果の一覧を示す図である。図３３中の「オフライン指標＃２」は、モデルの精度の基準となる指標を示す。

図３３に示す実験結果は、オフライン指標＃２により、モデルが出力したスコアの高い方から順に並んだ一覧において、最初に現れたユーザが実際に閲覧した宿泊施設の順位の逆数の平均をとった値を示す。

図３３に示すように、従来例については、評価用データを用いた場合の精度は「０．１２９５５」となった。一方で、本手法については、評価用データを用いた場合の精度は「０．１３９３３」となった。このように、評価用データを用いた場合の精度を比較した場合、本手法は、従来例から「７．５％」の精度の改善（上昇）が見られた。

また、従来例については、テスト用データを用いた場合の精度は「０．１２６５６」となった。一方で、本手法については、テスト用データを用いた場合の精度は「０．１３６４８」となった。テスト用データを用いた場合の精度を比較した場合、本手法は、従来例から「７．８％」の精度の改善（上昇）が見られた。

次に、実験結果に関連する点について説明する。まず、図３４を用いてステップとロス（損失）との関係を示す。図３４は、第６の実験結果に関するグラフを示す図である。図３４のグラフＲＳ６１の横軸がステップ、縦軸がロスを示す。

図３４のグラフＲＳ６１中の線ＬＮ６１～ＬＮ６４は、各値とステップとの関係を示す。線ＬＮ６１は、従来例での「Training Loss Value」（例えばトレーニング時のロス値）とステップとの関係を示す。また、線ＬＮ６２は、本手法での「Training Loss Value」（例えばトレーニング時のロス値）とステップとの関係を示す。また、線ＬＮ６３は、従来例での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。また、線ＬＮ６４は、本手法での「Eval Loss Value」（例えば評価時のロス値）とステップとの関係を示す。図３４に示すように、本手法の方が、従来例よりもロス値が小さく抑えられている。

次に、図３５を用いてステップと精度との関係を示す。図３５は、第６の実験結果に関するグラフを示す図である。図３５のグラフＲＳ６２の横軸がステップ、縦軸が精度を示す。

図３５のグラフＲＳ６２中の線ＬＮ６５、ＬＮ６６は、各方法での精度とステップとの関係を示す。線ＬＮ６５は、従来例での精度とステップとの関係を示す。線ＬＮ６６は、本手法での精度とステップとの関係を示す。図３５に示すように、本手法の方が、従来例よりも精度が改善されている。

〔８－７．その他の実験結果〕
なお、詳細な実験結果の提示は省略するが、バッチノーマライゼーションに関する第３処理を適用した場合、数％の精度の改善を図ることができた。

〔９．変形例〕
上記では、情報処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報処理の変形例について説明する。

〔９－１．装置構成〕
上記実施形態では、情報処理システム１に、生成指標の生成を行う情報処理装置１０、および、生成指標に従ってモデルを生成するモデル生成サーバ２を有する例について説明したが、実施形態は、これに限定されるものではない。例えば、情報処理装置１０は、モデル生成サーバ２が有する機能を有していてもよい。また、情報処理装置１０が発揮する機能は、端末装置３に内包されていてもよい。このような場合、端末装置３は、生成指標を自動的に生成するとともに、モデル生成サーバ２を用いたモデルの生成を自動的に行うこととなる。

〔９－２．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔９－３．プログラム〕
また、上述してきた実施形態に係る情報処理装置１０は、例えば図３６に示すような構成のコンピュータ１０００によって実現される。図３６は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報処理装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

〔１０．効果〕
上述したように、情報処理装置１０は、モデルの学習に用いる学習データのデータセットを取得する取得部（実施形態では取得部４１）と、データセットを用いて、重みのばらつきが小さくなるようにモデルを生成する生成部（実施形態では生成部４５）とを有する。例えば、情報処理装置１０は、データセットからモデルの重みが小さくなるように学習データ群を生成し、学習データ群を用いてモデルを生成することにより、重みのばらつきが抑制されたモデルを生成する。このように、重みのばらつきが小さくなるように生成されたモデルを用いた場合の実験結果では、モデルの精度が改善されることを示された。したがって、情報処理装置１０は、モデルの精度を改善することができる。

また、生成部は、重みの標準偏差または分散が小さくなるようにモデルを生成する。このように、重みの標準偏差または分散が小さくなるように生成されたモデルを用いた場合の実験結果では、モデルの精度が改善されることを示された。したがって、情報処理装置１０は、モデルの精度を改善することができる。

また、生成部は、学習データが、モデルの重みのばらつきが小さくなるように変換された変換後学習データを用いて、モデルを生成する。これにより、情報処理装置１０は、モデルの重みのばらつきが小さくなるように変換された変換後学習データをモデルの入力として用いることで、モデルの精度を改善することができる。

また、生成部は、学習データが正規化された変換後学習データを用いて、モデルを生成する。これにより、情報処理装置１０は、学習データが正規化された変換後学習データをモデルの入力として用いることで、モデルの精度を改善することができる。

また、生成部は、学習データがベクトルに変換された変換後学習データを用いて、モデルを生成する。これにより、情報処理装置１０は、学習データがベクトルに変換された変換後学習データをモデルの入力として用いることで、モデルの精度を改善することができる。

また、生成部は、学習データを変換後学習データに変換する。これにより、情報処理装置１０は、学習データを変換後学習データに変換することにより変換後学習データを生成し、生成した変換後学習データをモデルの入力として用いることで、モデルの精度を改善することができる。

また、生成部は、学習データが数値に関する項目に該当する場合、学習データを正規化して変換後学習データを生成する。このように、情報処理装置１０は、学習データが数値に関する項目に該当する場合、学習データを正規化して変換後学習データを生成することにより、データの種別に応じて適切にデータを変換することができる。

また、生成部は、学習データの正規化を行う所定の変換関数を用いて、学習データが正規化された変換後学習データを生成する。これにより、情報処理装置１０は、学習データの正規化を行う所定の変換関数を用いることで、データを適切に正規化することができる。

また、生成部は、学習データがカテゴリに関する項目に該当する場合、学習データをベクトルに変換して変換後学習データを生成する。これにより、情報処理装置１０は、学習データがカテゴリに関する項目に該当する場合、学習データをベクトルに変換して変換後学習データを生成することで、データの種別に応じて適切にデータを変換することができる。

また、生成部は、学習データのエンベディングを行うベクトル変換モデルを用いて、学習データがベクトルに変換された変換後学習データを生成する。これにより、情報処理装置１０は、学習データのエンベディングを行うベクトル変換モデルを用いることで、データを適切にエンベディングすることができる。

また、情報処理装置１０は、学習処理によりベクトル変換モデルを生成する学習部（実施形態では学習部４２）を有する。これにより、情報処理装置１０は、学習処理によりベクトル変換モデルを生成することで、データを適切にエンベディングするためのモデルを生成することができる。

また、学習部は、学習データが有する特徴を学習させたベクトル変換モデルを生成する。これにより、情報処理装置１０は、学習データが有する特徴を学習させたベクトル変換モデルを生成することで、データを適切にエンベディングするためのモデルを生成することができる。

また、学習部は、ベクトル変換モデルが出力するベクトルの分布のばらつきが小さくなるようにベクトル変換モデルを生成する。これにより、情報処理装置１０は、ベクトル変換モデルを用いて、ばらつきが小さい変換後学習データを生成できるため、モデルの精度を改善することができる。

また、生成部は、データセットから所定の範囲を基に生成した部分データ群を用いて、モデルを生成する。これにより、情報処理装置１０は、データセットを所定の範囲で区切ってモデルの入力を調整できるため、モデルの重みのぱらつきを小さくでき、モデルの精度を改善することができる。

また、生成部は、各学習データが時間に対応付けられたデータセットから所定の時間範囲を示すタイムウィンドウを基に生成された部分データ群を用いて、モデルを生成する。これにより、情報処理装置１０は、各学習データが時間に対応付けられたデータセットをタイムウィンドウで区切ってモデルの入力を調整できるため、モデルの重みのぱらつきを小さくでき、モデルの精度を改善することができる。

また、生成部は、一の学習データを複数の部分データが重複して含む部分データ群を用いて、モデルを生成する。これにより、情報処理装置１０は、タイムウィンドウをずらす幅をタイムウィンドウよりも短く調整できるため、よりデータの特徴を学習させることができるため、モデルの精度を改善することができる。

また、生成部は、部分データ群の各々に対応するデータをモデルに入力するデータとして、モデルを生成する。これにより、情報処理装置１０は、範囲を調整した部分データ群の各々に対応するデータをモデルに入力するデータとして用いることで、モデルの重みのぱらつきを小さくでき、モデルの精度を改善することができる。

また、生成部は、バッチノーマライゼーションを用いて、モデルを生成する。これにより、情報処理装置１０は、モデルの層間の影響を抑制することで、モデルの重みのぱらつきを小さくすることができるため、モデルの精度を改善することができる。

また、生成部は、モデルの層ごとに各層の入力を正規化するバッチノーマライゼーションを用いて、モデルを生成する。これにより、情報処理装置１０は、モデルの層ごとに各層の入力を正規化することで、モデルの重みのぱらつきを小さくすることができるため、モデルの精度を改善することができる。

また、生成部は、モデルの生成に用いるデータを外部のモデル生成サーバ（実施形態では「モデル生成サーバ２」）に送信することにより、モデル生成サーバにモデルの学習を要求し、モデル生成サーバからモデル生成サーバが学習したモデルを受信することにより、モデルを生成する。これにより、情報処理装置１０は、モデル生成サーバにモデルを学習させ、そのモデルを受信することにより、適切にモデルを生成することができる。例えば、情報処理装置１０は、モデルを生成するモデル生成サーバ２等の外部装置に変換後学習データ群を送信し、変換後学習データ群を用いて外部装置にモデルを学習させることにより、適切にモデルを生成することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、配信部は、配信手段や配信回路に読み替えることができる。

１情報処理システム
２モデル生成サーバ
３端末装置
１０情報処理装置
２０通信部
３０記憶部
４０制御部
４１取得部
４２学習部
４３決定部
４４受付部
４５生成部
４６提供部

Claims

モデルの学習に用いる学習データのデータセットを取得する取得部と、
前記データセットを用いて、重みのばらつきが小さくなるようにモデルを生成する生成部と
を有することを特徴とする情報処理装置。
前記生成部は、
前記重みの標準偏差または分散が小さくなるように前記モデルを生成する
ことを特徴とする請求項１に記載の情報処理装置。
前記生成部は、
前記学習データが、前記モデルの前記重みのばらつきが小さくなるように変換された変換後学習データを用いて、前記モデルを生成する
ことを特徴とする請求項１または請求項２に記載の情報処理装置。
前記生成部は、
前記学習データが正規化された前記変換後学習データを用いて、前記モデルを生成する
ことを特徴とする請求項３に記載の情報処理装置。
前記生成部は、
前記学習データがベクトルに変換された前記変換後学習データを用いて、前記モデルを生成する
ことを特徴とする請求項３に記載の情報処理装置。
前記生成部は、
前記学習データを前記変換後学習データに変換する
ことを特徴とする請求項３～５のうちいずれか１つに記載の情報処理装置。
前記生成部は、
前記学習データが数値に関する項目に該当する場合、前記学習データを正規化して前記変換後学習データを生成する
ことを特徴とする請求項６に記載の情報処理装置。
前記生成部は、
前記学習データの正規化を行う所定の変換関数を用いて、前記学習データが正規化された前記変換後学習データを生成する
ことを特徴とする請求項７に記載の情報処理装置。
前記生成部は、
前記学習データがカテゴリに関する項目に該当する場合、前記学習データをベクトルに変換して前記変換後学習データを生成する
ことを特徴とする請求項６～８のうちいずれか１つに記載の情報処理装置。
前記生成部は、
前記学習データのエンベディングを行うベクトル変換モデルを用いて、前記学習データがベクトルに変換された前記変換後学習データを生成する
ことを特徴とする請求項９に記載の情報処理装置。
学習処理により前記ベクトル変換モデルを生成する学習部、
を有することを特徴とする請求項１０に記載の情報処理装置。
前記学習部は、
前記学習データが有する特徴を学習させた前記ベクトル変換モデルを生成する
ことを特徴とする請求項１１に記載の情報処理装置。
前記学習部は、
前記ベクトル変換モデルが出力するベクトルの分布のばらつきが小さくなるように前記ベクトル変換モデルを生成する
ことを特徴とする請求項１２に記載の情報処理装置。
前記生成部は、
前記データセットから所定の範囲を基に生成した部分データ群を用いて、前記モデルを生成する
ことを特徴とする請求項１～１３のうちいずれか１つに記載の情報処理装置。
前記生成部は、
各学習データが時間に対応付けられた前記データセットから所定の時間範囲を示すタイムウィンドウを基に生成された前記部分データ群を用いて、前記モデルを生成する
ことを特徴とする請求項１４に記載の情報処理装置。
前記生成部は、
一の学習データを複数の部分データが重複して含む前記部分データ群を用いて、前記モデルを生成する
ことを特徴とする請求項１５に記載の情報処理装置。
前記生成部は、
前記部分データ群の各々に対応するデータをモデルに入力するデータとして、前記モデルを生成する
ことを特徴とする請求項１４～１６のうちいずれか１つに記載の情報処理装置。
前記生成部は、
バッチノーマライゼーションを用いて、前記モデルを生成する
ことを特徴とする請求項１～１７のうちいずれか１つに記載の情報処理装置。
前記生成部は、
前記モデルの層ごとに各層の入力を正規化する前記バッチノーマライゼーションを用いて、前記モデルを生成する
ことを特徴とする請求項１８に記載の情報処理装置。
前記生成部は、
前記モデルの生成に用いるデータを外部のモデル生成サーバに送信することにより、前記モデル生成サーバに前記モデルの学習を要求し、前記モデル生成サーバから前記モデル生成サーバが学習した前記モデルを受信することにより、前記モデルを生成する
ことを特徴とする請求項１～１８のうちいずれか１つに記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
モデルの学習に用いる学習データのデータセットを取得する取得工程と、
前記データセットを用いて、重みのばらつきが小さくなるようにモデルを生成する生成工程と
を含むことを特徴とする情報処理方法。
モデルの学習に用いる学習データのデータセットを取得する取得手順と、
前記データセットを用いて、重みのばらつきが小さくなるようにモデルを生成する生成手順と
をコンピュータに実行させるための情報処理プログラム。