JP7304475B1

JP7304475B1 - 情報処理方法、情報処理装置および情報処理プログラム

Info

Publication number: JP7304475B1
Application number: JP2022186943A
Authority: JP
Inventors: 慎一郎岡本
Original assignee: アクタピオ，インコーポレイテッド
Priority date: 2022-07-11
Filing date: 2022-11-22
Publication date: 2023-07-06
Anticipated expiration: 2042-11-22
Also published as: JP2024009737A; US20240012881A1

Abstract

【課題】柔軟な入力データの利用が可能なモデルを生成する情報処理方法、装置及びプログラムを提供する。【解決手段】コンピュータが実行する情報処理方法であって、第１入力層からの出力が入力される第１ブロック及び第１入力層とは異なる第２入力層からの出力が入力される第２ブロックを含む複数のブロックを有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する取得工程と、学習データを用いた学習において複数のブロックの各々へ入力されるデータに含まれる種別を選択し、複数の種別のうち、選択された種別の組み合わせが第１組み合わせである第１データを第１入力層から第１ブロックへの入力とし、選択された種別の組み合わせが第２組み合わせである第２データを第２入力層から第２ブロックへの入力としてモデルを生成する生成工程と、を含む。【選択図】図７

Description

本発明は、情報処理方法、情報処理装置および情報処理プログラムに関する。

近年、ＤＮＮ（Deep Neural Network）といったニューラルネットワーク等の各種モデルに対し、学習データが有する特徴を学習させることで、モデルを生成する技術が提案されている。また、生成したモデルは、各種の予測や分類等とった各種の推論処理に用いられる。

特開２０２１－１６８０４２公報

また、上述した技術には、モデルの生成において改善の余地がある。例えば、上述した例では、モジュール（層）を直列的に接続した構成のモデルを生成しているに過ぎず、より柔軟にモデルを生成することが望まれている。例えば、複数のブロックを有するモデルについて、より柔軟な入力データの利用が可能なモデルを生成することが望まれている。

本願に係る情報処理方法は、コンピュータが実行する情報処理方法であって、第１入力層からの出力が入力される第１ブロック、及び前記第１入力層とは異なる第２入力層からの出力が入力される第２ブロックを含む複数のブロックを有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する取得工程と、前記学習データを用いた学習において前記複数のブロックの各々へ入力されるデータに含まれる種別を選択し、前記複数の種別のうち、選択された種別の組み合わせが第１組み合わせである第１データを前記第１入力層から前記第１ブロックへの入力とし、選択された種別の組み合わせが第２組み合わせである第２データを前記第２入力層から前記第２ブロックへの入力として前記モデルを生成する生成工程と、を含むことを特徴とする。

実施形態の一態様によれば、柔軟な入力データの利用が可能なモデルを生成することができる。

実施形態に係る情報処理システムの一例を示す図である。実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。実施形態に係る情報処理装置の構成例を示す図である。実施形態に係る学習データベースに登録される情報の一例を示す図である。実施形態に係る情報処理の流れの一例を示すフローチャートである。実施形態に係る情報処理の流れの一例を示すフローチャートである。実施形態に係る情報処理の流れの一例を示すフローチャートである。実施形態に係る情報処理の流れの一例を示すフローチャートである。実施形態に係るモデルの構造の一例を示す図である。実施形態に係るモジュール例を示す図である。実施形態に係る入力の組み合わせの一例を示す図である。実施形態に係るパラメータの一例を示す図である。実施形態に係るパラメータの一例を示す図である。実施形態に係るモデルの生成処理の一例を示す図である。知見に関するグラフを示す図である。実験結果の一覧を示す図である。実験結果の一覧を示す図である。ハードウェア構成の一例を示す図である。

以下に、本願に係る情報処理方法、情報処理装置および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理方法、情報処理装置および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

［実施形態］
以下の実施形態では、最初にシステム構成等の前提について説明した後、少なくとも１つのモジュールを含むブロックを少なくとも１つ有するモデルの生成時の学習において、遺伝的アルゴリズムに基づく処理を行って、モデルを生成する処理を説明する。なお、モデルの構成要素となるブロック及びモジュールについての詳細は後述するが、例えば、ブロックは、モデルの一部（「部分モデル」ともいう）を構成するものである。また、モジュールは、例えばブロックで実現される機能を実現するための機能単位の要素である。本実施形態では、上述したモデルの生成、実験結果等を示す前に、まずモデルを生成する情報処理システム１の構成等について説明する。

〔１．情報処理システムの構成〕
まず、図１を用いて、情報処理装置の一例である情報処理装置１０を有する情報処理システムの構成について説明する。図１は、実施形態に係る情報処理システムの一例を示す図である。図１に示すように、情報処理システム１は、情報処理装置１０、モデル生成サーバ２、および端末装置３を有する。なお、情報処理システム１は、複数のモデル生成サーバ２や複数の端末装置３を有していてもよい。また、情報処理装置１０と、モデル生成サーバ２とは、同一のサーバ装置やクラウドシステム等により実現されてもよい。ここで、情報処理装置１０、モデル生成サーバ２、および端末装置３は、ネットワークＮ（例えば、図３参照）を介して有線または無線により通信可能に接続される。

情報処理装置１０は、モデルの生成における指標（すなわち、モデルのレシピ）である生成指標を生成する指標生成処理と、生成指標に従ってモデルを生成するモデル生成処理とを実行し、生成した生成指標およびモデルを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。

モデル生成サーバ２は、学習データが有する特徴を学習させたモデルを生成する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、モデル生成サーバ２は、モデルの生成指標として、生成するモデルの種別や行動、どのように学習データの特徴を学習させるかといったコンフィグファイルを受付けると、受付けたコンフィグファイルに従って、モデルの自動生成を行う。なお、モデル生成サーバ２は、任意のモデル学習手法を用いて、モデルの学習を行ってもよい。また、例えば、モデル生成サーバ２は、ＡｕｔｏＭＬ（Automated Machine Learning）といった各種既存のサービスであってもよい。

端末装置３は、利用者Ｕによって利用される端末装置であり、例えば、ＰＣ（Personal Computer）やサーバ装置等により実現される。例えば、端末装置３は、情報処理装置１０とのやり取りを介して、モデルの生成指標を生成させ、生成させた生成指標に従ってモデル生成サーバ２が生成したモデルを取得する。

〔２．情報処理装置１０が実行する処理の概要〕
まず、情報処理装置１０が実行する処理の概要について説明する。まず、情報処理装置１０は、端末装置３からモデルに特徴を学習させる学習データの指摘を受付ける（ステップＳ１）。例えば、情報処理装置１０は、学習に用いる各種の学習データを所定の記憶装置に記憶させており、利用者Ｕが学習データに指定する学習データの指摘を受付ける。なお、情報処理装置１０は、例えば、端末装置３や各種外部のサーバから、学習に用いる学習データを取得してもよい。

ここで、学習データとは、任意のデータが採用可能である。例えば、情報処理装置１０は、各利用者の位置の履歴や各利用者が閲覧したウェブコンテンツの履歴、各利用者による購買履歴や検索クエリの履歴等、利用者に関する各種の情報を学習データとしてもよい。また、情報処理装置１０は、利用者のデモグラフィック属性やサイコグラフィック属性等を学習データとしてもよい。また、情報処理装置１０は、配信対象となる各種ウェブコンテンツの種別や内容、作成者等のメタデータ等を学習データとしてもよい。

このような場合、情報処理装置１０は、学習に用いる学習データの統計的な情報に基づいて、生成指標の候補を生成する（ステップＳ２）。例えば、情報処理装置１０は、学習データに含まれる値の特徴等に基づいて、どのようなモデルに対し、どのような学習手法により学習を行えばよいかを示す生成指標の候補を生成する。換言すると、情報処理装置１０は、学習データの特徴を精度よく学習可能なモデルやモデルに精度よく特徴を学習させるための学習手法を生成指標として生成する。すなわち、情報処理装置１０は、学習手法の最適化を行う。なお、どのような学習データが選択された場合に、どのような内容の生成指標を生成するかについては、後述する。

続いて、情報処理装置１０は、生成指標の候補を端末装置３に対して提供する（ステップＳ３）。このような場合、利用者Ｕは、生成指標の候補を嗜好や経験則等に応じて修正する（ステップＳ４）。そして、情報処理装置１０は、各生成指標の候補と学習データとをモデル生成サーバ２に提供する（ステップＳ５）。

一方、モデル生成サーバ２は、生成指標ごとに、モデルの生成を行う（ステップＳ６）。例えば、モデル生成サーバ２は、生成指標が示す構造を有するモデルに対し、生成指標が示す学習手法により学習データが有する特徴を学習させる。そして、モデル生成サーバ２は、生成したモデルを情報処理装置１０に提供する（ステップＳ７）。

ここで、モデル生成サーバ２によって生成された各モデルは、それぞれ生成指標の違いに由来する精度の違いが生じると考えられる。そこで、情報処理装置１０は、各モデルの精度に基づいて、遺伝的アルゴリズムにより新たな生成指標を生成し（ステップＳ８）、新たに生成した生成指標を用いたモデルの生成を繰り返し実行する（ステップＳ９）。

例えば、情報処理装置１０は、学習データを評価用データと学習用データとに分割し、学習用データが有する特徴を学習させたモデルであって、それぞれ異なる生成指標に従って生成された複数のモデルを取得する。例えば、情報処理装置１０は、１０個の生成指標を生成し、生成した１０個の生成指標と、学習用データとを用いて、１０個のモデルを生成する。このような場合、情報処理装置１０は、評価用データを用いて、１０個のモデルそれぞれの精度を測定する。

続いて、情報処理装置１０は、１０個のモデルのうち、精度が高い方から順に所定の数のモデル（例えば、５個）を選択する。そして、情報処理装置１０は、選択した５個のモデルを生成した際に採用された生成指標から、新たな生成指標を生成する。例えば、情報処理装置１０は、各生成指標を遺伝的アルゴリズムの個体と見做し、各生成指標が示すモデルの種別、モデルの構造、各種の学習手法（すなわち、生成指標が示す各種の指標）を遺伝的アルゴリズムにおける遺伝子と見做す。そして、情報処理装置１０は、遺伝子の交叉を行う個体の選択および遺伝子の交叉を行うことで、次世代の生成指標を１０個新たに生成する。なお、情報処理装置１０は、遺伝子の交叉を行う際に、突然変異を考慮してもよい。また、情報処理装置１０は、二点交叉、多点交叉、一様交叉、交叉対象となる遺伝子のランダムな選択を行ってもよい。また、情報処理装置１０は、例えば、モデルの精度が高い個体の遺伝子程、次世代の個体に引き継がれるように、交叉を行う際の交叉率を調整してもよい。

また、情報処理装置１０は、次世代の生成指標を用いて、再度新たな１０個のモデルを生成する。そして、情報処理装置１０は、新たな１０個のモデルの精度に基づいて、上述した遺伝的アルゴリズムによる新たな生成指標の生成を行う。このような処理を繰り返し実行することで、情報処理装置１０は、生成指標を学習データの特徴に応じた生成指標、すなわち、最適化された生成指標へと近づけることができる。

また、情報処理装置１０は、所定の回数新たな生成指標を生成した場合や、モデルの精度の最大値、平均値、若しくは最低値が所定の閾値を超えた場合等、所定の条件が満たされた場合は、最も精度が高いモデルを提供対象として選択する。そして、情報処理装置１０は、選択したモデルと共に、対応する生成指標を端末装置３に提供する（ステップＳ１０）。このような処理の結果、情報処理装置１０は、利用者から学習データを選択するだけで、適切なモデルの生成指標を生成するとともに、生成した生成指標に従うモデルを提供することができる。

なお、上述した例では、情報処理装置１０は、遺伝的アルゴリズムを用いて生成指標の段階的な最適化を実現したが、実施形態は、これに限定されるものではない。後述する説明で明らかとなるように、モデルの精度は、モデルの種別や構造といったモデルそのものの特徴のみならず、どのような学習データをどのようにモデルに入力するのか、どのようなハイパーパラメータを用いてモデルの学習を行うのかというように、モデルを生成する際（すなわち、学習データの特徴を学習させる際）の指標に応じて大きく変化する。

そこで、情報処理装置１０は、学習データに応じて、最適と推定される生成指標を生成するのであれば、遺伝的アルゴリズムを用いた最適化を行わずともよい。例えば、情報処理装置１０は、学習データが、経験則に応じて生成された各種の条件を満たすか否かに応じて生成した生成指標を利用者に提示するとともに、提示した生成指標に従ったモデルの生成を行ってもよい。また、情報処理装置１０は、提示した生成指標の修正を受付けると、受付けた修正後の生成指標に従ってモデルの生成を行い、生成したモデルの精度等を利用者に対して提示し、再度生成指標の修正を受付けてもよい。すなわち、情報処理装置１０は、利用者Ｕに最適な生成指標を試行錯誤させてもよい。

〔３．生成指標の生成について〕
以下、どのような学習データに対して、どのような生成指標を生成するかの一例について説明する。なお、以下の例は、あくまで一例であり、学習データが有する特徴に応じて生成指標を生成するのであれば、任意の処理が採用可能である。

〔３－１．生成指標について〕
まず、生成指標が示す情報の一例について説明する。例えば、学習データが有する特徴をモデルに学習させる場合、学習データをモデルに入力する際の態様、モデルの態様、およびモデルの学習態様（すなわち、ハイパーパラメータが示す特徴）が最終的に得られるモデルの精度に寄与すると考えられる。そこで、情報処理装置１０は、学習データの特徴に応じて、各態様を最適化した生成指標を生成することで、モデルの精度を向上させる。

例えば、学習データには、様々なラベルが付与されたデータ、すなわち、様々な特徴を示すデータが存在すると考えられる。しかしながら、データを分類する際に有用ではない特徴を示すデータを学習データとした場合、最終的に得られるモデルの精度は、悪化する恐れがある。そこで、情報処理装置１０は、学習データをモデルに入力する際の態様として、入力する学習データが有する特徴を決定する。例えば、情報処理装置１０は、学習データのうち、どのラベルが付与されたデータ（すなわち、どの特徴を示すデータ）を入力するかを決定する。換言すると、情報処理装置１０は、入力する特徴の組み合わせを最適化する。

また、学習データには、数値のみのデータや文字列が含まれるデータ等、各種形式のカラムが含まれていると考えられる。このような学習データをモデルに入力する際に、そのまま入力した場合と、他の形式のデータに変換した場合とで、モデルの精度が変化するとも考えられる。例えば、複数種別の学習データ（それぞれ異なる特徴を示す学習データ）であって、文字列の学習データと数値の学習データとを入力する際に、文字列と数値とをそのまま入力した場合と、文字列を数値に変換して数値のみを入力した場合と、数値を文字列と見做して入力した場合とでは、それぞれモデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルに入力する学習データの形式を決定する。例えば、情報処理装置１０は、モデルに入力する学習データを数値とするか、文字列とするかを決定する。換言すると、情報処理装置１０は、入力する特徴のカラムタイプを最適化する。

また、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせを同時に入力するかによって、モデルの精度が変化すると考えられる。すなわち、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせの特徴（すなわち、複数の特徴の組み合わせの関係性）を学習させるかにより、モデルの精度が変化すると考えられる。例えば、第１特徴（例えば、性別）を示す学習データと、第２特徴（例えば、住所）を示す学習データと、第３特徴（例えば、購買履歴）を示す学習データとが存在する場合、第１特徴を示す学習データと第２特徴を示す学習データとを同時に入力した場合と、第１特徴を示す学習データと第３特徴を示す学習データとを同時に入力した場合とでは、モデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルに関係性を学習させる特徴の組み合わせ（クロスフューチャー）を最適化する。

ここで、各種のモデルは、入力データを所定の超平面により分割された所定次元の空間内に投影し、投影した位置が分割された空間のうちいずれの空間に属するかに応じて、入力データの分類を行うこととなる。このため、入力データを投影する空間の次元数が最適な次元数よりも低い場合は、入力データの分類能力が劣化する結果、モデルの精度が悪化する。また、入力データを投影する空間の次元数が最適な次元数よりも高い場合は、超平面との内積値が変化する結果、学習時に用いたデータとは異なるデータを適切に分類することができなくなる恐れがある。そこで、情報処理装置１０は、モデルに入力する入力データの次元数を最適化する。例えば、情報処理装置１０は、モデルが有する入力層のノードの数を制御することで、入力データの次元数を最適化する。換言すると、情報処理装置１０は、入力データの埋め込みを行う空間の次元数を最適化する。

また、モデルには、ＳＶＭに加え、複数の中間層（隠れ層）を有するニューラルネットワーク等が存在する。また、このようなニューラルネットワークには、入力層から出力層まで一方方向に情報が伝達されるフィードフォワード型のＤＮＮ、中間層で情報の畳み込みを行う畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Networks）、有向閉路を有する回帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、ボルツマンマシン等、各種のニューラルネットワークが知られている。また、このような各種ニューラルネットワークには、ＬＳＴＭ（Long short-term memory）やその他各種のニューラルネットワークが含まれている。

このように、学習データの各種特徴を学習するモデルの種別が異なる場合、モデルの精度は変化すると考えられる。そこで、情報処理装置１０は、学習データの特徴を精度良く学習すると推定されるモデルの種別を選択する。例えば、情報処理装置１０は、学習データのラベルとしてどのようなラベルが付与されているかに応じて、モデルの種別を選択する。より具体的な例を挙げると、情報処理装置１０は、ラベルとして「履歴」に関連する用語が付されたデータが存在する場合は、履歴の特徴をより良く学習することができると考えられるＲＮＮを選択し、ラベルとして「画像」に関連する用語が付されたデータが存在する場合は、画像の特徴をより良く学習することができると考えられるＣＮＮを選択する。これら以外にも、情報処理装置１０は、ラベルがあらかじめ指定された用語若しくは用語と類似する用語であるか否かを判定し、同一若しくは類似すると判定された用語と予め対応付けられた種別のモデルを選択すればよい。

また、モデルの中間層の数や１つの中間層に含まれるノードの数が変化した場合、モデルの学習精度が変化すると考えられる。例えば、モデルの中間層の数が多い場合（モデルが深い場合）、より抽象的な特徴に応じた分類を実現することができると考えられる一方で、バックプロパゲーションにおける局所誤差が入力層まで伝播しづらくなる結果、学習が適切に行えなくなる恐れがある。また、中間層に含まれるノードの数が少ない場合は、より高度が抽象化を行うことができるものの、ノードの数が少なすぎる場合は、分類に必要な情報が欠損する可能性が高い。そこで、情報処理装置１０は、中間層の数や中間層に含まれるノードの数の最適化を行う。すなわち、情報処理装置１０は、モデルのアーキテクチャの最適化を行う。

また、アテンションの有無やモデルに含まれるノードに自己回帰がある場合とない場合、どのノード間を接続するのかに応じて、ノードの精度が変化すると考えられる。そこで、情報処理装置１０は、自己回帰を有するか否か、どのノード間を接続するのかといったネットワークの最適化を行う。

また、モデルの学習を行う場合、モデルの最適化手法（学習時に用いるアルゴリズム）やドロップアウト率、ノードの活性化関数やユニット数等がハイパーパラメータとして設定される。このようなハイパーパラメータが変化した場合にも、モデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルを学習する際の学習態様、すなわち、ハイパーパラメータの最適化を行う。

また、モデルのサイズ（入力層、中間層、出力層の数やノード数）が変化した場合も、モデルの精度が変化する。そこで、情報処理装置１０は、モデルのサイズの最適化についても行う。

このように、情報処理装置１０は、上述した各種モデルを生成する際の指標について最適化を行う。例えば、情報処理装置１０は、各指標に対応する条件を予め保持しておく。なお、このような条件は、例えば、過去の学習モデルから生成された各種モデルの精度等の経験則により設定される。そして、情報処理装置１０は、学習データが各条件を満たすか否かを判定し、学習データが満たす若しくは満たさない条件に予め対応付けられた指標を生成指標（若しくはその候補）として採用する。この結果、情報処理装置１０は、学習データが有する特徴を精度良く学習可能な生成指標を生成することができる。

なお、上述したように、学習データから自動的に生成指標を生成し、生成指標に従ってモデルを作成する処理を自動的に行った場合、利用者は、学習データの内部を参照し、どのような分布のデータが存在するかといった判断を行わずともよい。この結果、情報処理装置１０は、例えば、モデルの作成に伴ってデータサイエンティスト等が学習データの認識を行う手間を削減するとともに、学習データの認識に伴うプライバシーの毀損を防ぐことができる。

〔３－２．データ種別に応じた生成指標〕
以下、生成指標を生成するための条件の一例について説明する。まず、学習データとしてどのようなデータが採用されているかに応じた条件の一例について説明する。

例えば、学習に用いられる学習データには、整数、浮動小数点、若しくは文字列等がデータとして含まれている。このため、入力されるデータの形式に対して適切なモデルを選択した場合は、モデルの学習精度がより高くなると推定される。そこで、情報処理装置１０は、学習データが整数であるか、浮動小数点であるか、若しくは文字列であるかに基いて、生成指標を生成する。

例えば、学習データが整数である場合、情報処理装置１０は、学習データの連続性に基いて、生成指標を生成する。例えば、情報処理装置１０は、学習データの密度が所定の第１閾値を超える場合、当該学習データが連続性を有するデータであると見做し、学習データの最大値が所定の第２閾値を上回るか否かに基いて生成指標を生成する。また、情報処理装置１０は、学習データの密度が所定の第１閾値を下回る場合、当該学習データがスパースな学習データであると見做し、学習データに含まれるユニークな値の数が所定の第３閾値を上回るか否かに基いて生成指標を生成する。

より具体的な例を説明する。なお、以下の例においては、生成指標として、ＡｕｔｏＭＬによりモデルを自動的に生成するモデル生成サーバ２に対して送信するコンフィグファイルのうち、特徴関数（feature function）を選択する処理の一例について説明する。例えば、情報処理装置１０は、学習データが整数である場合、その密度が所定の第１閾値を超えるか否かを判定する。例えば、情報処理装置１０は、学習データに含まれる値のうちユニークな値の数を、学習データの最大値に１を加算した値で除算した値を密度として算出する。

続いて、情報処理装置１０は、密度が所定の第１閾値を超える場合は、学習データが連続性を有する学習データであると判定し、学習データの最大値に１を加算した値が第２閾値を上回るか否かを判定する。そして、情報処理装置１０は、学習データの最大値に１を加算した値が第２閾値を上回る場合は、特徴関数として「Categorical_colum_with_identity & embedding_column」を選択する。一方、情報処理装置１０は、学習データの最大値に１を加算した値が第２閾値を下回る場合は、特徴関数として「Categorical_column_with_identity」を選択する。

一方、情報処理装置１０は、密度が所定の第１閾値を下回る場合は、学習データがスパースであると判定し、学習データに含まれるユニークな値の数が所定の第３閾値を超えるか否かを判定する。そして、情報処理装置１０は、学習データに含まれるユニークな値の数が所定の第３閾値を超える場合は、特徴関数として「Categorical_column_with_hash_bucket & embedding_column」を選択し、学習データに含まれるユニークな値の数が所定の第３閾値を下回る場合は、特徴関数として「Categorical_column_with_hash_bucket」を選択する。

また、情報処理装置１０は、学習データが文字列である場合、学習データに含まれる文字列の種別の数に基いて、生成指標を生成する。例えば、情報処理装置１０は、学習データに含まれるユニークな文字列の数（ユニークなデータの数）を計数し、計数した数が所定の第４閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_list」若しくは／および「categorical_column_with_vocabulary_file」を選択する。また、情報処理装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_file & embedding_column」を選択する。また、情報処理装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を上回る場合は、特徴関数として「categorical_column_with_hash_bucket & embedding_column」を選択する。

また、情報処理装置１０は、学習データが浮動小数点である場合、モデルの生成指標として、学習データをモデルに入力する入力データへの変換指標を生成する。例えば、情報処理装置１０は、特徴関数として「bucketized_column」もしくは「numeric_colum」を選択する。すなわち、情報処理装置１０は、学習データをバケタイズ（グルーピング）し、バケットの番号を入力とするか、数値をそのまま入力するかを選択する。なお、情報処理装置１０は、例えば、各バケットに対して対応付けられる数値の範囲が同程度となるように、学習データのバケタイズを行ってもよく、例えば、各バケットに分類される学習データの数が同程度となるように、各バケットに対して数値の範囲を対応付けてもよい。また、情報処理装置１０は、バケットの数やバケットに対して対応付けられる数値の範囲を生成指標として選択してもよい。

また、情報処理装置１０は、複数の特徴を示す学習データを取得し、モデルの生成指標として、学習データが有する特徴のうちモデルに学習させる特徴を示す生成指標を生成する。例えば、情報処理装置１０は、どのラベルの学習データをモデルに入力するかを決定し、決定したラベルを示す生成指標を生成する。また、情報処理装置１０は、モデルの生成指標として、学習データの種別のうちモデルに対して相関を学習させる複数の種別を示す生成指標を生成する。例えば、情報処理装置１０は、モデルに対して同時に入力するラベルの組み合わせを決定し、決定した組み合わせを示す生成指標を生成する。

また、情報処理装置１０は、モデルの生成指標として、モデルに入力される学習データの次元数を示す生成指標を生成する。例えば、情報処理装置１０は、学習データに含まれるユニークなデータの数やモデルに入力するラベルの数、モデルに入力するラベルの数の組み合わせ、バケットの数等に応じて、モデルの入力層におけるノードの数を決定してもよい。

また、情報処理装置１０は、モデルの生成指標として、学習データの特徴を学習させるモデルの種別を示す生成指標を生成する。例えば、情報処理装置１０は、過去に学習対象とした学習データの密度やスパース具合、ラベルの内容、ラベルの数、ラベルの組み合わせの数等に応じて、生成するモデルの種別を決定し、決定した種別を示す生成指標を生成する。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおけるモデルのクラスとして「BaselineClassifier」、「LinearClassifier」、「DNNClassifier」、「DNNLinearCombinedClassifier」、「BoostedTreesClassifier」、「AdaNetClassifier」、「RNNClassifier」、「DNNResNetClassifier」、「AutoIntClassifier」等を示す生成指標を生成する。

なお、情報処理装置１０は、これら各クラスのモデルの各種独立変数を示す生成指標を生成してもよい。例えば、情報処理装置１０は、モデルの生成指標として、モデルが有する中間層の数若しくは各層に含まれるノードの数を示す生成指標を生成してもよい。また、情報処理装置１０は、モデルの生成指標として、モデルが有するノード間の接続態様を示す生成指標やモデルの大きさを示す生成指標を生成してもよい。これらの独立変数は、学習データが有する各種の統計的な特徴が所定の条件を満たすか否かに応じて、適宜選択されることとなる。

また、情報処理装置１０は、モデルの生成指標として、学習データが有する特徴をモデルに学習させる際の学習態様、すなわち、ハイパーパラメータを示す生成指標を生成してもよい。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおける学習態様の設定において、「stop_if_no_decrease_hook」、「stop_if_no_increase_hook」、「stop_if_higher_hook」、もしくは「stop_if_lower_hook」を示す生成指標を生成してもよい。

すなわち、情報処理装置１０は、学習に用いる学習データのラベルやデータそのものの特徴に基づいて、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を示す生成指標を生成する。より具体的には、情報処理装置１０は、ＡｕｔｏＭＬにおけるモデルの生成を制御するためのコンフィグファイルを生成する。

〔３－３．生成指標を決定する順序について〕
ここで、情報処理装置１０は、上述した各種の指標の最適化を同時並行的に行ってもよく、適宜順序だてて実行してもよい。また、情報処理装置１０は、各指標を最適化する順序を変更可能としてもよい。すなわち、情報処理装置１０は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付け、受け付けた順序で、各指標を決定してもよい。

例えば、情報処理装置１０は、生成指標の生成を開始した場合、入力する学習データの特徴や、どのような態様で学習データを入力するかといった入力素性の最適化を行い、続いて、どの特徴の組み合わせの特徴を学習させるかという入力クロス素性の最適化を行う。続いて、情報処理装置１０は、モデルの選択を行うとともに、モデル構造の最適化を行う。その後、情報処理装置１０は、ハイパーパラメータの最適化を行い、生成指標の生成を終了する。

ここで、情報処理装置１０は、入力素性最適化において、入力する学習データの特徴や入力態様といった各種入力素性の選択や修正、遺伝的アルゴリズムを用いた新たな入力素性の選択を行うことで、入力素性を繰り返し最適化してもよい。同様に、情報処理装置１０は、入力クロス素性最適化において、入力クロス素性を繰り返し最適化してもよく、モデル選択およびモデル構造の最適化を繰り返し実行してもよい。また、情報処理装置１０は、ハイパーパラメータの最適化を繰り返し実行してもよい。また、情報処理装置１０は、入力素性最適化、入力クロス素性最適化、モデル選択、モデル構造最適化、およびハイパーパラメータの最適化という一連の処理を繰り返し実行し、各指標の最適化を行ってもよい。

また、情報処理装置１０は、例えば、ハイパーパラメータの最適化を行ってから、モデル選択やモデル構造最適化を行ってもよく、モデル選択やモデル構造最適化の後に、入力素性の最適化や入力クロス素性の最適化を行ってもよい。また、情報処理装置１０は、例えば、入力素性最適化を繰り返し実行し、その後入力クロス素性最適化を繰り返し行う。その後、情報処理装置１０は、入力素性最適化と入力クロス素性最適化を繰り返し実行してもよい。このように、どの指標をどの順番で最適化するか、最適化においてどの最適化処理を繰り返し実行するかについては、任意の設定が採用可能となる。

〔３－４．情報処理装置が実現するモデル生成の流れについて〕
続いて、図２を用いて、情報処理装置１０を用いたモデル生成の流れの一例について説明する。図２は、実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。例えば、情報処理装置１０は、学習データと各学習データのラベルとを受付ける。なお、情報処理装置１０は、学習データの指定と共に、ラベルを受付けてもよい。

このような場合、情報処理装置１０は、データの分析を行い、分析結果に応じたデータ分割を行う。例えば、情報処理装置１０は、学習データを、モデルの学習に用いるトレーニング用データと、モデルの評価（すなわち、精度の測定）に用いる評価用データとに分割する。なお、情報処理装置１０は、各種テスト用のデータをさらに分割してもよい。なお、このような学習データをトレーニング用データと評価用データとに分割する処理は、各種任意の公知技術が採用可能である。

また、情報処理装置１０は、学習データを用いて、上述した各種の生成指標を生成する。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおいて生成されるモデルやモデルの学習を定義するコンフィグファイルを生成する。このようなコンフィグファイルにおいては、ＡｕｔｏＭＬで用いられる各種の関数がそのまま生成指標を示す情報として格納されることとなる。そして、情報処理装置１０は、トレーニング用データと生成指標とをモデル生成サーバ２に提供することで、モデルの生成を行う。

ここで、情報処理装置１０は、利用者によるモデルの評価と、モデルの自動生成とを繰り返し行うことで、生成指標の最適化、ひいてはモデルの最適化を実現してもよい。例えば、情報処理装置１０は、入力する特徴の最適化（入力素性や入力クロス素性の最適化）、ハイパーパラメータの最適化、および生成するモデルの最適化を行い、最適化された生成指標に従って自動でのモデル生成を行う。そして、情報処理装置１０は、生成したモデルを利用者に提供する。

一方、利用者は、自動生成されたモデルのトレーニングや評価、テストを行い、モデルの分析や提供を行う。そして、利用者は、生成された生成指標を修正することで、再度新たなモデルを自動生成させ、評価やテスト等を行う。このような処理を繰り返し実行することで、複雑な処理を実行することなく、試行錯誤しながらモデルの精度を向上させる処理を実現することができる。

〔４．情報処理装置の構成〕
次に、図３を用いて、実施形態に係る情報処理装置１０の機能構成の一例について説明する。図３は、実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、情報処理装置１０は、通信部２０と、記憶部３０と、制御部４０とを有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１は、ネットワークＮと有線または無線で接続され、モデル生成サーバ２や端末装置３との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１およびモデル生成用データベース３２を有する。

学習データデータベース３１は、学習に用いるデータに関する各種情報を記憶する。学習データデータベース３１には、モデルの学習に用いる学習データのデータセットが格納される。図４は、実施形態に係る学習データベースに登録される情報の一例を示す図である。図４の例では、学習データデータベース３１は、「データセットＩＤ」、「データＩＤ」、「データ」といった項目が含まれる。

「データセットＩＤ」は、データセットを識別するための識別情報を示す。「データＩＤ」は、各データを識別するための識別情報を示す。また、「データ」は、データＩＤにより識別されるデータを示す。例えば、図４の例では、各学習データを識別するデータＩＤに対して、対応するデータ（学習データ）が対応付けられて登録されている。

図４の例では、データセットＩＤ「ＤＳ１」により識別されるデータセット（データセットＤＳ１）には、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される複数のデータ「ＤＴ１」、「ＤＴ２」、「ＤＴ３」等が含まれることを示す。なお、図４では、データを「ＤＴ１」、「ＤＴ２」、「ＤＴ３」等といった抽象的な文字列で示すが、データとしては、例えば各種整数、浮動小数点、もしくは文字列等の任意の形式の情報が登録されることとなる。

なお、図示は省略するが、学習データデータベース３１は、各データに対応するラベル（正解情報）を各データに対応付けて記憶してもよい。また、例えば、複数のデータを含むデータ群に１つのラベルを対応付けて記憶してもよい。この場合、複数のデータを含むデータ群がモデルに入力されるデータ（入力データ）に対応する。例えば、ラベルとしては、数値や文字列等の任意の形式の情報が用いられる。

なお、学習データデータベース３１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習データデータベース３１は、各データが学習処理に用いるデータ（トレーニング用データ）であるか、評価に用いるデータ（評価用データ）であるか等を特定可能に記憶してもよい。例えば、学習データデータベース３１は、各データがトレーニング用データ及び評価用データのいずれであるかを特定する情報（フラグ等）を、各データに対応付けて格納してもよい。

モデル生成用データベース３２は、学習データ以外でモデルの生成に用いられ各種の情報が記憶される。モデル生成用データベース３２には、生成するモデルに関する各種の情報が格納される。例えば、モデル生成用データベース３２には、遺伝的アルゴリズムに基づきモデルを生成するために用いる情報が格納される。例えば、モデル生成用データベース３２には、遺伝的アルゴリズムに基づいて、その後の処理に継承する種別の組み合わせの数を指定する情報が格納される。

例えば、モデル生成用データベース３２には、生成するモデルに関する各種のパラメータ等の設定値が格納される。モデル生成用データベース３２には、モデルのサイズの上限値（「サイズ上限値」ともいう）が格納される。モデル生成用データベース３２には、生成するモデルに含まれるブロック（部分モデル）の数、及び各ブロックに関する情報等、モデルの構造を示す情報が記憶される。モデル生成用データベース３２には、ブロックの構成要素として用いられるモジュールに関する情報が記憶される。

モデル生成用データベース３２には、各モジュールがどのような処理を行うものであるかを示す情報、各モジュールを構成する要素に関する情報等が記憶される。モデル生成用データベース３２には、各モジュールを構成する処理に関する各種情報が記憶される。モデル生成用データベース３２には、ノーマライゼーション、ドロップアウト等の各モジュールを構成する処理の情報が記憶される。例えば、モデル生成用データベース３２には、図１０に示すモジュールＭＯ１～ＭＯ７のような、ブロックの構成要素として用いられる各種のモジュールに関する情報が記憶される。

例えば、モデル生成用データベース３２には、各ブロックに関する情報が記憶される。モデル生成用データベース３２には、各ブロックがどのようなモジュールにより構成されるかを示す情報が記憶される。例えば、モデル生成用データベース３２には、各ブロックが有するモジュールの数を示す情報が記憶される。モデル生成用データベース３２には、各ブロックに含まれるモジュールを示す情報が記憶される。

モデル生成用データベース３２には、各ブロックが入力として用いるデータの種別を示す情報が記憶される。例えば、モデル生成用データベース３２には、各ブロックが入力として用いるデータの種別の組み合わせを示す情報が記憶される。モデル生成用データベース３２には、図１１に示すように、各ブロックが入力として用いるデータの種別の組み合わせ及び各種別のデータを用いる形式を示す情報が記憶される。

なお、モデル生成用データベース３２は、上記に限らず、モデルの生成に用いる情報であれば種々のモデル情報を記憶してもよい。

図３に戻り、説明を続ける。制御部４０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１０内部の記憶装置に記憶されている各種プログラム（例えばモデルを生成する処理を実行する生成プログラム、情報処理プログラム等、）がＲＡＭを作業領域として実行されることにより実現される。情報処理プログラムは、コンピュータを、少なくとも１つのブロックを有するモデルとして動作させるために用いられる。例えば、情報処理プログラムは、学習データを用いて学習が行われたモデルとしてコンピュータ（例えば情報処理装置１０）を動作させる。また、制御部４０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。図３に示すように、制御部４０は、取得部４１、決定部４２、受付部４３、生成部４４、処理部４５、および提供部４６を有する。

取得部４１は、記憶部３０から情報を取得する。取得部４１は、モデルの学習に用いる学習データのデータセットを取得する。取得部４１は、モデルの学習に用いる学習データを取得する。例えば、取得部４１は、端末装置３から、学習データとして用いる各種のデータと、各種データに付与されるラベルを受付けると、受付けたデータとラベルとを学習データとして学習データデータベース３１に登録する。なお、取得部４１は、あらかじめ学習データデータベース３１に登録されたデータのうち、モデルの学習に用いる学習データの学習データＩＤやラベルの指定を受付けてもよい。

取得部４１は、第１入力層からの出力が入力される第１ブロック、及び第１入力層とは異なる第２入力層からの出力が入力される第２ブロックを含む複数のブロックを有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する。取得部４１は、学習データに含まれる情報が該当する属性である複数の種別の情報が含まれる学習データを取得する。取得部４１は、学習データが属するカテゴリを含む複数の種別の情報が含まれる学習データを取得する。取得部４１は、取引対象に関する種別を含む複数の種別の情報が含まれる学習データを取得する。取得部４１は、取引対象の提供者に関する種別を含む複数の種別の情報が含まれる学習データを取得する。

取得部４１は、各々が少なくとも１つのモジュールを含む複数のブロックを有するモデルの学習に用いられる学習データを取得する。取得部４１は、入力層からの出力が入力されるブロックを少なくとも１つ有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する。取得部４１は、入力層からの出力が入力されるブロックを少なくとも１つ有するモデルへの入力として用いられる複数の種別の情報が含まれる入力データを取得する。

決定部４２は、学習処理に関する各種情報を決定する。決定部４２は、学習態様を決定する。決定部４２は、生成部４４による学習処理における初期値等を決定する。決定部４２は、各パラメータの初期値を決定する。決定部４２は、各パラメータの初期設定の値を示す設定ファイルを参照し、各パラメータの初期値を決定する。決定部４２は、モデルに含ませるブロックの最大数を決定する。決定部４２は、ブロックに含ませるモジュールの最大数を決定する。決定部４２は、ドロップアウト率を決定する。決定部４２は、各ブロックのドロップアウト率を決定する。決定部４２は、モデルのサイズを決定する。決定部４２は、各ブロックに含まれるモジュールの数を決定する。

受付部４３は、利用者に対して提示した生成指標の修正を受付ける。また、受付部４３は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付ける。

生成部４４は、決定部４２による決定に応じて各種情報を生成する。また、生成部４４は、受付部４３により受け付けられた指示に応じて各種情報を生成する。例えば、生成部４４は、モデルの生成指標を生成してもよい。

生成部４４は、学習データを用いた学習において複数のブロックの各々へ入力されるデータに含まれる種別を選択し、複数の種別のうち、選択された種別の組み合わせが第１組み合わせである第１データを第１入力層から第１ブロックへの入力とし、選択された種別の組み合わせが第２組み合わせである第２データを第２入力層から第２ブロックへの入力としてモデルを生成する。生成部４４は、学習データを用いた学習において複数のブロックの各々へ入力されるデータに含まれる種別を選択することにより、複数の種別のうち、第１入力層から第１ブロックへ入力される第１データに含まれる種別の組み合わせが第１組み合わせであり、第２入力層から第２ブロックへ入力される第２データに含まれる種別の組み合わせが第２組み合わせであるモデルを生成する。生成部４４は、第１入力層から第１ブロックへ入力される第１データに含まれる種別の第１組み合わせと、第２入力層から第２ブロックへ入力される第２データに含まれる種別の第２組み合わせとが異なるモデルを生成する。

生成部４４は、複数のブロックの各々へ入力されるデータに含まれる種別の組み合わせを最適化するための処理により、第１組み合わせの第１データが第１ブロックへ入力され、第２組み合わせの第２データが第２ブロックへ入力されるモデルを生成する。生成部４４は、遺伝的アルゴリズムに基づく処理により、第１組み合わせの第１データが第１ブロックへ入力され、第２組み合わせの第２データが第２ブロックへ入力されるモデルを生成する。

生成部４４は、第１ブロックに含まれるモジュールの数が第１数であり、第２ブロックに含まれるモジュールの数が第２数であるモデルを生成する。生成部４４は、第１数のモジュールが含まれる第１ブロックと、第１数とは異なる第２数のモジュールが含まれる第２ブロックを有するモデルを生成する。

生成部４４は、学習データを用いた学習により、一のモジュールへの入力が他のモジュールへの入力として接続されたモデルを生成する。生成部４４は、少なくとも１つのモジュールを含む第１ブロック、及び少なくとも１つのモジュールを含む第２ブロックを含む複数のブロックを有するモデルを生成する。生成部４４は、第１ブロックに含まれる一のモジュールへの入力が、第２ブロックに含まれる他のモジュールへの入力として接続されたモデルを生成する。

生成部４４は、第１ブロックにおける第１階層の一のモジュールへの入力が、第２ブロックにおける第２階層の他のモジュールへの入力として接続されたモデルを生成する。生成部４４は、一のモジュールへの入力が、第１階層よりも大きい第２階層の他のモジュールへの入力として接続されたモデルを生成する。生成部４４は、第１入力層からの出力が入力される第１ブロック、及び第１入力層とは異なる第２入力層からの出力が入力される第２ブロックを含む複数のブロックを有するモデルを生成する。

生成部４４は、複数のモジュールを含む第１ブロックを含む複数のブロックを有するモデルを生成する。生成部４４は、第１ブロックに含まれる一のモジュールへの入力が、第１ブロックに含まれる他のモジュールへの入力として接続されたモデルを生成する。生成部４４は、第１ブロックにおける第１階層の一のモジュールへの入力が、第１ブロックにおける第２階層の他のモジュールへの入力として接続されたモデルを生成する。生成部４４は、一のモジュールへの入力が、第１階層よりも大きい第２階層の他のモジュールへの入力として接続されたモデルを生成する。

生成部４４は、学習データを用いた学習において、遺伝的アルゴリズムに基づく処理により、ブロックへ入力されるデータに含まれる種別を選択し、複数の種別のうち、選択された種別の組み合わせに対応するデータを入力層からブロックへの入力としてモデルを生成する。生成部４４は、学習データを用いた学習において、遺伝的アルゴリズムに基づく処理により、ブロックへ入力されるデータに含まれる種別を選択することにより、複数の種別のうち、入力層からブロックへ入力されるデータに含まれる種別の組み合わせが決定されたモデルを生成する。生成部４４は、モデルを用いた推論時には、一部がブロックへの入力として用いられる種別の組み合わせを決定する。これにより、情報処理装置１０は、推論に用いるデータの種別を任意に選択することができるため、柔軟な入力データの利用が可能なモデルを生成することができる。

生成部４４は、種別の組み合わせのうち、モデルを用いた推論時にマスキングする種別を決定する。生成部４４は、遺伝的アルゴリズムに基づく組み合わせ最適化により、入力層からブロックへ入力されるデータに含まれる種別の組み合わせが決定されたモデルを生成する生成する。生成部４４は、遺伝的アルゴリズムに基づく探索により、入力層からブロックへ入力されるデータに含まれる種別の組み合わせが決定されたモデルを生成する生成する。

生成部４４は、遺伝的アルゴリズムに基づいてモデルを生成してもよい。例えば、生成部４４は、各々が種別の組み合わせが異なる複数の組み合わせ候補を対象として、複数のモデルを生成する。生成部４４は、生成した複数のモデルのうち、精度が高い所定数（例えば２個等）のモデルに対応する組み合わせ候補（「継承候補」ともいう）を用いて、さらにモデルを生成してもよい。例えば、生成部４４は、継承候補の各々から一部の種別の組み合わせを継承し、継承候補の種別の組み合わせがコピーされた種別の候補を用いて、モデルを生成してもよい。生成部４４は、上述した継承候補の種別の組み合わせを継承してモデルを生成する処理を繰り返すことにより、最終的に用いるモデルを生成してもよい。

生成部４４は、モデルの生成に用いるデータを外部のモデル生成サーバ２に送信することにより、モデル生成サーバ２にモデルの学習を要求し、モデル生成サーバ２からモデル生成サーバ２が学習したモデルを受信することにより、モデルを生成する。

例えば、生成部４４は、学習データデータベース３１に登録されたデータを用いて、モデルを生成する。生成部４４は、トレーニング用データとして用いられる各データとラベルとに基づいて、モデルを生成する。生成部４４は、トレーニング用データを入力した場合にモデルが出力する出力結果と、ラベルとが一致するように学習を行うことにより、モデルを生成する。例えば、生成部４４は、トレーニング用データとして用いられる各データとラベルとをモデル生成サーバ２に送信することにより、モデル生成サーバ２にモデルを学習させることにより、モデルを生成する。

例えば、生成部４４は、学習データデータベース３１に登録されたデータを用いて、モデルの精度を測定する。生成部４４は、評価用データとして用いられる各データとラベルとに基づいて、モデルの精度を測定する。生成部４４は、評価用データを入力した場合にモデルが出力する出力結果と、ラベルとを比較した結果を収集することにより、モデルの精度を測定する。

処理部４５は、各種処理を行う。処理部４５は、推論処理を行う推論部として機能する。処理部４５は、記憶部３０に記憶されたモデル（例えばモデルＭ１）を用いて、推論処理を行う。処理部４５は、取得部４１により取得されたモデルを用いて推論を行う。処理部４５は、生成部４４により生成されたモデルを用いて推論を行う。処理部４５は、モデル生成サーバ２を利用して学習されたモデルを用いて推論を行う。処理部４５は、モデルにデータを入力することにより、当該データに対応する推論結果を生成する推論処理を行う。

処理部４５は、生成部４４により生成されたモデルを用いた推論処理を実行する。処理部４５は、決定された種別の組み合わせに対応する入力データがモデルのブロックへ入力されることにより、モデルが出力した出力データに基づいて、推論処理を実行する。処理部４５は、決定された種別の組み合わせのうち、一部のみに対応するデータがモデルのブロックへの入力として用いられることにより、モデルが出力した出力データに基づいて、推論処理を実行する。

処理部４５は、決定された種別の組み合わせのうち、一部のマスキング対象となる種別であるマスキング種別がマスキングされたデータがモデルのブロックへの入力として用いられることにより、モデルが出力した出力データに基づいて、推論処理を実行する。処理部４５は、所定の基準に基づいて決定されるマスキング種別がマスキングされたデータがモデルのブロックへの入力として用いられることにより、モデルが出力した出力データに基づいて、推論処理を実行する。

処理部４５は、推論処理の目的に応じて決定されるマスキング種別がマスキングされたデータがモデルのブロックへの入力として用いられることにより、モデルが出力した出力データに基づいて、推論処理を実行する。処理部４５は、推論処理の対象となるユーザに応じて決定されるマスキング種別がマスキングされたデータがモデルのブロックへの入力として用いられることにより、モデルが出力した出力データに基づいて、推論処理を実行する。処理部４５は、種別の組み合わせのうち、一部のマスキング対象となる種別であるマスキング種別がマスキングされたデータがモデルのブロックへの入力として用いられることにより、モデルが出力した出力データに基づいて、推論処理を実行する。

処理部４５は、モデルを有する外部装置（推論用サーバ）を利用して推論処理を実行してもよい。例えば、処理部４５は、モデルを有する推論用サーバに入力データを送信し、外部装置が受信した入力データとモデルとを用いて生成した情報（推論用情報）を受信し、受信した推論用情報を用いて、推論処理を行ってもよい。

提供部４６は、生成されたモデルを利用者に提供する。提供部４６は、利用者の端末装置３を推論処理に用いられるモデル（例えばモデルＭ１）として動作させる情報処理プログラムを利用者の端末装置３に送信する。例えば、提供部４６は、生成部４４により生成されたモデルの精度が所定の閾値を超えた場合は、そのモデルとともに、モデルと対応する生成指標を端末装置３へと送信する。この結果、利用者は、モデルの評価や試用を行うとともに、生成指標の修正を行うことができる。

提供部４６は、生成部４４により生成された指標を利用者に提示する。例えば、提供部４６は、生成指標として生成されたＡｕｔｏＭＬのコンフィグファイルを端末装置３に送信する。また、提供部４６は、生成指標が生成される度に生成指標を利用者に提示してもよく、例えば、精度が所定の閾値を超えたモデルと対応する生成指標のみを利用者に提示してもよい。

〔５．情報処理システムの処理フロー〕
次に、図５～図８を用いて、情報処理装置１０が実行する処理の手順について説明する。図５～図８は、実施形態に係る情報処理の流れの一例を示すフローチャートである。また、以下では、情報処理システム１が処理を行う場合を一例として説明するが、以下に示す処理は、情報処理システム１に含まれる情報処理装置１０、モデル生成サーバ２、端末装置３等、情報処理システム１に含まれるいずれの装置が行ってもよい。

〔５－１．生成処理フロー例〕
まず、図５～図７を用いてモデルの生成処理に関する情報処理の流れを説明する。情報処理システム１におけるブロックごとに入力されるデータに含まれる種別が異なるモデルを生成する処理の流れの概要について、図５を用いて説明する。

図５では、情報処理システム１は、第１入力層からの出力が入力される第１ブロック、及び第１入力層とは異なる第２入力層からの出力が入力される第２ブロックを含む複数のブロックを有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する（ステップＳ１０１）。

そして、情報処理システム１は、学習データを用いた学習において複数のブロックの各々へ入力されるデータに含まれる種別を選択し、複数の種別のうち、選択された種別の組み合わせが第１組み合わせである第１データを第１入力層から第１ブロックへの入力とし、選択された種別の組み合わせが第２組み合わせである第２データを第２入力層から第２ブロックへの入力としてモデルを生成する（ステップＳ１０２）。例えば、情報処理システム１は、学習データを用いた学習において複数のブロックの各々へ入力されるデータに含まれる種別を選択することにより、複数の種別のうち、第１入力層から第１ブロックへ入力される第１データに含まれる種別の組み合わせが第１組み合わせであり、第２入力層から第２ブロックへ入力される第２データに含まれる種別の組み合わせが第２組み合わせであるモデルを生成する。

次に、情報処理システム１において、一のモジュールへの入力を他のモジュールへの入力としても用いるモデルを生成する処理の流れの概要について図６を用いて説明する。

図６では、情報処理システム１は、各々が少なくとも１つのモジュールを含む複数のブロックを有するモデルの学習に用いられる学習データを取得する（ステップＳ２０１）。

そして、情報処理システム１は、学習データを用いた学習により、一のモジュールへの入力が他のモジュールへの入力として接続されたモデルを生成する（ステップＳ２０２）。例えば、情報処理システム１は、第１ブロックの一のモジュールへの入力が、第２ブロックの他のモジュールへの入力として接続されたモデルを生成する。

次に、情報処理システム１において、遺伝的アルゴリズムに基づく処理によりモデルを生成する処理の流れの概要について図７を用いて説明する。

図７では、情報処理システム１は、入力層からの出力が入力されるブロックを少なくとも１つ有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する（ステップＳ３０１）。

そして、情報処理システム１は、学習データを用いた学習において、遺伝的アルゴリズムに基づく処理により、ブロックへ入力されるデータに含まれる種別を選択し、複数の種別のうち、選択された種別の組み合わせに対応するデータを入力層からブロックへの入力としてモデルを生成する（ステップＳ３０２）。例えば、情報処理システム１は、学習データを用いた学習において、遺伝的アルゴリズムに基づく処理により、ブロックへ入力されるデータに含まれる種別を選択することにより、複数の種別のうち、入力層からブロックへ入力されるデータに含まれる種別の組み合わせが決定されたモデルを生成する。

〔５－２．推論処理フロー例〕
次に、図８を用いてモデルを用いた推論処理に関する情報処理の流れを説明する。情報処理システム１において、モデルを用いて推論を行う処理の流れの概要について図８を用いて説明する。例えば、情報処理システム１では、モデルへの入力のうち一部をマスキングして推論処理を実行する。

図８では、情報処理システム１は、入力層からの出力が入力されるブロックを少なくとも１つ有するモデルへの入力として用いられる複数の種別の情報が含まれる入力データを取得する（ステップＳ４０１）。

そして、情報処理システム１は、種別の組み合わせのうち、一部のマスキング対象となる種別であるマスキング種別がマスキングされたデータがモデルのブロックへの入力として用いられることにより、モデルが出力した出力データに基づいて、推論処理を実行する（ステップＳ４０２）。例えば、情報処理システム１は、モデルへの入力データのうち、一部の種別に対応するデータをマスキングして、モデルへ入力することにより、モデルが出力した出力データに基づいて、推論処理を実行する。

〔６．情報処理システムの処理例〕
ここで、上述した図５～図８の処理を情報処理システム１が行う一例を説明する。情報処理装置１０は、学習データを取得する。情報処理装置１０は、モデルの生成に用いるパラメータ等の情報を取得する。例えば、情報処理装置１０は、生成するモデルについての各種の上限値を示す情報を取得する。例えば、情報処理装置１０は、生成するモデルのサイズ上限値を示す情報を取得する。また、情報処理装置１０は、遺伝的アルゴリズムにおける各種の設定値を取得する。例えば、情報処理装置１０は、遺伝的アルゴリズムにおける継承候補の数を示す情報を取得する。

情報処理装置１０は、学習データ、モデルの構造を示す情報、サイズ上限値等の各種の上限値、遺伝的アルゴリズムでの設定値等を示す情報を基にモデルを生成する。情報処理装置１０は、各入力層からの出力が入力される複数のブロックを有するモデルを生成する。情報処理装置１０は、各々が少なくとも１つのモジュールを含む複数のブロックを有するモデルを生成する。情報処理装置１０は、遺伝的アルゴリズムに基づく処理により、ブロックへ入力されるデータに含まれる種別を選択することにより、複数の種別のうち、入力層からブロックへ入力されるデータに含まれる種別の組み合わせが決定されたモデルを生成する。

例えば、情報処理装置１０は、一の入力層（第１入力層）からの出力が入力される一のブロック（第１ブロック）、及び第１入力層とは異なる他の入力層（第２入力層）からの出力が入力される他のブロック（第２ブロック）を含む複数のブロックを有するモデルを生成する。具体的には、情報処理装置１０は、データに含まれる複数の種別のうち、一の組み合わせ（第１組み合わせ）のデータ（第１データ）が１入力層から第１ブロックへ入力され、他の組み合わせ（第２組み合わせ）のデータ（第２データ）が第２入力層から第２ブロックへ入力されるモデルを生成する。

例えば、情報処理装置１０は、一のモジュールへの入力が他のモジュールへの入力として接続されたモデルを生成する。具体的には、情報処理装置１０は、第１ブロックに含まれる一のモジュールへの入力が、第２ブロックに含まれる他のモジュールへの入力として接続されたモデルを生成する。

情報処理装置１０は、モデルを学習するモデル生成サーバ２へモデルの生成に用いる情報を送信する。例えば、情報処理装置１０は、学習データ、モデルの構造を示す情報、サイズ上限値等の各種の上限値、遺伝的アルゴリズムでの設定値等を示す情報をモデル生成サーバ２へ送信する。

情報処理装置１０から情報を受信したモデル生成サーバ２は、学習処理によりモデルを生成する。そして、モデル生成サーバ２は、生成したモデルを情報処理装置１０へ送信する。このように、本願でいう「モデルを生成する」ことには、自装置でモデルを学習する場合に限らず、他の装置にモデルの生成に必要な情報を提供することで、他の装置にモデルの生成し指示し、他の装置が学習したモデルを受信することを含む概念である。情報処理システム１においては、情報処理装置１０は、モデルを学習するモデル生成サーバ２へモデルの生成に用いる情報を送信し、モデル生成サーバ２が生成したモデルを取得することにより、モデルを生成する。このように、情報処理装置１０は、他の装置へモデルの生成に用いる情報を送信することによりモデルの生成を要求し、要求を受けた他の装置にモデルを生成させることにより、モデルを生成する。

〔７．モデル〕
ここから、モデルについて説明する。以下では、情報処理システム１において生成されるモデルの構造及び学習態様等、モデルに関する各点について説明する。

〔７－１．モデルの構造例〕
まず、生成するモデルの構造の一例について、図９を用いて説明する。情報処理システム１は、図９に示すようなモデルＭ１を生成する。図９は、実施形態に係るモデルの構造の一例を示す図である。図９では、情報処理システム１は、ブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４等の複数のブロック等の各種の構成を有するモデルＭ１を生成する。ブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４等を特に区別せずに説明する場合、「ブロックＢＬ」や単に「ブロック」と記載する場合がある。なお、図９では、モデルＭ１が４つのブロックＢＬを有する場合を一例として示すが、モデルＭ１は、５つ以上のブロックＢＬを有してもよいし、３つ以下のブロックＢＬを有してもよい。

図９において「Input Layer」と表記された入力層ＥＬ１０、ＥＬ２０、ＥＬ３０、ＥＬ４０等は、入力データが入力される層を示す。入力層ＥＬ１０は、その出力がブロックＢＬ１へ入力される入力層である。また、入力層ＥＬ２０は、その出力がブロックＢＬ２へ入力される入力層である。入力層ＥＬ３０は、その出力がブロックＢＬ３へ入力される入力層である。入力層ＥＬ４０は、その出力がブロックＢＬ４へ入力される入力層である。

入力層ＥＬ１０、ＥＬ２０、ＥＬ３０、ＥＬ４０等の各々には、図９において「Input」と表記された情報（入力データ）が入力される。なお、図９では、入力層ＥＬ１０、ＥＬ２０、ＥＬ３０、ＥＬ４０等の各入力層には、各々のブロックに対応する異なる種別の組み合わせのデータが入力されるが、この点については後述する。

入力層ＥＬ１０の後にはブロックＢＬ１が配置され、入力層ＥＬ２０の後にはブロックＢＬ２が配置され、入力層ＥＬ３０の後にはブロックＢＬ３が配置され、入力層ＥＬ４０の後にはブロックＢＬ４が配置される。図９に示すように、１つの入力層に１つのブロックＢＬが接続される。このように、モデルＭ１は、ブロックの数に対応する数の入力層を有する。例えば、モデルＭ１は、ブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４の数に対応する４つの入力層ＥＬ１０、ＥＬ２０、ＥＬ３０、ＥＬ４０を有する。

ブロックＢＬ１は、図９において４つのモジュール層（モジュール）を含む。ブロックＢＬ１は、「Logic Module #1」と表記されたモジュール層ＥＬ１１、「Logic Module #2」と表記されたモジュール層ＥＬ１２、「Logic Module #3」と表記されたモジュール層ＥＬ１３及び「Logic Module #4」と表記されたモジュール層ＥＬ１４を含む。ブロックＢＬ１では、モジュール層ＥＬ１１の後にモジュール層ＥＬ１２が配置され、モジュール層ＥＬ１２の後にモジュール層ＥＬ１３が配置され、モジュール層ＥＬ１３の後にモジュール層ＥＬ１４が配置される。すなわち、入力層ＥＬ１０の出力がモジュール層ＥＬ１１に入力され、モジュール層ＥＬ１１の出力がモジュール層ＥＬ１２に入力され、モジュール層ＥＬ１２の出力がモジュール層ＥＬ１３に入力され、モジュール層ＥＬ１３の出力がモジュール層ＥＬ１４に入力される。

ここで、図９のモデルＭ１では、モジュール層ＥＬ１１とモジュール層ＥＬ１３とが接続される。モデルＭ１では、モジュール層ＥＬ１１への入力がモジュール層ＥＬ１３への入力としても用いられる。例えば、ブロックＢＬ１に含まれる一のモジュールであるモジュール層ＥＬ１１への入力が、ブロックＢＬ１に含まれる他のモジュールであるモジュール層ＥＬ１３への入力として接続される。図９のモデルＭ１では、モジュール層ＥＬ１３への入力は、モジュール層ＥＬ１２からの出力に加えて、モジュール層ＥＬ１１への入力が用いられる。この場合、モジュール層ＥＬ１３には、入力層ＥＬ１０からの出力と、モジュール層ＥＬ１２からの出力とが入力される。このように、図９では、ブロックＢＬ１の１階層目のモジュールであるモジュール層ＥＬ１１への入力が、１階層目よりも大きい３階層目のモジュール層ＥＬ１３への入力として接続されたモデルＭ１が生成される。これにより、モデルＭ１のブロックＢＬ１では、モジュール層ＥＬ１１の処理の影響を受けていないデータをモジュール層ＥＬ１１よりも後段（後の階層）のモジュール層ＥＬ１３の入力として用いることができる。

なお、モジュール層ＥＬ１１、ＥＬ１２、ＥＬ１３、ＥＬ１４等には、図１０に示すような任意のモジュールが採用可能である。図１０は、実施形態に係るモジュール例を示す図である。

図１０には、ブロックＢＬに含まれるモジュールの例示を示す。図１０で「Sparse: -1」と表記されたモジュールＭＯ１は、「Dropout」と表記されたドロップアウト処理、及び「Batch Norm」と表記されたバッチノーマライゼーション処理等の機能を有する第１タイプのモジュールである。また、図１０で「Self Attention: -2」と表記されたモジュールＭＯ２は、「Self Attention」と表記されたセルフアテンション処理、及びバッチノーマライゼーション処理等の機能を有する第２タイプのモジュールである。また、図１０で「ResNet: -3」と表記されたモジュールＭＯ３は、「Hidden Layer」と表記された隠れ層、及びバッチノーマライゼーション処理等の機能を有する第３タイプのモジュールである。同様に、モジュールＭＯ４～ＭＯ７は、各々対応する機能を第４～第７タイプのモジュールである。

なお、図１０に示すモジュールＭＯ１～ＭＯ７は一例に過ぎず、ブロックＢＬには任意のモジュールが含まれてもよい。図９では、例えば、ブロックＢＬ１のモジュール層ＥＬ１１はモジュールＭＯ１であってもよい。また、ブロックＢＬ１のモジュール層ＥＬ１２はモジュールＭＯ３であってもよい。また、ブロックＢＬ１のモジュール層ＥＬ１３はモジュールＭＯ４であってもよい。また、ブロックＢＬ１のモジュール層ＥＬ１４はモジュールＭＯ７であってもよい。このように、情報処理システム１は、上記のモジュールＭＯ１～ＭＯ７等の任意のモジュールを適宜組み合わせたモデルＭ１を生成することができる。

また、ブロックＢＬ１の後には、図９において「Logits Layer」と表記されたロジット層ＥＬ１５を含む。ロジット層ＥＬ１５は、ブロックＢＬ１からの出力が入力される層であり、ブロックＢＬ１からの出力を基に合成層ＥＬ５０へ出力する情報（値）を生成する。図９では、ロジット層ＥＬ１５には、ブロックＢＬ１のモジュール層ＥＬ１４の出力が入力される。例えば、ロジット層ＥＬ１５は、ブロックＢＬ１に対応する出力層として機能する。

ブロックＢＬ２は、図９において２つのモジュール層（モジュール）を含む。ブロックＢＬ２は、「Logic Module #1」と表記されたモジュール層ＥＬ２１及び「Logic Module #2」と表記されたモジュール層ＥＬ２２を含む。ブロックＢＬ２では、モジュール層ＥＬ２１の後にモジュール層ＥＬ２２が配置される。すなわち、入力層ＥＬ２０の出力がモジュール層ＥＬ２１に入力され、モジュール層ＥＬ２１の出力がモジュール層ＥＬ２２に入力される。

ここで、図９のモデルＭ１では、モジュール層ＥＬ１１とモジュール層ＥＬ２２とが接続される。すなわち、図９のモデルＭ１では、ブロックＢＬ１のモジュール層ＥＬ１１への入力がブロックＢＬ２のモジュール層ＥＬ２２への入力としても用いられる。このように、図９のモデルＭ１では、一のブロックであるブロックＢＬ１でのデータ（情報）が他のブロックであるブロックＢＬ２のデータ（情報）としても用いられる。

例えば、ブロックＢＬ１に含まれる一のモジュールであるモジュール層ＥＬ１１への入力が、ブロックＢＬ１以外のブロックＢＬ２に含まれる他のモジュールであるモジュール層ＥＬ２２への入力として接続される。図９のモデルＭ１では、モジュール層ＥＬ２２への入力は、モジュール層ＥＬ２１からの出力に加えて、モジュール層ＥＬ１１への入力が用いられる。この場合、モジュール層ＥＬ２２には、入力層ＥＬ１０からの出力と、モジュール層ＥＬ２１からの出力とが入力される。このように、図９では、ブロックＢＬ１の１階層目のモジュールであるモジュール層ＥＬ１１への入力が、１階層目よりも大きい２階層目のモジュール層ＥＬ２２への入力として接続されたモデルＭ１が生成される。これにより、モデルＭ１では、一のブロックのモジュールへ入力されるデータを他のブロックのモジュールへの入力として用いることができる。

なお、上記は一例に過ぎず、モデルＭ１は、第１ブロックに含まれる一のモジュールへの入力が、第２ブロックに含まれる他のモジュールへの入力として接続されれば任意の構成が採用可能である。例えば、図９では、モジュール層ＥＬ１１への入力をモジュール層ＥＬ２２への入力として用いる場合を示したが、モジュール層ＥＬ１１からの出力をモジュール層ＥＬ２２への入力として用いてもよい。この場合、ブロックＢＬ１に含まれる一のモジュールであるモジュール層ＥＬ１２への入力が、ブロックＢＬ１以外のブロックＢＬ２に含まれる他のモジュールであるモジュール層ＥＬ２２への入力として接続される。ブロックＢＬ１の２階層目のモジュールであるモジュール層ＥＬ１２への入力が、２階層目のモジュール層ＥＬ２２への入力として接続されたモデルＭ１が生成される。

モジュール層ＥＬ２１、ＥＬ２２等には、図１０に示すような任意のモジュールが採用可能である。図９では、例えば、ブロックＢＬ２のモジュール層ＥＬ２１はモジュールＭＯ５であってもよい。また、ブロックＢＬ２のモジュール層ＥＬ２２はモジュールＭＯ２であってもよい。

また、ブロックＢＬ２の後には、図９において「Logits Layer」と表記されたロジット層ＥＬ２５を含む。ロジット層ＥＬ２５は、ブロックＢＬ２からの出力が入力される層であり、ブロックＢＬ２からの出力を基に合成層ＥＬ５０へ出力する情報（値）を生成する。図９では、ロジット層ＥＬ２５には、ブロックＢＬ２のモジュール層ＥＬ２２の出力が入力される。例えば、ロジット層ＥＬ２５は、ブロックＢＬ２に対応する出力層として機能する。

ブロックＢＬ３は、図９において３つのモジュール層（モジュール）を含む。ブロックＢＬ３は、「Logic Module #1」と表記されたモジュール層ＥＬ３１、「Logic Module #2」と表記されたモジュール層ＥＬ３２及び「Logic Module #3」と表記されたモジュール層ＥＬ３３を含む。ブロックＢＬ３では、モジュール層ＥＬ３１の後にモジュール層ＥＬ３２が配置され、モジュール層ＥＬ３２の後にモジュール層ＥＬ３３が配置される。すなわち、入力層ＥＬ３０の出力がモジュール層ＥＬ３１に入力され、モジュール層ＥＬ３１の出力がモジュール層ＥＬ３２に入力され、モジュール層ＥＬ３２の出力がモジュール層ＥＬ３３に入力される。

ここで、図９のモデルＭ１では、モジュール層ＥＬ３２とモジュール層ＥＬ３３とが接続される。モデルＭ１では、モジュール層ＥＬ３２への入力がモジュール層ＥＬ３３への入力としても用いられる。例えば、ブロックＢＬ３に含まれる一のモジュールであるモジュール層ＥＬ３２への入力が、ブロックＢＬ３に含まれる他のモジュールであるモジュール層ＥＬ３３への入力として接続される。図９のモデルＭ１では、モジュール層ＥＬ３３への入力は、モジュール層ＥＬ３２からの出力に加えて、モジュール層ＥＬ３２への入力が用いられる。この場合、モジュール層ＥＬ３３には、モジュール層ＥＬ３１からの出力と、モジュール層ＥＬ３２からの出力とが入力される。このように、図９では、ブロックＢＬ３の２階層目のモジュールであるモジュール層ＥＬ３２への入力が、２階層目よりも大きい３階層目のモジュール層ＥＬ３３への入力として接続されたモデルＭ１が生成される。これにより、モデルＭ１のブロックＢＬ３では、モジュール層ＥＬ３２の処理の影響を受けていないデータをモジュール層ＥＬ３２よりも後段（後の階層）のモジュール層ＥＬ３３の入力として用いることができる。

また、図９のモデルＭ１では、モジュール層ＥＬ２１とモジュール層ＥＬ３３とが接続される。すなわち、図９のモデルＭ１では、ブロックＢＬ２のモジュール層ＥＬ２１への入力がブロックＢＬ３のモジュール層ＥＬ３３への入力としても用いられる。このように、図９のモデルＭ１では、一のブロックであるブロックＢＬ２でのデータ（情報）が他のブロックであるブロックＢＬ３のデータ（情報）としても用いられる。

例えば、ブロックＢＬ２に含まれる一のモジュールであるモジュール層ＥＬ２１への入力が、ブロックＢＬ２以外のブロックＢＬ３に含まれる他のモジュールであるモジュール層ＥＬ３３への入力として接続される。図９のモデルＭ１では、モジュール層ＥＬ３３への入力は、モジュール層ＥＬ３２からの出力に加えて、モジュール層ＥＬ２１への入力が用いられる。この場合、モジュール層ＥＬ３３には、入力層ＥＬ２０からの出力と、モジュール層ＥＬ３２からの出力とが入力される。このように、図９では、ブロックＢＬ２の１階層目のモジュールであるモジュール層ＥＬ２１への入力が、１階層目よりも大きい３階層目のモジュール層ＥＬ３３への入力として接続されたモデルＭ１が生成される。これにより、モデルＭ１では、一のブロックのモジュールへ入力されるデータを他のブロックのモジュールへの入力として用いることができる。

例えば、図９では、モジュール層ＥＬ２１への入力をモジュール層ＥＬ３３への入力として用いる場合を示したが、モジュール層ＥＬ２１からの出力をモジュール層ＥＬ３３への入力として用いてもよい。この場合、ブロックＢＬ２に含まれる一のモジュールであるモジュール層ＥＬ２２への入力が、ブロックＢＬ２以外のブロックＢＬ３に含まれる他のモジュールであるモジュール層ＥＬ３３への入力として接続される。ブロックＢＬ２の２階層目のモジュールであるモジュール層ＥＬ２２への入力が、２階層目よりも大きい３階層目のモジュール層ＥＬ３３への入力として接続されたモデルＭ１が生成される。

モジュール層ＥＬ３１、ＥＬ３２、ＥＬ３３等には、図１０に示すような任意のモジュールが採用可能である。図９では、例えば、ブロックＢＬ３のモジュール層ＥＬ３１はモジュールＭＯ５であってもよい。また、ブロックＢＬ３のモジュール層ＥＬ３２はモジュールＭＯ２であってもよい。また、ブロックＢＬ３のモジュール層ＥＬ３３はモジュールＭＯ２であってもよい。

また、ブロックＢＬ３の後には、図９において「Logits Layer」と表記されたロジット層ＥＬ３５を含む。ロジット層ＥＬ３５は、ブロックＢＬ３からの出力が入力される層であり、ブロックＢＬ３からの出力を基に合成層ＥＬ５０へ出力する情報（値）を生成する。図９では、ロジット層ＥＬ３５には、ブロックＢＬ３のモジュール層ＥＬ３３の出力が入力される。例えば、ロジット層ＥＬ３５は、ブロックＢＬ３に対応する出力層として機能する。

ブロックＢＬ４は、図９において１つのモジュール層（モジュール）を含む。ブロックＢＬ４は、「Logic Module #1」と表記されたモジュール層ＥＬ４１を含む。すなわち、入力層ＥＬ４０の出力がモジュール層ＥＬ４１に入力される。

モジュール層ＥＬ４１には、図１０に示すような任意のモジュールが採用可能である。図９では、例えば、ブロックＢＬ４のモジュール層ＥＬ４１はモジュールＭＯ６であってもよい。

また、ブロックＢＬ４の後には、図９において「Logits Layer」と表記されたロジット層ＥＬ４５を含む。ロジット層ＥＬ４５は、ブロックＢＬ４からの出力が入力される層であり、ブロックＢＬ４からの出力を基に合成層ＥＬ５０へ出力する情報（値）を生成する。図９では、ロジット層ＥＬ４５には、ブロックＢＬ４のモジュール層ＥＬ４１の出力が入力される。例えば、ロジット層ＥＬ４５は、ブロックＢＬ４に対応する出力層として機能する。

ロジット層ＥＬ１５、ＥＬ２５、ＥＬ３５、ＥＬ４５の出力は、合成層ＥＬ５０へ入力される。合成層ＥＬ５０は、モデルＭ１の出力層であってもよい。合成層ＥＬ５０は、各ブロックＢＬにおける処理結果を集約する処理を行う層である。合成層ＥＬ５０は、各ブロックＢＬにおける処理結果を基に合成処理を行う。例えば、合成層ＥＬ５０は、ソフトマックス等の任意の処理を行う層であってもよい。例えば、合成層ＥＬ５０では、各ロジット層ＥＬ１５、ＥＬ２５、ＥＬ３５、ＥＬ４５が直接全結合で接続されてもよい。

合成層ＥＬ５０は、ロジット層ＥＬ１５、ＥＬ２５、ＥＬ３５、ＥＬ４５等のロジット層の出力を基に出力する情報を生成する。合成層ＥＬ５０は、ロジット層ＥＬ１５、ＥＬ２５、ＥＬ３５、ＥＬ４５等のロジット層の出力の平均を出力情報として算出する。例えば、合成層ＥＬ５０は、ロジット層ＥＬ１５、ＥＬ２５、ＥＬ３５、ＥＬ４５等のロジット層の出力において対応する各出力との各々の平均を算出することにより、ロジット層ＥＬ１５、ＥＬ２５、ＥＬ３５、ＥＬ４５等のロジット層の出力を合成した情報（合成出力）を生成する。合成層ＥＬ５０は、生成した合成出力を対象として、ソフトマックスの処理を行う。合成層ＥＬ５０は、出力の総和が１００％（１）になるように各出力の値を変換してもよい。また、合成層ＥＬ５０は、ロジット層ＥＬ１５、ＥＬ２５、ＥＬ３５、ＥＬ４５等のロジット層の出力の合計を出力情報として算出してもよい。

なお、上記構成は一例に過ぎず、モデルは任意の構成が採用可能である。モデルＭ１では、ブロックＢＬのモジュールについて、任意の接続が採用可能である。例えば、モデルＭ１では、ブロックＢＬ１のモジュールの入力が、ブロックＢＬ４の入力として用いられてもよい。例えば、モデルＭ１は、入力層からの出力をエンベディングする構成要素が設けられてもよい。例えば、ブロックＢＬ１には、入力層ＥＬ１０からの出力をベクトル化するエンベディング層が設けられてもよい。また、ブロックＢＬ２には、入力層ＥＬ２０からの出力をベクトル化するエンベディング層が設けられてもよい。また、ブロックＢＬ３には、入力層ＥＬ３０からの出力をベクトル化するエンベディング層が設けられてもよい。また、ブロックＢＬ４には、入力層ＥＬ４０からの出力をベクトル化するエンベディング層が設けられてもよい。

また、ブロックＢＬ内の各モジュール層にはエンベディングされたデータが入力されてもよい。例えば、ブロックＢＬ１のモジュール層ＥＬ１２には、モジュール層ＥＬ１１からの出力に加えて、入力層ＥＬ１０からの出力をエンベディングしたデータが入力されてもよい。また、ブロックＢＬ１のモジュール層ＥＬ１３には、モジュール層ＥＬ１２からの出力に加えて、入力層ＥＬ１０からの出力をエンベディングしたデータが入力されてもよい。この場合、モジュール層ＥＬ１１、ＥＬ１２、ＥＬ１３は、例えばResNetであるモジュールＭＯ３であってもよい。

また、モデルＭ１では、複数のブロックＢＬのロジット層を共通化してもよい。例えば、モデルＭ１では、ロジット層ＥＬ１５、ＥＬ２５、ＥＬ３５、ＥＬ４５等に代えて１つのロジット層（共通ロジット層）を配置し、共通ロジット層の前段に各ブロックＢＬからの出力が入力されるモジュール（共通モジュール層）が配置されてもよい。この場合、モデルＭ１では、ブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４の各々の出力が入力される共通モジュール層がブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４の後段に配置され、共通モジュール層からの出力が入力される共通モジュール層が共通モジュール層の後段に配置される。このように、モデルＭ１はブロックＢＬ外にブロックＢＬ全体で共有される共通モジュール層が設けられてもよい。

上述のように、情報処理システム１は、複数のブロックＢＬが並列に接続され、各ブロックＢＬのモジュール間が接続されたモデルＭ１を学習する。これにより、情報処理システム１は、ブロックＢＬごとの機能を実現しつつ、ブロックＢＬ間での情報の伝達も可能にするモデルＭ１を生成することができる。

〔７－２．入力の組み合わせ〕
ここで、ブロック毎に任意の組み合わせの特徴（Feature）の情報を入力することが可能である。例えば、モデルのブロックごとに任意の組み合わせの種別のデータを入力することが可能である。例えば、ここでいう種別は、データに含まれる情報が該当する属性であってもよい。例えば、種別には、データに含まれる文字列が該当する属性に関する種別が含まれてもよい。例えば、種別にはデータが属するカテゴリが含まれてもよい。例えば、データが取引対象（商品等）の取引履歴（販売履歴等）である場合、種別には、取引対象に関する種別が含まれてもよい。例えば、データが取引対象（商品等）の取引履歴（販売履歴等）である場合、種別には、取引対象の提供者に関する種別が含まれてもよい。例えば、データが書籍の販売履歴である場合、種別には、その書籍の著者に対応する種別が含まれてもよい。

例えば、モデルＭ１のブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４等には、データに含まれる複数の種別から選択された任意の組み合わせの種別のデータが入力されてもよい。情報処理システム１は、複数のブロックＢＬの各々へ入力されるデータに含まれる種別の組み合わせを最適化するための処理により、ブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４の各々へ入力される種別の組み合わせを決定してもよい。情報処理システム１は、遺伝的アルゴリズムに基づく処理により、ブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４の各々へ入力される種別の組み合わせを決定してもよい。

例えば、情報処理システム１は、図１１に示すように、各ブロックＢＬに対応する種別の組み合わせを決定する。図１１は、実施形態に係る入力の組み合わせの一例を示す図である。図１１中の各行は、データに含まれる各情報の種別を示す。すなわち、図１１中の各行は、データに含まれるFeatureを示す。なお、図１１では、各種別を種別＃１、種別＃２等のように抽象的に表現するが、各種別はそのデータの種別（属性）を示す具体的なである。例えば、種別＃１～＃４は、データに含まれる情報が該当する任意の属性であってもよい。例えば、種別＃１は、取引対象の名称であってもよい。また、図１１では、種別＃１～＃４を図示するが、データに含まれる種別は５つ以上であってもよいし、３つ以下であってもよい。例えば、データに含まれる種別が６つである場合、種別には、種別＃５、＃６が含まれてもよい。

図１１中の各行はブロックＢＬ１、ＢＬ２、ＢＬ３、ＢＬ４の各々に対応する。例えば、図１１中のブロック「ＢＬ１」を表示された行は、モデルＭ１のブロックＢＬ１の入力として用いられるデータの種別の組み合わせを示す。すなわち、図１１中のブロック「ＢＬ１」を表示された行は、モデルＭ１のブロックＢＬ１の入力として用いられるFeatureを示す。

図１１中で「－」が配置された種別は、その種別の情報が対応するブロックの入力として用いられないことを示す。図１１中で数字（「形式識別情報」）が配置された種別は、その種別の情報が対応するブロックの入力として用いられることを示す。また、その数字（形式識別情報）は、その種別がそのブロックで用いられる形式を示す。例えば、その種別の情報が整数（インテジャー）である場合、形式識別情報「０」は、その情報がワンホットベクトルとして用いられることを示し、形式識別情報「１」は、その情報がエンベディング（ベクトル化）されて用いられることを示してもよい。また、例えば、形式識別情報は、パケタイズの方法を示すものであってもよい。

図１１では、モデルＭ１のブロックＢＬ１は、種別＃１に対応する情報と、種別＃２に対応する情報が入力として用いられることを示す。また、ブロックＢＬ１では、種別＃１に対応する情報は、形式識別情報「０」に対応する形式で用いられることを示す。ブロックＢＬ１では、種別＃２に対応する情報は、形式識別情報「１」に対応する形式で用いられることを示す。ブロックＢＬ１では、種別＃３及び種別＃４に対応する情報は、用いられないことを示す。

〔７－３．モデルの生成例〕
ここから、モデルの生成の一例について図１２～図１４を用いて説明する。図１２及び図１３は、実施形態に係るパラメータの一例を示す図である。図１４は、実施形態に係るモデルの生成処理の一例を示す図である。例えば、情報処理システム１は、図１４に示すように、Featureの組み合わせを最適化しながら、ブロックを１つずつ増加することで精度を向上させてもよい。なお、上述した内容と同様の点については適宜説明を省略する。

この場合、情報処理システム１は、任意の設定を基に、モデルを生成してもよい。例えば、情報処理システム１は、モデルに関する一部の構成要素を固定し、それ以外の構成要素を学習により変更することにより、モデルを更新してもよい。例えば、情報処理システム１は、最適化済みのブロックのFeatureの設定と構造を固定して最適化を行ってもよい。例えば、情報処理システム１は、最適化済みのブロックの種別の組み合わせ、及び、そのブロックの構造を固定し、新たに追加するブロック（新規ブロック）の種別の組み合わせ、その新規ブロックの構造及び、最適化済みのブロックのモジュールと新規ブロックのモジュールとの間の接続についての最適化を行ってもよい。

例えば、情報処理システム１は、図１２や図１３に示す設定に基づいて、Featureの組み合わせやモデルの構造を固定してもよい。例えば、情報処理システム１は、図１２や図１３に示すような設定が記載された設定ファイルを参照し、ブロックの種別の組み合わせやブロックの構造を固定してもよい。図１２は、最適化済みのFeatureの組み合わせを固定する場合の設定例を示す。具体的には、図１２は、最適化済みの２つのブロックの種別の組み合わせを固定する場合の設定例を示す。また、図１３は、最適化済みのHiddenブロック構造を固定する場合の設定例を示す。具体的には、図１３は、最適化済みの２つのブロックの隠れ層を固定する場合の設定例を示す。なお、図１２及び図１３に示す設定は、一例に過ぎず、情報処理システム１は、任意の設定に基づいて、モデルの一部の構成要素を固定して学習を行うことにより、モデルを更新してもよい。

例えば、情報処理システム１は、ブロックについては構造のみを固定し、パラメータを再学習することにより、モデルを生成してもよい。例えば、情報処理システム１は、新たに追加するブロック以外のブロック、すなわち既にモデルに追加した最適化済みブロックについては構造のみを固定し、最適化済みブロックについてはパラメータのみを再学習することにより、モデルを生成してもよい。

図１４中の「ブロック数＝１」に対応する部分では、情報処理システム１は、ブロック数が１つであり、ブロックＢＬ１のみが含まれる状態で学習されたモデルを示す。情報処理システム１は、モジュール層ＥＬ１１～ＥＬ１４を含むブロックＢＬ１を有するモデルを学習する。図１４では、情報処理システム１は、ブロックＢＬ１への入力の種別の組み合わせを、データＩＤＴ１に対応する種別の組み合わせに決定する。

そして、情報処理システム１は、ブロック数が１つの状態で学習されたモデルに、新規モデルを追加する（ステップＳ１１）。図１４中の「ブロック数＝２」に対応する部分では、情報処理システム１は、ブロック数が２つであり、ブロックＢＬ１及びブロックＢＬ２が含まれる状態で学習されたモデルを示す。情報処理システム１は、モジュール層ＥＬ２１、ＥＬ２２を含むブロックＢＬ２及びブロックＢＬ１を有するモデルを学習する。例えば、情報処理システム１は、ブロックＢＬ１については構造のみを固定し、パラメータを再学習することにより、モデルを生成してもよい。例えば、情報処理システム１は、ブロックＢＬ１については構造及び種別の組み合わせを固定し、ブロックＢＬ２（のモジュール層）との間の接続等のパラメータを再学習することにより、モデルを生成してもよい。図１４では、情報処理システム１は、ブロックＢＬ１への入力の種別の組み合わせを、データＩＤＴ２に対応する種別の組み合わせに決定する。

上記のように、情報処理システム１は、モデル構造を決定するために、１つのブロックで最適化を実行する。そして、情報処理システム１は、精度が最も高いモデル（「ベストモデル」ともいう）と同じ構造のブロック（新規ブロック）を、そのブロック（最適化済みブロック）に並列して１つ追加し、再学習を行う。この場合、情報処理システム１は、最適化済みブロック（学習済みブロック）については、構造を固定して学習を行ってもよいし、構造を固定せずに学習を行ってもよい。また、情報処理システム１は、学習済みブロックについては、種別の組み合わせを固定して学習を行ってもよいし、種別の組み合わせを固定せずに学習を行ってもよい。また、情報処理システム１は、学習済みブロックについては、隠れ層（Hidden Layer）を固定して学習を行ってもよいし、隠れ層を固定せずに学習を行ってもよい。

例えば、情報処理システム１は、上述した処理により新規ブロックの追加を行って、モデルを学習する処理を繰り返してもよい。そして、情報処理装置１０は、生成したモデルがサイズ上限値を超えた場合に、生成処理を終了することにより、モデルＭ１を生成してもよい。このように、情報処理システム１は、各ブロックＢＬの種別の組み合わせを最適化しながら。ブロックＢＬを増やして行くことで、モデルの精度を向上させることができる。

情報処理システム１は、任意の探索手法を適宜用いてモデルを生成してもよい。情報処理システム１は、遺伝的アルゴリズムに基づいてモデルを生成してもよい。例えば、情報処理システム１は、各々が種別の組み合わせが異なる複数の組み合わせ候補を対象として、複数のモデルを生成する。情報処理システム１は、生成した複数のモデルのうち、精度が高い所定数（例えば２個等）のモデルに対応する組み合わせ候補（継承候補）を用いて、さらにモデルを生成してもよい。例えば、情報処理システム１は、継承候補の各々から一部の種別の組み合わせを継承し、継承候補の種別の組み合わせがコピーされた種別の候補を用いて、モデルを生成してもよい。情報処理システム１は、上述した継承候補の種別の組み合わせを継承してモデルを生成する処理を繰り返すことにより、最終的に用いるモデルを生成してもよい。

上述した処理により、情報処理システム１は、遺伝的アルゴリズムに基づく組み合わせ最適化により、各ブロックに対応する種別の組み合わせが決定されたモデルを生成する。情報処理システム１は、遺伝的アルゴリズムに基づく探索により、各ブロックに対応する種別の組み合わせが決定されたモデルを生成する。

なお、上述した処理は一例に過ぎず、情報処理システム１は、任意の学習手法を適宜用いて、モデルＭ１を生成してもよい。例えば、情報処理システム１は、遺伝的アルゴリズムに基づく任意の手法により、モデルＭ１を生成してもよい。例えば、情報処理システム１は、モデルＭ１の構造を決定した後、そのモデルＭ１の各ブロックに入力するデータの種別の組み合わせを決定することにより、モデルＭ１を生成してもよい。例えば、情報処理システム１は、モデルＭ１の構造を図９に示すような構造に決定した後、モデルＭ１に含まれる複数のブロックＢＬの各々に入力するデータの種別の組み合わせを決定してもよい。例えば、予め設定された設定ファイル等を参照し、図９に示すようなブロックＢＬ１～ＢＬ４のモジュール層の構成及び接続関係を決定してもよい。

例えば、情報処理システム１は、図９に示すようなブロックＢＬ１～ＢＬ４のモジュール層の構成及び接続関係を決定した後、ブロックＢＬ１～ＢＬ４の各々で用いられるデータの種別の組み合わせを決定してもよい。例えば、情報処理システム１は、ブロックＢＬ１について、複数の種別の組み合わせごとにモデルＭ１の精度を測定し、モデルＭ１の精度が高い方から順に所定数の種別の組み合わせの各々から一部の種別の利用を継承した種別の組み合わせを用いて学習を繰り返してもよい。そして、情報処理システム１は、種別の組み合わせを継承してモデルＭ１の精度を測定する処理を所定の回数繰り返すことにより、最終的なブロックＢＬ１の種別の組み合わせを決定してもよい。

上述のように、情報処理システム１は、モデルにおける並列に接続する横方向のブロック、及び各ブロックで用いるデータの種別（属性）の最適化の処理を実行する。例えば、情報処理システム１は、モデルのブロック数を決定する。情報処理システム１は、ブロック内レイヤ数をそれぞれ決定する。情報処理システム１は、遺伝的アルゴリズムに基づいて、種別（属性）の組み合わせの最適化の処理を実行する。例えば、情報処理システム１は、推論（インファレンス）における所定条件を満たす種別（属性）をマスキングする。また、情報処理システム１は、モデルのモジュール間を接続する。例えば、情報処理システム１は、ブロックの入力を、ブロックモジュール間に入力として接続する。情報処理システム１は、ブロックのモジュールへの入力を、他のブロックのモジュールへの入力として接続する。

また、情報処理システム１は、遺伝的アルゴリズムに基づいてデータの種別（特徴情報）を学習により選択し、利用時にマスキングする種別を決定する。例えば、情報処理システム１は、マスキングする種別を考慮して探索を行ってもよい。例えば、情報処理システム１は、利用態様に応じたマスキング種別を複数のパターンで決定してもよい。例えば、情報処理システム１は、ユーザごとにマスキング種別を決定する。例えば、情報処理システム１は、ユーザ属性ごとにマスキング種別を決定する。例えば、情報処理システム１は、目的ごとにマスキング種別を決定する。このように、情報処理システム１は、モデルを固定し、マスキング種別をのみを変更することで、種別ごとの最適化を図ってもよい。また、例えば、情報処理システム１は、推論時に利用しない種別（属性）を探索し、推論時に利用しないマスキング種別をブロックごとに決定し、ブロックごとに決定したマスキング種別を示すマスキングテーブル（非発現テーブル）を生成してもよい。例えば、情報処理システム１は、直近一時間のデータを用いて、推論時に利用しない種別を決定（最適化）するように発現テーブルを再学習することで、直前ファインチューニングを容易化してもよい。

〔７－４．モデルを用いた推論例〕
また、情報処理装置１０は、生成したモデルＭ１を用いて推論処理を実行してもよい。例えば、情報処理装置１０は、推論処理の対象に対応する入力データをモデルＭ１に入力し、モデルＭ１が出力した出力情報を基に、推論処理を実行してもよい。この場合、情報処理装置１０は、モデルＭ１を用いた推論時には、モデルＭ１のブロックＢＬに対応する種別の組み合わせのうち、一部の種別をマスキングしてもよい。

例えば、情報処理装置１０は、モデルＭ１のブロックＢＬ１に対応する種別の組み合わせのうち一部の種別をマスキングして、推論処理を実行してもよい。例えば、情報処理装置１０は、図１１に示すモデルＭ１のブロックＢＬ１の入力として用いられる種別のうち、種別＃２をマスキングすると決定してもよい。

例えば、情報処理装置１０は、所定の基準に基づいてマスキングする種別（「マスキング種別」ともいう）を決定してもよい。この場合、情報処理装置１０は、所定の基準に基づいてされるマスキング種別がマスキングされたデータがモデルＭ１のブロックＢＬへの入力として用いられることにより、モデルＭ１が出力した出力情報（出力データ）に基づいて、推論処理を実行してもよい。

例えば、情報処理装置１０は、図１１に示すモデルＭ１の各ブロックＢＬの入力として用いられる種別のうち、いずれの種別をマスキングするかを指定するマスキングリストを用いて、各ブロックＢＬについてマスキングする種別を決定してもよい。例えば、情報処理装置１０は、マスキングリストに、ブロックＢＬ４の種別＃４をマスキングすることを指定する情報が含まれる場合、モデルＭ１のブロックＢＬ４の入力として用いられる種別のうち、種別＃４をマスキングすると決定してもよい。

なお、情報処理装置１０は、任意の基準を基にマスキング種別を決定してもよい。情報処理装置１０は、推論処理の目的に応じてマスキング種別を決定してもよい。例えば、情報処理装置１０は、推論処理の対象となるユーザに応じてマスキング種別を決定する。例えば、情報処理装置１０は、ユーザの属性ごとにいずれの種別をマスキングするかを指定するマスキングリストを用いて、モデルＭ１の各ブロックＢＬについてマスキングする種別を決定してもよい。例えば、情報処理装置１０は、年齢と年代のユーザ属性の組み合わせごとにマスキング種別が指定されるマスキングリストを用いて、モデルＭ１の各ブロックＢＬについてマスキングする種別を決定してもよい。

例えば、情報処理装置１０は、マスキングリストに、２０代男性については、ブロックＢＬ３の種別＃１をマスキングすることを指定する情報が含まれ、入力データが２０代男性に対応するデータである場合、モデルＭ１のブロックＢＬ３の入力として用いられる種別のうち、種別＃３をマスキングすると決定してもよい。この場合、情報処理装置１０は、ブロックＢＬ３の入力として用いられる種別のうち、種別＃３がマスキングされたデータがモデルＭ１のブロックＢＬ３への入力として用いられることにより、モデルＭ１が出力した出力情報（出力データ）に基づいて、推論処理を実行してもよい。

なお、上述した処理は一例に過ぎず、情報処理装置１０は、様々な基準に基づいてマスキング種別を決定してもよい。例えば、情報処理装置１０は、モデルＭ１の学習時にマスキング種別を決定してもよい。この場合、情報処理装置１０は、モデルＭ１の学習時に決定されたマスキング種別を示すマスキングリストを用いて、マスキング種別を決定してもよい。例えば、情報処理装置１０は、モデルＭ１のブロックＢＬごとに種別の組み合わせのうち、一部の種別をマスキング種別の候補としてモデルＭ１の精度を測定する。情報処理装置１０は、マスキング種別の候補を変更しながら所定の回数、モデルＭ１の精度を測定し、最も精度が良かった時にマスキング種別の候補となっていた種別をマスキング種別に決定してもよい。

〔８．知見及び実験結果について〕
ここから、上述した処理により生成したモデルを基に得た知見及び実験結果を示す。

〔８－１．知見〕
まず、図１５を用いて、知見について説明する。図１５は、知見に関するグラフを示す図である。具体的には、図１５のグラフＲＳ１の横軸がブロックの数、縦軸が精度を示す。知見は、実験（測定）により、ブロックの数と精度との関係について得られた知見を示す。例えば、知見では、ブロックの数を増やしながらモデル（以下「対象モデル」ともいう）を生成し、その対象モデルの精度を測定した場合の結果を示す。なお、対象モデルの生成では、上述したように書くブロックで用いるデータの種別の組み合わせの最適化の処理も行われる。

図１５では、モデルの精度の基準となる指標が「オフライン指標＃１」である場合を示す。図１５中の「オフライン指標＃１」は、モデルの精度の基準となる指標を示す。オフライン指標＃１は、そのモデルが出力したスコアの高い方から順に候補を抽出し、その抽出した候補の中に正解が含まれる割合を示す。例えば、オフライン指標＃１は、ユーザの行動データをモデルに入力し、対象書籍のうち、そのモデルが出力したスコアの高い方から順に５件を抽出し、その５件の中にそのユーザが実際に（例えば対応するページ等のコンテンツを）閲覧した書籍が含まれる割合を示す。すなわち、オフライン指標＃１は、その値が大きい程、そのモデルの性能（推論の精度）が高いことを示す。

図１５に示す実験結果は、対象モデルに含まれるブロックの数を１、２、３と増価させた場合のオフライン指標＃１の値の変化を示す。なお、図１５中の各プロット近傍に示す数字は対応するブロックの数での対象モデルのサイズ（モデルサイズ）を示す。具体的には、ブロックの数が「１」である場合の対象モデルのサイズは５２Ｍであることを示し、ブロックの数が「２」である場合の対象モデルのサイズは６１Ｍであることを示し、ブロックの数が「３」である場合の対象モデルのサイズは６８Ｍであることを示す。

図１５のグラフＲＳ１に示すように、ブロックの数と精度との間には相関性があることを示す。具体的には、図１５のグラフＲＳ１に示すように、ブロックの数が増えるほど、精度が向上することが示された。このように、種別の組み合わせを最適化しながら、ブロックの数を増やして行くことで、精度が向上することが示された。

〔８－２．実験結果〕
実験結果の一例について図１６及び図１７を用いて説明する。図１６及び図１７は、実験結果の一覧を示す図である。例えば、図１６は、実サービスデータを用いた多クラス分類タスクにおける評価結果を示す。また、図１７は、実サービスデータを用いた二値分類タスクにおける評価結果を示す。

〔８－２－１．多クラス分類〕
図１６では、サービスＡ、Ｂ、Ｃ、Ｄの４つのサービスの各々のデータセット＃１～＃４を用いた場合の実験結果を示す。なお、サービスＡ、Ｂ、Ｃ、Ｄといった抽象的な名称で示すが、サービスＡ、Ｂ、Ｃ、Ｄは、例えば情報提供サービス、書籍販売サービス、旅行サービス等の具体的なサービスである。例えば、サービスＡは、いわゆるＱ＆Ａサービス（情報提供サービス）であり、サービスＢは、Ｗｅｂ版の書籍販売サービスであり、サービスＣは、アプリ版の書籍販売サービスであり、サービスＤは、旅行サービスである。例えば、サービスＡに対応する実験結果は、回答者にマッチした質問の抽出に関する結果であり、サービスＢ～Ｄの各々に対応する実験結果は、各々対応するサービスでのレコメンデーションに関する結果である。なお、上述した内容と同様の点については適宜説明を省略する。

図１６では、モデルの精度の基準となる指標が「オフライン指標＃１」である場合を示す。また、図１６中の一覧のうち、「従来例＃１」は、第１の従来例を示す。また、図１６中の一覧のうち、「本手法」は、上述した処理により生成されたモデルの精度を示す。

図１６に示す実験結果の各欄に示す値は、各手法について対応するデータセットを用いた場合の精度を示す。例えば、「従来例＃１」と「データセット＃１（サービスＡ）」とに対応する欄に表記された「０．３５３３５」は、サービスＡのデータセット＃１を対象とした場合の従来例＃１の精度が０．３５３３５であることを示す。また、「従来例＃１」と「データセット＃２（サービスＢ）」とに対応する欄に表記された「０．１３２９４」は、サービスＢのデータセット＃２を対象とした場合の従来例＃１の精度が０．１３２９４であることを示す。

また、「本手法」と「データセット＃１（サービスＡ）」とに対応する欄に表記された「０．４８５９２」は、サービスＡのデータセット＃１を対象とした場合の本手法の精度が０．４８５９２であることを示す。また、「本手法」と「データセット＃２（サービスＢ）」とに対応する欄に表記された「０．１６５６５」は、サービスＢのデータセット＃２を対象とした場合の本手法の精度が０．１６５６５であることを示す。

また、「Performance Improvement Rate」に対応する欄に示す数値は、「本手法」を採用した場合の「従来例＃１」からの精度の向上率を示す。例えば、「Performance Improvement Rate」と「データセット＃１（サービスＡ）」とに対応する欄に表記された「＋３７．６％」は、サービスＡのデータセット＃１を対象とした場合について、本手法は、従来例＃１よりも精度が３７．６％向上したことを示す。また、「Performance Improvement Rate」と「データセット＃２（サービスＢ）」とに対応する欄に表記された「＋２４．６％」は、サービスＡのデータセット＃２を対象とした場合について、本手法は、従来例＃１よりも精度が２４．６％向上したことを示す。

同様に、サービスＣのデータセット＃３を対象とした場合について、本手法は、従来例＃１よりも精度が２３．０％向上したことを示す。また、サービスＤのデータセット＃４を対象とした場合について、本手法は、従来例＃１よりも精度が２４．３％向上したことを示す。図１６に示すように、本手法は、多クラス分類タスクにおいて、従来例＃１から精度の改善（上昇）が見られた。

〔８－２－２．二値分類〕
図１７では、サービスＥ、Ｆの２つのサービスの各々のデータセット＃５、＃６を用いた場合の実験結果を示す。なお、サービスＥ、Ｆといった抽象的な名称で示すが、サービスＥ、Ｆは、例えば情報提供サービス、書籍版売サービス、旅行サービス等の具体的なサービスである。例えば、サービスＥは、ショッピングサービスであり、サービスＦは、ポータルサイトでの情報提供サービスである。例えば、サービスＥに対応する実験結果は、広告のＣＴＲ（クリック率）の予測に関する結果であり、サービスＦに対応する実験結果は、ポータルサイトの所定の表示欄に表示する記事の選択に関する結果である。なお、上述した内容と同様の点については適宜説明を省略する。

図１７では、モデルの精度の基準となる指標が「ＡＵＣ」である場合を示す。このよに、図１７ではＡＵＣ（Area Under the Curve）を基にモデルの精度を評価した場合を示す。すなわち、図１７ではＡＵＣの値が大きい程、そのモデルの性能（推論の精度）が高いことを示す。また、図１７中の一覧のうち、「従来例＃１」は、第１の従来例を示す。また、図１７中の一覧のうち、「本手法」は、上述した処理により生成されたモデルの精度を示す。

図１７に示す実験結果の各欄に示す値は、各手法について対応するデータセットを用いた場合の精度を示す。例えば、「従来例＃１」と「データセット＃５（サービスＥ）」とに対応する欄に表記された「０．７８１２」は、サービスＥのデータセット＃５を対象とした場合の従来例＃１の精度が０．７８１２であることを示す。また、「従来例＃１」と「データセット＃６（サービスＦ）」とに対応する欄に表記された「０．８４８４」は、サービスＦのデータセット＃６を対象とした場合の従来例＃１の精度が０．８４８４であることを示す。

また、「本手法」と「データセット＃５（サービスＥ）」とに対応する欄に表記された「０．７８４６」は、サービスＥのデータセット＃５を対象とした場合の本手法の精度が０．７８４６であることを示す。また、「本手法」と「データセット＃６（サービスＦ）」とに対応する欄に表記された「０．８５４５」は、サービスＦのデータセット＃６を対象とした場合の本手法の精度が０．８５４５であることを示す。

また、「Performance Improvement Rate」に対応する欄に示す数値は、「本手法」を採用した場合の「従来例＃１」からの精度の向上率を示す。例えば、「Performance Improvement Rate」と「データセット＃５（サービスＥ）」とに対応する欄に表記された「＋０．４４％」は、サービスＥのデータセット＃５を対象とした場合について、本手法は、従来例＃１よりも精度が０．４４％向上したことを示す。また、「Performance Improvement Rate」と「データセット＃６（サービスＦ）」とに対応する欄に表記された「＋０．７２％」は、サービスＦのデータセット＃６を対象とした場合について、本手法は、従来例＃１よりも精度が０．７２％向上したことを示す。

図１７に示すように、本手法は、二値分類タスクにおいて、従来例＃１から精度の改善（上昇）が見られた。例えば、二値分類タスクにおいては、多クラス分類タスクと比べてSparse Classifier Model等、スパースな分類モデル（「スパースモデル」ともいう）等で大幅な精度向上を得ることが難しい。

ここで、ＤＮＮといったニューラルネットワーク等のモデルにおける汎化誤差は、モデルの表現力に関する誤差（「第１誤差」ともいう）である近似誤差と、モデルのサイズ（大きさ）に関する誤差（「第２誤差」ともいう）である複雑性誤差と、モデルの学習に関する誤差（「第３誤差」ともいう）である最適化誤差とに分解され得る。一般的に、二値分類タスクは、多クラス分類タスクと比べて、複雑性誤差が小さい。したがって、二値分類タスクにおいては、第２誤差（複雑性誤差）を低減するだけでは、多クラス分類タスクで得られるような精度向上を得ることが難しい場合がある。

そのため、二値分類タスクにおいては、第１誤差（近似誤差）及び第３誤差（最適化誤差）を低減することにより、大きな精度向上を得ることが期待される。また、モデルの表現力に関する第１誤差（近似誤差）については、モデルに対応する特徴空間の次元数を小さくすることで低減させることができる。したがって、二値分類タスクであっても、モデルに対応する特徴空間の次元数を小さくすることで精度向上を得ることが期待される。

「本手法」では、上述したモデルの構成により、第１誤差（近似誤差）及び第３誤差（最適化誤差）を低減することができ、精度向上を得ることができる。例えば、「本手法」では、複数のブロックを有するモデルの構成とすることにより、モデルに対応する特徴空間の次元数を小さくすることができ、第１誤差（近似誤差）を低減させることができる。

図１６及び図１７に示すように、本手法は、多クラス分類及び二値分類のいずれであるかに関わらず、従来例＃１から精度の改善（上昇）が見られた。すなわち、図１６及び図１７に示すように、本手法は、従来例＃１から精度の改善（上昇）が見られた。

〔９．変形例〕
上記では、情報処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、提供処理の変形例について説明する。

〔９－１．装置構成〕
上記実施形態では、情報処理システム１に、生成指標の生成を行う情報処理装置１０、および、生成指標に従ってモデルを生成するモデル生成サーバ２を有する例について説明したが、実施形態は、これに限定されるものではない。例えば、情報処理装置１０は、モデル生成サーバ２が有する機能を有していてもよい。また、情報処理装置１０が発揮する機能は、端末装置３に内包されていてもよい。このような場合、端末装置３は、生成指標を自動的に生成するとともに、モデル生成サーバ２を用いたモデルの生成を自動的に行うこととなる。

〔９－２．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔９－３．プログラム〕
また、上述してきた実施形態に係る情報処理装置１０は、例えば図１８に示すような構成のコンピュータ１０００によって実現される。図１８は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報処理装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

〔１０．効果〕
上述したように、情報処理装置１０は、第１入力層（例えば実施形態では入力層ＥＬ１０）からの出力が入力される第１ブロック（例えば実施形態ではブロックＢＬ１）、及び第１入力層とは異なる第２入力層（例えば実施形態では入力層ＥＬ２０）からの出力が入力される第２ブロック（例えば実施形態ではブロックＢＬ２）を含む複数のブロックを有するモデル（例えば実施形態ではモデルＭ１）の学習に用いられ、複数の種別の情報が含まれる学習データを取得する取得部（実施形態では取得部４１）と、学習データを用いた学習において複数のブロックの各々へ入力されるデータに含まれる種別を選択し、複数の種別のうち、選択された種別の組み合わせが第１組み合わせである第１データを第１入力層から第１ブロックへの入力とし、選択された種別の組み合わせが第２組み合わせである第２データを第２入力層から第２ブロックへの入力としてモデルを生成する生成部（実施形態では生成部４４）とを有する。これにより、情報処理装置１０は、柔軟な入力データの利用が可能なモデルを生成することができる。

また、生成部は、第１入力層から第１ブロックへ入力される第１データに含まれる種別の第１組み合わせと、第２入力層から第２ブロックへ入力される第２データに含まれる種別の第２組み合わせとが異なるモデルを生成する。これにより、情報処理装置１０は、各々のブロックで用いるデータの種別を任意に選択することができるため、柔軟な入力データの利用が可能なモデルを生成することができる。

また、生成部は、複数のブロックの各々へ入力されるデータに含まれる種別の組み合わせを最適化するための処理により、第１組み合わせの第１データが第１ブロックへ入力され、第２組み合わせの第２データが第２ブロックへ入力されるモデルを生成する。これにより、情報処理装置１０は、種別の組み合わせを最適化するための処理により、柔軟な入力データの利用が可能なモデルを生成することができる。

また、生成部は、遺伝的アルゴリズムに基づく処理により、第１組み合わせの第１データが第１ブロックへ入力され、第２組み合わせの第２データが第２ブロックへ入力されるモデルを生成する。これにより、情報処理装置１０は、遺伝的アルゴリズムに基づく処理により、柔軟な入力データの利用が可能なモデルを生成することができる。

また、生成部は、第１ブロックに含まれるモジュールの数が第１数であり、第２ブロックに含まれるモジュールの数が第２数であるモデルを生成する。これにより、情報処理装置１０は、各々のモジュール数が任意に決定可能な複数のモデルを生成することができるとともに、柔軟な入力データの利用が可能なモデルを生成することができる。

また、生成部は、第１数のモジュールが含まれる第１ブロックと、第１数とは異なる第２数のモジュールが含まれる第２ブロックを有するモデルを生成する。これにより、情報処理装置１０は、各々のモジュール数が任意に決定可能な複数のモデルを生成することができるとともに、柔軟な入力データの利用が可能なモデルを生成することができる。

また、種別は、学習データに含まれる情報が該当する属性である。このように、情報処理装置１０は、学習データに含まれる情報が該当する属性である種別のうち、処理に用いる種別をブロックごとに選択することができ、柔軟な入力データの利用が可能なモデルを生成することができる。

また、種別は、学習データが属するカテゴリを含む。このように、情報処理装置１０は、学習データが属するカテゴリを含む種別のうち、処理に用いる種別をブロックごとに選択することができ、柔軟な入力データの利用が可能なモデルを生成することができる。

また、種別は、学習データが取引対象の取引履歴である場合、種別は、取引対象に関する種別を含む。このように、情報処理装置１０は、取引対象に関する種別を含む種別のうち、処理に用いる種別をブロックごとに選択することができ、柔軟な入力データの利用が可能なモデルを生成することができる。

また、種別は、学習データが取引対象の取引履歴である場合、種別は、取引対象の提供者に関する種別を含む。このように、情報処理装置１０は、取引対象の提供者に関する種別を含む種別のうち、処理に用いる種別をブロックごとに選択することができ、柔軟な入力データの利用が可能なモデルを生成することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理システム
２モデル生成サーバ
３端末装置
１０情報処理装置
２０通信部
３０記憶部
４０制御部
４１取得部
４２決定部
４３受付部
４４生成部
４５処理部（推論部）
４６提供部

Claims

コンピュータが実行する情報処理方法であって、
第１入力層からの出力が入力される第１ブロックであって、２つ以上のモジュールが直列的に接続されるとともに、少なくとも一の階層のモジュールの入力が前記一の階層の次の階層以降の階層の入力として接続される第１ブロック、及び前記第１入力層とは異なる第２入力層からの出力が入力される第２ブロックを含む複数のブロックを有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する取得工程と、
前記学習データを用いた学習において前記複数のブロックの各々へ入力されるデータに含まれる種別を選択し、前記複数の種別のうち、選択された種別の組み合わせが第１組み合わせである第１データを前記第１入力層から前記第１ブロックへの入力とし、選択された種別の組み合わせが第２組み合わせである第２データを前記第２入力層から前記第２ブロックへの入力として前記モデルを生成する生成工程と、
を含むことを特徴とする情報処理方法。
前記生成工程は、
前記第１入力層から前記第１ブロックへ入力される前記第１データに含まれる種別の前記第１組み合わせと、前記第２入力層から前記第２ブロックへ入力される前記第２データに含まれる種別の前記第２組み合わせとが異なる前記モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。
前記生成工程は、
前記複数のブロックの各々へ入力されるデータに含まれる種別の組み合わせを最適化するための処理により、前記第１組み合わせの前記第１データが前記第１ブロックへ入力され、前記第２組み合わせの前記第２データが前記第２ブロックへ入力される前記モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。
前記生成工程は、
遺伝的アルゴリズムに基づく処理により、前記第１組み合わせの前記第１データが前記第１ブロックへ入力され、前記第２組み合わせの前記第２データが前記第２ブロックへ入力される前記モデルを生成する
ことを特徴とする請求項３に記載の情報処理方法。
前記生成工程は、
前記第１ブロックに含まれるモジュールの数が第１数であり、前記第２ブロックに含まれるモジュールの数が第２数である前記モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。
前記生成工程は、
前記第１数のモジュールが含まれる前記第１ブロックと、前記第１数とは異なる前記第２数のモジュールが含まれる前記第２ブロックを有する前記モデルを生成する
ことを特徴とする請求項５に記載の情報処理方法。
前記種別は、前記学習データに含まれる情報が該当する属性である
ことを特徴とする請求項１に記載の情報処理方法。
前記種別は、前記学習データが属するカテゴリを含む
ことを特徴とする請求項１に記載の情報処理方法。
前記学習データが取引対象の取引履歴である場合、前記種別は、前記取引対象に関する種別を含む
ことを特徴とする請求項１に記載の情報処理方法。
前記学習データが取引対象の取引履歴である場合、前記種別は、前記取引対象の提供者に関する種別を含む
ことを特徴とする請求項１に記載の情報処理方法。
第１入力層からの出力が入力される第１ブロックであって、２つ以上のモジュールが直列的に接続されるとともに、少なくとも一の階層のモジュールの入力が前記一の階層の次の階層以降の階層の入力として接続される第１ブロック、及び前記第１入力層とは異なる第２入力層からの出力が入力される第２ブロックを含む複数のブロックを有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する取得部と、
前記学習データを用いた学習において前記複数のブロックの各々へ入力されるデータに含まれる種別を選択し、前記複数の種別のうち、選択された種別の組み合わせが第１組み合わせである第１データを前記第１入力層から前記第１ブロックへの入力とし、選択された種別の組み合わせが第２組み合わせである第２データを前記第２入力層から前記第２ブロックへの入力として前記モデルを生成する生成部と、
を有する情報処理装置。
第１入力層からの出力が入力される第１ブロックであって、２つ以上のモジュールが直列的に接続されるとともに、少なくとも一の階層のモジュールの入力が前記一の階層の次の階層以降の階層の入力として接続される第１ブロック、及び前記第１入力層とは異なる第２入力層からの出力が入力される第２ブロックを含む複数のブロックを有するモデルの学習に用いられ、複数の種別の情報が含まれる学習データを取得する取得手順と、
前記学習データを用いた学習において前記複数のブロックの各々へ入力されるデータに含まれる種別を選択し、前記複数の種別のうち、選択された種別の組み合わせが第１組み合わせである第１データを前記第１入力層から前記第１ブロックへの入力とし、選択された種別の組み合わせが第２組み合わせである第２データを前記第２入力層から前記第２ブロックへの入力として前記モデルを生成する生成手順と、
をコンピュータに実行させるための情報処理プログラム。