JP7268069B2

JP7268069B2 - 学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラム

Info

Publication number: JP7268069B2
Application number: JP2021020205A
Authority: JP
Inventors: 慎一郎岡本
Original assignee: アクタピオ，インコーポレイテッド
Priority date: 2020-02-21
Filing date: 2021-02-10
Publication date: 2023-05-02
Anticipated expiration: 2041-02-10
Also published as: JP2021136025A; US20210264264A1

Description

本発明は、学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラムに関する。

近年、ＳＶＭ（Support vector machine）やＤＮＮ（Deep Neural Network）等の各種モデルに対し、学習データが有する特徴を学習させることで、モデルに各種の予測や分類を行わせる技術が提案されている。このような学習手法の一例として、ハイパーパラメータの値等に応じて、学習データの学習態様を動的に変化させる技術が提案されている。

特開２０１９－１６４７９３号公報

しかしながら、上述した技術では、モデルの精度を改善する余地が存在する。

しかしながら、上述した技術では、モデルの精度を改善させる余地がある。例えば、上述した例では、ハイパーパラメータの値等に応じて、特徴の学習対象となる学習データを動的に変化させているに過ぎない。このため、ハイパーパラメータの値が適切ではない場合、モデルの精度を改善することができない場合がある。

また、モデルの精度は、学習データがどのような値のデータであるか、学習データがどのような特徴を有しているか、どの特徴を学習させるか等に応じて変化することが知られている。また、モデルの精度は、学習データをモデルに学習させる際の学習態様、すなわち、ハイパーパラメータが示す学習態様によっても変化する。このような多くの要素の中から、利用者の目的に応じたモデルを学習するために最適な要素を選択するのは、容易ではない。

本願は、上記に鑑みてなされたものであって、モデルの精度を改善することを目的とする。

本願に係る学習装置は、所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から、当該複数の種別の素性の組に対応する値を生成する生成部と、前記生成部が生成した値を用いて、前記所定の対象の特徴をモデルに学習させる学習部とを有することを特徴とする。

実施形態の一態様によれば、モデルの精度を改善することができる。

図１は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。図２は、実施形態に係る情報提供装置が生成する素性組の値の一例を示す図である。図３は、実施形態に係る情報提供装置の構成例を示す図である。図４は、実施形態に係る学習データベースに登録される情報の一例を示す図である。図５は、実施形態に係る生成条件データベースに登録される情報の一例を示す図である。図６は、実施形態に係る学習処理および評価処理の流れの一例を示すフローチャートである。図７は、素性組を用いた場合と素性組を用いなかった場合とにおける精度の比較例を示す図である。図８は、素性組を用いた場合におけるモデルサイズと平均損失との関係性の実験結果を示す図である。図９は、素性組を用いた場合と素性組を用いなかった場合とにおける精度の遷移例を示す図である。図１０は、有用な素性組のみを用いて学習を行った場合における精度の遷移例を示す図である。図１１は、有用な素性組を用いて学習を行ったモデルにおけるＣＴＲ予測の精度の一例を示す図である。図１２は、素性組の評価結果に応じて学習を行ったモデルにおける精度の一例について説明する図である。図１３は、ハードウェア構成の一例を示す図である。

以下に、本願に係る学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報提供装置について〕
まず、図１を用いて、学習装置および評価装置の一例である情報提供装置１０が実行する処理の一例について説明する。図１は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。図１では、情報提供装置１０を有する情報提供システム１の一例について記載した。

〔１－１．情報提供システムの構成〕
図１に示すように、情報提供システム１は、情報提供装置１０、モデル生成サーバ２、および端末装置３を有する。なお、情報提供システム１は、複数のモデル生成サーバ２や複数の端末装置３を有していてもよい。また、情報提供装置１０と、モデル生成サーバ２とは、同一のサーバ装置やクラウドシステム等により実現されてもよい。ここで、情報提供装置１０、モデル生成サーバ２、および端末装置３は、ネットワークＮ（例えば、図３６参照）を介して有線または無線により通信可能に接続される。

情報提供装置１０は、モデルの生成における指標（すなわち、モデルのレシピ）である生成指標を生成する指標生成処理と、生成指標に従ってモデルを生成するモデル生成処理とを実行し、生成した生成指標およびモデルを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。

さらに、情報提供装置１０は、ある対象における複数の素性の組（以下、「素性組」と記載する。）を１つの素性とみなして、素性組と対応する値（すなわち、対象における複数の素性の組を示す値）を生成し、生成した値を用いたモデルの学習を行う学習処理、および、学習処理の結果に基づいて、素性組を評価する評価処理を実行する。

モデル生成サーバ２は、学習データが有する特徴を学習させたモデルを生成する生成装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、モデル生成サーバ２は、モデルの生成指標として、生成するモデルの種別や行動、どのように学習データの特徴を学習させるかといったコンフィグファイルを受付けると、受付けたコンフィグファイルに従って、モデルの自動生成を行う。なお、モデル生成サーバ２は、任意のモデル学習手法を用いて、モデルの学習を行ってもよい。また、例えば、モデル生成サーバ２は、ＡｕｔｏＭＬといった各種既存のサービスであってもよい。

端末装置３は、利用者Ｕによって利用される端末装置であり、例えば、ＰＣ（Personal Computer）やサーバ装置等により実現される。例えば、端末装置３は、情報提供装置１０とのやり取りを介して、モデルの生成指標を生成させ、生成させた生成指標に従ってモデル生成サーバ２が生成したモデルを取得する。

〔１－２．情報提供装置１０が実行する指標生成処理とモデル生成処理との概要〕
以下、学習処理および評価処理の説明に先駆けて、情報提供装置１０が実行する指標生成処理とモデル生成処理とについて説明する。なお、このような指標生成処理やモデル生成処理は、学習装置および評価装置として動作する情報提供装置１０においては、必須の処理ではない。

まず、情報提供装置１０は、端末装置３からモデルに特徴を学習させる学習データの指摘を受付ける。例えば、情報提供装置１０は、学習に用いる各種の学習データを所定の記憶装置に記憶させており、利用者Ｕが学習データに指定する学習データの指摘を受付ける。なお、情報提供装置１０は、例えば、端末装置３や各種外部のサーバから、学習に用いる学習データを取得してもよい。

なお、学習データとは、任意のデータが採用可能である。例えば、情報提供装置１０は、各利用者の位置の履歴や各利用者が閲覧したウェブコンテンツの履歴、各利用者による購買履歴や検索クエリの履歴等、利用者に関する各種の情報を学習データとしてもよい。また、情報提供装置１０は、利用者のデモグラフィック属性やサイコグラフィック属性等を学習データとしてもよい。また、情報提供装置１０は、配信対象となる各種ウェブコンテンツの種別や内容、作成者等のメタデータ等を学習データとしてもよい。

このような場合、情報提供装置１０は、学習に用いる学習データの統計的な情報に基づいて、生成指標の候補を生成する。例えば、情報提供装置１０は、学習データに含まれる値の特徴等に基づいて、どのようなモデルに対し、どのような学習手法により学習を行えばよいかを示す生成指標の候補を生成する。換言すると、情報提供装置１０は、学習データの特徴を精度よく学習可能なモデルやモデルに精度よく特徴を学習させるための学習手法を生成指標として生成する。すなわち、情報提供装置１０は、学習手法の最適化を行う。

続いて、情報提供装置１０は、生成指標の候補を端末装置３に対して提供する。このような場合、利用者Ｕは、生成指標の候補を嗜好や経験則等に応じて修正する。そして、情報提供装置１０各生成指標の候補と学習データとをモデル生成サーバ２に提供する。

一方、モデル生成サーバ２は、生成指標ごとに、モデルの生成を行う。例えば、モデル生成サーバ２は、生成指標が示す構造を有するモデルに対し、生成指標が示す学習手法により学習データが有する特徴を学習させる。そして、モデル生成サーバ２は、生成したモデルを情報提供装置１０に提供する。

ここで、モデル生成サーバ２によって生成された各モデルは、それぞれ生成指標の違いに由来する精度の違いが生じると考えられる。そこで、情報提供装置１０は、各モデルの精度に基づいて、遺伝的アルゴリズムにより新たな生成指標を生成し、新たに生成した生成指標を用いたモデルの生成を繰り返し実行する。

例えば、情報提供装置１０は、学習データを評価用データと学習用データとに分割し、学習用データが有する特徴を学習させたモデルであって、それぞれ異なる生成指標に従って生成された複数のモデルを取得する。例えば、情報提供装置１０は、１０個の生成指標を生成し、生成した１０個の生成指標と、学習用データとを用いて、１０個のモデルを生成する。このような場合、情報提供装置１０は、評価用データを用いて、１０個のモデルそれぞれの精度を測定する。

続いて、情報提供装置１０は、１０個のモデルのうち、精度が高い方から順に所定の数のモデル（例えば、５個）のモデルを選択する。そして、情報提供装置１０は、選択した５個のモデルを生成した際に採用された生成指標から、新たな生成指標を生成する。例えば、情報提供装置１０は、各生成指標を遺伝的アルゴリズムの個体と見做し、各生成指標が示すモデルの種別、モデルの構造、各種の学習手法（すなわち、生成指標が示す各種の指標）を遺伝的アルゴリズムにおける遺伝子と見做す。そして、情報提供装置１０は、遺伝子の交叉を行う個体の選択および遺伝子の交叉を行うことで、次世代の生成指標を１０個新たに生成する。なお、情報提供装置１０は、遺伝子の交叉を行う際に、突然変異を考慮してもよい。また、情報提供装置１０は、二点交叉、多点交叉、一様交叉、交叉対象となる遺伝子のランダムな選択を行ってもよい。また、情報提供装置１０は、例えば、モデルの精度が高い個体の遺伝子程、次世代の個体に引き継がれるように、交叉を行う際の交叉率を調整してもよい。

また、情報提供装置１０は、次世代の生成指標を用いて、再度新たな１０個のモデルを生成する。そして、情報提供装置１０は、新たな１０個のモデルの精度に基づいて、上述した遺伝的アルゴリズムによる新たな生成指標の生成を行う。このような処理を繰り返し実行することで、情報提供装置１０は、生成指標を学習データの特徴に応じた生成指標、すなわち、最適化された生成指標へと近づけることができる。

また、情報提供装置１０は、所定の回数新たな生成指標を生成した場合や、モデルの精度の最大値、平均値、若しくは最低値が所定の閾値を超えた場合等、所定の条件が満たされた場合は、最も精度が高いモデルを提供対象として選択する。そして、情報提供装置１０は、選択したモデルと共に、対応する生成指標を端末装置３に提供する。このような処理の結果、情報提供装置１０は、利用者から学習データを選択するだけで、適切なモデルの生成指標を生成するとともに、生成した生成指標に従うモデルを提供することができる。

なお、上述した例では、情報提供装置１０は、遺伝的アルゴリズムを用いて生成指標の段階的な最適化を実現したが、実施形態は、これに限定されるものではない。後述する説明で明らかとなるように、モデルの精度は、モデルの種別や構造といったモデルそのものの特徴のみならず、どのような学習データをどのようにモデルに入力するのか、どのようなハイパーパラメータを用いてモデルの学習を行うのかというように、モデルを生成する際（すなわち、学習データの特徴を学習させる際）の指標に応じて大きく変化する。

そこで、情報提供装置１０は、学習データに応じて、最適と推定される生成指標を生成するのであれば、遺伝的アルゴリズムを用いた最適化を行わずともよい。例えば、情報提供装置１０は、学習データが、経験則に応じて生成された各種の条件を満たすか否かに応じて生成した生成指標を利用者に提示するとともに、提示した生成指標に従ったモデルの生成を行ってもよい。また、情報提供装置１０は、提示した生成指標の修正を受付けると、受付けた修正後の生成指標に従ってモデルの生成を行い、生成したモデルの精度等を利用者に対して提示し、再度生成指標の修正を受付けてもよい。すなわち、情報提供装置１０は、利用者Ｕに最適な生成指標を試行錯誤させてもよい。

〔１－３．生成指標の生成について〕
ここで、どのような学習データに対して、どのような生成指標を生成するかについては、各種任意の技術が採用可能である。以下の説明では、情報提供装置１０が生成する生成指標の一例について、概要を説明するが、実施形態は、これに限定されるものではない。

〔１－３－１．生成指標について〕
まず、生成指標が示す情報の一例について説明する。例えば、学習データが有する特徴をモデルに学習させる場合、学習データをモデルに入力する際の態様、モデルの態様、およびモデルの学習態様（すなわち、ハイパーパラメータが示す特徴）が最終的に得られるモデルの精度に寄与すると考えられる。そこで、情報提供装置１０は、学習データの特徴に応じて、各態様を最適化した生成指標を生成することで、モデルの精度を向上させる。

例えば、学習データには、様々なラベルが付与されたデータ、すなわち、様々な特徴を示すデータが存在すると考えられる。しかしながら、データを分類する際に有用ではない特徴を示すデータを学習データとした場合、最終的に得られるモデルの精度は、悪化する恐れがある。そこで、情報提供装置１０は、学習データをモデルに入力する際の態様として、入力する学習データが有する特徴を決定する。例えば、情報提供装置１０は、学習データのうち、どのラベルが付与されたデータ（すなわち、どの特徴を示すデータ）を入力するかを決定する。換言すると、情報提供装置１０は、入力する特徴の組み合わせを最適化する。

また、学習データには、数値のみのデータや文字列が含まれるデータ等、各種形式のカラムが含まれていると考えられる。このような学習データをモデルに入力する際に、そのまま入力した場合と、他の形式のデータに変換した場合とで、モデルの精度が変化するとも考えられる。例えば、複数種別の学習データ（それぞれ異なる特徴を示す学習データ）であって、文字列の学習データを数値の学習データとを入力する際に、文字列と数値とをそのまま入力した場合と、文字列を数値に変換して数値のみを入力した場合と、数値を文字列と見做して入力した場合とでは、それぞれモデルの精度が変化すると考えられる。そこで、情報提供装置１０は、モデルに入力する学習データの形式を決定する。例えば、情報提供装置１０は、モデルに入力する学習データを数値とするか、文字列とするかを決定する。換言すると、情報提供装置１０は、入力する特徴のカラムタイプを最適化する。

また、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせを同時に入力するかによって、モデルの精度が変化すると考えられる。すなわち、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせの特徴（すなわち、複数の特徴の組み合わせの関係性）を学習させるかにより、モデルの精度が変化すると考えられる。例えば、第１特徴（例えば、性別）を示す学習データと、第２特徴（例えば、住所）を示す学習データと、第３特徴（例えば、購買履歴）を示す学習データとが存在する場合、第１特徴を示す学習データと第２特徴を示す学習データとを同時に入力した場合と、第１特徴を示す学習データと第３特徴を示す学習データとを同時に入力した場合とでは、モデルの精度が変化すると考えられる。そこで、情報提供装置１０は、モデルに関係性を学習させる特徴の組み合わせ（クロスフューチャー）を最適化する。

ここで、各種のモデルは、入力データを所定の超平面により分割された所定次元の空間内に投影し、投影した位置が分割された空間のうちいずれの空間に属するかに応じて、入力データの分類を行うこととなる。このため、入力データを投影する空間の次元数が最適な次元数よりも低い場合は、入力データの分類能力が劣化する結果、モデルの精度が悪化する。また、入力データを投影する空間の次元数が最適な次元数よりも高い場合は、超平面との内積値が変化する結果、学習時に用いたデータとは異なるデータを適切に分類することができなくなる恐れがある。そこで、情報提供装置１０は、モデルに入力する入力データの次元数を最適化する。例えば、情報提供装置１０は、モデルが有する入力層のノードの数を制御することで、入力データの次元数を最適化する。換言すると、情報提供装置１０は、入力データの埋め込みを行う空間の次元数を最適化する。

また、モデルには、ＳＶＭに加え、複数の中間層（隠れ層）を有するニューラルネットワーク等が存在する。また、このようなニューラルネットワークには、入力層から出力層まで一方方向に情報が伝達されるフィードフォワード型のＤＮＮ、中間層で情報の畳み込みを行う畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Networks）、有向閉路を有する回帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、ボルツマンマシン等、各種のニューラルネットワークが知られている。また、このような各種ニューラルネットワークには、ＬＳＴＭ（Long short-term memory）やその他各種のニューラルネットワークが含まれている。

このように、学習データの各種特徴を学習するモデルの種別が異なる場合、モデルの精度は変化すると考えられる。そこで、情報提供装置１０は、学習データの特徴を精度良く学習すると推定されるモデルの種別を選択する。例えば、情報提供装置１０は、学習データのラベルとしてどのようなラベルが付与されているかに応じて、モデルの種別を選択する。より具体的な例を挙げると、情報提供装置１０は、ラベルとして「履歴」に関連する用語が付されたデータが存在する場合は、履歴の特徴をより良く学習することができると考えられるＲＮＮを選択し、ラベルとして「画像」に関連する用語が付されたデータが存在する場合は、画像の特徴をより良く学習することができると考えられるＣＮＮを選択する。これら以外にも、情報提供装置１０は、ラベルがあらかじめ指定された用語若しくは用語と類似する用語であるか否かを判定し、同一若しくは類似すると判定された用語と予め対応付けられた種別のモデルを選択すればよい。

また、モデルの中間層の数や１つの中間層に含まれるノードの数が変化した場合、モデルの学習精度が変化すると考えられる。例えば、モデルの中間層の数が多い場合（モデルが深い場合）、より抽象的な特徴に応じた分類を実現することができると考えらえれる一方で、バックプロパゲーションにおける局所誤差が入力層まで伝播しづらくなる結果、学習が適切に行えなくなる恐れがある。また、中間層に含まれるノードの数が少ない場合は、より高度が抽象化を行うことができるものの、ノードの数が少なすぎる場合は、分類に必要な情報が欠損する可能性が高い。そこで、情報提供装置１０は、中間層の数や中間層に含まれるノードの数の最適化を行う。すなわち、情報提供装置１０は、モデルのアーキテクチャの最適化を行う。

また、アテンションの有無やモデルに含まれるノードに自己回帰がある場合とない場合、どのノード間を接続するのかに応じて、ノードの精度が変化すると考えられる。そこで、情報提供装置１０は、自己回帰を有するか否か、どのノード間を接続するのかといったネットワークの最適化を行う。

また、モデルの学習を行う場合、モデルの最適化手法（学習時に用いるアルゴリズム）やドロップアウト率、ノードの活性化関数やユニット数等がハイパーパラメータとして設定される。このようなハイパーパラメータが変化した場合にも、モデルの精度が変化すると考えられる。そこで、情報提供装置１０は、モデルを学習する際の学習態様、すなわち、ハイパーパラメータの最適化を行う。

また、モデルのサイズ（入力層、中間層、出力層の数やノード数）が変化した場合も、モデルの精度が変化する。そこで、情報提供装置１０は、モデルのサイズの最適化についても行う。

このように、情報提供装置１０は、上述した各種モデルを生成する際の指標について最適化を行う。例えば、情報提供装置１０は、各指標に対応する条件を予め保持しておく。なお、このような条件は、例えば、過去の学習モデルから生成された各種モデルの精度等の経験則により設定される。そして、情報提供装置１０は、学習データが各条件を満たすか否かを判定し、学習データが満たす若しくは満たさない条件に予め対応付けられた指標を生成指標（若しくはその候補）として採用する。この結果、情報提供装置１０は、学習データが有する特徴を精度良く学習可能な生成指標を生成することができる。

なお、上述したように、学習データから自動的に生成指標を生成し、生成指標に従ってモデルを作成する処理を自動的に行った場合、利用者は、学習データの内部を参照し、どのような分布のデータが存在するかといった判断を行わずともよい。この結果、情報提供装置１０は、例えば、モデルの作成に伴ってデータサイエンティスト等が学習データの認識を行う手間を削減するとともに、学習データの認識に伴うプライバシーの毀損を防ぐことができる。

〔１－３－２．データ種別に応じた生成指標〕
以下、生成指標を生成するための条件の一例について説明する。まず、学習データとしてどのようなデータが採用されているかに応じた条件の一例について説明する。

例えば、学習に用いられる学習データには、整数、浮動小数点、若しくは文字列等がデータとして含まれている。このため、入力されるデータの形式に対して適切なモデルを選択した場合は、モデルの学習精度がより高くなると推定される。そこで、情報提供装置１０は、学習データが整数であるか、浮動小数点であるか、若しくは文字列であるかに基いて、生成指標を生成する。

例えば、学習データが整数である場合、情報提供装置１０は、学習データの連続性に基いて、生成指標を生成する。例えば、情報提供装置１０は、学習データの密度が所定の第１閾値を超える場合、当該学習データが連続性を有するデータであると見做し、学習データの最大値が所定の第２閾値を上回るか否かに基いて生成指標を生成する。また、情報提供装置１０は、学習データの密度が所定の第１閾値を下回る場合、当該学習データがスパースな学習データであると見做し、学習データに含まれるユニークな値の数が所定の第３閾値を上回るか否かに基いて生成指標を生成する。

より具体的な例を説明する。なお、以下の例においては、生成指標として、ＡｕｔｏＭＬによりモデルを自動的に生成するモデル生成サーバ２に対して送信するコンフィグファイルのうち、特徴関数（feature function）を選択する処理の一例について説明する。例えば、情報提供装置１０は、学習データが整数である場合、その密度が所定の第１閾値を超えるか否かを判定する。例えば、情報提供装置１０は、学習データに含まれる値のうちユニークな値の数を、学習データの最大値に１を加算した値で除算した値を密度として算出する。

続いて、情報提供装置１０は、密度が所定の第１閾値を超える場合は、学習データが連続性を有する学習データであると判定し、学習データの最大値に１を加算した値が第２閾値を上回るか否かを判定する。そして、情報提供装置１０は、学習データの最大値に１を加算した値が第２閾値を上回る場合は、特徴関数として「Categorical_colum_with_identity & embedding_column」を選択する。一方、情報提供装置１０は、学習データの最大値に１を加算した値が第２閾値を下回る場合は、特徴関数として「Categorical_column_with_identity」を選択する。

一方、情報提供装置１０は、密度が所定の第１閾値を下回る場合は、学習データがスパースであると判定し、学習データに含まれるユニークな値の数が所定の第３閾値を超えるか否かを判定する。そして、情報提供装置１０は、学習データに含まれるユニークな値の数が所定の第３閾値を超える場合は、特徴関数として「Categorical_column_with_hash_bucket & embedding_column」を選択し、学習データに含まれるユニークな値の数が所定の第３閾値を下回る場合は、特徴関数として「Categorical_column_with_hash_bucket」を選択する。

また、情報提供装置１０は、学習データが文字列である場合、学習データに含まれる文字列の種別の数に基いて、生成指標を生成する。例えば、情報提供装置１０は、学習データに含まれるユニークな文字列の数（ユニークなデータの数）を計数し、計数した数が所定の第４閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_list」若しくは／および「categorical_column_with_vocabulary_file」を選択する。また、情報提供装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_file & embedding_column」を選択する。また、情報提供装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を上回る場合は、特徴関数として「categorical_column_with_hash_bucket & embedding_column」を選択する。

また、情報提供装置１０は、学習データが浮動小数点である場合、モデルの生成指標として、学習データをモデルに入力する入力データへの変換指標を生成する。例えば、情報提供装置１０は、特徴関数として「bucketized_column」もしくは「numeric_colum」を選択する。すなわち、情報提供装置１０は、学習データをバケタイズ（グルーピング）し、バケットの番号を入力とするか、数値をそのまま入力するかを選択する。なお、情報提供装置１０は、例えば、各バケットに対して対応付けられる数値の範囲が同程度となるように、学習データのバケタイズを行ってもよく、例えば、各バケットに分類される学習データの数が同程度となるように、各バケットに対して数値の範囲を対応付けてもよい。また、情報提供装置１０は、バケットの数やバケットに対して対応付けられる数値の範囲を生成指標として選択してもよい。

また、情報提供装置１０は、複数の特徴を示す学習データを取得し、モデルの生成指標として、学習データが有する特徴のうちモデルに学習させる特徴を示す生成指標を生成する。例えば、情報提供装置１０は、どのラベルの学習データをモデルに入力するかを決定し、決定したラベルを示す生成指標を生成する。また、情報提供装置１０は、モデルの生成指標として、学習データの種別のうちモデルに対して相関を学習させる複数の種別を示す生成指標を生成する。例えば、情報提供装置１０は、モデルに対して同時に入力するラベルの組み合わせを決定し、決定した組み合わせを示す生成指標を生成する。

また、情報提供装置１０は、モデルの生成指標として、モデルに入力される学習データの次元数を示す生成指標を生成する。例えば、情報提供装置１０は、学習データに含まれるユニークなデータの数やモデルに入力するラベルの数、モデルに入力するラベルの数の組み合わせ、バケットの数等に応じて、モデルの入力層におけるノードの数を決定してもよい。

また、情報提供装置１０は、モデルの生成指標として、学習データの特徴を学習させるモデルの種別を示す生成指標を生成する。例えば、情報提供装置１０は、過去に学習対象とした学習データの密度やスパース具合、ラベルの内容、ラベルの数、ラベルの組み合わせの数等に応じて、生成するモデルの種別を決定し、決定した種別を示す生成指標を生成する。例えば、情報提供装置１０は、ＡｕｔｏＭＬにおけるモデルのクラスとして「BaselineClassifier」、「LinearClassifier」、「DNNClassifier」、「DNNLinearCombinedClassifier」、「BoostedTreesClassifier」、「AdaNetClassifier」、「RNNClassifier」、「DNNResNetClassifier」、「AutoIntClassifier」等を示す生成指標を生成する。

なお、情報提供装置１０は、これら各クラスのモデルの各種独立変数を示す生成指標を生成してもよい。例えば、情報提供装置１０は、モデルの生成指標として、モデルが有する中間層の数若しくは各層に含まれるノードの数を示す生成指標を生成してもよい。また、情報提供装置１０は、モデルの生成指標として、モデルが有するノード間の接続態様を示す生成指標やモデルの大きさを示す生成指標を生成してもよい。これらの独立変数は、学習データが有する各種の統計的な特徴が所定の条件を満たすか否かに応じて、適宜選択されることとなる。

また、情報提供装置１０は、モデルの生成指標として、学習データが有する特徴をモデルに学習させる際の学習態様、すなわち、ハイパーパラメータを示す生成指標を生成してもよい。例えば、情報提供装置１０は、ＡｕｔｏＭＬにおける学習態様の設定において、「stop_if_no_decrease_hook」、「stop_if_no_increase_hook」、「stop_if_higher_hook」、もしくは「stop_if_lower_hook」を示す生成指標を生成してもよい。

すなわち、情報提供装置１０は、学習に用いる学習データのラベルやデータそのものの特徴に基づいて、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を示す生成指標を生成する。より具体的には、情報提供装置１０は、ＡｕｔｏＭＬにおけるモデルの生成を制御するためのコンフィグファイルを生成する。

〔１－３－３．生成指標を決定する順序について〕
ここで、情報提供装置１０は、上述した各種の指標の最適化を同時並行的に行ってもよく、適宜順序だてて実行してもよい。また、情報提供装置１０は、各指標を最適化する順序を変更可能としてもよい。すなわち、情報提供装置１０は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付け、受け付けた順序で、各指標を決定してもよい。

例えば、情報提供装置１０は、生成指標の生成を開始した場合、入力する学習データの特徴や、どのような態様で学習データを入力するかといった入力素性の最適化を行い、続いて、どの特徴の組み合わせの特徴を学習させるかという入力クロス素性の最適化を行う。続いて、情報提供装置１０は、モデルの選択を行うとともに、モデル構造の最適化を行う。その後、情報提供装置１０は、ハイパーパラメータの最適化を行い、生成指標の生成を終了する。

ここで、情報提供装置１０は、入力素性最適化において、入力する学習データの特徴や入力態様といった各種入力素性の選択や修正、遺伝的アルゴリズムを用いた新たな入力素性の選択を行うことで、入力素性を繰り返し最適化してもよい。同様に、情報提供装置１０は、入力クロス素性最適化において、入力クロス素性を繰り返し最適化してもよく、モデル選択およびモデル構造の最適化を繰り返し実行してもよい。また、情報提供装置１０は、ハイパーパラメタ―の最適化を繰り返し実行してもよい。また、情報提供装置１０は、入力素性最適化、入力クロス素性最適化、モデル選択、モデル構造最適化、およびハイパーパラメータの最適化という一連の処理を繰り返し実行し、各指標の最適化を行ってもよい。

また、情報提供装置１０は、例えば、ハイパーパラメータの最適化を行ってから、モデル選択やモデル構造最適化を行ってもよく、モデル選択やモデル構造最適化の後に、入力素性の最適化や入力クロス素性の最適化を行ってもよい。また、情報提供装置１０は、例えば、入力素性最適化を繰り返し実行し、その後入力クロス素性最適化を繰り返し行う。その後、情報提供装置１０は、入力素性最適化と入力クロス素性最適化を繰り返し実行してもよい。このように、どの指標をどの順番で最適化するか、最適化においてどの最適化処理を繰り返し実行するかについては、任意の設定が採用可能となる。

〔１－４．情報提供装置１０が実行する学習処理と評価処理との概要〕
続いて、情報提供装置１０が実行する学習処理と評価処理との概要について説明する。上述したように、ＤＮＮ等のモデルは、入力するデータの種別や形式によりその精度が変化することが知られている。

ここでモデルのサイズを大きくしたり、入力するデータ種別の数を増大させた場合、モデルの精度が向上することが知られている。しかしながら、このような精度の向上は、モデルの種別やモデルに実行させる処理によって異なることが知られている。例えば、ＳＶＭ等といった従来型のモデルにおいては、モデルのサイズやデータ種別を増大させたとしても、精度の向上が見込めなくなる（サチュレーションが生じる）ことが知られている。また、ＤＮＮ等といった複数の隠れ層（中間層）を有するモデルにおいても、画像分類や発話分類、言語翻訳といったタスクについては、モデルのサイズやデータ種別の数を増大させた場合に精度が向上するが、レコメンデーションやＣＴＲ（Click Through Rate）等といった予測を行うタスクについては、モデルのサイズやデータ種別の数を増大させたとしても、サチレーションが生じやすいことが知られている。

このような課題に鑑み、出願人は、学習データのうち複数の素性を組み合わせた素性を新たに設定することで、モデルの精度を向上させることができることを発見した。例えば、利用者の様々な属性を素性として示す学習データが存在するものとする。このような学習データには、利用者の「性別」を素性として示すデータと、利用者の「居住地」を素性として示すデータとが含まれていると考えられる。

ここで、利用者の「性別」を素性として示すデータと、利用者の「居住地」を素性として示すデータとを個別のデータとしてモデルに特徴を学習させた場合、モデルは、各素性を個別の素性として、データの特徴を学習すると考えられる。例えば、モデルは、利用者の「性別」と利用者の「居住地」とをそれぞれ個別に用いて、ヒルベルト空間上のいずれかの位置にデータを投影すると考えられる。しかしながら、このように素性を個別に用いた場合、利用者を適切に分類するモデルを得ることができない場合がある。換言すると、素性を個別に用いた場合、ヒルベルト空間上において、データを適切に分類する超平面（例えば、リニアに分類可能な超平面）を設定できない恐れがある。

例えば、「性別」を示すデータが、利用者を「男性」および「女性」の２クラスに分類するデータであり、「居住地」を示すデータが、利用者を「東京在住」および「東京以外に在住」の２クラスに分類するデータであるとする。このような各素性のデータを個別に用いた場合、モデルは、「男性」の利用者のデータと「女性」の利用者のデータとを、ヒルベルト空間上において異なる領域に投影し、かつ、「東京在住」の利用者のデータと「東京以外に在住」の利用者のデータとを、ヒルベルト空間上において異なる領域に投影すると考えられる。

しかしながら、「男性で東京在住」、「男性で東京以外に在住」、「女性で東京在住」、「女性で東京以外に在住」という素性の組み合わせの観点からモデルを評価した場合、精度が高いとは言えない場合がある。例えば、ヒルベルト空間の次元数が多い場合、各素性を個別に用いたモデルは、「男性で東京在住」の利用者のデータと「女性で東京に在住」の利用者のデータとを、ヒルベルト空間上において遠い位置に投影するものの、「男性で東京在住」の利用者のデータと「男性で東京以外に在住」の利用者のデータとを、ヒルベルト空間上において近い位置に投影してしまう恐れがある。

このため、モデルの予測対象が、「男性で東京在住」、「男性で東京以外に在住」、「女性で東京在住」、「女性で東京以外に在住」というように、「性別」と「居住地」との組合せと関連性が高いものである場合、「性別」と「居住地」とをそれぞれ個別に用いて学習を行ったモデルは、適切に利用者のデータを分類することができなくなる。また、このような分類の問題は、モデルがデータを投影するヒルベルト空間上における次元数が増大する度に、顕著に表れる可能性がある。

一方で、モデルの予測対象が、「性別」と「居住地」との組合せと関連性が高いものである場合、学習データとして、「性別」と「居住地」との組合せを示す値を生成し、生成した値を用いてモデルの学習を行うことで、モデルの精度を向上させることができると考えられる。換言すると、このような素性の組の値を学習したモデルは、分類対象である利用者の「性別」と「居住地」との組合せの違いを、適切にヒルベルト空間上の距離へと反映させることができるので、分類対象を適切に分類することができると考えられる。

そこで、情報提供装置１０は、利用者等、各種対象のデータのうち、いずれかの素性の組み合わせを新たな素性と見做し、新たな素性のデータを用いて、所定の対象の特徴をモデルに学習させる。換言すると、情報提供装置１０は、学習データから入力クロス素性（Feature Crosses）を示す値を生成し、生成した値を用いて、モデルの学習を行う。

例えば、情報提供装置１０は、利用者の素性「性別」を２クラスで示す学習データと、利用者の素性「居住地」を２クラスで示す学習データとが存在する場合、「性別」と「居住地」との組を素性とする４クラスの学習データを生成する。すなわち、情報提供装置１０は、複数の素性の値の組み合わせを示す学習データ（素性の積を示す学習データ）を生成する。そして、情報提供装置１０は、生成した学習データを用いて、モデルの学習を行う。

このような処理の結果、情報提供装置１０は、素性の組み合わせに応じて、分類対象を分類することができるので、実際の分類結果が素性の組み合わせと関連性が高い場合であっても、分類対象を適切に分類することができるモデルの学習を実現することができる。

〔１－４－１．情報提供装置１０が実行する処理の一例〕
以下、情報提供装置１０が実行する学習処理および評価処理の一例について説明する。なお、以下の説明では、情報提供装置１０は、上述した指標生成処理やモデル生成処理により生成されたモデルに対し、以下の学習処理や評価処理を行うものとする。

まず、情報提供装置１０は、利用者Ｕから制約条件の提供を受付ける（ステップＳ１）。ここで、制約条件とは、どのような素性の組（以下、「素性組」と総称する場合がある。）を学習データに用いるかを示す情報である。情報提供装置１０は、このような制約条件に基づいて、素性組の生成を行う（ステップＳ２）。

例えば、情報提供装置１０は、制約条件として、素性組に含める素性の候補、素性組に含める素性の数若しくは数の範囲、生成する素性組の数、素性組の値の種別等の指定を受付ける。このような場合、情報提供装置１０は、制約条件に従って、素性組の生成を行う。なお、このような制約条件が指定されていない場合、情報提供装置１０は、ランダムに素性組の生成を行ってもよい。

例えば、情報提供装置１０は、素性組に含まれる素性の候補として「素性＃１」および「素性＃２」および「素性＃３」が指定されている場合、これらの候補の組み合わせとなる素性組を生成する。例えば、情報提供装置１０は、「素性＃１」と「素性＃２」を組み合わせた素性組、「素性＃１」と「素性＃３」を組み合わせた素性組、「素性＃２」と「素性＃３」を組み合わせた素性組、および、「素性＃１」、「素性＃２」および「素性＃３」を組み合わせた素性組を生成する。

また、情報提供装置１０は、素性組に含める素性として、「素性＃１」または「素性＃２」が指定されている場合、少なくとも「素性＃１」または「素性＃２」を含む素性組を生成する。なお、情報提供装置１０は、「素性＃１」および「素性＃２」の両方が候補として指定されている場合、「素性＃１」および「素性＃２」の両方を含む素性組を生成してもよい。より具体的な例を挙げると、情報提供装置１０は、「素性＃１」を含む素性組を生成する場合、「素性＃１」以外の素性をランダムに選択し、選択した素性と「素性＃１」とを含む素性組を生成する。

また、例えば、情報提供装置１０は、素性組に含める素性の数として「２」が指定されている場合、２つの素性を組み合わせた素性組を生成する。また、情報提供装置１０は、は、素性組に含める素性の数の範囲として、「２から３」が指定されている場合は、２つの素性を組み合わせた素性組と、３つの素性を組み合わせた素性組とをそれぞれ生成する。ここで、情報提供装置１０は、２つの素性を組み合わせた素性組と、３つの素性を組み合わせた素性組とを同数だけ生成してもよく、異なる数だけ生成してもよい。

また、例えば、情報提供装置１０は、指定された数だけ、素性組を生成する。例えば、情報提供装置１０は、素性組に含める素性の数として「３」が設定され、素性組の数として「１００」が指定されている場合、３つの素性をランダムに組み合わせた素性組を「１００」個生成することとなる。なお、情報提供装置１０は、３つの素性の全組み合わせ数が「１００」に満たない場合は、これら全ての素性組を生成対象としてもよい。

そして、情報提供装置１０は、生成した素性組を１つの素性と見做し、素性組に対応する値を学習データから生成する（ステップＳ３）。より具体的には、情報提供装置１０は、制約条件において指定された種別の値を素性組に対応する値として生成する。例えば、情報提供装置１０は、素性組の値の種別として「整数値」が設定されている場合、分類対象を２クラスに分類する第１素性と分類対象を２クラスに分類する第２素性とを組み合わせた素性組に対応する値として、分類対象を４クラスに分類するための整数値を設定する。

より具体的な例を挙げて素性組に対応する値の生成について説明する。例えば、学習データには、素性「性別」を示すデータと素性「居住地」を示すデータとが存在するものとする。また、素性「性別」を示すデータは、分類対象である利用者の性別を示すデータであり、例えば、男性を示す値「０」または女性を示す値「１」で構成されているものとする。また、素性「居住地」を示すデータは、例えば、東京在住を示す値「０」または東京以外に在住を示す値「１」で構成されているものとする。このような場合、情報提供装置１０は、素性「性別」と素性「居住地」とを組み合わせた素性組の値として、「男性で東京在住」を示す値「０」、「男性で東京以外に在住」を示す値「１」、「女性で東京在住」を示す値「２」、および「女性で東京以外に在住」を示す値「３」を分類対象ごとに生成する。このような処理の結果、情報提供装置１０は、分類対象ごとに素性の組み合わせを示す値を生成することができる。

以下、図２を用いて、情報提供装置１０が生成する素性組および素性組に対応する値について説明する。図２は、実施形態に係る情報提供装置が生成する素性組の値の一例を示す図である。例えば、図２に示す例では、学習データとして、分類対象である利用者の素性「所在地」を示す１０クラスのデータ、素性「性別」を示す３クラスのデータ、素性「年代」を示す６クラスのデータ、素性「利用端末」を示す５クラスのデータが存在するものとする。また、図２に示す例では、素性組として、２つ若しくは３つの素性を組み合わせた素性を生成するものとする。

このような場合、情報提供装置１０は、図２に示すように、素性「所在地」と素性「性別」とを組み合わせた第１素性組、素性「所在地」と素性「年代」とを組み合わせた第２素性組、素性「所在地」と素性「利用端末」とを組み合わせた第３素性組、素性「性別」と素性「年代」とを組み合わせた第４素性組、素性「性別」と素性「利用端末」とを組み合わせた第５素性組、素性「年代」と素性「利用端末」とを組み合わせた第６素性組、素性「所在地」と素性「性別」と素性「年代」とを組み合わせた第７素性組、素性「所在地」と素性「性別」と素性「利用端末」とを組み合わせた第８素性組、素性「所在地」と素性「年代」と素性「利用端末」を組み合わせた第９素性組、および素性「年代」と素性「性別」と素性「利用端末」を組み合わせた第１０素性組をそれぞれ生成する。

ここで、第１素性組に含まれる素性「所在地」は、利用者を１０クラスに分類するデータ（すなわち、値の種別が１０種類であるデータ）であり、素性「性別」は、利用者を３クラスに分類するデータである。このため、情報提供装置１０は、第１素性組と対応する値として、利用者を素性「所在地」と素性「性別」との組合せである３０クラスに分類する値を生成する。例えば、情報提供装置１０は、ある利用者の素性「所在地」を示す値と、その利用者の素性「性別」を示す値との組合せを示す値を、その利用者の第１素性組に対応する値として生成する。

同様に、情報提供装置１０は、第２素性組の値として、利用者を６０クラスに分類する値を生成し、第３素性組の値として、利用者を５０クラスに分類する値を生成し、第４素性組の値として、利用者を１８クラスに分類する値を生成する。また、情報提供装置１０は、第５素性組の値として、利用者を１５クラスに分類する値を生成し、第６素性組の値として、利用者を３０クラスに分類する値を生成し、第７素性組の値として、利用者を１８０クラスに分類する値を生成する。また、情報提供装置１０は、第８素性組の値として、利用者を１５０クラスに分類する値を生成し、第９素性組の値として、利用者を３００クラスに分類する値を生成し、第１０素性組の値として、利用者を９０クラスに分類する値を生成する。

なお、情報提供装置１０は、各分類対象ごとに、上述した処理を行うことで、各素性組の値を新たに生成する。このような処理の結果、情報提供装置１０は、既存の素性の値から、分類対象の特徴であって、素性の組み合わせの特徴を示す値を生成することができる。

図１に戻り、説明を続ける。情報提供装置１０は、生成した各素性組の値を学習データとしてモデル生成サーバ２に提供する（ステップＳ４）。例えば、情報提供装置１０は、全学習データを評価用データと学習用データとに分類し、学習用データについて生成した各素性組の値をモデル生成サーバ２に提供する。このような場合、モデル生成サーバ２は、各素性組の値を用いて、複数のモデルを生成する（ステップＳ５）。より具体的には、モデル生成サーバ２は、生成済みのモデルに各素性組の値を入力するためのノードを追加し、各素性組の値を用いた再学習を行うことで、複数のモデルを生成する。

以下、モデル生成サーバ２が生成するモデルの一例について説明する。例えば、モデル生成サーバ２は、Ｎ個の素性組が生成されている場合、各素性組の値をそれぞれ個別に用いなかったＮ個のモデルを生成する。また、モデル生成サーバ２は、全ての素性組を用いて学習が行われたモデルを基準モデルとして生成する。

より具体的な例を挙げると、モデル生成サーバ２は、第１素性組～第Ｎ素性組までのＮ個の素性組が生成されている場合、第１素性組～第Ｎ素性組の全ての素性組を用いて学習を行ったモデルを基準モデルとして生成する。また、モデル生成サーバ２は、第２素性組～第Ｎ素性組を用いて学習した第１モデル、第１素性組および第３素性組～第Ｎ素性組を用いて学習した第２モデル、第１素性組、第２素性組、および第４素性組～第Ｎ素性組を用いて学習した第３モデルというように、第ｎ素性組以外の素性組を用いて学習を行った第ｎモデル（ここで、１≦ｎ≦Ｎ）を生成する。

なお、このようなモデルの生成処理については、情報提供装置１０による制御の元、実行されることとなる。そして、モデル生成サーバ２は、生成されたモデルを情報提供装置１０へと提供する（ステップＳ６）。

続いて、情報提供装置１０は、各素性組を用いた場合におけるモデルの精度の改善量に基づいて、各素性組を評価する（ステップＳ７）。すなわち、情報提供装置１０は、複数種別の素性に対応する複数の値から生成された素性組に対応する値であって、それぞれ異なる素性の組に対応する値の特徴をモデルに学習させた際の精度の改善量を取得し、改善量に基づいて、素性の組を評価する。例えば、情報提供装置１０は、評価用データを用いて、各モデルの精度を算出する。そして、情報提供装置１０は、精度の改善量が高い程、より高い評価値を算出する。

以下、情報提供装置１０が各素性組を評価する処理の一例を説明する。例えば、情報提供装置１０は、第１素性組を評価する場合、学習用データにおいて第１素性組を用いずに学習が行われた第１モデルの平均損失の値と、基準モデルの平均損失の値とを評価用データを用いて算出する。そして、情報提供装置１０は、第１モデルの平均損失の値から基準モデルの平均損失の値を減算した値を、第１素性組に対応する改善量として算出し、算出した改善量の値に所定の係数（例えば、「１０００」）を乗算した値を、評価値として算出する。すなわち、情報提供装置１０は、第１素性組の値を用いた場合の改善量に基づいて、第１素性組の精度に対する重要性（Ｉｍｐｏｒｔａｎｃｅ）を示す値を評価値として算出する。

そして、情報提供装置１０は、各素性組の評価値に基づいて、新たな素性組を生成し、生成した素性組の値を用いてモデルの学習を行う処理を繰り返す（ステップＳ８）。例えば、情報提供装置１０は、１２０個の素性組について評価値を算出した場合、評価値が高い方から順に２０個の素性組を選択する。そして、情報提供装置１０は、選択した２０個の素性組とは異なる８０個の素性組を新たに生成し、選択した２０個の素性組と新たな８０個の素性組とを合わせた計１００個の素性組について、ステップＳ３～ステップＳ７の処理を再度実行する。

このような処理の結果、情報提供装置１０は、１００個の素性組についての評価値を得ることができる。このような場合、情報提供装置１０は、１００個の素性組のうち、評価値が高い方から順に２０個の素性組を選択するとともに、６０個の新たな素性組を生成する。そして、情報提供装置１０は、選択した２０個の素性組と新たな６０個の素性組とを合わせた計８０個の素性組について、ステップＳ３～ステップＳ７の処理を再度実行する。すなわち、情報提供装置１０は、評価が所定の条件を満たす素性組を残しつつ、評価対象となる素性組の数を徐々に減少させながら、素性組の評価を継続的に実行する。

また、情報提供装置１０は、所定の回数だけ素性組の評価を行った場合は、評価値が高い方から順に所定の数（例えば、１０個）の素性組を選択し、選択した素性組を用いて、最終的なモデルの生成を行う。すなわち、情報提供装置１０は、評価値が高い素性組を用いてモデルの学習を行うとともに、評価値が低い素性組を学習対象から除外する。そして、情報提供装置１０は、生成したモデルを利用者Ｕに提供する（ステップＳ９）。

このように、情報提供装置１０は、複数の素性をそのまま用いるだけではなく、各素性を組み合わせた素性組を１つの素性と見做し、素性組に対応する値を用いて、モデルの学習を行う。このような処理の結果、情報提供装置１０は、素性の組が有する特徴をモデルに学習させることができるので、素性の組が分類精度に対して大きく寄与する場合に、より精度よく分類対象を分類可能なモデルを生成することができる。。例えば、後述するように、素性組と対応する値を用いてモデルの学習を行った場合、素性組と対応する値を用いずに学習を行ったモデルよりも精度を大幅に向上させることが実験結果により判明している。このため、情報提供装置１０は、精度をより向上させたモデルを利用者に提供することができる。換言すると、情報提供装置１０は、モデルの大きさや学習データを拡大した場合にも、モデルの精度のサチレーションを防ぐことができる。

ここで、上述した手法により素性組の評価を行った場合、評価値が負の値となる素性組が存在することが実験結果により明らかとなっている。このような素性組を用いてモデルの学習を行った場合、モデルの精度が低下してしまう。そこで、情報提供装置１０は、生成した素性組を全て用いるのではなく、評価値が所定の閾値を超える素性組を用いて、モデルの学習を行う。このような処理の結果、情報提供装置１０は、モデルのサイズの増大を軽減しつつ、モデルの精度を向上させることができる。

〔１－５．学習処理および評価処理のバリエーションについて〕
上述した例では、情報提供装置１０は、素性組の値を用いたモデルの学習、および、モデルの精度に基づいた素性組の評価の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０が実行する学習処理および評価処理のバリエーションについて説明する。

〔１－５－１．評価値について〕
上述した例では、各素性組の評価値として、素性組の重要性の値を算出した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、素性組を用いた場合のモデルの精度の改善量に基づいた評価値を算出してもよい。

例えば、情報提供装置１０は、各素性組をそれぞれ個別に用いて既存モデルの再学習を行ったモデルを生成させる。より具体的な例を挙げると、情報提供装置１０は、第１素性組のみを追加で用いて再学習を行った既存モデルを第１モデルとして取得する。そして、情報提供装置１０は、第１モデルの精度と既存モデルの精度との差に基づいて、第１素性組を用いた場合の改善量を算出し、算出した改善量に基づく評価値を算出してもよい。例えば、情報提供装置１０は、第１モデルの平均損失から既存モデルの平均損失の値を減算した値に基づいて、第１素性組の評価値を算出してもよい。

また、情報提供装置１０は、平均損失の値の差をそのまま評価値としてもよい。また、情報提供装置１０は、第１素性組を用いたモデルの正解率と既存モデルの正解率との差や、第１素性組を用いずに他の素性組を用いたモデルの正解率と基準モデルの正解率との差に基づいて、第１素性組の評価値を算出してもよい。また、情報提供装置１０は、各モデルの真陽性率、偽陰性率、偽陽性率、および／または真陰性率に基づいて、評価値を算出してもよい。また、情報提供装置１０は、第１素性組を用いたモデルの平均損失と既存モデルの平均損失との差、および、第１素性組を用いずに他の素性組を用いたモデルの平均損失と基準モデルの平均損失との差の両方を用いて、第１素性組の評価値を算出してもよい。

また、情報提供装置１０は、各モデルのＡＵＣ（Area under an Receiver Operating Characteristic Curve）の値に基づいて、評価値を算出してもよい。また、これらの指標値以外にも、情報提供装置１０は、評価対象となる素性組を用いたモデルとその素性組を用いたなかったモデルとについて、各モデルの精度を評価することができる任意の指標値を算出し、算出した指標値に基づいて、素性組の評価を行ってもよい。また、情報提供装置１０は、各種の値の組み合わせに基づいて、素性組の評価を行ってもよく、これら値を所定の関数に入力することで得られる値から、素性組の評価を行ってもよい。すなわち、情報提供装置１０は、各素性組と対応するモデルの精度の改善量に基づいて、各素性組を評価するのであれば、任意の手法を用いて、各素性組の評価を行ってよい。

〔１－５－２．素性組について〕
上述した例では、情報提供装置１０は、素性組に含まれる各素性を示す値の組み合わせから、その素性組の値を生成した。ここで、情報提供装置１０は、素性組の値として、任意の種別の値を生成してよい。例えば、情報提供装置１０は、整数値の値を生成してもよく、例えば、浮動小数点の値を生成してもよい。また、情報提供装置１０は、素性組に含まれる各素性の値を単純に結合した値を素性組の値としてもよい。なお、このような素性組の値の種別は、制約条件により指定されたものであってもよい。

なお、情報提供装置１０は、素性組に含まれる各素性の値の組み合わせを示す値を、素性組の値とするのであれば、任意の手法により、素性組の値を生成してよい。例えば、第１素性が利用者の顔写真であり、第１素性の値が顔写真の画像データであるものとする。また、例えば、第２素性が利用者の声であり、第１素性の値が、声の音声データであるものとする。このような場合、情報提供装置１０は、第１素性と第２素性とを含む素性組の値として、画像データと音声データとを入力としたハッシュ値等を採用してもよい。

また、情報提供装置１０は、第１素性の情報の類似性に基づいて、第１素性の値をベクトル化するとともに、第２素性の情報の類似性に基づいて、第２素性の値をベクトル化する。そして、情報提供装置１０は、第１素性の値と対応するベクトルと、第２素性の値と対応するベクトルとの和や結合等、各ベクトルに基づくベクトルを素性組の値としてもよい。また、情報提供装置１０は、顔画像と音声データとの組合せの類似性を学習したモデルを用いて、顔画像と音声データとの組合せから、素性組の値となるベクトルを生成してもよい。

また、情報提供装置１０は、例えば、第１素性および第２素性のいずれも画像である場合は、これらの画像を合成した単一の画像を素性組と対応する値としてもよく、各素性のいずれもが音声データである場合、これらの音声データを合成した単一の音声データを素性組としてもよい。すなわち、素性組の「値」とは、単純な数値に限定されるものではなく、各種のデータを構成する数値を含む概念である。

〔１－５－３．学習に用いる素性組について〕
上述した例では、情報提供装置１０は、他の素性組よりも評価値が高い素性組を用いて、モデルの学習を行っていた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、評価値の値が正となる素性組を全て用いて、モデルの学習を行ってもよく、評価値の値が所定の閾値を超える全ての素性組を用いて、モデルの学習を行ってもよい。また、情報提供装置１０は、評価値の値が正となる素性組のうち、評価値の値が高い方から順に所定の数の素性組を用いて、モデルの学習をおこなってもよい。また、情報提供装置１０は、評価値の値が正となる素性組が存在しない場合は、再度所定の数の素性組をランダムに、若しくは、制約条件に従って生成してもよい。

また、情報提供装置１０は、評価値が所定の条件を満たす素性組に基づいて、新たな素性組の生成を行ってもよい。例えば、情報提供装置１０は、各素性組のうち、評価値が高い方から順に所定の数の素性組を選択する。続いて、情報提供装置１０は、選択した素性組に含まれる素性を特定する。そして、情報提供装置１０は、特定した素性を含む新たな素性組の生成を行い、生成された各素性組の評価を行ってもよい。また、情報提供装置１０は、評価値が低い素性組に含まれる素性を含まない素性組を新たに生成してもよい。

また、情報提供装置１０は、各素性ごとに、選択された素性組に含まれる数をカウントし、カウントされた数が多い方から順に所定の数の素性を選択する。そして、情報提供装置１０は、選択した素性を含む新たな素性組の生成を行ってもよい。また、情報提供装置１０は、各素性組のうち、評価値が低い方から順に所定の数の素性組を選択し、各素性ごとに、選択した素性組に含まれる数をカウントする。そして、情報提供装置１０は、カウントした数が多い方から順に所定の数の素性を特定し、特定した素性を含まない素性組を新たに生成してもよい。

すなわち、情報提供装置１０は、各素性組に含まれる素性を遺伝的アルゴリズムにおける遺伝子と見做し、各種の交叉を考慮した素性組を新たに生成することで、モデルの精度をより効率的に向上させる素性組の生成を行ってもよい。また、情報提供装置１０は、このような素性組の生成において、突然変異や各種の交叉といった遺伝的アルゴリズムの手法を任意の態様で適用してもよい。

〔１－５－４．モデルについて〕
ここで、情報提供装置１０がモデル生成サーバ２に対して生成させるモデルの具体例について説明する。例えば、情報提供装置１０は、Ｎ個の素性組が生成された場合、既存のモデルに対し、Ｎ個の素性組と対応する値を入力するためのノードを追加したモデルを生成させる。続いて、情報提供装置１０は、全ての素性組の値を入力した状態でモデルの学習を行わせることで、基準モデルの生成を行うとともに、各素性組の値をそれぞれ入力しなかった場合のモデルをそれぞれ生成させる。

ここで、情報提供装置１０は、各素性組の値をそれぞれ入力しなかった場合のモデルを生成する場合、各素性組の値をモデル自体に入力しないようにすることで、モデルの生成を行ってもよい。しかしながら、情報提供装置１０は、モデルの生成処理を効率化するため、以下の処理を実行する。まず、情報提供装置１０は、モデルとして、各素性組の値をエンベディングするエンベディング層を中間層よりも入力層側に備えるモデルを生成させる。そして、情報提供装置１０は、全ての素性組の値を入力層から入力するとともに、エンベディング層に含まれるノードのうち、いずれかの素性組の値をエンベディングするノードへと情報を伝達する経路の重み係数を「０」に設定することで、各素性組の値を用いなかったモデルの生成を行わせる。このような処理実行することで、情報提供装置１０は、各素性組を用いなかったモデルの生成を効率よく行うことができる。

なお、情報提供装置１０は、線形モデルとディープモデルとを組み合わせた所謂ワイドディープモデルの生成を行ってもよい。このようなワイドディープモデルを生成する場合、情報提供装置１０は、制約条件として、素性組の利用態様の指定を受付けてもよい。例えば、情報提供装置１０は、素性組の値を、線形モデル部分に入力して学習を行うか、ディープモデル部分に入力して学習を行うかの指定を受付けてもよい。また、情報提供装置１０は、制約条件として、素性組の値を、線形モデル部分およびディープモデル部分の両方に入力して学習を行う旨の指定を受付けてもよい。

また、このような指定がなされなかった場合、情報提供装置１０は、素性組の値を入力する部分をランダムに選択してもよい。また、情報提供装置１０は、素性組の値を線形モデル部分に入力した場合と、ディープモデル部分に入力した場合とのそれぞれについて、評価値を算出し、算出結果に基づいた処理を行ってもよい。すなわち、情報提供装置１０は、素性組と、その素性組の値を入力する部分との組合せ（以下「素性入力組」と記載する。）ごとに、評価を行ってもよく、このような評価の結果に応じて、学習に用いる素性入力組の指定や、新たな素性入力組の生成を行ってもよい。

〔１－５－６．評価処理について〕
上述した例では、情報提供装置１０は、素性組の評価結果に基づいて、学習対象とする素性組を選択するとともに、新たな素性組を生成し、選択した素性組と新たな素性組の評価結果に基づいて、再度新たな素性組の選択を行う処理を繰り返し実行することで、精度向上に寄与する素性組を選択した。しかしながら、実施形態は、これに限定されるものではない。

例えば、情報提供装置１０は、１回目の評価結果に基づいて選択された素性組を単に学習対象として、モデルの生成および提供を行ってもよい。また、情報提供装置１０は、各素性組に対する評価内容を利用者に提示するだけであってもよい。すなわち、情報提供装置１０は、学習装置ではなく、評価装置として動作してもよく、学習装置および評価装置の両方として動作してもよい。

例えば、情報提供装置１０は、各素性組に対する評価値の値を算出するとともに、算出した値が高い方から順に、各素性組に含まれる素性を示すリストを生成する。そして、情報提供装置１０は、生成したリストを利用者に提供してもよい。また、例えば、情報提供装置１０は、評価値が高い方から順に所定の数の素性組と、評価値が低い方から順に所定の数の評価値とを示すリストを生成して利用者に提供してもよい。また、情報提供装置１０は、評価値が正の値となる素性組を精度を向上させる素性組として示すとともに、評価値が負の値となる素性組を精度を低下させる素性組として示す（若しくはこれらの一方を示す）リストを生成してもよい。

このようなリストが提供された場合、利用者は、どのような素性の組み合わせが目的に対して有用であるか、若しくは、どのような素性の組み合わせが目的に対して有用ではないかを検討、推定することができる。このような推定の結果、利用者は、例えば、新たな制約条件（すなわち、評価結果に応じて作成された新たな制約条件）を作成し、作成した制約条件に応じた素性組を用いて、モデルの学習の試行結果や、素性組に対する評価を新たに得ることができる。このような対話型の処理を繰り返し実行することで、情報提供装置１０は、目的に応じたモデルの理解を促進するとともに、モデルの精度を向上させることができる。

〔１－５－７．適用対象について〕
上述した例では、情報提供装置１０は、分類対象として、各利用者の各種情報に基づいて、各利用者の分類を行うモデルの生成を行った。ここで、実施形態は、任意の学習データについて、上述した学習処理および評価処理を実行して良い。

例えば、情報提供装置１０は、利用者の情報に基づいてＣＴＲの予測を行うモデルを生成し、生成したモデルを用いて、素性組の最適化を行ってもよい。また、情報提供装置１０は、利用者の情報から利用者が購入する取引対象の予測を行うモデルを生成し、生成したモデルを用いて、素性組の最適化を行ってもよい。

また、情報提供装置１０は、利用者の情報ではなく、例えば、各種情報処理装置のログデータや文章、気象、その他任意の種別のデータから、分類、予測、翻訳処理等といった任意のモデルの精度を向上させるため、素性組の最適化を行ってもよい。

〔２．情報提供装置の構成〕
次に、図３を用いて、実施形態に係る情報提供装置１０の機能構成の一例について説明する。図３は、実施形態に係る情報提供装置の構成例を示す図である。図３に示すように、情報提供装置１０は、通信部２０と、記憶部３０と、制御部４０とを有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１は、ネットワークＮと有線または無線で接続され、モデル生成サーバ２や端末装置３との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１および生成条件データベース３２を有する。

学習データデータベース３１には、学習データが登録される。例えば、図４は、実施形態に係る学習データベースに登録される情報の一例を示す図である。図４に示す例では、学習データデータベース３１には、学習データＩＤ（Identifier）、および学習データが対応付けて登録されている。ここで、学習データＩＤは、学習データとなる複数のデータ群を識別する識別子である。また、学習データとは、学習に用いられるデータである。

例えば、図４に示す例では、学習データデータベース３１には、「学習データ＃１」に対し、「ラベル＃１－１」と「データ＃１－１」との組、および、「ラベル＃１－２」と「データ＃１－２」との組が対応付けて登録されている。このような情報は、「学習データ＃１」が示す学習データとして、「ラベル＃１－１」が付与された「データ＃１－１」、および、「ラベル＃１－２」が付与された「データ＃１－２」が登録されている旨を示す。なお、各ラベルには、同一の特徴を示す複数のデータが登録されていてもよい。また、図４に示す例では、「学習データ＃１」、「ラベル＃１－１」、「データ＃１－１」といった概念的な値を記載したが、実際には、学習データを識別するための文字列や数値、ラベルとなる文字列、データとなる各種整数、浮動小数点、もしくは文字列等が登録されることとなる。

図３に戻り、生成条件データベース３８には、学習データに関する各種の条件と、学習データが条件を場合に生成指標若しくはその候補として決定される各種の指標とを対応付けた生成条件が登録されている。例えば、図５は、実施形態に係る生成条件データベースに登録される情報の一例を示す図である。図５に示す例では、生成条件データベース３２には、条件ＩＤ、条件内容、および指標候補が対応付けて登録されている。

ここで、条件ＩＤとは、生成条件を識別する識別子である。また、条件内容とは、学習データが満たすか否かの判定対象となる条件であり、例えば、学習データの内容に関する条件である内容条件と、学習データの傾向に関する傾向条件等、各種の条件により構成される。また、指標候補とは、対応付けられた条件内容に含まれる各条件が満たされた場合に、生成指標に含まれる各種の指標である。

例えば、生成条件データベース３８には、条件ＩＤ「条件ＩＤ＃１」、内容条件「整数」、傾向条件「密度＜閾値」、指標候補「生成指標＃１」とが対応付けて登録されている。このような情報は、条件ＩＤ「条件ＩＤ＃１」として、学習データが内容条件「整数」であり、かつ、傾向条件「密度＜閾値」を満たす場合に、指標候補「生成指標＃１」が生成指標として決定される旨を示す。

なお、図５に示す例では、「生成指標＃１」といった概念的な値を記載したが、実際には、各種生成指標として採用される情報が登録される。例えば、生成条件データベース３８には、ＡｕｔｏＭＬにおけるコンフィグファイルに記載される各種の関数が指標候補として登録される。なお、生成条件データベース３８には、例えば、１つの条件に対して複数の生成指標が登録されていてもよい。

なお、上述したように、どのような条件が満たされた場合にどのような生成指標を生成するかについては、任意の設定が可能である。例えば、生成条件データベース３８には、過去に生成したモデルであって、精度が所定の閾値を超えるモデルについての各種生成指標と、そのモデルの学習に用いた学習データの特徴や傾向とに基づいて生成された生成条件が登録されてればよい。

図３に戻り、説明を続ける。制御部４０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部４０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。図３６に示すように、制御部４０は、モデル生成部４１、受付部４２、学習データ生成部４３、学習部４４、取得部４５、評価部４６、および提供部４７を有する。

〔２－１．指標生成処理とモデル生成処理を実現するための構成〕
モデル生成部４１は、学習処理および評価処理の説明に先駆けて、指標生成処理とモデル生成処理とを実行する。例えば、モデル生成部４１は、端末装置３から、学習データとして用いる各種のデータと、各種データに付与されるラベルを受付けると、受付けたデータとラベルとを学習データとして学習データデータベース３１に登録する。なお、モデル生成部４１は、あらかじめ学習データデータベース３１に登録されたデータのうち、モデルの学習に用いる学習データの学習データＩＤやラベルの指摘を受付けてもよい。

また、モデル生成部４１は、学習データが有する統計的な特徴等、学習データの特徴に基いて、生成指標を生成する。例えば、モデル生成部４１は、学習データが生成条件データベース３２に登録された生成条件を満たすか否かに応じて、生成指標を生成する。例えば、モデル生成部４１は、学習データが整数であるか、浮動小数点であるか、若しくは文字列であるかに基いて、生成指標を生成してもよい。より具体的な例を挙げると、モデル生成部４１は、学習データが整数である場合、学習データの連続性に基いて、生成指標を生成してもよい。

また、モデル生成部４１は、例えば、学習データの密度を算出し、算出した密度が所定の第１閾値を超える場合、学習データの最大値が所定の第２閾値を上回るか否かに基いて生成指標を生成してもよい。すなわち、モデル生成部４１は、最大値が第２閾値を上回るか否かに応じて異なる生成指標を生成してもよい。また、モデル生成部４１は、学習データの密度が所定の第１閾値を下回る場合、学習データに含まれるユニークな値の数が所定の第３閾値を上回るか否かに基いて生成指標を生成してもよい。

なお、モデル生成部４１は、学習データの密度や最大値等が各種閾値を超えるか否かといった条件分岐に応じて異なる生成指標を生成してもよく、例えば、学習データの密度や最大値等そのものの値に応じた生成指標を生成してもよい。例えば、モデル生成部４１は、学習データの数、密度、最大値等といった統計的な値に基づいて、モデルのノード数や中間層の数等といった各種生成指標となるパラメータの値を算出してもよい。すなわち、モデル生成部４１は、学習データが有する特徴に基づいて異なる生成指標を生成するのであれば、任意の条件に基づいて、生成指標の生成を行ってよい。

また、モデル生成部４１は、学習データが文字列である場合、学習データに含まれる文字列の種別の数に基いて、生成指標を生成する。すなわち、モデル生成部４１は、ユニークな文字列の種別の数に応じて異なる生成指標を生成する。また、モデル生成部４１は、学習データが浮動小数点である場合、モデルの生成指標として、学習データをモデルに入力する入力データへの変換指標を生成する。例えば、モデル生成部４１は、浮動小数点をバケタイズするか否か、どの範囲の値をどのバケットに分類するか等を学習データの統計的な情報に基づいて決定する。より具体的な例を挙げると、モデル生成部４１は、浮動小数点である学習データに含まれる値の範囲や、学習データに付されたラベルの内容といった特徴に応じて、バケタイズするか否か、どの範囲の値をどのバケットに分類するか等を決定してもよい。また、モデル生成部４１は、学習データの特徴に基づいて、各バケットに対応する値の範囲を一定にするか否かや、各バケットに分類する学習データの数を一定（若しくは、所定の分布）にするか否かを決定してもよい。

また、モデル生成部４１は、モデルの生成指標として、学習データが有する特徴のうちモデルに学習させる特徴を示す生成指標を生成する。例えば、モデル生成部４１は、学習データの特徴に基づいて、モデルに学習させるデータのラベルを決定する。また、モデル生成部４１は、モデルの生成指標として、学習データの種別のうちモデルに対して相関を学習させる複数の種別を示す生成指標を生成する。

なお、このような学習対象となる特徴（ラベル）や特徴の関係性の決定は、例えば、モデルが出力するデータのラベル等、どのようなモデルを利用者が所望するかといった目的に応じた決定が行われてもよい。また、どの特徴を採用するか、どの特徴の組み合わせの特徴を学習させるかについては、例えば、上述した遺伝的アルゴリズムにおいて、各特徴や特徴の組み合わせを採用するか否かを示すビットを遺伝子と見做し、新生代の生成指標を生成することで、モデルの精度がより向上する特徴や特徴の組み合わせを発見することで、決定されてもよい。

また、モデル生成部４１は、モデルの生成指標として、モデルに入力される学習データの次元数を示す生成指標を生成する。また、モデル生成部４１は、モデルの生成指標として、学習データの特徴を学習させるモデルの種別を示す生成指標を生成する。また、モデル生成部４１は、モデルの生成指標として、モデルが有する中間層の数若しくは各層に含まれるノードの数を示す生成指標を生成する。また、モデル生成部４１は、モデルの生成指標として、モデルが有するノード間の接続態様を示す生成指標を生成する。また、モデル生成部４１は、モデルの生成指標として、モデルの大きさを示す生成指標を生成する。例えば、モデル生成部４１は、ユニークな学習データの数や採用される特徴あるいはその組み合わせの数、学習データとなる数値や文字列のビット数等に応じて、モデルに入力される学習データの次元数を示す生成指標を生成してもよく、例えば、モデルの各種構造を決定してもよい。

また、モデル生成部４１は、モデルの生成指標として、学習データが有する特徴をモデルに学習させる際の学習態様を示す生成指標を生成する。例えば、モデル生成部４１は、学習データの特徴や上述した各種の生成指標に基づいて、ハイパーパラメータの内容を決定してもよい。このように、モデル生成部４１は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を示す生成指標を生成する。なお、モデル生成部４１は、上述した全ての生成指標を決定、生成する必要はなく、任意の種別の生成指標のみを決定、生成すればよい。

また、モデル生成部４１は、生成された指標を利用者に提示する。例えば、モデル生成部４１は、生成指標として生成されたＡｕｔｏＭＬのコンフィグファイルを端末装置３に送信する。そして、モデル生成部４１は、利用者に対して提示した生成指標の修正を受付ける。また、モデル生成部４１は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付ける。このような場合、モデル生成部４１は、利用者から指定された順番で、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する。すなわち、モデル生成部４１は、利用者から指定された順番で、各種の生成指標を再度生成しなおす。

また、モデル生成部４１は、生成指標に従って、学習データが有する特徴を学習させたモデルを生成する。例えば、モデル生成部４１は、学習データをトレーニング用データと評価用データとに分割するとともに、トレーニング用データと生成指標とをモデル生成サーバ２に送信する。そして、モデル生成部４１は、モデル生成サーバ２が生成指標に従ってトレーニング用データから生成したモデルを取得する。このような場合、モデル生成部４１は、評価用データを用いて、取得したモデルの精度を算出する。

なお、モデル生成部４１は、それぞれ異なる複数の生成指標を生成する。このような場合、モデル生成部４１は、生成指標ごとに異なるモデルを生成させ、各モデルの精度を算出する。なお、モデル生成部４１は、各モデルごとに異なるトレーニング用データおよび評価用データを生成してもよく、同一のトレーニング用データおよび評価用データを採用してもよい。

このように、複数のモデルが生成された場合、モデル生成部４１は、生成されたモデルの精度に基いて、モデルの生成指標を新たに生成する。例えば、モデル生成部４１は、各学習データを利用するか否か、どの生成指標を採用したか否かを遺伝子見做した遺伝的アルゴリズムを用いて、複数の生成指標から新たな生成指標を生成する。そして、モデル生成部４１は、新たな生成指標に基づいて、新たなモデルの生成を行う。このような試行錯誤を所定の回数、若しくは、モデルの精度が所定の閾値を超えるまで繰り返し実行することで、情報提供装置１０は、モデルの精度を向上させる生成指標の生成を実現できる。

なお、モデル生成部４１は、生成指標を決定する順序についても、遺伝的アルゴリズムの対象として最適化を行ってもよい。また、モデル生成部４１は、生成指標が生成される度に生成指標を利用者に提示してもよく、例えば、精度が所定の閾値を超えたモデルと対応する生成指標のみを利用者に提示してもよい。

そして、モデル生成部４１は、生成したモデルを利用者に提供する。例えば、モデル生成部４１は、生成されたモデルの精度が所定の閾値を超えた場合は、そのモデルとともに、モデルと対応する生成指標を端末装置３へと送信する。この結果、利用者は、モデルの評価や試用を行うとともに、生成指標の修正を行うことができる。

なお、図３に示す例では、指標生成処理とモデル生成処理とをモデル生成部４１が実行するように記載したが、実施形態は、これに限定されるものではない。例えば、モデル生成部４１は、情報提供装置１０に上述した各処理を実行させるためのプログラムにより実現されるものであるが、単一の機能構成として動作するものであってもよく、例えば、学習データを取得するための取得機能、生成指標を生成する指標生成機能、生成指標を利用者に提示する提示機能、生成指標の修正を受付ける受付機能、生成指標に基づいてモデルを生成するモデル生成機能、および生成したモデルを提供する提供機能のそれぞれが独立した機能構成により実現されるものであってもよい。

〔２－２．学習処理および評価処理を実現するための構成〕
続いて、学習処理および評価処理を実現するための構成について説明する。受付部４２は、所定の操作者から、素性組を生成する際の制約条件を受付ける。例えば、受付部４２は、端末装置３から、各素性組に含める素性の指定や、各素性組に含める素性の数、もしくは数の範囲の指定、生成する素性組の数の指定、素性組に含める素性の候補の指定を受付ける。なお、受付部４２は、素性組の値の種別やその範囲、素性組の値を、線形モデル部分に入力するか、ディープモデル部分に入力するかの指定を受付けてもよい。また、これら以外にも、受付部４２は、素性組そのものに関する条件や素性組の値に関する条件、素性組の値をどのように用いて学習を行うかの条件を示す制約条件を受付けてよい。

学習データ生成部４３は、所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から、その複数の種別の素性の素性組に対応する値を生成する。例えば、学習データ生成部４３は、所定の対象の素性をランダムに組み合わせた組を生成し、生成した組ごとに対応する値を生成してもよい。また、学習データ生成部４３は、複数の素性の値から、その複数の素性の積を示す値を生成してもよい。例えば、学習データ生成部４３は、第１種別の素性の値と第２種別の素性の値とから、第１種別の素性と第２種別の素性との組に対応する値を生成する。

ここで、学習データ生成部４３は、制約条件に従って、所定の対象の素性を素性組み合わせた組を生成し、生成した組ごとに対応する値を生成する。例えば、学習データ生成部４３は、制約条件で指定された素性を少なくとも含む組を生成し、生成した組ごとに対応する値を生成してもよい。また、学習データ生成部４３は、指定された数の素性を含む組を生成し、生成した組ごとに対応する値を生成してもよい。また、学習データ生成部４３は、指定された数の組を生成し、生成した組ごとに対応する値を生成してもよい。また、学習データ生成部４３は、指定された素性の候補を組み合わせた組を生成し、生成した組ごとに対応する値を生成してもよい。

以下、学習データ生成部４３が生成する学習データの一例について説明する。まず、学習データ生成部４３は、学習データデータベース３１に登録された各データを、学習用データと評価用データに分類する。なお、この処理は、モデル生成部４１による分類結果を援用してもよい。続いて、学習データ生成部４３は、学習用データに含まれる各データのラベルを参照する。そして、学習データ生成部４３は、各ラベルを素性として、素性組の生成を行う。

例えば、学習データ生成部４３は、学習用データに含まれるデータのラベルが「ラベル＃１－１」、「ラベル＃１－２」、および「ラベル＃１－３」である場合、これらのラベルを２つ以上ランダムに組み合わせた組を素性組として採用してもよい。また、学習データ生成部４３は、制約条件において指定された内容に応じた素性組を生成してもよい。例えば、学習データ生成部４３は、「ラベル＃１－１」が指定されている場合、少なくとも、「ラベル＃１－１」を含む素性組を生成してもよい。

学習部４４は、学習データ生成部４３が生成した値を用いて、所定の対象の特徴をモデルに学習させる。例えば、学習部４４は、モデル生成部４１により生成された、ディープニューラルネットワークの構造を有するモデルに対し、学習データ生成部４３が生成した学習データの特徴を学習させる。

例えば、学習部４４は、モデルの入力層に対し、各素性組の値を入力するためのノードを追加したモデルを生成する。そして、学習部４４は、生成したモデルと、学習データ生成部４３が生成した学習データとをモデル生成サーバ２に送信し、学習データの特徴をモデルに学習させる。

例えば、学習部４４は、全ての素性組のデータを同時に入力することで学習が行われたモデルを基準モデルとして生成させる。また、学習部４４は、いずれか１つの素性組のデータを入力せず、他の素性組のデータを同時に入力することで学習が行われた複数のモデルをそれぞれ生成させる。なお、学習部４４は、例えば、入力しない素性組と対応するエンベディング層のノードへの接続係数を強制的に零とすることで、複数のモデルを生成させてもよい。

以下、学習部４４が実行する処理の一例について説明する。例えば、学習データ生成部４３は、Ｎ個の素性組を生成した場合、学習データと対応する分類対象ごとに、素性組と対応するＮ個の値を生成する。このような場合、学習部４４は、ある分類対象について生成されたＮ個の素性組の値を入力した際に、分類対象を適切に分類するようにモデルの学習を行わせることで、基準モデルの生成を行う。また、学習部４４は、ある分類対象について生成されたＮ個の素性組の値を入力するとともに、所定の素性組と対応するエンベディング層へのノードへの接続係数を強制的に零とすることで、いずれかの素性組を用いなかった複数のモデルを生成させる。このような処理を、分類対象ごとに繰り返し実行することで、学習部４４は、各モデルの学習を行う。

なお、学習部４４は、制約条件に応じたモデルの学習を行ってもよい。例えば、学習部４４は、制約条件にしたがって、素性組と対応する値を、ワイドディープモデルのうち線形モデル部分に入力するように学習を行ってもよく、ディープモデル部分に入力するように学習を行ってもよく、その両方に入力して学習を行ってもよい。

取得部４５は、複数種別の素性に対応する複数の値から生成されたその複数種別の素性の組に対応する値であって、それぞれ異なる素性の組に対応する値の特徴をモデルに学習させた際の精度の改善量を取得する。例えば、取得部４５は、学習部４４により生成された複数のモデルを取得する。そして、取得部４５は、いずれかの素性組を用いなかったモデルの平均損失と、基準モデルの平均損失の値とを算出し、算出した値の差分を改善量として取得する。

評価部４６は、学習部による学習結果に基づいて、生成部が生成した値に対応する素性の組を評価する。例えば、評価部４６は、取得部４５が取得した改善量に基づいて、素性の組を評価する。例えば、評価部４６は、取得部４５が算出した値の差分に対し、所定の係数を乗算した値を評価値として算出する。より具体的には、評価部４６は、ある素性組と対応する値を用いなかったモデルの平均損失と、基準モデルの平均損失の値とから算出された改善量に基づいて、その素性組の評価値を算出する。

なお、上述した評価部４６による評価結果は、学習データ生成部４３や学習部４４により再帰的に利用される。例えば、学習部４４は、評価結果が所定の条件を満たす素性の組の値を用いて、モデルを学習してもよい。より具体的な例を挙げると、学習部４４は、評価値が正となる素性組や、評価値が高い方から順に所定の数の素性組等、評価結果が所定の閾値を超える素性組を選択し、選択した素性組の値のみを用いて、モデルを再学習してもよい。また、学習部４４は、評価値が負となる場合や、評価値が低い方から順に所定の数の素性組等、評価結果が所定の閾値を下回る素性組を、モデルを学習する際に値を用いる素性の組から除外して、モデルの再学習を行ってもよい。また、評価部４６は、このように再学習がなされたモデルを用いて、再度素性組の評価を行ってもよい。そして、学習部４４は、このような再評価の結果に応じて、学習対象とする素性組を選択してもよい。

また、学習データ生成部４３は、評価結果が所定の条件を満たす素性組とは異なる新たな素性組と対応する値を生成してもよい。このような場合、学習部４４は、評価結果が所定の条件を満たす素性組と新たな素性組とを用いて、モデルの再学習を行う。そして、評価部４６は、再学習の結果に基づいて、各素性組の評価を行ってもよい。また、学習データ生成部４３、学習部４４、および評価部４６は、学習対象となる素性組の数が徐々に少なくなるように、素性組の生成、学習、および素性組の評価を繰り返し実行することで、より有用な素性組を抽出してもよい。

また、学習データ生成部４３は、評価結果が所定の条件を満たす素性の組に基づいて、新たな素性の組を生成し、生成した素性の組と対応する値を生成してもよい。例えば、学習データ生成部４３は、評価結果が所定の閾値を超える素性の組に含まれる素性を含む新たな素性の組を生成してもよい。また、学習データ生成部４３は、評価結果が所定の閾値を下回る素性の組に含まれる素性を含まない新たな素性の組を生成してもよい。このような処理を実行することで、学習データ生成部４３は、遺伝的アルゴリズムを援用しつつ、より有用な素性組を抽出する処理を実行することできる。

提供部４７は、評価部４６による評価結果を利用者に提供する。例えば、提供部４７は、各素性組を評価値の値に応じて並べたリストを利用者に対して提供してもよい。また、提供部４７は、評価値の値が正となる素性組（すなわち、モデルの学習に有用な素性組）のリストや、評価値の値が負となる素性組（すなわち、モデルの学習に有用ではない素性組）のリストを提供してもよい。

なお、学習部４４は、例えば、上述した再帰的な処理を所定の回数行った場合や、素性組の評価値の変動が所定の範囲内に収まる場合、評価値が所定の条件を満たす素性組の変動が所定の範囲内に収まる場合等、有用な素性組の抽出が行われたと推定される場合は、これらの素性組の値を用いてモデルの学習を行う。このような場合、提供部４７は、生成されたモデルを利用者に対して提供することで、精度良く目的を達成するモデルを提供することができる。

〔３．情報提供装置１０の処理フロー〕
次に、図６を用いて、情報提供装置１０が実行する処理の手順について説明する。図６は、実施形態に係る学習処理および評価処理の流れの一例を示すフローチャートである。

例えば、情報提供装置１０は、制約条件を受付ける（ステップＳ１０１）。このような場合、情報提供装置１０は、制約条件に従って素性組を生成し（ステップＳ１０２）、生成した素性組の値を生成する（ステップＳ１０３）。そして、情報提供装置１０は、生成した各素性組の値を用いて、モデルの学習を行う（ステップＳ１０４）。

続いて、情報提供装置１０は、各モデルの精度に基づいて、各素性組を評価する（ステップＳ１０５）。ここで、情報提供装置１０は、所定の条件を満たすまで学習を試行したか否かを判定する（ステップＳ１０６）。例えば、情報提供装置１０は、再帰的な処理を所定の回数行ったか否か、素性組の評価値の変動が所定の範囲内に収まるか否か、評価値が所定の条件を満たす素性組の変動が所定の範囲内に収まるか否か、評価値が所定の閾値を超える素性組の数が所定の閾値を超えたか否か等を判定する。

そして、情報提供装置１０は、所定の条件を満たすまで学習を試行していない場合は（ステップＳ１０６：Ｎｏ）、評価結果に基づいて、新たな素性組を生成し（ステップＳ１０７）、ステップＳ１０３から処理を再開する。一方、情報提供装置１０は、所定の条件を満たすまで学習を試行した場合は（ステップＳ１０６：Ｙｅｓ）、素性組の情報やモデルを提供し（ステップＳ１０８）、処理を終了する。

〔４．実験結果の一例について〕
続いて、図７～図１１を用いて、上述した学習処理および評価処理を実行した場合における効果の一例について説明する。

例えば、図７は、素性組を用いた場合と素性組を用いなかった場合とにおける精度の比較例を示す図である。なお、図７に示す例では、縦軸を性能値（ＡＵＣの値からＲＯＣの値を減算した値）とし、横軸を平均損失として、利用者の情報からＣＴＲの予測を行うモデルについて、素性組を用いて学習を行ったモデル（ＤＮＮＲｅｓＮｅｔＣｌａｓｓｆｉｅｒｗｉｔｈＦｅａｔｕｒｅＣｒｏｓｓｅｓ）と、素性組を用いずに学習を行ったモデル（ＤＮＮＲｅｓＮｅｔＣｌａｓｓｆｉｅｒ）との性能をプロットした。

図７に示すように、素性組を用いて学習を行ったモデルにおいては、用いなかったモデルと比較して、平均損失と性能値とがともに改善することが実験により解った。また、図７中に点線で囲んだ領域Ａに含まれるモデルは、領域Ｂに含まれるモデルと比較して、高々５万回の学習を行っただけで、大幅に性能が改善された。

次に、図８を用いて、素性組を用いた場合におけるモデルサイズ（入力する情報の種別の数）と平均損失との関係性の実験結果について説明する。図８は、素性組を用いた場合におけるモデルサイズと平均損失との関係性の実験結果を示す図である。なお、図８に示す例では、縦軸を平均損失の値とし、横軸をモデルサイズとして、素性組を用いて学習を行ったモデルの平均損失の値をプロットした。また、図８に示す例では、各モデルサイズにおいて最も低い平均損失の値を丸印でプロットし、他の値を三角印でプロットした。また、図８に示すモデルは、５万回の学習を行ったものとなる。

図８中の点線は、各モデルサイズにおいて最も低い平均損失の値の近似直線である。図８に示すように、平均損失の近似曲線は、モデルサイズを大きくすればするほど、平均損失の値が小さくなることを示している。この結果、素性組を用いて学習を行ったモデルは、モデルサイズを大きくすれば大きくするほど、より平均損失の値が小さくなり、精度が向上することが分かった。

次に、図９を用いて、素性組を用いたモデルと、用いなかったモデルとの学習を継続した場合の精度の遷移について説明する。図９は、素性組を用いた場合と素性組を用いなかった場合とにおける精度の遷移例を示す図である。図９に示す例では、ＤＮＮＲｅｓＮｅｔＣｌａｓｓｉｆｉｅｒをモデルとして用いた。また、図９に示す例では、横軸を所定回数の学習を行った回数（epoch）、縦軸を平均損失の値として、素性組を用いずに学習を行った４つのモデルの平均損失の値を太線で示すとともに、素性組を用いて学習を行った６つのモデルの平均損失の値を細線で示した。

図９に示すように、素性組を用いて学習を行った各モデルの精度は、素性組を用いなかったモデルと比較して高いことがわかった。また、学習を進めた場合、素性組を用いなかったモデルにおいては、途中で精度の変化量が減少し、サチレーションが発生するが、素性組を用いなかったモデルにおいては、学習を進めたとしても、精度の変化量があまり減少せず、サチレーションを回避していることが分かった。

次に、図１０を用いて、有用な素性組のみを用いて学習を行ったモデルの精度の遷移について説明する。図１０は、有用な素性組のみを用いて学習を行った場合における精度の遷移例を示す図である。図１０に示す例では、ＤＮＮＲｅｓＮｅｔＣｌａｓｓｉｆｉｅｒをモデルとして用いた。また、図１０に示す例では、横軸を所定回数の学習を行った回数（epoch）、縦軸を平均損失の値として、素性組を用いずに学習を行った４つのモデルの平均損失の値を太線で示し、素性組を用いて学習を行った６つのモデルの平均損失の値を細線で示すとともに、有用な素性組のみを用いて学習を行った２つのモデルの平均損失の値を中太線で示した。

有用な素性組のみを用いて学習を行った２つのモデルにおいては、学習が進むにつれて、より有用な素性組が抽出され、その素性組の特徴が学習されることとなる。このため、図１０に示すように、有用な素性組を用いて学習を行った２つのモデルの精度は、学習を進めるにつれて、単に素性組を用いて学習を行ったモデルよりも、さらに精度が向上することが分かった。

次に、図１１を用いて、有用な素性組を用いて学習を行ったモデルにおけるＣＴＲ予測の精度について説明する。図１１は、有用な素性組を用いて学習を行ったモデルにおけるＣＴＲ予測の精度の一例を示す図である。図１１に示す例では、平均損失の値を縦軸とし、モデルサイズを横軸として、単に素性組を用いて学習を行ったモデルＢと、有用な素性組のみを用いて学習を行ったモデルＣとの平均損失の値をプロットした。図１１に示すように、モデルＣは、モデルＢと比較して７２％程モデルサイズが小さいにも関わらず、平均損失の値が低く、より精度が高いモデルであることが分かった。

次に、図１２を用いて、素性組の評価を行い、評価値が高い素性組を自動的に抽出して学習を行ったモデルにおける精度について説明する。図１２は、素性組の評価結果に応じて学習を行ったモデルにおける精度の一例について説明する図である。なお、図１２に示す例では、平均損失の値を横軸とし、モデルの性能（ＡＵＣ－ＲＯＣ）を縦軸として、素性組を用いなかったモデル（ＷｉｔｈｏｕｔＦｅａｔｕｒｅＣｒｏｓｓｅｓ）、ランダムに生成された素性組を用いたモデル（ＷｉｔｈＦｅａｔｕｒｅＣｒｏｓｓｅｓ）、および評価値が高い素性組を用いて学習が行われたモデル（ＷｉｔｈＯｎｌｙＥｆｆｅｃｔｉｖｅＦｅａｔｕｒｅＣｒｏｓｓｅｓ）の性能をプロットした。また、図１２に示す例では、素性組を用いなかったモデルの性能を三角印でプロットし、ランダムに生成された素性組を用いたモデルの性能を丸印でプロットし、評価値が高い素性組を用いて学習が行われたモデルの性能を菱形印でプロットした。

図１２に示すように、素性組を用いなかったモデルよりも、素性組を用いたモデルは、総じて平均損失の値が低く、性能も高いことが分かった。また、素性組の評価を行い、評価値が高い素性組のみを用いて学習を行ったモデルは、素性組をランダムに用いたモデルよりも、大幅に（非連続的に）性能が向上していることが分かった。

上述したように、各種の実験結果により、素性組を用いて学習を行ったモデルにおいては、素性組を用いなかったモデルと比較してより精度が向上することが分かった。また、素性組を用いて学習を行ったモデルにおいては、学習を進めたとしても、サチレーションが発生しづらく、より精度が向上することが分かった。また、素性組のうち有用な素性組のみを採用することで、モデルの精度をより向上させるとともに、モデルサイズを削減することができることが分かった。

〔５．変形例〕
上記では、情報提供装置１０の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０や情報提供装置１０が実行する各種処理の変形例について説明する。

〔５－１．モデルの生成について〕
上述した例では、情報提供装置１０は、指標生成処理とモデル生成処理とを実行することで、モデルの生成を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、指標生成処理とモデル生成処理とを実行する他の情報処理装置から、生成されたモデルを取得し、取得したモデルに対して、上述した学習処理や評価処理を実行することで、素性組を反映させたモデルの生成や、素性組の評価、有用な素性組の抽出を行ってもよい。

また、情報提供装置１０は、例えば、利用者から既存のモデルの提供を受付けてもよい。このような場合、情報提供装置１０は、受付けたモデルに対して、上述した学習処理や評価処理を実行することで、素性組を反映させたモデルの生成や、素性組の評価、有用な素性組の抽出を行ってもよい。

〔５－２．学習処理と評価処理とを含む指標生成処理について〕
上述した例では、情報提供装置１０は、指標生成処理およびモデル生成処理の結果として生成されたモデルを用いて、評価処理や学習処理を実行していた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、指標生成処理において、入力クロス素性、すなわち、採用する素性組の最適化を行う。このような指標生成処理の入力クロス素性最適化において、上述した学習処理や評価処理の実行を行ってもよい。換言すると、情報提供装置１０は、指標生成処理において、素性組の生成、素性組の値の生成、素性組の値の学習、学習結果に基づいた評価、評価に基づく有用な素性組の抽出等を行ってもよい。

〔５－３．装置構成〕
上記実施形態では、情報提供システム１に、情報提供装置１０、および、モデルを生成するモデル生成サーバ２を有する例について説明したが、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、モデル生成サーバ２が有する機能を有していてもよい。すなわち、情報提供装置１０は、自装置内でモデルの学習を行ってもよい。また、情報提供装置１０が発揮する機能は、端末装置３に内包されていてもよい。このような場合、端末装置３は、生成指標を自動的に生成するとともに、モデル生成サーバ２を用いたモデルの生成を自動的に行う処理、および、生成されたモデルを用いて、素性組に関する各種の処理を実行することとなる。

〔５－４．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔５－５．プログラム〕
また、上述してきた実施形態に係る情報提供装置１０は、例えば図１３に示すような構成のコンピュータ１０００によって実現される。図１３は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

〔６．効果〕
上述したように、情報提供装置１０は、所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から、その複数の種別の素性の組に対応する値を生成する。そして、情報提供装置１０は、生成した値を用いて、所定の対象の特徴をモデルに学習させる。このような処理の結果、情報提供装置１０は、各素性を個別に用いるモデルよりも、精度が高いモデルの生成を実現するとともに、学習を進めた場合におけるサチレーションを低減させることができる。

また、情報提供装置１０は、複数の素性の値から、その複数の素性の積を示す値を生成する。また、情報提供装置１０は、第１種別の素性の値と第２種別の素性の値とから、第１種別の素性と第２種別の素性との組に対応する値を生成する。このような処理の結果、情報提供装置１０は、素性の組の特徴を適切にモデルに学習させることができる。

また、情報提供装置１０は、ディープニューラルネットワークの構造を有するモデルの学習を行う。このため、情報提供装置１０は、モデルの精度を向上させることができる。

また、情報提供装置１０は、所定の対象の素性をランダムに組み合わせた組を生成し、生成した組ごとに対応する値を生成する。このため、情報提供装置１０は、様々な観点で、分類目的と関連性を有すると推定される素性組を見つけ出すことができる。

また、情報提供装置１０は、所定の操作者から、組を生成する際の制約条件を受付けると、制約条件に従って、所定の対象の素性を組み合わせた組を生成し、生成した組ごとに対応する値を生成する。このような処理の結果、情報提供装置１０は、例えば、分類目的と関連性がある可能性が高いと操作者が推定する内容の素性組を生成することができる。

また、情報提供装置１０は、制約条件として、各組に含める素性の指定を受付け、指定された素性を少なくとも含む組を生成し、生成した組ごとに対応する値を生成する。また、情報提供装置１０は、制約条件として、各組に含める素性の数の指定を受付け、指定された数の素性を含む組を生成し、生成した組ごとに対応する値を生成する。また、情報提供装置１０は、制約条件として、生成する組の数の指定を受付け、指定された数の組を生成し、生成した組ごとに対応する値を生成する。また、情報提供装置１０は、制約条件として、素性の候補の指定を受付け、指定された素性の候補を組み合わせた組を生成し、生成した組ごとに対応する値を生成する。また、情報提供装置１０は、制約条件として、素性の組の値をモデルに入力する際の入力態様の指定を受付け、素性の組の値を指定された入力態様でモデルに入力させながら、モデルの学習を行う。

上述した各種の処理の結果、情報提供装置１０は、操作者が所望する態様で、様々な素性組を様々な態様で用いた学習処理の試行を実現することができる。

また、情報提供装置１０は、学習結果に基づいて、素性の組を評価し、評価結果が所定の条件を満たす素性の組の値を用いて、モデルを学習する。例えば、情報提供装置１０は、評価結果が所定の閾値を超える素性の組と対応する値を用いて、モデルを学習する。また、例えば、情報提供装置１０は、評価結果が所定の閾値を下回る素性の組を、モデルを学習する際に値を用いる素性の組から除外する。このような処理の結果、情報提供装置１０は、より有用な素性組を用いて、モデルの学習を行うことができる。また、情報提供装置１０は、モデルの精度をさらに向上させることができる。

また、情報提供装置１０は、ある素性組の値を用いて学習が行われたモデルの、その素性組の値を用いずに学習が行われたモデルに対する改善量に基づいて、その素性組を評価する。このため、情報提供装置１０は、より有用な素性組を適切に抽出することができる。

また、情報提供装置１０は、それぞれ異なる素性を組み合わせた複数の組と対応する値を生成し、全ての組と対応する値を用いて学習が行われたモデルを基準モデルとして学習するとともに、各組と対応する値を用いずに学習が行われた複数のモデルとを学習し、所定の組と対応する値を用いずに学習が行われたモデルの平均損失の値と、基準モデルの平均損失の値との差に基づいて、その所定の組を評価する。このため、情報提供装置１０は、適切に、素性組が有用か否かを評価することができる。

また、情報提供装置１０は、評価結果が所定の条件を満たす素性の組とは異なる新たな素性の組と対応する値を生成し、評価結果が所定の条件を満たす素性の組と、その素性の組とは異なる新たな素性の組とに対応する各値を用いて、モデルを学習し、学習結果に基づいて、各素性の組を評価する。このような処理の結果、情報提供装置１０は、有用な素性組を自動的に見つけ出すことができる。

また、情報提供装置１０は、評価結果が所定の条件を満たす素性の組に基づいて、新たな素性の組を生成し、生成した素性の組と対応する値を生成する。例えば、情報提供装置１０は、評価結果が所定の閾値を超える素性の組に含まれる素性を含む新たな素性の組を生成する。また、例えば、情報提供装置１０は、評価結果が所定の閾値を下回る素性の組に含まれる素性を含まない新たな素性の組を生成する。このような処理の結果、情報提供装置１０は、有用な素性組を自動的かつ効率的に生成することができる。

また、情報提供装置１０は、複数種別の素性に対応する複数の値から生成されたその複数種別の素性の組に対応する値であって、それぞれ異なる素性の組に対応する値の特徴をモデルに学習させた際の精度の改善量を取得する。そして、情報提供装置１０は、改善量に基づいて、素性の組を評価する。このような処理の結果、情報提供装置１０は、モデルの精度に対して有用な素性組や有用ではない素性組を利用者に提示することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、配信部は、配信手段や配信回路に読み替えることができる。

１情報提供システム
２モデル生成サーバ
３端末装置
１０情報提供装置
２０通信部
３０記憶部
３１学習データデータベース
３２生成条件データベース
４０制御部
４１モデル生成部
４２受付部
４３学習データ生成部
４４学習部
４５取得部
４６評価部
４７提供部

Claims

所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から、当該複数の種別の素性の組に対応する値を生成する生成部と、
前記生成部が生成した値を用いて、前記所定の対象の特徴をモデルに学習させる学習部と、
前記学習部による学習結果に基づいて、前記生成部が生成した値に対応する素性の組を評価する評価部と
を有し、
前記学習部は、前記評価結果が所定の条件を満たす素性の組の値を用いて、前記モデルを学習し、
前記評価部は、前記生成部が生成した値を用いて学習が行われたモデルの、当該値を用いずに学習が行われたモデルに対する改善量に基づいて、当該値と対応する素性の組を評価する
ことを特徴とする学習装置。
前記生成部は、前記複数の素性の値から、当該複数の素性の積を示す値を生成する
ことを特徴とする請求項１に記載の学習装置。
前記生成部は、第１種別の素性の値と第２種別の素性の値とから、第１種別の素性と第２種別の素性との組に対応する値を生成する
ことを特徴とする請求項１または２に記載の学習装置。
前記学習部は、ディープニューラルネットワークの構造を有するモデルの学習を行う
ことを特徴とする請求項１～３のうちいずれか１つに記載の学習装置。
前記生成部は、前記所定の対象の素性をランダムに組み合わせた組を生成し、生成した組ごとに対応する値を生成する
ことを特徴とする請求項１～４のうちいずれか１つに記載の学習装置。
所定の操作者から、前記組を生成する際の制約条件を受付ける受付部
を有し、
前記生成部は、前記制約条件に従って、前記所定の対象の素性を組み合わせた組を生成し、生成した組ごとに対応する値を生成する
ことを特徴とする請求項１～５のうちいずれか１つに記載の学習装置。
前記受付部は、前記制約条件として、各組に含める素性の指定を受付け、
前記生成部は、指定された素性を少なくとも含む組を生成し、生成した組ごとに対応する値を生成する
ことを特徴とする請求項６に記載の学習装置。
前記受付部は、前記制約条件として、各組に含める素性の数の指定を受付け、
前記生成部は、指定された数の素性を含む組を生成し、生成した組ごとに対応する値を生成する
ことを特徴とする請求項６または７に記載の学習装置。
前記受付部は、前記制約条件として、生成する組の数の指定を受付け、
前記生成部は、指定された数の組を生成し、生成した組ごとに対応する値を生成する
ことを特徴とする請求項６～８のうちいずれか１つに記載の学習装置。
前記受付部は、前記制約条件として、素性の候補の指定を受付け、
前記生成部は、指定された素性の候補を組み合わせた組を生成し、生成した組ごとに対応する値を生成する
ことを特徴とする請求項６～９のうちいずれか１つに記載の学習装置。
前記受付部は、前記制約条件として、素性の組の値をモデルに入力する際の入力態様の指定を受付け、
前記学習部は、素性の組の値を指定された入力態様でモデルに入力させながら、当該モデルの学習を行う
ことを特徴とする請求項６～１０のうちいずれか１つに記載の学習装置。
前記学習部は、前記評価結果が所定の閾値を超える素性の組と対応する値を用いて、前記モデルを学習する
ことを特徴とする請求項１～１１のうちいずれか１つに記載の学習装置。
前記学習部は、前記評価結果が所定の閾値を下回る素性の組を、前記モデルを学習する際に値を用いる素性の組から除外する
ことを特徴とする請求項１～１２のうちいずれか１つに記載の学習装置。
前記生成部は、それぞれ異なる素性を組み合わせた複数の組と対応する値を生成し、
前記学習部は、全ての組と対応する値を用いて学習が行われたモデルを基準モデルとして学習するとともに、各組と対応する値を用いずに学習が行われた複数のモデルとを学習し、
前記評価部は、所定の組と対応する値を用いずに学習が行われたモデルの平均損失の値と、前記基準モデルの平均損失の値との差に基づいて、当該所定の組を評価する
ことを特徴とする請求項１～１３のうちいずれか１つに記載の学習装置。
前記生成部は、前記評価結果が所定の条件を満たす素性の組とは異なる新たな素性の組と対応する値を生成し、
前記学習部は、前記評価結果が所定の条件を満たす素性の組と、当該素性の組とは異なる新たな素性の組とに対応する各値を用いて、前記モデルを学習し、
前記評価部は、前記学習部による学習結果に基づいて、各素性の組を評価する
ことを特徴とする請求項１～１４のうちいずれか１つに記載の学習装置。
前記生成部は、前記評価結果が所定の条件を満たす素性の組に基づいて、新たな素性の組を生成し、生成した素性の組と対応する値を生成する
ことを特徴とする請求項１５に記載の学習装置。
前記生成部は、前記評価結果が所定の閾値を超える素性の組に含まれる素性を含む新たな素性の組を生成する
ことを特徴とする請求項１６に記載の学習装置。
前記生成部は、前記評価結果が所定の閾値を下回る素性の組に含まれる素性を含まない新たな素性の組を生成する
ことを特徴とする請求項１６または１７に記載の学習装置。
学習装置が実行する学習方法であって、
所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から、当該複数の種別の素性の組に対応する値を生成する生成工程と、
前記生成工程が生成した値を用いて、前記所定の対象の特徴をモデルに学習させる学習工程と、
前記学習工程による学習結果に基づいて、前記生成工程が生成した値に対応する素性の組を評価する評価工程と
を含し、
前記学習工程は、前記評価結果が所定の条件を満たす素性の組の値を用いて、前記モデルを学習し、
前記評価工程は、前記生成工程が生成した値を用いて学習が行われたモデルの、当該値を用いずに学習が行われたモデルに対する改善量に基づいて、当該値と対応する素性の組を評価する
ことを特徴とする学習方法。
所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から、当該複数の種別の素性の組に対応する値を生成する生成手順と、
前記生成手順が生成した値を用いて、前記所定の対象の特徴をモデルに学習させる学習手順と、
前記学習手順による学習結果に基づいて、前記生成手順が生成した値に対応する素性の組を評価する評価手順と
をコンピュータに実行させ、
前記学習手順は、前記評価結果が所定の条件を満たす素性の組の値を用いて、前記モデルを学習し、
前記評価手順は、前記生成手順が生成した値を用いて学習が行われたモデルの、当該値を用いずに学習が行われたモデルに対する改善量に基づいて、当該値と対応する素性の組を評価する
ための学習プログラム。
所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から生成された当該複数の種別の素性の組に対応する値を用いて当該所定の対象の特徴をモデルに学習させた際の精度の改善量を取得する取得部と、
前記改善量に基づいて、前記素性の組を評価する評価部と
を有し、
前記評価部は、前記評価結果が所定の条件を満たす素性の組の値を用いて学習されたモデルの、当該値を用いずに学習が行われたモデルに対する改善量に基づいて、当該値と対応する素性の組を評価する
ことを特徴とする評価装置。
評価装置が実行する評価方法であって、
所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から生成された当該複数の種別の素性の組に対応する値を用いて当該所定の対象の特徴をモデルに学習させた際の精度の改善量を取得する取得工程と、
前記改善量に基づいて、前記素性の組を評価する評価工程と
を含み、
前記評価工程は、前記評価結果が所定の条件を満たす素性の組の値を用いて学習されたモデルの、当該値を用いずに学習が行われたモデルに対する改善量に基づいて、当該値と対応する素性の組を評価する
ことを特徴とする評価方法。
所定の対象の素性を示す値であって、それぞれ異なる種別の複数の素性を示す複数の値から生成された当該複数の種別の素性の組に対応する値を用いて当該所定の対象の特徴をモデルに学習させた際の精度の改善量を取得する取得手順と、
前記改善量に基づいて、前記素性の組を評価する評価手順と
をコンピュータに実行させ、
前記評価手順は、前記評価結果が所定の条件を満たす素性の組の値を用いて学習されたモデルの、当該値を用いずに学習が行われたモデルに対する改善量に基づいて、当該値と対応する素性の組を評価する
ための評価プログラム。