JP6374573B1

JP6374573B1 - 生成装置、生成方法、及び生成プログラム

Info

Publication number: JP6374573B1
Application number: JP2017113250A
Authority: JP
Inventors: 孝太坪内; 山口　修司; 修司山口
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2018-08-15
Anticipated expiration: 2037-06-08
Also published as: JP2018206232A

Abstract

【課題】可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成する。
【解決手段】本願に係る生成装置は、取得部と、生成部とを備える。取得部は、所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する。生成部は、所定のモデルの学習に用いるデータの基準を示すデータ条件と、取得部により取得されたコンテキストデータ群とに基づいて、データ条件に対応する学習用データを生成する。
【選択図】図４

Description

本発明は、生成装置、生成方法、及び生成プログラムに関する。

従来、種々の機械学習に関する技術が提供されている。例えば、センサデータからプリミティブコンテキストを抽出し、プリミティブコンテキストによって表現された状況とユーザコンテキストとの関係付けを可能とするコンテキスト分析装置およびコンテキスト分析プログラムが知られている。

特開２０１０−２８２４００号公報

しかしながら、上記の従来技術のような機械学習においては、学習用データは、その特徴量数を揃える必要があるため、レコード数やデータの種類などが固定であることが前提であることが多く、可変量データを対象とする場合、柔軟な学習を可能にするデータを生成することが難しい場合がある。このようなレコード数やデータの種類などが固定の学習において可変量データをそのまま用いた場合、学習精度が低下する等、柔軟な学習を行うことが難しい場合がある。

本願は、上記に鑑みてなされたものであって、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成する生成装置、生成方法、生成プログラム、行列データ、及び学習用データを提供することを目的とする。

本願に係る生成装置は、所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する取得部と、所定のモデルの学習に用いるデータの基準を示すデータ条件と、前記取得部により取得されたコンテキストデータ群とに基づいて、前記データ条件に対応する学習用データを生成する生成部と、を備えたことを特徴とする。

実施形態の一態様によれば、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができるという効果を奏する。

図１は、実施形態に係る生成処理の一例を示す図である。図２は、実施形態に係る生成処理の一例を示す図である。図３は、実施形態に係る生成システムの構成例を示す図である。図４は、実施形態に係る生成装置の構成例を示す図である。図５は、実施形態に係るユーザ情報記憶部の一例を示す図である。図６は、実施形態に係るコンテキストデータ記憶部の一例を示す図である。図７は、実施形態に係るデータ条件記憶部の一例を示す図である。図８は、実施形態に係る第１学習用データ記憶部の一例を示す図である。図９は、実施形態に係る行列データ記憶部の一例を示す図である。図１０は、実施形態に係る第２学習用データ記憶部の一例を示す図である。図１１は、実施形態に係るモデル情報記憶部の一例を示す図である。図１２は、実施形態に係る生成処理の一例を示すフローチャートである。図１３は、実施形態に係る生成処理の一例を示すフローチャートである。図１４は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る生成装置、生成方法、生成プログラム、行列データ、及び学習用データを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、生成プログラム、行列データ、及び学習用データが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．生成処理〕
まず、図１及び図２を用いて、実施形態に係る生成処理の一例について説明する。図１及び図２に示す例では、生成装置１００（図３参照）が、ユーザの端末装置１０から取得された可変量のデータ群から学習に用いるデータ（以下、「学習データ」ともいう）を生成する場合を示す。図１及び図２は、実施形態に係る生成処理の一例を示す図である。具体的には、図１は、生成装置１００が、学習に用いるデータの統計的な特徴量である統計的特徴量に対応する統計的データ（以下、「第１学習用データ」ともいう）を生成する場合を示す。また、図２は、生成装置１００が、後述する設定値に対応するレコード数（以下、「統一レコード数」ともいう）に成形されたデータ（以下、「第２学習用データ」ともいう）を生成する場合を示す。

〔生成システムの構成〕
図１及び図２の説明に先立って、図３を用いて生成システム１の構成について説明する。図３は、実施形態に係る生成システムの構成例を示す図である。図３に示すように、生成システム１は、端末装置１０と、生成装置１００とが含まれる。端末装置１０と、生成装置１００とは所定のネットワークＮを介して、有線または無線により通信可能に接続される。なお、図３に示した生成システム１には、複数台の端末装置１０や、複数台の生成装置１００が含まれてもよい。

端末装置１０は、ユーザによって利用される情報処理装置である。端末装置１０は、ユーザによる種々の操作を受け付ける。なお、以下では、端末装置１０をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置１０と読み替えることもできる。なお、上述した端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。図１は、端末装置１０がスマートフォンである場合を示す。また、端末装置１０は、ＧＰＳ（Global Positioning System）センサ等の機能を有し、ユーザの位置を検知し、取得可能であるものとする。例えば、端末装置１０は、生成装置１００に位置情報等の行動情報を送信する。

また、端末装置１０は、温度センサや気圧センサ等の種々の機能を有し、温度や気圧等のユーザの置かれている周辺情報を検知し、取得可能であってもよい。また、端末装置１０は、心拍センサ等の種々の機能を有し、ユーザの生体情報を検知し、取得可能であってもよい。例えば、端末装置１０を利用するユーザは、端末装置１０と通信可能なウェアラブルデバイスを身に付けることにより、端末装置１０によりユーザ自身の生体情報を取得可能としてもよい。例えば、端末装置１０を利用するユーザは、端末装置１０と通信可能なリストバンド型のウェアラブルデバイスを身に付けることにより、端末装置１０によりユーザ自身の心拍（脈拍）に関する情報を端末装置１０が取得可能としてもよい。例えば、端末装置１０は、上述した各種情報を収集し、生成装置１００へ送信する。例えば、端末装置１０は、ユーザのコンテキストに関する情報（以下、「コンテキストデータ」ともいう）を収集し、生成装置１００へ送信する。例えば、ここでいうコンテキストとは、ユーザが置かれた環境等を含む概念であってもよい。

ここでいう、ユーザのコンテキストデータは、例えば、ユーザのコンテキストを示す情報である。例えば、コンテキストデータには、ユーザの属性に関する情報が含まれてもよい。例えば、コンテキストデータには、ユーザがどのようなユーザであるかを示す情報が含まれてもよい。例えば、コンテキストデータには、年齢、性別、プロフィール、興味などの種々のユーザの属性に関する情報が含まれてもよい。

例えば、コンテキストデータには、ユーザの行動履歴に関する情報が含まれてもよい。例えば、コンテキストデータには、ユーザの行動の種別や内容や時間や場所に関する情報が含まれてもよい。例えば、コンテキストデータには、ユーザが行った行動の種別（例えば、コンテンツ閲覧や検索等）や内容（具体的なニュース記事や検索クエリ等）に関する情報が含まれてもよい。例えば、コンテキストデータには、利用サービスに関する情報が含まれてもよい。例えば、コンテキストデータには、ユーザがその場所に位置した滞在（滞留）時間や、場所の属性（商業地や住宅地等）や時間の属性（朝や夜等）などの種々の時間や場所に関する情報が含まれてもよい。

例えば、コンテキストデータには、ユーザが利用する端末装置１０に関する情報が含まれてもよい。例えば、コンテキストデータには、端末装置１０のユーザエージェント（User Agent：ＵＡ）に関する情報が含まれてもよい。例えば、ユーザエージェントは、ＯＳ（Operating System）名、ＯＳのバージョン、ブラウザ名、ブラウザのバージョン、言語といった種々の情報が含まれてもよい。

例えば、コンテキストデータには、ユーザの通信環境に関する情報が含まれてもよい。例えば、コンテキストデータには、Ｗｉ−Ｆｉ（登録商標）（Wireless Fidelity）等の所定の無線ＬＡＮの通信方式や第３世代移動通信システム（以下、「３Ｇ」ともいう）や第４世代移動通信システム（以下、「４Ｇ」ともいう）等の端末装置１０の通信規格による通信方式等のユーザの通信環境に関する情報が含まれてもよい。例えば、コンテキストデータには、ＩＰ（Internet Protocol）アドレス等のユーザの通信環境に関する情報が含まれてもよい。

例えば、コンテキストデータには、環境のコンテキストに関する情報が含まれてもよい。例えば、コンテキストデータには、ユーザの周囲がどんな環境かを示す情報が含まれてもよい。例えば、コンテキストデータには、天気、天候、気温、気圧などの種々の情報（周辺情報）が含まれてもよい。例えば、コンテキストデータには、操作内容に関する情報が含まれてもよい。例えば、コンテキストデータには、ユーザや端末装置１０の状況やユーザや端末装置１０の環境（背景）に基づいて推定されるユーザの状況等に関する情報が含まれてもよい。また、コンテキストデータには、ユーザに提供されるコンテンツの内容、ユーザが反応したコンテンツの内容、ユーザの属性、ユーザの現在位置、現在時刻、ユーザが置かれた物理環境、ユーザが置かれた社会環境、ユーザの運動状態、および、推定されるユーザの感情等の種々の情報が含まれてもよい。なお、上記は例示であり、コンテキストデータには、上記に限らず種々の情報が含まれてもよい。

生成装置１００は、所定のモデルの学習に用いるデータの基準を示すデータ条件と、コンテキストデータ群とに基づいて、データ条件に対応する学習用データを生成する情報処理装置である。

ここから、図１及び図２を用いて生成処理について説明する。図１及び図２の例では、生成装置１００がユーザＵ１及びユーザＵ２のコンテキストデータ（以下、「ログ」や「レコード」ともいう）を対象に学習用データを生成する場合を示すが、生成装置１００は、ユーザＵ１〜ユーザＵｎ等の多数のユーザのコンテキストデータを取得し、生成処理を行うものとする。このように、「ユーザＵ＊（＊は任意の数値）」と記載した場合、そのユーザはユーザＩＤ「Ｕ＊」により識別されるユーザであることを示す。例えば、「ユーザＵ１」と記載した場合、そのユーザはユーザＩＤ「Ｕ１」により識別されるユーザである。なお、図１及び図２の例では、所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群（以下、「バッグ」ともいう）を処理対象とする場合を示す。例えば、各バッグには、各所定期間内に取得されたログ（コンテキストデータ）が含まれる。

（第１学習用データの生成）
まず、図１を用いて第１学習用データの生成処理について説明する。図１中の時系列ＩＮＦ１１は、ユーザＵ１のアクセスを概念的に示す。例えば、時系列ＩＮＦ１１は、ユーザＵ１についてログＡ〜Ｇ等のコンテキストデータが取得されたタイミングを示す。例えば、図１中のログＡは、図６中のコンテキストデータ記憶部１２２に示す履歴ＩＤ「ＬＧ１−１」により識別されるコンテキストデータに対応する。また、例えば、図１中のログＢは、図６中のコンテキストデータ記憶部１２２に示す履歴ＩＤ「ＬＧ１−２」により識別されるコンテキストデータに対応する。詳細は後述するが、コンテキストデータには、「日時」、「ＩＰアドレス」、「通信規格」、「端末情報」、「位置」、「利用サービス」、「検索クエリ」といった種々の情報が含まれる。

まず、生成装置１００は、ユーザＵ１のログにおいて、所定期間に含まれるコンテキストデータ群を一つのバッグに含めると決定する（ステップＳ１１）。図１の例では、生成装置１００は、ログＡ〜Ｄの４個のコンテキストデータをバッグＢＧ１−１に含めると決定する。上記のように、「バッグＢＧ＊（＊は任意の数値）」と記載した場合、そのバッグはバッグＩＤ「ＢＧ＊」により識別されるバッグであることを示す。例えば、「バッグＢＧ１−１」と記載した場合、そのバッグはバッグＩＤ「ＢＧ１−１」により識別されるバッグである。

このように、バッグＢＧ１−１には、４個のコンテキストデータ（ログＡ〜Ｄ）が含まれる。すなわち、バッグＢＧ１−１のレコード数は「４」である。また、図１の例では、各コンテキストデータからは１０００個の特徴量が抽出される場合を示す。この場合、各コンテキストデータの特徴量数は１０００個となる。例えば、各コンテキストデータの特徴量には、「特徴量２−１（デバイスＤＡ）」や「特徴量２−２（デバイスＤＢ）」や「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量（図１０参照）が抽出される。

そのため、バッグＢＧ１−１には４個のコンテキストデータが含まれるため、バッグＢＧ１−１は、４個のコンテキストデータの各特徴量を合わせた４０００（４×１０００）個の特徴量を含む。すなわち、バッグＢＧ１−１の特徴量数（図１中の「総特徴量数」に対応）は、４０００個となる。

また、生成装置１００は、ユーザＵ１のログにおいて、所定期間に含まれるコンテキストデータ群を一つのバッグに含めると決定する（ステップＳ１２）。図１の例では、生成装置１００は、ログＥ等の４００個のコンテキストデータをバッグＢＧ１−２に含めると決定する。このように、バッグＢＧ１−２には、４００個のコンテキストデータ（ログＥ等）が含まれる。すなわち、バッグＢＧ１−２のレコード数は「４００」である。また、図１の例では、各コンテキストデータからは１０００個の特徴量が抽出される。例えば、各コンテキストデータの特徴量には、「特徴量２−１（デバイスＤＡ）」や「特徴量２−２（デバイスＤＢ）」や「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量が抽出される。

そのため、バッグＢＧ１−２には４００個のコンテキストデータが含まれるため、バッグＢＧ１−２は、４００個のコンテキストデータの各特徴量を合わせた４０００００（４００×１０００）個の特徴量を含む。すなわち、バッグＢＧ１−２の特徴量数（図１中の「総特徴量数」に対応）は、４０００００個となる。

このように、バッグＢＧ１−１とバッグＢＧ１−２とでは、含まれる特徴量数が異なるため、例えば特徴量数が多いバッグＢＧ１−２の特徴量に合せて学習を行う場合、バッグＢＧ１−１が対応する特徴量が少ない。そのため、可変量データを対象とする場合、単純に特徴量を用いて学習すると十分な学習ができず学習精度が低下する等、柔軟な学習を行うことが難しい。

そこで、生成装置１００は、各バッグのコンテキストデータ群から統計的なデータを生成する。例えば、生成装置１００は、所定の条件に基づいて、各バッグのコンテキストデータ群から統計的なデータを生成する。具体的には、生成装置１００は、統計的特徴量の指定を含むデータ条件と、コンテキストデータ群とに基づいて、第１学習用データを生成する。

図１の例では、生成装置１００は、図７に示すデータ条件記憶部１２３中の「統計的特徴量」に格納された統計的特徴量の指定に基づいて、第１学習用データを生成する。ここで、図７に示すデータ条件記憶部１２３中の「統計的特徴量」には、「特徴量１−１」や「特徴量１−２」や「特徴量１−１００」といった項目が含まれる。このように、「統計的特徴量」には、「特徴量１−１」〜「特徴量１−１００」の１００個の統計的特徴量に対応する項目が含まれる。図１の例では、図７中の条件ＩＤ「ＣＤ１」により識別される条件（以下、「条件ＣＤ１」ともいう）を用いる場合を示す。

図７中の条件ＣＤ１における「特徴量１−１」に対応する特徴量は、レコード数を示す統計的特徴量であることを示す。また、図７中の条件ＣＤ１における「特徴量１−２」に対応する特徴量は、サービス数を示す統計的特徴量であることを示す。また、図７中の条件ＣＤ１における「特徴量１−１００」に対応する特徴量は、関連商品数を示す統計的特徴量であることを示す。なお、上記の統計的特徴量は、一例であり、目的に応じて種々の統計的特徴量が用いられてもよい。例えば、統計的特徴量は、レコード数やサービス数等の数に限らず、平均値、最大、最小、分散、標準偏差などの種々の統計量に対応する特徴量であってもよい。

生成装置１００は、バッグＢＧ１−１に対応する第１学習用データを生成する（ステップＳ１３）。生成装置１００は、上述したような「特徴量１−１」〜「特徴量１−１００」に対応する統計的特徴量に対応する第１学習用データをバッグＢＧ１−１中のコンテキストデータ群から生成する。図１の例では、生成装置１００は、生成情報ＩＮＦ１２に示すように、バッグＢＧ１−１に対応する第１学習用データを生成する。

図１の例では、生成装置１００は、バッグＢＧ１−１に対応する第１学習用データとして、「特徴量１−１（レコード数）」が「４」であることを示すデータを生成する。また、生成装置１００は、バッグＢＧ１−１に対応する第１学習用データとして、「特徴量１−２（サービス数）」が「２」であることを示すデータを生成する。また、生成装置１００は、バッグＢＧ１−１に対応する第１学習用データとして、「特徴量１−１００（関連商品数）」が「１」であることを示すデータを生成する。また、生成装置１００は、図８の第１学習用データ記憶部１２４に示すバッグＢＧ１−２のような他のバッグに対応する第１学習用データを生成する。

次に、ユーザＵ２のコンテキストデータからの第１学習用データの生成について説明する。図１中の時系列ＩＮＦ２１は、ユーザＵ２のアクセスを概念的に示す。例えば、時系列ＩＮＦ２１は、ユーザＵ２についてログＪ〜Ｌ等のコンテキストデータが取得されたタイミングを示す。例えば、図１中のログＪは、図６中のコンテキストデータ記憶部１２２に示す履歴ＩＤ「ＬＧ２−１」により識別されるコンテキストデータに対応する。また、例えば、図１中のログＫは、図６中のコンテキストデータ記憶部１２２に示す履歴ＩＤ「ＬＧ２−２」により識別されるコンテキストデータに対応する。コンテキストデータには、「日時」、「ＩＰアドレス」、「通信規格」、「端末情報」、「位置」、「利用サービス」、「検索クエリ」といった種々の情報が含まれる。

また、生成装置１００は、ユーザＵ２のログにおいて、所定期間に含まれるコンテキストデータ群を一つのバッグに含めると決定する（ステップＳ１４）。図１の例では、生成装置１００は、ログＪ等の２０個のコンテキストデータをバッグＢＧ２−１に含めると決定する。このように、バッグＢＧ２−１には、２０個のコンテキストデータ（ログＪ等）が含まれる。すなわち、バッグＢＧ２−１のレコード数は「２０」である。また、図１の例では、各コンテキストデータからは１０００個の特徴量が抽出される。例えば、各コンテキストデータの特徴量には、「特徴量２−１（デバイスＤＡ）」や「特徴量２−２（デバイスＤＢ）」や「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量が抽出される。

生成装置１００は、バッグＢＧ２−１に対応する第１学習用データを生成する（ステップＳ１５）。生成装置１００は、上述したような「特徴量１−１」〜「特徴量１−１００」に対応する統計的特徴量に対応する第１学習用データをバッグＢＧ２−１中のコンテキストデータ群から生成する。図１の例では、生成装置１００は、生成情報ＩＮＦ２２に示すように、バッグＢＧ２−１に対応する第１学習用データを生成する。

図１の例では、生成装置１００は、バッグＢＧ２−１に対応する第１学習用データとして、「特徴量１−１（レコード数）」が「２０」であることを示すデータを生成する。また、生成装置１００は、バッグＢＧ２−１に対応する第１学習用データとして、「特徴量１−２（サービス数）」が「１」であることを示すデータを生成する。また、生成装置１００は、バッグＢＧ２−１に対応する第１学習用データとして、「特徴量１−１００（関連商品数）」が「５」であることを示すデータを生成する。また、生成装置１００は、ユーザＵ２の他のバッグや他のユーザのバッグについても第１学習用データを生成する。

上記のように、バッグＢＧ１−１、バッグＢＧ１−２、バッグＢＧ２−１等に含まれるコンテキストデータ数が可変であるため、各バッグに対応する特徴量数（図１中の総特徴量数）が異なる。そのため、各バッグに含まれるデータをそのまま用いて学習を行なった場合、十分な学習ができず学習精度が低下する等、柔軟な学習を行うことが難しい。一方、生成装置１００は、各バッグに対応する第１学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

（第２学習用データの生成）
次に、図２を用いて第２学習用データの生成処理について説明する。図１に示すように、生成装置１００は、各バッグに含まれるコンテキストデータ群の統計的特徴量に対応する第１学習用データを生成する。一方で、コンテキストデータ群を統計量に変換したデータのみならず、コンテキストデータ群（生データ）も学習データに含まれることが望ましい。
しかしながら、各バッグに含まれるデータは可変量であるため、各バッグのレコード数が異なるため、バッグ内のコンテキストデータ群（生データ）をそのまま用いることは難しい。また、バッグに対応する所定期間の時間や長さが異なるので、正規化した場合の意味付けも難しい。また、単純にバックのレコードをデータ数の総計で割り算するなどにより、纏めることも考えられるが、単純な割り算では、１レコードの場合の「１」と３レコードの場合の「０．３」の差の意味が不明となる。

そこで、生成装置１００は、各バッグのコンテキストデータ群を設定値に対応するレコード数に成形されたデータである第２学習用データを生成することにより、各バッグのコンテキストデータ群のデータサイズを統一する。例えば、生成装置１００は、各バッグのコンテキストデータ群のレコード数を設定値に対応する統一レコード数に圧縮または増幅することにより、各バッグに対応する第２学習用データを生成する。このように、生成された各バッグの第２学習用データは、同じ特徴量数を有する同じ統一レコード数のデータであるため、種々の学習に用いることが可能となる。

ここから、生成装置１００による第２学習用データの生成を具体的に説明する。なお、図２の例では、統一レコード数は「３」である場合を説明する。また、図２の例では、第２学習用データの生成例として、ユーザＵ１に対応するバッグＢＧ１−２及びユーザＵ２に対応するバッグＢＧ２−１を対象とする場合を示す。

まず、生成装置１００は、ユーザＵ１について、バッグＢＧ１−２のコンテキストデータ群から行列を生成する（ステップＳ２１）。具体的には、生成装置１００は、バッグＢＧ１−２に含まれるレコード数が「４００」であり、各レコードの特徴量が「１０００」である、コンテキストデータ群から行列を生成する。図２の例では、生成装置１００は、バッグＢＧ１−２のコンテキストデータ群から行列Ｍ２１（以下「第１行列Ｍ２１」ともいう）を生成する。

図２に示す第１行列Ｍ２１は、行を各特徴量とし、列を各レコードとする行列を示す。例えば、第１行列Ｍ２１中の各行「＃１」〜「＃１０００」は、「特徴量２−１（デバイスＤＡ）」〜「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量（図１０参照）の各々に対応する。例えば、第１行列Ｍ２１中の行「＃１」は、「特徴量２−１（デバイスＤＡ）」に対応する。また、第１行列Ｍ２１中の行「＃２」は、「特徴量２−２（デバイスＤＢ）」に対応する。

また、例えば、第１行列Ｍ２１中の各列「＃１」〜「＃４００」は、バッグＢＧ１−２に含まれる各レコードに対応する。例えば、第１行列Ｍ２１中の列「＃１」は、ユーザＵ１のコンテキストデータであるログＥに対応する。また、第１行列Ｍ２１中の列「＃２」は、ユーザＵ１のコンテキストデータであるログＦに対応する。また、第１行列Ｍ２１中の列「＃３」は、ユーザＵ１のコンテキストデータであるログＧに対応する。

例えば、第１行列Ｍ２１における行「＃１」と列「＃１」とが交差する要素は、ログＥにおける「特徴量２−１（デバイスＤＡ）」に対応する値を示す。また、例えば、第１行列Ｍ２１における行「＃２」と列「＃１」とが交差する要素は、ログＥにおける「特徴量２−２（デバイスＤＢ）」に対応する値を示す。また、例えば、第１行列Ｍ２１における行「＃１」と列「＃２」とが交差する要素は、ログＦにおける「特徴量２−１（デバイスＤＡ）」に対応する値を示す。

生成装置１００は、第１行列Ｍ２１を用いて第２学習用データを生成する（ステップＳ２２）。図２の例では、生成装置１００は、１０００行４００列の第１行列Ｍ２１（行列データ）を統一レコード数「３」に対応する１０００行３列のデータに変換することにより、第２学習用データを生成する。このように、生成装置１００は、対象とするバッグに含まれるレコード数が統一レコード数よりも多い場合、レコード数を圧縮することにより、第２学習用データを生成する。

ここで、生成装置１００は、第２学習用データの生成に所定の行列データ（以下、「第２行列」ともいう）を用いる。例えば、生成装置１００は、図９中の行列データ記憶部１２５に示すような行列データ（第２行列）を用いて、第２学習用データを生成する。

図９中の行列データ記憶部１２５は、行列データ群１２５−１や行列データ群１２５−２等のように統一レコードの設定値ごとに情報（テーブル）を記憶する。例えば、行列データ群１２５−１は、統一レコード数の設定値が「３」である場合に用いられる行列データを示す。すなわち、図２に示す例では、生成装置１００は、統一レコード数の設定値が「３」であるため、行列データ群１２５−１に示す行列データを用いる。このように、生成装置１００は、所定の範囲の各自然数及び設定値に対応する複数の第２行列のうち、コンテキストデータ群のレコード数及び設定値に対応する第２行列を用いることにより、第２学習用データを生成する。

図９に示す行列データ群１２５−１や行列データ群１２５−２等は、「行列ＩＤ」、「対象レコード数」、「行列データ」といった項目を有する。また、「行列データ」は、各「レコード」と各「統一レコード」とに対応する行列データが格納される。このように、「行列データ」は、行を「レコード」とし、列を「統一レコード」とする行列データが格納される。

「行列ＩＤ」は、各行列を識別するための識別情報を示す。「対象レコード数」は、対応する行列が用いられる対象のレコード数を示す。「行列データ」は、行列データを示す。具体的には、「行列データ」は、統計的特徴量に対応する統計的データである行列データを示す。

なお、図９の例では、行列ＩＤに含まれる数字は、統一レコード数やレコード数に対応する。例えば、行列ＩＤ「ＭＴ３−１」は、統一レコード数が「３」であり、対象レコード数が「１」である場合に用いられる行列データであることを示す。すなわち、行列ＩＤ「ＭＴ３−１」により識別される行列データ（以下、「行列ＭＴ３−１」ともいう）は、レコード数が「１」であるバッグのコンテキストデータ群から、統一レコード数「３」に増幅した第２学習用データを生成する場合に用いられる第２行列であることを示す。上記のように、「行列ＭＴ＊（＊は任意の数値または文字列）」と記載した場合、その行列は行列ＩＤ「行列ＭＴ＊」により識別される行列であることを示す。

また、例えば、行列ＩＤ「ＭＴ３−４００」は、統一レコード数が「３」であり、対象レコード数が「４００」である場合に用いられる行列データであることを示す。すなわち、行列ＭＴ３−４００は、レコード数が「４００」であるバッグのコンテキストデータ群から、統一レコード数「３」に圧縮した第２学習用データを生成する場合に用いられる第２行列であることを示す。

例えば、生成装置１００は、行列データ記憶部１２５に記憶された複数の行列データのうち、第２学習用データの生成に用いる行列データを決定する。例えば、生成装置１００は、対象とするバッグに含まれるレコード数を行の数とし、統一レコード数（設定値）を列の数とする行列データを第２学習用データの生成に用いる行列データを決定する。図２の例では、生成装置１００は、バッグに含まれるレコード数「４００」及び統一レコード数「３」に対応する４００行３列の行列ＭＴ３−４００（以下、「第２行列ＭＴ３−４００」ともいう）を、第２学習用データの生成に用いる行列データとして決定する。そして、生成装置１００は、１０００行４００列の第１行列Ｍ２１と、第２行列ＭＴ３−４００との積により、第２学習用データＭ３１を生成する。

例えば、第２行列ＭＴ３−４００において、レコード「＃１」の行と統一レコード「＃１」の列とが交差する箇所は、第２行列ＭＴ３−４００の１行１列目の要素に対応する。また、例えば、図２の例では、第２行列ＭＴ３−４００において、レコード「＃１」の行と統一レコード「＃２」の列とが交差する箇所は、第２行列ＭＴ３−４００の１行２列目の要素に対応する。

生成装置１００は、１０００行４００列の第１行列Ｍ２１と、４００行３列の第２行列ＭＴ３−４００との積により、１０００行３列の行列データである第２学習用データＭ３１を生成する。なお、第２学習用データＭ３１は、各列「＃１」〜「＃３」を成形後のコンテキストデータとすることにより、３つの成形後のコンテキストデータとして生成される。このように、生成装置１００は、バッグＢＧ１−２から、「特徴量２−１（デバイスＤＡ）」や「特徴量２−２（デバイスＤＢ）」や「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量を含む成形後のコンテキストデータを３つ生成する。なお、生成装置１００は、ユーザＵ１について、バッグＢＧ１−１や他のバッグから同様に３つの成形後のコンテキストデータを生成する。

また、生成装置１００は、ユーザＵ２について、バッグＢＧ２−１のコンテキストデータ群から行列を生成する（ステップＳ２３）。具体的には、生成装置１００は、バッグＢＧ２−１に含まれるレコード数が「２０」であり、各レコードの特徴量が「１０００」である、コンテキストデータ群から行列を生成する。図２の例では、生成装置１００は、バッグＢＧ２−１のコンテキストデータ群から行列Ｍ２２（以下「第１行列Ｍ２２」ともいう）を生成する。

図２に示す第１行列Ｍ２２は、行を各特徴量とし、列を各レコードとする行列を示す。例えば、第１行列Ｍ２２中の各行「＃１」〜「＃１０００」は、「特徴量２−１（デバイスＤＡ）」〜「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量の各々に対応する。例えば、第１行列Ｍ２２中の行「＃１」は、「特徴量２−１（デバイスＤＡ）」に対応する。また、第１行列Ｍ２２中の行「＃２」は、「特徴量２−２（デバイスＤＢ）」に対応する。

また、例えば、第１行列Ｍ２２中の各列「＃１」〜「＃２０」は、「バッグＢＧ２−１に含まれる各レコードに対応する。例えば、第１行列Ｍ２２中の列「＃１」は、ユーザＵ２のコンテキストデータであるログＪに対応する。また、第１行列Ｍ２２中の列「＃２」は、ユーザＵ２のコンテキストデータであるログＫに対応する。また、第１行列Ｍ２２中の列「＃３」は、ユーザＵ２のコンテキストデータであるログＬに対応する。

例えば、第１行列Ｍ２２における行「＃１」と列「＃１」とが交差する要素は、ログＪにおける「特徴量２−１（デバイスＤＡ）」に対応する値を示す。また、例えば、第１行列Ｍ２２における行「＃２」と列「＃１」とが交差する要素は、ログＪにおける「特徴量２−２（デバイスＤＢ）」に対応する値を示す。また、例えば、第１行列Ｍ２２における行「＃１」と列「＃２」とが交差する要素は、ログＫにおける「特徴量２−１（デバイスＤＡ）」に対応する値を示す。

生成装置１００は、第１行列Ｍ２２を用いて第２学習用データを生成する（ステップＳ２４）。図２の例では、生成装置１００は、１０００行２０列の第１行列Ｍ２２（行列データ）を統一レコード数「３」に対応する１０００行３列のデータに変換することにより、第２学習用データを生成する。このように、生成装置１００は、対象とするバッグに含まれるレコード数が統一レコード数よりも多い場合、レコード数を圧縮することにより、第２学習用データを生成する。

例えば、生成装置１００は、行列データ記憶部１２５に記憶された複数の行列データのうち、第２学習用データの生成に用いる行列データを決定する。図２の例では、生成装置１００は、バッグに含まれるレコード数「２０」及び統一レコード数「３」に対応する２０行３列の行列ＭＴ３−２０（以下、「第２行列ＭＴ３−２０」ともいう）を、第２学習用データの生成に用いる行列データとして決定する。そして、生成装置１００は、１０００行２０列の第１行列Ｍ２２と、２０行３列の第２行列ＭＴ３−２０との積により、第２学習用データＭ３２を生成する。

例えば、第２行列ＭＴ３−２０において、レコード「＃１」の行と統一レコード「＃１」の列とが交差する箇所は、第２行列ＭＴ３−２０の１行１列目の要素に対応する。また、例えば、図２の例では、第２行列ＭＴ３−２０において、レコード「＃１」の行と統一レコード「＃２」の列とが交差する箇所は、第２行列ＭＴ３−２０の１行２列目の要素に対応する。

生成装置１００は、１０００行２０列の第１行列Ｍ２２と、２０行３列の第２行列ＭＴ３−２０との積により、１０００行３列の行列データである第２学習用データＭ３２を生成する。なお、第２学習用データＭ３２は、各列「＃１」〜「＃３」を成形後のコンテキストデータとすることにより、３つの成形後のコンテキストデータとして生成される。このように、生成装置１００は、バッグＢＧ２−１から、「特徴量２−１（デバイスＤＡ）」や「特徴量２−２（デバイスＤＢ）」や「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量を含む成形後のコンテキストデータを３つ生成する。なお、生成装置１００は、ユーザＵ２についての他のバッグや他のユーザのバッグから同様に３つの成形後のコンテキストデータを生成する。

このように、生成装置１００は、種々のレコード数の異なるバッグ内のコンテキストデータ群から統一レコード数にレコード数が統一され、同じ特徴量数を有する第２学習用データを生成することにより、各バッグのレコード数が異なる場合であっても、バッグ内のコンテキストデータを種々の学習に用いることが可能となる。

上述したように、生成装置１００は、可変量のデータが含まれるバッグについて、第１学習用データや第２学習用データ等の成形したデータを生成する。これにより、生成装置１００は、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

（１−１．バッグ）
生成装置１００は、各バッグのパラメータを動的に調整してもよい。このように、生成装置１００は、各バッグに関するパラメータを適宜変更してもよい。例えば、生成装置１００は、期間や最大量や写像パラメータやノイズ除去のパラメータや頻度などによるサンプリングパラメータ等の種々のパラメータをバッグに応じて変動させてもよい。例えば、生成装置１００は、各バッグに含まれるデータの最大量を変動させてもよい。例えば、生成装置１００は、各バッグに応じて対応する所定期間の長さやそのバッグに含まれるコンテキストデータのレコード数の最大値を変動させてもよい。

例えば、生成装置１００は、各バッグに含まれるデータから生成した第１学習用データや第２学習用データを認証モデルの生成や認証モデルを用いた認証に用いる場合、アクセスの多いユーザについては、各バッグの期間を短くしてもよい。例えば、生成装置１００は、各バッグに含まれるデータから生成した第１学習用データや第２学習用データを認証モデルの生成に用いる場合、ユーザＵ１よりもユーザＵ２の方がアクセスの多い場合、ユーザＵ１の各バッグの期間をユーザＵ２の各バッグの期間よりも長くしてもよい。また、例えば、生成装置１００は、位置情報の変動が少なすぎるユーザの場合、バッグの期間を長くしてもよい。なお、ここでいうバッグの期間とは、バッグに含まれるコンテキストデータを収集する期間を意味する。

例えば、生成装置１００は、位置情報から推定した精度が所定の閾値以下の場合、バッグの期間を長くしてもよい。例えば、生成装置１００は、各バッグに含まれるデータから生成した第１学習用データや第２学習用データを、認証モデルを用いた認証に用いる場合、認証の精度が所定の閾値以下の場合、バッグの期間を長くしてもよい。

また、生成装置１００は、フィードバックさせてバッグのパラメータを動的に変動させてもよい。例えば、生成装置１００は、ユーザのコンテキストまたは学習の結果に応じて、バッグのパラメータを変更してもよい。例えば、生成装置１００は、モデルの精度や学習の結果に応じて、バッグの期間を変更してもよい。例えば、生成装置１００は、認証モデルの認証精度が所定の閾値未満である場合、バッグの期間を長くするように変更してもよい。

（１−２．第１学習用データ）
また、生成装置１００は、第１学習用データとして、上記に限らず種々のデータを生成してもよい。例えば、生成装置１００は、バッグに含まれるコンテキストデータ群におけるデータの時系列的変化を解析することにより第１学習用データを生成してもよい。例えば、生成装置１００は、バッグに含まれる時系列解析の波の形に基づいて第１学習用データを生成してもよい。

例えば、生成装置１００は、バッグに含まれるコンテキストデータ群における変位（リズム、上がる、下がる、凸凹など）に基づいて、第１学習用データを生成してもよい。例えば、生成装置１００は、「特徴量１−１０」として、時系列における生体情報（例えば血圧）の「変化」に関する第１学習用データを生成してもよい。

例えば、生成装置１００は、「特徴量１−１０」として、時系列において血圧の上昇度合いに応じた第１学習用データを生成してもよい。例えば、生成装置１００は、「特徴量１−１０」として、時系列において血圧の上昇度合いが大きい程大きくなる、０〜１までの値を第１学習用データとして生成してもよい。また、例えば、生成装置１００は、注意力散漫度やデータ変換や意味付けやラベリング等の種々の第１学習用データを生成してもよい。

また、例えば、生成装置１００は、コンテキストデータ群に基づいて推定されるユーザの状況に関する第１学習用データを生成してもよい。例えば、生成装置１００は、バッグに含まれるコンテキストデータ群に基づいてユーザの状況を推定してもよい。例えば、生成装置１００は、ユーザの位置情報やコンテンツの閲覧等の種々の行動情報に基づいて、ユーザがどのような状況であるかを推定してもよい。

例えば、生成装置１００は、ユーザの位置履歴情報やコンテンツの閲覧等の種々の行動履歴情報に基づいて、ユーザがどのような状況であるかを推定してもよい。例えば、生成装置１００は、ユーザが夜に所定の行動を行う傾向がある場合、バッグに含まれるコンテキストデータ群に対応する時点が夜である場合、ユーザが所定の行動を行う可能性が高い状況であると推定してもよい。また、例えば、生成装置１００は、ユーザの位置がユーザの自宅と推定される位置から所定の範囲内に位置する場合、ユーザが家に所在して、寛いでいる可能性が高い状況であると推定してもよい。

なお、上記は一例であり、生成装置１００は、種々の情報等に基づいて種々のユーザの心理状態等の種々の状況を推定してもよい。

（１−３．行列データ）
また、生成装置１００は、行列データ記憶部１２５に記憶される第２行列を外部の情報処理装置から取得してもよい、生成してもよい。例えば、生成装置１００は、所定のビジネスロジックや第２行列を生成する情報処理装置の管理者等の経験的に基づいて手動で設定された第２行列を取得してもよい。また、例えば、生成装置１００は、機械学習等の手法により生成された第２行列を取得してもよい。

また、例えば、生成装置１００は、機械学習等の手法により第２行列を生成してもよい。例えば、生成装置１００は、正解情報（正例）や不正解情報（負例）に基づいて、第２行列を生成してもよい。例えば、生成装置１００は、ユーザについて正しく認証がされた場合のコンテキストデータ群に基づいて、第２行列を生成してもよい。例えば、生成装置１００は、ユーザについて正しく認証がされた場合のコンテキストデータ群との積により生成される第２学習用データを用いた認証の精度が高くなるよう、第２行列を生成してもよい。

また、例えば、生成装置１００は、機械学習等の手法により第２行列を生成してもよい。例えば、生成装置１００は、各対象レコード数（レコード数Ｍ）毎にモデル（行列生成モデル）を生成し、生成した行列生成モデルを用いて第２行列を生成してもよい。例えば、生成装置１００は、各対象レコード数（レコード数Ｍ）と各統一レコード数である設定数（設定数Ｎ）との組合せ毎にモデル（行列生成モデル）を生成し、生成した行列生成モデルを用いて第２行列を生成してもよい。例えば、生成装置１００は、過去のデータで、レコード数Ｍを行の数とし、設定数Ｎを列の数とする行列（Ｍ×Ｎ行列）に写像し、問題の判別精度が略最大になるように調整することにより、行列生成モデルを生成してもよい。

例えば、生成装置１００は、正解情報（正例）や不正解情報（負例）に基づいて、行列生成モデルを生成してもよい。例えば、生成装置１００は、ユーザについて正しく認証がされた場合のコンテキストデータ群に基づいて、行列生成モデル等を生成してもよい。例えば、生成装置１００は、ユーザについて正しく認証がされた場合のコンテキストデータ群を入力した場合に第２行列により生成される第２学習用データを用いた認証の精度が高くなるよう、行列生成モデルを生成してもよい。

（１−４．モデルの生成）
なお、生成装置１００は、生成した第１学習用データや第２学習用データを用いて、種々のモデル等を生成してもよい。例えば、生成装置１００は、第１学習用データ記憶部１２４に示すような第１学習用データや、第２学習用データ記憶部１２６に示すような第２学習用データを用いて、ユーザを認証するモデル（認証モデル）やユーザの行動を予測するモデル（予測モデル）等の種々のモデルを生成してもよい。

例えば、生成装置１００は、正解情報（正例）や不正解情報（負例）に基づいて、認証モデル等を生成してもよい。例えば、生成装置１００は、ユーザについて正しく認証がされた場合のコンテキストデータ群とユーザを一意に特定可能な情報（例えばユーザＩＤ）とに基づいて、認証モデル等を生成してもよい。例えば、生成装置１００は、ユーザについて正しく認証がされた場合のコンテキストデータ群から生成された第１学習用データや第２学習用データに基づいて、認証モデル等を生成してもよい。

例えば、生成装置１００は、種々の認証モデルを用いてもよい。例えば、生成装置１００は、多クラス分類モデルを認証モデルとして用いてもよい。例えば、生成装置１００は、いわゆるマルチラベル問題に対応するモデルを用いて、ユーザを認証してもよい。例えば、生成装置１００は、カーネル法に関する技術を用いて、ユーザを認証してもよい。例えば、生成装置１００は、特殊な特徴量（例えば、ｘの２乗等）を組み合わせることにより、空間を多次元に分類する手法を用いて、ユーザを認証してもよい。また、例えば、生成装置１００は、非線型分類に関する技術を用いて、ユーザを認証してもよい。

例えば、生成装置１００は、ユーザの過去のログを多次元の特徴量を数値に変換したり、多次元ベクトル空間内に写像したりすることにより、ユーザを認証してもよい。例えば、生成装置１００は、取得したコンテキストデータを数値や空間上に配置（マッピング）し、そのコンテキストデータに対応する点（位置）の近くにある点に対応するユーザとして認証してもよい。なお、上記は一例であり、生成装置１００は、ユーザを認証可能であれば、どのような情報を用いてもよい。

また、例えば、生成装置１００は、正解情報（正例）や不正解情報（負例）に基づいて、ユーザの行動を予測する予測モデルを生成してもよい。例えば、生成装置１００は、ユーザが所定の商品を購入した場合におけるコンテキストデータ群に基づいて、所定の商品を購入するかどうかの行動を予測する予測モデル等を生成してもよい。例えば、生成装置１００は、ユーザが所定の商品を購入した場合におけるコンテキストデータ群から生成された第１学習用データや第２学習用データに基づいて、予測モデル等を生成してもよい。

なお、各モデルの生成は、機械学習に関する種々の従来技術を適宜用いて行われてもよい。例えば、モデルの生成は、ＳＶＭ（Support Vector Machine）等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、例えば、モデルの生成は、教師なし学習の機械学習に関する技術を用いて行われてもよい。例えば、モデルの生成は、深層学習（ディープラーニング）の技術を用いて行われてもよい。例えば、モデルの生成は、ＤＮＮ（Deep Neural Network）やＲＮＮ（Recurrent Neural Network）やＣＮＮ（Convolutional Neural Network）等の種々のディープラーニングの技術を適宜用いて行われてもよい。なお、上記モデルの生成に関する記載は例示であり、モデルの生成は、取得可能な情報等に応じて適宜選択された学習手法により行われてもよい。なお、生成装置１００は、このように生成されたモデルに、予測対象となるデータが学習用データと同様の形式に成形されたデータ（以下、「対象データ」ともいう）を入力することにより、生成したモデルに応じた予測を行うことができる。なお、以下では、学習用データ及び対象データを併せて「成形後データ」ともいう。例えば、学習用データや対象データのようにモデルに入力可能なように成形された成形後データとする。例えば、生成装置１００は、生成した予測モデルに、成形後データである対象データを入力することにより、対象データに対応するユーザが所定の行動を行うかどうかを予測することができる。

（１−５．モデルの利用）
また、生成装置１００は、上述のように、生成したモデルを用いた種々の処理を行ってもよい。例えば、生成装置１００は、端末装置１０を利用するユーザを生成装置１００が一意に特定する情報が含まれないコンテキストデータ群を取得した場合、生成したモデルを用いた処理を行ってもよい。例えば、生成装置１００は、端末装置１０を利用するユーザを生成装置１００が一意に特定する情報が含まれないコンテキストデータ群を取得した場合、生成した認証モデルを用いて、ユーザの認証を行ってもよい。また、生成装置１００は、認証結果を種々の外部装置へ提供してもよい。例えば、生成装置１００は、認証結果を端末装置１０が利用しているサービスを提供する外部装置へ提供してもよい。また、生成装置１００は、認証結果に基づいて、種々のサービスを提供してもよい。また、生成システム１は、種々の認証分野において適用されてもよい。例えば、生成装置１００が提供するコンテキスト認証のサービスは種々の分野において適用されてもよい。例えば、生成装置１００による生成処理は、アカウントリカバリーサービスにおいて用いられてもよい。また、例えば、生成装置１００による生成処理は、権限委譲などにおいて用いられてもよい。

〔２．生成装置の構成〕
次に、図４を用いて、実施形態に係る生成装置１００の構成について説明する。図４は、実施形態に係る生成装置の構成例を示す図である。図４に示すように、生成装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、生成装置１００は、生成装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮと有線または無線で接続され、端末装置１０との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図４に示すように、ユーザ情報記憶部１２１と、コンテキストデータ記憶部１２２と、データ条件記憶部１２３と、第１学習用データ記憶部１２４と、行列データ記憶部１２５と、第２学習用データ記憶部１２６と、モデル情報記憶部１２７とを有する。

（ユーザ情報記憶部１２１）
実施形態に係るユーザ情報記憶部１２１は、ユーザに関する各種情報を記憶する。例えば、ユーザ情報記憶部１２１は、ユーザ属性に関する各種情報を記憶する。図５は、実施形態に係るユーザ情報記憶部の一例を示す図である。図５に示すユーザ情報記憶部１２１は、「ユーザＩＤ」、「年齢」、「性別」、「自宅」、「勤務地」、「興味」といった項目が含まれる。

「ユーザＩＤ」は、ユーザを識別するための識別情報を示す。また、「年齢」は、ユーザＩＤにより識別されるユーザの年齢を示す。なお、「年齢」は、例えば３５歳など、ユーザＩＤにより識別されるユーザの具体的な年齢であってもよい。また、「性別」は、ユーザＩＤにより識別されるユーザの性別を示す。

また、「自宅」は、ユーザＩＤにより識別されるユーザの自宅の位置情報を示す。なお、図５に示す例では、「自宅」は、「ＬＣ１１」といった抽象的な符号を図示するが、緯度や経度を示す情報であってもよい。また、例えば、「自宅」は、地域名や住所であってもよい。

また、「勤務地」は、ユーザＩＤにより識別されるユーザの勤務地の位置情報を示す。なお、図５に示す例では、「勤務地」は、「ＬＣ１２」といった抽象的な符号を図示するが、緯度や経度を示す情報であってもよい。また、例えば、「勤務地」は、地域名や住所であってもよい。

また、「興味」は、ユーザＩＤにより識別されるユーザの興味を示す。すなわち、「興味」は、ユーザＩＤにより識別されるユーザが関心の高い対象を示す。なお、図５に示す例では、「興味」は、各ユーザに１つずつ図示するが、複数であってもよい。

例えば、図５の例では、ユーザＩＤ「Ｕ１」により識別されるユーザの年齢は、「２０代」であり、性別は、「男性」であることを示す。また、例えば、ユーザＩＤ「Ｕ１」により識別されるユーザは、自宅が「ＬＣ１１」であることを示す。また、例えば、ユーザＩＤ「Ｕ１」により識別されるユーザは、勤務地が「ＬＣ１２」であることを示す。また、例えば、ユーザＩＤ「Ｕ１」により識別されるユーザは、「スポーツ」に興味があることを示す。

なお、ユーザ情報記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、ユーザ情報記憶部１２１は、氏名、家族構成、収入等の情報を記憶してもよい。

（コンテキストデータ記憶部１２２）
実施形態に係るコンテキストデータ記憶部１２２は、ユーザのコンテキストに関する各種情報を記憶する。図６は、実施形態に係るコンテキストデータ記憶部の一例を示す図である。コンテキストデータ記憶部１２２は、ユーザのコンテキストデータを記憶する。

図６の例では、コンテキストデータ記憶部１２２は、各ユーザに対応付けられたコンテキストデータを記憶する。例えば、コンテキストデータ記憶部１２２は、正解情報（正例）を記憶する。例えば、コンテキストデータ記憶部１２２は、正例として、各ユーザについて正しく認証がされた場合のコンテキストデータやユーザを一意に特定可能な情報（例えばユーザＩＤ）とともに取得されたコンテキストデータをユーザに対応付けて記憶する。図６に示すコンテキストデータ記憶部１２２には、「ユーザＩＤ」、「履歴ＩＤ」、「日時」、「ＩＰアドレス」、「通信規格」、「端末情報」、「位置」、「利用サービス」、「検索クエリ」といった項目が含まれる。なお、上記の項目は一例であり、コンテキストデータに関する種々の項目が含まれてもよい。例えば、コンテキストデータ記憶部１２２には、コンテキストデータに関する項目として、「気温」、「湿度」、「加速度」等の種々の項目が含まれてもよい。

「ユーザＩＤ」は、ユーザを識別するための識別情報を示す。「履歴ＩＤ」は、取得されたコンテキストデータを識別するための識別情報を示す。例えば、同じ履歴ＩＤに対応付けられたコンテキストデータは、同じ送信元から取得されたコンテキストデータである。

また、「日時」は、各履歴ＩＤに対応する日時を示す。例えば、「日時」は、各履歴ＩＤに対応するコンテキストデータが取得された日時を示す。図６の例では、「日時」には、「ｄｔ１１」等のように抽象的に図示するが、「２０１７年５月９日２３時１６分４８秒」等の具体的な日時が記憶されてもよい。

また、「ＩＰアドレス」は、コンテキストデータの送信元のＩＰアドレスを示す。図６の例では、「ＩＰアドレス」には、「ＩＰＡ１−１」等のように抽象的に図示するが、「１３１．２０６・・・」等の具体的なＩＰアドレスが記憶されてもよい。なお、「ＩＰアドレス」には、ＩＰｖ４（インターネットプロトコルバージョン４）やＩＰｖ６（インターネットプロトコルバージョン６）等の種々のバージョンのＩＰアドレスであってもよい。

また、「通信規格」は、コンテキストデータの送信元の通信規格を示す。例えば、「通信規格」は、各履歴ＩＤに対応するコンテキストデータの取得時における送信元の通信規格を示す。図６の例では、「通信規格」には、「ＣＥ１−１」等のように抽象的に図示するが、「Ｗｉ−Ｆｉ」や「４Ｇ」等の具体的な通信規格が記憶されてもよい。

また、「端末情報」は、コンテキストデータの送信元の端末装置１０に関する端末情報を示す。例えば、「端末情報」は、送信元の端末装置１０のユーザエージェントに関する情報が記憶されてもよい。図６の例では、「端末情報」には、「ＵＡ１−１」等のように抽象的に図示するが、ＯＳ名、ＯＳのバージョン、ブラウザ名、ブラウザのバージョン、言語といった種々の情報が記憶されてもよい。

また、「位置」は、各履歴ＩＤに対応する位置を示す。例えば、「位置」は、各履歴ＩＤに対応するコンテキストデータが取得された際における端末装置１０の位置を示す。図６の例では、位置「ＬＣ１−１」等のように、位置情報を抽象的な符号で示すが、項目「位置」に記憶される情報は、具体的な緯度経度等の位置情報であってもよい。

また、「利用サービス」は、コンテキストデータの送信元の端末装置１０において利用されている利用サービスを示す。例えば、「利用サービス」は、対応する日時において利用中であるサービスに関する情報が記憶されてもよい。図６の例では、「利用サービス」には、「ＳＶ２−１」等のように抽象的に図示するが、Ｘ買物アプリやＹ検索サービス等の具体的なサービス名等の情報が記憶されてもよい。

また、「検索クエリ」は、コンテキストデータの送信元の端末装置１０において検索に用いられた検索クエリ示す。例えば、「検索クエリ」は、対応する日時において送信元の端末装置１０での検索に用いられた検索クエリに関する情報が記憶されてもよい。図６の例では、「検索クエリ」には、「ＱＥ３１」等のように抽象的に図示するが、「Ｚ財布」や「Ａ県グルメ」等の具体的なクエリ（文字列や画像等）の情報が記憶されてもよい。

例えば、図６の例では、ユーザＩＤ「Ｕ１」により識別されるユーザは、日時ｄｔ１１に履歴ＩＤ「ＬＧ１−１」に対応付けられたコンテキストデータが取得されたことを示す。また、履歴ＩＤ「ＬＧ１−１」に対応付けられたコンテキストデータには、ＩＰアドレス「ＩＰＡ１−１」や通信規格「ＣＥ１−１」や端末情報「ＵＡ１−１」や位置「ＬＣ１−１」等が含まれることを示す。また、履歴ＩＤ「ＬＧ１−１」に対応付けられたコンテキストデータにおいては、利用サービス及び検索クエリが「−」であり、履歴ＩＤ「ＬＧ１−１」に対応付けられたコンテキストデータには、利用サービスや検索クエリ等の情報は含まれないことを示す。

なお、コンテキストデータ記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。また、図６では、ユーザＩＤごとに行動情報がコンテキストデータ記憶部１２２に記憶される場合を示したが、行動情報は、ユーザＩＤごとに限らず、例えば日時順に記憶されてもよい。

（データ条件記憶部１２３）
実施形態に係るデータ条件記憶部１２３は、各クラスタ群の要素に関する各種情報を記憶する。図７は、実施形態に係るデータ条件記憶部の一例を示す図である。例えば、データ条件記憶部１２３は、各クラスタ群に対応する種別の要素を記憶する。例えば、データ条件記憶部１２３は、各種別を構成する各要素の組合せを記憶する。図７に示すデータ条件記憶部１２３には、「条件ＩＤ」、「統計的特徴量」、「設定値（統一レコード数）」といった項目が含まれる。また、「統計的特徴量」には、「特徴量１−１」や「特徴量１−２」や「特徴量１−１００」といった項目が含まれる。例えば、「統計的特徴量」には、「特徴量１−１」〜「特徴量１−１００」の１００個の特徴量に対応する項目が含まれる。

「条件ＩＤ」は、所定のモデルの学習に用いるデータの基準を示すデータ条件を識別するための識別情報を示す。「統計的特徴量」は、学習に用いるデータの統計的な特徴量である統計的特徴量を示す。また、「特徴量１−１」や「特徴量１−２」や「特徴量１−１００」は、各統計的特徴量の内容を示す。また、「設定値（統一レコード数）」は、学習に用いるデータのレコード数の設定値を示す。

図７の例では、条件ＩＤ「ＣＤ１」により識別される条件において、統計的特徴量のうち「特徴量１−１」に対応する特徴量は、レコード数に関する統計的特徴量であることを示す。また、条件ＩＤ「ＣＤ１」により識別される条件において、統計的特徴量のうち「特徴量１−２」に対応する特徴量は、サービス数に関する統計的特徴量であることを示す。また、条件ＩＤ「ＣＤ１」により識別される条件において、統計的特徴量のうち「特徴量１−１００」に対応する特徴量は、関連商品数に関する統計的特徴量であることを示す。

図７の例では、条件ＩＤ「ＣＤ１」により識別される条件において、「設定値（統一レコード数）」は、「３」であることを示す。すなわち、条件ＩＤ「ＣＤ１」により識別される条件を用いる場合、各バッグに含まれるコンテキストデータ群は、統一レコード数「３」に成形されることを示す。

なお、データ条件記憶部１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、データ条件記憶部１２３には、学習するモデルの用途に応じて複数の条件が記憶されてもよい。例えば、データ条件記憶部１２３には、認証モデルの学習に用いる条件（例えば、条件ＩＤ「ＣＤ２」により識別される条件）や、購買行動等の予測モデルの学習に用いる条件（例えば、条件ＩＤ「ＣＤ３」により識別される条件）等の複数の条件が記憶されてもよい。

（第１学習用データ記憶部１２４）
実施形態に係る第１学習用データ記憶部１２４は、第１学習用データに関する各種情報を記憶する。図８は、実施形態に係る第１学習用データ記憶部の一例を示す図である。図８に示す第１学習用データ記憶部１２４は、ユーザごとに第１学習用データを記憶する。図８の例では、第１学習用データ記憶部１２４は、第１学習用データ群１２４−１や第１学習用データ群１２４−２等のようにユーザごとに情報（テーブル）を記憶する。図８に示す第１学習用データ群１２４−１や第１学習用データ群１２４−２等は、「ユーザＩＤ」、「バッグＩＤ」、「第１学習用データ」といった項目を有する。「第１学習用データ」は、「データＩＤ」、「特徴量１−１（レコード数）」や「特徴量１−２（サービス数）」や「特徴量１−１００（関連商品数）」といった項目を有する。

「ユーザＩＤ」は、各ユーザを識別するための識別情報を示す。「バッグＩＤ」は、各バッグを識別するための識別情報を示す。「第１学習用データ」は、学習に用いられるデータを示す。具体的には、「第１学習用データ」は、統計的特徴量に対応する統計的データである第１学習用データを示す。また、「特徴量１−１（レコード数）」は、対応するバッグにおけるコンテキストデータ群に含まれるレコード数を示す。また、「特徴量１−２（サービス数）」は、対応するバッグにおけるコンテキストデータ群に含まれるサービス数を示す。また、「特徴量１−１００（関連商品数）」は、対応するバッグにおけるコンテキストデータ群に含まれる関連商品数を示す。

図８の例では、ユーザＩＤ「Ｕ１」により識別されるユーザには、バッグＩＤ「ＢＧ１−１」により識別されるバッグや、バッグＩＤ「ＢＧ１−２」により識別されるバッグが対応付けられていることを示す。バッグＩＤ「ＢＧ１−１」に対応する第１学習用データは、データＩＤ「ＤＴ１−１−１」により識別されることを示す。

また、バッグＩＤ「ＢＧ１−１」に対応する第１学習用データは、「特徴量１−１（レコード数）」が「４」であることを示す。また、バッグＩＤ「ＢＧ１−１」に対応する第１学習用データは、「特徴量１−２（サービス数）」が「２」であることを示す。また、バッグＩＤ「ＢＧ１−１」に対応する第１学習用データは、「特徴量１−１００（関連商品数）」が「１」であることを示す。

また、バッグＩＤ「ＢＧ１−２」に対応する第１学習用データは、「特徴量１−１（レコード数）」が「４００」であることを示す。また、バッグＩＤ「ＢＧ１−２」に対応する第１学習用データは、「特徴量１−２（サービス数）」が「１」であることを示す。また、バッグＩＤ「ＢＧ１−２」に対応する第１学習用データは、「特徴量１−１００（関連商品数）」が「４」であることを示す。

なお、第１学習用データ記憶部１２４は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

（行列データ記憶部１２５）
実施形態に係る行列データ記憶部１２５は、行列に関する情報を記憶する。例えば、行列データ記憶部１２５は、第２学習用データの生成に用いる第２行列を記憶する。例えば、行列データ記憶部１２５は、所定の範囲の各自然数及び設定値に対応する複数の第２行列を記憶する。図９は、実施形態に係る行列データ記憶部の一例を示す図である。

図９の例では、行列データ記憶部１２５は、行列データ群１２５−１や行列データ群１２５−２等のように統一レコードの設定値ごとに情報（テーブル）を記憶する。例えば、行列データ群１２５−１は、統一レコード数の設定値が「３」である場合に用いられる行列データを示す。また、例えば、行列データ群１２５−２は、統一レコード数の設定値が「Ｎ（任意の自然数）」である場合に用いられる行列データを示す。

例えば、行列ＩＤ「ＭＴ３−１」に対応する行列データ（以下、「行列ＭＴ３−１」ともいう）において、レコード「＃１」の行と統一レコード「＃１」の列とが交差する箇所には、行列ＭＴ３−１の１行１列目の要素が記憶される。また、例えば、図９の例では、行列ＭＴ３−１において、レコード「＃１」の行と統一レコード「＃２」の列とが交差する箇所には、行列ＭＴ３−１の１行２列目の要素が記憶される。

また、例えば、行列ＩＤ「ＭＴ３−２」に対応する行列データ（以下、「行列ＭＴ３−２」ともいう）において、レコード「＃１」の行と統一レコード「＃３」の列とが交差する箇所には、行列ＭＴ３−２の１行３列目の要素が記憶される。また、例えば、図９の例では、行列ＭＴ３−２において、レコード「＃２」の行と統一レコード「＃２」の列とが交差する箇所には、行列ＭＴ３−２の２行２列目の要素が記憶される。

図９の例では、行列ＭＴ３−１は、対象レコード数が「１」であることを示す。すなわち、行列ＭＴ３−１は、１行３列の行列データであることを示す。また、行列ＭＴ３−１は、レコード「＃１」の行と統一レコード「＃１」の列とが交差する箇所には、「０．４」が記憶される。すなわち、行列ＭＴ３−１は、１行１列目の要素が「０．４」であることを示す。また、行列ＭＴ３−１は、レコード「＃１」の行と統一レコード「＃２」の列とが交差する箇所には、「０．１」が記憶される。すなわち、行列ＭＴ３−１は、１行２列目の要素が「０．１」であることを示す。

なお、行列データ記憶部１２５は、上記に限らず、目的に応じて種々の情報を記憶してもよい。行列データ記憶部１２５は、設定値「３」や「Ｎ」に限らず、設定値「４０」や「１００」等の種々の設定値に対応する行列データを記憶してもよい。このように、行列データ記憶部１２５に記憶される行列データは、所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群の成形に用いられ、コンテキストデータ群のレコード数及び学習に用いるデータのレコード数の設定値に対応する行列データであって、コンテキストデータ群に対応する第１行列と行列演算により、学習に用いるデータのレコード数に成形されたデータを出力するよう、コンピュータを機能させるための行列データである。

（第２学習用データ記憶部１２６）
実施形態に係る第２学習用データ記憶部１２６は、第２学習用データに関する各種情報を記憶する。図１０は、実施形態に係る第２学習用データ記憶部の一例を示す図である。図１０に示す第２学習用データ記憶部１２６は、ユーザごとに第２学習用データを記憶する。

図１０の例では、第２学習用データ記憶部１２６は、第２学習用データ群１２６−１や第２学習用データ群１２６−２等のようにユーザごとに情報（テーブル）を記憶する。図１０に示す第２学習用データ群１２６−１や第２学習用データ群１２６−２等は、「ユーザＩＤ」、「バッグＩＤ」、「第２学習用データ」といった項目を有する。「第２学習用データ」には、「データＩＤ」に対応付けて第２学習用データ（行列データ）が格納される。第２学習用データ記憶部１２６には、各「特徴量」と各「統一レコード」とに対応する行列データが格納される。このように、第２学習用データ記憶部１２６には、行を「特徴量」とし、列を「統一レコード」とする行列データが格納される。

「特徴量２−１（デバイスＤＡ）」や「特徴量２−２（デバイスＤＢ）」や「特徴量２−１０００（クエリＱＺ）」といった項目を有する。例えば、「特徴量」には、「特徴量２−１」〜「特徴量２−１０００」の１０００個の特徴量に対応する項目が含まれる。

「ユーザＩＤ」は、各ユーザを識別するための識別情報を示す。「バッグＩＤ」は、各バッグを識別するための識別情報を示す。「第２学習用データ」は、学習に用いられるデータを示す。具体的には、「第２学習用データ」は、統一レコードの設定値に対応するレコード数に成形されたデータである第２学習用データを示す。また、「特徴量２−１（デバイスＤＡ）」は、第２学習用データにおけるデバイスＤＡに対応する特徴量の値を示す。また、「特徴量２−２（デバイスＤＢ）」は、第２学習用データにおけるデバイスＤＢに対応する特徴量の値を示す。また、「特徴量２−１０００（クエリＱＺ）」は、第２学習用データにおけるクエリＱＺに対応する特徴量の値を示す。

図１０の例では、ユーザＩＤ「Ｕ１」により識別されるユーザには、バッグＩＤ「ＢＧ１−１」により識別されるバッグや、バッグＩＤ「ＢＧ１−２」により識別されるバッグが対応付けられていることを示す。バッグＩＤ「ＢＧ１−１」に対応する第２学習用データは、データＩＤ「ＤＴ２−１−１」により識別されることを示す。

例えば、データＩＤ「ＤＴ２−１−１」に対応する第２学習用データ（以下、「第２学習用データＤＴ２−１−１」ともいう）において、「特徴量２−１（デバイスＤＡ）」の行と統一レコード「＃１」の列とが交差する箇所には、第２学習用データＤＴ２−１−１の１行１列目の要素が記憶される。また、例えば、図１０の例では、第２学習用データＤＴ２−１−１において、「特徴量２−１（デバイスＤＡ）」の行と統一レコード「＃２」の列とが交差する箇所には、第２学習用データＤＴ２−１−１の１行２列目の要素が記憶される。

また、例えば、第２学習用データＤＴ２−１−１において、「特徴量２−１０００（クエリＱＺ）」の行と統一レコード「＃１」の列とが交差する箇所には、第２学習用データＤＴ２−１−１の１０００行１列目の要素が記憶される。また、例えば、図１０の例では、第２学習用データＤＴ２−１−１において、「特徴量２−１０００（クエリＱＺ）」の行と統一レコード「＃３」の列とが交差する箇所には、第２学習用データＤＴ２−１−１の１０００行３列目の要素が記憶される。

図１０の例では、第２学習用データＤＴ２−１−１は、１０００行３列の行列データであることを示す。また、第２学習用データＤＴ２−１−１は、「特徴量２−１（デバイスＤＡ）」の行と統一レコード「＃１」の列とが交差する箇所には、「０．８」が記憶される。すなわち、第２学習用データＤＴ２−１−１は、１行１列目の要素が「０．８」であることを示す。また、第２学習用データＤＴ２−１−１は、「特徴量２−１０００（クエリＱＺ）」の行と統一レコード「＃２」の列とが交差する箇所には、「０」が記憶される。すなわち、第２学習用データＤＴ２−１−１は、１０００行２列目の要素が「０」であることを示す。

なお、第２学習用データ記憶部１２６は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

（モデル情報記憶部１２７）
実施形態に係るモデル情報記憶部１２７は、学習に関する情報を記憶する。例えば、モデル情報記憶部１２７は、モデルを記憶する。例えば、モデル情報記憶部１２７は、生成されたモデルの情報を記憶する。図１１は、実施形態に係るモデル情報記憶部の一例を示す図である。図１１に示すモデル情報記憶部１２７は、モデル情報として、用途に対応させて、「モデル」や「特徴量１−１」、「特徴量１−２」、「特徴量１−３」、「特徴量２−１」等といった項目を有する。例えば、「モデル」には、モデルを識別するための情報であるモデルＩＤが格納される。また、例えば、各特徴量１−１」、「特徴量１−２」、「特徴量１−３」、「特徴量２−１」等の各々は、素性（特徴量）に対応する。

図１１の例では、用途「認証」に対応して生成されたモデルは、モデルＩＤ「ＤＭ１１」により識別されるモデル（モデルＤＭ１１）であることを示す。例えば、モデルＤＭ１１に関するモデル情報は、特徴量１−１の重みが「０．５」、特徴量１−２の重みが「−０．４」、特徴量１−３の重みが「０．２」、特徴量２−１の重みが「０．６」等であることを示す。例えば、モデルの特徴量（特徴量）がｍ次元のベクトルで表現される場合、特徴量数はｍ個になり、特徴量１〜特徴量ｍの重みが記憶される。例えば、図１１の例では、モデルの特徴量（特徴量）が第１学習用データの特徴量数「１００」と第２学習用データの特徴量数「１０００」とを合算した１１００次元のベクトルで表現される。例えば、図１１の例では、モデル情報記憶部１２７には、「特徴量１−１」〜「特徴量１−１００」、「特徴量２−１」〜「特徴量２−１０００」の１１００個の特徴量が記憶される。

なお、モデル情報記憶部１２７は、上記に限らず、目的に応じて種々の情報を記憶してもよい。モデル情報記憶部１２７に記憶された各モデルは、成形後データが入力される入力層と出力層とを有し、入力層から前記出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、入力層に入力された成形後データに対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うモデルの入力層に入力されることにより、演算結果を示す値をモデルの出力層から出力する。例えば、モデル情報記憶部１２７に記憶された各モデルは、入力層（例えば説明変数）と出力層（例えば独立変数）とを有し、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素（例えば各特徴量）と、第１要素と第１要素の重みとに基づいて値が算出される第２要素（演算結果を示す値に対応する変数）とを含む。また、モデル情報記憶部１２７に記憶された各モデルは、入力層に入力された成形後データに対し、入力層から出力層までの各要素を第２要素として、第１要素と、第１要素の重みとに基づく演算を行うことにより、演算結果を示す値を出力層から出力する。

ここで、認証モデルであるモデルＤＭ１１や予測モデルであるモデルＤＭ１２等が、「ｙ＝ａ_１＊ｘ_１＋ａ_２＊ｘ_２＋・・・＋ａ_ｉ＊ｘ_ｉ」で示す回帰モデルで実現されるとする。この場合、モデル１２３が含む第１要素は、ｘ_１やｘ_２等といった入力データ（ｘ_ｉ）に対応する。また、第１要素の重みは、ｘ_ｉに対応する係数ａ_ｉに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第１要素は、入力層が有するいずれかのノードに対応し、第２要素は、出力層が有するノードと見做すことができる。

また、認証モデルであるモデルＤＭ１１や予測モデルであるモデルＤＭ１２等がＤＮＮ（Deep Neural Network）等、１つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、認証モデルであるモデルＤＭ１１や予測モデルであるモデルＤＭ１２等が含む第１要素は、入力層または中間層が有するいずれかのノードに対応する。また、第２要素は、第１要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第１要素の重みは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。

（制御部１３０）
図４の説明に戻って、制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、生成装置１００内部の記憶装置に記憶されている各種プログラム（生成プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。制御部１３０は、記憶部１２０に記憶されている学習モデル（例えば、モデル情報記憶部１２７に示すような認証モデルや予測モデル）に従った情報処理により、成形後データが入力される入力層と出力層とを有し、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素の重みとに基づいて値が算出される第２要素とを含み、入力層に入力された成形後データに対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、演算結果を示す値を出力層から出力する。

図４に示すように、制御部１３０は、取得部１３１と、決定部１３２と、生成部１３３と、提供部１３４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（取得部１３１）
取得部１３１は、各種情報を取得する。例えば、取得部１３１は、端末装置１０等の外部の情報処理装置から各種情報を取得する。例えば、取得部１３１は、ユーザ情報記憶部１２１や、コンテキストデータ記憶部１２２や、データ条件記憶部１２３や、行列データ記憶部１２５等に示す各種情報を、外部の情報処理装置から取得してもよい。

例えば、取得部１３１は、ユーザ情報記憶部１２１や、コンテキストデータ記憶部１２２や、データ条件記憶部１２３や、第１学習用データ記憶部１２４や、行列データ記憶部１２５や、第２学習用データ記憶部１２６等から各種情報を取得する。

例えば、取得部１３１は、端末装置１０からユーザに関する各種情報を取得する。例えば、取得部１３１は、ユーザのコンテキストデータ群を取得する。例えば、取得部１３１は、所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する。例えば、取得部１３１は、所定期間におけるユーザのコンテキストデータ群を取得する。

例えば、取得部１３１は、所定要素の基準に基づいて収集されるユーザのコンテキストデータ群を取得する。例えば、取得部１３１は、所定期間において収集されるユーザのコンテキストデータ群を取得する。例えば、取得部１３１は、端末装置１０を利用するユーザを生成装置１００が一意に特定する情報が含まれないコンテキストデータ群を取得する。例えば、取得部１３１は、端末装置１０からユーザのコンテキストデータを取得する。

（決定部１３２）
決定部１３２は、各種情報を決定する。例えば、決定部１３２は、ユーザ情報記憶部１２１や、コンテキストデータ記憶部１２２や、データ条件記憶部１２３や、第１学習用データ記憶部１２４や、行列データ記憶部１２５や、第２学習用データ記憶部１２６や、モデル情報記憶部１２７等に記憶された情報に基づいて、各種情報を決定する。

例えば、決定部１３２は、バッグを決定する。図１の例では、決定部１３２は、ユーザＵ１のログにおいて、所定期間に含まれるコンテキストデータ群を一つのバッグに含めると決定する。例えば、決定部１３２は、ログＡ〜Ｄの４個のコンテキストデータをバッグＢＧ１−１に含めると決定する。例えば、決定部１３２は、ユーザＵ１のログにおいて、所定期間に含まれるコンテキストデータ群を一つのバッグに含めると決定する。

例えば、決定部１３２は、ログＥ等の４００個のコンテキストデータをバッグＢＧ１−２に含めると決定する。例えば、決定部１３２は、ユーザＵ２のログにおいて、所定期間に含まれるコンテキストデータ群を一つのバッグに含めると決定する。例えば、決定部１３２は、ログＪ等の２０個のコンテキストデータをバッグＢＧ２−１に含めると決定する。

例えば、決定部１３２は、行列データ記憶部１２５に記憶された複数の行列データのうち、第２学習用データの生成に用いる行列データを決定する。例えば、決定部１３２は、対象とするバッグに含まれるレコード数を行の数とし、統一レコード数（設定値）を列の数とする行列データを、第２学習用データの生成に用いる行列データとして決定する。

図２の例では、決定部１３２は、バッグに含まれるレコード数「４００」及び統一レコード数「３」に対応する４００行３列の第２行列ＭＴ３−４００を、第２学習用データの生成に用いる行列データとして決定する。また、図２の例では、決定部１３２は、バッグに含まれるレコード数「２０」及び統一レコード数「３」に対応する２０行３列の第２行列ＭＴ３−２０を、第２学習用データの生成に用いる行列データとして決定する。

（生成部１３３）
生成部１３３は、種々の情報を生成する。例えば、生成部１３３は、学習に用いるデータを生成する。例えば、生成部１３３は、第１学習用データや第２学習用データを生成する。例えば、生成部１３３は、種々のモデルを生成する。例えば、生成部１３３は、第１学習用データや第２学習用データを用いて種々のモデルを生成する。例えば、生成部１３３は、ユーザ情報記憶部１２１や、コンテキストデータ記憶部１２２や、データ条件記憶部１２３や、第１学習用データ記憶部１２４や、行列データ記憶部１２５や、第２学習用データ記憶部１２６等に記憶された情報に基づいて、モデルを生成する。例えば、生成部１３３は、種々の情報に基づいて、モデル情報記憶部１２７に示すようなモデルを生成する。

例えば、生成部１３３は、所定のモデルの学習に用いるデータの基準を示すデータ条件と、取得部１３１により取得されたコンテキストデータ群とに基づいて、データ条件に対応する学習用データを生成する。例えば、生成部１３３は、学習に用いるデータの統計的な特徴量である統計的特徴量の指定を含むデータ条件と、コンテキストデータ群とに基づいて、統計的特徴量に対応する統計的データである第１学習用データを含む学習用データを生成する。

例えば、生成部１３３は、コンテキストデータ群におけるレコード数に関する統計的特徴量に対応する第１学習用データを含む学習用データを生成する。例えば、生成部１３３は、コンテキストデータ群におけるデータの種別数に関する統計的特徴量に対応する第１学習用データを生成する。例えば、生成部１３３は、コンテキストデータ群におけるデータの時系列的変化に関する統計的特徴量に対応する第１学習用データを生成する。例えば、生成部１３３は、コンテキストデータ群に基づいて推定されるユーザの状況に関する統計的特徴量に対応する第１学習用データを生成する。

例えば、生成部１３３は、学習に用いるデータのレコード数の設定値を含むデータ条件と、コンテキストデータ群とに基づいて、設定値に対応するレコード数に成形されたデータである第２学習用データを含む学習用データを生成する。例えば、生成部１３３は、設定値よりもコンテキストデータ群のレコード数が多い場合、コンテキストデータ群のレコード数を設定値に圧縮することにより、第２学習用データを生成する。例えば、生成部１３３は、設定値よりもコンテキストデータ群のレコード数が少ない場合、コンテキストデータ群のレコード数を設定値に増幅することにより、第２学習用データを生成する。

例えば、生成部１３３は、コンテキストデータ群に対応する第１行列と、コンテキストデータ群のレコード数及び設定値に対応する第２行列との積により、第２学習用データを生成する。例えば、生成部１３３は、所定の範囲の各自然数及び設定値に対応する複数の第２行列のうち、コンテキストデータ群のレコード数及び設定値に対応する第２行列を用いることにより、第２学習用データを生成する。

例えば、生成部１３３は、各バッグのコンテキストデータ群から統計的なデータを生成する。例えば、生成部１３３は、各バッグのコンテキストデータ群から統計的なデータを生成する。例えば、生成部１３３は、統計的特徴量の指定を含むデータ条件と、コンテキストデータ群とに基づいて、第１学習用データを生成する。

図１の例では、生成部１３３は、図７に示すデータ条件記憶部１２３中の「統計的特徴量」に格納された統計的特徴量の指定に基づいて、第１学習用データを生成する。例えば、生成部１３３は、バッグＢＧ１−１に対応する第１学習用データを生成する例えば、生成部１３３は、「特徴量１−１」〜「特徴量１−１００」に対応する統計的特徴量に対応する第１学習用データをバッグＢＧ１−１中のコンテキストデータ群から生成する。図１の例では、生成部１３３は、生成情報ＩＮＦ１２に示すように、バッグＢＧ１−１に対応する第１学習用データを生成する。

また、図１の例では、生成部１３３は、バッグＢＧ１−１に対応する第１学習用データとして、「特徴量１−１（レコード数）」が「４」であることを示すデータを生成する。また、生成部１３３は、バッグＢＧ１−１に対応する第１学習用データとして、「特徴量１−２（サービス数）」が「２」であることを示すデータを生成する。また、生成部１３３は、バッグＢＧ１−１に対応する第１学習用データとして、「特徴量１−１００（関連商品数）」が「１」であることを示すデータを生成する。

例えば、生成部１３３は、バッグＢＧ２−１に対応する第１学習用データを生成する。例えば、生成部１３３は、「特徴量１−１」〜「特徴量１−１００」に対応する統計的特徴量に対応する第１学習用データをバッグＢＧ２−１中のコンテキストデータ群から生成する。図１の例では、生成部１３３は、生成情報ＩＮＦ２２に示すように、バッグＢＧ２−１に対応する第１学習用データを生成する。

また、図１の例では、生成部１３３は、バッグＢＧ２−１に対応する第１学習用データとして、「特徴量１−１（レコード数）」が「２０」であることを示すデータを生成する。また、生成部１３３は、バッグＢＧ２−１に対応する第１学習用データとして、「特徴量１−２（サービス数）」が「１」であることを示すデータを生成する。また、生成部１３３は、バッグＢＧ２−１に対応する第１学習用データとして、「特徴量１−１００（関連商品数）」が「５」であることを示すデータを生成する。

図２の例では、生成部１３３は、ユーザＵ１について、バッグＢＧ１−２のコンテキストデータ群から行列を生成する。例えば、生成部１３３は、バッグＢＧ１−２に含まれるレコード数が「４００」であり、各レコードの特徴量が「１０００」である、コンテキストデータ群から行列を生成する。例えば、生成部１３３は、バッグＢＧ１−２のコンテキストデータ群から第１行列Ｍ２１を生成する。

図２の例では、生成部１３３は、第１行列Ｍ２１を用いて第２学習用データを生成する。例えば、生成部１３３は、１０００行４００列の第１行列Ｍ２１（行列データ）を統一レコード数「３」に対応する１０００行３列のデータに変換することにより、第２学習用データを生成する。例えば、生成部１３３は、対象とするバッグに含まれるレコード数が統一レコード数よりも多い場合、レコード数を圧縮することにより、第２学習用データを生成する。

例えば、生成部１３３は、所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群の成形に用いられ、コンテキストデータ群のレコード数及び学習に用いるデータのレコード数の設定値に対応する行列データと、コンテキストデータ群に対応する第１行列と行列演算により、学習に用いるデータのレコード数に成形された第２学習用データを生成する。例えば、生成部１３３は、図９中の行列データ記憶部１２５に示すような行列データを用いて、第２学習用データを生成する。図２の例では、生成部１３３は、１０００行４００列の第１行列Ｍ２１と、第２行列ＭＴ３−４００との積により、第２学習用データＭ３１を生成する。例えば、生成部１３３は、１０００行４００列の第１行列Ｍ２１と、４００行３列の第２行列ＭＴ３−４００との積により、１０００行３列の行列データである第２学習用データＭ３１を生成する。

例えば、生成部１３３は、バッグＢＧ１−２から、「特徴量２−１（デバイスＤＡ）」や「特徴量２−２（デバイスＤＢ）」や「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量を含む成形後のコンテキストデータを３つ生成する。

図２の例では、生成部１３３は、ユーザＵ２について、バッグＢＧ２−１のコンテキストデータ群から行列を生成する。例えば、生成部１３３は、バッグＢＧ２−１に含まれるレコード数が「２０」であり、各レコードの特徴量が「１０００」である、コンテキストデータ群から行列を生成する。例えば、生成部１３３は、バッグＢＧ２−１のコンテキストデータ群から第１行列Ｍ２２を生成する。

例えば、生成部１３３は、第１行列Ｍ２２を用いて第２学習用データを生成する。図２の例では、生成部１３３は、１０００行２０列の第１行列Ｍ２２を統一レコード数「３」に対応する１０００行３列のデータに変換することにより、第２学習用データを生成する。例えば、生成部１３３は、対象とするバッグに含まれるレコード数が統一レコード数よりも多い場合、レコード数を圧縮することにより、第２学習用データを生成する。

図２の例では、生成部１３３は、１０００行２０列の第１行列Ｍ２２と、２０行３列の第２行列ＭＴ３−２０との積により、第２学習用データＭ３２を生成する。例えば、生成部１３３は、１０００行２０列の第１行列Ｍ２２と、２０行３列の第２行列ＭＴ３−２０との積により、１０００行３列の行列データである第２学習用データＭ３２を生成する。例えば、生成部１３３は、バッグＢＧ２−１から、「特徴量２−１（デバイスＤＡ）」や「特徴量２−２（デバイスＤＢ）」や「特徴量２−１０００（クエリＱＺ）」といった１０００個の特徴量を含む成形後のコンテキストデータを３つ生成する。

例えば、生成部１３３は、モデル情報記憶部１２７に示すような認証モデルや予測モデルを生成し、生成したモデルを記憶部１２０（例えば、モデル情報記憶部１２７）に格納する。例えば、生成部１３３は、第１学習用データ及び第２学習用データを予測モデルに入力することにより、演算結果を示す値を予測モデルの出力層から出力するように学習を行なう。例えば、生成部１３３は、入力層（例えば説明変数）と出力層（例えば独立変数）とを有し、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素（例えば各特徴量）と、第１要素と第１要素の重みとに基づいて値が算出される第２要素（演算結果を示す値に対応する変数）とを含み、入力層に入力された成形後データに対し、入力層から出力層までの各要素を第１要素として、第２要素と、第２要素の重みとに基づく演算を行うことにより、演算結果を示す値を出力層から出力する予測モデルを生成する。

なお、生成部１３３は、いかなる学習アルゴリズムを用いて認証モデルや予測モデルを生成してもよい。例えば、生成部１３３は、ニューラルネットワーク（neural network）、サポートベクターマシン（support vector machine）、クラスタリング、強化学習等の学習アルゴリズムを用いて、モデル情報記憶部１２７に示すような認証モデルや予測モデルを生成する。一例として、生成部１３３がニューラルネットワークを用いてモデル情報記憶部１２７に示すような認証モデルや予測モデルを生成する場合、認証モデルや予測モデルは、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。

例えば、生成部１３３は、認証モデルや予測モデルに従った情報処理により、第１学習用データ及び第２学習用データを入力層に入力する。そして、生成部１３３は、入力データを中間層と出力層に伝播させることで出力層から値（例えば確率を示す値）を出力させる。例えば、生成装置１００は、予測モデルに入力した第１学習用データ及び第２学習用データが予測対象の行動を行ったユーザのデータ、すなわち正例である場合、予測モデルの出力層から出力される値が正解を示す値（例えば、「１」等）に近くなるように予測モデルを更新する。なお、生成部１３３は、認証モデルについても同様に生成（更新）してもよい。

例えば、生成部１３３は、バックプロパゲーション（誤差逆伝播法）等の種々の従来技術を適宜用いて、予測モデルを更新してもよい。例えば、生成部１３３は、予測モデルの出力層から出力される値と、正解を示す値との誤差が少なくなるようにパラメータ（各要素の重み等）を補正するバックプロパゲーション等の処理により予測モデルを生成（更新）してもよい。例えば、生成部１３３は、所定の損失（ロス）関数を最小化するようにバックプロパゲーション等の処理を行うことにより予測モデルを生成（更新）してもよい。また、生成部１３３がＧＡＮ（Generative Adversarial Networks）を用いた生成処理を行う場合、生成されるモデルは、ＧＡＮの一部を構成するモデルであってもよい。

（提供部１３４）
提供部１３４は、端末装置１０に各種情報を提供する。例えば、提供部１３４は、ユーザに種々のサービスを提供する。例えば、提供部１３４は、生成部１３３により生成された第１学習用データや第２学習用データを外部の情報処理装置へ提供してもよい。また、提供部１３４は、生成部１３３により生成されたモデル情報を外部の情報処理装置へ提供してもよい。

例えば、提供部１３４は、生成部１３３により生成されたモデル情報を用いて、端末装置１０にコンテンツを提供する。例えば、提供部１３４は、生成部１３３により認証されたユーザに種々のサービスを提供する。また、例えば、提供部１３４は、生成部１３３により認証されたユーザが利用する端末装置１０にコンテンツを提供する。

また、提供部１３４は、生成部１３３により認証されたユーザに対応する種々のサービスを提供する。例えば、提供部１３４は、生成部１３３により認証されたユーザの端末装置１０にコンテンツを提供する。

〔３．生成処理のフロー〕
次に、図１２及び図１３を用いて、実施形態に係る生成システム１による生成処理について説明する。図１２及び図１３は、実施形態に係る生成処理の一例を示すフローチャートである。具体的には、図１２は、第１学習用データの生成処理の一例を示すフローチャートである。また、具体的には、図１３は、第２学習用データの生成処理の一例を示すフローチャートである。

まず、第１学習用データの生成処理について説明する。図１２に示すように、生成装置１００は、ユーザのコンテキストデータを取得する（ステップＳ１０１）。例えば、生成装置１００は、所定の期間において収集されたユーザのコンテキストデータ群を取得する。

そして、生成装置１００は、統計的特徴量を示すデータ条件を取得する（ステップＳ１０２）。例えば、生成装置１００は、データ条件記憶部１２３から統計的特徴量を示すデータ条件を取得する。

そして、生成装置１００は、コンテキストデータとデータ条件とに基づいて、第１学習用データを生成する（ステップＳ１０３）。例えば、生成装置１００は、コンテキストデータ群とデータ条件とに基づいて、第１学習用データを生成する。

まず、第２学習用データの生成処理について説明する。図１３に示すように、生成装置１００は、ユーザのコンテキストデータを取得する（ステップＳ２０１）。例えば、生成装置１００は、所定の期間において収集されたユーザのコンテキストデータ群を取得する。

そして、生成装置１００は、統一レコード数の設定値を示すデータ条件を取得する（ステップＳ２０２）。例えば、生成装置１００は、データ条件記憶部１２３から統一レコード数の設定値を示すデータ条件を取得する。

そして、生成装置１００は、設定値に対応する行列データを取得する（ステップＳ２０３）。例えば、生成装置１００は、行列データ記憶部１２５から設定値に対応する行列データを取得する。

そして、生成装置１００は、コンテキストデータと行列データとに基づいて、第２学習用データを生成する（ステップＳ２０４）。例えば、生成装置１００は、所定の期間において収集されたコンテキストデータ群と行列データとに基づいて、第２学習用データを生成する。

〔４．効果〕
上述してきたように、実施形態に係る生成装置１００は、取得部１３１と、生成部１３３とを有する。取得部１３１は、所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する。生成部１３３は、所定のモデルの学習に用いるデータの基準を示すデータ条件と、取得部１３１により取得されたコンテキストデータ群とに基づいて、データ条件に対応する学習用データを生成する。

このように、実施形態に係る生成装置１００は、所定のモデルの学習に用いるデータの基準を示すデータ条件と、コンテキストデータ群とに基づいて、データ条件に対応する学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、取得部１３１は、所定期間におけるユーザのコンテキストデータ群を取得する。

このように、実施形態に係る生成装置１００は、所定期間においてデータ量が可変であるユーザのコンテキストデータ群を対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、学習に用いるデータの統計的な特徴量である統計的特徴量の指定を含むデータ条件と、コンテキストデータ群とに基づいて、統計的特徴量に対応する統計的データである第１学習用データを含む学習用データを生成する。

このように、実施形態に係る生成装置１００は、統計的特徴量の指定を含むデータ条件と、コンテキストデータ群とに基づいて、統計的特徴量に対応する統計的データである第１学習用データを含む学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、コンテキストデータ群におけるレコード数に関する統計的特徴量に対応する第１学習用データを生成する。

このように、実施形態に係る生成装置１００は、コンテキストデータ群におけるレコード数に関する統計的特徴量に対応する第１学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、コンテキストデータ群におけるデータの種別数に関する統計的特徴量に対応する第１学習用データを生成する。

このように、実施形態に係る生成装置１００は、コンテキストデータ群におけるデータの種別数に関する統計的特徴量に対応する第１学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、コンテキストデータ群におけるデータの時系列的変化に関する統計的特徴量に対応する第１学習用データを生成する。

このように、実施形態に係る生成装置１００は、コンテキストデータ群におけるデータの時系列的変化に関する統計的特徴量に対応する第１学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、コンテキストデータ群に基づいて推定されるユーザの状況に関する統計的特徴量に対応する第１学習用データを生成する。

このように、実施形態に係る生成装置１００は、コンテキストデータ群に基づいて推定されるユーザの状況に関する統計的特徴量に対応する第１学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、学習に用いるデータのレコード数の設定値を含むデータ条件と、コンテキストデータ群とに基づいて、設定値に対応するレコード数に成形されたデータである第２学習用データを含む学習用データを生成する。

このように、実施形態に係る生成装置１００は、学習に用いるデータのレコード数の設定値を含むデータ条件と、コンテキストデータ群とに基づいて、設定値に対応するレコード数に成形されたデータである第２学習用データを含む学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、設定値よりもコンテキストデータ群のレコード数が多い場合、コンテキストデータ群のレコード数を設定値に圧縮することにより、第２学習用データを生成する。

このように、実施形態に係る生成装置１００は、設定値よりもコンテキストデータ群のレコード数が多い場合、コンテキストデータ群のレコード数を設定値に圧縮することにより、第２学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、設定値よりもコンテキストデータ群のレコード数が少ない場合、コンテキストデータ群のレコード数を設定値に増幅することにより、第２学習用データを生成する。

このように、実施形態に係る生成装置１００は、設定値よりもコンテキストデータ群のレコード数が少ない場合、コンテキストデータ群のレコード数を設定値に増幅することにより、第２学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、コンテキストデータ群に対応する第１行列と、コンテキストデータ群のレコード数及び設定値に対応する第２行列との積により、第２学習用データを生成する。

このように、実施形態に係る生成装置１００は、コンテキストデータ群に対応する第１行列と、コンテキストデータ群のレコード数及び設定値に対応する第２行列との積により、第２学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

また、実施形態に係る生成装置１００において、生成部１３３は、所定の範囲の各自然数及び設定値に対応する複数の第２行列のうち、コンテキストデータ群のレコード数及び設定値に対応する第２行列を用いることにより、第２学習用データを生成する。

このように、実施形態に係る生成装置１００は、所定の範囲の各自然数及び設定値に対応する複数の第２行列のうち、コンテキストデータ群のレコード数及び設定値に対応する第２行列を用いて、第２学習用データを生成することにより、可変量データを対象とする場合であっても、柔軟な学習を可能にするデータを生成することができる。

〔５．ハードウェア構成〕
上述してきた実施形態に係る生成装置１００は、例えば図１４に示すような構成のコンピュータ１０００によって実現される。図１４は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、プログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、ネットワークＮ（図３中においてはネットワークＮ）を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が収集したデータをネットワークＮを介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、収集したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、プログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る生成装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラム、またはデータ（例えば、図９中の行列データ記憶部１２５に示すような行列データや図１１中のモデル情報記憶部１２７に示すような認証モデルや予測モデル）を実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラム、またはデータ（例えば、行列データや認証モデルや予測モデル）を記録媒体１８００から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

以上、本願の実施形態及び変形例のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔６．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１生成システム
１００生成装置
１２１ユーザ情報記憶部
１２２コンテキストデータ記憶部
１２３データ条件記憶部
１２４第１学習用データ記憶部
１２５行列データ記憶部
１２６第２学習用データ記憶部
１３０制御部
１３１取得部
１３２決定部
１３３生成部
１３４提供部
１０端末装置
Ｎネットワーク

Claims

所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する取得部と、
所定のモデルの学習に用いるデータの基準を示すデータ条件であって、前記学習に用いるデータの統計的な特徴量である統計的特徴量の指定を含むデータ条件と、前記コンテキストデータ群とに基づいて、前記データ条件に対応する学習用データであって、前記統計的特徴量に対応する統計的データである第１学習用データを含む学習用データを、前記取得部により取得されたコンテキストデータ群から生成する生成部と、
を備えることを特徴とする生成装置。
前記生成部は、
前記コンテキストデータ群におけるレコード数に関する前記統計的特徴量に対応する前記第１学習用データを含む学習用データを生成する
ことを特徴とする請求項１に記載の生成装置。
前記生成部は、
前記コンテキストデータ群におけるデータの種別数に関する前記統計的特徴量に対応する前記第１学習用データを生成する
ことを特徴とする請求項１または請求項２に記載の生成装置。
前記生成部は、
前記コンテキストデータ群におけるデータの時系列的変化に関する前記統計的特徴量に対応する前記第１学習用データを生成する
ことを特徴とする請求項１〜３のいずれか１項に記載の生成装置。
前記生成部は、
前記コンテキストデータ群に基づいて推定される前記ユーザの状況に関する前記統計的特徴量に対応する前記第１学習用データを生成する
ことを特徴とする請求項１〜４のいずれか１項に記載の生成装置。
所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する取得部と、
所定のモデルの学習に用いるデータの基準を示すデータ条件であって、前記学習に用いるデータのレコード数の設定値を含むデータ条件と、前記コンテキストデータ群とに基づいて、前記データ条件に対応する学習用データであって、前記設定値に対応するレコード数に成形されたデータである第２学習用データを含む学習用データを、前記取得部により取得されたコンテキストデータ群から生成する生成部と、
を備えることを特徴とする生成装置。
前記生成部は、
前記設定値よりも前記コンテキストデータ群のレコード数が多い場合、前記コンテキストデータ群のレコード数を前記設定値に圧縮することにより、前記第２学習用データを生成する
ことを特徴とする請求項６に記載の生成装置。
前記生成部は、
前記設定値よりも前記コンテキストデータ群のレコード数が少ない場合、前記コンテキストデータ群のレコード数を前記設定値に増幅することにより、前記第２学習用データを生成する
ことを特徴とする請求項６または請求項７に記載の生成装置。
前記生成部は、
前記コンテキストデータ群に対応する第１行列と、前記コンテキストデータ群のレコード数及び前記設定値に対応する第２行列との積により、前記第２学習用データを生成する
ことを特徴とする請求項６〜８のいずれか１項に記載の生成装置。
前記生成部は、
所定の範囲の各自然数及び前記設定値に対応する複数の第２行列のうち、前記コンテキストデータ群のレコード数及び前記設定値に対応する第２行列を用いることにより、前記第２学習用データを生成する
ことを特徴とする請求項９に記載の生成装置。
コンピュータが実行する生成方法であって、
所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する取得工程と、
所定のモデルの学習に用いるデータの基準を示すデータ条件であって、前記学習に用いるデータの統計的な特徴量である統計的特徴量の指定を含むデータ条件と、前記コンテキストデータ群とに基づいて、前記データ条件に対応する学習用データであって、前記統計的特徴量に対応する統計的データである第１学習用データを含む学習用データを、前記取得工程により取得されたコンテキストデータ群から生成する生成工程と、
を含むことを特徴とする生成方法。
所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する取得手順と、
所定のモデルの学習に用いるデータの基準を示すデータ条件であって、前記学習に用いるデータの統計的な特徴量である統計的特徴量の指定を含むデータ条件と、前記コンテキストデータ群とに基づいて、前記データ条件に対応する学習用データであって、前記統計的特徴量に対応する統計的データである第１学習用データを含む学習用データを、前記取得手順により取得されたコンテキストデータ群から生成する生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。
コンピュータが実行する生成方法であって、
所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する取得工程と、
所定のモデルの学習に用いるデータの基準を示すデータ条件であって、前記学習に用いるデータのレコード数の設定値を含むデータ条件と、前記コンテキストデータ群とに基づいて、前記データ条件に対応する学習用データであって、前記設定値に対応するレコード数に成形されたデータである第２学習用データを含む学習用データを、前記取得工程により取得されたコンテキストデータ群から生成する生成工程と、
を含むことを特徴とする生成方法。
所定要素の基準に対応してデータ量が可変であるユーザのコンテキストデータ群を取得する取得手順と、
所定のモデルの学習に用いるデータの基準を示すデータ条件であって、前記学習に用いるデータのレコード数の設定値を含むデータ条件と、前記コンテキストデータ群とに基づいて、前記データ条件に対応する学習用データであって、前記設定値に対応するレコード数に成形されたデータである第２学習用データを含む学習用データを、前記取得手順により取得されたコンテキストデータ群から生成する生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。