JP7513125B2

JP7513125B2 - 学習データ生成システム、方法、プログラム、モデル生成システム及びログ生成システム

Info

Publication number: JP7513125B2
Application number: JP2022577906A
Authority: JP
Inventors: 太地羽角; 成佳島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2024-07-09
Anticipated expiration: 2041-01-28
Also published as: JPWO2022162820A1; US20240119259A1; WO2022162820A1

Description

本開示は、学習データ生成システム、方法、プログラム、モデル生成システム及びログ生成システムに関する。

近年、組織を標的としたサイバー攻撃により、情報漏洩および事業停止などの被害が増加しており、サイバー攻撃に対する対策の強化が求められている。このようなサイバー攻撃に対する対策を強化するためには、システムのセキュリティ担当者の調査スキルの向上が不可欠となる。このため、サイバー攻撃の痕跡となるインシデントのログ（以下「攻撃ログ」と呼ぶ）を、インシデントには関係のない通常業務のログ（以下「正常ログ」と呼ぶ）の中から受講者に見つけ出させるサイバーセキュリティ演習が行われている。したがって、サイバーセキュリティ演習においては、攻撃ログに加えて、正常ログを予め用意しておく必要がある。

ここで、サイバーセキュリティ演習を行うためには、膨大な数の正常ログが必要となる。これは、調査スキルの向上を図るためには、受講者は、サイバーセキュリティ演習を複数回受講する必要があるが、同じ正常ログを使い回したのでは調査スキルは向上しないため、正常ログを演習の度に新たに用意する必要があるからである。したがって、正常ログを、人手で作成する、または予め想定された環境下で端末における通常操作のログを記録するのでは、多くの時間を要し、手間が膨大となる。

そこで、一定期間の実端末の操作履歴をモデル化し、モデルからユーザの操作を予測して、正常ログを生成することが提案されている。このようなモデルは、ユーザ操作モデルと呼ばれることがある。ここで、特許文献１では、旧システムにおける職種ごとの操作履歴に基づいて、新システムにおける操作パターンであるテストパターンを作成することが開示されている。

特開２０１６－１１０２５１号公報

しかし、上述の特許文献１には、テストパターンの作成の具体的な手法については、開示されていない。また、実端末上は、しばしば、アプリケーションがアップデートされ、又は新しいアプリケーションがインストールされる。したがって、実端末から操作履歴を取得し、アップデートやインストールの度にモデル化を行うのでは、実用上手間と時間がかかり効率的ではないという問題があった。

このように、既存のユーザ操作モデルから、新しいアプリケーションに対応するユーザ操作モデルを効率的に構築することが求められている。したがって、本開示の目的は、上述した課題に鑑み、新しいアプリケーションに対応するユーザ操作モデルを効率的に構築できる学習データ生成システム等を提供することにある。

本開示の一態様に係る学習データ生成システムは、既存タグ情報取得手段と、対象タグ情報取得手段と、選択手段と、学習データ生成手段とを備える。前記既存タグ情報取得手段は、アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定する。そして前記既存タグ情報取得部は、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する。前記対象タグ情報取得手段は、対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する。前記選択手段は、前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する。前記学習データ生成手段は、前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する。

本開示の一態様に係る学習データ生成方法は、既存タグ情報取得段階と、対象タグ情報取得段階と、選択段階と、学習データ生成段階とを備える。前記既存タグ情報取得段階は、アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定する段階である。また前記既存タグ情報取得段階は、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する段階である。前記対象タグ情報取得段階は、対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する段階である。前記選択段階は、前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する段階である。前記学習データ生成段階は、前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する段階である。

本開示の一態様に係るプログラムは、コンピュータに、既存タグ情報取得処理と、対象タグ情報取得処理と、選択処理と、学習データ生成処理とを実行させる。前記既存タグ情報取得処理は、アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定する処理である。また前記既存タグ情報取得処理は、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する処理である。前記対象タグ情報取得処理は、対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する処理である。前記選択処理は、前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する処理である。前記学習データ生成処理は、前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する処理である。

本開示により、新しいアプリケーションに対応するユーザ操作モデルを効率的に構築できる学習データ生成システム等を提供できる。

実施形態１にかかる学習データ生成システムの構成を示すブロック図である。実施形態２にかかるログ生成システムの概略構成図である。実施形態２にかかる学習データ生成装置の構成を示すブロック図である。実施形態２にかかる学習データのデータ構造の一例を示すである。実施形態２にかかるアプリケーションリストのデータ構造の一例を示す図である。実施形態２にかかる実操作ルール記憶部のデータ構造の一例を示す図である。実施形態２にかかるタグ付与規則記憶部のデータ構造の一例を示す図である。実施形態２にかかる学習データ生成処理の手順を示すフローチャートである。実施形態２にかかる類似度算出及び選択処理の一例を説明するための図である。実施形態２にかかる類似度算出及び選択処理の他の例を説明するための図である。実施形態２にかかる追加学習データ生成処理を説明するための図である。実施形態２にかかるモデル生成処理の手順を示すフローチャートである。実施形態２にかかるログ生成処理の手順を示すフローチャートである。実施形態３にかかるログ生成システムの概略構成図である。実施形態３にかかる対応テーブルのデータ構造の一例を示す図である。学習データ生成装置、モデル生成装置、及びログ生成装置として用いられ得るコンピュータの構成例を示す図である。

以下、実施形態を通じて本開示を説明するが、請求の範囲にかかる開示を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

＜実施形態１＞
まず、本開示の実施形態１について説明する。図１は、実施形態１にかかる学習データ生成システム３００の構成を示すブロック図である。学習データ生成システム３００は、ユーザ操作モデルを学習するための学習データを生成するコンピュータシステムである。ユーザ操作モデルとは、アプリケーション上で特定の処理を実行するためのユーザの操作（ユーザ操作）を推定するモデルである。ここで、対応する学習データが既に生成されているアプリケーションを、既存アプリケーションと呼ぶものとする。「対応する学習データが既に生成されている」とは、対応する学習データがユーザ操作モデルの学習に必要な量だけ生成されていることを含む。また、対応する学習データが十分でないアプリケーションを、対象アプリケーションと呼ぶものとする。「対応する学習データが十分でない」とは、対応する学習データが全くないこと、及び対応する学習データがユーザ操作モデルの学習に必要な量に満たないことを含む。学習データ生成システム３００は、対象アプリケーションに対応する学習データを、既に生成されているアプリケーションの学習データから生成することで、学習データを拡張する学習データ拡張システムとして機能する。

学習データ生成システム３００は、既存タグ情報取得部３２０と、対象タグ情報取得部３５０と、選択部３６０と、学習データ生成部３７０とを備える。

既存タグ情報取得部３２０は、ユーザ操作の履歴を示すユーザ操作履歴に基づいて、学習データが既に生成されているアプリケーションを、既存アプリケーションとして特定する。既存タグ情報取得部３２０は、既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を、既存タグ情報として取得する。タグ情報は、そのアプリケーションの特徴を類型化した１又は複数の個別タグを示す情報である。複数のアプリケーションの各々について、１又は複数の個別タグが、管理者やそのアプリケーションのエンジニアによって予め定められている。

対象タグ情報取得部３５０は、対象アプリケーションについて、対象アプリケーションの特徴を示すタグ情報を、対象タグ情報として取得する。

選択部３６０は、対象タグ情報と既存タグ情報の各々との間の類似度を算出する。選択部３６０は、類似度に基づいて、既存アプリケーションから、対象アプリケーションに類似する類似アプリケーションを選択する。

学習データ生成部３７０は、類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する。

このように実施形態１によれば、学習データ生成システム３００は、ユーザ操作モデルを学習するために必要な学習データが十分でない新しいアプリケーションについて、類似するアプリケーションの学習データを転用して、学習データを生成する。これは、特徴が類似するアプリケーションは、ユーザの操作傾向も近い可能性が高いからである。したがって、新しいアプリケーションに対してユーザが実端末を操作することを介して操作履歴を取得しなくても、学習データを容易に生成できる。したがって、新しいアプリケーションに対応するユーザ操作モデルを効率的に構築できる。

＜実施形態２＞
次に、本開示の実施形態２について説明する。学習データ生成システム３００が適用されることができるログ生成システム１の一例を、図２に示す。図２は、実施形態２にかかるログ生成システム１の概略構成図である。ログ生成システム１は、サイバーセキュリティ演習で必要な、正常ログを模擬した模擬ログから構成される模擬ログデータを生成するコンピュータシステムである。ここで正常ログは、設定環境下で通常業務として行われる操作にかかるログを指す。ログとは、複数行のログテキストから構成される記録を指す。なお、以下では、対象アプリケーションを、追加アプリケーションと称する。

ログ生成システム１は、ログ生成装置１０と、端末装置４０とを備える。

（ログ生成装置１０）
ログ生成装置１０は、ユーザ操作モデルを生成するモデル生成装置２０を有するコンピュータ装置である。ログ生成装置１０は、モデル生成装置２０によって生成されたユーザ操作モデルを用いてユーザ操作を推定し、ユーザ操作にかかる模擬ログから構成される模擬ログデータを生成する。ログ生成装置１０は、モデル生成装置２０に加え、パラメータ取得部１１と、模擬ログ生成部１２と、実操作ルール記憶部１３と、模擬ログ記憶部１５とを有する。

（（モデル生成装置２０））
モデル生成装置２０は、学習データを生成する学習データ生成装置３０を含み、生成された学習データを用いて、ユーザ操作モデルを学習するコンピュータ装置である。モデル生成装置２０は、学習データ生成装置３０に加え、モード選択部２１と、操作履歴取得部２２と、学習データ記憶部２３と、モデル生成部２４と、モデルデータ記憶部２５とを含む。

モード選択部２１は、通常モード及び拡張モードの中から制御モードを選択し、選択された制御モードに応じて、モデル生成装置２０の各種構成要素を制御する。通常モードは、操作履歴を取得可能なアプリケーションを既存アプリケーションとして、操作履歴から学習データを生成し、生成した学習データを用いてユーザ操作モデルを学習する制御モードである。通常モードで生成され、使用される学習データは、既存学習データと呼ばれる。拡張モードは、追加アプリケーションに対応する学習データを生成し、生成した学習データを用いてユーザ操作モデルを追加学習する制御モードである。拡張モードで生成され、使用される学習データは、追加学習データと呼ばれる。

学習データ生成装置３０は、実施形態１の学習データ生成システム３００に対応し、拡張モードにおいて、追加アプリケーションに対応する追加学習データを生成するコンピュータ装置である。詳細は、後述する。

操作履歴取得部２２は、通常モードにおいて、ネットワークを介してモデル生成装置２０に接続された操作履歴収集コンピュータ（不図示）から、既存アプリケーションのユーザ操作履歴を取得する。なお、操作履歴収集コンピュータには、操作履歴収集ツールがインストールされている。操作履歴収集コンピュータは、操作履歴収集ツールを用いて、ユーザが操作したことに応じてコンピュータで生成されたユーザ操作履歴を収集し、収集した操作履歴をモデル生成装置２０に出力する。操作履歴取得部２２は、取得したユーザ操作履歴から学習データを生成し、又は操作履歴を学習データとして、学習データ記憶部２３に格納する。

学習データ記憶部２３は、学習データを記憶し、蓄積する。

モデル生成部２４は、通常モードにおいては、既存学習データを用いて、ユーザ操作モデルを学習することで、学習済のユーザ操作モデルを生成する。またモデル生成部２４は、拡張モードにおいては、追加学習データを用いて、ユーザ操作モデルを追加学習することで、ユーザ操作モデルを拡張する。

モデルデータ記憶部２５は、既存学習データにより学習済のユーザ操作モデルの各種パラメータを含むモデルデータと、当該ユーザ操作モデルに対応するアプリケーションの識別情報をリスト化したアプリケーションリストとを記憶する。アプリケーションの識別情報は、アプリケーションＩＤと呼ばれ、アプリケーションの種別を示す。アプリケーションＩＤは、例えばアプリケーション名である。またモデルデータ記憶部２５は、拡張モードにおいてユーザ操作モデルが拡張された場合は、拡張されたユーザ操作モデルのモデルデータと、追加アプリケーションが追加されたアプリケーションリストとを記憶する。

（（ログ生成装置１０のその他の構成要素））
パラメータ取得部１１は、模擬ログ生成部１２による処理で用いるシステムパラメータを取得する。システムパラメータとしては、コンピュータ名、ユーザ名、ＩＰアドレス、ログの生成開始時刻、ログの生成終了時刻が挙げられる。また、システムパラメータは、例えば、ログ生成装置１０の管理者によって作成され、その後、管理者の端末等を介して入力される。

模擬ログ生成部１２は、生成されたユーザ操作モデルを用いてユーザ操作を推定する。そして模擬ログ生成部１２は、推定されたユーザ操作とアプリケーションＩＤに基づいて、模擬ログデータを生成する。

本実施形態２では、模擬ログ生成部１２は、ユーザ操作モデルから推定されるユーザ操作を、対応するアプリケーションがインストールされた端末装置４０において、そのユーザ操作を実行させるための操作コマンドに変換する。つまり、操作コマンドは、アプリケーションＩＤに応じた、そのユーザ操作に対応する操作コマンドである。操作コマンドの変換には、操作コマンドのテンプレートである実操作テンプレートが用いられる。そして模擬ログ生成部１２は、ログ情報通信部１４を介して、操作コマンドを、そのアプリケーションがインストールされた端末装置４０に送信する。続いて模擬ログ生成部１２は、ログ情報通信部１４を介して、端末装置４０から操作コマンドを実行した場合に生成されるログから構成されるログデータを、ユーザ操作にかかる模擬ログから構成される模擬ログデータとして受信する。模擬ログ生成部１２は、受信した模擬ログデータを、模擬ログ記憶部１５に記憶する。

なおログ情報通信部１４は、模擬ログ生成部１２に含まれ、端末装置４０との間でデータ通信を行う。

このように、模擬ログ生成部１２は、模擬ログデータを端末装置４０から回収するため、端末装置４０にユーザ操作モデルに係るアプリケーションをインストールしていれば、容易に、実際の正常ログに類似した模擬ログデータを生成できる。

実操作ルール記憶部１３は、アプリケーションごとの、ユーザ操作に対応する実操作テンプレートを記憶する。

模擬ログ記憶部１５は、取得した模擬ログデータを記憶し、蓄積する。

（端末装置４０）
端末装置４０は、ログ生成装置１０のログ情報通信部１４との間でデータ通信を行うコンピュータ端末装置である。端末装置４０は、ログ情報通信部１４から受信した操作コマンドを実行し、実行に際して生成されたログを収集し、収集したログをログデータとしてログ生成装置１０のログ情報通信部１４に送信する。

図３は、実施形態２にかかる学習データ生成装置３０の構成を示すブロック図である。学習データ生成装置３０は、モデルデータ取得部３１と、既存タグ情報取得部３２と、タグ付与規則記憶部３３と、追加アプリ入力部３４と、追加タグ情報取得部３５と、選択部３６と、学習データ生成部３７とを含む。

モデルデータ取得部３１は、学習データ記憶部２３から既存学習データを取得し、モデルデータ記憶部２５からアプリケーションリストを取得する。モデルデータ取得部３１は、アプリケーションリストを既存タグ情報取得部３２に供給し、既存学習データを学習データ生成部３７に供給する。

既存タグ情報取得部３２は、実施形態１の既存タグ情報取得部３２０に対応する。既存タグ情報取得部３２は、アプリケーションリストによって既存アプリケーションのアプリケーションＩＤを特定する。そして既存タグ情報取得部３２は、既存アプリケーションの各々のアプリケーションＩＤに応じた既存タグ情報を、タグ付与規則記憶部３３から取得する。つまり、既存タグ情報取得部３２は、タグ付与規則記憶部３３を参照し、既存アプリケーションの各々についてタグ情報を付与する。そして既存タグ情報取得部３２は、取得した既存タグ情報を、選択部３６に供給する。

タグ付与規則記憶部３３は、アプリケーションごとに、予め定められたタグ情報を記憶する。

追加アプリ入力部３４は、ログ生成システム１の管理者から、追加アプリケーションのアプリケーションＩＤの入力を受け付ける。追加アプリ入力部３４は、追加アプリケーションのアプリケーションＩＤを、追加タグ情報取得部３５に供給する。

追加タグ情報取得部３５は、実施形態１にかかる対象タグ情報取得部３５０に対応する。追加タグ情報取得部３５は、追加アプリケーションのアプリケーションＩＤに応じたタグ情報を、追加タグ情報として、タグ付与規則記憶部３３から取得する。つまり、追加タグ情報取得部３５は、タグ付与規則記憶部３３を参照し、追加アプリケーションについてタグ情報を付与する。追加タグ情報取得部３５は、取得した追加タグ情報を、選択部３６に供給する。

選択部３６は、実施形態１にかかる選択部３６０に対応する。選択部３６は、追加タグ情報と既存タグ情報の各々との間の類似度を算出する。追加タグ情報と既存タグ情報の各々との間の類似度は、追加アプリケーションと各既存アプリケーションとの間の類似度に相当する。そして選択部３６は、追加アプリケーションとの間の類似度が高い既存アプリケーションを、類似アプリケーションとして選択する。選択部３６は、類似アプリケーションのアプリケーションＩＤを、学習データ生成部３７に供給する。

学習データ生成部３７は、実施形態１にかかる学習データ生成部３７０に対応する。学習データ生成部３７は、モデルデータ取得部３１から取得した、既存学習データのうち、類似アプリケーションに対応する学習データを、学習元データとして抽出する。そして学習データ生成部３７は、学習元データから追加学習データを生成する。具体的には、学習データ生成部３７は、学習元データのうち、類似アプリケーションのアプリケーションＩＤを、追加アプリケーションＩＤに変換し、その結果、追加学習データを生成する。学習データ生成部３７は、生成した追加学習データを、学習データ記憶部２３に格納する。

本実施形態２では、ユーザ操作モデルは、RNN（Recurrent Neural Network）である。しかしこれに限らず、ユーザ操作モデルは、マルコフモデルであってもよい。そしてユーザ操作モデルは、アプリケーション種別及びユーザ操作の種別の組み合わせを示す情報を入力とし、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報、又は各組み合わせの確率を出力とする。このようなユーザ操作モデルによって、アプリケーションごとのユーザ操作の傾向に加えて、異なるアプリケーション間の関係性を考慮したユーザ操作の推定が可能となる。

図４は、実施形態２にかかる学習データのデータ構造の一例を示す図である。本図に示す学習データは、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報の時系列データであり、操作系列データとも呼ばれる。具体的には、学習データは、時刻と、アプリケーションＩＤと、ユーザ操作分類と、ユーザ操作のターゲットとが関連付けられている。ここで、ユーザ操作分類と、ユーザ操作のターゲットとの組み合わせから、ユーザ操作の種別が決定される。例えば、ユーザは、時刻「2020/01/10 12:34:01」において、アプリケーション「APP6」上で、ファイル「C:＼Users＼UN＼Documents＼example.docx」に対して「Edit File」（編集）という操作を行っている。そしてその後、時刻「2020/01/10 12:34:05」において、ユーザは、アプリケーション「APP2」上で、ファイル「https://hoge.com」を「Open」（開く）という操作を行っている。

図５は、実施形態２にかかるアプリケーションリストのデータ構造の一例を示す図である。アプリケーションリストには、ユーザ操作モデルがそのユーザ操作を推定可能なアプリケーションのアプリケーションＩＤ、すなわち既存アプリケーションのアプリケーションＩＤをリスト化したものである。本図では、アプリケーションリストには、APP1～APP8までの８つのアプリケーションのアプリケーションＩＤが記述されている。しかしアプリケーションの個数は、これに限らない。なおアプリケーションリストは、既存学習データからアプリケーションＩＤを抽出し、抽出したアプリケーションＩＤをリスト化することで生成されてよい。

図６は、実施形態２にかかる実操作ルール記憶部１３のデータ構造の一例を示す図である。実操作ルール記憶部１３は、アプリケーションＩＤと、ユーザ操作の種別を示すユーザ操作ＩＤと、実操作テンプレートとを対応付けて記憶している。

模擬ログ生成部１２は、アプリケーションＩＤとユーザ操作ＩＤとの組み合わせから、実操作テンプレートを選択する。そして模擬ログ生成部１２は、選択された実操作テンプレートに、パラメータ取得部１１において取得したパラメータを組み込んで、操作コマンドを生成する。

図７は、実施形態２にかかるタグ付与規則記憶部３３のデータ構造の一例を示す図である。タグ付与規則記憶部３３は、アプリケーションＩＤと、そのアプリケーションに対して予め定められたタグ情報とを対応付けて記憶している。タグ情報には、管理者やそのアプリケーションのエンジニアによって予め定められた任意の数の個別タグが含まれる。

各個別タグは、そのアプリケーションの利用目的、利用頻度、利用手段又はその他の特徴を示す。利用目的としては、例えばテキストデータの編集に用いられるのか、ウェブサーバへのアクセスに用いられるのか等の情報が挙げられる。利用頻度としては、日常的に用いられるのか、時々用いられるのか等の情報が挙げられる。利用手段としては、例えば利用時のファイル形式や使用言語等が挙げられる。またその他の特徴としては、そのアプリケーションが含まれるパッケージ名や、プリインストールされているか否かの情報等が挙げられる。

例えばアプリケーション「APP2」は、個別タグとして、利用目的を示す「Web Browser」と、利用頻度を示す「Daily Used」と、その他の特徴として「Preinstalled」とが定められている。

次に、モデル生成装置２０による学習データ生成処理について説明する。図８は、実施形態２にかかる学習データ生成処理の手順を示すフローチャートである。

まずステップＳ１０において、モデル生成装置２０のモード選択部２１は、現在のモードが通常モードであるか否かを判定する。モード選択部２１は、通常モードであると判定した場合（ステップＳ１０でＹｅｓ）、処理をステップＳ１１に進める。ステップＳ１１において、操作履歴取得部２２は、通常の学習データの生成及び格納処理を実行する。具体的には、操作履歴取得部２２は、ネットワークを介して既存アプリケーションのユーザ操作履歴を取得し、取得したユーザ操作履歴から既存学習データを生成する。そして操作履歴取得部２２は、既存学習データを学習データ記憶部２３に格納する。なお本例では、操作履歴取得部２２は、ユーザ操作履歴をそのまま既存学習データとして学習データ記憶部２３に格納する。そしてモデル生成装置２０は、処理を終了する。

一方、モード選択部２１は、通常モードでなく、拡張モードであると判定した場合（ステップＳ１０でＮｏ）、処理をステップＳ１２に進める。ステップＳ１２において、学習データ生成装置３０のモデルデータ取得部３１は、学習データ記憶部２３から既存学習データを取得し、モデルデータ記憶部２５からアプリケーションリストを取得する。続いてステップＳ１３において、既存タグ情報取得部３２は、アプリケーションリストから既存アプリケーションのアプリケーションＩＤを特定する。続いて既存タグ情報取得部３２は、既存アプリケーションの各々について、ステップＳ１４に示す処理を繰り返す。

ステップＳ１４において、既存タグ情報取得部３２は、タグ付与規則記憶部３３から既存アプリケーションのアプリケーションＩＤに対応する、既存タグ情報を取得する。

続いてステップＳ１５において、追加アプリ入力部３４は、追加アプリケーションのアプリケーションＩＤの入力を受け付け、取得する。ステップＳ１６において、追加タグ情報取得部３５は、タグ付与規則記憶部３３から、追加アプリケーションのアプリケーションＩＤに対応する、追加タグ情報を取得する。

ステップＳ１７において、選択部３６は、追加タグ情報と既存タグ情報との間の類似度を算出する。具体的には、選択部３６は、追加タグ情報と既存タグ情報の各々との間で、各タグ情報に含まれる個別タグで構成される集合を比較し、集合間の類似度を算出することで、追加タグ情報と既存タグ情報の各々との間の類似度を算出する。一例として、個別タグの集合の類似度は、Dice係数を用いて、以下のように算出される。

ここで、Ｘは、追加アプリケーションの追加タグ情報に含まれる個別タグの集合であり、Ｙは、比較対象の既存アプリケーションの既存タグ情報に含まれる個別タグの集合である。なお、個別タグの集合の類似度の算出には、Dice係数に限らず、Jaccard係数又はSimpson係数を用いてもよく、コサイン類似度を用いてもよい。

また、優先度の高い個別タグが、個別タグの集合の類似度へ大きな寄与をもたらすようにしてもよい。例えば選択部３６は、個別タグごとに、又は指定された個別タグ情報に所定の重みを付して、個別タグの集合の類似度を算出してよい。また選択部３６は、個別タグの集合を、優先度に応じた任意の数の集合に分割し、分割集合ごとの類似度を算出し、分割集合の類似度に所定の重みを付して、例えば加重平均により、個別タグの集合の類似度を算出してよい。

続いてステップＳ１８において、選択部３６は、追加タグ情報との間の類似度が高い既存タグ情報に対応する既存アプリケーションを、類似アプリケーションとして選択する。これにより、追加アプリケーションの特徴をユーザ操作モデルに効率よく反映させることができる。

ここで図９は、実施形態２にかかる類似度算出及び選択処理の一例を説明するための図である。本図は、追加アプリケーションをAPP5とした場合の、追加アプリケーションと各既存アプリケーションとの間のタグ情報の類似度を示している。

図７に示す通り、APP5のタグ情報は、「Text Editor」、「Sometimes Used」、及び「Open Text File」の３つの個別タグを含んでいる。そしてAPP4のタグ情報は、「Text Editor」、「Frequently Used」、「Open Text File」、及び「Preinstalled」の４つの個別タグを含んでいる。つまりAPP5のタグ情報とAPP4のタグ情報とでは、２つの個別タグが共通している。したがって、図９に示すように、APP5とAPP4との間の個別タグの集合のDice係数、つまりAPP5とAPP4との間のタグ情報の類似度は、0.86と算出される。

一方、APP5のタグ情報とAPP2のタグ情報とでは、共通する個別タグがない。したがって、APP5とAPP2との間の個別タグの集合のDice係数、つまりAPP5とAPP2との間のタグ情報の類似度は、0.00と算出される。

そして選択部３６は、追加タグ情報との間の類似度が最も高い既存タグ情報に対応する既存アプリケーションを、類似アプリケーションとして選択する。本例では、類似アプリケーションは、タグ情報の類似度が0.86のAPP4である。

図１０は、実施形態２にかかる類似度算出及び選択処理の他の例を説明するための図である。本図は、追加アプリケーションをAPP3とした場合の、追加アプリケーションと各既存アプリケーションとの間のタグ情報の類似度を示している。本例においても、図９と同様に類似度が算出される。ここで本例では、選択部３６は、追加タグ情報との間の類似度が所定閾値以上の既存タグ情報に対応する既存アプリケーションを、類似アプリケーションとして選択する。例えば閾値を0.40とした場合、類似度が0.40のAPP1及び類似度が0.80のAPP2の、２つのアプリケーションが類似アプリケーションとして選択される。なお選択部３６は、これに限らず、追加タグ情報との間の類似度が上位所定個の既存タグ情報に対応する既存アプリケーションを、類似アプリケーションとして選択してもよい。

本例では、複数個の類似アプリケーションが選択される。ただし選択部３６は、優先度の高い個別タグ等、所定の個別タグが一致しない既存アプリケーションは、類似アプリケーションから除外してもよい。この場合、所定の個別タグが、足切り対象の個別タグとなる。つまり、選択部３６は、追加タグ情報との間の類似度が高く、かつ追加タグ情報との間で所定の個別タグが一致する既存タグ情報に対応する既存アプリケーションのみを、類似アプリケーションとして選択してよい。例えば、選択部３６は、APP5のタグ情報のうち、利用目的を示す「Text Editor」の個別タグを、足切り対象の個別タグとして設定する。この場合、「Text Editor」を個別タグの集合に含まないAPP2は、類似アプリケーションから除外される。これにより、追加アプリケーションの特徴を精度よくユーザ操作モデルに反映させることができる。

図８のステップＳ１９において、学習データ生成部３７は、既存学習データから、類似アプリケーションに対応する学習データを学習元データとして抽出し、学習元データから追加アプリケーションの学習データを含む追加学習データを生成する。そして学習データ生成部３７は、追加学習データを学習データ記憶部２３に格納し、処理を終了する。

図１１は、実施形態２にかかる追加学習データ生成処理を説明するための図である。本図では、類似アプリケーションを、APP2とし、追加アプリケーションをAPP3とする。

まず、学習データ生成部３７は、既存学習データのうち、類似アプリケーションの操作を含む一連の操作の内容を示す操作系列データを抽出し、コピーする。ここで、コピー元の操作系列データを操作系列データＡと呼び、コピー先の操作系列データを操作系列データＢと呼ぶ。図１１に示すように、操作系列データＡは、類似アプリケーションの操作の他、その操作の前後で行われる類似アプリケーション以外の操作の内容を含んでいる。

学習データ生成部３７は、操作系列データＢから、類似アプリケーションのアプリケーションＩＤ「APP2」を検索し、類似アプリケーションのアプリケーションＩＤ「APP2」を追加アプリケーションのアプリケーションＩＤ「APP3」に置き換える。学習データ生成部３７は、アプリケーションＩＤを置き換えた操作系列データＢを、既存学習データにより学習済のユーザ操作モデルを追加学習するための追加学習データとして、学習データ記憶部２３に格納する。

なお、ステップＳ１８において、選択部３６が類似アプリケーションを複数個選択した場合、学習データ生成部３７は、複数の類似アプリケーションの各々について、ステップＳ１９に示す処理を実行してよい。これにより、複数の類似アプリケーションの特徴をユーザ操作モデルに反映させて、ユーザ操作モデルの推定精度を向上できる。またこの場合、学習データ生成部３７は、複数の類似アプリケーションの各々について、学習元データのうち、類似度に応じた量の類似アプリケーションに対応する学習データから、追加学習データを生成してもよい。例えば、図１０に示す例において、類似度が0.40のAPP1及び類似度が0.80のAPP2の、２つのアプリケーションが類似アプリケーションとして選択された場合、追加学習データの生成処理は以下の通りとなる。まず学習データ生成部３７は、既存学習データのうち、APP1の操作を含むＮ１個の操作系列データと、APP2の操作を含むＮ２個の操作系列データを抽出する。このとき、Ｎ１：Ｎ２＝0.40：0.80＝1：２となるように、学習データ生成部３７は、抽出するデータ数を調整する。そして学習データ生成部３７は、APP1及びAPP2の各々について、抽出した操作系列データを用いて、ステップＳ１９に示す処理を実行し、生成された学習データをまとめて追加学習データとする。これにより、複数の類似アプリケーションの特徴を類似度に応じて強弱をつけながらユーザ操作モデルに反映させ、ユーザ操作モデルの推定精度をより向上できる。

図１２は、実施形態２にかかるモデル生成処理の手順を示すフローチャートである。

まず、モデル生成装置２０のモード選択部２１は、制御モードが通常モードであるか否かを判定する（ステップＳ２０）。制御モードが通常モードである場合（ステップＳ２０でＹｅｓ）、モデル生成部２４は、既存学習データを学習データ記憶部２３から取得する（ステップＳ２１）。続いてモデル生成部２４は、モデルデータ記憶部２５からユーザ操作モデルのモデルデータを取得し、既存学習データを用いてユーザ操作モデルを学習する（ステップＳ２２）。これにより、学習済のユーザ操作モデルが生成される。学習が完了すると、モデル生成部２４は、学習済のユーザ操作モデルのモデルデータを、モデルデータ記憶部２５に格納する（ステップＳ２３）。このときモデル生成部２４は、アプリケーションリストを生成し、モデルデータとともにモデルデータ記憶部２５に格納してよい。

一方、制御モードが通常モードでない、つまり拡張モードである場合（ステップＳ２０でＮｏ）、モデル生成部２４は、追加学習データを学習データ記憶部２３から取得する（ステップＳ２４）。続いて、モデル生成部２４は、モデルデータ記憶部２５から既存学習データにより学習済のユーザ操作モデルのモデルデータを取得し、追加学習データを用いてユーザ操作モデルに対して追加学習を実施する（ステップＳ２５）。これにより、ユーザ操作モデルが更新される。追加学習が完了すると、モデル生成部２４は、追加学習済のユーザ操作モデルのモデルデータを、モデルデータ記憶部２５に格納する（ステップＳ２６）。このときモデル生成部２４は、モデルデータを上書きしてよい。またモデル生成部２４は、アプリケーションリストを更新し、モデルデータ記憶部２５に格納してよい。

なお、上述の説明では、モデル生成部２４は、拡張モードにおいて、既存学習データにより学習済のユーザ操作モデルを、追加学習データを用いて追加学習するとした。しかしこれに限らず、モデル生成部２４は、追加学習データを既存学習データにマージ（統合）させ、マージさせた既存学習データを用いて、ユーザ操作モデルを再学習してもよい。なお、追加学習は、再学習と比較して学習時間を短縮できるという点で、より好ましい。

図１３は、実施形態２にかかるログ生成処理の手順を示すフローチャートである。
まずログ生成装置１０の模擬ログ生成部１２は、モデルデータ記憶部２５から学習済又は追加学習済のユーザ操作モデルのモデルデータを取得する（ステップＳ３０）。続いて、模擬ログ生成部１２は、パラメータ取得部１１を介して、システムパラメータを取得する（ステップＳ３１）。模擬ログ生成部１２は、ユーザ操作モデルを用いて、次の時点での、アプリケーションＩＤ並びにユーザ操作ＩＤの組み合わせを推定する（ステップＳ３２）。続いて模擬ログ生成部１２は、実操作ルール記憶部１３から、推定したアプリケーションＩＤ及びユーザ操作ＩＤに対応する実操作テンプレートを取得し、実操作テンプレートにシステムパラメータを適用させて、操作コマンドを生成する（ステップＳ３３）。続いて模擬ログ生成部１２は、生成した操作コマンドを、ログ情報通信部１４を介して、端末装置４０に送信する（ステップＳ３４）。模擬ログ生成部１２は、ログ情報通信部１４を介して、端末装置４０から操作コマンド実行時に生成される模擬ログデータを、模擬ログ記憶部１５に格納する（ステップＳ３５）。

このように実施形態２によれば、学習データ生成装置３０は、追加アプリケーションに近いタグ情報が設定されている類似アプリケーションのユーザ操作傾向を、追加アプリケーションに転用する。これは、利用目的、利用頻度及び利用手段等が近いアプリケーションは、ユーザの操作傾向も近い可能性が高いからである。これにより、学習データ生成装置３０は、実施形態１の学習データ生成システム３００と同様の効果を奏する。

なお本実施形態２では、ユーザ操作モデルは、アプリケーション間の関係性も考慮したモデルである。したがって、ユーザ操作モデルの拡張により、追加アプリケーションと他のアプリケーション間の関係性を考慮したモデルを容易に生成できる。

ユーザ操作モデルの拡張は、学習データを転用するという本実施形態２の方式に代えて、モデルデータのうち、類似アプリケーションに関するデータを追加アプリケーション用のデータとして複製する方式も考えられる。しかし、ユーザ操作モデルが、ニューラルネットワークのように各アプリケーションの確率値が明示的かつ離散的に表現されていないモデルである場合は、上記方式をとることは難しく、このような場合には特に、本実施形態２の方式は有効である。

なお本実施形態２では、学習データは、アプリケーションの種別及びユーザ操作の種別を示す情報の時系列データ（操作系列データ）であった。しかしこれに代えて、学習データは、ログデータに含まれるログテキストから変換された観測シンボルの時系列データであってもよい。観測シンボルは、アプリケーション及び個別観測シンボルの組み合わせを識別する情報である。この場合、ユーザ操作モデルは、次に遷移するユーザ操作を推定し、そのユーザ操作の結果として出現する観測シンボルを推定する隠れマルコフモデルであってよい。またユーザ操作モデルは、観測シンボルの出現確率に沿って次に出現する観測シンボルを選択する統計モデルであってもよい。なお観測シンボルの出現確率は、観測シンボルの出現時刻及び個数から算出されてよい。

ログデータに含まれるログテキストから変換された観測シンボルの時系列データを生成するために、例えばログ生成装置１０は、以下の処理を実行する。

まず操作履歴取得部２２は、ネットワークを介してログ生成装置１０に接続されたログ収集コンピュータ（不図示）から、ログ群で構成されたログデータをユーザ操作履歴として取得する。なお、ログ収集コンピュータには、ログ収集ツールがインストールされている。ログ収集コンピュータは、ログ収集ツールを用いて、コンピュータで生成されたログデータを収集し、収集したログデータをログ生成装置１０に出力する。

次に操作履歴取得部２２は、収集したログデータから、ログデータのログに記述されているログタイプを抽出し、ログタイプに対応するアプリケーションＩＤを特定する。アプリケーションＩＤの特定には、ログタイプとアプリケーションＩＤとを対応付ける所定のテーブルを用いてよい。

また操作履歴取得部２２は、収集したログデータから、ログデータのログに記述されている所定のキーを抽出し、所定のキーに対応する個別観測シンボルを特定する。個別観測シンボルは、イベント又はイベントグループと呼ばれる場合もある。個別観測シンボルの特定には、キーの種別と、個別観測シンボルとを対応付ける所定のテーブルを用いてよい。なおログ生成装置１０は、予め各種個別観測シンボルに対応付けられたログテンプレートを保持しており、収集したログデータとの距離が近いログテンプレートを特定することで、個別観測シンボルを特定してもよい。

そして操作履歴取得部２２は、収集したログデータから、タイムスタンプを読み取り、観測シンボルを時系列に並べて観測シンボルの時系列データを生成する。

このようにして、操作履歴取得部２２は、ログデータから観測シンボルの時系列データを生成できる。なお、その他の処理については、操作系列データを用いる場合と基本的に同様であるため、ユーザ操作の種別を個別観測シンボルに、アプリケーションＩＤ及びユーザ操作ＩＤの組み合わせを観測シンボルに読み替えて、説明を省略する。

＜実施形態３＞
次に、本開示の実施形態３について説明する。実施形態３では、ログ生成装置は、操作コマンドを介して模擬ログデータを端末装置から回収することに代えて、ログテンプレートからログデータを生成する。

図１４は、実施形態３にかかるログ生成システム１aの概略構成図である。ログ生成システム１ａは、基本的にログ生成システム１と同様の機能を有するが、ログ生成装置１０に代えて、ログ生成装置１０ａを備え、端末装置４０が省略される。

ログ生成装置１０ａは、基本的にログ生成装置１０と同様の機能を有するが、模擬ログ生成部１２に代えて、模擬ログ生成部１２ａ及び対応テーブル１６を有する。模擬ログ生成部１２ａは、ログ情報通信部１４を含まない点で模擬ログ生成部１２と相違する。

模擬ログ生成部１２ａは、ユーザ操作モデルからユーザ操作を推定する。そして模擬ログ生成部１２ａは、対応テーブル１６を用いて、アプリケーションＩＤ及びユーザ操作ＩＤの組み合わせに基づいてログテンプレートを特定する。模擬ログ生成部１２ａは、ログテンプレートにシステムパラメータを適用させて模擬ログデータを生成する。

図１５は、実施形態３にかかる対応テーブルのデータ構造の一例を示す図である。対応テーブル１６は、アプリケーションＩＤ及びユーザ操作ＩＤと、ログテンプレートとを対応付けている。

このように、模擬ログ生成部１２ａは、対応テーブル１６を用いることにより、端末装置との間で操作コマンド及び模擬ログデータの送受信を介しなくても、容易に模擬ログデータを生成できる。

続いて、学習データ生成装置、モデル生成装置、及びログ生成装置の物理構成を説明する。図１６は、学習データ生成装置、モデル生成装置、及びログ生成装置として用いられ得るコンピュータの構成例を示す図である。コンピュータ１０００は、プロセッサ１０１０、記憶部１０２０、ＲＯＭ（Read Only Memory）１０３０、ＲＡＭ（Random Access Memory）１０４０、通信インタフェース（ＩＦ：Interface）１０５０、及びユーザインタフェース１０６０を有する。

通信インタフェース１０５０は、有線通信手段又は無線通信手段などを介して、コンピュータ１０００と通信ネットワークとを接続するためのインタフェースである。ユーザインタフェース１０６０は、例えばディスプレイなどの表示部を含む。また、ユーザインタフェース１０６０は、キーボード、マウス、及びタッチパネルなどの入力部を含む。

記憶部１０２０は、各種のデータを保持できる補助記憶装置である。記憶部１０２０は、必ずしもコンピュータ１０００の一部である必要はなく、外部記憶装置であってもよいし、ネットワークを介してコンピュータ１０００に接続されたクラウドストレージであってもよい。

ＲＯＭ１０３０は、不揮発性の記憶装置である。ＲＯＭ１０３０には、例えば比較的容量が少ないフラッシュメモリなどの半導体記憶装置が用いられる。プロセッサ１０１０が実行するプログラムは、記憶部１０２０又はＲＯＭ１０３０に格納され得る。記憶部１０２０又はＲＯＭ１０３０は、例えば学習データ生成装置、モデル生成装置、及びログ生成装置内の各部の機能を実現するための各種プログラムを記憶する。

上記プログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータ１０００に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体を含む。非一時的なコンピュータ可読媒体の例は、例えばフレキシブルディスク、磁気テープ、又はハードディスクなどの磁気記録媒体、例えば光磁気ディスクなどの光磁気記録媒体、ＣＤ（compact disc）、又はＤＶＤ（digital versatile disk）などの光ディスク媒体、及び、マスクＲＯＭ、ＰＲＯＭ（programmable ROM）、ＥＰＲＯＭ（erasable PROM）、フラッシュＲＯＭ、又はＲＡＭなどの半導体メモリを含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体を用いてコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバなどの有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

ＲＡＭ１０４０は、揮発性の記憶装置である。ＲＡＭ１０４０には、ＤＲＡＭ（Dynamic Random Access Memory）又はＳＲＡＭ（Static Random Access Memory）などの各種半導体メモリデバイスが用いられる。ＲＡＭ１０４０は、データなどを一時的に格納する内部バッファとして用いられ得る。プロセッサ１０１０は、記憶部１０２０又はＲＯＭ１０３０に格納されたプログラムをＲＡＭ１０４０に展開し、実行する。プロセッサ１０１０は、ＣＰＵ（Central Processing Unit）又はＧＰＵ（Graphics Processing Unit）であってよい。プロセッサ１０１０がプログラムを実行することで、学習データ生成装置、モデル生成装置、及びログ生成装置内の各部の機能が実現され得る。プロセッサ１０１０は、データなどを一時的に格納できる内部バッファを有してもよい。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

また上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得手段と、
対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得手段と、
前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択手段と、
前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する学習データ生成手段と
を備える学習データ生成システム。
（付記２）
既存タグ情報及び対象タグ情報は、それぞれ、対応するアプリケーションの特徴を類型化した、予め定められた１又は複数の個別タグを含み、
前記選択手段は、前記既存タグ情報の各々について、前記対象タグ情報との間の、個別タグで構成される集合の類似度を算出することにより前記対象タグ情報との間の類似度を算出する
付記１に記載の学習データ生成システム。
（付記３）
前記選択手段は、指定された個別タグに所定の重みを付して、前記対象タグ情報と前記既存タグ情報の各々との間の、個別タグで構成される集合の類似度を算出する
付記２に記載の学習データ生成システム。
（付記４）
前記選択手段は、前記対象タグ情報との間の類似度が所定値以上の既存タグ情報に対応する１又は複数の既存アプリケーションを、前記類似アプリケーションとして選択し、
前記学習データ生成手段は、複数の前記類似アプリケーションの各々について、類似度に応じた量の前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する
付記１から３のいずれか一項に記載の学習データ生成システム。
（付記５）
前記選択手段は、前記対象タグ情報との間の類似度が所定値以上で、かつ前記対象タグ情報との間で所定の個別タグが一致する既存タグ情報に対応する既存アプリケーションを、前記類似アプリケーションとして選択する
付記１から４のいずれか一項に記載の学習データ生成システム。
（付記６）
前記選択手段は、前記対象タグ情報との間の類似度が最も高い既存タグ情報に対応する既存アプリケーションを、前記類似アプリケーションとして選択する
付記１から３のいずれか一項に記載の学習データ生成システム。
（付記７）
前記学習データ生成手段は、前記類似アプリケーションに対応する学習データに含まれる、前記類似アプリケーションの識別情報を、前記対象アプリケーションの識別情報に変換し、その結果、前記対象アプリケーションに対応する学習データを生成する
付記１から６のいずれか一項に記載の学習データ生成システム。
（付記８）
前記ユーザ操作モデルは、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報の時系列データを学習データとして、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報を出力とする
付記１から７のいずれか一項に記載の学習データ生成システム。
（付記９）
付記１～８のいずれか一項に記載の学習データ生成システムを備え、
生成された前記学習データを用いて、前記ユーザ操作モデルを学習する
モデル生成システム。
（付記１０）
付記９に記載のモデル生成システムを備え、
生成された前記ユーザ操作モデルを用いてユーザ操作を推定し、前記ユーザ操作にかかる模擬ログを生成する
ログ生成システム。
（付記１１）
前記ユーザ操作モデルを用いて推定されるユーザ操作を、該ユーザ操作に対応するアプリケーション識別情報に応じた操作コマンドに変換し、
前記操作コマンドを、該アプリケーションがインストールされた端末装置に送信し、
前記端末装置から前記操作コマンドに対応するログを、前記ユーザ操作にかかる模擬ログとして受信する
付記１０に記載のログ生成システム。
（付記１２）
アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得段階と、
対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得段階と、
前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択段階と、
前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する学習データ生成段階と
学習データ生成方法。
（付記１３）
コンピュータに、
アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得処理と、
対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得処理と、
前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択処理と、
前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する学習データ生成処理と
を実行させるためのプログラムが格納された非一時的なコンピュータ可読媒体。

１，１ａログ生成システム
１０，１０ａログ生成装置
１１パラメータ取得部
１２，１２ａ模擬ログ生成部
１３実操作ルール記憶部
１４ログ情報通信部
１５模擬ログ記憶部
１６対応テーブル
２０モデル生成装置（モデル生成システム）
２１モード選択部
２２操作履歴取得部
２３学習データ記憶部
２４モデル生成部
２５モデルデータ記憶部
３０学習データ生成装置（学習データ生成システム）
３１モデルデータ取得部
３２既存タグ情報取得部
３３タグ付与規則記憶部
３４追加アプリ入力部
３５追加タグ情報取得部
３６選択部
３７学習データ生成部
４０端末装置
３００学習データ生成システム
３２０既存タグ情報取得部
３５０対象タグ情報取得部
３６０選択部
３７０学習データ生成部
１０００コンピュータ
１０１０プロセッサ
１０２０記憶部
１０３０ＲＯＭ
１０４０ＲＡＭ
１０５０通信インタフェース
１０６０ユーザインタフェース

Claims

アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得手段と、
対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得手段と、
前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択手段と、
前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する学習データ生成手段と
を備える学習データ生成システム。
既存タグ情報及び対象タグ情報は、それぞれ、対応するアプリケーションの特徴を類型化した、予め定められた１又は複数の個別タグを含み、
前記選択手段は、前記既存タグ情報の各々について、前記対象タグ情報との間の、個別タグで構成される集合の類似度を算出することにより前記対象タグ情報との間の類似度を算出する
請求項１に記載の学習データ生成システム。
前記選択手段は、指定された個別タグに所定の重みを付して、前記対象タグ情報と前記既存タグ情報の各々との間の、個別タグで構成される集合の類似度を算出する
請求項２に記載の学習データ生成システム。
前記選択手段は、前記対象タグ情報との間の類似度が所定値以上の既存タグ情報に対応する１又は複数の既存アプリケーションを、前記類似アプリケーションとして選択し、
前記学習データ生成手段は、複数の前記類似アプリケーションの各々について、類似度に応じた量の前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する
請求項１から３のいずれか一項に記載の学習データ生成システム。
前記選択手段は、前記対象タグ情報との間の類似度が所定値以上で、かつ前記対象タグ情報との間で所定の個別タグが一致する既存タグ情報に対応する既存アプリケーションを、前記類似アプリケーションとして選択する
請求項１から４のいずれか一項に記載の学習データ生成システム。
前記選択手段は、前記対象タグ情報との間の類似度が最も高い既存タグ情報に対応する既存アプリケーションを、前記類似アプリケーションとして選択する
請求項１から３のいずれか一項に記載の学習データ生成システム。
前記学習データ生成手段は、前記類似アプリケーションに対応する学習データに含まれる、前記類似アプリケーションの識別情報を、前記対象アプリケーションの識別情報に変換し、その結果、前記対象アプリケーションに対応する学習データを生成する
請求項１から６のいずれか一項に記載の学習データ生成システム。
前記ユーザ操作モデルは、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報の時系列データを学習データとして、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報を出力とする
請求項１から７のいずれか一項に記載の学習データ生成システム。
請求項１から８のいずれか一項に記載の学習データ生成システムを備え、
生成された前記学習データを用いて、前記ユーザ操作モデルを学習する
モデル生成システム。
請求項９に記載のモデル生成システムを備え、
生成された前記ユーザ操作モデルを用いてユーザ操作を推定し、前記ユーザ操作にかかる模擬ログを生成する
ログ生成システム。
前記ユーザ操作モデルを用いて推定されるユーザ操作を、該ユーザ操作に対応するアプリケーション識別情報に応じた操作コマンドに変換し、
前記操作コマンドを、該アプリケーションがインストールされた端末装置に送信し、
前記端末装置から前記操作コマンドに対応するログを、前記ユーザ操作にかかる模擬ログとして受信する
請求項１０に記載のログ生成システム。
コンピュータが、アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得段階と、
コンピュータが、対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得段階と、
コンピュータが、前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択段階と、
コンピュータが、前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する学習データ生成段階と、
を備える学習データ生成方法。
コンピュータに、
アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得処理と、
対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得処理と、
前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択処理と、
前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する学習データ生成処理と
を実行させるためのプログラム。