JP7513125B2 - 学習データ生成システム、方法、プログラム、モデル生成システム及びログ生成システム - Google Patents

学習データ生成システム、方法、プログラム、モデル生成システム及びログ生成システム Download PDF

Info

Publication number
JP7513125B2
JP7513125B2 JP2022577906A JP2022577906A JP7513125B2 JP 7513125 B2 JP7513125 B2 JP 7513125B2 JP 2022577906 A JP2022577906 A JP 2022577906A JP 2022577906 A JP2022577906 A JP 2022577906A JP 7513125 B2 JP7513125 B2 JP 7513125B2
Authority
JP
Japan
Prior art keywords
application
tag information
learning data
existing
user operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022577906A
Other languages
English (en)
Other versions
JPWO2022162820A1 (ja
JPWO2022162820A5 (ja
Inventor
太地 羽角
成佳 島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2022162820A1 publication Critical patent/JPWO2022162820A1/ja
Publication of JPWO2022162820A5 publication Critical patent/JPWO2022162820A5/ja
Application granted granted Critical
Publication of JP7513125B2 publication Critical patent/JP7513125B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Description

本開示は、学習データ生成システム、方法、プログラム、モデル生成システム及びログ生成システムに関する。
近年、組織を標的としたサイバー攻撃により、情報漏洩および事業停止などの被害が増加しており、サイバー攻撃に対する対策の強化が求められている。このようなサイバー攻撃に対する対策を強化するためには、システムのセキュリティ担当者の調査スキルの向上が不可欠となる。このため、サイバー攻撃の痕跡となるインシデントのログ(以下「攻撃ログ」と呼ぶ)を、インシデントには関係のない通常業務のログ(以下「正常ログ」と呼ぶ)の中から受講者に見つけ出させるサイバーセキュリティ演習が行われている。したがって、サイバーセキュリティ演習においては、攻撃ログに加えて、正常ログを予め用意しておく必要がある。
ここで、サイバーセキュリティ演習を行うためには、膨大な数の正常ログが必要となる。これは、調査スキルの向上を図るためには、受講者は、サイバーセキュリティ演習を複数回受講する必要があるが、同じ正常ログを使い回したのでは調査スキルは向上しないため、正常ログを演習の度に新たに用意する必要があるからである。したがって、正常ログを、人手で作成する、または予め想定された環境下で端末における通常操作のログを記録するのでは、多くの時間を要し、手間が膨大となる。
そこで、一定期間の実端末の操作履歴をモデル化し、モデルからユーザの操作を予測して、正常ログを生成することが提案されている。このようなモデルは、ユーザ操作モデルと呼ばれることがある。ここで、特許文献1では、旧システムにおける職種ごとの操作履歴に基づいて、新システムにおける操作パターンであるテストパターンを作成することが開示されている。
特開2016-110251号公報
しかし、上述の特許文献1には、テストパターンの作成の具体的な手法については、開示されていない。また、実端末上は、しばしば、アプリケーションがアップデートされ、又は新しいアプリケーションがインストールされる。したがって、実端末から操作履歴を取得し、アップデートやインストールの度にモデル化を行うのでは、実用上手間と時間がかかり効率的ではないという問題があった。
このように、既存のユーザ操作モデルから、新しいアプリケーションに対応するユーザ操作モデルを効率的に構築することが求められている。したがって、本開示の目的は、上述した課題に鑑み、新しいアプリケーションに対応するユーザ操作モデルを効率的に構築できる学習データ生成システム等を提供することにある。
本開示の一態様に係る学習データ生成システムは、既存タグ情報取得手段と、対象タグ情報取得手段と、選択手段と、学習データ生成手段とを備える。前記既存タグ情報取得手段は、アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定する。そして前記既存タグ情報取得部は、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する。前記対象タグ情報取得手段は、対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する。前記選択手段は、前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する。前記学習データ生成手段は、前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する。
本開示の一態様に係る学習データ生成方法は、既存タグ情報取得段階と、対象タグ情報取得段階と、選択段階と、学習データ生成段階とを備える。前記既存タグ情報取得段階は、アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定する段階である。また前記既存タグ情報取得段階は、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する段階である。前記対象タグ情報取得段階は、対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する段階である。前記選択段階は、前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する段階である。前記学習データ生成段階は、前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する段階である。
本開示の一態様に係るプログラムは、コンピュータに、既存タグ情報取得処理と、対象タグ情報取得処理と、選択処理と、学習データ生成処理とを実行させる。前記既存タグ情報取得処理は、アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定する処理である。また前記既存タグ情報取得処理は、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する処理である。前記対象タグ情報取得処理は、対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する処理である。前記選択処理は、前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する処理である。前記学習データ生成処理は、前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する処理である。
本開示により、新しいアプリケーションに対応するユーザ操作モデルを効率的に構築できる学習データ生成システム等を提供できる。
実施形態1にかかる学習データ生成システムの構成を示すブロック図である。 実施形態2にかかるログ生成システムの概略構成図である。 実施形態2にかかる学習データ生成装置の構成を示すブロック図である。 実施形態2にかかる学習データのデータ構造の一例を示すである。 実施形態2にかかるアプリケーションリストのデータ構造の一例を示す図である。 実施形態2にかかる実操作ルール記憶部のデータ構造の一例を示す図である。 実施形態2にかかるタグ付与規則記憶部のデータ構造の一例を示す図である。 実施形態2にかかる学習データ生成処理の手順を示すフローチャートである。 実施形態2にかかる類似度算出及び選択処理の一例を説明するための図である。 実施形態2にかかる類似度算出及び選択処理の他の例を説明するための図である。 実施形態2にかかる追加学習データ生成処理を説明するための図である。 実施形態2にかかるモデル生成処理の手順を示すフローチャートである。 実施形態2にかかるログ生成処理の手順を示すフローチャートである。 実施形態3にかかるログ生成システムの概略構成図である。 実施形態3にかかる対応テーブルのデータ構造の一例を示す図である。 学習データ生成装置、モデル生成装置、及びログ生成装置として用いられ得るコンピュータの構成例を示す図である。
以下、実施形態を通じて本開示を説明するが、請求の範囲にかかる開示を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
<実施形態1>
まず、本開示の実施形態1について説明する。図1は、実施形態1にかかる学習データ生成システム300の構成を示すブロック図である。学習データ生成システム300は、ユーザ操作モデルを学習するための学習データを生成するコンピュータシステムである。ユーザ操作モデルとは、アプリケーション上で特定の処理を実行するためのユーザの操作(ユーザ操作)を推定するモデルである。ここで、対応する学習データが既に生成されているアプリケーションを、既存アプリケーションと呼ぶものとする。「対応する学習データが既に生成されている」とは、対応する学習データがユーザ操作モデルの学習に必要な量だけ生成されていることを含む。また、対応する学習データが十分でないアプリケーションを、対象アプリケーションと呼ぶものとする。「対応する学習データが十分でない」とは、対応する学習データが全くないこと、及び対応する学習データがユーザ操作モデルの学習に必要な量に満たないことを含む。学習データ生成システム300は、対象アプリケーションに対応する学習データを、既に生成されているアプリケーションの学習データから生成することで、学習データを拡張する学習データ拡張システムとして機能する。
学習データ生成システム300は、既存タグ情報取得部320と、対象タグ情報取得部350と、選択部360と、学習データ生成部370とを備える。
既存タグ情報取得部320は、ユーザ操作の履歴を示すユーザ操作履歴に基づいて、学習データが既に生成されているアプリケーションを、既存アプリケーションとして特定する。既存タグ情報取得部320は、既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を、既存タグ情報として取得する。タグ情報は、そのアプリケーションの特徴を類型化した1又は複数の個別タグを示す情報である。複数のアプリケーションの各々について、1又は複数の個別タグが、管理者やそのアプリケーションのエンジニアによって予め定められている。
対象タグ情報取得部350は、対象アプリケーションについて、対象アプリケーションの特徴を示すタグ情報を、対象タグ情報として取得する。
選択部360は、対象タグ情報と既存タグ情報の各々との間の類似度を算出する。選択部360は、類似度に基づいて、既存アプリケーションから、対象アプリケーションに類似する類似アプリケーションを選択する。
学習データ生成部370は、類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する。
このように実施形態1によれば、学習データ生成システム300は、ユーザ操作モデルを学習するために必要な学習データが十分でない新しいアプリケーションについて、類似するアプリケーションの学習データを転用して、学習データを生成する。これは、特徴が類似するアプリケーションは、ユーザの操作傾向も近い可能性が高いからである。したがって、新しいアプリケーションに対してユーザが実端末を操作することを介して操作履歴を取得しなくても、学習データを容易に生成できる。したがって、新しいアプリケーションに対応するユーザ操作モデルを効率的に構築できる。
<実施形態2>
次に、本開示の実施形態2について説明する。学習データ生成システム300が適用されることができるログ生成システム1の一例を、図2に示す。図2は、実施形態2にかかるログ生成システム1の概略構成図である。ログ生成システム1は、サイバーセキュリティ演習で必要な、正常ログを模擬した模擬ログから構成される模擬ログデータを生成するコンピュータシステムである。ここで正常ログは、設定環境下で通常業務として行われる操作にかかるログを指す。ログとは、複数行のログテキストから構成される記録を指す。なお、以下では、対象アプリケーションを、追加アプリケーションと称する。
ログ生成システム1は、ログ生成装置10と、端末装置40とを備える。
(ログ生成装置10)
ログ生成装置10は、ユーザ操作モデルを生成するモデル生成装置20を有するコンピュータ装置である。ログ生成装置10は、モデル生成装置20によって生成されたユーザ操作モデルを用いてユーザ操作を推定し、ユーザ操作にかかる模擬ログから構成される模擬ログデータを生成する。ログ生成装置10は、モデル生成装置20に加え、パラメータ取得部11と、模擬ログ生成部12と、実操作ルール記憶部13と、模擬ログ記憶部15とを有する。
((モデル生成装置20))
モデル生成装置20は、学習データを生成する学習データ生成装置30を含み、生成された学習データを用いて、ユーザ操作モデルを学習するコンピュータ装置である。モデル生成装置20は、学習データ生成装置30に加え、モード選択部21と、操作履歴取得部22と、学習データ記憶部23と、モデル生成部24と、モデルデータ記憶部25とを含む。
モード選択部21は、通常モード及び拡張モードの中から制御モードを選択し、選択された制御モードに応じて、モデル生成装置20の各種構成要素を制御する。通常モードは、操作履歴を取得可能なアプリケーションを既存アプリケーションとして、操作履歴から学習データを生成し、生成した学習データを用いてユーザ操作モデルを学習する制御モードである。通常モードで生成され、使用される学習データは、既存学習データと呼ばれる。拡張モードは、追加アプリケーションに対応する学習データを生成し、生成した学習データを用いてユーザ操作モデルを追加学習する制御モードである。拡張モードで生成され、使用される学習データは、追加学習データと呼ばれる。
学習データ生成装置30は、実施形態1の学習データ生成システム300に対応し、拡張モードにおいて、追加アプリケーションに対応する追加学習データを生成するコンピュータ装置である。詳細は、後述する。
操作履歴取得部22は、通常モードにおいて、ネットワークを介してモデル生成装置20に接続された操作履歴収集コンピュータ(不図示)から、既存アプリケーションのユーザ操作履歴を取得する。なお、操作履歴収集コンピュータには、操作履歴収集ツールがインストールされている。操作履歴収集コンピュータは、操作履歴収集ツールを用いて、ユーザが操作したことに応じてコンピュータで生成されたユーザ操作履歴を収集し、収集した操作履歴をモデル生成装置20に出力する。操作履歴取得部22は、取得したユーザ操作履歴から学習データを生成し、又は操作履歴を学習データとして、学習データ記憶部23に格納する。
学習データ記憶部23は、学習データを記憶し、蓄積する。
モデル生成部24は、通常モードにおいては、既存学習データを用いて、ユーザ操作モデルを学習することで、学習済のユーザ操作モデルを生成する。またモデル生成部24は、拡張モードにおいては、追加学習データを用いて、ユーザ操作モデルを追加学習することで、ユーザ操作モデルを拡張する。
モデルデータ記憶部25は、既存学習データにより学習済のユーザ操作モデルの各種パラメータを含むモデルデータと、当該ユーザ操作モデルに対応するアプリケーションの識別情報をリスト化したアプリケーションリストとを記憶する。アプリケーションの識別情報は、アプリケーションIDと呼ばれ、アプリケーションの種別を示す。アプリケーションIDは、例えばアプリケーション名である。またモデルデータ記憶部25は、拡張モードにおいてユーザ操作モデルが拡張された場合は、拡張されたユーザ操作モデルのモデルデータと、追加アプリケーションが追加されたアプリケーションリストとを記憶する。
((ログ生成装置10のその他の構成要素))
パラメータ取得部11は、模擬ログ生成部12による処理で用いるシステムパラメータを取得する。システムパラメータとしては、コンピュータ名、ユーザ名、IPアドレス、ログの生成開始時刻、ログの生成終了時刻が挙げられる。また、システムパラメータは、例えば、ログ生成装置10の管理者によって作成され、その後、管理者の端末等を介して入力される。
模擬ログ生成部12は、生成されたユーザ操作モデルを用いてユーザ操作を推定する。そして模擬ログ生成部12は、推定されたユーザ操作とアプリケーションIDに基づいて、模擬ログデータを生成する。
本実施形態2では、模擬ログ生成部12は、ユーザ操作モデルから推定されるユーザ操作を、対応するアプリケーションがインストールされた端末装置40において、そのユーザ操作を実行させるための操作コマンドに変換する。つまり、操作コマンドは、アプリケーションIDに応じた、そのユーザ操作に対応する操作コマンドである。操作コマンドの変換には、操作コマンドのテンプレートである実操作テンプレートが用いられる。そして模擬ログ生成部12は、ログ情報通信部14を介して、操作コマンドを、そのアプリケーションがインストールされた端末装置40に送信する。続いて模擬ログ生成部12は、ログ情報通信部14を介して、端末装置40から操作コマンドを実行した場合に生成されるログから構成されるログデータを、ユーザ操作にかかる模擬ログから構成される模擬ログデータとして受信する。模擬ログ生成部12は、受信した模擬ログデータを、模擬ログ記憶部15に記憶する。
なおログ情報通信部14は、模擬ログ生成部12に含まれ、端末装置40との間でデータ通信を行う。
このように、模擬ログ生成部12は、模擬ログデータを端末装置40から回収するため、端末装置40にユーザ操作モデルに係るアプリケーションをインストールしていれば、容易に、実際の正常ログに類似した模擬ログデータを生成できる。
実操作ルール記憶部13は、アプリケーションごとの、ユーザ操作に対応する実操作テンプレートを記憶する。
模擬ログ記憶部15は、取得した模擬ログデータを記憶し、蓄積する。
(端末装置40)
端末装置40は、ログ生成装置10のログ情報通信部14との間でデータ通信を行うコンピュータ端末装置である。端末装置40は、ログ情報通信部14から受信した操作コマンドを実行し、実行に際して生成されたログを収集し、収集したログをログデータとしてログ生成装置10のログ情報通信部14に送信する。
図3は、実施形態2にかかる学習データ生成装置30の構成を示すブロック図である。学習データ生成装置30は、モデルデータ取得部31と、既存タグ情報取得部32と、タグ付与規則記憶部33と、追加アプリ入力部34と、追加タグ情報取得部35と、選択部36と、学習データ生成部37とを含む。
モデルデータ取得部31は、学習データ記憶部23から既存学習データを取得し、モデルデータ記憶部25からアプリケーションリストを取得する。モデルデータ取得部31は、アプリケーションリストを既存タグ情報取得部32に供給し、既存学習データを学習データ生成部37に供給する。
既存タグ情報取得部32は、実施形態1の既存タグ情報取得部320に対応する。既存タグ情報取得部32は、アプリケーションリストによって既存アプリケーションのアプリケーションIDを特定する。そして既存タグ情報取得部32は、既存アプリケーションの各々のアプリケーションIDに応じた既存タグ情報を、タグ付与規則記憶部33から取得する。つまり、既存タグ情報取得部32は、タグ付与規則記憶部33を参照し、既存アプリケーションの各々についてタグ情報を付与する。そして既存タグ情報取得部32は、取得した既存タグ情報を、選択部36に供給する。
タグ付与規則記憶部33は、アプリケーションごとに、予め定められたタグ情報を記憶する。
追加アプリ入力部34は、ログ生成システム1の管理者から、追加アプリケーションのアプリケーションIDの入力を受け付ける。追加アプリ入力部34は、追加アプリケーションのアプリケーションIDを、追加タグ情報取得部35に供給する。
追加タグ情報取得部35は、実施形態1にかかる対象タグ情報取得部350に対応する。追加タグ情報取得部35は、追加アプリケーションのアプリケーションIDに応じたタグ情報を、追加タグ情報として、タグ付与規則記憶部33から取得する。つまり、追加タグ情報取得部35は、タグ付与規則記憶部33を参照し、追加アプリケーションについてタグ情報を付与する。追加タグ情報取得部35は、取得した追加タグ情報を、選択部36に供給する。
選択部36は、実施形態1にかかる選択部360に対応する。選択部36は、追加タグ情報と既存タグ情報の各々との間の類似度を算出する。追加タグ情報と既存タグ情報の各々との間の類似度は、追加アプリケーションと各既存アプリケーションとの間の類似度に相当する。そして選択部36は、追加アプリケーションとの間の類似度が高い既存アプリケーションを、類似アプリケーションとして選択する。選択部36は、類似アプリケーションのアプリケーションIDを、学習データ生成部37に供給する。
学習データ生成部37は、実施形態1にかかる学習データ生成部370に対応する。学習データ生成部37は、モデルデータ取得部31から取得した、既存学習データのうち、類似アプリケーションに対応する学習データを、学習元データとして抽出する。そして学習データ生成部37は、学習元データから追加学習データを生成する。具体的には、学習データ生成部37は、学習元データのうち、類似アプリケーションのアプリケーションIDを、追加アプリケーションIDに変換し、その結果、追加学習データを生成する。学習データ生成部37は、生成した追加学習データを、学習データ記憶部23に格納する。
本実施形態2では、ユーザ操作モデルは、RNN(Recurrent Neural Network)である。しかしこれに限らず、ユーザ操作モデルは、マルコフモデルであってもよい。そしてユーザ操作モデルは、アプリケーション種別及びユーザ操作の種別の組み合わせを示す情報を入力とし、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報、又は各組み合わせの確率を出力とする。このようなユーザ操作モデルによって、アプリケーションごとのユーザ操作の傾向に加えて、異なるアプリケーション間の関係性を考慮したユーザ操作の推定が可能となる。
図4は、実施形態2にかかる学習データのデータ構造の一例を示す図である。本図に示す学習データは、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報の時系列データであり、操作系列データとも呼ばれる。具体的には、学習データは、時刻と、アプリケーションIDと、ユーザ操作分類と、ユーザ操作のターゲットとが関連付けられている。ここで、ユーザ操作分類と、ユーザ操作のターゲットとの組み合わせから、ユーザ操作の種別が決定される。例えば、ユーザは、時刻「2020/01/10 12:34:01」において、アプリケーション「APP6」上で、ファイル「C:\Users\UN\Documents\example.docx」に対して「Edit File」(編集)という操作を行っている。そしてその後、時刻「2020/01/10 12:34:05」において、ユーザは、アプリケーション「APP2」上で、ファイル「https://hoge.com」を「Open」(開く)という操作を行っている。
図5は、実施形態2にかかるアプリケーションリストのデータ構造の一例を示す図である。アプリケーションリストには、ユーザ操作モデルがそのユーザ操作を推定可能なアプリケーションのアプリケーションID、すなわち既存アプリケーションのアプリケーションIDをリスト化したものである。本図では、アプリケーションリストには、APP1~APP8までの8つのアプリケーションのアプリケーションIDが記述されている。しかしアプリケーションの個数は、これに限らない。なおアプリケーションリストは、既存学習データからアプリケーションIDを抽出し、抽出したアプリケーションIDをリスト化することで生成されてよい。
図6は、実施形態2にかかる実操作ルール記憶部13のデータ構造の一例を示す図である。実操作ルール記憶部13は、アプリケーションIDと、ユーザ操作の種別を示すユーザ操作IDと、実操作テンプレートとを対応付けて記憶している。
模擬ログ生成部12は、アプリケーションIDとユーザ操作IDとの組み合わせから、実操作テンプレートを選択する。そして模擬ログ生成部12は、選択された実操作テンプレートに、パラメータ取得部11において取得したパラメータを組み込んで、操作コマンドを生成する。
図7は、実施形態2にかかるタグ付与規則記憶部33のデータ構造の一例を示す図である。タグ付与規則記憶部33は、アプリケーションIDと、そのアプリケーションに対して予め定められたタグ情報とを対応付けて記憶している。タグ情報には、管理者やそのアプリケーションのエンジニアによって予め定められた任意の数の個別タグが含まれる。
各個別タグは、そのアプリケーションの利用目的、利用頻度、利用手段又はその他の特徴を示す。利用目的としては、例えばテキストデータの編集に用いられるのか、ウェブサーバへのアクセスに用いられるのか等の情報が挙げられる。利用頻度としては、日常的に用いられるのか、時々用いられるのか等の情報が挙げられる。利用手段としては、例えば利用時のファイル形式や使用言語等が挙げられる。またその他の特徴としては、そのアプリケーションが含まれるパッケージ名や、プリインストールされているか否かの情報等が挙げられる。
例えばアプリケーション「APP2」は、個別タグとして、利用目的を示す「Web Browser」と、利用頻度を示す「Daily Used」と、その他の特徴として「Preinstalled」とが定められている。
次に、モデル生成装置20による学習データ生成処理について説明する。図8は、実施形態2にかかる学習データ生成処理の手順を示すフローチャートである。
まずステップS10において、モデル生成装置20のモード選択部21は、現在のモードが通常モードであるか否かを判定する。モード選択部21は、通常モードであると判定した場合(ステップS10でYes)、処理をステップS11に進める。ステップS11において、操作履歴取得部22は、通常の学習データの生成及び格納処理を実行する。具体的には、操作履歴取得部22は、ネットワークを介して既存アプリケーションのユーザ操作履歴を取得し、取得したユーザ操作履歴から既存学習データを生成する。そして操作履歴取得部22は、既存学習データを学習データ記憶部23に格納する。なお本例では、操作履歴取得部22は、ユーザ操作履歴をそのまま既存学習データとして学習データ記憶部23に格納する。そしてモデル生成装置20は、処理を終了する。
一方、モード選択部21は、通常モードでなく、拡張モードであると判定した場合(ステップS10でNo)、処理をステップS12に進める。ステップS12において、学習データ生成装置30のモデルデータ取得部31は、学習データ記憶部23から既存学習データを取得し、モデルデータ記憶部25からアプリケーションリストを取得する。続いてステップS13において、既存タグ情報取得部32は、アプリケーションリストから既存アプリケーションのアプリケーションIDを特定する。続いて既存タグ情報取得部32は、既存アプリケーションの各々について、ステップS14に示す処理を繰り返す。
ステップS14において、既存タグ情報取得部32は、タグ付与規則記憶部33から既存アプリケーションのアプリケーションIDに対応する、既存タグ情報を取得する。
続いてステップS15において、追加アプリ入力部34は、追加アプリケーションのアプリケーションIDの入力を受け付け、取得する。ステップS16において、追加タグ情報取得部35は、タグ付与規則記憶部33から、追加アプリケーションのアプリケーションIDに対応する、追加タグ情報を取得する。
ステップS17において、選択部36は、追加タグ情報と既存タグ情報との間の類似度を算出する。具体的には、選択部36は、追加タグ情報と既存タグ情報の各々との間で、各タグ情報に含まれる個別タグで構成される集合を比較し、集合間の類似度を算出することで、追加タグ情報と既存タグ情報の各々との間の類似度を算出する。一例として、個別タグの集合の類似度は、Dice係数を用いて、以下のように算出される。
Figure 0007513125000001
ここで、Xは、追加アプリケーションの追加タグ情報に含まれる個別タグの集合であり、Yは、比較対象の既存アプリケーションの既存タグ情報に含まれる個別タグの集合である。なお、個別タグの集合の類似度の算出には、Dice係数に限らず、Jaccard係数又はSimpson係数を用いてもよく、コサイン類似度を用いてもよい。
また、優先度の高い個別タグが、個別タグの集合の類似度へ大きな寄与をもたらすようにしてもよい。例えば選択部36は、個別タグごとに、又は指定された個別タグ情報に所定の重みを付して、個別タグの集合の類似度を算出してよい。また選択部36は、個別タグの集合を、優先度に応じた任意の数の集合に分割し、分割集合ごとの類似度を算出し、分割集合の類似度に所定の重みを付して、例えば加重平均により、個別タグの集合の類似度を算出してよい。
続いてステップS18において、選択部36は、追加タグ情報との間の類似度が高い既存タグ情報に対応する既存アプリケーションを、類似アプリケーションとして選択する。これにより、追加アプリケーションの特徴をユーザ操作モデルに効率よく反映させることができる。
ここで図9は、実施形態2にかかる類似度算出及び選択処理の一例を説明するための図である。本図は、追加アプリケーションをAPP5とした場合の、追加アプリケーションと各既存アプリケーションとの間のタグ情報の類似度を示している。
図7に示す通り、APP5のタグ情報は、「Text Editor」、「Sometimes Used」、及び「Open Text File」の3つの個別タグを含んでいる。そしてAPP4のタグ情報は、「Text Editor」、「Frequently Used」、「Open Text File」、及び「Preinstalled」の4つの個別タグを含んでいる。つまりAPP5のタグ情報とAPP4のタグ情報とでは、2つの個別タグが共通している。したがって、図9に示すように、APP5とAPP4との間の個別タグの集合のDice係数、つまりAPP5とAPP4との間のタグ情報の類似度は、0.86と算出される。
一方、APP5のタグ情報とAPP2のタグ情報とでは、共通する個別タグがない。したがって、APP5とAPP2との間の個別タグの集合のDice係数、つまりAPP5とAPP2との間のタグ情報の類似度は、0.00と算出される。
そして選択部36は、追加タグ情報との間の類似度が最も高い既存タグ情報に対応する既存アプリケーションを、類似アプリケーションとして選択する。本例では、類似アプリケーションは、タグ情報の類似度が0.86のAPP4である。
図10は、実施形態2にかかる類似度算出及び選択処理の他の例を説明するための図である。本図は、追加アプリケーションをAPP3とした場合の、追加アプリケーションと各既存アプリケーションとの間のタグ情報の類似度を示している。本例においても、図9と同様に類似度が算出される。ここで本例では、選択部36は、追加タグ情報との間の類似度が所定閾値以上の既存タグ情報に対応する既存アプリケーションを、類似アプリケーションとして選択する。例えば閾値を0.40とした場合、類似度が0.40のAPP1及び類似度が0.80のAPP2の、2つのアプリケーションが類似アプリケーションとして選択される。なお選択部36は、これに限らず、追加タグ情報との間の類似度が上位所定個の既存タグ情報に対応する既存アプリケーションを、類似アプリケーションとして選択してもよい。
本例では、複数個の類似アプリケーションが選択される。ただし選択部36は、優先度の高い個別タグ等、所定の個別タグが一致しない既存アプリケーションは、類似アプリケーションから除外してもよい。この場合、所定の個別タグが、足切り対象の個別タグとなる。つまり、選択部36は、追加タグ情報との間の類似度が高く、かつ追加タグ情報との間で所定の個別タグが一致する既存タグ情報に対応する既存アプリケーションのみを、類似アプリケーションとして選択してよい。例えば、選択部36は、APP5のタグ情報のうち、利用目的を示す「Text Editor」の個別タグを、足切り対象の個別タグとして設定する。この場合、「Text Editor」を個別タグの集合に含まないAPP2は、類似アプリケーションから除外される。これにより、追加アプリケーションの特徴を精度よくユーザ操作モデルに反映させることができる。
図8のステップS19において、学習データ生成部37は、既存学習データから、類似アプリケーションに対応する学習データを学習元データとして抽出し、学習元データから追加アプリケーションの学習データを含む追加学習データを生成する。そして学習データ生成部37は、追加学習データを学習データ記憶部23に格納し、処理を終了する。
図11は、実施形態2にかかる追加学習データ生成処理を説明するための図である。本図では、類似アプリケーションを、APP2とし、追加アプリケーションをAPP3とする。
まず、学習データ生成部37は、既存学習データのうち、類似アプリケーションの操作を含む一連の操作の内容を示す操作系列データを抽出し、コピーする。ここで、コピー元の操作系列データを操作系列データAと呼び、コピー先の操作系列データを操作系列データBと呼ぶ。図11に示すように、操作系列データAは、類似アプリケーションの操作の他、その操作の前後で行われる類似アプリケーション以外の操作の内容を含んでいる。
学習データ生成部37は、操作系列データBから、類似アプリケーションのアプリケーションID「APP2」を検索し、類似アプリケーションのアプリケーションID「APP2」を追加アプリケーションのアプリケーションID「APP3」に置き換える。学習データ生成部37は、アプリケーションIDを置き換えた操作系列データBを、既存学習データにより学習済のユーザ操作モデルを追加学習するための追加学習データとして、学習データ記憶部23に格納する。
なお、ステップS18において、選択部36が類似アプリケーションを複数個選択した場合、学習データ生成部37は、複数の類似アプリケーションの各々について、ステップS19に示す処理を実行してよい。これにより、複数の類似アプリケーションの特徴をユーザ操作モデルに反映させて、ユーザ操作モデルの推定精度を向上できる。またこの場合、学習データ生成部37は、複数の類似アプリケーションの各々について、学習元データのうち、類似度に応じた量の類似アプリケーションに対応する学習データから、追加学習データを生成してもよい。例えば、図10に示す例において、類似度が0.40のAPP1及び類似度が0.80のAPP2の、2つのアプリケーションが類似アプリケーションとして選択された場合、追加学習データの生成処理は以下の通りとなる。まず学習データ生成部37は、既存学習データのうち、APP1の操作を含むN1個の操作系列データと、APP2の操作を含むN2個の操作系列データを抽出する。このとき、N1:N2=0.40:0.80=1:2となるように、学習データ生成部37は、抽出するデータ数を調整する。そして学習データ生成部37は、APP1及びAPP2の各々について、抽出した操作系列データを用いて、ステップS19に示す処理を実行し、生成された学習データをまとめて追加学習データとする。これにより、複数の類似アプリケーションの特徴を類似度に応じて強弱をつけながらユーザ操作モデルに反映させ、ユーザ操作モデルの推定精度をより向上できる。
図12は、実施形態2にかかるモデル生成処理の手順を示すフローチャートである。
まず、モデル生成装置20のモード選択部21は、制御モードが通常モードであるか否かを判定する(ステップS20)。制御モードが通常モードである場合(ステップS20でYes)、モデル生成部24は、既存学習データを学習データ記憶部23から取得する(ステップS21)。続いてモデル生成部24は、モデルデータ記憶部25からユーザ操作モデルのモデルデータを取得し、既存学習データを用いてユーザ操作モデルを学習する(ステップS22)。これにより、学習済のユーザ操作モデルが生成される。学習が完了すると、モデル生成部24は、学習済のユーザ操作モデルのモデルデータを、モデルデータ記憶部25に格納する(ステップS23)。このときモデル生成部24は、アプリケーションリストを生成し、モデルデータとともにモデルデータ記憶部25に格納してよい。
一方、制御モードが通常モードでない、つまり拡張モードである場合(ステップS20でNo)、モデル生成部24は、追加学習データを学習データ記憶部23から取得する(ステップS24)。続いて、モデル生成部24は、モデルデータ記憶部25から既存学習データにより学習済のユーザ操作モデルのモデルデータを取得し、追加学習データを用いてユーザ操作モデルに対して追加学習を実施する(ステップS25)。これにより、ユーザ操作モデルが更新される。追加学習が完了すると、モデル生成部24は、追加学習済のユーザ操作モデルのモデルデータを、モデルデータ記憶部25に格納する(ステップS26)。このときモデル生成部24は、モデルデータを上書きしてよい。またモデル生成部24は、アプリケーションリストを更新し、モデルデータ記憶部25に格納してよい。
なお、上述の説明では、モデル生成部24は、拡張モードにおいて、既存学習データにより学習済のユーザ操作モデルを、追加学習データを用いて追加学習するとした。しかしこれに限らず、モデル生成部24は、追加学習データを既存学習データにマージ(統合)させ、マージさせた既存学習データを用いて、ユーザ操作モデルを再学習してもよい。なお、追加学習は、再学習と比較して学習時間を短縮できるという点で、より好ましい。
図13は、実施形態2にかかるログ生成処理の手順を示すフローチャートである。
まずログ生成装置10の模擬ログ生成部12は、モデルデータ記憶部25から学習済又は追加学習済のユーザ操作モデルのモデルデータを取得する(ステップS30)。続いて、模擬ログ生成部12は、パラメータ取得部11を介して、システムパラメータを取得する(ステップS31)。模擬ログ生成部12は、ユーザ操作モデルを用いて、次の時点での、アプリケーションID並びにユーザ操作IDの組み合わせを推定する(ステップS32)。続いて模擬ログ生成部12は、実操作ルール記憶部13から、推定したアプリケーションID及びユーザ操作IDに対応する実操作テンプレートを取得し、実操作テンプレートにシステムパラメータを適用させて、操作コマンドを生成する(ステップS33)。続いて模擬ログ生成部12は、生成した操作コマンドを、ログ情報通信部14を介して、端末装置40に送信する(ステップS34)。模擬ログ生成部12は、ログ情報通信部14を介して、端末装置40から操作コマンド実行時に生成される模擬ログデータを、模擬ログ記憶部15に格納する(ステップS35)。
このように実施形態2によれば、学習データ生成装置30は、追加アプリケーションに近いタグ情報が設定されている類似アプリケーションのユーザ操作傾向を、追加アプリケーションに転用する。これは、利用目的、利用頻度及び利用手段等が近いアプリケーションは、ユーザの操作傾向も近い可能性が高いからである。これにより、学習データ生成装置30は、実施形態1の学習データ生成システム300と同様の効果を奏する。
なお本実施形態2では、ユーザ操作モデルは、アプリケーション間の関係性も考慮したモデルである。したがって、ユーザ操作モデルの拡張により、追加アプリケーションと他のアプリケーション間の関係性を考慮したモデルを容易に生成できる。
ユーザ操作モデルの拡張は、学習データを転用するという本実施形態2の方式に代えて、モデルデータのうち、類似アプリケーションに関するデータを追加アプリケーション用のデータとして複製する方式も考えられる。しかし、ユーザ操作モデルが、ニューラルネットワークのように各アプリケーションの確率値が明示的かつ離散的に表現されていないモデルである場合は、上記方式をとることは難しく、このような場合には特に、本実施形態2の方式は有効である。
なお本実施形態2では、学習データは、アプリケーションの種別及びユーザ操作の種別を示す情報の時系列データ(操作系列データ)であった。しかしこれに代えて、学習データは、ログデータに含まれるログテキストから変換された観測シンボルの時系列データであってもよい。観測シンボルは、アプリケーション及び個別観測シンボルの組み合わせを識別する情報である。この場合、ユーザ操作モデルは、次に遷移するユーザ操作を推定し、そのユーザ操作の結果として出現する観測シンボルを推定する隠れマルコフモデルであってよい。またユーザ操作モデルは、観測シンボルの出現確率に沿って次に出現する観測シンボルを選択する統計モデルであってもよい。なお観測シンボルの出現確率は、観測シンボルの出現時刻及び個数から算出されてよい。
ログデータに含まれるログテキストから変換された観測シンボルの時系列データを生成するために、例えばログ生成装置10は、以下の処理を実行する。
まず操作履歴取得部22は、ネットワークを介してログ生成装置10に接続されたログ収集コンピュータ(不図示)から、ログ群で構成されたログデータをユーザ操作履歴として取得する。なお、ログ収集コンピュータには、ログ収集ツールがインストールされている。ログ収集コンピュータは、ログ収集ツールを用いて、コンピュータで生成されたログデータを収集し、収集したログデータをログ生成装置10に出力する。
次に操作履歴取得部22は、収集したログデータから、ログデータのログに記述されているログタイプを抽出し、ログタイプに対応するアプリケーションIDを特定する。アプリケーションIDの特定には、ログタイプとアプリケーションIDとを対応付ける所定のテーブルを用いてよい。
また操作履歴取得部22は、収集したログデータから、ログデータのログに記述されている所定のキーを抽出し、所定のキーに対応する個別観測シンボルを特定する。個別観測シンボルは、イベント又はイベントグループと呼ばれる場合もある。個別観測シンボルの特定には、キーの種別と、個別観測シンボルとを対応付ける所定のテーブルを用いてよい。なおログ生成装置10は、予め各種個別観測シンボルに対応付けられたログテンプレートを保持しており、収集したログデータとの距離が近いログテンプレートを特定することで、個別観測シンボルを特定してもよい。
そして操作履歴取得部22は、収集したログデータから、タイムスタンプを読み取り、観測シンボルを時系列に並べて観測シンボルの時系列データを生成する。
このようにして、操作履歴取得部22は、ログデータから観測シンボルの時系列データを生成できる。なお、その他の処理については、操作系列データを用いる場合と基本的に同様であるため、ユーザ操作の種別を個別観測シンボルに、アプリケーションID及びユーザ操作IDの組み合わせを観測シンボルに読み替えて、説明を省略する。
<実施形態3>
次に、本開示の実施形態3について説明する。実施形態3では、ログ生成装置は、操作コマンドを介して模擬ログデータを端末装置から回収することに代えて、ログテンプレートからログデータを生成する。
図14は、実施形態3にかかるログ生成システム1aの概略構成図である。ログ生成システム1aは、基本的にログ生成システム1と同様の機能を有するが、ログ生成装置10に代えて、ログ生成装置10aを備え、端末装置40が省略される。
ログ生成装置10aは、基本的にログ生成装置10と同様の機能を有するが、模擬ログ生成部12に代えて、模擬ログ生成部12a及び対応テーブル16を有する。模擬ログ生成部12aは、ログ情報通信部14を含まない点で模擬ログ生成部12と相違する。
模擬ログ生成部12aは、ユーザ操作モデルからユーザ操作を推定する。そして模擬ログ生成部12aは、対応テーブル16を用いて、アプリケーションID及びユーザ操作IDの組み合わせに基づいてログテンプレートを特定する。模擬ログ生成部12aは、ログテンプレートにシステムパラメータを適用させて模擬ログデータを生成する。
図15は、実施形態3にかかる対応テーブルのデータ構造の一例を示す図である。対応テーブル16は、アプリケーションID及びユーザ操作IDと、ログテンプレートとを対応付けている。
このように、模擬ログ生成部12aは、対応テーブル16を用いることにより、端末装置との間で操作コマンド及び模擬ログデータの送受信を介しなくても、容易に模擬ログデータを生成できる。
続いて、学習データ生成装置、モデル生成装置、及びログ生成装置の物理構成を説明する。図16は、学習データ生成装置、モデル生成装置、及びログ生成装置として用いられ得るコンピュータの構成例を示す図である。コンピュータ1000は、プロセッサ1010、記憶部1020、ROM(Read Only Memory)1030、RAM(Random Access Memory)1040、通信インタフェース(IF:Interface)1050、及びユーザインタフェース1060を有する。
通信インタフェース1050は、有線通信手段又は無線通信手段などを介して、コンピュータ1000と通信ネットワークとを接続するためのインタフェースである。ユーザインタフェース1060は、例えばディスプレイなどの表示部を含む。また、ユーザインタフェース1060は、キーボード、マウス、及びタッチパネルなどの入力部を含む。
記憶部1020は、各種のデータを保持できる補助記憶装置である。記憶部1020は、必ずしもコンピュータ1000の一部である必要はなく、外部記憶装置であってもよいし、ネットワークを介してコンピュータ1000に接続されたクラウドストレージであってもよい。
ROM1030は、不揮発性の記憶装置である。ROM1030には、例えば比較的容量が少ないフラッシュメモリなどの半導体記憶装置が用いられる。プロセッサ1010が実行するプログラムは、記憶部1020又はROM1030に格納され得る。記憶部1020又はROM1030は、例えば学習データ生成装置、モデル生成装置、及びログ生成装置内の各部の機能を実現するための各種プログラムを記憶する。
上記プログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータ1000に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体を含む。非一時的なコンピュータ可読媒体の例は、例えばフレキシブルディスク、磁気テープ、又はハードディスクなどの磁気記録媒体、例えば光磁気ディスクなどの光磁気記録媒体、CD(compact disc)、又はDVD(digital versatile disk)などの光ディスク媒体、及び、マスクROM、PROM(programmable ROM)、EPROM(erasable PROM)、フラッシュROM、又はRAMなどの半導体メモリを含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体を用いてコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバなどの有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
RAM1040は、揮発性の記憶装置である。RAM1040には、DRAM(Dynamic Random Access Memory)又はSRAM(Static Random Access Memory)などの各種半導体メモリデバイスが用いられる。RAM1040は、データなどを一時的に格納する内部バッファとして用いられ得る。プロセッサ1010は、記憶部1020又はROM1030に格納されたプログラムをRAM1040に展開し、実行する。プロセッサ1010は、CPU(Central Processing Unit)又はGPU(Graphics Processing Unit)であってよい。プロセッサ1010がプログラムを実行することで、学習データ生成装置、モデル生成装置、及びログ生成装置内の各部の機能が実現され得る。プロセッサ1010は、データなどを一時的に格納できる内部バッファを有してもよい。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
また上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得手段と、
対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得手段と、
前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択手段と、
前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する学習データ生成手段と
を備える学習データ生成システム。
(付記2)
既存タグ情報及び対象タグ情報は、それぞれ、対応するアプリケーションの特徴を類型化した、予め定められた1又は複数の個別タグを含み、
前記選択手段は、前記既存タグ情報の各々について、前記対象タグ情報との間の、個別タグで構成される集合の類似度を算出することにより前記対象タグ情報との間の類似度を算出する
付記1に記載の学習データ生成システム。
(付記3)
前記選択手段は、指定された個別タグに所定の重みを付して、前記対象タグ情報と前記既存タグ情報の各々との間の、個別タグで構成される集合の類似度を算出する
付記2に記載の学習データ生成システム。
(付記4)
前記選択手段は、前記対象タグ情報との間の類似度が所定値以上の既存タグ情報に対応する1又は複数の既存アプリケーションを、前記類似アプリケーションとして選択し、
前記学習データ生成手段は、複数の前記類似アプリケーションの各々について、類似度に応じた量の前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する
付記1から3のいずれか一項に記載の学習データ生成システム。
(付記5)
前記選択手段は、前記対象タグ情報との間の類似度が所定値以上で、かつ前記対象タグ情報との間で所定の個別タグが一致する既存タグ情報に対応する既存アプリケーションを、前記類似アプリケーションとして選択する
付記1から4のいずれか一項に記載の学習データ生成システム。
(付記6)
前記選択手段は、前記対象タグ情報との間の類似度が最も高い既存タグ情報に対応する既存アプリケーションを、前記類似アプリケーションとして選択する
付記1から3のいずれか一項に記載の学習データ生成システム。
(付記7)
前記学習データ生成手段は、前記類似アプリケーションに対応する学習データに含まれる、前記類似アプリケーションの識別情報を、前記対象アプリケーションの識別情報に変換し、その結果、前記対象アプリケーションに対応する学習データを生成する
付記1から6のいずれか一項に記載の学習データ生成システム。
(付記8)
前記ユーザ操作モデルは、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報の時系列データを学習データとして、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報を出力とする
付記1から7のいずれか一項に記載の学習データ生成システム。
(付記9)
付記1~8のいずれか一項に記載の学習データ生成システムを備え、
生成された前記学習データを用いて、前記ユーザ操作モデルを学習する
モデル生成システム。
(付記10)
付記9に記載のモデル生成システムを備え、
生成された前記ユーザ操作モデルを用いてユーザ操作を推定し、前記ユーザ操作にかかる模擬ログを生成する
ログ生成システム。
(付記11)
前記ユーザ操作モデルを用いて推定されるユーザ操作を、該ユーザ操作に対応するアプリケーション識別情報に応じた操作コマンドに変換し、
前記操作コマンドを、該アプリケーションがインストールされた端末装置に送信し、
前記端末装置から前記操作コマンドに対応するログを、前記ユーザ操作にかかる模擬ログとして受信する
付記10に記載のログ生成システム。
(付記12)
アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得段階と、
対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得段階と、
前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択段階と、
前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する学習データ生成段階と
学習データ生成方法。
(付記13)
コンピュータに、
アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得処理と、
対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得処理と、
前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択処理と、
前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する学習データ生成処理と
を実行させるためのプログラムが格納された非一時的なコンピュータ可読媒体。
1,1a ログ生成システム
10,10a ログ生成装置
11 パラメータ取得部
12,12a 模擬ログ生成部
13 実操作ルール記憶部
14 ログ情報通信部
15 模擬ログ記憶部
16 対応テーブル
20 モデル生成装置(モデル生成システム)
21 モード選択部
22 操作履歴取得部
23 学習データ記憶部
24 モデル生成部
25 モデルデータ記憶部
30 学習データ生成装置(学習データ生成システム)
31 モデルデータ取得部
32 既存タグ情報取得部
33 タグ付与規則記憶部
34 追加アプリ入力部
35 追加タグ情報取得部
36 選択部
37 学習データ生成部
40 端末装置
300 学習データ生成システム
320 既存タグ情報取得部
350 対象タグ情報取得部
360 選択部
370 学習データ生成部
1000 コンピュータ
1010 プロセッサ
1020 記憶部
1030 ROM
1040 RAM
1050 通信インタフェース
1060 ユーザインタフェース

Claims (13)

  1. アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得手段と、
    対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得手段と、
    前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択手段と、
    前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する学習データ生成手段と
    を備える学習データ生成システム。
  2. 既存タグ情報及び対象タグ情報は、それぞれ、対応するアプリケーションの特徴を類型化した、予め定められた1又は複数の個別タグを含み、
    前記選択手段は、前記既存タグ情報の各々について、前記対象タグ情報との間の、個別タグで構成される集合の類似度を算出することにより前記対象タグ情報との間の類似度を算出する
    請求項1に記載の学習データ生成システム。
  3. 前記選択手段は、指定された個別タグに所定の重みを付して、前記対象タグ情報と前記既存タグ情報の各々との間の、個別タグで構成される集合の類似度を算出する
    請求項2に記載の学習データ生成システム。
  4. 前記選択手段は、前記対象タグ情報との間の類似度が所定値以上の既存タグ情報に対応する1又は複数の既存アプリケーションを、前記類似アプリケーションとして選択し、
    前記学習データ生成手段は、複数の前記類似アプリケーションの各々について、類似度に応じた量の前記類似アプリケーションに対応する学習データから、前記対象アプリケーションに対応する学習データを生成する
    請求項1から3のいずれか一項に記載の学習データ生成システム。
  5. 前記選択手段は、前記対象タグ情報との間の類似度が所定値以上で、かつ前記対象タグ情報との間で所定の個別タグが一致する既存タグ情報に対応する既存アプリケーションを、前記類似アプリケーションとして選択する
    請求項1から4のいずれか一項に記載の学習データ生成システム。
  6. 前記選択手段は、前記対象タグ情報との間の類似度が最も高い既存タグ情報に対応する既存アプリケーションを、前記類似アプリケーションとして選択する
    請求項1から3のいずれか一項に記載の学習データ生成システム。
  7. 前記学習データ生成手段は、前記類似アプリケーションに対応する学習データに含まれる、前記類似アプリケーションの識別情報を、前記対象アプリケーションの識別情報に変換し、その結果、前記対象アプリケーションに対応する学習データを生成する
    請求項1から6のいずれか一項に記載の学習データ生成システム。
  8. 前記ユーザ操作モデルは、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報の時系列データを学習データとして、アプリケーションの種別及びユーザ操作の種別の組み合わせを示す情報を出力とする
    請求項1から7のいずれか一項に記載の学習データ生成システム。
  9. 請求項1から8のいずれか一項に記載の学習データ生成システムを備え、
    生成された前記学習データを用いて、前記ユーザ操作モデルを学習する
    モデル生成システム。
  10. 請求項9に記載のモデル生成システムを備え、
    生成された前記ユーザ操作モデルを用いてユーザ操作を推定し、前記ユーザ操作にかかる模擬ログを生成する
    ログ生成システム。
  11. 前記ユーザ操作モデルを用いて推定されるユーザ操作を、該ユーザ操作に対応するアプリケーション識別情報に応じた操作コマンドに変換し、
    前記操作コマンドを、該アプリケーションがインストールされた端末装置に送信し、
    前記端末装置から前記操作コマンドに対応するログを、前記ユーザ操作にかかる模擬ログとして受信する
    請求項10に記載のログ生成システム。
  12. コンピュータが、アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得段階と、
    コンピュータが、対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得段階と、
    コンピュータが、前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択段階と、
    コンピュータが、前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する学習データ生成段階と
    を備える学習データ生成方法。
  13. コンピュータに、
    アプリケーション上のユーザ操作を推定するユーザ操作モデル、を生成するための学習データが、ユーザ操作履歴に基づいて既に生成されているアプリケーションを、既存アプリケーションとして特定し、前記既存アプリケーションの各々について、その既存アプリケーションの特徴を示すタグ情報を既存タグ情報として取得する既存タグ情報取得処理と、
    対象アプリケーションについて、前記対象アプリケーションの特徴を示すタグ情報を対象タグ情報として取得する対象タグ情報取得処理と、
    前記対象タグ情報と前記既存タグ情報の各々との間の類似度を算出し、前記類似度に基づいて、前記既存アプリケーションから、前記対象アプリケーションに類似する類似アプリケーションを選択する選択処理と、
    前記類似アプリケーションに対応する学習データから、対象アプリケーションに対応する学習データを生成する学習データ生成処理と
    を実行させるためのプログラム。
JP2022577906A 2021-01-28 2021-01-28 学習データ生成システム、方法、プログラム、モデル生成システム及びログ生成システム Active JP7513125B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/002979 WO2022162820A1 (ja) 2021-01-28 2021-01-28 学習データ生成システム、方法、コンピュータ可読媒体、モデル生成システム及びログ生成システム

Publications (3)

Publication Number Publication Date
JPWO2022162820A1 JPWO2022162820A1 (ja) 2022-08-04
JPWO2022162820A5 JPWO2022162820A5 (ja) 2023-09-22
JP7513125B2 true JP7513125B2 (ja) 2024-07-09

Family

ID=82653203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022577906A Active JP7513125B2 (ja) 2021-01-28 2021-01-28 学習データ生成システム、方法、プログラム、モデル生成システム及びログ生成システム

Country Status (3)

Country Link
US (1) US20240119259A1 (ja)
JP (1) JP7513125B2 (ja)
WO (1) WO2022162820A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5926872B1 (ja) 2016-02-01 2016-05-25 ヤフー株式会社 配信装置、配信方法、及び配信プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876955A (ja) * 1994-09-01 1996-03-22 Fujitsu Ltd 選択事項表示システムおよび方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5926872B1 (ja) 2016-02-01 2016-05-25 ヤフー株式会社 配信装置、配信方法、及び配信プログラム

Also Published As

Publication number Publication date
JPWO2022162820A1 (ja) 2022-08-04
US20240119259A1 (en) 2024-04-11
WO2022162820A1 (ja) 2022-08-04

Similar Documents

Publication Publication Date Title
CN109086199B (zh) 一种自动化生成测试脚本的方法、终端和可存储介质
JPWO2018235252A1 (ja) 分析装置、ログの分析方法及び分析プログラム
JP7172612B2 (ja) データ拡張プログラム、データ拡張方法およびデータ拡張装置
CN107003931B (zh) 将测试验证从测试执行分离
US20200233624A1 (en) Method, device and computer program product for updating user interface
JP3737714B2 (ja) エンドユーザ・トランザクションを識別するための方法及び装置
CN108446398A (zh) 一种数据库的生成方法及装置
US20220222576A1 (en) Data generation apparatus, method and learning apparatus
JP7513125B2 (ja) 学習データ生成システム、方法、プログラム、モデル生成システム及びログ生成システム
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN112989364B (zh) 用于数据仿真的方法、设备和计算机程序产品
JP5718166B2 (ja) 設計検証方法及びプログラム
KR20150128711A (ko) 컴퓨터 시스템 활동의 트레이스 타임라인을 분석하기 위한 방법 및 시스템
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
CN111737090B (zh) 日志仿真方法、装置、计算机设备和存储介质
JPWO2020065737A1 (ja) 影響範囲推定装置、影響範囲推定方法、及びプログラム
TWI756867B (zh) 在作業系統標記物件標籤及產生安全政策的方法及系統
JP2023183447A (ja) 書換プログラム、書換方法および情報処理装置
US11194966B1 (en) Management of concepts and intents in conversational systems
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
JP2023075780A (ja) プログラム、情報処理方法、及び情報処理装置
WO2021205589A1 (ja) テストスクリプト生成装置、テストスクリプト生成方法及びプログラム
JP7421196B2 (ja) ログ生成システム、ログ生成方法およびログ生成プログラム
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
AU2023202586B2 (en) Automatic flow implementation from text input

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240610

R150 Certificate of patent or registration of utility model

Ref document number: 7513125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150