JP2019056983A - 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置 - Google Patents

学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置 Download PDF

Info

Publication number
JP2019056983A
JP2019056983A JP2017179609A JP2017179609A JP2019056983A JP 2019056983 A JP2019056983 A JP 2019056983A JP 2017179609 A JP2017179609 A JP 2017179609A JP 2017179609 A JP2017179609 A JP 2017179609A JP 2019056983 A JP2019056983 A JP 2019056983A
Authority
JP
Japan
Prior art keywords
data
input data
input
learning
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017179609A
Other languages
English (en)
Other versions
JP7000766B2 (ja
Inventor
啓介 後藤
Keisuke Goto
啓介 後藤
弘治 丸橋
Hiroharu Maruhashi
弘治 丸橋
稲越 宏弥
Hiroya Inakoshi
宏弥 稲越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017179609A priority Critical patent/JP7000766B2/ja
Priority to EP18195436.3A priority patent/EP3462386A3/en
Priority to CN201811094204.0A priority patent/CN109522922B/zh
Priority to US16/135,446 priority patent/US11501203B2/en
Publication of JP2019056983A publication Critical patent/JP2019056983A/ja
Application granted granted Critical
Publication of JP7000766B2 publication Critical patent/JP7000766B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Feedback Control In General (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

【課題】 変換された入力データに対する分類・判別の要因を推定する機械学習モデルの、推定精度を向上させる。【解決手段】入力データを変換した変換データに対し分類・判別を行う機械学習モデルの出力要因を推定する、推定モデルの学習データの選択を行うために、1)機械学習モデルへの入力データ群に含まれる第1の入力データの指定に応じ、第1の入力データに関連する第1の入力データ群を抽出し、2)第1の入力データ群に対応した、機械学習モデルに入力される第1の変換データ群、および、第1の変換データ群に対応した機械学習モデルの第1の出力データ群を、それぞれ取得し、3)第1の入力データと第1の入力データ群のデータそれぞれとの距離、および、第1の変換データと第1の変換データ群のデータそれぞれとの距離に基づき、第1の入力データ群から、推定モデルの学習対象データを選択する。【選択図】 図3

Description

本発明は、機械学習の学習対象データを選択する、学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置に関する。
近年、さまざまな分野のデータに対して、機械学習を用いた分類や判別が行われている。機械学習を用いることにより、精度の高い分類や判別が可能である一方、機械学習のどの特徴量が分類や判別の要因であるかは、一般的には知ることができない。
機械学習が分類や判別をする際に、どのような要因により分類や判別を行ったのかが明確でない場合、たとえば、機械学習の適用分野を拡大する際のリスクとなる。
機械学習に用いられる分類器による分類結果から、分類の要因となる特徴を推定する方法として、LIME(Local Interpretable Model-agnostic Explanations)という手法が知られている(例えば非特許文献1参照)。LIMEにおいては、任意の分類器fと入力データuについて、uの分類結果f(u)に大きく貢献したuの要素・特徴を推定し、提示することが行われる。
非特許文献1に記載されたLIMEの手法では、画像を対象とした分類結果に対する原因推定が行われており、どの画像の部分が分類結果に寄与したかを推定することが記載されている。
図2は、分類器による入力データの分類と、分類要因の推定の概要を示す図である。
一般的な機械学習の分類器を用いた分類では、入力データを分類器が処理可能な次元に変換した変換データを生成し、生成された変換データに対して学習および分類が行われる。
図2に示される一般的な機械学習の分類器を用いた分類に対し、LIMEの手法により分類結果に対する分類要因の推定を行うと、分類結果が変換データのどの要因に関連するかを推定するものとなり、入力データのどの要因に関連するものかを推定するものではないため、必ずしも有用であるとは限らなかった。
"Why Should I Trust You?" Explaining the Predictions of Any Classifier、Marco Tulio Ribeiro et. al.、Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、2016年8月
上述したように、入力データを分類器が処理可能な次元に変換した変換データを生成し、生成された変換データに対して学習および分類が行われる機械学習の分類器では、入力データにおける分類要因の推定が求められる。
図3は、入力データから生成された変換データの分類を行う機械学習の分類器に関する、各特徴空間における分類器への入力データと変換データの概要を示す図である。図3において、点uは正例として判別されるデータ、点v1、点v2、点v3は負例として判別されるデータに対応する、入力データの特徴空間21および変換データの特徴空間22上での点である。
特徴空間22において、点u、点v1、点v2、点v3にはそれぞれ、予測値が大きく変動する方向を表すベクトルである説明ベクトル25−1,25−2,25−3、25−4がそれぞれ示されている。また、変換データの特徴空間22において、近似識別線24は正例と負例の識別境界を近似する境界線である。入力データの特徴空間21では必ずしも分類器の正例と負例の識別境界が明確とは限らないため、図3の入力データの特徴空間21では近似識別線は描かれてはいない。
ここで、図2に示した分類要因の推定を図3の点uの近傍について行うことは、正例と負例とを識別する近似識別線24の点uの近傍における識別要因を示す識別要因26を推定することに相当する。
データuの近傍における分類要因を推定する場合、入力データの特徴空間21では、点u、点v1、点v2と点v3とは離れているため、点v3をLIMEの手法における点uの近傍の点として扱うことは適切ではない。
非特許文献1に記載されたLIMEの手法により分類要因を推定する場合、変換データの特徴空間22内において点uの近傍の点を選択し、分類要因を推定する。具体的には、変換データの特徴空間22で点uの近傍に存在する点v1、点v2、点v3それぞれを学習データとして機械学習した推定器により、分類要因の推定を行う。すなわち、点v3という、変換データの特徴空間22においては点uの近傍にあるものの、入力データの特徴空間21においては点uの近傍にあるとはいえない点を学習データに含めて学習が行われるため、学習された推定モデルによる判別精度が劣化するという問題がある。
1つの側面では、本件は、変換された入力データに対する分類または判別の要因を推定する機械学習モデルの、推定精度を向上させることを目的とする。
1つの案では、入力データを変換した変換データに対し分類または判別を行う機械学習モデルの出力要因を推定する、推定モデルの学習データの選択について、コンピュータに以下の処理を実行させる学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置が提供される。
すなわち、コンピュータに、機械学習モデルへの入力データ群に含まれる第1の入力データの指定に応じ、第1の入力データに関連する第1の入力データ群を抽出し、
第1の入力データ群に対応した、機械学習モデルに入力される第1の変換データ群、および、第1の変換データ群に対応した機械学習モデルの第1の出力データ群を、それぞれ取得し、
第1の入力データと第1の入力データ群のデータそれぞれとの距離、および、第1の変換データと第1の変換データ群のデータそれぞれとの距離に基づき、第1の入力データ群から、推定モデルの学習対象データを選択することを特徴とする。
1態様によれば、出力要因の推定精度を向上させる学習データを選択することができる。
第1の実施形態に係る分類装置および要因推定装置の構成例を示す図である。 分類器による入力データの分類と、分類要因の推定の概要を示す図である。 各特徴空間における分類器への入力データと変換データの概要を示す図である。 第1の実施形態に係る処理の手順の一例を示すフローチャートである。 第1の実施形態のシステム構成例を示す図である。 第1の実施形態に用いる監視サーバのハードウェアの一構成例を示す図である。 第2の実施形態に係る要因推定装置の構成例を示す図である。 選択データuについての入力データと中間データとの関係を示す図である。 対象データv1〜v3についての入力データと中間データとの関係を示す図である。 選択データuについての入力データと変換データとの関係を示す図である。 対象データv1〜v3についての入力データと変換データとの関係を示す図である。 選択データuと対象データv1〜v3の各特徴空間における距離を示す図である。 第2の実施形態における入力データ記憶部の一例を示す図である。 第2の実施形態における変換データ記憶部の一例を示す図である。 第2の実施形態における解析結果記憶部の一例を示す図である。 第2の実施形態における入力データ距離記憶部の一例を示す図である。 第2の実施形態における変換データ距離記憶部の一例を示す図である。 第2の実施形態に係る処理の手順の一例を示すフローチャートである。 第2の実施形態に係る入力データ距離算出部221の距離算出の一例を示す図である。 変換行列を用いて生成した中間データ間の類似度の計算例を示す図である。 「項S」の変換行列の更新例を示す図である。 類似度計算処理の手順の一例を示すフローチャートである。 初期状態の変換行列を用いた中間データの生成例を示す図である。 「項S」の変換行列の更新例を示す図である。 「項R」の変換行列の更新例を示す図である。 更新後の変換行列を用いた中間データの生成例を示す図である。 類似度計算の比較例を示す第1の図である。 類似度計算の比較例を示す第2の図である。 類似度計算例を示す第1の図である。 類似度計算例を示す第2の図である。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施形態〕
図1は、第1の実施形態に係る分類装置10および要因推定装置20の構成例を示す図である。分類装置10は、収集部110、入力データ記憶部112、変換部120、変換データ記憶部122、分類部130、学習結果記憶部132、解析部140、解析結果記憶部142を有する。
要因推定装置20は、抽出部210、選別部220、選別データ記憶部230、推定部240、学習結果記憶部242を有する。例えばコンピュータが、学習データ選別プログラムを実行することによって、学習データの選別方法を実行可能な要因推定装置20が実現される。
分類装置10において、収集部110は、入力データを収集し、入力データ記憶部112に記憶する。たとえば、図3に示される入力データの特徴空間21の入力データu、v1、v2、v3を含む入力データが入力データ記憶部112に記憶される。変換部120は、収集部110で収集された入力データを所定の方法により変換し、変換データ記憶部122に記憶する。たとえば、図3に示される入力データの特徴空間21の入力データu、v1、v2、v3は、変換データの特徴空間22のu、v1、v2、v3にそれぞれ変換される。所定の方法とは、たとえば、分類部130における分類が適切に行われるように入力データの次元、値等を変換するものであり、線形変換、非線形変換、一方向変換、双方向変換などを用いることができる。分類部130は、変換部120で変換された変換データを入力し、学習結果記憶部132に記憶された学習パラメータを用いて分類を行い、解析部140に出力する。
要因推定装置20において、抽出部210は、たとえばユーザから、要因推定対象となる入力データの指定を受け、分類装置10の入力データ記憶部112から関連するデータを取得する。選別部220は、抽出部210で取得されたデータについて、分類装置10の変換データ記憶部122から変換データを、分類装置10の解析結果記憶部142から変換データに対応した解析結果を取得し、推定部240の学習対象となる学習データを選別する。推定部240は、選別部220により選別された学習データに基づき学習を行い、学習結果記憶部242に学習パラメータを記憶する。
図4は、第1の実施形態に係る処理の手順の一例を示すフローチャートである。図1に示された要因推定装置20の抽出部210は、たとえばユーザから要因推定対象となる入力データである選択データとして、図3に示される点uに対応した入力データuの指定を受ける。入力データuの指定を受けたことに対応して、抽出部210は、所定の基準により分類装置10の入力データ記憶部112より、図3に示された点v1〜点v3に対応した対象データである入力データv1〜v3を抽出する(S12)。所定の基準としては、例えば、入力データの収集タイミングが選択データuと所定の関係を有するもの、具体的には、データ収集期間が選択データuと前後1時間のもの、とすることができる。また、所定の基準として、例えば、データ生成元が選択データuと所定の関係を有するもの、具体的には、同じサーバから対象データが取得されたもの、とすることもできる。
次に、抽出部210からの選択データおよび対象データの抽出を受け、選別部220は、選択データuおよび対象データv1〜v3に対応する変換データおよび分類結果を、分類装置10の変換データ記憶部122および解析結果記憶部142より読み込む(S14)。
次に、選別部220は、選択データuと対象データv1〜v3それぞれとの、入力データの特徴空間における距離と、変換データの特徴空間における距離とを算出し、距離に基づいて学習対象のデータを選別する(S16)。
図3に示された選択データu、および、対象データv1〜v3は、入力データの特徴空間21においては、点uと点v1、点v2との距離に比べ、点uと点v3との距離は大きい。一方、変換データの特徴空間22においては、点uと点v1〜点v3との距離は大きくは変わらない。
すなわち、変換データの特徴空間22では点uと近傍にある点v1〜点v3のうち、点v3は入力データの特徴空間21では点uの近傍とはならない。このため、対象データv3は、分類要因を推定する推定部240の学習データとしては不適切である。
入力データの特徴空間21における点uに対する距離と、変換データの特徴空間22における点uに対する距離の和を取ると、対象データv3の距離の和は、対象データv1の距離の和、または、選択データv2の距離の和よりも大きくなるから、距離の和の計算結果に基づき、対象データv3を除外し、対象データv1およびv2を学習対象として選択することができる。
次に、選別されたデータを用いて、推定部240において学習が行われる(S18)。すなわち、推定部240において、選択データuと対象データv1およびv2の入力データ、変換データ、および、分類結果に基づく学習が行われ、学習結果に対応する学習パラメータが、学習結果記憶部242に記憶される。
図5は、第1の実施形態のシステム構成例を示す図である。ネットワーク2000には、複数のサーバ2011,2012,・・・、複数の端末装置2021,2022,・・・、および監視サーバ1001が接続されている。複数のサーバ2011,2012,・・・は、いずれかの端末装置からの要求に応じた処理を実行するコンピュータである。複数のサーバ2011,2012,・・・のうちの2台以上が連携して処理を実行する場合もある。複数の端末装置2021,2022,・・・は、複数のサーバ2011,2012,・・・で提供されるサービスを利用するユーザが使用するコンピュータである。
監視サーバ1001は、ネットワーク2000を介して行われた通信を監視し、通信ログを記録する。監視サーバ1001は、単位時間帯ごとの通信ログのデータを分類する。例えば監視サーバ1001は、対応する単位時間帯における不正通信の有無に応じて、データを分類する。
監視サーバ1001上で動作する分類装置10の収集部110は、ネットワーク2000を介して送受信されているパケットなどの通信情報を取得する。例えば収集部110は、ネットワーク2000内に設置されたスイッチのミラーリングポートを介して、そのスイッチを経由して通信されたパケットを取得する。また収集部110は、各サーバ2011,2012,・・・から、そのサーバ自身の通信ログを取得することもできる。収集部110は、取得した通信情報のログ(通信ログ)を、入力データ記憶部112に格納する。
なお、図5に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図5に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
図6は、第1の実施形態に用いる監視サーバのハードウェアの一構成例を示す図である。監視サーバ1010は、プロセッサ1011によって装置全体が制御されている。プロセッサ1011には、バス1019を介してメモリ1012と複数の周辺機器が接続されている。プロセッサ1011は、マルチプロセッサであってもよい。プロセッサ1011は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ1011がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ1012は、監視サーバ1010の主記憶装置として使用される。メモリ1012には、プロセッサ1011に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ1012には、プロセッサ1011による処理に必要な各種データが格納される。メモリ1012としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス1019に接続されている周辺機器としては、ストレージ装置1013、グラフィック処理装置1014、入力インタフェース1015、光学ドライブ装置1016、機器接続インタフェース1017およびネットワークインタフェース1018がある。
ストレージ装置1013は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置1013は、コンピュータの補助記憶装置として使用される。ストレージ装置1013には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置1013としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
グラフィック処理装置1014には、モニタ1021が接続されている。グラフィック処理装置1014は、プロセッサ1011からの命令に従って、画像をモニタ1021の画面に表示させる。モニタ1021としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース1015には、キーボード1022とマウス1023とが接続されている。入力インタフェース1015は、キーボード1022やマウス1023から送られてくる信号をプロセッサ1011に送信する。なお、マウス1023は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置1016は、レーザ光などを利用して、光ディスク1024に記録されたデータの読み取りを行う。光ディスク1024は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク1024には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース1017は、監視サーバ1010に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース1017には、メモリ装置1025やメモリリーダライタ1026を接続することができる。メモリ装置1025は、機器接続インタフェース1017との通信機能を搭載した記録媒体である。メモリリーダライタ1026は、メモリカード1027へのデータの書き込み、またはメモリカード1027からのデータの読み出しを行う装置である。メモリカード1027は、カード型の記録媒体である。
ネットワークインタフェース1018は、ネットワーク1020に接続されている。ネットワークインタフェース1018は、ネットワーク1020を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
以上のようなハードウェア構成によって、第1の実施形態の処理機能を実現することができる。
監視サーバ1010は、例えばコンピュータが読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施形態の処理機能を実現する。監視サーバ1010に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、監視サーバ1010に実行させるプログラムをストレージ装置1013に格納しておくことができる。プロセッサ1011は、ストレージ装置1013内のプログラムの少なくとも一部をメモリ1012にロードし、プログラムを実行する。また監視サーバ1010に実行させるプログラムを、光ディスク1024、メモリ装置1025、メモリカード1027などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ1011からの制御により、ストレージ装置1013にインストールされた後、実行可能となる。またプロセッサ1011が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
以上のようなハードウェア構成によって、第1の実施形態の処理機能を実現することができる。
〔第2の実施形態〕
次に第2の実施形態について説明する。
図7は、第2の実施形態に係る要因推定装置の構成例を示す図である。図7に示された第2の実施形態に係る要因推定装置20のうち、第1の実施形態に係る要因推定装置10と同じ動作の部分については説明を省略する。
第2の実施形態に係る要因推定装置20の選別部220は、入力データ距離算出部221、入力データ距離記憶部222、変換データ距離算出部223、変換データ距離記憶部224、対象判定部225を有する。
図11は、第2の実施形態における、入力データ記憶部の一例を示す図である。図1に示された分類装置10に含まれる入力データ記憶部112には、複数の単位期間ログ112−1,112−2,・・・が格納されている。単位期間ログ112−1,112−2,・・・それぞれには、通信ログの収集期間が示されており、例えば、単位期間ログ112−1の収集期間は、10:00−10:10、単位期間ログ112−2の収集期間は10:10−10:20である。単位期間ログ112−1,112−2,・・・には、収集期間で示された時間帯内に収集した通信情報が格納される。
単位期間ログ112−1,112−2,・・・に格納される各レコードには、通信元ホスト、通信先ホスト、ポート、および量が含まれる。通信元ホストは、パケットの送信元の装置の識別子である。通信先ホストは、パケットの宛先の装置の識別子である。ポートは、通信元ホストと通信先ホストが通信を行った通信ポート番号の識別子である。単位期間ログ112−1における量は、通信元ホスト・通信先ホスト・ポートの組み合わせに対する値であり、たとえば、通信元ホスト・通信先ホスト・ポートの組が同じ通信の出現回数である。
図12は、第2の実施形態における、変換データ記憶部の一例を示す図である。図1に示された分類装置10に含まれる変換データ記憶部122は、変換データテーブル122−1,122−2,・・・を記憶している。各変換テーブル122−1,122−2、・・・は、入力データ記憶部112に記憶された単位期間ログ112−1,112−2,・・・を、分類部130における学習および分類に対応した変換により変換したデータである。
入力データ記憶部112に記憶された単位期間ログ112−1,112−2,・・・は、図12の各変換データの下部に示された順序づけ127−1,127−2,・・・により、変換データテーブル122−1,122−2,・・・に変換されている。
分類装置10の学習段階において、分類部130の学習パラメータと各順序付けは、学習結果に応じた値および関係となっている。
図13は、第2の実施形態における、解析結果記憶部の一例を示す図である。図1に示された分類装置10に含まれる解析結果記憶部142は、入力データ記憶部112に記憶された、収集期間の異なる単位期間ログ112−1,112−2,・・・ごとの、分類部130による分類結果に対応した解析結果を記憶している。例えば、図11の入力データ記憶部112に記憶された、収集期間が10:00−10:10である単位期間ログ112−1は、分類部130による分類結果に基づく解析結果が、1(問題あり)として、図13に示される解析結果テーブル142−1に保存されている。
図16は、第2の実施形態に係る処理の手順の一例を示すフローチャートである。以下、第2の実施形態における、要因推定装置20の選別部220による、学習対象データの選別手順を、図16に示されたフローチャートと、図8A、図8B、図9A、図9B、および、図10を用いて説明する。
図7に示された要因推定装置20の抽出部210は、たとえばユーザから要因推定対象となる入力データである選択データuとして、図11に示された収集期間が10:00−10:10である単位期間ログ112−1の指定を受ける。
選択データuの指定に対応して、抽出部210は、収集期間の始期が選択データuに続く10:10−10:30である、図11に示された単位期間ログ112−2〜112−4を対象データv1〜v3として選択する(S22)。
ここでは、対象データの選定方法として、データ収集期間が選択データuと連続するものを選択しているが、実施例1と同様に、データ収集期間に関する他の基準や、データ生成元が選択データuと所定の関係を有するものを対象データとして選択してもよい。具体的には、同じサーバから対象データが取得されたものを対象データとして選択してもよい。
次に、抽出部210により抽出された選択データuおよび対象データv1〜v3について、入力データ距離算出部221は、選択データおよび各対象データを変換する順序付けを生成する(S24)。図8A、および、図8Bは、選択データuおよび対象データv1〜v3についての、入力データと中間データとの関係を示す図である。図8Aおよび図8Bにおいて、選択データuの入力データ801、および、対象データv1〜v3の入力データ811〜831は、順序付け803〜833により中間データ805〜835に変換される。順序付け803〜833の算出方法については、図17〜図28を参照し後述する。
順序付け803〜833を算出することにより、選択データuの入力データ801、および、対象データv1〜v3の入力データ811〜831は、中間データ805〜835に変換され、入力データの特徴空間21における選択データuと対象データv1〜v3の距離を、それぞれ求めることができる。
たとえば、選択データuと対象データv1との、入力データの特徴空間21における距離は、中間データ805と中間データ815との距離を求めることにより算出される。
中間データ805と中間データ815についての計算例を以下に示す。
a)uとv1の双方に存在するが量が異なる項目は、(S’2、R’3、P’2)の1項目であるので、(2−1)=2。
b)uのみに存在する項目は、(S’1、R’3、P’1)および(S’3、R’1、P’1)の2項目であり、1+1=2。
c)v1のみに存在する項目は、(S’2、R’3、P’1)および(S’2、R’2、P’1)の2項目であり、1+1=2。 となるから、a)b)c)の合計は5となる。
同様に計算することにより、入力データの特徴空間21における選択データuと対象データv1〜v3の距離は、それぞれ、5、4、9となる。
次に、抽出部210からの選択データおよび対象データの抽出を受け、選別部220は、選択データuおよび対象データv1〜v3に対応する変換データおよび分類結果を、図1に示された分類装置10の変換データ記憶部122および解析結果記憶部142より読み込む(S26)。
次に、入力データの特徴空間21におけるテンソル間距離および変換データの特徴空間22におけるテンソル間距離に基づき学習対象のデータを選別する(S28)。図9A、および、図9Bは、選択データuおよび対象データv1〜v3についての、入力データと変換データとの関係を示す図である。図9Aおよび図9Bにおいて、選択データuの入力データ901、および、対象データv1〜v3の入力データ911〜931は、分類装置10の変換部120により生成された順序付け903〜933により、変換データ905〜935に変換されている。
入力データの特徴空間21における距離算出と同様に、変換データの特徴空間22における選択データuと対象データv1〜v3の距離を求める。選択データuの変換データ905と、対象データv1〜v3の変換データ915〜935との距離は、それぞれ、9、8、9となる。
図14は、第2の実施形態における、入力データ距離記憶部222の一例を示す図である。入力データ距離記憶部222には、入力データ距離算出部により算出された距離が、入力データ距離テーブル222−1として、収集期間毎に記憶される。
図15は、第2の実施形態における、変換データ距離記憶部224の一例を示す図である。変換データ距離記憶部224には、変換データ距離算出部により算出された距離が、変換データ距離テーブル224−1として、収集期間毎に記憶される。
図10は、選択データuと対象データv1〜v3の各特徴空間における距離を示す図である。図10において、選択データuに対する、対象データv1〜v3の各特徴空間における距離の和は、それぞれ、14、12、18となる。
ここで、図10および図3を参照すると、選択データu、および、対象データv1〜v3は、入力データの特徴空間21においては、点uと点v1、点v2との距離(4)に比べ、点uと点v3との距離(9)は大きい。一方、変換データの特徴空間22においては、点uと点v1〜点v3との距離は大きくは変わらない(9または8)。
対象データv1〜v3について、選択データuに対する各特徴空間の距離の和を取ると、上述したように、14、12、18となるから、対象データv3は、対象データv1およびv2と比較して、選択データuと離れており、分類要因を推定する推定部240の学習データとしては不適切である。距離の和の計算結果に基づき、対象データv3を除外し、選択データv1およびv2を学習対象として選択することができる。
図17は、第2の実施形態に係る入力データ距離算出部221の距離算出の一例を示す図である。入力データ距離算出部221は、抽出部210からの入力データについて算出した類似度に基づき、距離を算出する。
以下では、簡単のために類似度を計算する第1データ1と第2データ2が、それぞれ2つの項目を持つ場合について説明する。項目数が3以上の場合であっても、以下の説明における行列をテンソルに拡張することで類似度を計算することが可能である。
図17において、第1データ1と第2データ2は、入力データ距離算出部221による類似度の算出対象である。第1データ1は複数の第1レコードを有し、第1レコードの各々は、第1項目である「項S,項R」のそれぞれについての第1項目値(「項S」についての「S1,S2」、「項R」についての「R1,R2」と、第1項目値間の関係を示す数値「k11〜k14」を有する。同様に、第2データ2は複数の第2レコードを有し、第2レコードの各々は、第2項目である「項S,項R」のそれぞれについての第2項目値(「項S」についての「S1,S2」、「項R」についての「R1,R2」)と、第2項目値間の関係を示す数値「k21〜k24」を有する。
入力データ距離算出部221は、対象項目ごとに、第1データ1内の対象項目に属する対象第1項目値に関する他の第1項目値との関係と、第2データ2内の対象項目に属する対象第2項目値に関する他の第2項目値との関係との類似度を計算する。次に、計算した類似度に基づいて、第1重み情報5,6と第2重み情報7,8とを生成する。第1重み情報5,6は、複数の項目「項S,項R」のいずれかに属する複数の変換先項目値「S’1,S’2,R’1,R’2」のうちの、対象項目に属する対象変換先項目値への対象第1項目値の影響度を示す情報である。第2重み情報7,8は、対象変換先項目値への対象第2項目値の影響度を示す情報である。
例えば「項S」が対象項目として選択されたとき、入力データ距離算出部221は、第1重み情報5と第2重み情報7とを生成する。このとき第1重み情報5には、第1データ1内の「項S」に属する項目値「S1,S2」それぞれと、第2データ2内の「項S」に属する項目値「S1,S2」それぞれとの対ごとの、他の項目との関係の類似度が維持できるように、重みが設定される。
同様に、第2重み情報7にも、第1データ1内の「項S」に属する項目値「S1,S2」それぞれと、第2データ2内の「項S」に属する項目値「S1,S2」それぞれとの対ごとの、他の項目との関係の類似度が維持できるように、重みが設定される。「項R」が対象項目として選択されたときに、入力データ距離算出部221は、第1重み情報6と第2重み情報8とを生成する。
対象第1項目値と対象第2項目値との類似度を計算する場合、入力データ距離算出部221は、例えば複数の項目「項S,項R」それぞれについて、初期値が設定された第1重み情報5,6と第2重み情報7,8とを生成する。
次に、入力データ距離算出部221は、対象項目以外の項目について生成された他項目第1重み情報と他項目第2重み情報とに基づいて、第1データ1内の対象項目に属する対象第1項目値と、第2データ2内の対象項目に属する対象第2項目値との類似度を計算する。
なお、入力データ距離算出部221は、所定の終了条件を満たすまで、複数の項目「項S,項R」それぞれを、繰り返し対象項目として特定し、対象項目に対する第1重み情報5,6と第2重み情報7,8とを繰り返し生成してもよい。例えば、入力データ距離算出部221は、対象項目以外の項目について生成された他項目第1重み情報と他項目第2重み情報とを用いて、対象項目に属する対象第1項目値それぞれと対象第2項目値それぞれとの類似度を計算し、類似度に応じて対象項目の重み情報を更新する。
具体的には、対象項目が「項S」であれば、入力データ距離算出部221は、「項R」について生成された第1重み情報6を用いて、第1データ1の項目値「S1,S2」それぞれと、第2データ2の項目値「S1,S2」それぞれとの類似度を計算する。次に、入力データ距離算出部221は、計算した類似度に基づいて、「項S」についての第1重み情報5と第2重み情報7とを更新する。さらに、入力データ距離算出部221は、更新後の第1重み情報5と第2重み情報7を用いて、「項R」についての第1重み情報6と第2重み情報8とを更新する。
このように第1重み情報5,6と第2重み情報7,8の更新を繰り返すことで、第1類似判断用データ3と第2類似判断用データ4との類似度が向上するように、第1重み情報5,6と第2重み情報7,8が最適化される。
次に、入力データ距離算出部221は、複数の項目「項S,項R」それぞれについて生成された第1重み情報5,6に基づいて、第1データ1を第1類似判断用データ3に変換する。第1類似判断用データ3は、複数の変換先項目値「S’1,S’2,R’1,R’2」のうちの異なる項目に属する2以上の変換先項目値間の関係を示す数値「k31〜k34」が設定された複数の第3レコードを有する。さらに、入力データ距離算出部221は、複数の項目「項S,項R」それぞれについて生成された第2重み情報7,8に基づいて、第2データ2を第2類似判断用データ4に変換する。第2類似判断用データ4は、複数の変換先項目値「S’1,S’2,R’1,R’2」のうちの異なる項目に属する2以上の変換先項目値間の関係を示す数値「k41〜k44」が設定された複数の第4レコードを有する。
さらに、入力データ距離算出部221は、第1類似判断用データ3内の複数の第3レコードに含まれる数値群と、第2類似判断用データ4内の複数の第4レコードに含まれる数値群との類似度を計算する。入力データ距離算出部221は、第1重み情報5,6と第2重み情報7,8を繰り返し生成するとき、第1重み情報5,6と第2重み情報7,8を生成するごとに、第1類似判断用データ3の数値群と第2類似判断用データ4の数値群との類似度を計算する。そして、入力データ距離算出部221は、計算した類似度の最大値を、第1データ1と第2データ2との類似度と判定する。
このように、第1重み情報5,6と第2重み情報7,8を用いて第1データ1と第2データ2とを変換した上で、類似度を計算することで、精度の高い類似度を算出することができる。すなわち、第1データ1と第2データ2との同一の項目に属する項目値に関する、他の項目値との間の関係の類似度が、その項目に対応する第1重み情報5,6と第2重み情報7,8とに反映されている。これにより、第1データ1と第2データ2との同一の項目に属する項目値に関する、他の項目値との間の関係の類似度が高いほど、変換後の第1類似判断用データ3と第2類似判断用データ4との類似度が高くなる。その結果、類似度の判定精度が向上し、第1データと第2データとの距離についても精度良く算出することができる。
しかも、組み合わせ爆発のような計算量の急激な増加は発生せず、現実的な処理量での類似度計算が可能である。例えば、類似度の計算処理は、行列を用いて以下のように計算できる。
入力データ距離算出部221は、特定の項目の項目値と他の項目との関係をベクトルで表現する。そして、入力データ距離算出部221は、第1データ1と第2データ2とを、2つの項目値に対応するベクトル間の距離を保持したまま、第1類似判断用データ3と第2類似判断用データ4とに変換する。このとき、入力データ距離算出部221は、変換に用いる第1重み情報5,6と第2重み情報7,8とを行列で表す。以下、第1重み情報5,6と第2重み情報7,8とを表す行列を、変換行列と呼ぶ。
入力データ距離算出部221は、第1類似判断用データ3と第2類似判断用データ4間の最大類似度を、第1データ1と第2データ2との間の類似度とする。これにより、本質的な関係の構造に基づく類似度を計算でき、第1データ1と第2データ2との間の本質的な関係の構造に基づく距離を計算することができる。
以下に、変換行列を用いた類似度の計算に関する詳細を説明する。上述のように、簡単のため、第1データ1と第2データ2との項目は2つだけとする。入力データ距離算出部221は、第1データ1と第2データ2とを、行列X1,X2で表す。行列X1,X2の各行は、1つ目の項目「項S」の各項目値「S1,S2」に対応し、各列は2つめの項目「項R」の各変数値「R1,R2」に対応する。行列の要素(成分)には、行に対する項目値と列に対応する項目値との関係を示す数値が入る。
なお、入力データ距離算出部221は、1つ目の項目「項S」の項目値の種類の数が第1データ1と第2データ2とで異なる場合には、少ないほうのデータにダミーの項目値を追加して、種類の数を同数にする。入力データ距離算出部221は、2つ目の項目「項R」についても同様に、項目値の種類数を同数に揃える。
入力データ距離算出部221は、第1データ1の「項S」と「項R」とに関する変換行列(第1重み情報5,6)を、それぞれ正方行列C11とC12で表す。同様に、入力データ距離算出部221は、第2データ2の「項S」と「項R」とに関する変換行列(第2重み情報7,8)を、それぞれ正方行列C21とC22で表す。ただし、C11,C12,C21,C22は、いずれも以下の正規直交条件を満たすものとする。
Iは対角成分が「1」で残りが「0」の単位行列である。このとき、X1の列ベクトルをx1a,x1bとする。x1a,x1bは、「項R」の変数値「a」、「b」と「項S」との関係を表しており、以下の関係を有する。
すなわち、C11によるX1の変換は、項目値の他項目との関係を表すベクトル間の距離を変化させない。C12,C21,C22についても同様である。
入力データ距離算出部221は、C11とC21の更新では、C12とC22を固定したときの、データ間類似度を最大化するC11とC21として算出する。データ間類似度E(X,X)は、以下の式で表される。
データ間類似度を最大化するC11とC21は、以下に示す特異値分解により算出できる。
ただし、Sは非負値を持つ正方対角行列である。
このようにして、行列を用いて効率的にデータ変換を行い、類似度を計算することができる。
このとき、行列X1,X2でそれぞれ表される第1データ1と第2データ2との距離D(X1,X2)は、以下となる。
図17の例では、第1重み情報5,6および第2重み情報7,8が変換行列で表されている。例えば、第1重み情報5を示す変換行列の第1行・第1列の成分には、第1データ1の「項S」に属する項目値「S1」の、「項S」に属する変換先項目値「S’1」への影響を示す重み(w11)が設定されている。変換行列を用いると、第1データ1の項目ごとの項目値を成分とする行ベクトルに右から変換行列を乗算すれば、変換先項目値を得ることができる。例えば第1データ1の「項S」に属する項目値を成分とする行ベクトル(S1,S2)に、「項S」に関する第1重み情報5を示す変換行列を右から掛けることで、「項S」に属する変換先項目値を示す行ベクトル(S’1,S’2)が得られる。
同様に、第1データ1の「項R」に属する項目値を成分とする行ベクトル(R1,R2)に、「項R」に関する第1重み情報6を示す変換行列を右から掛けることで、「項R」に属する変換先項目値を示す行ベクトル(R’1,R’2)が得られる。第2データ2の「項S」に属する項目値を成分とする行ベクトル(S1,S2)に、「項S」に関する第2重み情報7を示す変換行列を右から掛けることで、「項S」に属する変換先項目値を示す行ベクトル(S’1,S’2)が得られる。第2データ2の「項R」に属する項目値を成分とする行ベクトル(R1,R2)に、「項R」に関する第2重み情報8を示す変換行列を右から掛けることで、「項R」に属する変換先項目値を示す行ベクトル(R’1,R’2)が得られる。
ここで第1データ1と第2データ2とにおける同一レコード内の「項S」の項目値と「項R」の項目値の乗算結果が、そのレコードの「数値」の値であるものとする。同様に、第1類似判断用データ3と第2類似判断用データ4における同一レコード内の「項S」の項目値と「項R」の項目値の乗算結果が、そのレコードの「数値」の値であるものとする。すると、第1類似判断用データ3と第2類似判断用データ4との「数値」の値を算出できる。例えば第1類似判断用データ3の「S’1」と「R’1」との組に対応する数値「k31」は、以下の通りとなる。
k31=S’1×R’1
=(w11×S1+w12×S2)×(w21×R1+w22×R2)
=w11×w21×S1×R1+w12×w21×S2×R1+w11×w22×S1×R2+w12×w22×S2×R2
=w11×w21×k11+w12×w21×k12+w11×w22×k13+w12×w22×k14

同様にして、第1類似判断用データ3と第2類似判断用データ4との「数値」の他の値(k31〜k34,k41〜k44)も算出できる。
入力データ距離算出部221は、第1類似判断用データ3と第2類似判断用データ4の「数値」の各値を比較することで、第1類似判断用データ3と第2類似判断用データ4との類似度を計算する。例えば、入力データ距離算出部221は、第1類似判断用データ3の各レコードの数値を成分とするベクトルと、第1類似判断用データ4の各レコードの数値を成分とするベクトルとの内積を計算し、内積の結果を類似度とする。
このように第1重み情報5,6および第2重み情報7,8を行列で表すことで、類似度を計算することができる。
なお上記の計算例は、簡単のために第1データ1と第2データ2との項目は2つだけとしているが、項目数がもっと多い場合、行列をテンソルに拡張することで類似度を計算できる。なお、行列は、テンソルの一例である。
比較対象のデータに対応するテンソルをXm,Xnとする(m、nはデータを識別する整数)。Xm,Xnに含まれる項目数がk(kは2以上の整数)のとき、変換行列をCkとすると、データの類似判断用データへの変換は、以下の式で表すことができる。
式(5)の×kは、テンソルのモード積を示している。式(5)の結果を用いて、テンソルをXm,Xn間の距離を、以下の式で表すことができる。
式(6)に示す距離を最小にする行列Ckが変換行列となる。ただし、Ckは、以下の正規直交条件を満たすものとする。
項目ごとのCkは、以下の特異値分解を、項目ごとに交互に繰り返し行うことで算出できる。
式(8)の(k)は、テンソルを、第k番目の項目を列、その他の項目を行とする行列に変換する操作を表す。式(8)により、行列Pkkk Tが生成される。そしてPkとQk Tとを用いて、以下の式により行列Ckが得られる。
このような計算により変換行列を求めデータを変換することで、項目数が3以上であっても現実的な計算量で類似度を計算可能であり、距離を計算することもできる。
図18は、変換行列を用いて生成した中間データ間の類似度の計算例を示す図である。入力データ距離算出部221は、第1データ1031と第1データ1032それぞれに対して、「量」以外の変数の数に応じた変換行列1041〜1044を生成する。例えば入力データ距離算出部221は、第1データ1031に対して、「項S」に対応する変換行列1041と「項R」に対応する変換行列1042とを生成する。同様に入力データ距離算出部221は、第2データ1032に対して、「項S」に対応する変換行列1043と「項R」に対応する変換行列1044とを生成する。
変換行列1041〜1044は、正規直交条件を満たす2行2列の行列である。変換行列1041の各行には、第1データ1031における「項S」の変数値「S1」、「S2」が関連付けられている。変換行列1043の各行には、第2データ1032における「項S」の変数値「S1」、「S2」が関連付けられている。変換行列1041の各列には、中間データ1051における「項S」の変数値「S’1」、「S’2」が関連付けられている。変換行列1043の各列には、中間データ1052における「項S」の変数値「S’1」、「S’2」が関連付けられている。変換行列1041,1043の各成分には、行方向に関連付けられた変数値「S1」、「S2」を、列方向に関連付けられた変数値「S’1」、「S’2」へ変換する場合の重みが設定されている。
変換行列1042の各行には、第1データ1031における「項R」の変数値「R1」、「R2」が関連付けられている。変換行列1044の各行には、第2データ1032における「項R」の変数値「R1」、「R2」が関連付けられている。変換行列1042の各列には、中間データ1051における「項R」の変数値「R’1」、「R’2」が関連付けられている。変換行列1044の各列には、中間データ1052における「項R」の変数値「R’1」、「R’2」が関連付けられている。変換行列1042,1044の各成分には、行方向に関連付けられた変数値「R1」、「R2」を、列方向に関連付けられた変数値「R’1」、「R’2」へ変換する場合の重みが設定されている。
なお図18の例では、変換行列1041〜1044に設定されている重みの値を小数点2桁までしか示していないが、実際には小数点2桁よりも下位の桁の値も存在するものとする。
入力データ距離算出部221は、変換行列1041,1042を用いて、第1データ1031を中間データ1051に変換する。中間データ1051には、「項S」の変数値と「項R」の変数値の組み合わせに対応する量が設定されている。中間データ1051の「項S」の変数値には「S’1」または「S’2」が設定され、「項R」の変数値には「R’1」または「R’2」が設定されている。
中間データ1051の「量」の値は、「項S」の変数値と「項R」の変数値との乗算結果である。入力データ距離算出部221は、第1データ1031を変換行列1041,1042で変換することで、中間データ1051の「量」の値を算出する。例えば変数値「S’1」は、重み「−0.68」×「S1」+重み「−0.73」×「S2」である。変数値「S’2」は、重み「−0.73」×「S1」+重み「0.68」×「S2」である。変数値「R’1」は、重み「−0.32」×「R1」+重み「−0.94」×「R2」である。変数値「R’2」は、重み「−0.94」×「R1」+重み「0.32」×「R2」である。
このように、変換行列1041,1042を用いて、変数値「S’1」、「S’2」、「R’1」、「R’2」の値を、変数値「S1」、「S2」、「R1」、「R2」と、それらの重みで表すことができる。すると、変数値「S’1」または「S’2」と変数値「R’1」または「R’2」とを乗算すると、「S1×R1」、「S2×R1」、「S1×R2」、「S2×R2」のいずれを含む項が現れる。例えば「S1×R1」は、以下の式で表される。
S’1×R’1={(−0.68×S1)+(−0.73×S2)}×{(−0.32×R1)+(−0.94×R2)}
=(−0.68)×(−0.32)×S1×R1+(−0.73)×(−0.32)×S2×R1+(−0.68)×(−0.94)×S1×R2+(−0.73)×(−0.94)×S2×R2

入力データ距離算出部221は、「S1×R1」、「S2×R1」、「S1×R2」、「S2×R2」の値として、第1データ1031における対応する「量」の値を代入する。図18の例では、「S1×R1=1」、「S2×R1=0」、「S1×R2=1」、「S2×R2=1」である。その結果、中間データ1051における「量」の値が求まる。同様に、入力データ距離算出部221は、第2データ1032を変換行列1043,1044で変換して、中間データ1052を生成する。
入力データ距離算出部221は、中間データ1051,1052の間の類似度を計算する。例えば入力データ距離算出部221は、中間データ1051の「量」の各変数値を成分とするベクトルと、中間データ1052の「量」の各変数値を成分とするベクトルとを、長さ「1」に正規化後、内積を計算する。そして入力データ距離算出部221は、内積の結果を、中間データ1051,1052間の類似度とする。
このようにして計算される中間データ1051,1052間の類似度は、変換行列1041〜1044に設定されている重みに依存する。そこで入力データ距離算出部221は、類似度が高くなるように変換行列1041〜1044を更新する。変換行列1041〜1044の更新は、「項S」の変換行列1041,1043の更新と、「項R」の変換行列1042,1044の更新とが交互に行われる。
図19は、「項S」の変換行列の更新例を示す図である。「項S」の変換行列1041,1043を更新する場合、入力データ距離算出部221は、「項S」の変数を固定とし、「項S」以外の変数を変換して中間データ1053,1054を生成する。図19の例では、入力データ距離算出部221は、「項R」の変数値「R1」「R2」を変換行列1042、1044を用いて変換し、中間データ1053、1054を生成している。中間データ1053,1054の「量」の値は、「S1」または「S2」と「R’1」または「R’2」との乗算結果である。例えば第1データ1031の中間データ1053における「S1×R’1」は、変換行列1042に示される重みを用いて、「(−0.32)×S1×R1+(−0.94)×S1×R2」と表される。第1データ1031に基づいて、「S1×R1」と「S1×R2」とに値を設定すれば、「S1×R’1」の値が得られる。
第1データ1031と第2データ1032の中間データ1053,1054が生成されると、入力データ距離算出部221は、中間データ1053における「S1」、「S2」それぞれと、中間データ1054における「S1」、「S2」それぞれとの類似度を計算し、類似度行列1061を生成する。類似度行列1061の各行には、第1データ1031の「項S」の変数値が関連付けられており、類似度行列1061の各列には、第1データ1032の「項S」の変数値が関連付けられている。類似度行列1061の成分には、その成分が設定された行の変数値と列の変数値との類似度が設定されている。
例えば入力データ距離算出部221は、「項S」の各変数値それぞれについて、他の「項R」の各変数値との関係を示すベクトルを生成する。具体的には、入力データ距離算出部221は、中間データ1053の「S1」について、「R’1」と「R’2」とのそれぞれとの関係を示す「量」の値を成分とするベクトルv11を生成する。同様に入力データ距離算出部221は、中間データ1053の「S2」について、ベクトルv21を生成する。入力データ距離算出部221は、中間データ1054の「S1」について、ベクトルv12を生成する。入力データ距離算出部221は、中間データ1054の「S2」について、ベクトルv22を生成する。
入力データ距離算出部221は、ベクトルv11とベクトルv12との内積を、第1データ1031の「S1」と第2データ1032の「S1」との類似度として、類似度行列1061に設定する。入力データ距離算出部221は、ベクトルv11とベクトルv22との内積を、第1データ1031の「S1」と第2データ1032の「S2」との類似度として、類似度行列1061に設定する。入力データ距離算出部221は、ベクトルv21とベクトルv12との内積を、第1データ1031の「S2」と第2データ1032の「S1」との類似度として、類似度行列1061に設定する。入力データ距離算出部221は、ベクトルv21とベクトルv22との内積を、第1データ1031の「S2」と第2データ1032の「S2」との類似度として、類似度行列1061に設定する。
入力データ距離算出部221は、このようにして生成した類似度行列1061に基づいて、第1データ1031の「項S」変換用の変換行列1041aと第1データ1032の「項S」変換用の変換行列1043aとを生成する。例えば入力データ距離算出部221は、変換行列1041a,1043aからS’1、S’2を消去して1つの行列にしたときに類似度行列1061に最も類似するような、変換行列1041a,1043aを生成する。具体的には、入力データ距離算出部221は、類似度行列1061を特異値分解し、変換行列1041a,1043aを生成する。
類似度行列1061は、第1データ1031の「項S」変換用の変換行列1041を、生成した変換行列1041aに更新する。また類似度行列1061は、第2データ1032の「項S」変換用の変換行列1043を、生成した変換行列1043aに更新する。
このようにして、「項S」を固定して他の変数を変換することで、「項S」の変換行列が更新される。次に入力データ距離算出部221は、「項R」を固定して他の変数を変換することで、「項R」の変換行列を更新する。入力データ距離算出部221は、各変数の変換行列を更新したら、更新後の変換行列を用いて、第1データ1031と第1データ1032との中間データを生成し、中間データ間の類似度を計算する。入力データ距離算出部221は、例えば中間データ間の類似度が収束するまで、変換行列の更新を繰り返し行う。これにより中間データ間の類似度の最大値を得る変換行列が生成される。そして入力データ距離算出部221は、中間データ間の類似度の最大値を、第1データ1031と第2データ1032との類似度とする。
図18、図19に示した処理の手順をフローチャートで表すと図20のようになる。
図20は、類似度計算処理の手順の一例を示すフローチャートである。以下、図20に示す処理をステップ番号に沿って説明する。類似度計算処理は、類似度の比較対象となる2つのデータが入力されたときに実行される。
[ステップS101]入力データ距離算出部221は、変換行列を初期化する。例えば入力データ距離算出部221は、分類対象のデータの「量」以外の変数ごとに、変換行列を生成する。生成される変換行列は、対応する変数に含まれる変数値の数(同一の値の変数値は1つと数える)分の行と列とを有する正方行列である。変換行列の成分には、正規直交条件を満たしていれば、ランダムな値を設定することができる。例えば入力データ距離算出部221は、変換行列内のいくつかの成分の値をランダムに決定し、正規直交条件を満たすように他の成分の値を決定する。
[ステップS102]入力データ距離算出部221は、生成した変換行列を用いて、比較対象のデータそれぞれから中間データを生成する。
[ステップS103]入力データ距離算出部221は、中間データ間の類似度を算出する。入力データ距離算出部221は、算出した類似度をメモリに一時的に保存する。
[ステップS104]入力データ距離算出部221は、比較対象のデータの変数を1つ選択する。
[ステップS105]入力データ距離算出部221は、比較対象のデータそれぞれの変数値間の類似度を示す類似度行列を生成する。例えば入力データ距離算出部221は、比較対象のデータそれぞれについて、選択した変数以外の変数を変換行列で変換した中間データを生成する。そして入力データ距離算出部221は、中間データに示される変数値の量の値と、他の中間データに示される変数値の量の値との類似度を、それらの2つの変数値間の類似度を示す成分として、類似度行列に設定する。
[ステップS106]入力データ距離算出部221は、類似度行列に基づいて、選択した変数についての新たな変換行列を生成する。
[ステップS107]入力データ距離算出部221は、すべての変数を選択したか否かを判断する。すべての変数の選択が選択済みとなった場合、処理がステップS108に進められる。未選択の変数があれば、処理がステップS104に進められる。
[ステップS108]入力データ距離算出部221は、各変数について新たに生成した変換行列を用いて、比較対象のデータごとの中間データを生成する。
[ステップS109]入力データ距離算出部221は、ステップS109で生成した中間データ間の類似度を算出する。
[ステップS110]入力データ距離算出部221は、処理の終了条件が満たされたか否かを判断する。処理の終了条件とは、例えば類似度が収束したか、またはステップS104〜S110のループを所定回数以上繰り返したことである。処理の終了条件が満たされた場合、類似度計算処理が終了する。処理の終了条件が満たされていない場合、入力データ距離算出部221は、変数の選択状態を未選択に初期化して、処理をステップS104に進める。
このような手順で比較対象のデータ間の類似度を計算することができる。以下、図21〜24を参照して、類似度計算の具体例について説明する。
図21は、初期状態の変換行列を用いた中間データの生成例を示す図である。図21の例では、第1データ1031と第2データ1032とが比較対象のデータである。まず、第1データ1031の「項S」の変換行列1041と「項R」の変換行列1042とが初期化され、初期状態の変換行列1041,1042を用いて、第1データ1031が中間データ1051に変換される。同様に、第2データ1032の「項S」の変換行列1043と「項R」の変換行列1044とが初期化され、初期状態の変換行列1043,1044を用いて、第2データ1032が中間データ1052に変換される。そして、第1データ1031の中間データ1051と第2データ1032の中間データ1052との類似度が算出される。図11の例では、類似度が「0.40」である。
次に、変数「項S」が選択されたものとする。「項S」が選択されると、「項S」の変換行列が更新される。
図22は、「項S」の変換行列の更新例を示す図である。第1データ1031について、「項R」用の変換行列1042を用いて、「項S」以外の変数値を変換した中間データ1053が生成される。同様に第2データ1032について、「項R」用の変換行列1044を用いて、「項S」以外の変数値を変換した中間データ1054が生成される。次に、生成された2つの中間データ1053,1054それぞれの変数値間の類似度を示す類似度行列1061が生成される。そして類似度行列1061に基づいて、掛け合わせることで類似度行列1061と近似した値を得ることができる2つの変換行列1041a,1043aが生成される。
次に、変数「項R」が選択されたものとする。「項R」が選択されると、「項R」の変換行列が更新される。
図23は、「項R」の変換行列の更新例を示す図である。第1データ1031について、「項S」用の変換行列1041aを用いて、「項R」以外の変数値を変換した中間データ1055が生成される。同様に第2データ1032について、「項S」用の変換行列1043aを用いて、「項R」以外の変数値を変換した中間データ1056が生成される。次に、生成された2つの中間データ1055,1056それぞれの変数値間の類似度を示す類似度行列1062が生成される。そして類似度行列1062に基づいて、掛け合わせることで類似度行列1062と近似した値を得ることができる2つの変換行列1042a,1044aが生成される。
「項S」と「項R」とのそれぞれについて、変換行列の更新が終了すると、更新後の変換行列1041a,1042a,1043a,1044aに基づいて、中間データが生成される。
図24は、更新後の変換行列を用いた中間データの生成例を示す図である。更新後の変換行列1041a,1042aを用いて、第1データ1031から中間データ1053が生成される。同様に、更新後の変換行列1043a,1044aを用いて、第2データ1032から中間データ1054が生成される。そして、生成された中間データ1053,1054間の類似度が算出される。図24の例では、類似度は「0.91」である。
更新後の変換行列1041a,1042a,1043a,1044aを用いて生成した中間データ1053,1054間の類似度は、更新前の変換行列1041〜1044を用いて生成した中間データ1051,1052間の類似度(図18参照)よりも高くなっている。すなわち変換行列1041〜1044を更新したことにより、生成される中間データ間の類似度が高まっている。更新後の変換行列1041a,1042a,1043a,1044aに対して、さらに更新処理を行えば、中間データ間の類似度をさらに高めることができる。ただし更新処理を何度も繰り返すと、中間データ間の類似度の上昇度合いが鈍化し、ある程度の類似度に収束する。
入力データ距離算出部221は、例えば、類似度の上昇が所定値以下になったとき、最後に算出した中間データ間の類似度を、比較対象の第1データ1031と第2データ1032との類似度に決定する。入力データ距離算出部221は、決定した類似度から距離を算出し、入力データ距離記憶部222に格納する。
このように、変換行列を用いて生成した中間データ間の類似度により、複数のデータ間の類似度を決定するようにしたことで、類似度の判定精度が向上し、データ間の距離についての精度も向上する。
以下に、データに含まれる変数値の並べ替えのみによる類似度の計算例である比較例の図25および図26と、変換行列を用いて生成した中間データ間の類似度の計算例である図27および図28とについて説明する。
図25は、類似度計算の比較例を示す第1の図である。図25に示す第1データ1071と第2データ1072との類似度を計算する場合を想定する。人やモノの間の関係のしかたを分類するとき、第1データ1071を採取した期間に「S1」の装置が担っていた役割を、第2データ1072を採取した期間では「S2」の装置が担っている可能性がある。そこで図25の例では、通信元ホストや通信先ホストを、別の変数値に対応付けて、各データ内のレコードの並べ替えを行っている。
並べ替えにより、変換データ1073,1074が生成される。2つの変換データ1073,1074は、通信元ホスト、通信先ホスト、ポートの関係を示す変数値の組み合わせの順番が統一されている。図25の例では、変換データ1073,1074の最上位には、「S’1」、「R’1」、「P’1」の組み合わせを示すレコードが登録され、その次に「S’1」、「R’1」、「P’2」の組み合わせを示すレコードが登録されている。
このように変換データ1073,1074内に所定の順番で並べられた各レコードの量の値を比較することで、変換データ1073,1074間の類似度を算出できる。例えば、量の値を成分とするレベクトル間の内積が、類似度とされる。この場合、第1データ1071と第2データ1072との各変数値に、変換データ1073,1074のどの変数値を対応付けるかにより、類似度が変わってくる。そのため、対応付けのすべてのパタンについて変換データ1073,1074を生成し、類似度の最大化が図られる。そして、変換データ1073,1074から得られる類似度の最大値が、第1データ1071と第2データ1072との類似度と判定される。
図26は、類似度計算の比較例を示す第2の図である。図25に示した方法で類似度を計算したときの第1データ1071と第2データ1072との類似度が「0.89」である。同じ方法で、第1データ1071と第3データ1075との類似度を計算すると、同じく「0.89」となる。
ここで、第1データ1071と第2データ1072における通信先ホストとポートとの関係をみると、「量」の値が「1」以上のレコードに、{R1,P1}または{R2,P2}の組み合わせしか含まれていないことが分かる。それに対して第3データ1075では、「量」の値が「1」以上のレコードのなかに、{R1,P2}の組み合わせを含むものがある。そうすると、第1データ1071と第2データ1072とは、通信元ホストが分離・併合された前後での通信ログというだけで、類似の事象に関する通信ログである可能性が高い。それに対して、第3データ1075は、別の事象に関する通信ログであると考えられる。
しかし、図25に示した方法で類似度を計算すると、図26に示すように、第1データ1071から見たとき、第2データ1072と第3データ1075とのいずれとの間も類似度が同じとなる。すなわち、正しく類似度が計算されていない。
次に第1データ1071と第2データ1072との類似度、および第1データ1071と第3データ1075との類似度を、第2の実施形態に係る方法で計算した場合について、図27,図28を参照して説明する。
図27は、入力データ距離算出部221による類似度計算例を示す第1の図である。図27には、第1データ1071と第2データ1072との類似度の計算例を示している。第1データ1071について、通信元ホスト、通信先ホスト、ポートそれぞれに対応する変換行列1081−2〜1083−2が生成されている。これらの変換行列1081−2〜1083−2を用いて、第1データ1071が中間データ1091−2に変換されている。また第2データ1072について、通信元ホスト、通信先ホスト、ポートそれぞれに対応する変換行列1084〜1086が生成されている。これらの変換行列1084〜1086を用いて、第2データ1072が中間データ1092に変換されている。第1データ1071の中間データ1091と第2データ1072の中間データ1092との類似度は、「0.97」である。
図28は、入力データ距離算出部221による類似度計算例を示す第2の図である。図28には、第1データ1071と第3データ1075との類似度の計算例を示している。第1データ1071について、通信元ホスト、通信先ホスト、ポートそれぞれに対応する変換行列1081−3〜1083−3が生成されている。これらの変換行列1081−3〜1083−3を用いて、第1データ1071が中間データ1091−3に変換されている。第3データ1075について、通信元ホスト、通信先ホスト、ポートそれぞれに対応する変換行列1087〜1089が生成されている。これらの変換行列1087〜1089を用いて、第3データ1075が中間データ1093に変換されている。第1データ1071の中間データ1091−3と第3データ1075の中間データ1093との類似度は、「0.94」である。
図27と図28の類似度の計算結果から、第1データ1071は、第3データ1075よりも第2データ1072に類似していることが分かる。すなわち、変数値間の関係を正しく反映させた類似度計算により、類似度の計算制度が向上している。
しかも図25、図26に示したような方法で類似度の精度を上げようとすると、対応付けのすべてのパタンについて類似度を計算することとなり、計算量が膨大となる。
例えば、3項目の人またはものがあり、各項目の種類数がそれぞれ「A,B,C」(A,B,Cは1以上の整数)であるものとする。このとき、図25、図26に示した方法で類似度を計算すると、「A!B!C!」の数の組み合わせパタンについて類似度計算を行うこととなる。それに対して、入力データ距離算出部221による手法では、(A2+B2+C2)ABCに比例する計算量となる。これは「A,B,C」がそれぞれ「10,10,10」なら、約160,000,000,000,000倍高速となることを意味する。
以上のように、入力データ距離算出部221による類似度計算方法によれば、類似する事象がログ生成の過程で異なる状態で記録された場合でも、重みづけによる変換により、精度の高い類似度の判定を、効率的に実行することができ、精度の高い距離の判定を行うことができる。
〔その他の実施の形態〕
第2の実施形態では、単位期間ごとの通信ログ間の類似度および距離を計算する例を示したが、同じ技術により、他の様々な情報の類似度および距離を計算可能である。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
10 分類装置
110 収集部
112 入力データ記憶部
120 変換部
122 変換データ記憶部
130 分類部
132 学習結果記憶部
140 解析部
142 解析結果記憶部
20 要因推定装置
21 入力データの特徴空間
22 変換データの特徴空間
24 近似識別線
25−1〜25−4 説明ベクトル
26 点uにおける識別要因
210 抽出部
220 選別部
221 入力データ距離算出部
222 入力データ距離記憶部
223 変換データ距離算出部
224 変換データ距離記憶部
225 対象判定部
230 選別データ記憶部
240 推定部
242 学習結果記憶部

Claims (9)

  1. 入力データを変換した変換データに対し分類または判別を行う機械学習モデルの出力要因を推定する、推定モデルの学習データの選択を、コンピュータに実行させる学習データ選択プログラムであって、
    前記機械学習モデルへの入力データ群に含まれる第1の入力データの指定に応じ、前記第1の入力データに関連する第1の入力データ群を抽出し、
    前記第1の入力データ群に対応した、前記機械学習モデルに入力される第1の変換データ群、および、前記第1の変換データ群に対応した前記機械学習モデルの第1の出力データ群を、それぞれ取得し、
    前記第1の入力データと前記第1の入力データ群のデータそれぞれとの距離、および、前記第1の変換データと前記第1の変換データ群のデータそれぞれとの距離に基づき、前記第1の入力データ群から、前記推定モデルの学習対象データを選択する、
    ことを特徴とする学習データ選択プログラム。
  2. 請求項1記載の学習データ選択プログラムであって、
    前記抽出する処理は、前記第1の出力データ群に含まれる出力データそれぞれのデータ内容に基づき、学習対象データを抽出する、
    ことを特徴とする学習データ選択プログラム。
  3. 請求項2記載の学習データ選択プログラムであって、
    前記抽出する処理は、前記第1の出力データ群に含まれるデータ内容の比率に基づき、学習対象データを抽出する、
    ことを特徴とする学習データ選択プログラム。
  4. 請求項3記載の学習データ選択プログラムであって、
    前記抽出する処理は、前記第1の出力データ群に含まれるデータ内容の正例と負例の比率に基づき、学習対象データを抽出する、
    ことを特徴とする学習データ選択プログラム。
  5. 請求項1記載の学習データ選択プログラムであって、
    前記特定する処理は、データ取得タイミングが前記第1の入力データと所定の関係を有する入力データを前記第1の入力データ群と特定する、
    ことを特徴とする学習データ選択プログラム。
  6. 請求項1記載の学習データ選択プログラムであって、
    前記特定する処理は、データ生成元が前記第1の入力データと所定の関係を有する入力データを前記第1の入力データ群と特定する、
    ことを特徴とする学習データ選択プログラム。
  7. 請求項1記載の学習データ選択プログラムであって、
    前記抽出する処理は、前記第1の入力データと前記第1の入力データ群のデータそれぞれとの距離を、前記第1の入力データと前記第1の入力データ群のデータそれぞれとを個別に変換して算出する、
    ことを特徴とする学習データ選択プログラム。
  8. 入力データを変換した変換データに対し分類または判別を行う機械学習モデルの出力要因を推定する、推定モデルの学習データの選択方法であって、
    前記機械学習モデルへの入力データ群に含まれる第1の入力データの指定に応じ、前記第1の入力データに関連する第1の入力データ群を抽出し、
    前記第1の入力データ群に対応した、前記機械学習モデルに入力される第1の変換データ群、および、前記第1の変換データ群に対応した前記機械学習モデルの第1の出力データ群を、それぞれ記憶装置より取得し、
    前記第1の入力データと前記第1の入力データ群のデータそれぞれとの距離、および、前記第1の変換データと前記第1の変換データ群のデータそれぞれとの距離に基づき、前記第1の入力データ群から、前記推定モデルの学習対象データを選択する、
    ことを特徴とする学習データ選択方法。
  9. 入力データを変換した変換データに対し分類または判別を行う機械学習モデルの出力要因を推定する、推定モデルの学習データの選択装置であって、
    前記機械学習モデルへの入力データ群に含まれる第1の入力データの指定に応じ、前記第1の入力データに関連する第1の入力データ群を抽出する抽出部と、
    前記第1の入力データ群に対応した、前記機械学習モデルに入力される第1の変換データ群、および、前記第1の変換データ群に対応した前記機械学習モデルの第1の出力データ群を、それぞれ記憶装置より取得する選択部と、を有し、
    前記選択部は、前記第1の入力データと前記第1の入力データ群のデータそれぞれとの距離、および、前記第1の変換データと前記第1の変換データ群のデータそれぞれとの距離に基づき、前記第1の入力データ群から、前記推定モデルの学習対象データを選択する、
    ことを特徴とする学習データ選択装置。
JP2017179609A 2017-09-19 2017-09-19 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置 Active JP7000766B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017179609A JP7000766B2 (ja) 2017-09-19 2017-09-19 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置
EP18195436.3A EP3462386A3 (en) 2017-09-19 2018-09-19 Learning data selection program, learning data selection method, and learning data selection device
CN201811094204.0A CN109522922B (zh) 2017-09-19 2018-09-19 学习数据选择方法及设备以及计算机可读记录介质
US16/135,446 US11501203B2 (en) 2017-09-19 2018-09-19 Learning data selection method, learning data selection device, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017179609A JP7000766B2 (ja) 2017-09-19 2017-09-19 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置

Publications (2)

Publication Number Publication Date
JP2019056983A true JP2019056983A (ja) 2019-04-11
JP7000766B2 JP7000766B2 (ja) 2022-01-19

Family

ID=63642837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017179609A Active JP7000766B2 (ja) 2017-09-19 2017-09-19 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置

Country Status (4)

Country Link
US (1) US11501203B2 (ja)
EP (1) EP3462386A3 (ja)
JP (1) JP7000766B2 (ja)
CN (1) CN109522922B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021043888A (ja) * 2019-09-13 2021-03-18 Kddi株式会社 分類装置、学習装置、方法及びプログラム
US20210295182A1 (en) * 2020-03-23 2021-09-23 Hitachi, Ltd. Machine learning system and machine learning method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7279446B2 (ja) * 2019-03-20 2023-05-23 富士通株式会社 学習プログラム、学習方法、及び学習装置
US20210073686A1 (en) * 2019-09-06 2021-03-11 Yuan Yuan Ding Self-structured machine learning classifiers
CN114521268A (zh) * 2019-10-07 2022-05-20 松下知识产权经营株式会社 分类系统、分类方法以及程序
US11615330B2 (en) * 2020-03-18 2023-03-28 Kyndryl, Inc. Virtual subject matter expert provisioning
JP7478585B2 (ja) * 2020-04-28 2024-05-07 株式会社日立製作所 プログラム部品評価システム、及びプログラム部品評価方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP2017097718A (ja) * 2015-11-26 2017-06-01 株式会社リコー 識別処理装置、識別システム、識別処理方法、およびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315826B1 (en) * 1999-05-27 2008-01-01 Accenture, Llp Comparatively analyzing vendors of components required for a web-based architecture
US6957186B1 (en) * 1999-05-27 2005-10-18 Accenture Llp System method and article of manufacture for building, managing, and supporting various components of a system
WO2007147166A2 (en) * 2006-06-16 2007-12-21 Quantum Leap Research, Inc. Consilence of data-mining
US8301768B2 (en) * 2007-12-20 2012-10-30 Pottenger William M Peer-to-peer indexing-based marketplace
JP5178662B2 (ja) * 2009-07-31 2013-04-10 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
EP2538388B1 (en) * 2011-06-20 2015-04-01 Alcatel Lucent Method and arrangement for image model construction
US11100420B2 (en) * 2014-06-30 2021-08-24 Amazon Technologies, Inc. Input processing for machine learning
US9672474B2 (en) * 2014-06-30 2017-06-06 Amazon Technologies, Inc. Concurrent binning of machine learning data
US10339465B2 (en) * 2014-06-30 2019-07-02 Amazon Technologies, Inc. Optimized decision tree based models
US10540606B2 (en) * 2014-06-30 2020-01-21 Amazon Technologies, Inc. Consistent filtering of machine learning data
WO2016004075A1 (en) * 2014-06-30 2016-01-07 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
US10963810B2 (en) * 2014-06-30 2021-03-30 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
US9619753B2 (en) * 2014-12-30 2017-04-11 Winbond Electronics Corp. Data analysis system and method
US10769531B2 (en) * 2015-06-05 2020-09-08 Cisco Technology, Inc. Methods and systems for counting people
US10192051B2 (en) * 2015-06-17 2019-01-29 Accenture Global Services Limited Data acceleration
US9792534B2 (en) 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP2017097718A (ja) * 2015-11-26 2017-06-01 株式会社リコー 識別処理装置、識別システム、識別処理方法、およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021043888A (ja) * 2019-09-13 2021-03-18 Kddi株式会社 分類装置、学習装置、方法及びプログラム
JP7118938B2 (ja) 2019-09-13 2022-08-16 Kddi株式会社 分類装置、学習装置、方法及びプログラム
US20210295182A1 (en) * 2020-03-23 2021-09-23 Hitachi, Ltd. Machine learning system and machine learning method

Also Published As

Publication number Publication date
CN109522922A (zh) 2019-03-26
CN109522922B (zh) 2023-04-28
US20190087384A1 (en) 2019-03-21
EP3462386A3 (en) 2019-08-21
US11501203B2 (en) 2022-11-15
JP7000766B2 (ja) 2022-01-19
EP3462386A2 (en) 2019-04-03

Similar Documents

Publication Publication Date Title
JP7000766B2 (ja) 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置
JP6751235B2 (ja) 機械学習プログラム、機械学習方法、および機械学習装置
US10884891B2 (en) Interactive detection of system anomalies
US10210189B2 (en) Root cause analysis of performance problems
US10572822B2 (en) Modular memoization, tracking and train-data management of feature extraction
Kamburugamuve et al. Anatomy of machine learning algorithm implementations in MPI, Spark, and Flink
JP6898562B2 (ja) 機械学習プログラム、機械学習方法、および機械学習装置
US10883345B2 (en) Processing of computer log messages for visualization and retrieval
JP6898561B2 (ja) 機械学習プログラム、機械学習方法、および機械学習装置
US11551818B2 (en) Computer system and method of presenting information related to basis of predicted value output by predictor
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
US20170154107A1 (en) Determining term scores based on a modified inverse domain frequency
US10824694B1 (en) Distributable feature analysis in model training system
JP6773972B2 (ja) データ変換プログラム、データ変換方法、およびデータ変換装置
JPWO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN112116159A (zh) 信息交互方法、装置、计算机可读存储介质及电子设备
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
US20130007019A1 (en) Logic operation system
CN111522888A (zh) 挖掘兴趣点之间的竞争关系的方法和装置
Charlier et al. Profiling smart contracts interactions with tensor decomposition and graph mining
CN115472257A (zh) 一种招募用户的方法、装置、电子设备及存储介质
CN111177236B (zh) 基于医养照护场景的量表生成方法、系统、设备及介质
US9582782B2 (en) Discovering a reporting model from an existing reporting environment
US11500906B1 (en) Constraint optimization problem solving on subfeatures of a subgraph of a network with classification of features of verbal elements in subgraphs

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20180615

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211207

R150 Certificate of patent or registration of utility model

Ref document number: 7000766

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150