JP2020113044A - データ拡張プログラム、データ拡張方法およびデータ拡張装置 - Google Patents
データ拡張プログラム、データ拡張方法およびデータ拡張装置 Download PDFInfo
- Publication number
- JP2020113044A JP2020113044A JP2019003474A JP2019003474A JP2020113044A JP 2020113044 A JP2020113044 A JP 2020113044A JP 2019003474 A JP2019003474 A JP 2019003474A JP 2019003474 A JP2019003474 A JP 2019003474A JP 2020113044 A JP2020113044 A JP 2020113044A
- Authority
- JP
- Japan
- Prior art keywords
- data
- tensor
- teacher data
- learning
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000010801 machine learning Methods 0.000 claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 48
- 238000010586 diagram Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
図1は、実施例1にかかるデータ拡張装置10を説明する図である。図1に示すデータ拡張装置10は、教師データから生成されるテンソルデータによるディープテンソルの学習結果を用いて、学習に利用された教師データを拡張した教師データである拡張教師データを生成するコンピュータ装置の一例である。例えば、データ拡張装置10は、正常な通信ログ(正例)か攻撃などの異常な通信ログ(負例)かを判別するための教師データとして、収集数が少ない異常な通信ログを拡張した異常な通信ログを生成する。
図4は、実施例1にかかるデータ拡張装置10の機能構成を示す機能ブロック図である。図4に示すように、データ拡張装置10は、通信部11、記憶部12、制御部20を有する。
次に、データ拡張処理の流れを説明する。上述したデータ拡張は、次元ごとのスコアのうち最大スコアの要素を追加する処理を説明した。しかし、拡張教師データの精度を向上させるためにも、エッジまで拡張して、要素の追加判定を行うことが好ましい。
上述したように、データ拡張装置10は、正のスコアとなるように要素を基準データに追加することで、攻撃亜種のデータを生成することができるので、ディープテンソルの学習に寄与する拡張教師データを生成することができる。図15は、スコアに応じたデータ選択を説明する図である。図15に示すように、基準となる攻撃データに対して、スコアが0以上の要素を追加することは、基準の攻撃データと同じクラス(攻撃)のデータを生成することになる。
図16は、具体例を説明する図である。図16では、データ拡張処理により追加される拡張教師データの具体例を説明する。図16には、端末(*.*.*.4)からサーバ(*.*.*.2)への通信の一連の活動が示される。
上記実施例で用いた次元数、テンソルの構成例、数値、データ例、ラベルの設定値等は、あくまで一例であり、任意に変更することができる。また、教師データの例として、通信ログを例示したが、他のデータを用いることもできる。例えば、振込元、振込先、振込回数などを有する振込履歴などの関係データに対しても上記実施例を適用することもできる。なお、拡張対象の教師データも正例または負例のいずれであってもよい。また、基準データの選択は、例えば分類確率が50%以上のうち最も分類確率が小さく、かつ、拡張対象のラベルが設定される教師データを選択することができる。
また、上記データ拡張装置10は、拡張教師データを用いて、ディープテンソルの再学習や線形モデルの再学習を実行することもできる。この結果、ディープテンソルの分類精度を向上させることができ、線形モデルの精度も向上させることができる。
上記実施例で説明したディープテンソルの学習や線形モデルの学習は、例示したものに限定されず、公知の手法を用いることもできる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
図17は、ハードウェア構成例を説明する図である。図17に示すように、データ拡張装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図17に示した各部は、バス等で相互に接続される。
11 通信部
12 記憶部
13 教師データDB
14 学習結果DB
15 拡張教師データDB
20 制御部
21 DT学習部
22 線形学習部
23 データ拡張部
24 内積部
25 特定部
26 生成部
27 逆変換部
Claims (8)
- コンピュータに、
グラフ構造を有する教師データを変換したテンソル形式のテンソルデータによる機械学習において前記機械学習に寄与する部分的なテンソルデータを特定し、
前記部分的なテンソルデータと前記教師データとに基づいて、前記機械学習に用いられる、前記教師データを拡張した拡張教師データを生成する、
処理を実行させることを特徴とするデータ拡張プログラム。 - 前記機械学習は、ニューラルネットワークを用いたテンソルデータを入力とする学習であり、
前記特定する処理は、前記機械学習時に最適化される、教師データからコアテンソルを生成するときに用いられる各次元の要素行列から、前記部分的なテンソルデータを特定することを特徴とする請求項1に記載のデータ拡張プログラム。 - 前記ニューラルネットワークの出力結果を局所的に近似する線形モデルを、前記コアテンソルを用いて学習する処理を前記コンピュータにさらに実行させ、
前記特定する処理は、前記各次元の要素行列それぞれと、前記線形モデルから得られる各次元の回帰係数それぞれとの内積を算出し、最も値が大きい各次元の要素を、前記部分的なテンソルデータとして特定することを特徴とする請求項2に記載のデータ拡張プログラム。 - 前記生成する処理は、前記各次元の要素行列それぞれに、特定された前記各次元の要素それぞれを追加した新たな各次元の要素行列を生成し、前記新たな各次元の要素行列と、拡張の基準となる教師データから抽出されるコアテンソルとを用いた逆変換により、前記拡張教師データに対応するテンソルデータを生成することを特徴とする請求項3に記載のデータ拡張プログラム。
- 前記生成する処理は、前記ニューラルネットワークの出力結果である分類確率が閾値未満かつ拡張させたいラベルが設定される教師データを、前記拡張の基準となる教師データとして選択することを特徴とする請求項4に記載のデータ拡張プログラム。
- 生成された前記拡張教師データを用いて、学習済みである前記ニューラルネットワークの再学習を実行する処理を前記コンピュータにさらに実行させることを特徴とする請求項2に記載のデータ拡張プログラム。
- コンピュータが、
グラフ構造を有する教師データを変換したテンソル形式のテンソルデータによる機械学習において前記機械学習に寄与する部分的なテンソルデータを特定し、
前記部分的なテンソルデータと前記教師データとに基づいて、前記機械学習に用いられる、前記教師データを拡張した拡張教師データを生成する、
処理を実行することを特徴とするデータ拡張方法。 - グラフ構造を有する教師データを変換したテンソル形式のテンソルデータによる機械学習において前記機械学習に寄与する部分的なテンソルデータを特定する特定部と、
前記部分的なテンソルデータと前記教師データとに基づいて、前記機械学習に用いられる、前記教師データを拡張した拡張教師データを生成する生成部と、
を有することを特徴とするデータ拡張装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019003474A JP7172612B2 (ja) | 2019-01-11 | 2019-01-11 | データ拡張プログラム、データ拡張方法およびデータ拡張装置 |
US16/728,314 US11556785B2 (en) | 2019-01-11 | 2019-12-27 | Generation of expanded training data contributing to machine learning for relationship data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019003474A JP7172612B2 (ja) | 2019-01-11 | 2019-01-11 | データ拡張プログラム、データ拡張方法およびデータ拡張装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020113044A true JP2020113044A (ja) | 2020-07-27 |
JP7172612B2 JP7172612B2 (ja) | 2022-11-16 |
Family
ID=71666310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019003474A Active JP7172612B2 (ja) | 2019-01-11 | 2019-01-11 | データ拡張プログラム、データ拡張方法およびデータ拡張装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11556785B2 (ja) |
JP (1) | JP7172612B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022044336A1 (ja) * | 2020-08-31 | 2022-03-03 | 富士通株式会社 | データ生成プログラム、方法及び装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11868437B1 (en) * | 2019-09-30 | 2024-01-09 | Sighthound, Inc. | Training set enhancement for neural networks |
US20220121880A1 (en) * | 2020-10-15 | 2022-04-21 | Snark AI, Inc. | Managing and streaming a plurality of large-scale datasets |
WO2023141937A1 (en) * | 2022-01-28 | 2023-08-03 | Nvidia Corporation | Tensor modification based on processing resources |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140317034A1 (en) * | 2013-04-23 | 2014-10-23 | Dan Kushnir | Data classification |
JP2022508737A (ja) * | 2018-10-13 | 2022-01-19 | アイ・ピー・ラリー テクノロジーズ オイ | 自然言語文書を検索するシステム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001075790A2 (en) * | 2000-04-03 | 2001-10-11 | 3-Dimensional Pharmaceuticals, Inc. | Method, system, and computer program product for representing object relationships in a multidimensional space |
JP2007334755A (ja) | 2006-06-16 | 2007-12-27 | Hitachi Software Eng Co Ltd | 学習データ生成装置及びオブジェクト判別装置、並びにプログラム |
JP6751235B2 (ja) * | 2016-09-30 | 2020-09-02 | 富士通株式会社 | 機械学習プログラム、機械学習方法、および機械学習装置 |
JP6178480B1 (ja) * | 2016-10-20 | 2017-08-09 | 株式会社Fronteo | データ分析システム、その制御方法、プログラム、及び、記録媒体 |
-
2019
- 2019-01-11 JP JP2019003474A patent/JP7172612B2/ja active Active
- 2019-12-27 US US16/728,314 patent/US11556785B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140317034A1 (en) * | 2013-04-23 | 2014-10-23 | Dan Kushnir | Data classification |
JP2022508737A (ja) * | 2018-10-13 | 2022-01-19 | アイ・ピー・ラリー テクノロジーズ オイ | 自然言語文書を検索するシステム |
Non-Patent Citations (2)
Title |
---|
丸橋 弘治: "研究開発最前線 人やモノのつながりを表すグラフデータから新たな知見を導く新技術Deep Tensor", FUJITSU, vol. 68, no. 5, JPN6022040699, 1 September 2017 (2017-09-01), pages 29 - 35, ISSN: 0004887003 * |
堰澤 映: "人工的に生成した道路シーンを用いた道路標識認識器の学習", 電子情報通信学会技術研究報告, vol. 118, no. 362, JPN6022040700, 6 December 2018 (2018-12-06), pages 73 - 78, ISSN: 0004887004 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022044336A1 (ja) * | 2020-08-31 | 2022-03-03 | 富士通株式会社 | データ生成プログラム、方法及び装置 |
JP7388566B2 (ja) | 2020-08-31 | 2023-11-29 | 富士通株式会社 | データ生成プログラム、方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7172612B2 (ja) | 2022-11-16 |
US11556785B2 (en) | 2023-01-17 |
US20200257974A1 (en) | 2020-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7169369B2 (ja) | 機械学習アルゴリズムのためのデータを生成する方法、システム | |
JP7322044B2 (ja) | レコメンダシステムのための高効率畳み込みネットワーク | |
JP2020113044A (ja) | データ拡張プログラム、データ拡張方法およびデータ拡張装置 | |
US11429863B2 (en) | Computer-readable recording medium having stored therein learning program, learning method, and learning apparatus | |
EP1504412A2 (en) | Processing mixed numeric and/or non-numeric data | |
JP7047498B2 (ja) | 学習プログラム、学習方法および学習装置 | |
CN113011529B (zh) | 文本分类模型的训练方法、装置、设备及可读存储介质 | |
JP2019159576A (ja) | 学習プログラム、学習方法および学習装置 | |
CN110019017B (zh) | 一种基于访问特征的高能物理文件存储方法 | |
CN112487406B (zh) | 一种基于机器学习的网络行为分析方法 | |
JP2020098388A (ja) | 需要予測方法、需要予測プログラムおよび需要予測装置 | |
CN117313683A (zh) | 元数据处理方法、装置、服务器及存储介质 | |
US11853858B2 (en) | Chart building user interface providing machine learned chart recommendations | |
CN112348041A (zh) | 日志分类、日志分类训练方法及装置、设备、存储介质 | |
JP7172067B2 (ja) | 学習プログラム、学習方法および学習装置 | |
WO2024004083A1 (ja) | データ生成装置、データ生成方法、およびプログラム | |
Kaedi et al. | Holographic memory-based Bayesian optimization algorithm (HM-BOA) in dynamic environments | |
CN111625817B (zh) | 异常用户识别方法、装置、电子设备及存储介质 | |
WO2021255841A1 (ja) | 情報検索装置、情報検索方法、及びコンピュータ読み取り可能な記録媒体 | |
Li | Efficient and Effective Mining of Time Series | |
Heijblom | Using features of models to improve state space exploration | |
Juttiga et al. | Based on Image Search a Unique Feature Subset Selection Process For High Proportional Clustering | |
JP2024029644A (ja) | 評価用データ出力装置、評価用データ出力方法及び評価用データ出力プログラム | |
CN116776139A (zh) | 特征提取器的训练方法、装置、设备和存储介质 | |
CN117272123A (zh) | 一种基于大模型的敏感数据处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7172612 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |