CN115087993A - 学习装置、学习方法以及学习程序 - Google Patents

学习装置、学习方法以及学习程序 Download PDF

Info

Publication number
CN115087993A
CN115087993A CN202080096228.9A CN202080096228A CN115087993A CN 115087993 A CN115087993 A CN 115087993A CN 202080096228 A CN202080096228 A CN 202080096228A CN 115087993 A CN115087993 A CN 115087993A
Authority
CN
China
Prior art keywords
learning
unit
representative point
communication data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080096228.9A
Other languages
English (en)
Inventor
山中友贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of CN115087993A publication Critical patent/CN115087993A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

学习装置(10)具有取得学习用的多个通信数据的取得部(131)、分别提取多个通信数据的特征量的特征量提取部(132)、使VAE模型(121)学习通信数据的特征量的学习部(1331)、使用kernel herding提取多个通信数据的特征量的代表点的代表点提取部(1332)、和输出由代表点提取部(1332)提取出的代表点的输出部。

Description

学习装置、学习方法以及学习程序
技术领域
本发明涉及学习装置、学习方法以及学习程序。
背景技术
随着IoTC(Internet of Things)时代的到来,多种设备(IoT设备)与因特网连接,被执行多种使用方法。作为这些IoT设备的安全对策,已知有面向IoT设备的流量会话异常检测系统或入侵检测系统(IDS:Intrusion Detection System)正在积极研究中。
在这样的异常检测系统中,例如有使用VAE(Variational Auto Encoder,变分自编码器)等的基于无监督学习的概率密度估计器的系统。在概率密度估计器的异常检测中,根据实际的通信生成被称为流量特征量的学习用高维数据,使用该特征量来学习正常的流量的特征,由此能够估计正常通信模式的发生概率。然后,使用已学习模型计算各通信的发生概率,将发生概率小的通信检测为异常。因此,即使不知道所有的恶性状态也能够进行异常检测,进而还具有能够应对未知的网络攻击的优点。
现有技术文献
非专利文献
非专利文献1Y.Chen,M.Welling and A.Smola,“Super-Samplesfrom KernelHerding”,In Proceedings of the 26thConferenceon Uncertainty in ArtificialIntelligence(UAI),pp.109-116,(2010)。
发明内容
发明要解决的课题
在实际运用中使用概率密度估计器的异常检测系统时,需要掌握异常检测系统将何种特征的通信视为正常的倾向。但是,作为异常检测系统的学习对象的IoT设备的通信多种多样,难以掌握其倾向。
具体地说,IoT设备在按照其每个类别使用多种协议进行通信的基础上,即使着眼于1个HTTP协议通信,通信的特征也是各种各样的,既有WebSocket那样的长时间持续的通信,也有页读入那样的瞬间结束的通信。因此,作为根据这些通信生成的学习用数据的流量特征量也变得多种多样,仅通过平均值或中央值的计算这样的简单的统计处理,学习用流量特征量的倾向把握也同样困难。如果不能掌握学习用流量特征量的倾向,则不知道异常检测系统将怎样的特征的通信视为正常,所以认为即使在异常检测系统中进行了检测也不能掌握检测理由,给运用带来障碍。
本发明是鉴于上述情况而完成的,其目的在于提供一种能够提供用于掌握学习用的流量特征量的倾向的数据的学习装置、学习方法以及学习程序。
解决课题的手段
为了解决上述课题,达成目的,本发明的学习装置的特征在于,具有:取得部,其取得学习用的多个通信数据;特征量提取部,其分别提取多个多个通信数据的特征量;学习部,其使生成模型学习通信数据的特征量;第1代表点提取部,其使用核集群(kernelherding),提取多个通信数据的特征量的代表点;及输出部,其输出由第1代表点提取部提取出的代表点。
本发明的学习方法,该学习方法由学习装置执行,该学习方法的特征在于,包括如下步骤:取得学习用的多个通信数据;分别提取多个通信数据的特征量;使生成模型学习通信数据的特征量;使用kernel herding提取多个通信数据的特征量的代表点;以及输出代表点。
另外,本发明的学习程序的特征在于,使计算机执行如下步骤:取得学习用的多个通信数据;分别提取多个通信数据的特征量;使生成模型学习通信数据的特征量;使用kernel herding提取多个通信数据的特征量的代表点;以及输出代表点。
发明的效果
根据本发明,能够提供用于掌握学习用的流量特征量的倾向的数据。
附图说明
图1是表示在混合高斯分布中进行了通常的随机采样和基于kernel herding的采样的比较实验的结果的图。
图2是表示实施方式中的通信系统的结构的一例的框图。
图3是对实施方式中的检测系统的处理流程进行说明的图。
图4是表示学习装置的结构的一例的图。
图5是表示检测装置的结构的一例的图。
图6是表示评价装置的结构的一例的图。
图7是表示实施方式的学习处理的处理过程的流程图。
图8是表示评价装置执行的评价处理的处理过程的流程图。
图9是说明实施方式中的检测系统的应用例的图。
图10是表示通过执行程序来实现检测系统的计算机的一例的图。
具体实施方式
以下,参照附图详细说明本发明的一实施方式。另外,本发明并不限定于该实施方式。另外,在附图的记载中,对同一部分标注同一符号来表示。此外,以下,对于作为矢量、矩阵或标量的A,在记载为“^A”的情况下,设为与[在“A”的正上方标记有“^”的记号]等同。
[实施方式]
在本实施方式中,使用被称为kernel herding的核方法,提取学习用流量特征量的代表点,由此,提供用于掌握学习用的流量特征量的倾向的信息。进而,在本实施方式中,在使用VAE这样的生成模型作为概率密度估计器的情况下,根据生成模型生成数据,使用kernel herding提取所生成的数据的代表点,由此提供用于掌握生成模型实际上将什么样的通信视为正常的信息。
[kernel herding]
首先,对kernel herding进行说明。Kernel herding被提出为用于获得采样序列的算法,该采样序列有效地利用核采样平均(1/T)∑tΦ(xt)来近似核平均mx(见非专利文献1)。在kernel herding中,按照(1),(2)式所示的更新式逐次地求出采样序列{xt}。
[数1]
xt+1=argmaxx<ht,Φ(xt)>…(1)
[数2]
ht+1=ht+mX-Φ(xt+1)…(2)
这里,mx是式(3)所示的数据集X的核平均。Φ(·)是特性映射。<·,·>表示伴随正定核的再生核希尔伯特空间上的内积。
[数3]
Figure BDA0003791283010000041
然而,通常不能直接获得核平均mx。因此,在实际执行kernel herding的算法时,将核平均置换为以足够多的样本近似的标本核平均^m=(1/N)∑nΦ(xn)((4),(5)式)。
[数4]
xt+1=argmaxx<ht,Φ(xt)>…(4)
[数5]
Figure BDA0003791283010000042
通过实验可知,即使进行该置换,也能够通过kernel herding求出有效的样本(参照非专利文献1)。
在本实施方式中,使用kernel herding作为从数据集中提取代表点的技术。当用于计算的正定核具有特征时,由kernel herding近似的核平均mx具有关于数据集X(参照(3)式)的分布的完整信息。
因此,用少量的数据点对通过kernel herding求出的核平均mx进行近似的采样序列能够视为数据集X的代表点的集合。图1(从非专利文献1引用)是表示在混合高斯分布中进行了通常的随机采样和基于kernel herding的采样的比较实验的结果的图。如图1所示,可知基于kernel herding的采样与随机采样相比,能够定性地提取[代表性的数据点]。
在本实施方式中,提出通过异常检测系统提取作为学习对象的流量特征量的代表点,来掌握异常检测系统视为正常的流量的倾向的方法。
[异常检测系统的结构]
说明本实施方式的通信系统。图2是表示实施方式中的通信系统的结构的一例的框图。如图2所示,在实施方式的通信系统1中,具有多个NW装置2和检测系统100经由网络N连接的结构。检测系统100与NW管理者等使用的用户终端3之间进行通信。
NW装置2在作为异常检测对象的流量中进行分组的采样。NW装置2将采样到的分组经由网络N传送给检测系统100。
检测系统100基于从NW装置2接收到的分组,使用通过无监督学习来学习流量特征量的生成模型,检测通信有无异常,将检测结果发送给系统管理者使用的用户终端3。检测系统100具有学习装置10、检测装置20以及评价装置30。
另外,生成模型是VAE那样的概率密度估计器。VAE通过学习流量特征量,在被输入流量特征量时输出异常分(异常度)。当噪声被输入到中间层时,VAE根据输入的噪声输出输出分布。
学习装置10根据从NW装置2接收到的分组,通过无监督学习使生成模型学习流量特征量。然后,学习装置10使用kernel herding,提取学习对象的流量特征量的代表点,将提取出的代表点作为生成模型的进行程度的评价用数据输出给用户终端3。
检测装置20使用通过学习装置10优化模型参数后的生成模型,检测异常检测对象的流量中的通信有无异常。
评价装置30根据由学习装置10学习完毕的生成模型生成多个数据,使用kernelherding提取这些多个数据的代表点,将提取出的代表点作为生成模型的进行程度的评价用数据输出给用户终端3。具体而言,评价装置30向VAE的中间层输入噪声,根据与这些噪声对应的输出分布进行采样,取得由生成模型生成的数据。从该生成模型生成的数据与将生成模型用作概率密度估计器时视为正常的数据对应。
[检测系统的处理流程]
接着,参照图3说明原理的流程。图3是对实施方式中的检测系统100的处理流程进行说明的图。
如图3所示,学习装置10根据经由学习对象的NW装置收集到的分组,提取学习用的流量特征量(参照图3的(1)),使VAE等生成模型学习所提取出的流量特征量(参照图3的(2))。与此同时,学习装置10提取基于kernel herding的学习用的流量特征量的代表点(参照图3的(3))。
假设学习用的流量特征量的数据集基本上仅包含正常的通信。在学习装置10中,使用VAE等概率密度估计器(生成模型),根据该数据集,学习视为正常的流量特征量。因此,学习用的流量特征量的代表点与检测系统100视为正常的流量特征量对应。在学习装置10中,通过使用kernel herding,可以自动提取代表性的通信的特征量,NW管理者可以根据这些特征量来掌握网络的倾向。
并且,在检测系统100中,评价装置30根据学习完毕的生成模型生成多个数据来制作数据集。评价装置30根据从VAE等采样的数据(参照图3的(4)),使用kernel herding提取代表点(参照图3的(5))。
这样,评价装置30能够提取VAE学习到的代表性通信。从生成模型生成的数据与将生成模型用作概率密度估计器时视为正常的数据对应。评价装置30通过使用kernelherding,能够更直接地掌握检测系统100视为正常的流量特征量。
NW管理者根据由学习装置10提取出的代表点来掌握学习用流量特征量的倾向。学习装置10中的kernel herding应用法在想要通过流量特征量的代表点掌握到网络的倾向时有用。
另外,NW管理者根据由评价装置30提取出的代表点,掌握生成模型实际上将什么样的特征的通信视为正常。换言之,NW管理者掌握生成模型能否生成正常的数据。评价装置30中的kernel herding应用法在想要掌握包括概率密度估计器在内的整个检测系统100视为正常的流量特征量时有用。
然后,NW管理者使用由学习装置10提取出的代表点与由评价装置30提取出的代表点之间的差分,进行生成模型的进行程度的评价。例如,在由学习设备10提取的代表点和由评估设备30提取的代表点之间的差分小于规定值的情况下,认为适当地进行了生成模型的学习,而在差分大于规定值的情况下,认为未适当地进行生成模型的学习。由此,NW管理者能够通过特征量级别来掌握生成模型是否适当地进行了学习。
[学习装置]
接着,对检测系统100的各装置的结构进行说明。首先,对学习装置10进行说明。图4是表示学习装置10的结构的一例的图。如图4所示,学习装置10具有通信部11、存储部12以及控制部13。
通信部11是在与经由网络等连接的其他装置之间收发各种信息的通信接口。通信部11由NIC(Network Interface Card,网络接口卡)等实现,经由LAN(Local AreaNetwork,局域网),因特网等电通信线路进行其他装置(例如,检测装置20以及评价装置30)与控制部13(后述)之间的通信。通信部11例如经由网络等与外部装置连接,接受学习对象的流量的分组的输入。
存储部12通过RAM(Random Access Memory)、闪存(Flash Memory)等半导体存储元件、或者硬盘、光盘等存储装置来实现,存储使学习装置10动作的处理程序、在处理程序的执行中使用的数据等。存储部12具有VAE模型1211。
VAE模型121是学习通信数据的特征量的生成模型。VAE模型121学习学习用的流量特征量。VAE模型121是概率密度估计器,学习学习用的通信数据的概率密度的特征。当有某一数据点xi的输入时,VAE模型121输出与该数据对应的异常分。若将概率密度的估计值设为p(xi),则异常分成为-logp(xi)的近似值。因此,VAE输出的异常分的值越高,表示该通信数据的异常度越高。
控制部13具有用于存储规定了各种处理顺序等的程序以及所需数据的内部存储器,通过它们执行各种处理。例如,控制部13是CPU(Central Processing Unit)或MPU(Micro Processing Unit)等电子电路。控制部13包括取得部131、特征量提取部132和模型学习部133。
取得部131取得学习用的多个通信数据。具体而言,取得部131经由学习对象的NW装置2取得学习用的多个分组。
特征量提取部132分别提取由取得部131取得的多个通信数据的特征量。特征量提取部132对学习用的多个分组实施统计处理,生成作为高维数据的流量特征量。
模型学习部133使用由特征量提取部132提取出的流量特征量,进行VAE模型121的学习。与此同时,模型学习部133使用kernel herding来提取作为学习对象的多个通信数据的特征量的代表点。模型学习部133包括学习部1331、代表点提取部1332和提示部1344。
学习部1331使VAE模型121学习由特征量提取部132提取出的通信数据的特征量。学习部1331使VAE模型121学习通信数据的概率密度的特征。学习部1331使用由特征量提取部132生成的流量特征量,将VAE模型121的参数优化。学习部1331经由通信部11将学习完毕的VAE模型121向检测装置20以及评价装置30输出。
代表点提取部1332使用kernel herding来提取学习用的多个通信数据的特征量的代表点。代表点提取部1332使用kernel herding从由特征量提取部132生成的学习对象的流量特征量的数据集中提取代表点。
提示部1333经由通信部11将由代表点提取部1332提取出的代表点输出到用户终端3,从而向NW管理者提示学习用的多个通信数据的特征量的代表点。
[检测装置]
接着,对检测装置20进行说明。图5是表示检测装置20的结构的一例的图。如图5所示,检测装置20具有通信部21、存储部22以及控制部23。
通信部21具有与图4所示的通信部11相同的功能,进行信息的输入输出或与其他装置(例如学习装置10)的通信。
存储部22具有与图4所示的存储部12相同的功能。存储部22具有VAE模型121。VAE模型121是由学习装置10学习完毕的模型。
控制部23具有与图4所示的控制部13相同的功能,控制检测装置20整体。控制部23通过各种程序进行动作而作为各种处理部发挥功能。控制部23具有取得部231、特征量提取部232以及检测部233。
取得部231取得检测对象的通信数据。具体而言,取得部131经由捕捉检测对象的流量的分组的NW装置2,取得检测对象的分组。
特征量提取部232具有与特征量提取部132相同的功能,根据由取得部231取得的检测对象的分组,生成流量特征量。
检测部233使用VAE模型121来检测检测对象的流量中有无异常。检测部233将由特征量提取部232生成的流量特征量输入到VAE模型121中,并取得所输出的异常分。检测部233在异常得分高于规定值的情况下,检测出检测对象的通信数据异常。另外,当异常分在规定值以下时,检测部233检测出检测对象的通信数据正常。
[评价装置]
接着,对评价装置30的结构进行说明。图6是表示评价装置30的结构的一例的图。如图6所示,评价装置30具有通信部31、存储部32以及控制部33。
通信部31具有与图4所示的通信部11相同的功能,进行信息的输入输出或与其他装置(例如学习装置10)的通信。
存储部32具有与图4所示的存储部12相同的功能。存储部32具有VAE模型121。VAE模型121是由学习装置10学习完毕的模型。
控制部33具有与图4所示的控制部13相同的功能,控制评价装置30整体。控制部33通过各种程序进行动作而作为各种处理部发挥功能。控制部33具有模型评价部331。
模型评价部331向NW管理者提示用于评价生成模型实际上将什么样的特征的通信视为正常的数据。模型评估部331包括数据生成部3311、代表点提取部3312和提示部3313。
数据生成部3311根据作为生成模型的VAE模型121生成多个数据。数据生成部3311向VAE模型121的中间层输入噪声,从VAE模型121的输出中取得与噪声对应的输出分布。
代表点提取部3312使用kernel herding提取由数据生成部3311生成的多个数据的代表点。
提示部3313通过通信部31向用户终端3输出由代表点提取部3312提取出的代表点,由此向NW管理者提示VAE模型121生成的数据的特征量的代表点。
[学习处理]
接着,对学习装置10执行的学习方法进行说明。图7是表示实施方式的学习处理的处理过程的流程图。
如图7所示,学习装置10取得学习用的多个分组(步骤S1),分别提取所取得的多个分组的流量特征量(步骤S2)。
学习装置10进行使VAE模型121学习流量特征量的学习处理(步骤S3),将学习完毕的VAE模型121向检测装置20以及评价装置30输出(步骤S4)。
然后,学习装置10使用kernel herding,从学习对象的流量特征量的数据集提取代表点(步骤S5),将提取出的代表点输出到用户终端3,由此,向NW管理者提示学习对象的流量特征量的代表点(步骤S6)。
[评价处理]
接着,对评价装置30执行的评价方法进行说明。图8是表示评价装置30执行的评价处理的处理步骤的流程图。
评价装置30根据作为生成模型的VAE模型121生成多个数据(步骤S11)。评价装置30使用kernel herding,提取在步骤S11中生成的多个数据的代表点(步骤S12)。
评价装置30通过向用户终端3输出在步骤S12中提取出的代表点,向NW管理者提示VAE模型121生成的数据的特征量的代表点(步骤S13)。
[实施例]
例如,本实施方式中的检测系统100能够应用于IoT设备的异常检测。图9是说明实施方式中的检测系统100的应用例的图。如图9所示,在连接有多个IoT设备4的网络5上设置检测系统100。此时,检测系统100收集IoT设备4收发的流量会话信息,进行正常流量会话的概率密度的学习以及异常流量会话的检测。
在检测系统100中,模型学习部133接收作为学习对象的多个分组,将学习了所接收到的多个分组的流量特征量的学习完毕的VAE模型输出到检测装置20以及评价装置30。
[实验]
实际上,使用kernel herding从学习用的流量特征量的数据集中提取代表点。具体而言,制作混合了2种通信(基于MQTT(Message Queue Telemetry Transport,消息队列遥测传输)的温度信息发送(500件)、基于RTMP(Real-Time Messaging Protocol,实时消息协议)的视频分发(300件))的数据集,进行基于kernel herding的代表点提取。其结果如表1所示。
[表1]
Figure BDA0003791283010000111
表1的第1行表示提取基于MQTT的通信的代表点的结果。当确认实际的数据集时,9成左右是上行字节444字节或者445字节的通信,分组数为7个,平均分组尺寸为0.04×1500字节,与通过人工提取出的代表点非常一致。
表1的第2行表示提取基于RTMP的通信的代表点的结果。如果通过目视确认实际的数据,则偏差相当大,但平均会话持续时间为6500秒左右,平均上行分组尺寸为0.119×1500字节左右等,与通过人工提取的代表点很好地一致。
这样,能够确认通过人工(具体而言,系统管理的熟练者)提取出的流量特征量与使用kernel herding自动提取出的流量特征量非常一致。
[实施方式的效果]
这样,本实施方式的学习装置10分别提取多个通信数据的特征量,使生成模型学习通信数据的特征量。
与此同时,学习装置10使用kernel herding,提取多个通信数据的特征量的代表点,将提取出的代表点输出到用户终端3,由此,向NW管理者提供用于掌握学习用的流量特征量的倾向的数据。
由此,NW管理者可以根据通信数据的特征量的代表点来掌握VAE模型121视为正常的特征量,并且还可以通过通信数据的特征量的代表点来掌握网络的倾向。
并且,如上述的实验结果所示,本实施方式的使用kernel herding自动提取出的流量特征量与手动提取出的流量特征量非常一致。因此,根据本实施方式,能够不使用人工而使用kernel herding来适当地提取学习用的流量特征量的代表点,所以,能够减轻系统管理者的负担。此外,根据本实施方式,适当地提取学习用的流量特征量的代表点,并作为数据输出,因此,任何人都能够使用该数据,根据这些特征量进行网络特征量的分析,能够实现熟练者的运转削减。
进而,本实施方式的评价装置30根据VAE模型121生成多个数据,使用kernelherding,提取所生成的多个数据的代表点,将提取出的代表点输出到用户终端3。
根据由该评价装置30提取出的代表点,NW管理者可以掌握VAE模型121实际将什么样的特征的通信视为正常。换言之,NW管理者可以掌握VAE模型121能否生成正常的数据。
因此,根据本实施方式,能够定性地掌握包含到VAE模型121为止的检测系统100整体视为正常的流量特征量。
并且,NW管理者通过使用由学习装置10提取出的代表点与由评价装置30提取出的代表点之间的差分,能够以特征量级别来掌握VAE模型121的进行程度的评价。
[系统结构等]
图示的各装置的各构成要素是功能概念性的要素,不一定需要在物理上如图示那样构成。即,各装置的分散/合并的具体方式不限于图示的方式,可以根据各种负荷或使用状况等,以任意的单位功能性或物理性地分散,合并其全部或一部分而构成。此外,由每个装置执行的每个处理功能的全部或任意部分可以通过CPU和由CPU分析和执行的程序来实现,或者可以通过使用布线逻辑的硬件来实现。
另外,在本实施方式中说明的各处理中,作为自动进行的处理而说明的处理的全部或一部分也可以手动进行,或者,作为手动进行的处理而说明的处理的全部或一部分也可以通过公知的方法自动进行。此外,除非另有说明,否则可以任意改变包括处理过程,控制过程,具体名称以及各种数据和参数的信息。
[程序]
图10是表示通过执行程序来实现检测系统100的计算机的一例的图。计算机1000例如具有存储器1010、CPU1020。另外,计算机1000具有硬盘驱动器接口1030、盘驱动器接口1040、串行端口接口1050、视频适配器1060、网络接口1070。这些各部通过总线1080连接。
存储器1010包括ROM(Read Only Memory)1011以及RAM1012。ROM1011存储例如BIOS(Basic Input Output System)等引导程序。硬盘驱动器接口1030连接到硬盘驱动器1090。盘驱动器接口1040连接到盘驱动器1100。例如磁盘或光盘等可装卸的存储介质被插入到盘驱动器1100中。串行端口接口1050例如与鼠标1110、键盘1120连接。视频适配器1060例如连接到显示器1130。
硬盘驱动器1090例如存储OS(Operating System,操作系统)1091、应用程序1092、程序模块1093、程序数据1094。即,规定检测系统100的各处理的程序被安装为记述有能够由计算机执行的代码的程序模块1093。程序模块1093存储在例如硬盘驱动器1090中。例如,用于执行与检测系统100的功能配置相同的处理的程序模块1093存储在硬盘驱动器1090中。硬盘驱动器1090可以由SSD(Solid State Drive,固态硬盘)代替。
在上述实施方式的处理中使用的设置数据作为程序数据1094被存储在例如存储器1010或硬盘驱动器1090中。然后,CPU1020根据需要将存储在存储器1010或硬盘驱动器1090中的程序模块1093或程序数据1094读出到RAM1012中执行。
程序模块1093和程序数据1094不限于存储在硬盘驱动器1090中的情况,例如也可以存储在可装卸的存储介质中,通过盘驱动器1100等由CPU1020读出。或者,程序模块1093和程序数据1094也可以存储在通过网络(LAN、WAN(Wide Area Network)等)连接的其他计算机中。然后,程序模块1093和程序数据1094也可以由CPU1020经由网络接口1070从其他计算机读出。
以上,对应用了由本发明人完成的发明的实施方式进行了说明,但本发明并不限定于构成本实施方式的本发明的公开的一部分的记述和附图。即,本领域技术人员等基于本实施方式做出的其他实施方式,实施例以及运用技术等全部包含在本发明的范畴内。
符号说明
1 通信系统
2 NW装置
3 用户终端
4 IoT设备
5 N网络
10 学习装置
11,21,31 通信部
12,22,32 存储部
13,23,33 控制部
20 检测装置
30 评价装置
100 检测系统
121 VAE模型
131,231 取得部
132,232 特征量提取部
133 模型学习部
233 检测部
331 模型评价部
1331 学习部
1332,3312 代表点提取部
1333,3313 提示部
3311 数据生成部

Claims (5)

1.一种学习装置,其特征在于,具有:
取得部,其取得学习用的多个通信数据;
特征量提取部,其分别提取所述多个通信数据的特征量;
学习部,其使生成模型学习所述通信数据的特征量;
第1代表点提取部,其使用核集群,提取所述多个通信数据的特征量的代表点;及
输出部,其输出由所述第1代表点提取部提取的代表点。
2.根据权利要求1所述的学习装置,其特征在于,
该学习装置具有:
生成部,其从所述生成模型生成多个数据;及
第2代表点提取部,其使用所述核集群,提取所述多个数据的代表点,
所述输出部输出由所述第2代表点提取部提取的代表点。
3.根据权利要求2所述的学习装置,其特征在于,
由所述第1代表点提取部提取的代表点与由所述第2代表点提取部提取的代表点之间的差分在所述生成模型的进行程度的评价中使用。
4.一种学习方法,由学习装置执行,该学习方法的特征在于,包括如下工序:
取得学习用的多个通信数据;
分别提取所述多个通信数据的特征量;
使生成模型学习所述通信数据的特征量;
使用核集群,提取所述多个通信数据的特征量的代表点;及
输出所述代表点。
5.一种学习程序,其用于使计算机执行如下步骤:
取得学习用的多个通信数据;
分别提取所述多个通信数据的特征量;
使生成模型学习所述通信数据的特征量;
使用核集群,提取所述多个通信数据的特征量的代表点;及
输出所述代表点。
CN202080096228.9A 2020-02-14 2020-02-14 学习装置、学习方法以及学习程序 Pending CN115087993A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/005908 WO2021161538A1 (ja) 2020-02-14 2020-02-14 学習装置、学習方法及び学習プログラム

Publications (1)

Publication Number Publication Date
CN115087993A true CN115087993A (zh) 2022-09-20

Family

ID=77293032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080096228.9A Pending CN115087993A (zh) 2020-02-14 2020-02-14 学习装置、学习方法以及学习程序

Country Status (6)

Country Link
US (1) US20220374780A1 (zh)
EP (1) EP4092581A4 (zh)
JP (1) JP7405231B2 (zh)
CN (1) CN115087993A (zh)
AU (1) AU2020428327B2 (zh)
WO (1) WO2021161538A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6853955B2 (ja) 2017-10-03 2021-04-07 日本電気株式会社 人流パターン推定システム、人流パターン推定方法および人流パターン推定プログラム
JP7091872B2 (ja) * 2018-06-21 2022-06-28 日本電信電話株式会社 検知装置及び検知方法

Also Published As

Publication number Publication date
JP7405231B2 (ja) 2023-12-26
WO2021161538A1 (ja) 2021-08-19
AU2020428327B2 (en) 2023-11-16
JPWO2021161538A1 (zh) 2021-08-19
EP4092581A1 (en) 2022-11-23
US20220374780A1 (en) 2022-11-24
AU2020428327A1 (en) 2022-09-08
EP4092581A4 (en) 2023-09-06

Similar Documents

Publication Publication Date Title
EP3206366B1 (en) An anomaly alert system for cyber threat detection
Wang et al. Botnet detection based on anomaly and community detection
US8856923B1 (en) Similarity-based fraud detection in adaptive authentication systems
CN107292154B (zh) 一种终端特征识别方法及系统
CN113468071B (zh) 模糊测试用例生成方法、系统、计算机设备及存储介质
US20210092132A1 (en) Systems and methods for securing industrial networks
CN109918498B (zh) 一种问题入库方法和装置
CN113206860B (zh) 一种基于机器学习和特征选择的DRDoS攻击检测方法
Djidjev et al. Graph based statistical analysis of network traffic
Washha et al. A topic-based hidden Markov model for real-time spam tweets filtering
US20200112578A1 (en) System and method for detecting bots based on anomaly detection of javascript or mobile app profile information
CN109462580B (zh) 训练流量检测模型、检测业务流量异常的方法及装置
EP3796599B1 (en) Evaluation device and evaluation method
Li Detection of ddos attacks based on dense neural networks, autoencoders and pearson correlation coefficient
Chakraborty et al. Industrial control system device classification using network traffic features and neural network embeddings
CN115087993A (zh) 学习装置、学习方法以及学习程序
Abdalla et al. Impact of packet inter-arrival time features for online peer-to-peer (P2P) classification
CN112688897A (zh) 一种流量识别的方法、装置、存储介质及电子设备
Wang et al. Deep CNN-RNN with Self-Attention Model for Electric IoT Traffic Classification
Kiechle et al. PREUNN: Protocol Reverse Engineering using Neural Networks.
CN114021637A (zh) 一种基于度量空间下去中心化应用加密流量分类方法及装置
Zhai et al. An encrypted traffic identification scheme based on the multilevel structure and variational automatic encoder
CN113095426A (zh) 一种加密流量分类方法、系统、设备及可读存储介质
CN112380406B (zh) 一种基于爬虫技术的实时网络流量分类方法
CN115150165B (zh) 一种流量识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination