DE202023100327U1 - A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) - Google Patents
A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) Download PDFInfo
- Publication number
- DE202023100327U1 DE202023100327U1 DE202023100327.3U DE202023100327U DE202023100327U1 DE 202023100327 U1 DE202023100327 U1 DE 202023100327U1 DE 202023100327 U DE202023100327 U DE 202023100327U DE 202023100327 U1 DE202023100327 U1 DE 202023100327U1
- Authority
- DE
- Germany
- Prior art keywords
- features
- feature
- module
- dataset
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 12
- 230000009467 reduction Effects 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 6
- 230000002547 anomalous effect Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 230000001934 delay Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 16
- 230000008901 benefit Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2r,3r,4s,5r)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- 241000156978 Erebia Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Abstract
Ein System (100) zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS), wobei das System (100) Folgendes umfasst:
ein Datensatzsammelmodul (102) zur Erstellung eines Datensatzes (UNSW NB-15) mit modernen Angriffsvektoren;
ein Merkmalsextraktionsmodul (104), das mit dem Datensatzsammelmodul (102) verbunden ist, um den erzeugten Datensatz zu verarbeiten, um Merkmalssätze zu erzeugen, die zur Erzeugung von mehreren Klassen von Merkmalen führen, wobei die mehreren Klassen von Merkmalen mehrere Flussmerkmale, Basismerkmale, Inhaltsmerkmale, Zeitmerkmale und zusätzliche Merkmale umfassen;
ein Merkmalsreduktionsmodul (106), das mit dem Merkmalsextraktionsmodul (104) verbunden ist, um die extrahierten Merkmale auf der Grundlage des Relevanzniveaus zu reduzieren, um die Vorhersagerate des Angriffs zu verbessern; und
ein Klassifizierungsmodul (108), das mit dem Merkmalsreduktionsmodul (106) verbunden ist und ein neuronales Zweiklassennetz zur Vorhersage der erzeugten Mehrfachklassen von Merkmalen in einer Netzinstanz in eine Vielzahl von Klassen als anomal oder normal umfasst.
A system (100) for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS), the system (100) comprising:
a dataset collection module (102) for creating a dataset (UNSW NB-15) of modern attack vectors;
a feature extraction module (104) coupled to the data set collection module (102) for processing the generated data set to generate feature sets resulting in the generation of multiple classes of features, the multiple classes of features including multiple flow features, base features, content features , time features and additional features include;
a feature reduction module (106) connected to the feature extraction module (104) to reduce the extracted features based on the relevance level to improve the prediction rate of the attack; and
a classification module (108) coupled to the feature reduction module (106) and comprising a two-class neural network for predicting the generated multiple classes of features in a network instance into a plurality of classes as anomalous or normal.
Description
BEREICH DER ERFINDUNGFIELD OF THE INVENTION
Die vorliegende Erfindung bezieht sich auf ein Gebiet der Merkmalsreduktionssysteme. Insbesondere bezieht sich die vorliegende Erfindung auf ein System zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf MAMLS.The present invention relates to the field of feature reduction systems. In particular, the present invention relates to a system for feature relevance analysis and feature reduction on MAMLS.
HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION
Die Einheiten innerhalb einer Netztopologie werden aufgrund der Verbreitung moderner Angriffsvektoren, die die Vertraulichkeit, Integrität und Verfügbarkeit von Informationen bedrohen, ständig gefährdet. Die praktischen Probleme, die mit jedem Intrusion Detection System (IDS) verbunden sind, beziehen sich normalerweise auf die Erzeugung einer großen Anzahl von Fehlalarmen, wenn es neueren Angriffsarten ausgesetzt wird. Eine Voraussetzung für ein effektives Training des IDS ist die Verwendung eines modernen Datensatzes.The entities within a network topology are constantly at risk due to the proliferation of modern attack vectors that threaten the confidentiality, integrity and availability of information. The practical problems associated with any intrusion detection system (IDS) are usually related to generating large numbers of false positives when exposed to newer types of attacks. A prerequisite for effective training of the IDS is the use of a modern dataset.
Traditionelle Datensätze wie KDD cup 99 oder sein Nachfolger NSL-KDD scheinen nicht mehr die ideale Wahl zu sein, da es keine modernen Angriffsszenarien gibt.Traditional datasets like KDD cup 99 or its successor NSL-KDD no longer seem to be the ideal choice due to the lack of modern attack scenarios.
Die KDD-Cup-99- und NSL-KDD-Datensätze haben jedoch erhebliche Nachteile:
- • Im KDD-Cup 99 gibt es zahlreiche sich wiederholende Datensätze, die dazu führen, dass maschinelle Lerntechniken auf bestimmte Angriffsarten ausgerichtet sind.
- • Die Wahrscheinlichkeitsverteilung der Trainings- und Testdatensätze ist unterschiedlich, so dass es zu Verzerrungen kommt, anstatt normale und anomale Netzwerkinstanzen auszugleichen. NSL-KDD enthält keine modernen Angriffsmuster.
- • In the KDD-Cup 99, there are numerous repetitive datasets that result in machine learning techniques being targeted for specific types of attacks.
- • The probability distribution of the training and test datasets is different, so bias occurs instead of balancing normal and anomalous network instances. NSL-KDD does not contain modern attack patterns.
Um die oben genannten Nachteile zu überwinden, besteht daher die Notwendigkeit, ein System für die Analyse der Merkmalsrelevanz und die Merkmalsreduzierung auf MAMLS zu entwickeln. Dazu wird der UNSW NB-15-Datensatz herangezogen, um die Effizienz von neuronalen Zwei-Klassen-Netzen zu bewerten, die als Modul auf Microsoft Azure Machine Learning Studio (MAMLS) verfügbar sind, um prädiktive Analysen durchzuführen.Therefore, in order to overcome the above disadvantages, there is a need to develop a system for feature relevance analysis and feature reduction on MAMLS. To do this, the UNSW NB-15 dataset is used to evaluate the efficiency of two-class neural networks available as a module on Microsoft Azure Machine Learning Studio (MAMLS) to perform predictive analytics.
Der technische Fortschritt, der durch die vorliegende Erfindung offenbart wird, überwindet die Einschränkungen und Nachteile bestehender und konventioneller Systeme und Methoden.The technical advance disclosed by the present invention overcomes the limitations and disadvantages of existing and conventional systems and methods.
ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION
Die vorliegende Erfindung bezieht sich im Allgemeinen auf ein System zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio.The present invention relates generally to a feature relevance analysis and feature reduction system on Microsoft Azure Machine Learning Studio.
Ziel der vorliegenden Erfindung ist es, ein System zur Merkmalsrelevanzanalyse und Merkmalsextraktion zu entwickeln;The aim of the present invention is to develop a system for feature relevance analysis and feature extraction;
Ein weiteres Ziel der vorliegenden Erfindung ist es, die Effizienz von neuronalen Zwei-Klassen-Netzen zu bewerten, die als Modul auf MAMLS verfügbar sind, um prädiktive Analysen durchzuführen; undAnother objective of the present invention is to evaluate the efficiency of two-class neural networks available as a module on MAMLS to perform predictive analysis; and
Ein weiteres Ziel der vorliegenden Erfindung ist die kontinuierliche Aktualisierung vieler moderner Angriffsvektoren von der CVE-Website (Common Vulnerability Exposure), die Einträge von öffentlich bekannten Cybersicherheitsschwachstellen enthält.Another objective of the present invention is to continuously update many modern attack vectors from the CVE (Common Vulnerability Exposure) website, which contains entries of publicly known cybersecurity vulnerabilities.
In einer Ausführungsform ein System zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS), wobei das System Folgendes umfasst:
- ein Datensammelmodul zur Erstellung eines Datensatzes (UNSW NB-15) mit modernen Angriffsvektoren;
- ein Merkmalsextraktionsmodul, das mit dem Datensatzsammelmodul verbunden ist, um den erzeugten Datensatz zu verarbeiten, um Merkmalssätze zu erzeugen, die zur Erzeugung von mehreren Klassen von Merkmalen führen, wobei die mehreren Klassen von Merkmalen mehrere Flussmerkmale, Basismerkmale, Inhaltsmerkmale, Zeitmerkmale und zusätzliche Merkmale umfassen;
- ein Modul zur Merkmalsreduzierung, das mit dem Merkmalsextraktionsmodul verbunden ist, um die extrahierten Merkmale auf der Grundlage des Relevanzniveaus zu reduzieren, um die Vorhersagerate des Angriffs zu verbessern; und
- ein Klassifizierungsmodul, das mit dem Modul zur Merkmalsreduzierung verbunden ist und ein neuronales Zweiklassennetz zur Vorhersage der erzeugten Mehrfachklassen von Merkmalen in einer Netzinstanz in eine Vielzahl von Klassen als anomal oder normal umfasst.
- a data collection module to create a dataset (UNSW NB-15) of modern attack vectors;
- a feature extraction module connected to the data set collection module to process the generated data set to generate feature sets resulting in the generation of multiple classes of features, the multiple classes of features including multiple flow features, base features, content features, time features and additional features ;
- a feature reduction module connected to the feature extraction module to reduce the extracted features based on the relevance level to improve the prediction rate of the attack; and
- a classification module coupled to the feature reduction module and comprising a two-class neural network for predicting the generated multiple classes of features in a network instance into a plurality of classes as anomalous or normal.
In einer Ausführungsform wird der UNSW NB-15-Datensatz für die Cybersicherheit erstellt, um sowohl normale Aktivitäten als auch Angriffsmuster zu erzeugen.In one embodiment, the UNSW NB-15 cybersecurity record is created to generate both normal activity and attack patterns.
In einer Ausführungsform zeigt die Flussmerkmale grundlegende Informationen von jedem Netzwerk-Paket im Zusammenhang mit Internet-Protokoll (Ips), Port-Nummern und ein Protokoll in der Transaktion, wobei die grundlegenden Merkmale sind mehr in Richtung Time-to-live (TTL), Service, Paket zählt, und so weiter, wobei die Content-Features entsprechen Fenstergrößen von Quelle und Ziel, Die Zeitmerkmale beziehen sich auf Jitter (Verzögerungen) der Pakete im Netz, Ankunftszeit zwischen den Paketen, Umlaufzeit usw., und die zusätzlichen Merkmale konzentrieren sich in erster Linie auf die Anzahl der Datensätze oder Netzinstanzen mit denselben IPs, Portnummern, Flüssen in der FTP-Sitzung, demselben Dienst usw.In one embodiment, the flow characteristics shows basic information of each network packet related to internet protocol (ips), port numbers and a protocol involved in the transaction, where the basic characteristics are more towards time-to-live (TTL), Service, packet counts, and so on, where the content features correspond to source and destination window sizes, the timing features relate to jitter (delays) of packets in the network, arrival time between packets, round-trip time, etc., and the additional features focus primarily on the number of records or network instances with the same IPs, port numbers, flows in the FTP session, same service, etc.
In einer Ausführungsform enthält das neuronale Netz eine Kreuzentropie-Verlustfunktion zur Optimierung der Log-Wahrscheinlichkeit des Datensatzes.In one embodiment, the neural network includes a cross-entropy loss function to optimize the log-likelihood of the data set.
In einer Ausführungsform wird der Datensatz nach Durchführung der Min-Max-Klassifizierung durch das neuronale Netz standardisiert.In one embodiment, the data set is standardized by the neural network after the min-max classification has been performed.
In einer Ausführungsform umfasst das Modul zur Merkmalsreduzierung einen Meta-Schätzer zur Auswahl von Merkmalen auf der Grundlage von Bewertungen eines Schwellenwerts, wobei das Merkmal mit einer geringeren Bewertung als dem Schwellenwert irrelevant ist und eliminiert wird.In one embodiment, the feature reduction module includes a meta-estimator for selecting features based on scores of a threshold, wherein the feature with a score less than the threshold is irrelevant and eliminated.
Um die Vorteile und Merkmale der vorliegenden Erfindung weiter zu verdeutlichen, wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf spezifische Ausführungsformen davon, die in der beigefügten Figur dargestellt ist, gemacht werden. Es wird davon ausgegangen, dass diese Figur nur typische Ausführungsformen der Erfindung darstellt und daher nicht als Einschränkung ihres Umfangs zu betrachten ist. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit der beigefügten Figur beschrieben und erläutert werden.In order to further clarify the advantages and features of the present invention, a more detailed description of the invention will be made by reference to specific embodiments thereof illustrated in the attached figure. It is understood that this figure represents only typical embodiments of the invention and therefore should not be considered as limiting its scope. The invention will be described and illustrated with additional specificity and detail with the accompanying figure.
Figurenlistecharacter list
Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden besser verstanden, wenn die folgende detaillierte Beschreibung mit Bezug auf die beigefügte Figur gelesen wird, in der gleiche Zeichen gleiche Teile in der Figur darstellen, wobei:
-
1 ein Blockdiagramm eines Systems zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS) zeigt.
-
1 shows a block diagram of a system for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS).
Der Fachmann wird verstehen, dass die Elemente in der Figur der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren in Form der wichtigsten Schritte, die zum besseren Verständnis der Aspekte der vorliegenden Offenbarung beitragen. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in der Figur durch herkömmliche Symbole dargestellt sind, und dass die Figur nur die spezifischen Details zeigt, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind, um die Figur nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, leicht erkennbar sind.Those skilled in the art will understand that the elements in the figure are shown for simplicity and are not necessarily drawn to scale. For example, the flowcharts illustrate the method in terms of key steps that may aid in understanding aspects of the present disclosure. Furthermore, one or more components of the device in the figure may be represented by conventional symbols, and the figure only shows the specific details relevant to understanding the embodiments of the present disclosure, not to encircle the figure with details to overload, which are easily recognizable to those skilled in the art familiar with the present description.
DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION
Um das Verständnis der Erfindung zu fördern, wird nun auf die in der Figur dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.For the purposes of promoting an understanding of the invention, reference will now be made to the embodiment illustrated in the Figure and specific language will be used to describe the same. It should be understood, however, that no limitation on the scope of the invention is intended, and such alterations and further modifications to the illustrated system and such further applications of the principles of the invention set forth therein are contemplated as would occur to those skilled in the art invention would normally come to mind.
Der Fachmann wird verstehen, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und nicht als einschränkend angesehen werden.Those skilled in the art will understand that the foregoing general description and the following detailed description are exemplary and explanatory of the invention and are not to be taken as limiting.
Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.When this specification refers to "an aspect," "another aspect," or the like, it means that a particular feature, structure, or characteristic described in connection with the embodiment is present in at least one embodiment of the present invention. Therefore, the phrases "in one embodiment," "in another embodiment," and similar phrases throughout this specification may or may not all refer to the same embodiment.
Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte einschließt, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.The terms "comprises," "including," or other variations thereof are intended to cover non-exclusive inclusion, such that a method or method that includes a list of steps includes not only those steps, but may also include other steps that are not expressly stated or pertaining to any such process or method. Likewise, any device or subsystem or element or structure or component preceded by "comprises...a" does not, without further limitation, exclude the existence of other devices or other subsystem or other element or other structure or other component or additional device or additional subsystems or additional elements or additional structures or additional components.
Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden wird. Das System, die Methoden und die Beispiele, die hier angegeben werden, dienen nur der Veranschaulichung und sind nicht als Einschränkung gedacht.Unless otherwise defined, all technical and scientific terms used herein have the same meaning as commonly understood by one skilled in the art to which this invention pertains. The system, methods, and examples provided herein are for purposes of illustration only and are not intended to be limiting.
Ausführungsformen der vorliegenden Erfindung werden im Folgenden unter Bezugnahme auf die beigefügte Figur im Detail beschrieben.Embodiments of the present invention are described in detail below with reference to the attached figure.
Das Datensatzsammelmodul (102) zur Erstellung eines Datensatzes (UNSW NB-15) mit modernen Angriffsvektoren. Der UNSW NB-15-Datensatz wird für die Cybersicherheit erstellt, um sowohl normale Aktivitäten als auch Angriffsmuster zu erzeugen.The dataset collection module (102) to create a dataset (UNSW NB-15) with modern attack vectors. The UNSW NB-15 record is created for cyber security to generate both normal activity and attack patterns.
Das Merkmalsextraktionsmodul (104) ist mit dem Datensatzsammelmodul (102) verbunden, um den erzeugten Datensatz zu verarbeiten und Merkmalsätze zu erstellen, die zur Erzeugung mehrerer Klassen von Merkmalen führen, wobei die mehreren Klassen von Merkmalen mehrere Flussmerkmale, Basismerkmale, Inhaltsmerkmale, Zeitmerkmale und zusätzliche Merkmale umfassen. Die Flussmerkmale offenbaren grundlegende Informationen eines jeden Netzwerkpakets in Bezug auf das Internetprotokoll (Ips), Portnummern und ein Protokoll in der Transaktion, wobei die grundlegenden Merkmale eher in Richtung Time-to-Live (TTL), Service, Paketanzahl usw. tendieren, wobei die Inhaltsmerkmale den Fenstergrößen von Quelle und Ziel entsprechen, Die Zeitmerkmale beziehen sich auf Jitter (Verzögerungen) der Pakete im Netz, Ankunftszeit zwischen den Paketen, Umlaufzeit usw., und die zusätzlichen Merkmale konzentrieren sich in erster Linie auf die Anzahl der Datensätze oder Netzinstanzen mit denselben IPs, Portnummern, Flüssen in der FTP-Sitzung, demselben Dienst usw. The feature extraction module (104) interfaces with the dataset collection module (102) to process the generated dataset and create feature sets that result in the generation of multiple classes of features, the multiple classes of features including flow features, base features, content features, time features, and additional Features include. The flow characteristics reveal basic information of each network packet in terms of internet protocol (Ips), port numbers and a protocol in the transaction, with the basic characteristics leaning more towards time-to-live (TTL), service, packet count, etc., with the Content characteristics correspond to source and destination window sizes, timing characteristics relate to jitter (delays) of packets in the network, arrival time between packets, round trip time, etc., and additional characteristics focus primarily on the number of records or network instances containing them IPs, port numbers, flows in the FTP session, same service, etc.
In einer Ausführungsform wird das Argus-Tool zur Verarbeitung von pcap-Rohdateien und zur Erstellung von Merkmalssätzen verwendet, was zur Erzeugung von fünf Merkmalsklassen führt. Tabelle 1: Strömungsmerkmale
Das Modul zur Merkmalsreduktion (106) ist mit dem Modul zur Merkmalsextraktion (104) verbunden, um die extrahierten Merkmale auf der Grundlage des Relevanzniveaus zu reduzieren, um die Vorhersagerate des Angriffs zu verbessern. Das Modul zur Merkmalsreduzierung (106) umfasst einen Meta-Schätzer zur Auswahl von Merkmalen auf der Grundlage von Bewertungen eines Schwellenwerts, wobei das Merkmal, dessen Bewertung unter dem Schwellenwert liegt, irrelevant ist und eliminiert wird.The feature reduction module (106) is connected to the feature extraction module (104) to reduce the extracted features based on the relevance level to improve the prediction rate of the attack. The feature reduction module (106) includes a meta-estimator for selecting features based on scores of a threshold, where the feature whose score is below the threshold is irrelevant and eliminated.
Das Klassifizierungsmodul (108) ist mit dem Modul zur Merkmalsreduzierung (106) verbunden, das ein neuronales Zweiklassennetz zur Vorhersage der erzeugten Mehrfachklassen von Merkmalen in einer Netzinstanz in eine Vielzahl von Klassen als anomal oder normal umfasst. Das neuronale Netz enthält eine Kreuzentropie-Verlustfunktion zur Optimierung der Log-Likelihood des Datensatzes. Der Datensatz wird nach Durchführung der Min-Max-Klassifizierung durch das neuronale Netz standardisiert.The classification module (108) interfaces with the feature reduction module (106) which comprises a two-class neural network for predicting the generated multiple classes of features in a network instance into a plurality of classes as anomalous or normal. The neural network includes a cross-entropy loss function to optimize the log-likelihood of the dataset. The data set is standardized by the neural network after the min-max classification has been carried out.
In einer Ausführungsform beträgt die Anzahl der versteckten Knoten, die sowohl für die Aufgaben der Merkmalsrelevanz als auch der Merkmalsreduktion verwendet werden, 100. Die Standard-Lernrate ist bei MAMLS auf 0.1 festgelegt. In one embodiment, the number of hidden nodes used for both feature relevance and feature reduction tasks is 100. The default learning rate in MAMLS is set to 0.1.
Die Architektur des neuronalen Netzes verwendet eine Kreuzentropie-Verlustfunktion, die die logarithmische Wahrscheinlichkeit der Trainingsdaten gemäß Gleichung optimiert.1:
Um die Daten zu standardisieren, verwendet das neuronale Netzmodell die in Gl. 2 definierte Min-Max-Normalisierung:
Gemäß einer Ausführungsform ist Select From Model ein Meta-Schätzer, der in der ScikitLearn-Bibliothek zu finden ist und hauptsächlich zur Auswahl von Merkmalen auf der Grundlage ihrer Punktzahlen verwendet wird. Dreiundzwanzig Merkmale waren Bestandteil der Aufgabe der Merkmalsreduktion. Anschließend wurde ein neuronales Zweiklassennetz als Klassifikator verwendet. Es wurden auch verschiedene Kombinationen von Merkmalen mit mehr oder weniger als 23 Merkmalen ausprobiert, aber keine führte zu besseren Ergebnissen als die Kombination aus Zeit, Zusatz, Basis und Fluss (TABF). Tabelle 6 23 von Select From Model ausgewählte Merkmale
In einer Ausführungsform werden 31 Merkmalskombinationen untersucht und ihr Beitrag zum Klassifizierungsergebnis in Form von Genauigkeit, Präzision, Wiedererkennung, F1-Score und Fläche unter der Kurve (AUC) erläutert. Die Gleichungen 3-6 können zur Berechnung der Leistungskennzahlen verwendet werden.
Nach einer Ausführungsform hat eine Kombination von TABF (insgesamt 39 Merkmale) das beste Vorhersageergebnis erbracht, kann aber aufgrund der 39 Merkmale nicht als praktikabel angesehen werden und bietet somit reichlich Spielraum für eine Reduzierung der Merkmale.According to one embodiment, a combination of TABF (39 features in total) gave the best prediction result, but cannot be considered practical due to the 39 features and thus offers ample scope for reducing the features.
Für die Aufteilung der Daten ist eine Zufallsstichprobe vorzuziehen. Dabei wird die 80:20-Regel befolgt, um einen geringeren Schätzfehler zu erzielen, wie es dem weithin akzeptierten Grundsatz „Vorsicht ist besser“ entspricht. Sie ist besser geeignet, wenn die Datensätze heterogener Natur sind, wie z. B. bei UNSW NB-15, wo die Angriffsinstanzen (119,341) gegenüber den normalen Instanzen (56,000) überwiegen. Es wird eine zehnfache Kreuzvalidierung verwendet.A random sample is preferable for splitting the data. The 80:20 rule is followed to achieve a lower estimation error, in line with the widely accepted principle that "better safe than sorry". It is more appropriate when the datasets are heterogeneous in nature, such as B. At UNSW NB-15, where the attack instances (119,341) outweigh the normal instances (56,000). A 10-fold cross-validation is used.
Systeme zur Erkennung von Eindringlingen (IDS) haben immer mit zahlreichen Merkmalen zu tun, die bei falscher Auswahl die Leistung von IDS beeinträchtigen können. Ausgehend von dieser Behauptung ist es äußerst wichtig, eine Merkmalsanalyse durchzuführen, um die Leistung von IDS zu verstehen. Die Merkmalsanalyse könnte eine große Hilfe sein, um die Bedeutung jedes Merkmals zu erkennen, und die Merkmalsreduzierung bietet reichlich Spielraum für die Verwendung weniger Merkmale zur Verbesserung der Angriffserkennungsrate. Die Analyse der Merkmalsrelevanz wurde bisher noch nicht für den UNSW NB-15-Datensatz durchgeführt, obwohl einige Autoren eine Merkmalsreduzierung vorgenommen haben, um das Klassifizierungsergebnis zu verbessern.Intruder Detection Systems (IDS) always deal with numerous features that, if improperly selected, can affect the performance of IDS. Based on this claim, it is extremely important to perform a feature analysis to understand the performance of IDS. Feature analysis could be of great help in discerning the importance of each feature, and feature reduction provides ample scope for using fewer features to improve attack detection rate. Analysis of feature relevance has not yet been performed for the UNSW NB-15 dataset, although some authors have performed feature reduction to improve the classification result.
Nicht jedes Merkmal in einem Netzwerkdatensatz scheint für die Erkennung von Einbrüchen relevant zu sein. Als integraler Bestandteil dieser Arbeit wurde eine detaillierte Studie durchgeführt, um die Bedeutung jedes einzelnen Merkmals zu erkennen, ohne die die Merkmalsauswahl absurd wird.Not every feature in a network record appears to be relevant to intrusion detection. As an integral part of this work, a detailed study was carried out to recognize the importance of each and every feature, without which the feature selection becomes absurd.
Die Gründer von UNSW NB-15 haben den Mechanismus der Ableitung von 47 Merkmalen stark betont, aber es wurde nicht viel über die Anwendbarkeit von Merkmalsklassen erklärt.The founders of UNSW NB-15 heavily emphasized the mechanism of derivation of 47 traits, but not much was explained about the applicability of trait classes.
Um nur einige zu nennen: Kombinationen wie BAFC und TABF erbrachten eine gute Genauigkeit, können aber nicht als die beste Untergruppe von Merkmalen angesehen werden, da 39 Merkmale vorhanden sind, die in der Studie oft als unpraktisch angesehen werdenTo name a few, combinations such as BAFC and TABF yielded good accuracy but cannot be considered the best subset of traits as there are 39 traits that are often considered impractical in the study
Merkmalsrelevanzanalyse und Merkmalsreduktion von UNSW NB-15 331 des maschinellen Lernens.Feature Relevance Analysis and Feature Reduction of UNSW NB-15 331 Machine Learning.
Die Relevanz der Merkmale allein kann keine optimalen Ergebnisse garantieren, insbesondere wenn 39 Merkmale beteiligt sind. Daher ist eine Merkmalsreduktion unumgänglich. Der Gedanke hinter der Durchführung der Merkmalsreduktion war, zu untersuchen, ob es eine Merkmalsuntergruppe mit weniger als 39 Merkmalen gibt. Dies ebnete den Weg für die Merkmalsreduzierung, die schließlich zu besseren Vorhersagen führte, indem nur 23 Merkmale verwendet wurden, die von Select From Model abgerufen wurden. Wie bereits erläutert, wurde trotz der Verwendung von Klassifikatoren wie der logistischen Regression die höchste Genauigkeit mit 89.26 angegeben, aber die Experimentiersequenz mit MAMLS führte zu einer Genauigkeit von 97 %, die deutlich höher ist als bei den bestehenden Arbeiten.Relevance of features alone cannot guarantee optimal results, especially when 39 features are involved. Therefore, feature reduction is essential. The idea behind performing the feature reduction was to examine whether there is a feature subset with fewer than 39 features. This paved the way for feature reduction, which eventually led to better predictions by using only 23 features retrieved from Select From Model. As explained above, despite the use of classifiers such as logistic regression, the highest accuracy was reported as 89.26, but the experimental sequence using MAMLS resulted in an accuracy of 97%, which is significantly higher than the existing work.
Es ist erwähnenswert, dass das MAMLS-Modell des neuronalen Netzes bei der Erstellung optimaler Vorhersagen mit 23 Merkmalen, die bisher noch nicht erreicht wurden, mit dem UNSW NB-15-Datensatz recht erfolgreich war, was diese Arbeit offensichtlich zu etwas Besonderem macht.It is worth noting that the MAMLS neural network model was quite successful in making optimal predictions with 23 features that have not been achieved so far using the UNSW NB-15 dataset, which obviously makes this work special.
In dieser Arbeit wurde versucht, den UNSW NB-15-Datensatz gründlich zu untersuchen, indem seine fünf Merkmalsklassen berücksichtigt wurden. Eine methodische Untersuchung dieses Datensatzes war notwendig, um die Unterschiede in den Vorhersageraten, die durch verschiedene Kombinationen von Merkmalsklassen erzeugt werden, zu verstehen.This work attempted to thoroughly examine the UNSW NB-15 dataset by considering its five feature classes. A methodical investigation of this data set was necessary useful to understand the differences in prediction rates produced by different feature class combinations.
Die Merkmalsrelevanz half bei der Erkundung der Merkmale des Datensatzes, während die Merkmalsreduzierung zur Verbesserung des Klassifizierungsergebnisses beitrug.Feature relevance helped explore the features of the data set, while feature reduction helped improve the classification result.
Gemäß einer alternativen Ausführungsform kann eine Multiklassen-Klassifizierungsaufgabe untersucht werden, um die Relevanz von Merkmalsklassen für die Vorhersage eines bestimmten Angriffstyps zu bestimmen. Anschließend kann eine Merkmalsreduktion vorgenommen werden, um bessere Ergebnisse zu erzielen. Da MAMLS auch verschiedene andere Module als Detektoren anbietet, könnte die Leistungsbewertung dieser Detektoren ein möglicher Ansatzpunkt für Datenwissenschaftler sein.According to an alternative embodiment, a multi-class classification task can be examined to determine the relevance of feature classes for predicting a particular attack type. Feature reduction can then be performed to achieve better results. Since MAMLS also offers various modules other than detectors, the performance evaluation of these detectors could be a possible starting point for data scientists.
Die Figur und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. So kann beispielsweise die Reihenfolge der hier beschriebenen Prozesse geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können die Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.The figure and the preceding description give examples of embodiments. Those skilled in the art will understand that one or more of the elements described may well be combined into a single functional element. Alternatively, certain elements can be broken down into multiple functional elements. Elements from one embodiment may be added to another embodiment. For example, the order of the processes described herein may be changed and is not limited to the manner described herein. Additionally, the actions of a flowchart need not be performed in the order shown; Also, not all actions have to be carried out. Also, the actions that are not dependent on other actions can be performed in parallel with the other actions. The scope of the embodiments is in no way limited by these specific examples. Numerous variations are possible, regardless of whether they are explicitly mentioned in the description or not, e.g. B. Differences in structure, dimensions and use of materials. The scope of the embodiments is at least as broad as indicated in the following claims.
Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.Advantages, other benefits, and solutions to problems have been described above with respect to particular embodiments. However, the benefits, advantages, problem solutions, and components that can cause an advantage, benefit, or solution to occur or become more pronounced are not to be construed as a critical, required, or essential feature or component of any or all claims.
Bezugszeichenlistereference list
- 100100
- Ein System (100) zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS).A system (100) for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS).
- 102102
- Modul zur DatensatzerfassungRecord acquisition module
- 104104
- Modul zur MerkmalsextraktionFeature extraction module
- 106106
- Modul zur MerkmalsreduktionFeature reduction module
- 108108
- Modul zur Klassifizierung.Classification module.
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent Literature Cited
- CN 104050787 A [0003]CN 104050787A [0003]
- US 8887281 B2 [0004]US8887281B2 [0004]
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202023100327.3U DE202023100327U1 (en) | 2023-01-24 | 2023-01-24 | A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202023100327.3U DE202023100327U1 (en) | 2023-01-24 | 2023-01-24 | A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) |
Publications (1)
Publication Number | Publication Date |
---|---|
DE202023100327U1 true DE202023100327U1 (en) | 2023-02-10 |
Family
ID=85383841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE202023100327.3U Active DE202023100327U1 (en) | 2023-01-24 | 2023-01-24 | A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE202023100327U1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050787A (en) | 2013-03-12 | 2014-09-17 | 霍尼韦尔国际公司 | System and Method of Anomaly Detection with Categorical Attributes |
US8887281B2 (en) | 2002-01-25 | 2014-11-11 | The Trustees Of Columbia University In The City Of New York | System and methods for adaptive model generation for detecting intrusion in computer systems |
-
2023
- 2023-01-24 DE DE202023100327.3U patent/DE202023100327U1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8887281B2 (en) | 2002-01-25 | 2014-11-11 | The Trustees Of Columbia University In The City Of New York | System and methods for adaptive model generation for detecting intrusion in computer systems |
CN104050787A (en) | 2013-03-12 | 2014-09-17 | 霍尼韦尔国际公司 | System and Method of Anomaly Detection with Categorical Attributes |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112020001038T5 (en) | DETECTION OF PHISHING CAMPAIGNS | |
CN112398779B (en) | Network traffic data analysis method and system | |
CN109714322B (en) | Method and system for detecting network abnormal flow | |
DE102016203565B4 (en) | Identifying malicious web infrastructures | |
US10084822B2 (en) | Intrusion detection and prevention system and method for generating detection rules and taking countermeasures | |
DE102005010923B4 (en) | System, computer-usable medium and method for monitoring network activity | |
DE112016001742T5 (en) | Integrated community and role discovery in enterprise networks | |
DE112011103273B4 (en) | Method, computer program product and device for passing on identities across application levels using context-dependent assignment and set values | |
CN107370752B (en) | Efficient remote control Trojan detection method | |
DE102014211504A1 (en) | Method and system for obtaining and analyzing forensic data in a distributed computing infrastructure | |
US20230025695A1 (en) | Cross-site scripting (xss) risk analysis method and apparatus based on bayesian network and stride model | |
DE112016005266T5 (en) | Fast pattern detection for log analysis | |
DE112021004808T5 (en) | DETECTING MALWARE THROUGH ANALYSIS OF DISTRIBUTED TELEMETRY DATA | |
DE602005006156T2 (en) | SUPPRESSION OF FALSE ALARMS UNDER A MONITORED INFORMATION SYSTEM PRODUCED ALARMS | |
DE112019003854T5 (en) | FLOW CONTROL VISIBILITY | |
DE202022102631U1 (en) | Intelligent defense system against distributed Denial of Service (DDoS) attacks in Internet of Things (IoT) networks | |
DE202023100327U1 (en) | A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) | |
DE202022101746U1 (en) | A perception-based hashing system using Kaze feature descriptors for combinatorial manipulations | |
Callegari et al. | On the proper choice of datasets and traffic features for real-time anomaly detection | |
AT523948B1 (en) | Method for detecting abnormal operating states of a computer system | |
CN109784040B (en) | Misuse detection method for integrated electronic system | |
DE112020000116T5 (en) | DETECTION OF EXPLOIT KITS | |
DE112018001624T5 (en) | Data analysis device, method and program | |
DE202022100122U1 (en) | A system for detecting misconceptions and network-based attacks in network traffic | |
Masud et al. | A data driven firewall for faster packet filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R207 | Utility model specification | ||
R082 | Change of representative |
Representative=s name: LIPPERT STACHOW PATENTANWAELTE RECHTSANWAELTE , DE |