DE202023100327U1 - A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) - Google Patents

A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) Download PDF

Info

Publication number
DE202023100327U1
DE202023100327U1 DE202023100327.3U DE202023100327U DE202023100327U1 DE 202023100327 U1 DE202023100327 U1 DE 202023100327U1 DE 202023100327 U DE202023100327 U DE 202023100327U DE 202023100327 U1 DE202023100327 U1 DE 202023100327U1
Authority
DE
Germany
Prior art keywords
features
feature
module
dataset
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202023100327.3U
Other languages
German (de)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE202023100327.3U priority Critical patent/DE202023100327U1/en
Publication of DE202023100327U1 publication Critical patent/DE202023100327U1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Abstract

Ein System (100) zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS), wobei das System (100) Folgendes umfasst:
ein Datensatzsammelmodul (102) zur Erstellung eines Datensatzes (UNSW NB-15) mit modernen Angriffsvektoren;
ein Merkmalsextraktionsmodul (104), das mit dem Datensatzsammelmodul (102) verbunden ist, um den erzeugten Datensatz zu verarbeiten, um Merkmalssätze zu erzeugen, die zur Erzeugung von mehreren Klassen von Merkmalen führen, wobei die mehreren Klassen von Merkmalen mehrere Flussmerkmale, Basismerkmale, Inhaltsmerkmale, Zeitmerkmale und zusätzliche Merkmale umfassen;
ein Merkmalsreduktionsmodul (106), das mit dem Merkmalsextraktionsmodul (104) verbunden ist, um die extrahierten Merkmale auf der Grundlage des Relevanzniveaus zu reduzieren, um die Vorhersagerate des Angriffs zu verbessern; und
ein Klassifizierungsmodul (108), das mit dem Merkmalsreduktionsmodul (106) verbunden ist und ein neuronales Zweiklassennetz zur Vorhersage der erzeugten Mehrfachklassen von Merkmalen in einer Netzinstanz in eine Vielzahl von Klassen als anomal oder normal umfasst.

Figure DE202023100327U1_0000
A system (100) for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS), the system (100) comprising:
a dataset collection module (102) for creating a dataset (UNSW NB-15) of modern attack vectors;
a feature extraction module (104) coupled to the data set collection module (102) for processing the generated data set to generate feature sets resulting in the generation of multiple classes of features, the multiple classes of features including multiple flow features, base features, content features , time features and additional features include;
a feature reduction module (106) connected to the feature extraction module (104) to reduce the extracted features based on the relevance level to improve the prediction rate of the attack; and
a classification module (108) coupled to the feature reduction module (106) and comprising a two-class neural network for predicting the generated multiple classes of features in a network instance into a plurality of classes as anomalous or normal.
Figure DE202023100327U1_0000

Description

BEREICH DER ERFINDUNGFIELD OF THE INVENTION

Die vorliegende Erfindung bezieht sich auf ein Gebiet der Merkmalsreduktionssysteme. Insbesondere bezieht sich die vorliegende Erfindung auf ein System zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf MAMLS.The present invention relates to the field of feature reduction systems. In particular, the present invention relates to a system for feature relevance analysis and feature reduction on MAMLS.

HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION

Die Einheiten innerhalb einer Netztopologie werden aufgrund der Verbreitung moderner Angriffsvektoren, die die Vertraulichkeit, Integrität und Verfügbarkeit von Informationen bedrohen, ständig gefährdet. Die praktischen Probleme, die mit jedem Intrusion Detection System (IDS) verbunden sind, beziehen sich normalerweise auf die Erzeugung einer großen Anzahl von Fehlalarmen, wenn es neueren Angriffsarten ausgesetzt wird. Eine Voraussetzung für ein effektives Training des IDS ist die Verwendung eines modernen Datensatzes.The entities within a network topology are constantly at risk due to the proliferation of modern attack vectors that threaten the confidentiality, integrity and availability of information. The practical problems associated with any intrusion detection system (IDS) are usually related to generating large numbers of false positives when exposed to newer types of attacks. A prerequisite for effective training of the IDS is the use of a modern dataset.

CN104050787A offenbart ein Verfahren und eine Vorrichtung zur Erkennung von Anomalien mit kategorischen Attributen. Das Verfahren umfasst das Erkennen einer Vielzahl von Ereignissen, die sich auf die Aktivitäten von Benutzern innerhalb eines Sicherheitssystems beziehen, wobei die Ereignisse durch eine Vielzahl von Attributen definiert sind, wobei mindestens ein Attribut kategorisch ist und wobei ein Datenabstand zwischen den Ereignissen eine Funktion der Ereignisattribute ist, das Auswerten der erkannten Ereignisse unter Verwendung eines dichtebasierten Anomalieerkennungsverfahrens f(r), wobei r eine Größe einer Nachbarschaft um einen Datenpunkt herum ist, das Vergleichen eines Wertes des ausgewerteten Ausdrucks mit einem Randschwellenwert (msg(r)) und das Setzen eines Alarms, wenn erkannt wird, dass der Wert den Schwellenwert überschreitet. CN104050787A discloses a method and apparatus for detecting anomalies with categorical attributes. The method includes detecting a plurality of events related to user activities within a security system, the events being defined by a plurality of attributes, at least one attribute being categorical, and a data spacing between the events being a function of the event attributes is, evaluating the detected events using a density-based anomaly detection method f(r), where r is a size of a neighborhood around a data point, comparing a value of the evaluated expression to a marginal threshold (msg(r)), and setting an alarm , when the value is detected as exceeding the threshold.

US8887281B2 offenbart ein System und Verfahren zur Erkennung von Eingriffen in den Betrieb eines Computersystems, das einen Sensor umfasst, der so konfiguriert ist, dass er Informationen über den Betrieb des Computersystems erfasst, die Informationen in einem Datensatz formatiert und den Datensatz überträgt. Eine Datenbank ist so konfiguriert, dass sie den Datensatz von dem Sensor empfängt und den Datensatz speichert. Ein Erkennungsmodellgenerator ist so konfiguriert, dass er Datensätze von der Datenbank anfordert, ein Einbruchserkennungsmodell erzeugt und das Einbruchserkennungsmodell an die Datenbank übermittelt. Ein Detektor ist so konfiguriert, dass er einen Datensatz vom Sensor empfängt und den Datensatz in Echtzeit als normalen Betrieb oder als Angriff klassifiziert. Ein Datenanalysegerät ist so konfiguriert, dass es Datensätze von der Datenbank anfordert und eine Datenverarbeitungsfunktion für die Datensätze durchführt. US8887281B2 discloses a system and method for detecting intrusions into the operation of a computer system, comprising a sensor configured to collect information about the operation of the computer system, to format the information into a data set, and to transmit the data set. A database is configured to receive the data set from the sensor and store the data set. A detection model generator is configured to request records from the database, generate an intrusion detection model, and submit the intrusion detection model to the database. A detector is configured to receive a data set from the sensor and classify the data set as normal operation or an attack in real time. A data analysis device is configured to request data sets from the database and perform a data processing function on the data sets.

Traditionelle Datensätze wie KDD cup 99 oder sein Nachfolger NSL-KDD scheinen nicht mehr die ideale Wahl zu sein, da es keine modernen Angriffsszenarien gibt.Traditional datasets like KDD cup 99 or its successor NSL-KDD no longer seem to be the ideal choice due to the lack of modern attack scenarios.

Die KDD-Cup-99- und NSL-KDD-Datensätze haben jedoch erhebliche Nachteile:

  • • Im KDD-Cup 99 gibt es zahlreiche sich wiederholende Datensätze, die dazu führen, dass maschinelle Lerntechniken auf bestimmte Angriffsarten ausgerichtet sind.
  • • Die Wahrscheinlichkeitsverteilung der Trainings- und Testdatensätze ist unterschiedlich, so dass es zu Verzerrungen kommt, anstatt normale und anomale Netzwerkinstanzen auszugleichen. NSL-KDD enthält keine modernen Angriffsmuster.
However, the KDD-Cup-99 and NSL-KDD records have significant disadvantages:
  • • In the KDD-Cup 99, there are numerous repetitive datasets that result in machine learning techniques being targeted for specific types of attacks.
  • • The probability distribution of the training and test datasets is different, so bias occurs instead of balancing normal and anomalous network instances. NSL-KDD does not contain modern attack patterns.

Um die oben genannten Nachteile zu überwinden, besteht daher die Notwendigkeit, ein System für die Analyse der Merkmalsrelevanz und die Merkmalsreduzierung auf MAMLS zu entwickeln. Dazu wird der UNSW NB-15-Datensatz herangezogen, um die Effizienz von neuronalen Zwei-Klassen-Netzen zu bewerten, die als Modul auf Microsoft Azure Machine Learning Studio (MAMLS) verfügbar sind, um prädiktive Analysen durchzuführen.Therefore, in order to overcome the above disadvantages, there is a need to develop a system for feature relevance analysis and feature reduction on MAMLS. To do this, the UNSW NB-15 dataset is used to evaluate the efficiency of two-class neural networks available as a module on Microsoft Azure Machine Learning Studio (MAMLS) to perform predictive analytics.

Der technische Fortschritt, der durch die vorliegende Erfindung offenbart wird, überwindet die Einschränkungen und Nachteile bestehender und konventioneller Systeme und Methoden.The technical advance disclosed by the present invention overcomes the limitations and disadvantages of existing and conventional systems and methods.

ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION

Die vorliegende Erfindung bezieht sich im Allgemeinen auf ein System zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio.The present invention relates generally to a feature relevance analysis and feature reduction system on Microsoft Azure Machine Learning Studio.

Ziel der vorliegenden Erfindung ist es, ein System zur Merkmalsrelevanzanalyse und Merkmalsextraktion zu entwickeln;The aim of the present invention is to develop a system for feature relevance analysis and feature extraction;

Ein weiteres Ziel der vorliegenden Erfindung ist es, die Effizienz von neuronalen Zwei-Klassen-Netzen zu bewerten, die als Modul auf MAMLS verfügbar sind, um prädiktive Analysen durchzuführen; undAnother objective of the present invention is to evaluate the efficiency of two-class neural networks available as a module on MAMLS to perform predictive analysis; and

Ein weiteres Ziel der vorliegenden Erfindung ist die kontinuierliche Aktualisierung vieler moderner Angriffsvektoren von der CVE-Website (Common Vulnerability Exposure), die Einträge von öffentlich bekannten Cybersicherheitsschwachstellen enthält.Another objective of the present invention is to continuously update many modern attack vectors from the CVE (Common Vulnerability Exposure) website, which contains entries of publicly known cybersecurity vulnerabilities.

In einer Ausführungsform ein System zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS), wobei das System Folgendes umfasst:

  • ein Datensammelmodul zur Erstellung eines Datensatzes (UNSW NB-15) mit modernen Angriffsvektoren;
  • ein Merkmalsextraktionsmodul, das mit dem Datensatzsammelmodul verbunden ist, um den erzeugten Datensatz zu verarbeiten, um Merkmalssätze zu erzeugen, die zur Erzeugung von mehreren Klassen von Merkmalen führen, wobei die mehreren Klassen von Merkmalen mehrere Flussmerkmale, Basismerkmale, Inhaltsmerkmale, Zeitmerkmale und zusätzliche Merkmale umfassen;
  • ein Modul zur Merkmalsreduzierung, das mit dem Merkmalsextraktionsmodul verbunden ist, um die extrahierten Merkmale auf der Grundlage des Relevanzniveaus zu reduzieren, um die Vorhersagerate des Angriffs zu verbessern; und
  • ein Klassifizierungsmodul, das mit dem Modul zur Merkmalsreduzierung verbunden ist und ein neuronales Zweiklassennetz zur Vorhersage der erzeugten Mehrfachklassen von Merkmalen in einer Netzinstanz in eine Vielzahl von Klassen als anomal oder normal umfasst.
In one embodiment, a system for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS), the system comprising:
  • a data collection module to create a dataset (UNSW NB-15) of modern attack vectors;
  • a feature extraction module connected to the data set collection module to process the generated data set to generate feature sets resulting in the generation of multiple classes of features, the multiple classes of features including multiple flow features, base features, content features, time features and additional features ;
  • a feature reduction module connected to the feature extraction module to reduce the extracted features based on the relevance level to improve the prediction rate of the attack; and
  • a classification module coupled to the feature reduction module and comprising a two-class neural network for predicting the generated multiple classes of features in a network instance into a plurality of classes as anomalous or normal.

In einer Ausführungsform wird der UNSW NB-15-Datensatz für die Cybersicherheit erstellt, um sowohl normale Aktivitäten als auch Angriffsmuster zu erzeugen.In one embodiment, the UNSW NB-15 cybersecurity record is created to generate both normal activity and attack patterns.

In einer Ausführungsform zeigt die Flussmerkmale grundlegende Informationen von jedem Netzwerk-Paket im Zusammenhang mit Internet-Protokoll (Ips), Port-Nummern und ein Protokoll in der Transaktion, wobei die grundlegenden Merkmale sind mehr in Richtung Time-to-live (TTL), Service, Paket zählt, und so weiter, wobei die Content-Features entsprechen Fenstergrößen von Quelle und Ziel, Die Zeitmerkmale beziehen sich auf Jitter (Verzögerungen) der Pakete im Netz, Ankunftszeit zwischen den Paketen, Umlaufzeit usw., und die zusätzlichen Merkmale konzentrieren sich in erster Linie auf die Anzahl der Datensätze oder Netzinstanzen mit denselben IPs, Portnummern, Flüssen in der FTP-Sitzung, demselben Dienst usw.In one embodiment, the flow characteristics shows basic information of each network packet related to internet protocol (ips), port numbers and a protocol involved in the transaction, where the basic characteristics are more towards time-to-live (TTL), Service, packet counts, and so on, where the content features correspond to source and destination window sizes, the timing features relate to jitter (delays) of packets in the network, arrival time between packets, round-trip time, etc., and the additional features focus primarily on the number of records or network instances with the same IPs, port numbers, flows in the FTP session, same service, etc.

In einer Ausführungsform enthält das neuronale Netz eine Kreuzentropie-Verlustfunktion zur Optimierung der Log-Wahrscheinlichkeit des Datensatzes.In one embodiment, the neural network includes a cross-entropy loss function to optimize the log-likelihood of the data set.

In einer Ausführungsform wird der Datensatz nach Durchführung der Min-Max-Klassifizierung durch das neuronale Netz standardisiert.In one embodiment, the data set is standardized by the neural network after the min-max classification has been performed.

In einer Ausführungsform umfasst das Modul zur Merkmalsreduzierung einen Meta-Schätzer zur Auswahl von Merkmalen auf der Grundlage von Bewertungen eines Schwellenwerts, wobei das Merkmal mit einer geringeren Bewertung als dem Schwellenwert irrelevant ist und eliminiert wird.In one embodiment, the feature reduction module includes a meta-estimator for selecting features based on scores of a threshold, wherein the feature with a score less than the threshold is irrelevant and eliminated.

Um die Vorteile und Merkmale der vorliegenden Erfindung weiter zu verdeutlichen, wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf spezifische Ausführungsformen davon, die in der beigefügten Figur dargestellt ist, gemacht werden. Es wird davon ausgegangen, dass diese Figur nur typische Ausführungsformen der Erfindung darstellt und daher nicht als Einschränkung ihres Umfangs zu betrachten ist. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit der beigefügten Figur beschrieben und erläutert werden.In order to further clarify the advantages and features of the present invention, a more detailed description of the invention will be made by reference to specific embodiments thereof illustrated in the attached figure. It is understood that this figure represents only typical embodiments of the invention and therefore should not be considered as limiting its scope. The invention will be described and illustrated with additional specificity and detail with the accompanying figure.

Figurenlistecharacter list

Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden besser verstanden, wenn die folgende detaillierte Beschreibung mit Bezug auf die beigefügte Figur gelesen wird, in der gleiche Zeichen gleiche Teile in der Figur darstellen, wobei:

  • 1 ein Blockdiagramm eines Systems zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS) zeigt.
These and other features, aspects and advantages of the present invention will be better understood when the following detailed description is read with reference to the accompanying figure, in which like characters represent like parts throughout the figure, wherein:
  • 1 shows a block diagram of a system for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS).

Der Fachmann wird verstehen, dass die Elemente in der Figur der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren in Form der wichtigsten Schritte, die zum besseren Verständnis der Aspekte der vorliegenden Offenbarung beitragen. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in der Figur durch herkömmliche Symbole dargestellt sind, und dass die Figur nur die spezifischen Details zeigt, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind, um die Figur nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, leicht erkennbar sind.Those skilled in the art will understand that the elements in the figure are shown for simplicity and are not necessarily drawn to scale. For example, the flowcharts illustrate the method in terms of key steps that may aid in understanding aspects of the present disclosure. Furthermore, one or more components of the device in the figure may be represented by conventional symbols, and the figure only shows the specific details relevant to understanding the embodiments of the present disclosure, not to encircle the figure with details to overload, which are easily recognizable to those skilled in the art familiar with the present description.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Um das Verständnis der Erfindung zu fördern, wird nun auf die in der Figur dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.For the purposes of promoting an understanding of the invention, reference will now be made to the embodiment illustrated in the Figure and specific language will be used to describe the same. It should be understood, however, that no limitation on the scope of the invention is intended, and such alterations and further modifications to the illustrated system and such further applications of the principles of the invention set forth therein are contemplated as would occur to those skilled in the art invention would normally come to mind.

Der Fachmann wird verstehen, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und nicht als einschränkend angesehen werden.Those skilled in the art will understand that the foregoing general description and the following detailed description are exemplary and explanatory of the invention and are not to be taken as limiting.

Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.When this specification refers to "an aspect," "another aspect," or the like, it means that a particular feature, structure, or characteristic described in connection with the embodiment is present in at least one embodiment of the present invention. Therefore, the phrases "in one embodiment," "in another embodiment," and similar phrases throughout this specification may or may not all refer to the same embodiment.

Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte einschließt, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.The terms "comprises," "including," or other variations thereof are intended to cover non-exclusive inclusion, such that a method or method that includes a list of steps includes not only those steps, but may also include other steps that are not expressly stated or pertaining to any such process or method. Likewise, any device or subsystem or element or structure or component preceded by "comprises...a" does not, without further limitation, exclude the existence of other devices or other subsystem or other element or other structure or other component or additional device or additional subsystems or additional elements or additional structures or additional components.

Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden wird. Das System, die Methoden und die Beispiele, die hier angegeben werden, dienen nur der Veranschaulichung und sind nicht als Einschränkung gedacht.Unless otherwise defined, all technical and scientific terms used herein have the same meaning as commonly understood by one skilled in the art to which this invention pertains. The system, methods, and examples provided herein are for purposes of illustration only and are not intended to be limiting.

Ausführungsformen der vorliegenden Erfindung werden im Folgenden unter Bezugnahme auf die beigefügte Figur im Detail beschrieben.Embodiments of the present invention are described in detail below with reference to the attached figure.

1 zeigt ein Blockdiagramm eines Systems (100) zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS), wobei das System (100) Folgendes umfasst: ein Datensatzsammelmodul (102), ein Merkmalsextraktionsmodul (104), ein Merkmalsreduktionsmodul (106) und ein Klassifikationsmodul (108). 1 shows a block diagram of a system (100) for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS), the system (100) comprising: a data set collection module (102), a feature extraction module (104), a feature reduction module (106) and a classification module (108).

Das Datensatzsammelmodul (102) zur Erstellung eines Datensatzes (UNSW NB-15) mit modernen Angriffsvektoren. Der UNSW NB-15-Datensatz wird für die Cybersicherheit erstellt, um sowohl normale Aktivitäten als auch Angriffsmuster zu erzeugen.The dataset collection module (102) to create a dataset (UNSW NB-15) with modern attack vectors. The UNSW NB-15 record is created for cyber security to generate both normal activity and attack patterns.

Das Merkmalsextraktionsmodul (104) ist mit dem Datensatzsammelmodul (102) verbunden, um den erzeugten Datensatz zu verarbeiten und Merkmalsätze zu erstellen, die zur Erzeugung mehrerer Klassen von Merkmalen führen, wobei die mehreren Klassen von Merkmalen mehrere Flussmerkmale, Basismerkmale, Inhaltsmerkmale, Zeitmerkmale und zusätzliche Merkmale umfassen. Die Flussmerkmale offenbaren grundlegende Informationen eines jeden Netzwerkpakets in Bezug auf das Internetprotokoll (Ips), Portnummern und ein Protokoll in der Transaktion, wobei die grundlegenden Merkmale eher in Richtung Time-to-Live (TTL), Service, Paketanzahl usw. tendieren, wobei die Inhaltsmerkmale den Fenstergrößen von Quelle und Ziel entsprechen, Die Zeitmerkmale beziehen sich auf Jitter (Verzögerungen) der Pakete im Netz, Ankunftszeit zwischen den Paketen, Umlaufzeit usw., und die zusätzlichen Merkmale konzentrieren sich in erster Linie auf die Anzahl der Datensätze oder Netzinstanzen mit denselben IPs, Portnummern, Flüssen in der FTP-Sitzung, demselben Dienst usw. The feature extraction module (104) interfaces with the dataset collection module (102) to process the generated dataset and create feature sets that result in the generation of multiple classes of features, the multiple classes of features including flow features, base features, content features, time features, and additional Features include. The flow characteristics reveal basic information of each network packet in terms of internet protocol (Ips), port numbers and a protocol in the transaction, with the basic characteristics leaning more towards time-to-live (TTL), service, packet count, etc., with the Content characteristics correspond to source and destination window sizes, timing characteristics relate to jitter (delays) of packets in the network, arrival time between packets, round trip time, etc., and additional characteristics focus primarily on the number of records or network instances containing them IPs, port numbers, flows in the FTP session, same service, etc.

In einer Ausführungsform wird das Argus-Tool zur Verarbeitung von pcap-Rohdateien und zur Erstellung von Merkmalssätzen verwendet, was zur Erzeugung von fünf Merkmalsklassen führt. Tabelle 1: Strömungsmerkmale Sl. Nr. Merkmal Beschreibung 1. srcip IP-Adresse der Quelle 2. Sport Portnummer der Quelle 3 dstip IP-Adresse des Ziels 4 dsport Portnummer des Ziels 5 proto Bei der Transaktion verwendetes Protokoll Tabelle 2: Grundlegende Merkmale Sl. Nr. Merkmal Beschreibung 6 Staat Zustand des zugehörigen Protokolls 7 dur Dauer der Transaktion 8 sbytes Bytes von der Quelle zum Ziel 9 dbytes Bytes vom Ziel zur Quelle 10 sttl Lebenszeit von der Quelle bis zum Ziel 11 dttl Lebenszeit vom Ziel bis zur Quelle 12 Sloss Von der Quelle verworfene Pakete 13 dloss Vom Ziel verworfene Pakete 14 Dienstleistung Verwendeter Dienst, z.B.: http, smtp, ftp, etc. 15 sload Quellbits pro Sekunde 16 dload Ziel-Bits pro Sekunde 17 spkts Anzahl der Pakete von der Quelle zum Ziel 18 dpkts Anzahl der Pakete vom Ziel zur Quelle Tabelle 3: Inhaltliche Merkmale Sl. Nr. Merkmal Beschreibung 19 swin Fensteranzeige der Quelle tcp 20 dwin Fensteranzeige des Ziels tcp 21 stcpb Laufende Nummer der Quelle tcp 22 dtcpb Laufende Nummer des Ziels tcp 23 smeansz Mittelwert der Größe der von der Quelle übertragenen Flusspakete 24 dmeansz Mittelwert der Größe der vom Ziel übertragenen Flusspakete 25 trans_depth Gibt die Tiefe der http-Anfrage-Antwort-Transaktion an 26 res_bdy_len Vom http-Dienst übertragene Daten Tabelle 4: Zeitmerkmale Sl. Nr. Merkmal Beschreibung 27 sjit Jitter an der Quelle 28 djit Jitter am Zielort 29 stime Startzeit aufzeichnen 30 IZeit Letztes Mal aufnehmen 31 sintpkt Ankunftszeit zwischen den Paketen an der Quelle 32 dintpkt Ankunftszeit zwischen den Paketen am Zielort 33 tcprtt Die Summe von synack und ackdat 34 synack Die Zeit, die zwischen SYN- und SYN_ACK-Paketen vergeht 35 ackdat Die Zeit zwischen SYN_ACK- und ACK-Paketen Tabelle 5 Zusätzliche Merkmale Sl. Nr. Merkmal Beschreibung 36 is_sm_ips_ports Wenn die Quell-IP gleich der Ziel-IP und sport gleich dport ist, dann ist der Wert 1 oder sonst 0 37 ct_state_ttl Den Zuständen (6) werden Werte für die Lebensdauer von Quelle und Ziel zugewiesen 38 ct_flw _http_mthd Anzahl der Get- und Post-Methoden im http-Dienst 39 is_ftp_login ftp-Sitzung vom Benutzer angemeldet oder nicht 40 ct_ftp_cmd Anzahl der Befehle in der ftp-Sitzung 41 ct_srv_src Anzahl der Verbindungen mit demselben Dienst und derselben Quelladresse in 100 Verbindungen wie beim letzten Mal 42 ct_srv_dst Anzahl der Verbindungen mit demselben Dienst und derselben Zieladresse in 100 Verbindungen wie beim letzten Mal 43 ct_dst_ltm Anzahl der Verbindungen mit der gleichen Zieladresse in 100 Verbindungen seit dem letzten Mal 44 ct_src_ltm Anzahl der Verbindungen mit der gleichen Quelladresse in 100 Verbindungen beim letzten Mal 45 ct_src_dport_ltm Anzahl der Verbindungen mit demselben Quell- und Zielport in 100 Verbindungen beim letzten Mal 46 ct_dst_sport_ltm Anzahl der Verbindungen mit demselben Ziel- und Quellport in 100 Verbindungen beim letzten Mal 47 ct_dst_src_ltm Anzahl der Verbindungen mit der gleichen Quell- und Zieladresse in 100 Verbindungen seit dem letzten Mal In one embodiment, the Argus tool is used to process raw pcap files and create feature sets, resulting in the creation of five feature classes. Table 1: Flow characteristics SL No. characteristic Description 1. script Source IP address 2. Sports Source port number 3 dstip Destination IP address 4 sport Port number of the target 5 proto Protocol used in the transaction Table 2: Basic characteristics SL No. characteristic Description 6 Country State of the associated log 7 major duration of the transaction 8th sbytes Bytes from source to destination 9 dbytes Bytes from destination to source 10 quarterly Lifetime from source to destination 11 German Lifetime from target to source 12 castle Packets dropped by the source 13 doss Packets dropped by destination 14 service Service used, e.g.: http, smtp, ftp, etc. 15 load source bits per second 16 dload Target bits per second 17 spkts Number of packets from source to destination 18 dpkts Number of packets from destination to source Table 3: Content characteristics SL No. characteristic Description 19 swing Window display of source tcp 20 dwin Target tcp window display 21 stcpb Consecutive number of the source tcp 22 dtcpb Consecutive number of the target tcp 23 smeansz Mean of the size of the flow packets transmitted by the source 24 dmeansz Mean of the size of the flow packets transmitted by the destination 25 trans_depth Specifies the depth of the http request-response transaction 26 res_bdy_len Data transmitted by the http service Table 4: Time characteristics SL No. characteristic Description 27 sjit jitter at the source 28 djit jitter at destination 29 voice Record start time 30 Itime Record last time 31 sinpt Time of arrival between packets at the source 32 dintpt Arrival time between packages at destination 33 tcprtt The sum of synack and ackdat 34 synack The time elapsed between SYN and SYN_ACK packets 35 acknowledgment The time between SYN_ACK and ACK packets Table 5 Additional features SL No. characteristic Description 36 is_sm_ips_ports If the source ip is equal to the destination ip and sport is equal to dport then the value is 1 or else 0 37 ct_state_ttl The states (6) are assigned values for the source and destination lifetimes 38 ct_flw _http_mthd Number of get and post methods in the http service 39 is_ftp_login ftp session logged in by user or not 40 ct_ftp_cmd Number of commands in the ftp session 41 ct_srv_src Number of connections to the same service and source address in 100 connections as last time 42 ct_srv_dst Number of connections to the same service and destination address in 100 connections as last time 43 ct_dst_ltm Number of connections with the same destination address in 100 connections since the last time 44 ct_src_ltm Number of connections with the same source address in 100 connections last time 45 ct_src_dport_ltm Number of connections with the same source and destination port in 100 connections the last time 46 ct_dst_sport_ltm Number of connections to the same destination and source port in 100 connections last time 47 ct_dst_src_ltm Number of connections with the same source and destination address in 100 connections since the last time

Das Modul zur Merkmalsreduktion (106) ist mit dem Modul zur Merkmalsextraktion (104) verbunden, um die extrahierten Merkmale auf der Grundlage des Relevanzniveaus zu reduzieren, um die Vorhersagerate des Angriffs zu verbessern. Das Modul zur Merkmalsreduzierung (106) umfasst einen Meta-Schätzer zur Auswahl von Merkmalen auf der Grundlage von Bewertungen eines Schwellenwerts, wobei das Merkmal, dessen Bewertung unter dem Schwellenwert liegt, irrelevant ist und eliminiert wird.The feature reduction module (106) is connected to the feature extraction module (104) to reduce the extracted features based on the relevance level to improve the prediction rate of the attack. The feature reduction module (106) includes a meta-estimator for selecting features based on scores of a threshold, where the feature whose score is below the threshold is irrelevant and eliminated.

Das Klassifizierungsmodul (108) ist mit dem Modul zur Merkmalsreduzierung (106) verbunden, das ein neuronales Zweiklassennetz zur Vorhersage der erzeugten Mehrfachklassen von Merkmalen in einer Netzinstanz in eine Vielzahl von Klassen als anomal oder normal umfasst. Das neuronale Netz enthält eine Kreuzentropie-Verlustfunktion zur Optimierung der Log-Likelihood des Datensatzes. Der Datensatz wird nach Durchführung der Min-Max-Klassifizierung durch das neuronale Netz standardisiert.The classification module (108) interfaces with the feature reduction module (106) which comprises a two-class neural network for predicting the generated multiple classes of features in a network instance into a plurality of classes as anomalous or normal. The neural network includes a cross-entropy loss function to optimize the log-likelihood of the dataset. The data set is standardized by the neural network after the min-max classification has been carried out.

In einer Ausführungsform beträgt die Anzahl der versteckten Knoten, die sowohl für die Aufgaben der Merkmalsrelevanz als auch der Merkmalsreduktion verwendet werden, 100. Die Standard-Lernrate ist bei MAMLS auf 0.1 festgelegt. In one embodiment, the number of hidden nodes used for both feature relevance and feature reduction tasks is 100. The default learning rate in MAMLS is set to 0.1.

Die Architektur des neuronalen Netzes verwendet eine Kreuzentropie-Verlustfunktion, die die logarithmische Wahrscheinlichkeit der Trainingsdaten gemäß Gleichung optimiert.1: E = i = 1 n t i  log ( y i ) + ( 1 t i ) log ( 1 y i )

Figure DE202023100327U1_0001
ti bezieht sich auf die Zielausgabe und yi auf die berechnete Ausgabe.The neural network architecture uses a cross-entropy loss function that optimizes the log-likelihood of the training data according to equation.1: E = i = 1 n t i log ( y i ) + ( 1 t i ) log ( 1 y i )
Figure DE202023100327U1_0001
t i refers to the target output and y i to the calculated output.

Um die Daten zu standardisieren, verwendet das neuronale Netzmodell die in Gl. 2 definierte Min-Max-Normalisierung: A [ X i min ( X ) ] [ max ( X ) min ( X ) ]

Figure DE202023100327U1_0002
Xi ist der i-te Datenpunkt. min und max stehen für den Minimal- bzw. Maximalwert eines bestimmten Merkmals.To standardize the data, the neural network model uses the equations given in Eq. 2 defined min-max normalization: A [ X i at least ( X ) ] [ Max ( X ) at least ( X ) ]
Figure DE202023100327U1_0002
X i is the ith data point. min and max represent the minimum and maximum values, respectively, of a particular feature.

Gemäß einer Ausführungsform ist Select From Model ein Meta-Schätzer, der in der ScikitLearn-Bibliothek zu finden ist und hauptsächlich zur Auswahl von Merkmalen auf der Grundlage ihrer Punktzahlen verwendet wird. Dreiundzwanzig Merkmale waren Bestandteil der Aufgabe der Merkmalsreduktion. Anschließend wurde ein neuronales Zweiklassennetz als Klassifikator verwendet. Es wurden auch verschiedene Kombinationen von Merkmalen mit mehr oder weniger als 23 Merkmalen ausprobiert, aber keine führte zu besseren Ergebnissen als die Kombination aus Zeit, Zusatz, Basis und Fluss (TABF). Tabelle 6 23 von Select From Model ausgewählte Merkmale 1. spkts 9. tcprtt 17. ct_src_dport_ltm 2. Satz 10. synack 18. ct_srv_dst 3. dttl 11. dmean 19. antwort_body_len 4. sload 12. sbytes 20. is_ftp_login 5. ackdat 13. Sloss 21. dload 6. sinpkt 14. trans_depth 22. synack 7. djit 15. ct_srv_src 23. ct_state_ttl 8. dwin 16. ct_ftp_cmd According to one embodiment, Select From Model is a meta-estimator found in the ScikitLearn library and is primarily used to select features based on their scores. Twenty-three features were part of the feature reduction task. A two-class neural network was then used as a classifier. Various combinations of features greater or less than 23 features were also tried, but none gave better results than the combination of time, addition, base, and flow (TABF). Table 6 23 features selected by Select From Model 1. spkts 9. tcprtt 17.ct_src_dport_ltm 2nd sentence 10. synack 18.ct_srv_dst 3rd German 11. dmean 19. answer_body_len 4. load 12. sbytes 20. is_ftp_login 5. ackdat 13. Castle 21. dload 6. Sinpt 14. trans_depth 22. synack 7. djit 15. ct_srv_src 23. ct_state_ttl 8.dwin 16. ct_ftp_cmd

In einer Ausführungsform werden 31 Merkmalskombinationen untersucht und ihr Beitrag zum Klassifizierungsergebnis in Form von Genauigkeit, Präzision, Wiedererkennung, F1-Score und Fläche unter der Kurve (AUC) erläutert. Die Gleichungen 3-6 können zur Berechnung der Leistungskennzahlen verwendet werden. G e b a u i g k e i t = T P + T N T P + T N + F P + F N

Figure DE202023100327U1_0003
P r a ¨ z i s i o n = T P T P + F P
Figure DE202023100327U1_0004
R u ¨ c k r u f = T P T P + F N
Figure DE202023100327U1_0005
F 1 E r g e b n i s = 2 X P r a ¨ z i s i o n X   R u ¨ c k r u f P r a ¨ z i s i o n + R u ¨ c k r u f
Figure DE202023100327U1_0006
In one embodiment, 31 feature combinations are examined and their contribution to the classification result in terms of accuracy, precision, recognition, F1 score and area under the curve (AUC) is explained. Equations 3-6 can be used to calculate performance indicators. G e b a and i G k e i t = T P + T N T P + T N + f P + f N
Figure DE202023100327U1_0003
P right a ¨ e.g i s i O n = T P T P + f P
Figure DE202023100327U1_0004
R and ¨ c k right and f = T P T P + f N
Figure DE202023100327U1_0005
f 1 E right G e b n i s = 2 X P right a ¨ e.g i s i O n X R and ¨ c k right and f P right a ¨ e.g i s i O n + R and ¨ c k right and f
Figure DE202023100327U1_0006

Nach einer Ausführungsform hat eine Kombination von TABF (insgesamt 39 Merkmale) das beste Vorhersageergebnis erbracht, kann aber aufgrund der 39 Merkmale nicht als praktikabel angesehen werden und bietet somit reichlich Spielraum für eine Reduzierung der Merkmale.According to one embodiment, a combination of TABF (39 features in total) gave the best prediction result, but cannot be considered practical due to the 39 features and thus offers ample scope for reducing the features.

Für die Aufteilung der Daten ist eine Zufallsstichprobe vorzuziehen. Dabei wird die 80:20-Regel befolgt, um einen geringeren Schätzfehler zu erzielen, wie es dem weithin akzeptierten Grundsatz „Vorsicht ist besser“ entspricht. Sie ist besser geeignet, wenn die Datensätze heterogener Natur sind, wie z. B. bei UNSW NB-15, wo die Angriffsinstanzen (119,341) gegenüber den normalen Instanzen (56,000) überwiegen. Es wird eine zehnfache Kreuzvalidierung verwendet.A random sample is preferable for splitting the data. The 80:20 rule is followed to achieve a lower estimation error, in line with the widely accepted principle that "better safe than sorry". It is more appropriate when the datasets are heterogeneous in nature, such as B. At UNSW NB-15, where the attack instances (119,341) outweigh the normal instances (56,000). A 10-fold cross-validation is used.

Systeme zur Erkennung von Eindringlingen (IDS) haben immer mit zahlreichen Merkmalen zu tun, die bei falscher Auswahl die Leistung von IDS beeinträchtigen können. Ausgehend von dieser Behauptung ist es äußerst wichtig, eine Merkmalsanalyse durchzuführen, um die Leistung von IDS zu verstehen. Die Merkmalsanalyse könnte eine große Hilfe sein, um die Bedeutung jedes Merkmals zu erkennen, und die Merkmalsreduzierung bietet reichlich Spielraum für die Verwendung weniger Merkmale zur Verbesserung der Angriffserkennungsrate. Die Analyse der Merkmalsrelevanz wurde bisher noch nicht für den UNSW NB-15-Datensatz durchgeführt, obwohl einige Autoren eine Merkmalsreduzierung vorgenommen haben, um das Klassifizierungsergebnis zu verbessern.Intruder Detection Systems (IDS) always deal with numerous features that, if improperly selected, can affect the performance of IDS. Based on this claim, it is extremely important to perform a feature analysis to understand the performance of IDS. Feature analysis could be of great help in discerning the importance of each feature, and feature reduction provides ample scope for using fewer features to improve attack detection rate. Analysis of feature relevance has not yet been performed for the UNSW NB-15 dataset, although some authors have performed feature reduction to improve the classification result.

Nicht jedes Merkmal in einem Netzwerkdatensatz scheint für die Erkennung von Einbrüchen relevant zu sein. Als integraler Bestandteil dieser Arbeit wurde eine detaillierte Studie durchgeführt, um die Bedeutung jedes einzelnen Merkmals zu erkennen, ohne die die Merkmalsauswahl absurd wird.Not every feature in a network record appears to be relevant to intrusion detection. As an integral part of this work, a detailed study was carried out to recognize the importance of each and every feature, without which the feature selection becomes absurd.

Die Gründer von UNSW NB-15 haben den Mechanismus der Ableitung von 47 Merkmalen stark betont, aber es wurde nicht viel über die Anwendbarkeit von Merkmalsklassen erklärt.The founders of UNSW NB-15 heavily emphasized the mechanism of derivation of 47 traits, but not much was explained about the applicability of trait classes.

Um nur einige zu nennen: Kombinationen wie BAFC und TABF erbrachten eine gute Genauigkeit, können aber nicht als die beste Untergruppe von Merkmalen angesehen werden, da 39 Merkmale vorhanden sind, die in der Studie oft als unpraktisch angesehen werdenTo name a few, combinations such as BAFC and TABF yielded good accuracy but cannot be considered the best subset of traits as there are 39 traits that are often considered impractical in the study

Merkmalsrelevanzanalyse und Merkmalsreduktion von UNSW NB-15 331 des maschinellen Lernens.Feature Relevance Analysis and Feature Reduction of UNSW NB-15 331 Machine Learning.

Die Relevanz der Merkmale allein kann keine optimalen Ergebnisse garantieren, insbesondere wenn 39 Merkmale beteiligt sind. Daher ist eine Merkmalsreduktion unumgänglich. Der Gedanke hinter der Durchführung der Merkmalsreduktion war, zu untersuchen, ob es eine Merkmalsuntergruppe mit weniger als 39 Merkmalen gibt. Dies ebnete den Weg für die Merkmalsreduzierung, die schließlich zu besseren Vorhersagen führte, indem nur 23 Merkmale verwendet wurden, die von Select From Model abgerufen wurden. Wie bereits erläutert, wurde trotz der Verwendung von Klassifikatoren wie der logistischen Regression die höchste Genauigkeit mit 89.26 angegeben, aber die Experimentiersequenz mit MAMLS führte zu einer Genauigkeit von 97 %, die deutlich höher ist als bei den bestehenden Arbeiten.Relevance of features alone cannot guarantee optimal results, especially when 39 features are involved. Therefore, feature reduction is essential. The idea behind performing the feature reduction was to examine whether there is a feature subset with fewer than 39 features. This paved the way for feature reduction, which eventually led to better predictions by using only 23 features retrieved from Select From Model. As explained above, despite the use of classifiers such as logistic regression, the highest accuracy was reported as 89.26, but the experimental sequence using MAMLS resulted in an accuracy of 97%, which is significantly higher than the existing work.

Es ist erwähnenswert, dass das MAMLS-Modell des neuronalen Netzes bei der Erstellung optimaler Vorhersagen mit 23 Merkmalen, die bisher noch nicht erreicht wurden, mit dem UNSW NB-15-Datensatz recht erfolgreich war, was diese Arbeit offensichtlich zu etwas Besonderem macht.It is worth noting that the MAMLS neural network model was quite successful in making optimal predictions with 23 features that have not been achieved so far using the UNSW NB-15 dataset, which obviously makes this work special.

In dieser Arbeit wurde versucht, den UNSW NB-15-Datensatz gründlich zu untersuchen, indem seine fünf Merkmalsklassen berücksichtigt wurden. Eine methodische Untersuchung dieses Datensatzes war notwendig, um die Unterschiede in den Vorhersageraten, die durch verschiedene Kombinationen von Merkmalsklassen erzeugt werden, zu verstehen.This work attempted to thoroughly examine the UNSW NB-15 dataset by considering its five feature classes. A methodical investigation of this data set was necessary useful to understand the differences in prediction rates produced by different feature class combinations.

Die Merkmalsrelevanz half bei der Erkundung der Merkmale des Datensatzes, während die Merkmalsreduzierung zur Verbesserung des Klassifizierungsergebnisses beitrug.Feature relevance helped explore the features of the data set, while feature reduction helped improve the classification result.

Gemäß einer alternativen Ausführungsform kann eine Multiklassen-Klassifizierungsaufgabe untersucht werden, um die Relevanz von Merkmalsklassen für die Vorhersage eines bestimmten Angriffstyps zu bestimmen. Anschließend kann eine Merkmalsreduktion vorgenommen werden, um bessere Ergebnisse zu erzielen. Da MAMLS auch verschiedene andere Module als Detektoren anbietet, könnte die Leistungsbewertung dieser Detektoren ein möglicher Ansatzpunkt für Datenwissenschaftler sein.According to an alternative embodiment, a multi-class classification task can be examined to determine the relevance of feature classes for predicting a particular attack type. Feature reduction can then be performed to achieve better results. Since MAMLS also offers various modules other than detectors, the performance evaluation of these detectors could be a possible starting point for data scientists.

Die Figur und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. So kann beispielsweise die Reihenfolge der hier beschriebenen Prozesse geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können die Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.The figure and the preceding description give examples of embodiments. Those skilled in the art will understand that one or more of the elements described may well be combined into a single functional element. Alternatively, certain elements can be broken down into multiple functional elements. Elements from one embodiment may be added to another embodiment. For example, the order of the processes described herein may be changed and is not limited to the manner described herein. Additionally, the actions of a flowchart need not be performed in the order shown; Also, not all actions have to be carried out. Also, the actions that are not dependent on other actions can be performed in parallel with the other actions. The scope of the embodiments is in no way limited by these specific examples. Numerous variations are possible, regardless of whether they are explicitly mentioned in the description or not, e.g. B. Differences in structure, dimensions and use of materials. The scope of the embodiments is at least as broad as indicated in the following claims.

Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.Advantages, other benefits, and solutions to problems have been described above with respect to particular embodiments. However, the benefits, advantages, problem solutions, and components that can cause an advantage, benefit, or solution to occur or become more pronounced are not to be construed as a critical, required, or essential feature or component of any or all claims.

Bezugszeichenlistereference list

100100
Ein System (100) zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS).A system (100) for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS).
102102
Modul zur DatensatzerfassungRecord acquisition module
104104
Modul zur MerkmalsextraktionFeature extraction module
106106
Modul zur MerkmalsreduktionFeature reduction module
108108
Modul zur Klassifizierung.Classification module.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

  • CN 104050787 A [0003]CN 104050787A [0003]
  • US 8887281 B2 [0004]US8887281B2 [0004]

Claims (6)

Ein System (100) zur Merkmalsrelevanzanalyse und Merkmalsreduktion auf Microsoft Azure Machine Learning Studio (MAMLS), wobei das System (100) Folgendes umfasst: ein Datensatzsammelmodul (102) zur Erstellung eines Datensatzes (UNSW NB-15) mit modernen Angriffsvektoren; ein Merkmalsextraktionsmodul (104), das mit dem Datensatzsammelmodul (102) verbunden ist, um den erzeugten Datensatz zu verarbeiten, um Merkmalssätze zu erzeugen, die zur Erzeugung von mehreren Klassen von Merkmalen führen, wobei die mehreren Klassen von Merkmalen mehrere Flussmerkmale, Basismerkmale, Inhaltsmerkmale, Zeitmerkmale und zusätzliche Merkmale umfassen; ein Merkmalsreduktionsmodul (106), das mit dem Merkmalsextraktionsmodul (104) verbunden ist, um die extrahierten Merkmale auf der Grundlage des Relevanzniveaus zu reduzieren, um die Vorhersagerate des Angriffs zu verbessern; und ein Klassifizierungsmodul (108), das mit dem Merkmalsreduktionsmodul (106) verbunden ist und ein neuronales Zweiklassennetz zur Vorhersage der erzeugten Mehrfachklassen von Merkmalen in einer Netzinstanz in eine Vielzahl von Klassen als anomal oder normal umfasst.A system (100) for feature relevance analysis and feature reduction on Microsoft Azure Machine Learning Studio (MAMLS), the system (100) comprising: a dataset collection module (102) for creating a dataset (UNSW NB-15) of modern attack vectors; a feature extraction module (104) coupled to the data set collection module (102) for processing the generated data set to generate feature sets resulting in the generation of multiple classes of features, the multiple classes of features including multiple flow features, base features, content features , time features and additional features include; a feature reduction module (106) connected to the feature extraction module (104) to reduce the extracted features based on the relevance level to improve the prediction rate of the attack; and a classification module (108) coupled to the feature reduction module (106) and comprising a two-class neural network for predicting the generated multiple classes of features in a network instance into a plurality of classes as anomalous or normal. Das System nach Anspruch 1, wobei der UNSW NB-15-Datensatz für die Cybersicherheit erstellt wird, um sowohl normale Aktivitäten als auch Angriffsmuster zu erzeugen.The system after claim 1 , where the UNSW NB-15 cybersecurity record is created to generate both normal activities and attack patterns. Das System nach Anspruch 1, wobei die Flussmerkmale grundlegende Informationen eines beliebigen Netzwerkpakets in Bezug auf das Internetprotokoll (Ips), Portnummern und ein Protokoll in der Transaktion offenbaren, wobei die grundlegenden Merkmale eher in Richtung Time-to-Live (TTL), Service, Paketanzahl usw. tendieren, wobei die Inhaltsmerkmale den Fenstergrößen von Quelle und Ziel entsprechen, Die Zeitmerkmale beziehen sich auf Jitter (Verzögerungen) der Pakete im Netz, Ankunftszeit zwischen den Paketen, Umlaufzeit usw., und die zusätzlichen Merkmale konzentrieren sich in erster Linie auf die Anzahl der Datensätze oder Netzinstanzen mit denselben IPs, Portnummern, Flüssen in der FTP-Sitzung, demselben Dienst usw.The system after claim 1 , where the flow characteristics reveal basic information of any network packet in terms of Internet protocol (Ips), port numbers and a protocol in the transaction, with the basic characteristics leaning more towards time-to-live (TTL), service, packet count, etc., where the content characteristics correspond to source and destination window sizes, the timing characteristics relate to jitter (delays) of packets in the network, arrival time between packets, round trip time, etc., and the additional characteristics focus primarily on the number of records or network instances with the same IPs, port numbers, flows in the FTP session, same service, etc. System nach Anspruch 1, wobei das neuronale Netz eine Kreuzentropie-Verlustfunktion enthält, um die Log-Wahrscheinlichkeit des Datensatzes zu optimieren.system after claim 1 , where the neural network includes a cross-entropy loss function to optimize the log-likelihood of the dataset. System nach Anspruch 1, wobei der Datensatz nach Durchführung der Min-Max-Klassifikation durch das neuronale Netz standardisiert wird.system after claim 1 , where the dataset is standardized by the neural network after performing the min-max classification. System nach Anspruch 1, wobei das Modul zur Merkmalsreduzierung (106) einen Meta-Schätzer umfasst, um Merkmale auf der Grundlage von Bewertungen eines Schwellenwerts auszuwählen, wobei das Merkmal mit einer geringeren Bewertung als dem Schwellenwert irrelevant ist und eliminiert wird.system after claim 1 wherein the feature reduction module (106) comprises a meta-estimator to select features based on scores of a threshold, wherein the feature with a score less than the threshold is irrelevant and eliminated.
DE202023100327.3U 2023-01-24 2023-01-24 A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS) Active DE202023100327U1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202023100327.3U DE202023100327U1 (en) 2023-01-24 2023-01-24 A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202023100327.3U DE202023100327U1 (en) 2023-01-24 2023-01-24 A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS)

Publications (1)

Publication Number Publication Date
DE202023100327U1 true DE202023100327U1 (en) 2023-02-10

Family

ID=85383841

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202023100327.3U Active DE202023100327U1 (en) 2023-01-24 2023-01-24 A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS)

Country Status (1)

Country Link
DE (1) DE202023100327U1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050787A (en) 2013-03-12 2014-09-17 霍尼韦尔国际公司 System and Method of Anomaly Detection with Categorical Attributes
US8887281B2 (en) 2002-01-25 2014-11-11 The Trustees Of Columbia University In The City Of New York System and methods for adaptive model generation for detecting intrusion in computer systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8887281B2 (en) 2002-01-25 2014-11-11 The Trustees Of Columbia University In The City Of New York System and methods for adaptive model generation for detecting intrusion in computer systems
CN104050787A (en) 2013-03-12 2014-09-17 霍尼韦尔国际公司 System and Method of Anomaly Detection with Categorical Attributes

Similar Documents

Publication Publication Date Title
DE112020001038T5 (en) DETECTION OF PHISHING CAMPAIGNS
CN112398779B (en) Network traffic data analysis method and system
CN109714322B (en) Method and system for detecting network abnormal flow
DE102016203565B4 (en) Identifying malicious web infrastructures
US10084822B2 (en) Intrusion detection and prevention system and method for generating detection rules and taking countermeasures
DE102005010923B4 (en) System, computer-usable medium and method for monitoring network activity
DE112016001742T5 (en) Integrated community and role discovery in enterprise networks
DE112011103273B4 (en) Method, computer program product and device for passing on identities across application levels using context-dependent assignment and set values
CN107370752B (en) Efficient remote control Trojan detection method
DE102014211504A1 (en) Method and system for obtaining and analyzing forensic data in a distributed computing infrastructure
US20230025695A1 (en) Cross-site scripting (xss) risk analysis method and apparatus based on bayesian network and stride model
DE112016005266T5 (en) Fast pattern detection for log analysis
DE112021004808T5 (en) DETECTING MALWARE THROUGH ANALYSIS OF DISTRIBUTED TELEMETRY DATA
DE602005006156T2 (en) SUPPRESSION OF FALSE ALARMS UNDER A MONITORED INFORMATION SYSTEM PRODUCED ALARMS
DE112019003854T5 (en) FLOW CONTROL VISIBILITY
DE202022102631U1 (en) Intelligent defense system against distributed Denial of Service (DDoS) attacks in Internet of Things (IoT) networks
DE202023100327U1 (en) A system for analyzing the relevance of features and for reducing features on the Microsoft Azure Machine Learning Studio (MAMLS)
DE202022101746U1 (en) A perception-based hashing system using Kaze feature descriptors for combinatorial manipulations
Callegari et al. On the proper choice of datasets and traffic features for real-time anomaly detection
AT523948B1 (en) Method for detecting abnormal operating states of a computer system
CN109784040B (en) Misuse detection method for integrated electronic system
DE112020000116T5 (en) DETECTION OF EXPLOIT KITS
DE112018001624T5 (en) Data analysis device, method and program
DE202022100122U1 (en) A system for detecting misconceptions and network-based attacks in network traffic
Masud et al. A data driven firewall for faster packet filtering

Legal Events

Date Code Title Description
R207 Utility model specification
R082 Change of representative

Representative=s name: LIPPERT STACHOW PATENTANWAELTE RECHTSANWAELTE , DE