DE602004010976T2

DE602004010976T2 - Datenstruktur für bereichspezifizierte Algorithmen

Info

Publication number: DE602004010976T2
Application number: DE602004010976T
Authority: DE
Inventors: Gerard K2A 1Z1 DAMM; Bashar K1S 2M3 Bou-Diab; Yuke 75074 Wang; Yiyan 75080 Tang; Anand 75080 Krishnamurthy; Lie 75080 Qian; Yun 75080 Zhang
Original assignee: Alcatel Lucent SAS
Current assignee: Alcatel Lucent SAS
Priority date: 2003-08-27
Filing date: 2004-08-24
Publication date: 2009-01-08
Anticipated expiration: 2024-08-25
Also published as: ATE383016T1; EP1515501A1; DE602004010976D1; US20050050060A1; EP1515501B1

Description

Gebiet der Erfindung
Diese Erfindung betrifft computerbasierte Kommunikationssysteme und speziell Datenstrukturen, die Mengen von Intervallen zur Verwendung in bereichsspezifizierten Berechnungen für solche Systeme darstellen.
ALLGEMEINER STAND DER TECHNIK
Auf dem allgemeinen Gebiet computerbasierter Systeme, die mehrfache und unterschiedliche Workstations einschließen, die sich an mehrfachen und verschiedenen Standorten befinden, die Dienste unterschiedlicher Klassifizierung bereitstellen, ist bekannt, daß die Verfahren zur Steuerung des Datenflusses äußerst komplex sind.
In der Regel wird der Datenfluß durch Regelmengen geregelt, die unter anderem die Dienstgüte, die Sicherheit und das Zählverfahren vorschreiben. Die Daten werden in der Regel in Form von Paketen mit einem Header verwendet, der spezielle Informationen wie zum Beispiel die Quelle, das Ziel und den Dienst betreffende Kriterien aufweist. Die Art und Weise, auf welche die Daten im System verarbeitet werden, schließt das Prüfen des Headers hinsichtlich dieser Regelmengen ein. In solch einer Umgebung werden bereichsspezifizierte Regeln zur am meisten durchführbaren Option, um ein akzeptables Niveau der Steuerung bereitzustellen. Das ist größtenteils aufgrund der Tatsache, daß es praktisch unmöglich sein würde, alle Daten mit den Regelmengen in einem Hochgeschwindigkeitssystem zu vergleichen. Bereichsspezifizierte Regeln gemäß der folgenden Beschreibung können allgemein als eine Menge von Regeln beschrieben werden, die unter Verwendung von Intervallen (oder Bereichen) für jedes Feld definiert sind. Die Felder können je nach den Anwendungen beliebig definiert sein. Ein typisches Beispiel für die Felder ist das 5-Tupel (IP-Quelladresse, IP-Zieladresse, TCP-Protokoll, Quellport, Zielport), aber jede Anordnung einer beliebigen Anzahl von Feldern ist möglich, solange die entsprechenden Daten in den Paketen (Header und Nutzinformation) vorhanden sind, die verglichen werden sollen. Die Bereiche können als ganzzahlige Intervalle gedacht sein, aber die Erfindung ist auf jede Menge von geordneten Werten anwendbar, worauf das Konzept des Intervalls definiert werden kann. Ein Paket entspricht einer Regel, wenn jedes seiner Felder (wie aus dem Paket extrahiert oder analysiert) innerhalb der entsprechenden Bereiche der Regel beinhaltet ist. Wenn die Regelmenge von oben nach unten geordnet wird, dann ist die beste Matchingregel für ein Paket die Matchingregel, die dem Anfang am nächsten ist.
Ein Beispiel der durch die vorliegende Erfindung betrachteten Umgebung ist ein IP-Router, der eine große Anzahl von Paketen verarbeitet, die von einer großen Anzahl von Anwenderstandorten kommen und für diese bestimmt sind. Um den Dienst an Endbenutzer besser das als "best effort" bereitzustellen, muß das System die Regelmengen streng befolgen, die vorschreiben, wie Datenpakete verarbeitet werden. Offensichtlich würde es unter Berücksichtigung des riesigen Volumens des Verkehrs in Kommunikationssystemen wie zum Beispiel dem Internet schwierig sein, jedes Paket mit einer Regel zu vergleichen und zu bestimmen, ob es die aufgestellten Kriterien erfüllt. Folglich kann der oben erwähnte bereichsbasierte Algorithmus angewendet werden.
Der folgenden Beschreibung halber wird auf die Verfahren des Implementierens der Algorithmen für Mehrfeld-Paketklassifizierung durch bereichsspezifizierte Regeln verwiesen, die in IP-Routern verwendet werden. Die Klassifizierung ist eine sehr wichtige Funktion, die ein Teil der Anwendungen wie zum Beispiel Firewall, IPsec und Dienstgüte (Quality of Service) ist. Die Firewall muß die Pakete auf der Basis vordefinierter Regelmengen klassifizieren, so daß sie gewisse Pakete des Flusses vom Eintreten in das Netzwerk filtern/blockieren kann. IPsec muß Pakete auf der Basis der Regeln klassifizieren, so daß spezielle Pakete des Flusses mit entsprechenden Sicherheitsrichtlinien und -zuordnungen verglichen werden können, die die Sicherheitsalgorithmen angeben, und sichere Schlüssel auf die Pakete des Flusses angewendet werden können. Die Dienstgüte muß die Klassifizierungsfunktion an Paketen durchführen, so daß die Attribute der Dienstgüte wie Verzögerungsbeschränkungen, Paketverlustbeschränkungen und Bandbreite mit den Paketen des Flusses verbunden werden können. In VPN-Umgebungen können alle drei Anwendungen Firewall, IPsec und Dienstgüte auf das Edge-Router-Gerät angewendet werden müssen. Deshalb wird die effiziente Implementierung der Klassifizierungsfunktion sogar in solchen Umgebungen notwendiger. Verbesserte Klassifizierungsalgorithmen können Hochleistung mit reduzierten Ressourcenanforderungen zur Implementierung garantieren. Die Kapazität der existierenden Anwendung der Paketklassifizierungsalgorithmen kann bezüglich der Rechenressourcen ständig vergrößert werden. Für den Fachmann wird jedoch offensichtlich, daß die Algorithmen ebenfalls auf andere Berechnungen angewendet werden können, wo eine bereichsbasierte oder spezifizierte Teilmenge von Regeln verwendet wird.
Wie in dieser Patentanmeldung verwendet, ist die Paketklassifizierung der Prozeß des Kategorisierens der Pakete in "Flüsse" in einem Internet-Router auf der Basis eines oder mehr Felder im Paketheader. Alle Pakete, die zum gleichen Fluß gehören, befolgen eine vordefinierte Regel und werden auf eine ähnliche Art und Weise durch den Router verarbeitet. Dieser Klassifizierungsprozeß wind in ACLs (Access Control lists/Zugriffskontrolllisten) für Sicherheit, QoS oder für Zählverfahren zum Beispiel verwendet.
Ein Algorithmus für Mehrfeld-Paketklassifizierung durch Bereichsspezifizierung benutzt eine Regelmenge und ein Paket als Eingaben, findet die beste Matchingregel für das Paket in der Regelmenge auf der Basis der Werte der Mehrfachfelder im Paketheader. Eine Regelmenge setzt sich aus einer endlichen Anzahl von Regeln zusammen. Jede Regel in der Regelmenge beinhaltet Mehrfachfelder, die durch Bereiche spezifiziert sind, wo ein Bereich ein ganzzahliges Intervall mit einer unteren Grenze und einer oberen Grenze ist. Jede Regel hat ebenfalls eine Regelnummer.
Ein einzelnes Feld einer gegebenen Regelmenge ist eine Menge von ganzzahligen Intervallen. Vorgegeben eine Menge von ganzzahligen Intervallen, können eine Menge von elementaren Intervallen und eine Menge von disjunkten Intervallen erhalten werden. Die elementaren Intervalle teilen die Menge der ganzzahligen Intervallen in kleinere, aber notwendige Elemente, die nichtüberlappend sind, während die disjunkten Intervallen die überlappenden ganzzahligen Intervalle zur Menge der ganzzahligen Intervalle vereinigen, um größere ganzzahlige Intervalle zu bilden, die einander disjunkt sind.
Eine Matchingregel für ein gegebenes Paket erfüllt das Prinzip, daß der Wert jedes Feldes des Pakets in den Wertebereich des entsprechenden Feldes der Regel fällt. Die beste Matchingregel ist die Matchingregel mit der kleinsten Regelnummer unter allen Matchingregeln in der Regelmenge, vorausgesetzt die Konvention, daß die Regeln von der höchsten Priorität zur niedrigsten Priorität nummeriert sind.
Das elementare Intervall unterstützt zusätzlich zu seiner Anwendung für Paketklassifizierung, wie oben beschrieben ist, ebenfalls die scharfe Abfrage. Die scharfe Abfrage (stabbing query) ist der Typ der Abfrage, wo Punktdaten gegen eine Menge von Intervallen abgefragt werden, um zu bestimmen, welches dieser Intervalle den Punkt beinhaltet. Die scharfe Abfrage kann für bestimmte Anwendungen wie zum Beispiel IP-Routing verwendet werden. Datenstrukturen für scharfe Abfragen können ebenfalls auf Multidimension ausgedehnt werden, um zur Paketklassifizierung in IP-Routern zu dienen. Wie vorher beschrieben ist, führt ein Paketklassifizierungsalgorithmus die mehrdimensionale Punktabfrage gegen eine Menge von Regeln durch, wo der Punkt mehrdimensional ist und jede Regel aus mehrfachen Intervallen (Bereichen) zusammengesetzt ist.
Vorgegeben eine Menge von Intervallen und einen Punkt der scharfen Abfrage, wird der Elementar-Intervall-Baum (Elementarg Interval Tree) verwendet, um die Menge der Intervalle gemäß einem Gesichtspunkt der Erfindung darzustellen. Ebenfalls wird hier der Elementarg Interval Tree Construction-Algorithmus erörtert, der verwendet wird, um die Datenstruktur aufzubauen, und der Elementarg Interval Tree Query-Algorithmus, um die scharfe Abfrage auf der Datenstruktur durchzuführen.
Gemäß diesem Gesichtspunkt, gegeben ein Intervall [l, u] mit zwei Endpunkten: dem unteren Endpunkt l und dem oberen Endpunkt u, beinhaltet das Intervall einen Punkt p, wenn l ≤ p ≤ u. Eine Menge von Intervallen beinhaltet eine endliche Anzahl von Intervallen, wo jedes Intervall eine Kennung hat. Vorgegeben eine Menge von Intervallen durch Projizieren der Endpunkte jedes Intervalls auf eine Linie, teilen die Endpunkte die Linie in kleine Bereiche, bezeichnet als elementare Intervalle. Die elementaren Intervalle teilen die Menge der Intervalle in kleinere, aber notwendige Elemente, die nicht überlappend sind. Der in der Erfindung vorgeschlagene Elementarintervallbaum (elementarg interval tree) ist ein vergrößerter binärer Suchbaum, der jedes elementare Intervall in einem Knoten speichert, um eine Menge von Intervallen darzustellen.
Ebenfalls durch die vorliegende Erfindung wird das Design einer Datenstruktur betrachtet, die eine Menge von Intervallen darstellt, um maximale disjunkte Intervalle für die Menge von Intervallen zu finden. Wiederum findet diese Datenstruktur die Anwendung für Paketklassifizierung in IP-Routern.
In dieser Hinsicht hat ein Intervall [l, u] zwei Endpunkte: den unteren Endpunkt l und den oberen Endpunkt u. Zwei Intervalle [l₁, u₁] und [l₂, u₂] überlappen, wenn [l₁, u₁] ∩ [l₂, u₂] ≠ Ø. Eine Menge von Intervallen beinhaltet eine endliche Anzahl von Intervallen, wo jedes Intervall ebenfalls eine Kennung hat. Vorgegeben eine Menge von Intervallen I = {I₁, I₂, ..., I_n}, ist die Menge der disjunkten Intervalle von I definiert als {I ^₁, I ^₂, ... I ^_L},

1. I₁ ∪ I₂ ∪ ... ∪ I_n = I ^₁ ∪ I ^₂ ∪ ... ∪ I ^_L;
2. ∀ I ^_a, I ^_b, a ≠ b, I ^_a ∩ I ^_b = Ø;
3. ∀ I ^₁, I ^₁ = I₁ ∪ ... ∪ I_K, I_k ∈ {I₁, I₂, ..., I_n}, 1 ≤ k ≤ K;
4. ∀ I_i, ∃ I ^_a, I_i ⊆ I ^_a, ∀ I ^_b, I ^_b ≠ I ^_a, I_i ⊄ I ^_b.

Die disjunkten Intervalle vereinigen die überlappenden Intervalle in der Menge von Intervallen, um größere Intervalle zu bilden, die einander disjunkt sind.
Diese Datenstruktur könnte verwendet werden, um die Schnittmengenabfrage sowie die scharfe Abfrage zu erleichtern. Vorgegeben eine Menge von Intervallen, soll die Schnittmengenabfrage bestimmen, welche Intervalle ein gegebenes Intervall überlappen, während die scharfe Abfrage bestimmen soll, welche dieser Intervalle einen gegebenen Punkt überlappen.
Die Schnittmengenabfrage und die scharfe Abfrage sind für bestimmte Anwendungen wie zum Beispiel IP-Routing wichtig. Die hier vorgeschlagene Datenstruktur könnte ebenfalls verwendet werden, um das Problem der mehrdimensionalen Domänen zu erleichtern wie zum Beispiel die Paketklassifizierung, die in IP-Routern verwendet wird. Der Paketklassifizierungsalgorithmus führt die Punktabfrage gegen eine Menge von Regeln durch, wo der Punkt mehrdimensional ist und jede Regel aus mehrfachen Intervallen (Bereichen) zusammengesetzt ist. Die Schnittmengenabfrage und die scharfe Abfrage sind ebenfalls für Computergraphik, große Expertensysteme und einige rechengeometrische Probleme nützlich.
In dieser Hinsicht, gegeben eine Menge von Intervallen, stellt der disjunkte Intervallbaum (Disjoint Interval Tree) die Menge von Intervallen dar, um die Schnittmengenabfrage, scharfe Abfrage und Paketklassifizierung zu erleichtern. Ebenfalls wird der Disjoint Interval Tree Construction-Algorithmus verwendet, um einen disjunkten Intervallbaum aufzubauen, und wird der Disjoint Interval Tree Point Query-Algorithmus verwendet, um die scharfe Abfrage durchzuführen und wird der Disjoint Interval Tree Point Query-Algorithmus verwendet, um die Schnittmengenabfrage durchzuführen.
Lösungen des Standes der Technik zum Indexieren von Intervallen, um die Schnittmengenabfrage und scharfe Abfrage zu unterstützen, schließen Segmentbaum, Intervallbaum, Prioritätssuchbaum, binären Intervallsuchbaum, Punktbereichsbaum usw. ein. Jedoch keine Lösung ist jemals vorgeschlagen worden, um die disjunkten Intervalle für eine gegebene Menge von Intervallen zu finden.
Stand der Technik
Die Lösungen des Standes der Technik hinsichtlich des Aspekts des disjunkten Graphen schließen den FIS(Fat Inverted Segment)-baumbasierten Klassifizierungsalgorithmus, die Ternary Content Addressable Memory(TCAM)-Implementierung und die klassischen präfixbasierten Klassifizierungsalgorithmen ein.
Der FIS-baumbasierte Klassifizierungsalgorithmus für bereichsspezifizierte Regeln ist eine Lösung des Standes der Technik. Die FIS-Bäume für Mehrfachfelder einer gegebenen Regelmenge sind rekursiv auf der Basis des FIS-Baums für ein Einzelfeld einer gegebenen Regelmenge aufgebaut.
Der FIS-Baum ist eine baumähnliche Datenstruktur, um eine Menge von ganzzahligen Intervallen darzustellen. Die Astknoten des FIS-Baums speichern die elementaren Intervalle der Menge der ganzzahligen Intervalle und alle anderen Knoten außerhalb der Astknoten speichern das ganzzahlige Intervall mit der kleinsten unteren Grenze und der maximalen oberen Grenze von allen ganzzahligen Intervallen, die in ihren Unterverzeichnissen gespeichert sind. Im Gegensatz zum Binärbaum zeigen die Ränder im FIS-Baum von den abgeleiteten Knoten auf die Stammknoten.
Vorgegeben eine Regelmenge auf der Basis von D Feldern, sind die Gesamt-FIS-Bäume ein Baum, der D Schichten der F_j-FIS-Bäume mit einem F_l-FIS-Baum in der ersten Schicht und eine Menge von F_j-FIS-Bäumen in der j-ten Schicht beinhaltet, wo der F_j-FIS-Baum ein modifizierter FIS-Baum ist, um die Menge der ganzzahligen Intervalle darzustellen, die zum j-ten Feld einer Regelmenge gehören, so daß jeder Knoten im F_j-FIS-Baum eine zugeordnete Regelmenge hat. Die gesamten FIS-Bäume der D-Schichten werden rekursiv durch Aufbauen der FIS-Bäume der D-Schicht aufgebaut. Die zugeordnete Regelmenge eines Knotens beinhaltet Regeln, deren j-tes Feld das ganzzahlige Intervall beinhaltet, das im Knoten gespeichert ist, aber beinhaltet nicht das ganzzahlige Intervall, das im Stammknoten gespeichert ist. Bis auf die erste Schicht stellen die F_j-FIS-Bäume die ganzzahligen Intervalle im j-ten Feld der zugeordneten Regelmengen der Knoten in den F_j-1-FIS-Bäumen dar. Um die beste Matchingregel für ein Paket in den gesamten FIS-Bäumen zu finden, sind mehrfache Durchquerungen zu allen möglichen Knoten erforderlich.
Eine andere Lösung des Standes der Technik ist die von TCAM (Ternary Content-Addressable Memory). TCAM ist eine spezialisierte Hardware, die parallelen Mustervergleich ermöglicht. Die TCAM-Speicherfelder speichern die Regeln in abnehmender Reihenfolge der Prioritäten und vergleichen den Eingabeschlüssel (Paketfeld) mit jedem Element im Speicherfeld parallel. Die Regel der höchsten Priorität, die dem Schlüssel entspricht, wird zurückgegeben. Die TCAMs sind schneller als Software-Algorithmen, aber aufgrund der parallelen Hardware ist der Wert der Leistungsaufnahme des TCAM mehrfach höher als bei der vergleichbaren SRAM-basierten Softwarelösung. Im Vergleich sind die graphenbasierten Klassifizierungsverfahren Softwarelösungen und stützen sich auf Graph-Durchquerungen, um die Übereinstimmung mit dem Eingabeschlüssel zu finden. Jedoch untersuchen einige Verfahren den Mittelweg, z. B. beinhaltet die Durchführung der Arbeit, daß kleinere Hardware (als TCAM) vorhanden ist, um die parallele Regelauswertung durchzuführen. Diese Verfahren nutzen heuristische Algorithmen, die die Regelmengen auf die Hardware-Einheiten aufteilen.
Die Verwendung klassischer präfixbasierter Klassifizierungsalgorithmen ist eine andere Lösung des Standes der Technik. Durch Erweiterung der Bereiche, um sie durch Präfixe zu ersetzen, könnten klassische präfixbasierte Lösungen wie zum Beispiel auf hierarchischen Versuchen basierter Klassifizierungsalgorithmus, auf mengenbegrenzenden Versuchen basierter Klassifizierungsalgorithmus ebenfalls verwendet werden, um das bereichsbasierte Klassifizierungsproblem zu lösen.
Vorgegeben eine Regelmenge und ein Paket als Eingaben, transformiert der FIS-baumbasierte Klassifizierungsalgorithmus die Regelmenge in einen Gesamt-FIS-Baum und sucht die beste Matchingregel für das Paket auf den Gesamt-FIS-Bäumen (2). Das Problem im FIS-baumbasierten Klassifizierungsalgorithmus ist, daß mehrfache Durchquerungen auf den Gesamt-FIS-Bäumen zu allen potentiellen Knoten, die die beste Matchingregel beinhalten, während der Suche erforderlich sind. Mehrfache Durchquerungen sind erforderlich, weil, abgesehen von den Astknoten, ein Knoten in den Gesamt-FIS-Bäumen die ganzzahligen Intervalle von allen seinen Unterverzeichnissen beinhaltet, demzufolge, wenn ein Paket in das ganzzahlige Intervall fällt, das in einem Knoten gespeichert ist, die Suche auf seinen Stammknoten, seinen Stammknoten der Stammknoten und so weiter durchgeführt werden muß. Ein Knoten kann nur einen Stammknoten in seinem F_j-FIS haben, aber er kann einen anderen Stammknoten in der nächsten Schicht F_j-FIS (d. h. F_j+1-FIS) haben. Mehrfache Stammknoten verursachen mehrfache Wege, die zu untersuchen sind.
Um diesen Nachteil zu überwinden, wird der disjunkte graph-basierte Klassifizierungsalgorithmus für bereichsspezifizierte Regeln gemäß der vorliegenden Erfindung implementiert, um zu ermöglichen, daß nur ein einzelner Weg zu durchqueren ist, wenn die Klassifizierung für ein Paket durchgeführt wird. Der disjunkte graph-basierte Klassifizierungsalgorithmus verringert nicht nur die Suchzeit, die durch den FIS-bäumebasierten Algorithmus erforderlich ist, sondern erfordert auch weniger Speicher und Datenstruktur-Vorbereitungszeit als der FIS-bäumebasierte Algorithmus.
Der naheste Stand der Technik bezüglich des oben erwähnten Elementar-Intervall-Baums ist der Punktbereichsbaum (Point-Range Tree).
Der Punktbereichsbaum (PR-Baum) ist ein vergrößerter binärer Suchbaum, um eine Menge von Intervallen darzustellen. Der PR-Baum (6) beinhaltet zwei Typen von Knoten: Punktknoten und Bereichsknoten. Alle Punktknoten sind innere Knoten und jeder Punktknoten hat Felder für Value (Wert), Left (Links), Right (Rechts), Equal (Gleich) und Ownedby (Im Eigentum von). Value (Wert) ist ein Endpunkt eines Intervalls, Left (Right) (Links (Rechts)) ist ein anderer Zeiger auf den linken (rechten) Zweig, der Werte kleiner als (größer als) Value (Wert) hält, Equal (Gleich) beinhaltet eine Liste von Kennungen von Intervallen, die Value (Wert) beinhalten, und Ownedby (im Eigentum von) beinhaltet eine Liste von Kennungen von Intervallen, die Value (Wert) als einen Endpunkt haben. Alle Bereichsknoten sind Astknoten und jeder Bereichsknoten hat Felder für Value1, Value2 und Equal. Value1 und Value2 sind beide ein Endpunkt eines Intervalls und Equal beinhaltet eine Liste von Kennungen von Intervallen, die das offene Intervall (Value1, Value2) beinhalten.
Der PR-Baum ermöglicht dynamische Einfügungen und Löschungen und könnte sich selbst ausgeglichen durch ein ausgeglichenes Binärbaumschema aufrechterhalten. Ein ausgeglichener PR-Baum nimmt O(log n)-Zeit für die Suche. Einfügungs-, Löschungs- und Speicherplatz haben Worst-Case-Anforderungen von O(nlogn + m), O(nlog²n + m) beziehungsweise O(nlog n), wo n die Gesamtanzahl der Intervalle im Baum ist und m die Anzahl der während der Einfügung und Löschung besuchten Knoten ist.
Mehrwege-Bereichssuche ist eine andere Lösung, die den B-Baum verwendet, um eine Menge von Intervallen darzustellen, wo jeder Knoten im B-Baum anders als die Wurzel (root) k-Schlüssel und k + 1-Zweige hat und die Endpunkte der Menge von Intervallen als Schlüssel in den Knoten des B-Baums gespeichert werden. Die Datenstruktur des B-Baums erfordert eine lineare Suche innerhalb jedes Knotens, um den entsprechenden Zweig zu finden.
Vor PR-Baum wurden Datenstrukturen wie zum Beispiel Segmentbaum, binärer Intervallsuchbaum ebenfalls vorgeschlagen, um die scharfe Abfrage zu unterstützen.
Vorgegeben eine Menge von Intervallen und einen Punkt, transformiert der PR-Baum-basierte Algorithmus die Menge von Intervallen in einen PR-Baum und sucht alle Intervalle, die den Punkt auf dem PR-Baum beinhalten. Das Problem im PR-Baum ist, daß der PR-Baum die gedoppelten Informationen, die jedes elementare Intervall gespeichert hat, zweimal speichert: jeder Endpunkt wird in einem Punktknoten gespeichert und jedes elementare Intervall wird als ein offenes Intervall in einem Bereichsknoten gespeichert. Sowohl der Punktknoten als auch der Bereichsknoten haben eine Liste von Kennungen von Intervallen, die den Knoten zugeordnet sind.
Mehrwege-Bereichssuche verwendet B-Baum, um eine Menge von Intervallen darzustellen. Die Datenstruktur des B-Baums erfordert eine lineare Suche innerhalb jedes Knotens, um den entsprechenden Zweig zu finden.
Der Elementar-Intervall-Baum der vorliegenden Erfindung verringert den durch PR-Baum erforderlichen Speicher, indem jedes elementare Intervall nur einmal gespeichert wird, was ebenfalls die Einfügungs- und Löschungszeit entsprechend im Vergleich zur Mehrwege-Bereichssuche verringert.
Die naheste frühere Lösung für Schnittmengenabfrage ist der Intervallbaum. Ein Intervallbaum ist ein vergrößerter Rot-Schwarz-Baum, der jedes Intervall in einem Knoten speichert, um eine Menge von Intervallen darzustellen. Jeder Knoten speichert ebenfalls den maximalen Wert jedes Intervall-Endpunktes, der im Zweig gespeichert ist, der seine Wurzel am Knoten hat.
Der Intervallbaum ermöglicht dynamische Einfügung und Löschung. Sowohl die Einfügung als auch die Löschung können in O(log n)-Zeit auf einem Intervallbaum von n Knoten durchgeführt werden. Der Speicherplatz ist O(n), da der Intervallbaum jedes Intervall genau einmal in diesem Baum speichert. Die Suchzeit ist O(log n), um ein Intervall zu finden, das ein gegebenes Intervall überlappt. Aber mehrfache Durchquerungen sind erforderlich, um alle Intervalle zu finden, die ein gegebenes Intervall überlappen.
Die naheste Lösung des Standes der Technik für das mehrdimensionale Domänenproblem ist das in "Method and system for performing interval-based testing of filter rules", erschienen am 25. März 2003, US-Patentschrift Nr. 6,539,394 , vorgeschlagene Verfahren. Das offenbarte Verfahren transformiert eine Menge von Intervallen in eine Menge von Präfixen und baut dann einen Entscheidungsbaum auf der Basis der Menge der Präfixe auf.
Gemäß der Patentschrift 6,539,394 , vorgegeben eine Menge von Intervallen und ein Intervall der Schnittmengenabfrage, transformiert der Intervallbaum-basierte Algorithmus die Menge von Intervallen in einen Intervallbaum und findet ein Intervall, das das gegebene Intervall überlappt. Das Problem der Intervallbaumlösung ist, daß mehrfache Durchquerungen durch den Intervallbaum erforderlich sind, um alle Intervalle zu finden, die das gegebene Intervall überlappen. Der Intervallbaum kann nicht auf mehrdimensionale Domänen erweitert werden, um Paketklassifizierung zu unterstützen.
Vorgegeben eine Menge von Intervallen und einen Punkt, transformiert der PR-Baum-basierte Algorithmus die Menge von Intervallen in einen PR-Baum und findet alle Intervalle, die den gegebenen Punkt beinhalten. Das Problem im PR-Baum ist, daß der PR-Baum gedoppelte Informationen speichert, daß jedes offene Intervall, das im Bereichsknoten gespeichert ist, jeden seiner Endpunkte in einem Punktknoten gespeichert hat. Der PR-Baum könnte erweitert werden, um mehrdimensionale Probleme zu unterstützen, muß aber zuviel Speicher verbrauchen.
Das in der US-Patentschrift Nr. 6,539,394 vorgeschlagene Verfahren ist ein statischer Algorithmus, der den Entscheidungsbaum wiederaufbauen muß, wenn Einfügungen oder Löschungen eines Intervalls an der Intervallmenge durchgeführt werden. Er benötigt auch große Vorverarbeitungszeit, um den Entscheidungsbaum aufzubauen.
Der disjunkte Intervallbaum der vorliegenden Erfindung kann verwendet werden, um eine Datenstruktur aufzubauen, die nur eine einzelne Pfaddurchquerung erfordert, um alle Intervalle zu finden, die ein gegebenes Intervall überlappen, und erfordert nur den halben Speicherplatz im Vergleich zum PR-Baum.
Kurzdarstellung der Erfindung
Gemäß einem Gesichtspunkt der Erfindung wird eine neue baumähnliche Struktur erstellt. Die baumähnliche Struktur, bekannt als ein disjunkter Graph, gibt die Paketklassifizierung in nur einem Durchgang des Baums frei.
Der disjunkte Graph besteht aus zwei neuen Typen von Datenstrukturen: einem Elementar-Intervall-Baum (EIT/elementarg interval tree) und einem disjunkten Intervallbaum (DIT/disjoint interval tree). Der disjunkte Graph ist auf der Basis einer bereichsspezifizierten Regelmenge zur Klassifizierung von Paketen aufgebaut. Jede Regel in der Regelmenge weist eine gleiche Anzahl von Felder D auf und jedes Feld spezifiziert einen Bereich, der als ein ganzzahliges Intervall bezeichnet ist, das eine untere und eine obere Grenze hat. Der disjunkte Graph hat die gleiche Anzahl von Schichten D wie Felder in jeder Regel vorhanden sind. Die Schichten bestehen aus Knoten und jeder Knoten hat eine zugeordnete Regelmenge, die aus der ursprünglichen (bereichsspezifizierten) Regelmenge ausgewählt ist.
Die erste Schicht des disjunkten Graphen ist ein EIT. Die restlichen Schichten umfassen eine Menge von DITs und eine Menge von EITs. Die Menge der DITs auf einer gegebenen Schicht wird für die ganzzahligen Intervalle aufgebaut, die in jedem Knoten der EITs in der vorhergehenden Schicht gespeichert sind. Die Menge der EITs auf einer gegebenen Schicht wird für die ganzzahligen Intervalle aufgebaut, die in jedem Knoten der DITs dieser Schicht gespeichert sind. Die zugeordnete Regelmenge eines Knotens eines EIT in einer j-ten Schicht beinhaltet Regeln, deren j-tes Feld das elementare Intervall beinhaltet, das im Knoten gespeichert ist. Die zugeordnete Regelmenge eines Knotens eines DIT in einer j-ten Schicht beinhaltet Regeln, deren j-tes Feld durch das disjunkte Intervall beinhaltet ist, das im Knoten gespeichert ist.
Elementare Intervalle sind nicht überlappende ganzzahlige Intervalle. Disjunkte Intervalle sind Intervalle, die aus überlappenden ganzzahligen Intervallen durch ihre Vereinigung gebildet sind, um ganzzahlige Intervalle zu bilden, die disjunkt voneinander sind.
Gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren der Klassifizierung nach Anspruch 1 bereitgestellt.
Lösungen des Standes der Technik zum Indexieren von Intervallen, um die Schnittmengenabfrage und scharfe Abfrage zu unterstützen, schließen Segmentbaum, Intervallbaum, Prioritätssuchbaum, binären Intervallsuchbaum, Punktbereichsbaum usw. ein. Jedoch keine Lösung ist jemals vorgeschlagen worden, um die disjunkten Intervalle für eine gegebene Menge von Intervallen zu finden.
Kurzbeschreibung der Zeichnungen
Die Erfindung wird nun detaillierter mit Verweis auf die beigefügten Zeichnungen beschrieben, in welchen:
1 eine Grundregelmenge mit fünf Regeln darstellt, wobei jede Regel drei Felder aufweist;
2 einen FIS-Baum zeigt, der für die Regelmenge von 1 aufgebaut ist;
3 den Aufbau der DITs und EITs zeigt;
4 einen disjunkten Graph zeigt, der für die Regelmenge von 1 aufgebaut ist;
5 eine Intervallmenge S mit drei Intervallen zeigt;
6 einen PR-Baum zeigt, der für die Menge von 5 aufgebaut ist;
7 den EIT darstellt, der für die Menge von 5 aufgebaut ist;
8 eine Intervallmenge S mit fünf Intervallen darstellt;
9 einen Intervallbaum zeigt, der für die Menge von 8 aufgebaut ist;
10 ein PR-Baum ist, der für die Menge von 8 aufgebaut ist;
11 ein Entscheidungsbaum ist, der für die Menge von 8 aufgebaut ist;
12a ein DIT für die Menge von 8 ist; und
12b ein EIT für die Menge von 8 ist.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Gemäß der vorliegende Erfindung, vorgegeben eine Regelmenge und ein Paket, wird ein disjunkter graph-basierter Klassifizierungsalgorithmus dargestellt. Der Algorithmus schließt den disjunkten Graphen, um die Regelmenge darzustellen, um Paketklassifizierung zu unterstützen, den Disjoint Graph Construction-Algorithmus, um die Regelmenge in einen disjunkten Graphen zu transformieren und den Disjoint Graph Search-Algorithmus, um die beste Matchingregel für das Paket auf dem disjunkten Graphen zu finden, ein.
Die Datenstruktur des disjunkten Graphen für eine gegebene Regelmenge mit D Feldern in jeder Regel weist D Schichten auf. Jeder Knoten im disjunkten Graphen weist eine zugeordnete Regelmenge auf. Die erste Schicht des disjunkten Graphen ist ein Elementar-Intervall-Baum (EIT), der für die Menge von ganzzahligen Intervallen aufgebaut ist, die zum ersten Feld der Regeln in der Regelmenge gehören. Außer der ersten Schicht setzt sich die j-te Schicht des disjunkten Graphen aus einer Menge von disjunkten Intervallbäumen (F_j-DITs) und einer Menge von Elementar-Intervall-Bäumen (F_j-EITs) zusammen. Die Menge der F_j-DITs wird für die ganzzahligen Intervalle aufgebaut, die in jedem Knoten der F_j-1-EITs in der (j – 1)-ten Schicht gespeichert sind. Die Menge der F_j-EITs wird für die ganzzahligen Intervalle aufgebaut, die in jedem Knoten der F_j-DITs in der j-ten Schicht gespeichert sind.
Der disjunkte Graph ist auf der Basis von zwei Strukturen aufgebaut: Elementar-Intervall-Baum (EIT) und disjunkter Intervallbaum (DIT). Vorgegeben eine Menge von ganzzahligen Intervallen, können ihre elementaren Intervalle und disjunkten Intervallen durch Bäume dargestellt werden, die als Elementar-Intervall-Baum und disjunkter Intervallbaum bezeichnet sind. Jeder Knoten im EIT (DIT) speichert ein elementares (disjunktes) Intervall der Menge der ganzzahligen Intervalle. Die Komponenten des disjunkten Graphen F_j-EIT und F_j-DIT verbessern den EIT und DIT durch Einstellung einer zugeordneten Regelmenge (ARS) zu jedem Knoten des EIT und DIT. Die zugeordnete Regelmenge eines Knotens in F_j-EIT beinhaltet Regeln, deren j-tes Feld das elementare Intervall beinhaltet, das im Knoten gespeichert ist, während die zugeordnete Regelmenge eines Knotens in F_j-DIT Regeln beinhaltet, deren j- tes Feld durch das disjunkte Intervall beinhaltet ist, das im Knoten gespeichert ist.
Die EIT-Komponente allein würde ausreichen, eine Datenstruktur aufzubauen, die die Anforderung eines einzelnen zu durchquerenden Weges erfüllt, um die beste Matchingregel für ein Paket durch Aufbauen der EITs für die zugeordnete Regelmenge der Knoten des aufgebauten EIT zu finden, bis kein EIT mehr aufgebaut werden kann. Jedoch werden gedoppelte Sub-EITs in solch einer Datenstruktur aufgebaut, wenn sich die zugeordneten Regelmengen der Knoten in einem EIT miteinander überlappen. Diese gedoppelten Sub-EITs sind redundant und sollten gemeinsam genutzt werden, um Speicherplatz für die Datenstruktur zu sparen. Leider können gedoppelte Sub-EITs nicht durch zwei EITs gemeinsam genutzt werden, wenn der Sub-EIT in der "Mitte" eines EIT ist. Folglich werden DITs aufgebaut, um die gemeinsame Nutzung der gedoppelten Sub-EITs zu ermöglichen.
Zum Beispiel ist 3 das Beispiel des DIT- und EIT-Aufbaus. 3c zeigt, daß zwei EITs einen gedoppelten Sub-EIT aufweisen, aber sie können die gedoppelten Sub-EITs nicht gemeinsam nutzen, da der Sub-EIT in der "Mitte" von beiden ElTs ist. Aber wenn man einen DIT für jeden EIT erstellt, können die DITs genutzt werden, um die ursprünglichen EITs zu ersetzen und den zwei DITs gemeinsam einen einzelnen Sub-EIT nutzen zu lassen.
4 ist der disjunkte Graph G, der für die Menge der Regeln S mit 3 Feldern aufgebaut ist, die in 1 gegeben ist. G weist 3 Schichten auf: 1) Schicht 1 beinhaltet einen F₁-EIT, der für die Regelmenge S aufgebaut ist; 2) Schicht 2 beinhaltet sechs F₂-DITs für zugeordnete Regelmengen der Knoten in dem F₁-EIT und zwei F₂-EIT, die für zugeordnete Regelmengen (ARSs/associated rule sets) der Knoten in den sechs F₂-DITs aufbaut sind, weil sechs verschiedene ARSs vorhanden sind, deren Größen größer als 1 in dem F₁-EIT sind und zwei verschiedene ARSs, deren Größen größer als 1 in den sechs F₂-DITs sind; 3) Schicht 3 beinhaltet zwei F₃-DITs, die für ARSs der Knoten in den zwei F₂-EITs aufgebaut sind, und einen F₃-EIT, der für ARSs der Knoten in den zwei F₃-DITs aufgebaut ist, weil zwei verschiedene ARSs vorhanden sind, deren Größen größer als 1 in den zwei F₂-EIT sind, und zwei verschiedene ARSs, deren Größen größer als 1 in den zwei F₃-DITs sind.
Der Disjoint Graph Construction-Algorithmus nimmt eine Regelmenge S mit N Regeln und D Feldern als Eingabe und gibt einen disjunkten Graphen G als Ausgabe zurück.

Eingabe: Regelmenge S = {R₁, ..., R_N} , wo R_i = {F_i1, F_i2, ..., F_iD}, i ∈ [1, N]
Ausgabe: disjunkter Graph G.

Disjoint Graph Construction-Algorithmus (S)

Schritt 1. Aufbauen der ersten Schicht des disjunkten Graphen G. Aufbauen eines F₁-EIT für das ganzzahlige Intervall F₁(S) unter Verwendung des EITC-Algorithmus
Schritt 2. Aufbauen der k-ten Schicht des disjunkten Graphen G, k ∈ [2, D]
1. Aufbauen eines F_k-DIT in der k-ten Schicht für jeden Knoten des F_k-1-EIT in der (k – 1)-ten Schicht und Verbinden des Knotens mit der Wurzel des neu aufgebauten F_k-DIT
a. Vorgegeben einen Knoten v mit einer zugeordneten Regelmenge S_v eines F_k-1-EIT in der (k – 1)-ten Schicht, Aufbauen eines F_k-DIT_v für die Menge von ganzzahligen Intervallen F_k(S_v) unter Verwendung des DITC-Algorithmus, Verbinden von v mit der Wurzel des F_k-DIT_v. Wenn S_v nur eine Regel hat, die Regel direkt mit v verbinden;
b. Wenn die zugeordnete Regelmengen S_v eines anderen Knotens v' die gleiche wie S_v ist, dann wird F_k-DIT_v gemeinsam durch v und v' genutzt, und der Knoten v' wird ebenfalls mit der Wurzel des F_k-DIT_v verbunden;
c. Wiederholung a bis c, um F_k-DITs für alle Knoten in den F_k-1-EITB aufzubauen.
2. Aufbauen eines F_k-EIT in der k-ten Schicht für jeden Knoten in den F_k-DITs in der k-ten Schicht und Verbinden des Knotens mit der Wurzel des neu aufgebauten F_k-EIT
a. Vorgegeben einen Knoten v mit einer zugeordneten Regelmenge S_v eines F_k-DIT in der k-ten Schicht, Aufbauen eines F_k-EIT_v für die Menge von ganzzahligen Intervallen F_k(S_v) unter Verwendung des EITC-Algorithmus, Verbinden von v mit der Wurzel des F_k-EIT_v. Wenn S_v nur eine Regel hat, die Regel direkt mit v verbinden;
b. Wenn die zugeordnete Regelmenge S_v eines anderen Knotens v' die gleiche wie S_v ist, dann wird F_k-EIT_v gemeinsam durch v und v' genutzt und der Knoten v' wird ebenfalls mit der Wurzel des F_k-EIT_v verbunden;
c. Wiederholung a bis c, um F_k-EITs für alle Knoten in den F_k-DITs aufzubauen. Wiederholung von Schritt 2 bis die D-te Schicht des disjunkten Graphen G aufgebaut ist.

Der Disjoint Graph Search-Algorithmus nimmt einen disjunkten Graphen G, der durch den Disjoint Graph Construction-Algorithmus aufgebaut ist und ein Paket P als Eingaben und gibt die beste Matchingregel von P als Ausgabe zurück.
Disjoint Graph Search-Algorithmus (G, P)
Die Suche beginnt von der Wurzel des F₁-EIT-Baums in der ersten Schicht von G.

Schritt 1. Suchen der F_k-EITs in der k-ten Schicht von G, k ∈ [1, D] Die Suche, die auf dem Knoten v des F_k-EIT mit der zugeordneten Regelmenge S_v und ganzzahligem Intervall I ~_v = [l ~_v, u ~_v] durchgeführt wird, kann in drei Fälle unterteilt werden:
Fall 1: f_k < l ~_v Durchführen der Suche auf dem linken Unterverzeichnis von v, wenn das linke Unterverzeichnis existiert. Wenn das linke Unterverzeichnis nicht existiert, ist keine Matchingregel für P in G vorhanden.
Fall 2: f_k > u ~_v Durchführen der Suche auf dem rechten Unterverzeichnis von v, wenn das rechte Unterverzeichnis existiert. Wenn das rechte Unterverzeichnis nicht existiert, ist keine Matchingregel für P in G vorhanden.
Fall 3: l ~_v ≤ f_k ≤ u ~_v Durchführen der Suche auf F_k+1-DIT_v in der (k + 1)-ten Schicht, wenn der F_k+1-DIT_v existiert. Wenn F_k+1-DIT_v nicht existiert, dann ist die beste Matchingregel von P die Regel, die die kleinste Regelnummer in S_v aufweist.
Schritt 2. Suchen des F_k+1-DIT_v in der (k + 1)-ten Schicht von G, k ∈ [1, D – 1] Die Suche, die auf dem Knoten v des F_k+1-DIT_v mit der zugeordneten Regelmenge S_v und ganzzahligem Intervall I ~_v = [l ~_v, u ~_v] durchgeführt wird, kann in drei Fälle unterteilt werden:
Fall 1: f_k ₊₁ < I ^_v Durchführen der Suche auf dem linken Unterverzeichnis von v, wenn das linke Unterverzeichnis existiert. Wenn das linke Unterverzeichnis nicht existiert, ist keine Matchingregel für P in G vorhanden.
Fall 2: f_k+1 > u ^_v Durchführen der Suche auf dem rechten Unterverzeichnis of v, wenn das rechte Unterverzeichnis existiert. Wenn das rechte Unterverzeichnis nicht existiert, ist keine Matchingregel für P in G vorhanden.
Fall 3: l ^_v ≤ f_k+1 ≤ u ^_v Durchführen der Suche auf F_k+1-EIT_v in der (k + 1)-ten Schicht, wenn der F_k ₊₁-EIT_v existiert. Wenn F_k+1-EIT_v, nicht existiert, dann ist die beste Matchingregel von P die Regel, die die kleinste Regelnummer in S_v, aufweist.

Der Disjunkte Graph-basierte Klassifizierungsalgorithmus erfordert nur einen einzelnen zu durchquerenden Weg beim Durchführen der Klassifizierung für ein Paket, folglich verringert sich die durch den FIS-Bäume-basierten Klassifizierungs-algorithmus erforderliche Suchzeit. Außerdem, da identische EITs (DITs) nur einmal aufgebaut werden, werden Aufbauzeit und Speicherplatz eingespart.
Ebenfalls gemäß der Erfindung, vorgegeben eine Menge von Intervallen und einen Punkt, wird der Elementar-Intervall-Baum dargestellt, um die Menge von Intervallen darzustellen, um scharfe Abfrage zu unterstützen, der Elementarg Interval Tree Construction-Algorithmus, um die Menge von Intervallen an einen Elementar-Intervall-Baum aufzubauen, und der Elementarg Interval Tree Query-Algorithmus, um scharfe Abfrage auf dem Elementar-Intervall-Baum durchzuführen, um alle Intervalle zu finden, die einen gegebenen Punkt beinhalten.
Vorgegeben eine Menge von Intervallen I = {I₁, I₂, ..., I_n} = {[l₁, u₁], [l₂, u₂], ..., [l_n, u_n]}, ist die Menge der elementaren Intervalle von I definiert als {I ~₁, I ~₂, ..., I ~_K}:

1. Ablegen aller unteren Grenzen und oberen Grenzen von I in ein Feld E, E = {l₁, u₁, ..., l_n, u_n};
2. Sortieren von E in aufsteigender Reihenfolge, Löschen gedoppelter Elemente, Bezeichnen von E als E = {e₁ , ..., e_k}, e₁ < e₂ < ... < e_K, 1 ≤ K ≤ 2n;
3. I ~_k
e_k, e_k+1
I_i, 1 ≤ k ≤ K – 1, wenn e_k
U oder e_k+1
), 1 ≤ i ≤ n (zwei aufeinanderfolgende elementare Grenzen e_k und e_k+1 definieren ein elementares Intervall, es sei denn, die erste Grenze e_k ist eine obere Grenze und die zweite Grenze e_k+1 ist eine untere Grenze)
4. I₁ ⋃ I₂ ⋃ ... ⋃ I_n = I ~₁ ⋃ I ~₂ ⋃ ... ⋃ I ~_K-1;
5. ∀ I ~_a, I ~_b, a ≠ b, I ~_a ∩ I ~_b = Ø.

Zum Beispiel, vorgegeben eine Menge von Intervallen (5) {[10, 30], [5, 35], [4, 8]}, sind die elementaren Intervalle {[4, 4], [5, 8], [9, 9], [10, 30], [31, 35]}.
Der Elementar-Intervall-Baum ist ein vergrößerter binärer Suchbaum, der jedes elementare Intervall in einem Knoten speichert, um eine Menge von Intervallen darzustellen. Jeder Knoten im Elementar-Intervall-Baum hat Felder für LB, UB, Left (Links), Right (Rechts) und AIS, wo LB und UB der untere beziehungsweise obere Endpunkt eines elementaren Intervalls sind, Left (Links) und Right (Rechts) die Zeiger auf den linken beziehungsweise rechten Zweig sind, und AIS (Associated Interval Set) eine Liste der Kennungen der Intervalle ist, die das im Knoten gespeicherte elementare Intervall beinhaltet.
Der Elementarg Interval Tree Construction(EITC)-Algorithmus nimmt eine Menge von Intervallen I = {I₁, I₂, ..., I_n} als Eingabe und gibt einen elementaren Baum EIT als Ausgabe zurück.
Elementarg Interval Tree Construction-Algorithmus (I)

Schritt 1: Erstellen des Stammknotens V für EIT
1. Speichern des ganzzahligen Intervalls I_v = [l_v, u_v] = [l₁, u₁] in V;
2. Speichern der Liste der Kennungen der Intervalle AIS_v = {I_I} in V;
3. Entfernen von I₁ aus I, I = I – I₁.
Schritt 2: Einfügen von I_i = [l_i, u_i], i ∈ [2, n] in den EIT
1. Vergleichen von I_i mit I_v
Fall 1: u_i < l_v Wenn der linke abgeleitete Knoten von V nicht existiert, v_L = Ø, v_L erstellen, I_i in v_L speichern und I_i zum AIS von v_L hinzufügen. Wenn v_L ≠ Ø rekursiv ist, I_i in den linken Sub-EIT mit der Wurzel v_L einfügen.
Fall 2: l_i > u_v Wenn der rechte abgeleitete Knoten von V nicht existiert, v_R = Ø, v_R erstellen, I_i in v_R speichern und I_i zum AIS von v_R hinzufügen. Wenn v_R ≠ Ø rekursiv ist, I_i zum rechten Sub-EIT mit der Wurzel v_R hinzufügen.
Fall 3: I_i ∩ I_v ≠ Ø IL = [min(li, lv), max(li, lv) – 1] IR = [min(ui, uv) + 1, max(ui, uv)] Iv = [lv, uv] = [max(li, lv), min(ui, uv)] Einfügen der ganzzahligen Intervalle I_L und I_R in EIT Wenn I_L ≠ Ø Wenn v_L = Ø, v_L erstellen, I_L in v_L speichern; Wenn v_L ≠ Ø rekursiv ist, I_L in den linken Sub-EIT mit der Wurzel v_L einfügen. Wenn I_R ≠ Ø Wenn v_R = Ø, v_R erstellen, I_R in v_R speichern; Wenn v_R ≠ Ø rekursiv ist, I_R in den rechten Sub-EIT mit der Wurzel v_R einfügen.
2. I_i aus I, I = I – I₁ entfernen, Wiederholung von Schritt 2 bis I = Ø

Der Elementarg Interval Tree Query(EITQ)-Algorithmus nimmt den Elementar-Intervall-Baum EIT, der für eine Menge von Intervallen durch den EITC-Algorithmus aufgebaut ist, und einen Punkt P als Eingaben und gibt eine Liste der Kennungen der Intervalle aus, die P als Ausgabe beinhalten.
Elementarg Interval Tree Query-Algorithmus (EIT, P) Starten von dem Stammknoten V von EIT

Fall 1. Wenn l_v ≤ P ≤ u_v, AIS_v zurückgeben;
Fall 2. Wenn P < l_v rekursiv ist, den linken Sub-EIT suchen, der seine Wurzel am linken abgeleiteten Knoten von V, v_L hat;
Fall 3. Wenn P > u_v, rekursiv ist, den rechten Sub-EIT suchen, der seine Wurzel am rechten abgeleiteten Knoten von V, v_R hat;
Fall 4. Wenn der EIT leer ist, NULL zurückgeben.

Der Elementar-Intervall-Baum beinhaltet nur die Bereichsknoten im PR-Baum, folglich verbraucht er nur den halben Speicher, der durch den PR-Baum erforderlich ist. Der Elementar-Intervall-Baum ermöglicht die dynamische Einfügung (Schritt 2 des EITC-Algorithmus) und die Löschung, während der Baum sowie der PR-Baum ausgeglichen gehalten werden. Ein ausgeglichenes Binärbaumschema könnte verwendet werden, um die Baumausgleichsoperation am Elementar-Intervall-Baum durchzuführen. Der ausgeglichene Elementar-Intervall-Baum hält die Suchzeit wie O(log n) und verringert die Worst-Case-Einfügungszeit auf O(nlog n), wo n die Gesamtanzahl der Intervalle ist.
Die Vorteile des Elementar-Intervall-Baums sind: 1) Verringerung des durch den PR-Baum erforderlichen Speichers auf die Hälfte, 2) Verringerung der Einfügungs- und Löschungszeit im Vergleich zum PR-Baum.
Vorgegeben eine Menge von Intervallen S, die in 5 gezeigt ist, ist 6 der PR-Baum, der für S aufgebaut ist, und ist 7 der für S aufgebaute Elementar-Intervall-Baum.
Der kommerzielle Wert des Elementar-Intervall-Baums liegt in der Rolle als Lösung für scharfe Abfragen, was ein notwendiges Element in Anwendungen wie zum Beispiel IP-Routern ist. Außerdem stellt die Erweiterung des Elementar-Intervall-Baums auf mehrdimensionale Domänen eine Lösung für Paketklassifizierung in IP-Routern bereit. Die Klassifizierung ist eine sehr wichtige Funktion, die ein Teil der Anwendungen wie zum Beispiel Firewall, IPsec, Dienstgüte (Quality of Service) ist. Die Firewall muß die Pakete auf der Basis vordefinierter Regelmengen klassifizieren, so daß sie gewisse Pakete des Flusses vom Eintreten in das Netzwerk filtern/blockieren kann. IPsec muß Pakete auf der Basis der Regeln klassifizieren, so daß spezielle Pakete des Flusses mit entsprechenden Sicherheitsrichtlinien und -zuordnungen verglichen werden können, die Sicherheitsalgorithmen, sichere Schlüssel angeben, die auf die Pakete des Flusses anzuwenden sind. Die Dienstgüte muß die Klassifizierungsfunktion auf Paketen durchführen, so daß Attribute der Dienstgüte wie Verzögerungsbeschränkungen, Paketverlustbeschränkungen, Bandbreite mit den Paketen des Flusses verbunden werden können. In VPN-Umgebungen können alle drei Anwendungen von Firewall, IPsec und Dienstgüte auf das Edge-Router-Gerät angewendet werden müssen. Deshalb wird die effiziente Implementierung der Klassifizierungsfunktion sogar in solchen Umgebungen notwendiger.
Vorgegeben eine Menge von Intervallen stellt der disjunkte Intervallbaum eine Menge von Intervallen dar, um die Abfragen wie zum Beispiel scharfe Abfrage und Schnittmengenabfrage zu erleichtern, transformiert der Disjoint Interval Tree Construction-Algorithmus eine Menge von Intervallen in einen disjunkten Intervallbaum und folglich, um die disjunkten Intervalle für die Menge von Intervallen zu finden, führt der Disjoint Interval Tree Point Query-Algorithmus die scharfe Abfrage auf dem disjunkten Intervallbaum durch und führt der Disjoint Interval Tree Point Query-Algorithmus die Schnittmengenabfrage auf dem disjunkten Intervallbaum durch.
Vorgegeben eine Menge von Intervallen I = {I₁, I₂, ..., I_n}, ist die Menge der disjunkten Intervalle von I definiert als {I ^₁, I ^₂, ... I ^_L},

1. I₁ ∪ I₂ ∪ ... ∪ I_n = I ^₁ ∪ I ^₂ ∪ ... ∪ I ^_L;
2. ∪ I ^_a, I ^_b, a ≠ b, I ^_a ∩ I ^_b = Ø;
3. ∀ I ^₁, I ^₁ = I₁ ∪ ... ∪ I_K, I_k ∈ {I₁, I₂, ..., I_n}, 1 ≤ k ≤ K;
4. ∀ I_i, ∃ I ^_a, I_i ⊆ I ^_a, ∀ I ^_b, I ^_b ≠ I ^_a, I_i ⊄ I ^_b.

Die disjunkten Intervalle vereinigen die überlappenden Intervalle in der Menge von Intervallen, um größere Intervalle zu bilden, die einander disjunkt sind. Zum Beispiel, vorgegeben eine Menge von Intervallen {[10, 30], [5, 35], [0, 3], [4, 8], [49, 50]) (8), sind die disjunkten Intervalle {[0, 3], [4, 35], [49, 50]}.
Der disjunkte Intervallbaum ist ein binärer Suchbaum, der jedes disjunkte Intervall in einem Knoten speichert, um eine Menge von Intervallen darzustellen. Jeder Knoten im disjunkten Intervallbaum hat Felder für LB, UB, Left (Links), Right (Rechts) und AIS, wo LB und UB der untere beziehungsweise obere Endpunkt eines disjunkten Intervalls sind, Left (Links) und Right (Rechts) die Zeiger auf den linken beziehungsweise rechten Zweig sind und AIS (Associated Interval Set) eine Liste der Kennungen der Intervalle ist, die durch das im Knoten gespeicherte disjunkte Intervall enthalten ist.
Der Disjoint Interval Tree Construction(DITC)-Algorithmus nimmt eine Menge von Intervallen I = {I₁, I₂, ..., I_n} als Eingabe und gibt einen disjunkten Intervallbaum DIT als Ausgabe zurück.
Disjoint Interval Tree Construction-Algorithmus (I)

Schritt 1: Erstellen des Stammknotens V für DIT
1. Speichern des ganzzahligen Intervalls I₁ = [l₁, u₁] in V, I_v = [l_v, u_v] = [l₁, u₁]
2. Speichern der Liste der Kennungen der Intervalle AIS_v = {I₁} in V;
3. Entfernen I₁ aus I, I = I – I₁
Schritt 2: Einfügen von I_i = [l_i, u_i], i ∈ [2, n] in den DIT
1. Vergleichen von I_i und I_v
Fall 1: u_i < l_v. Wenn der linke abgeleitete Knoten von V nicht existiert, v_L = Ø, v_L erstellen, I_i in v_L speichern und I_i zum AIS von v_L hinzufügen. Wenn v_L ≠ Ø rekursiv ist, I_i in den linken Sub-DIT mit der Wurzel v_L hinzufügen.
Fall 2: l_i > u_v. Wenn der rechte abgeleitete Knote von V nicht existiert, v_R = Ø, v_R erstellen, I_i in v_R speichern und I_i zum AIS von v_R hinzufügen. Wenn v_R ≠ Ø rekursiv ist, I_i zum rechten Sub-DIT mit der Wurzel v_R hinzufügen.
Fall 3: I_i ∩ I_v ≠ Ø. Wenn l_i < l_v und Unterverzeichnisse lcv links von v existieren, die die Bedingung u_lcv ≥ l_i bestätigen, und leftmostcv eines dieser Unterverzeichnisse ist, das am weitesten links ist; dann 1) diese Unterverzeichnisse verwerfen; 2) l_v = l_leftmostlcv einstellen; 3) I_v mit dem Rest des DIT-Zweigs links verbinden Wenn l_i < l_v und keine Unterverzeichnisse lcv links von v vorhanden sind, die die Bedingung u_lcv ≥ l_i bestätigen, dann l_v = l_i einstellen Wenn u_i > u_v und Unterverzeichnisse rcv rechts von v existieren, die die Bedingung l_rcv ≤ u_i bestätigen und rightmostcv eines von diesen Unterverzeichnisse ist, das am weitesten rechts ist; dann 1) diese Unterverzeichnisse verwerfen; 2) u_v = u_rightmostcv einstellen; 3) I_v mit dem Rest des DIT-Zweigs rechts verbinden Wenn u_i > u_v und keine Unterverzeichnisse rcv rechts von v vorhanden sind, die die Bedingungen l_rcv ≤ u_i bestätigen, dann u_v = u_i einstellen. I_v = [l_v, u_v]
2. I_i von I, I = I – I_i, entfernen.
Schritt 2 bis I = Ø wiederholen

Der Disjoint Interval Tree Point Query(DITPQ)-Algorithmus nimmt den disjunkten Intervallbaum DIT, der für eine Menge von Intervallen durch den DITC-Algorithmus aufgebaut ist, und einen Punkt P als Eingaben, und gibt eine Liste der Kennungen der Intervalle zurück, die P als Ausgabe beinhalten könnten.
Disjoint Interval Tree Point Query-Algorithmus (DIT, P) Starten von dem Stammknoten V von DIT

Fall 1. Wenn l_v ≤ P ≤ u_v, AIS_v zurückgeben;
Fall 2. Wenn P < l_v, rekursiv ist, den linken Sub-DIT suchen, der seine Wurzel am linken abgeleiteten Knoten von V, v_L hat;
Fall 3. Wenn P > u_v rekursiv ist, den rechten Sub-DIT suchen, der seine Wurzel am rechten abgeleiteten Knoten von V, v_R hat;
Fall 4. Wenn der DIT leer ist, NULL zurückgeben.

Der Disjoint Interval Tree Interval Query(DITIQ)-Algorithmus nimmt den disjunkten Intervallbaum DIT, der für eine Menge von Intervallen durch den DITC-Algorithmus aufgebaut ist und ein Intervall [l, u] als Eingaben und gibt eine Liste der Kennungen der Intervalle, die [1, u] überlappen könnten, als Ausgabe zurück.
Disjoint Interval Tree Point Query-Algorithmus (DIT, l, u) Starten vom Stammknoten V von DIT

Fall 1. Wenn [l, u] ∩ [l_v, u_v] ≠ Ø, AIS_v zurückgeben;
Fall 2. Wenn u < l_v rekursiv ist, den linken Sub-DIT suchen, der seine Wurzel am linken abgeleiteten Knoten von V, v_L hat;
Fall 3. Wenn l < u_v rekursiv ist, den rechten Sub-DIT suchen, der seine Wurzel am rechten abgeleiteten Knoten von V, v_R hat;
Fall 4. Wenn der DIT leer ist, NULL zurückgeben.

Der disjunkte Intervallbaum ermöglicht dynamische Einfügung, während die naheste Lösung des Standes der Technik, die in der US-Patentschrift Nr. 6,539,394 vorgeschlagen ist, die dynamische Einfügung nicht unterstützt, wie im nächsten Abschnitt dargestellt ist. Und der disjunkte Intervallbaum ist fähig, die Ausgewogenheit durch ein ausgeglichenes Binärbaumschema aufrechtzuerhalten.
Der disjunkte Intervallbaum kann mit anderen Datenstrukturen wie zum Beispiel Elementar-Intervall-Baum verwendet werden, um eine Datenstruktur zu bilden, um Schnittmengenabfrage, scharfe Abfrage, Paketklassifizierung usw. zu unterstützen. Zum Beispiel ist es nach dem Aufbauen des disjunkten Intervallbaums möglich, einen Elementar-Intervall-Baum für jede zugeordnete Regelmenge im disjunkten Intervallbaum aufzubauen. Die Datenstruktur, die durch den ausgeglichenen disjunkten Intervallbaum und ausgeglichene Elementar-Intervall-Bäume gebildet ist, nimmt die O(log n)-Zeit für Schnittmengenabfrage oder scharfe Abfrage. Um alle Intervalle zu finden, die ein gegebenes Intervall überlappen, könnte der DITIQ-Algorithmus verwendet werden, um die Menge von Intervallen zu finden, die möglich sind, das gegebene Intervall zu überlappen, und die Menge von Intervallen, die das gegebene Intervall überlappen, kann schnell in der kleinen Intervallmenge gefunden werden. Entsprechend, um alle Intervalle zu finden, die einen gegebenen Punkt beinhalten, könnte der DITPQ-Algorithmus verwendet werden, um die Menge von Intervallen zu finden, die möglich sind, den gegebenen Punkt zu beinhalten.
Hier sind die Unterschiede des DIT beim Vergleich mit dem in der US-Patentschrift Nr. 6,539,394 vorgeschlagenen Verfahren offensichtlich. Das Verfahren ist ein statischer Algorithmus, der den Entscheidungsbaum aufbauen muß, wenn ein Intervall aus der Intervallmenge eingefügt oder gelöscht wird.
Vorgegeben eine Menge von Intervallen I = {I₁, I₂, ..., I_n} = {[l₁, u₁], [l₂, u₂], ..., [l_n, u_n]}, führt das Verfahren die folgenden Operationen durch:

1) Legt alle unteren Endpunkte {l₁, l₂, ..., l_n} in ein Feld, sortiert sie in aufsteigender Reihenfolge und löscht gedoppelte Elemente, um eine Menge von Endpunkten {le₁, le₂, ..., le_i}, i ≤ n zu erhalten, und verwendet diese Menge der Endpunkte, um eine Menge von Intervallen LE = {[0, le₁), [le₁, le₂), [le₂, le₃), ... [le_i, max)} zu bilden, wo |LE| = i + 1 und max das mögliche Maximum sind. Zum Beispiel, vorgegeben eine Menge von Intervallen {[1, 3], [4, 5], [2, 8]}, erhält man die Intervallmenge LE = {[0, 1), [1, 2), [2, 4), [4, max)};
2) Führt die gleiche Operation auf den oberen Endpunkten {u₁, u₂, ..., u_n} durch, um eine Menge von Intervallen UE = {(0, 0], [0, ue₁], (ue₁, ue₂], ... (ue_j, max]} zu erhalten, wo j ≤ n und |UE| = j + 2;
3) Für die Intervallmenge LE werden w₁ = ⎡log|LE|⎤ Bits verwendet, um jedes Intervall der Intervallmenge zu markieren, beginnend von allen Nullen für das erste Intervall. Zum Beispiel werden die Intervalle in {[0, 1), [1, 2), [2, 4), [4, max)} als 00 für [0, 1), 01 für [1, 2), 10 für [2, 4) und 11 für [4, max) markiert;
4) Markiert jedes Intervall in der Intervallmenge UE unter Verwendung von w₂ = ⎡log|UE|⎤ Bits;
5) Baut eine n × (w₁ + w₂) Matrix M für die Menge der Intervalle I auf, eine Reihe für jedes Intervall und (w₁ + w₂) Elemente for jede Reihe: 1) erhält die Bitmarken von allen Intervallen in LE, die durch das Intervall beinhaltet sind, hält die gemeinsamen Bits dieser Intervalle und setzt andere Bits auf Platzhalter *, um ein Präfix der w₁ zu erhalten, und 2) erhält ein Präfix der w₂ Bits für das Intervall entsprechend auf der Basis der Intervallmenge UE. Zum Beispiel beinhaltet das Intervall [2, 8] die Intervalle [2, 4], [4, max] in LE, die als 10 beziehungsweise 11 markiert sind, was zu 1* führt;
6) Baut einen Entscheidungsbaum auf der Basis der Matrix M auf:
a) Auswählen der Spalte, die eine minimale Anzahl von Platzhaltern aufweist, und bei mehr als einer solchen Spalte, Auswählen der niedrigsten Indexspalte, die die naheste gleiche Anzahl von Einsen und Nullen aufweist, und diese Spalte wird der erste Knoten des Entscheidungsbaums sein;
b) Leitet zwei Matrizen von M durch Eliminieren der Reihen her, die Einsen beziehungsweise Nullen in der ausgewählten Spalte aufweisen, und durch Eliminieren der ausgewählten Spalte aus den neuen Matrizen;
c) Wählt rekursiv die Spalten aus den Matrizen aus und erstellt Knoten bis der Entscheidungsbaum aufgebaut ist, daß die gegebenen Intervalle voneinander unterschieden werden.

Ein Beispiel des Entscheidungsbaums, der für die Menge von Intervallen in 8 aufgebaut ist, ist in 11 gegeben.
Obwohl spezielle Ausführungsformen der Erfindung beschrieben und dargestellt worden sind, wird es für den Fachmann offensichtlich sein, daß zahlreiche Änderungen gemacht werden können, ohne von den Grundprinzipien abzuweichen. Zum Beispiel können baumförmige Datenstrukturen zum Erstellen des disjunkten Graphen sowie des EIT und DIT auf einem computerlesbaren Medium für Paketklassifizierung gespeichert sein. Es ist jedoch zu verstehen, daß solche Änderungen innerhalb des vollen Anwendungsbereiches der Erfindung fallen werden, wie in den beigefügten Patentansprüchen definiert ist.

Claims

Ein Verfahren der Klassifizierung eines Datenpakets in einem Hochgeschwindigkeitssystem, das zum mehrdimensionalen Datenverkehr gehört, unter Verwendung von Regeln, die auf Daten in spezifizierten Felder der Header der Datenpakete angewendet sind, einer Regel, die unter Verwendung einer Menge von Intervallen für Werte entworfen ist, die in Daten angenommen sind, die zu verschiedenen Feldern der Header gehören, wobei jede Regel in der Regelmenge eine gleiche Anzahl D von Feldern aufweist, das Verfahren umfaßt: Transformieren der Menge von Intervallen in einen baumähnlichen disjunkten Graphen DG mit D Schichten, wobei jeder Knoten im DG eine zugeordnete Regelmenge aufweist, wo die erste Schicht des DG in einem Elementar-Intervall-Baum EIT, der für die Menge von Intervallen aufgebaut ist, die zum ersten Feld der Regeln in der Regelmenge gehören, und außer der ersten Schicht die j-te Schicht des DG aus einer Menge von disjunkten Intervallbäumen DIT (F_j-DITs) und einer Menge von EITs (F_j-EITs) zusammengesetzt ist, die Menge der F_j-DITs für die Intervalle aufgebaut wird, die in jedem Knoten der F_j-1-EITs in der (j – 1)-ten Schicht gespeichert sind, und die Menge der F_j-EITs für die Intervalle aufgebaut wird, die in jedem Knoten der F_j-DITs in der j-ten Schicht gespeichert sind, in welchem ein DIT eine Darstellung einer Menge von disjunkten Intervallen {I ^₁, I ^₂, ... I ^_L} als ein vergrößerter binärer Suchbaum ist, der jedes disjunkte Intervall {I ^₁, I ^₂, ... I ^_L} in einem Knoten speichert; in welchem eine Menge von disjunkten Intervallen {I ^₁, I ^₂, ... I ^_L} aus einer gegebenen Menge von Intervallen I = {I₁, I₂, ..., I_n} gebildet wird, so daß: – die Kombination aller disjunkten Intervalle {I ^₁, I ^₂, ... I ^_L} der Kombination aller überlappenden Intervalle I = {I₁, I₂, ..., I_n} entspricht: I1 ∪ I2 ∪ ... ∪ In = I ^1 ∪ I ^2 ∪ ... ∪ I ^L.– jede zwei disjunkte Intervalle disjunkt voneinander sind: ∀ I ^_a, I ^_b, a ≠ b, I ^_a ∩ I ^_b = Ø – jedes disjunkte Intervall die Kombination einiger überlappender Intervalle ist: ∀ I ^₁, I ^₁ = I₁ ∪ ... ∪ I_K, I_k ∈ {I₁, I₂, ..., I_n}, 1 ≤ k ≤ K; – jedes überlappende Intervall in nur einem der disjunkten Intervalle eingeschlossen ist: ∀ I_i, ∃ I ^_a, I_i ⊆ I ^_a, ∀ I ^_b, I ^_b ≠ I ^_a, I_i ⊄ I ^_b; in welchem ein EIT eine Darstellung einer Menge von elementaren Intervallen als ein vergrößerter binärer Suchbaum ist, der jedes elementare Intervall in einem Knoten speichert; in welchem eine Menge von elementaren Intervallen aus einer gegebenen Menge von Intervallen {I₁, I₂, ..., I_n} durch Teilen der Menge der Intervalle in kleinere nichtüberlappende Intervalle gebildet wird; und Durchführen einer Punktabfrage des DG, um herauszufinden, zu welcher Menge von Intervallen das Paket gehört.
Das Verfahren nach Anspruch 1, in welchem das Erstellen eines EIT aus einer Menge von Intervallen umfaßt: Projizieren der Endpunkte jedes Intervalls der Menge von Intervallen auf eine Linie, wobei der Endpunkt die Linie in nichtüberlappende elementare Intervalle teilt; Bilden des EIT, so daß jeder Knoten des Baums ein einzelnes elementares Intervall beinhaltet, eine Anzeige der ursprünglichen Intervalle, die mit den elementaren Intervallen und Zeigern auf alle angrenzenden Knoten im Baum verbunden sind.
Das Verfahren nach Anspruch 1, in welchem die Punktabfrage unter Verwendung einer Schnittmengenabfrage durchgeführt wird.
Das Verfahren nach Anspruch 2, in welchem die Schnittmengenabfrage durch einen Disjoint Interval Tree Point Query-Algorithmus implementiert wird.
Das Verfahren nach jedem der Ansprüche 1 bis 3, in welchem die Punktabfrage unter Verwendung einer scharfen Abfrage durchgeführt wird.
Das Verfahren nach Anspruch 4, in welchem die scharfe Abfrage durch einen Disjoint Interval Tree Point Query-Algorithmus implementiert wird.
Das Verfahren nach Anspruch 1 zur Verwendung in einem IP-Router.