DE102020120479A1

DE102020120479A1 - Fusion von Strassenkarten

Info

Publication number: DE102020120479A1
Application number: DE102020120479.5A
Authority: DE
Inventors: Tobias Herbert Johannes Emrich; Eric Theisinger; Volodymyr Ivanov; Roland Preiss
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2019-08-07
Filing date: 2020-08-04
Publication date: 2021-02-11
Also published as: US11593955B2; CN112347838A; US20210042942A1

Abstract

Ein Kartenfusionsverfahren beinhaltet das Empfangen eines Quellgraphen und eines Zielgraphen, wobei der Quellgraph für eine Quellkarte und der Zielgraph für eine Zielkarte repräsentativ ist und Knoten und Kanten beinhaltet, welche die Knoten verbinden. Das Verfahren beinhaltet ferner das Verarbeiten jedes von dem Quellgraphen und dem Zielgraphen in einer Graphenfaltungsschicht, um Ausgaben der Graphenfaltungsschicht bereitzustellen, die sich auf den Quellgraphen und den Zielgraphen beziehen, das Verarbeiten jeder der Ausgaben der Graphenfaltungsschicht für den Quellgraphen und den Zielgraphen in einer linearen Gleichrichtungsschicht zur Ausgabe von Knotenmerkmalskarten, die sich auf den Quellgraphen und den Zielgraphen beziehen, wobei die Knotenmerkmalskarten Daten umfassen, die für charakteristische Merkmale jedes Knotens repräsentativ sind, und das Auswählen von Paaren von Knotendarstellungen aus den Knotenmerkmalskarten, die sich auf den Quellgraphen und den Zielgraphen beziehen, sowie das Verketten der ausgewählten Paare, um ausgewählte und verkettete Paare von Knotendarstellungen auszugeben. Das Verfahren umfasst ferner das Verarbeiten der ausgewählten und aggregierten Paare von Knotendarstellungen in einer vollständig verbundenen Schicht, um eine Ausgabe der vollständig verbundenen Schicht bereitzustellen, die Softmax-Verarbeitung der Ausgabe der vollständig verbundenen Schicht, um eine Wahrscheinlichkeit der Übereinstimmung von Knoten in den zugehörigen Knotenmerkmalskarten auszugeben, die sich auf den Quellgraphen und den Zielgraphen beziehen, und das Entscheiden basierend auf der Wahrscheinlichkeit der Übereinstimmung von Knoten, ob Knoten in der Quellkarte mit einem entsprechenden Knoten im Zielgraphen fusioniert werden sollen.

Description

ALLGEMEINER STAND DER TECHNIK
Gebiet der Technik
Die Offenbarung betrifft ein System und ein Verfahren (im Allgemeinen als „System“ bezeichnet) zum Fusionieren von Straßenkarten.
Stand der Technik
Viele Anwendungen, wie etwa Gebietserkundung, standortbasierte Dienste, Routenplanung, Suche nach kostenlosen Parkplätzen und dergleichen, basieren auf digitalen Straßenkarten. Aufgrund der Vielfalt an Anwendungen gibt es auch eine große Anzahl digitaler Straßenkarten, die sich unter anderem in Bezug auf Abdeckung, Aufnahmezeit, Kartengenerierungsansatz und Attribute unterscheiden. Um alle Informationen zu nutzen, die in unterschiedlichen Straßenkarten beinhaltet sind, wird eine als Kartenfusion bekannte Technik (auch als Kartenverschmelzung, Kartenzusammenführung oder Kartenabgleich bezeichnet) angewendet, mit der zwei oder mehr Karten zu einer zusammengeführt werden können. Aufgrund der großen Menge an Informationen, die in den zahlreichen Karten enthalten sind, können Kartenfusionsansätze jedoch zeit- und ressourcenintensiv oder ungenau sein. Daher besteht ein erhebliches Interesse an effizienteren und genaueren Kartenfusionstechniken.
KURZDARSTELLUNG
Ein Kartenfusionsverfahren beinhaltet das Empfangen eines Quellgraphen und eines Zielgraphen, wobei der Quellgraph für eine Quellkarte und der Zielgraph für eine Zielkarte repräsentativ ist und Knoten und Kanten beinhaltet, welche die Knoten verbinden. Das Verfahren beinhaltet ferner das Verarbeiten jedes von dem Quellgraphen und dem Zielgraphen in einer Graphenfaltungsschicht, um Ausgaben der Graphenfaltungsschicht bereitzustellen, die sich auf den Quellgraphen und den Zielgraphen beziehen, das Verarbeiten jeder der Ausgaben der Graphenfaltungsschicht für den Quellgraphen und den Zielgraphen in einer linearen Gleichrichtungsschicht zur Ausgabe von Knotenmerkmalskarten, die sich auf den Quellgraphen und den Zielgraphen beziehen, wobei die Knotenmerkmalskarten Daten umfassen, die für charakteristische Merkmale jedes Knotens repräsentativ sind, und das Auswählen von Paaren von Knotendarstellungen aus den Knotenmerkmalskarten, die sich auf den Quellgraphen und den Zielgraphen beziehen, sowie das Verketten der ausgewählten Paare, um ausgewählte und verkettete Paare von Knotendarstellungen auszugeben. Das Verfahren umfasst ferner das Verarbeiten der ausgewählten und aggregierten Paare von Knotendarstellungen in einer vollständig verbundenen Schicht, um eine Ausgabe der vollständig verbundenen Schicht bereitzustellen, die Softmax-Verarbeitung der Ausgabe der vollständig verbundenen Schicht, um eine Wahrscheinlichkeit der Übereinstimmung von Knoten in den zugehörigen Knotenmerkmalskarten auszugeben, die sich auf den Quellgraphen und den Zielgraphen beziehen, und das Entscheiden basierend auf der Wahrscheinlichkeit der Übereinstimmung von Knoten, ob Knoten in der Quellkarte mit einem entsprechenden Knoten im Zielgraphen fusioniert werden sollen.
Andere Systeme, Verfahren, Merkmale und Vorteile werden dem Fachmann bei Prüfung der folgenden detaillierten Beschreibung und der beigefügten Figuren (FIG.) offensichtlich sein oder werden. Es ist beabsichtigt, dass alle derartigen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile in dieser Beschreibung beinhaltet sind, innerhalb des Schutzumfangs der Erfindung liegen und durch die nachstehenden Patentansprüche geschützt sind.
Figurenliste
Das System kann unter Bezugnahme auf die folgenden Zeichnungen und die folgende Beschreibung besser verstanden werden.

1 ist ein schematisches Diagramm, das eine Vielzahl von elektronischen Karten unterschiedlicher Arten veranschaulicht, die fusioniert werden sollen.
2 ist ein schematisches Diagramm, das die Fusion einer Quellkarte mit einer Zielkarte durch Abgleichen von Schnittpunkten und Straßen veranschaulicht.
3 ist ein schematisches Diagramm, das einen 1: 1-Abgleich zwischen Schnittpunkten im Quell- und Zielstraßennetz veranschaulicht.
4 ist ein schematisches Diagramm, das einen 1:m-Abgleich zwischen Schnittpunkten im Quell- und Ziel Straßennetz veranschaulicht.
5 ist ein schematisches Diagramm, das einen n:m-Abgleich zwischen Schnittpunkten im Quell- und Ziel Straßennetz veranschaulicht.
6 ist ein schematisches Diagramm, das ein(e) beispielhafte(s) Faltungsnetzwerk oder -schicht veranschaulicht.
7 ist ein schematisches Diagramm, das ein(e) andere(s) beispielhafte(s) Faltungsnetzwerk oder -schicht veranschaulicht.
8 ist ein schematisches Diagramm, das eine beispielhafte Graphenfaltungsschicht veranschaulicht, wobei ein Knoten hinsichtlich seiner Nachbarknoten untersucht wird.
9 ist ein schematisches Diagramm, das eine neuronale Netzwerkarchitektur eines Graphen für eine Kartenfusion mit drei beispielhaften Graphenfaltungsschichten veranschaulicht.
10 ist ein schematisches Diagramm, welches das Lernen von Kantenmerkmalen durch ein langes Kurzzeitgedächtnis veranschaulicht.

DETAILLIERTE BESCHREIBUNG
Wie vorstehend ausgeführt, können sich digitale Straßenkarten unter anderem in Bezug auf Abdeckung, Aufnahmezeit, Kartengenerierungsansatz und Attribute unterscheiden. Zum Beispiel bezieht sich der Aspekt „Abdeckung“ nicht nur auf das Gebiet, das durch die Karte erfasst wird, sondern auch auf die Granularität (z. B. konzentrieren sich einige Karten möglicherweise nur auf Autobahnen, während andere auch kleinere Straßen beinhalten). Der Aspekt „Aufnahmezeit“ ist ein weiterer wichtiger Aspekt, da sich z. B. das Straßennetz ständig ändert, sodass sich Karten, die dasselbe Gebiet zu unterschiedlichen Zeiten erfassen, wahrscheinlich dementsprechend unterscheiden. Es wird angemerkt, dass dieselbe Karte zudem unterschiedliche Aufnahmezeiten für unterschiedliche Gebiete aufweisen kann. Der Aspekt „Kartengenerierungsansatz“ befasst sich mit der Tatsache, dass einige Karten auf ziemlich konsistente Weise von Kartierungsunternehmen generiert werden, die Kartierungsstudien durchführen, während andere (z. B. Open Street Map) durch gemeinsame Anstrengungen vieler Benutzer generiert werden, was zu einer weniger konsistenten Modellierung der Karte führen kann. Der Aspekt „Attribute“ berücksichtigt, dass digitale Straßenkarten neben dem reinen Straßennetz in der Regel noch weitere Informationen beinhalten. Diese Attribute können sehr verschieden sein und sind wichtig für die Unterstützung erweiterter Anwendungen, die über das einfache Routing hinausgehen. Beispiele für Attribute sind Geschwindigkeitsbegrenzungen, Verkehrsinformationen, freie Parkplätze, zulässiges Gesamtgewicht des Fahrzeugs, Straßenzustand und dergleichen.
Unter Bezugnahme auf 1 ist der Prozess des Kombinierens von Informationen aus zwei oder mehr Karten 101-104 als Kartenfusion, Kartenverschmelzung, Kartenzusammenführung oder Kartenabgleich bekannt. Durch Kombinieren unterschiedlicher Informationen mehrerer Karten 101-104, z. B. digitaler Straßenkarten, ist es möglich, die Abdeckung der resultierenden Karte zu erhöhen, die Qualität der Eingabekarten zu verbessern, etwaige beinhaltete Fehler zu korrigieren und eine Karte mit den kombinierten Attributen der Eingabekarten zu erstellen. Das Grundprinzip der Kartenfusion besteht darin, Objekte in einer Quellkarte mit den entsprechenden Objekten in der Zielkarte abzugleichen. Bei den Objekten kann es sich beispielsweise um Straßen, Schnittpunkte oder Punkte von Interesse handeln. Basierend auf der Übereinstimmung dieser Objekte können Informationen (z. B. Geometrie einer Straße, Geschwindigkeitsbegrenzungen oder Verkehrsinformationen) von einer Karte auf eine andere übertragen werden.
Wie in 2 abgebildet, kann ein Straßennetz als Graph G(V, E) dargestellt werden, d. h. als Sammlung von Knoten V (Anschlussstellen, Schnittpunkten) und Kanten E (Straßensegmente), wobei jede Kante E zwei Knoten V verbindet. In dem in Verbindung mit 2 gezeigten und beschriebenen Beispiel gibt es eine Vielzahl von Kanten 201 und Knoten 203 einer Zielkarte, mit der eine Vielzahl von Kanten 202 und Knoten 204 einer Quellkarte abgeglichen wird.
Im Folgenden und unter Bezugnahme auf 3, 4 und 5 konzentriert sich die Kartenfusion auf Schnittpunkte (Knoten), wobei jede Karte beispielsweise ein Straßennetz ist. Die Kartenfusion basiert auf einem Quellstraßennetz S und einem Zielstraßennetz T, wobei angenommen wird, dass das Quellstraßennetz S und das Zielstraßennetz T übereinstimmende Paare (sv, tv) von Quellknoten sv und Zielknoten tv enthalten, in dem sv □ S.V. und tv □ T.V. Ein übereinstimmendes Paar (sv, tv) existiert, wenn die Quellknoten sv und die Zielknoten tv in der realen Welt denselben physischen Schnittpunkt darstellen. Es wird angemerkt, dass manchmal ein 1:1-Abgleich zwischen Schnittpunkten (Knoten) in dem Quell- und dem Zielstraßennetz aufgrund unterschiedlicher Modellierungstechniken nicht möglich ist. In diesem Fall kann ein 1:m-, n:1- oder n:m-Abgleich durchgeführt werden. Einige Ansätze zur Kartenfusion versuchen, Straßen oder Schnittpunkte der beiden Eingabekarten abzugleichen, wobei n die Anzahl der Knoten darstellt, die in der Quellkarte abgeglichen werden sollen, und m die Anzahl der Knoten darstellt, die in der Zielkarte abgeglichen werden sollen.
3 bildet einen 1:1-Abgleich eines Quellstraßennetzes (einer Quellkarte) und eines Zielstraßennetzes (einer Zielkarte) ab. In diesem Beispiel wird das Zielstraßennetz (die Zielkarte) durch einen Graphen dargestellt, der einen Knoten 301 an einem Schnittpunkt der Kanten 302, 303 und 304 beinhaltet, und das Quellstraßennetz (die Quellkarte) wird durch einen Graphen dargestellt, der einen Knoten 305 an einem Schnittpunkt der Kanten 306, 307 und 308 beinhaltet. 4 bildet einen 1:m-Abgleich (z. B. m = 3) eines Quellstraßennetzes (einer Quellkarte) und eines Zielstraßennetzes (einer Zielkarte) ab. In diesem Beispiel wird das Zielstraßennetz (die Zielkarte) durch einen Graphen dargestellt, der die Knoten 401, 405 und 408 beinhaltet. Der Knoten 401 stellt einen Schnittpunkt der Kanten 402, 403 und 404 dar. Der Knoten 405 stellt einen Schnittpunkt der Kanten 404, 406 und 407 dar. Der Knoten 408 stellt einen Schnittpunkt der Kanten 402, 407 und 409 dar. Das Quellstraßennetz (die Quellkarte) wird durch einen Graphen dargestellt, der einen Knoten 410 an einem Schnittpunkt der Kanten 411, 412 und 413 beinhaltet. 5 bildet einen n:m-Abgleich (z.B. n = 2, m = 2) eines Quellstraßennetzes (einer Quellkarte) und eines Zielstraßennetzes (einer Zielkarte) ab. In diesem Beispiel wird das Zielstraßennetz (die Zielkarte) durch einen Graphen dargestellt, der die Knoten 501 und 505 beinhaltet. Der Knoten 501 stellt einen Schnittpunkt der Kanten 502, 503 und 504 dar. Der Knoten 505 stellt einen Schnittpunkt der Kanten 504, 506 und 507 dar. Das Quellstraßennetz (die Quellkarte) wird durch einen Graphen dargestellt, der die Knoten 508 und 512 beinhaltet. Der Knoten 508 stellt einen Schnittpunkt der Kanten 509, 510 und 511 dar. Der Knoten 512 stellt einen Schnittpunkt der Kanten 511, 513 und 514 dar.
Ein beispielhafter Algorithmus für die Kartenfusion kann mindestens drei Verarbeitungsphasen beinhalten. In einer ersten Verarbeitungsphase, die als „Kandidatenauswahl“ bezeichnet wird, wird für jedes Objekt s in der Zielkarte ein Satz von Kandidatenobjekten t aus der Quellkarte ausgewählt, für die gilt dist(s, t) < ε, wobei ε einen Schwellenwert darstellt und dist() in der Regel ein kombinierter Abstand ist, der von mehreren Aspekten, wie etwa beispielsweise Schnittpunkten, räumlichem Abstand, ausgehenden Verbindungen, Struktur ausgehender Verbindungen usw., und Aspekten, wie etwa Straßen, räumlichem Abstand, Formähnlichkeit, Länge, Winkel usw., abhängig ist.
In einer zweiten Verarbeitungsphase, die als „Optimierung“ bezeichnet wird, können die Abstände aus der ersten Phase in Bewertungen (manchmal Wahrscheinlichkeiten) umgewandelt werden, mit denen entschieden werden kann, ob zwei Objekte abgeglichen werden sollen. Danach werden diese Bewertungen basierend auf der Struktur der Nachbarschaften des übereinstimmenden Paares iterativ aktualisiert. Das Endergebnis ist eine Bewertungsmatrix, die für jedes Objektpaar (s, t) die Wahrscheinlichkeit angibt, dass diese Objekte übereinstimmen.
In einer dritten Verarbeitungsphase, die als „endgültige Auswahl“ bezeichnet wird, werden die endgültigen übereinstimmenden Paare ausgewählt, um sicherzustellen, dass keine Widersprüche bestehen bleiben. Es gibt mehrere Beispiele für den vorstehenden Ansatz für die Verschmelzungsprozesse, die auf Datenbanken aus heterogenen Quellen angewendet werden. Der Ausdruck Verschmelzung wird verwendet, um das Verfahren zur Integration dieser unterschiedlichen Daten zu beschreiben, und Verschmelzungsverfahren spielen eine wichtige Rolle in Systemen zur Aktualisierung von Datenbanken, zur Ableitung neuer kartografischer Produkte, zur Verdichtung digitaler Höhenmodelle, zur automatischen Merkmalsextraktion usw. Jeder Verschmelzungsprozess kann z. B. anhand seiner Bewertungsmaßnahmen und seiner Hauptanwendungsprobleme klassifiziert werden. Eine Möglichkeit besteht darin, den Verschmelzungsprozess basierend auf den Übereinstimmungskriterien oder dem Darstellungsmodell zu klassifizieren. In einem beispielhaften Ansatz wird ein heuristisches probabilistisches Relaxations-Straßennetz-Abgleichverfahren verwendet, um die verfügbaren und aktuellen Informationen von Daten aus mehreren Quellen zu integrieren. Dieses Verfahren beginnt mit einer anfänglichen Wahrscheinlichkeitsmatrix, die Unterschiede bei den Formen kartographierter Objekte widerspiegelt, und integriert dann den relativen Kompatibilitätskoeffizienten benachbarter Kandidatenpaare, um die anfängliche Wahrscheinlichkeitsmatrix iterativ zu aktualisieren, bis die Wahrscheinlichkeitsmatrix global konsistent ist. Schließlich werden die anfänglichen 1: -abgeglichenen Paare basierend auf Wahrscheinlichkeiten ausgewählt, die basierend auf der strukturellen Ähnlichkeit der ausgewählten abgeglichenen Paare berechnet und verfeinert werden. Dann wird ein Abgleichprozess umgesetzt, um m:n-übereinstimmende Paare zu finden. Zum Beispiel hat der Abgleich zwischen OpenStreetMap-Netzwerkdaten und professionellen Straßennetzdaten gezeigt, dass unser Verfahren unabhängig von der Abgleichrichtung ist und erfolgreich 1:0- (Null), 1:1- und m:n-Paare abgleicht.
Die vorstehenden Ansätze können jedoch einen oder mehrere der nachstehend beschriebenen Nachteile aufweisen.
Ein Nachteil ist eine unerwünschte Parameterabhängigkeit, da die meisten Ansätze, die in die vorstehende Kategorie fallen, eine Reihe von Parametern beinhalten können, die stark abgestimmt werden müssen, damit Straßennetze fusioniert werden können. Es kann schwierig sein, eine optimale Einstellung zu finden.
Ein weiterer Nachteil kann bei der Anpassung an neue Szenarien auftreten. Wenn beispielsweise die Straßenmusteränderungen (z. B. in neuen Regionen) berücksichtigt werden, ist die Parameterabhängigkeit im Allgemeinen nicht übertragbar, was entweder zu mehr Fehlern führt oder dedizierte Parameter für jede Region separat erfordert.
Ein weiterer Nachteil kann sein, dass das System problematische Fälle nicht direkt melden kann. Die meisten Ansätze beinhalten die Überprüfung von Berichten zufolge übereinstimmenden Paaren durch menschliche Annotatoren. In einer produktiven automatisierten Umgebung ist dies jedoch höchst unerwünscht.
Ein weiterer Nachteil kann die langsame Leistung sein. Die Laufzeitkomplexität der vorstehend beschriebenen Ansätze liegt normalerweise bei O(n³) oder mehr, was sie für eine Kartenfusion in großem Maßstab unpraktisch macht. Ein Weg, um mindestens einige dieser Nachteile zu überwinden, wird in dieser Schrift als „gelernte Kartenfusion“ bezeichnet, bei der ein trainierbares Kartenfusionsverfahren eingesetzt wird, das anhand von Beispielen lernt und seine Prozesse entsprechend anpasst.
Die Faltung und die Faltungsschicht sind Hauptbausteine von neuronalen Faltungsnetzwerken. Bei einer Faltung handelt es sich einfach um die Anwendung eines Filters auf eine Eingabe, die zu einer Aktivierung führt. Die wiederholte Anwendung desselben Filters auf eine Eingabe führt zu einer Aktivierungskarte, die als Merkmalskarte bezeichnet wird und die Positionen und die Stärke eines erkannten Merkmals in einer Eingabe, wie etwa einem Bild, Muster oder Graphen, angibt. Der Vorteil von neuronalen Faltungsnetzwerken besteht in der Fähigkeit, automatisch eine große Anzahl von Filtern parallel zu lernen, die für einen Trainingsdatensatz spezifisch sind, unter den Bedingungen eines bestimmten prädiktiven Modellierungsproblems, wie etwa der Bildklassifizierung. Das Ergebnis sind hochspezifische Funktionen, die überall auf Eingabebildern, -mustern oder -graphen erkannt werden können. Neuronale Faltungsnetzwerke, kurz CNN (convolutional neural networks), wenden einen Filter auf eine Eingabe an, um eine Merkmalskarte zu erstellen, die das Vorhandensein erkannter Merkmale in der Eingabe zusammenfasst. Filter können vorbestimmt sein, aber durch neuronale Faltungsnetzwerke können die Filter während des Trainings im Kontext eines konkreten Vorhersageproblems gelernt werden.
Die Verwendung eines Filters, der kleiner als die Eingabe ist, ist beabsichtigt, da derselbe Filter mehrmals an verschiedenen Punkten der Eingabe angewendet werden kann. Genauer gesagt, wird der Filter systematisch auf jeden überlappenden Teil oder filtergroßen Patch der Eingabedaten angewendet. Diese systematische Anwendung desselben Filters auf ein Bild, Muster oder einen Graphen hat zur Folge, dass, wenn der Filter so ausgelegt ist, dass er eine konkrete Merkmalsart in der Eingabe erkennt, die systematische Anwendung dieses Filters auf das/den gesamte(n) Eingabebild, -muster oder -graphen dem Filter die Möglichkeit bietet, dieses Merkmal an einer beliebigen Stelle in dem Bild, Muster oder Graphen zu erkennen.
Die erste Schicht in einem CNN ist immer eine Faltungsschicht. Am Ende des Netzwerks kann eine vollständig verbundene Schicht hinzugefügt werden. Diese Schicht nimmt im Wesentlichen ein Eingabevolumen (die Ausgabe einer Faltungs- oder gleichgerichteten Lineareinheit (rectified linear unit - ReLU) oder einer Poolschicht davor) und gibt einen N-dimensionalen Vektor aus, wobei N die Anzahl der Klassen ist, aus denen das Programm auswählen muss. Jede Zahl in diesem N-dimensionalen Vektor stellt die Wahrscheinlichkeit einer bestimmten Klasse dar. CNNs sind regulierte Versionen von mehrschichtigen Perzeptronen. Mehrschichtige Perzeptrone beziehen sich in der Regel auf vollständig verbundene Netzwerke, d. h., jedes Neuron in einer Schicht ist mit allen Neuronen in der nächsten Schicht verbunden. Die „vollständige Verbundenheit“ dieser Netzwerke macht sie anfällig für eine Überanpassung von Daten. Typische Arten der Regularisierung beinhalten das Hinzufügen einer Form der Größenmessung von Gewichtungen zur Verlustfunktion. CNNs verfolgen jedoch einen anderen Ansatz zur Regularisierung: Sie nutzen das hierarchische Muster in Daten und setzen komplexere Muster unter Verwendung kleinerer und einfacherer Muster zusammen. Auf der Skala der Verbundenheit und Komplexität befinden sich CNNs daher am unteren Ende.
6 veranschaulicht ein beispielhaftes Faltungsnetzwerk oder eine beispielhafte Faltungsschicht gemäß den vorstehenden Erläuterungen. Das Faltungsnetzwerk oder die Faltungsschicht empfängt eine Zahlenmatrix, die für Pixel eines Bildes 601 repräsentativ ist. Zur Erläuterung handelt es sich in dieser Schrift bei der Matrix um eine 5×5-Matrix, sie kann aber auch eine beliebige andere Dimension aufweisen. Eine (oder mehrere) Untermatrizen (in diesem Beispiel eine 3x3-Matrix) werden ausgewählt und anschließend durch ein (oder mehrere) Filter 602 (und 603) gefiltert, um eine (oder mehrere) Aktivierungskarten 604 (und 605) auszugeben, die durch eine Aktivierungsschicht 606 weiterverarbeitet werden kann (können). In einem alternativen Faltungsnetzwerk oder einer alternativen Faltungsschicht, das/die in 7 gezeigt ist, sammelt jedes Pixel in dem Bild 601 einen gewichteten Durchschnitt (unter Verwendung der Filtergewichtungen eines Filters 701) über die Nachbarn und seinen eigenen Wert, um eine Aktivierungskarte 702 auszugeben, die durch eine Aktivierungsschicht (in 7 nicht gezeigt) weiterverarbeitet werden kann.
Unter Bezugnahme auf 8 kann eine graphische Faltungsschicht t+1 wie folgt beschrieben werden: Jeder Knoten v sammelt Informationen $m_{v}^{t + 1}$
von seinen Nachbarn N(v) basierend auf den verborgenen Zuständen (d. h. Merkmalen) $h_{v}^{t}, h_{N (v)}^{t}$
und e_vw des Knotens, der Nachbarn bzw. der Kanten zwischen den Knoten und seinen Nachbarn aus der vorherigen Schicht t: $m_{v}^{t + 1} = \sum_{w \in N (v)} M_{t} (h_{v}^{t}, h_{w}^{t}, e_{v w}) .$
Dann wird der verborgene Zustand von v aktualisiert gemäß: $m_{v}^{t + 1} = U_{t} (h_{v}^{t}, m_{v}^{t + 1}) .$
Die Nachrichtenfunktionen M_t und die Aktualisierungsfunktionen Ut sind gelernte differenzierbare Funktionen. Die Knoten können unterschiedliche Anzahlen von Nachbarn aufweisen, und Nachbarn weisen möglicherweise keine Reihenfolge auf. Es können mehrere Schichten oder Netzwerke gestapelt werden, um das Empfangsfeld zu erhöhen.
Ein Beispiel für eine Graphenfaltungsschicht, die Kantenmerkmale ignoriert, funktioniert wie folgt: Jeder Knoten v sammelt Merkmale $h_{w}^{t},$
von seinen Nachbarn w ∈ N(v). Im nächsten Schritt wird jede Merkmalsdarstellung $h_{w}^{t}$
durch eine einzelne Schicht einer vollständig verbundenen neuronalen Netzwerkschicht verarbeitet, was zu $h_{w}^{t}'$
führt. Dann werden die Merkmale $h_{w}^{t}'$
aller Nachbarn von v aufsummiert, was zu $m_{v}^{t + 1}$
führt. Dann wird $h_{v}^{t + 1}$
durch einen gewichteten Durchschnitt der aggregierten Nachbarinformationen $m_{v}^{t + 1}$
und der Merkmale $h_{v}^{t}'$
des Knotens v berechnet. Schließlich wird die Merkmalsdarstellung jedes Knotens, der durch das beschriebene Verfahren berechnet wurde, durch eine ReLU-Einheit verarbeitet.
9 bildet eine Architektur für ein Siamese Graph Convolutional Network ab, die das Durchführen eines trainierbaren Kartenfusionsverfahrens ermöglicht. Das Training wird anhand von Beispielen durchgeführt, wobei falsch positive und falsch negative Ergebnisse zu den Trainingsdaten hinzugefügt werden, die auf Beispielen basieren. Wie in 9 gezeigt, werden in dieses Netzwerk zwei Straßennetze eingegeben, ein Quellstraßennetz 901 und ein Zielstraßennetz 902, die jeweils durch einen jeweiligen Graphen mit Knoten (deren Positionen als Merkmale genommen werden) dargestellt werden, welche Schnittpunkte von Kanten darstellen (möglicherweise mit einer durch Polylinien vorgegebenen Geometrie). Jeder der beiden Graphen durchläuft eine entsprechende Sequenz (eine oder mehrere) von Graphenfaltungsschichten 903, 904 (umgesetzt durch 128 Graphenfaltungsfilter) mit dazwischenliegenden ReLU-Schichten 905, 906, 909, 910. Im Kontext künstlicher neuronaler Netzwerke entspricht eine ReLU einem Gleichrichter in der analogen Domäne und stellt eine Aktivierungsfunktion bereit, die als positiver Teil ihres Ausdrucks f(x) = x+ = max(0, x) definiert ist, wobei x die Eingabe in ein Neuron ist. Dies ist auch als Rampenfunktion bekannt und entspricht der Halbwellengleichrichtung in der analogen Domäne. Ein entsprechendes Graphenfaltungsfilter aktualisiert die Merkmale eines Knotens, indem die aktuellen Merkmale mit den gewichteten Merkmalen der benachbarten Knoten gemittelt werden.
Die Ausgabe nach einer Reihe von jeweiligen Graphenfaltungsschichten 903, 904, 907, 908, 911, 912 ist eine Knotenmerkmalskarte 913, 914, wobei jeder Knoten durch einen 128-dimensionalen Merkmalsvektor dargestellt wird. Dann werden Paare dieser Knotendarstellungen ausgewählt und in einer Auswahl- und Aggregationsschicht (z.B. Verkettungsschicht) 915 aggregiert und in zwei vollständig verbundenen, nachfolgenden Schichten 916, 917 verarbeitet, gefolgt von einer Softmax-Schicht 918, um eine Wahrscheinlichkeit für die Übereinstimmung auszugeben. In der Mathematik handelt es sich bei der Softmax-Funktion, auch als Softargmax- oder normalisierte Exponentialfunktion bekannt, um eine Funktion, die einen Vektor von K reellen Zahlen als Eingabe verwendet und in eine Wahrscheinlichkeitsverteilung normalisiert, die aus K Wahrscheinlichkeiten besteht. Das heißt, vor dem Anwenden von Softmax können einige Vektorkomponenten negativ oder größer als eins sein und summieren sich möglicherweise nicht zu 1, aber nach dem Anwenden von Softmax befindet sich jede Komponente im Intervall (0, 1) und die Komponenten addieren sich zu 1, damit sie als Wahrscheinlichkeiten interpretiert werden können. Darüber hinaus entsprechen die größeren Eingabekomponenten größeren Wahrscheinlichkeiten. Softmax wird beispielsweise in neuronalen Netzwerken verwendet, um die nicht normalisierte Ausgabe eines Netzwerks auf eine Wahrscheinlichkeitsverteilung über vorhergesagte Ausgabeklassen abzubilden.
In einem beispielhaften Ansatz kann das gesamte Netzwerk Ende-zu-Ende unter Verwendung von gekennzeichneten Daten trainiert werden. Wenn Übereinstimmungen in den Trainingsdaten unterrepräsentiert sind, können die Übereinstimmungen überabgetastet werden, um eine höhere Genauigkeit zu erzielen.
Die vorstehende Architektur kann die Grundlage für weitere Erweiterungen sein, wie etwa das Erhöhen der Tiefe und Breite eines Netzwerks 1001, und für das Einbeziehen von Kantengeometrien in Schichten 1002 eines langen Kurzzeitgedächtnisses (long short-time memory - LSTM), wie in 10 abgebildet. Bei dem LSTM handelt es sich um eine künstliche rückgekoppelte neuronale Netzwerkarchitektur (recurrent neural network archictecture - RNN-Architektur), die im Bereich des tiefen Lernens verwendet wird. Im Gegensatz zu Standard-Feedforward-Neuronalen Netzwerken weist das LSTM Rückkopplungsverbindungen auf, die es zu einem „Universalcomputer“ machen, d. h., es kann alles berechnen, was eine Turing-Maschine kann. Es kann nicht nur einzelne Datenpunkte verarbeiten, sondern auch ganze Datenfolgen. Eine herkömmliche LSTM-Einheit besteht aus einer Zelle, einem Eingangsgatter, einem Ausgangsgatter und einem Vergessensgatter. Die Zelle speichert Werte über beliebige Zeitintervalle und die drei Gatter regulieren den Informationsfluss in die Zelle hinein und aus dieser heraus. Theoretisch können klassische RNNs beliebige Langzeitabhängigkeiten in den Eingabesequenzen verfolgen. Das Problem klassischer RNNs ist rechnerischer (oder praktischer) Natur: Wenn ein klassisches RNN unter Verwendung von Rückausbreitung trainiert wird, können die Gradienten, die rückwärts propagiert werden, „verschwinden“ (d. h., sie können gegen Null tendieren) oder „explodieren“ (das heißt, sie können gegen unendlich neigen) aufgrund der an dem Prozess beteiligten Berechnungen, bei denen Zahlen mit endlicher Genauigkeit verwendet werden. RNNs, die LSTM-Einheiten verwenden, lösen das Problem verschwindender Gradienten teilweise, da LSTM-Einheiten auch zulassen, dass Gradienten unverändert fließen.
Die Kantenmerkmale e_vw können auch durch ein LSTM basierend auf ihrer zugrundeliegenden Geometrie in der Karte gelernt werden. Genau gesagt, kann die Folge von Stützpunkten von Knoten v zu Knoten w eingesetzt werden, um diese Merkmale zu lernen, wie in 10 abgebildet.
Das vorstehend beschriebene Verfahren kann als Anweisungen zur Ausführung durch einen Prozessor codiert und auf einem computerlesbaren Medium, wie etwa einer CD-ROM, einer Platte, einem Flash-Speicher, einem RAM oder ROM, einem elektromagnetischen Signal oder einem anderen maschinenlesbaren Medium gespeichert sein. Alternativ oder zusätzlich dazu kann eine beliebige Art von Logik verwendet und als analoge oder digitale Logik unter Verwendung von Hardware, wie etwa einer oder mehreren integrierten Schaltungen (einschließlich Verstärkern, Addierern, Verzögerungen und Filtern) oder einem oder mehreren Prozessoren umgesetzt werden, die eine Verstärkungs-, Additions-, Verzögerungs- und Filteranweisungen ausführen; oder in Software in einer Anwendungsprogrammierschnittstelle (application programming interface - API) oder in einer Dynamic Link Library (DLL) als Funktionen, die in einem gemeinsam genutzten Speicher verfügbar sind oder als lokale oder entfernte Prozeduraufrufe definiert sind; oder als Kombination aus Hardware und Software.
Das Verfahren kann durch Software und/oder Firmware umgesetzt werden, die auf oder in einem computerlesbaren Medium, einem maschinenlesbaren Medium, einem Ausbreitungssignal-Medium und/oder signalführendem Medium gespeichert sind. Das Medium kann eine beliebige Vorrichtung umfassen, die ausführbare Anweisungen zur Verwendung durch oder in Verbindung mit einem ausführbaren Befehlssystem, einer Anordnung oder einer Vorrichtung enthält, speichert, kommuniziert, verbreitet oder transportiert. Bei dem maschinenlesbaren Medium kann es sich selektiv unter anderem um ein elektronisches, magnetisches, optisches, elektromagnetisches oder Infrarot-Signal oder ein Halbleitersystem, eine Anordnung, eine Vorrichtung oder ein Ausbreitungsmedium handeln. Eine nicht erschöpfende Liste von Beispielen für maschinenlesbare Medien beinhaltet: eine magnetische oder optische Platte, einen flüchtigen Speicher, wie etwa einen Direktzugriffsspeicher (Random Access Memory) „RAM“, einen Festwertspeicher (Read-Only Memory) „ROM“, einen löschbaren programmierbaren Festwertspeicher (Erasable Programmable Read-Only Memory) (d. h. EPROM) oder Flash-Speicher und eine optische Faser. Ein maschinenlesbares Medium kann auch ein materielles Medium beinhalten, auf dem ausführbare Anweisungen gedruckt sind, da die Logik elektronisch als Bild oder in einem anderen Format (z. B. durch einen optischen Scan) gespeichert und dann kompiliert und/oder interpretiert oder anderweitig verarbeitet werden kann. Das verarbeitete Medium kann dann in einem Computer und/oder Maschinenspeicher gespeichert werden.
Die Systeme können zusätzliche oder unterschiedliche Logik beinhalten und können auf viele unterschiedliche Arten umgesetzt werden. Eine Steuerung kann als Mikroprozessor, Mikrocontroller, anwendungsspezifische integrierte Schaltung (application specific integrated circuit - ASIC), diskrete Logik oder eine Kombination anderer Arten von Schaltungen oder Logik umgesetzt sein. In ähnlicher Weise können Speicher DRAM, SRAM, Flash oder andere Speicherarten sein. Parameter (z. B. Bedingungen und Schwellenwerte) und andere Datenstrukturen können separat gespeichert und verwaltet werden, können in einen einzelnen Speicher oder eine einzelne Datenbank integriert werden oder können auf viele unterschiedliche Arten logisch und physisch organisiert werden. Programme und Anweisungssätze können Teile eines einzelnen Programms, separate Programme oder auf mehrere Speicher und Prozessoren verteilt sein.
Die Beschreibung von Ausführungsformen wurde zur Veranschaulichung und Beschreibung dargelegt. Geeignete Modifikationen und Variationen der Ausführungsformen können in Anbetracht der vorstehenden Beschreibung durchgeführt werden oder können durch das Durchführen der Verfahren erworben werden. Beispielsweise können, sofern nicht anders angegeben, eines oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder Kombination aus Vorrichtungen durchgeführt werden. Die beschriebenen Verfahren und zugehörigen Aktionen können zusätzlich zu der in dieser Anmeldung beschriebenen Reihenfolge auch in verschiedenen Reihenfolgen, parallel und/oder gleichzeitig ausgeführt werden. Die beschriebenen Systeme sind beispielhafter Natur und können zusätzliche Elemente beinhalten und/oder Elemente weglassen.
Im vorliegenden Zusammenhang ist ein Element oder ein Schritt, der im Singular aufgeführt ist und dem das Wort „ein“ oder „eine“ vorausgeht, dahingehend zu verstehen, dass der Plural der Elemente oder Schritte nicht ausgeschlossen wird, sofern kein solcher Ausschluss angegeben ist. Darüber hinaus sind Verweise auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht dahingehend auszulegen, dass sie die Existenz zusätzlicher Ausführungsformen, die ebenfalls die angegebenen Merkmale enthalten, ausschließen. Die Ausdrücke „erste/r/s“, „zweite/r/s“ und „dritte/r/s“ usw. werden lediglich als Bezeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen oder eine bestimmte Positionsreihenfolge auferlegen.
Während verschiedene Ausführungsformen der Erfindung beschrieben wurden, wird es dem Durchschnittsfachmann ersichtlich sein, dass im Rahmen der Erfindung viel mehr Ausführungsformen und Umsetzungen möglich sind. Insbesondere erkennt der Fachmann die Austauschbarkeit verschiedener Merkmale aus unterschiedlichen Ausführungsformen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, versteht es sich, dass diese Techniken und Systeme über die konkret offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Modifikationen davon ausgedehnt werden können.

Claims

Kartenfusionsverfahren, umfassend: Empfangen eines Quellgraphen und eines Zielgraphen, wobei der Quellgraph für eine Quellkarte und der Zielgraph für eine Zielkarte repräsentativ ist, und die Knoten und Kanten umfassen, welche die Knoten verbinden; Verarbeiten jedes von dem Quellgraphen und dem Zielgraphen in einer Faltungsschicht, um Faltungsschichtausgaben bereitzustellen, die sich auf den Quellgraphen und den Zielgraphen beziehen; Verarbeiten jeder der Faltungsschichtausgaben für den Quellgraphen und den Zielgraphen in einer linearen Gleichrichtungsschicht, um Knotenmerkmalskarten auszugeben, die sich auf den Quellgraphen und den Zielgraphen beziehen, wobei die Knotenmerkmalskarten Daten umfassen, die für charakteristische Merkmale jedes Knotens repräsentativ sind; Auswählen von Paaren von Knotendarstellungen aus den Knotenmerkmalskarten, die sich auf den Quellgraphen und den Zielgraphen beziehen, und Aggregieren der ausgewählten Paare, um ausgewählte und aggregierte Paare von Knotendarstellungen auszugeben; Verarbeiten der ausgewählten und aggregierten Paare von Knotendarstellungen in einer vollständig verbundenen Schicht, um eine Ausgabe der vollständig verbundenen Schicht bereitzustellen; Softmax-Verarbeitung der Ausgabe der vollständig verbundenen Schicht, um eine Wahrscheinlichkeit der Übereinstimmung von Knoten in den Knotenmerkmalskarten auszugeben, die sich auf den Quellgraphen und den Zielgraphen beziehen; und Entscheiden basierend auf der Wahrscheinlichkeit der Übereinstimmung von Knoten, ob Knoten in der Quellkarte mit einem entsprechenden Knoten in dem Zielgraphen fusioniert werden sollen.
Verfahren nach Anspruch 1, wobei in den Knotenmerkmalskarten jeder Knoten durch einen Knotenmerkmalsvektor dargestellt wird, wobei der Knotenmerkmalsvektor die Daten umfasst, die für charakteristische Merkmale jedes Knotens repräsentativ sind.
Verfahren nach Anspruch 1 oder 2, ferner umfassend mindestens eine zusätzliche Faltungsschicht und mindestens eine zusätzliche lineare Gleichrichtungsschicht nach der Faltungsschicht und der linearen Gleichrichtungsschicht zum Verarbeiten jedes von dem Quellgraphen und dem Zielgraphen, um Knotenmerkmalskarten auszugeben, die sich auf den Quellgraphen und den Zielgraphen beziehen.
Verfahren nach einem der Ansprüche 1-3, ferner umfassend mindestens eine zusätzliche vollständig verbundene Schicht nach der vollständig verbundenen Schicht zum Verarbeiten der ausgewählten und aggregierten Paare von Knotendarstellungen in einer vollständig verbundenen Schicht, um eine Ausgabe der vollständig verbundenen Schicht bereitzustellen.
Verfahren nach einem der Ansprüche 1-4, wobei die Faltungsschichten Gewichtungen umfassen und die Gewichtungen selbstlernend sind.
Verfahren nach Anspruch 5, wobei die Gewichtungen Ende-zu-Ende unter Verwendung von gekennzeichneten Daten als Trainingsdaten trainiert werden.
Verfahren nach Anspruch 6, wobei, wenn Übereinstimmungen in den Trainingsdaten unterrepräsentiert sind, die Übereinstimmungen überabgetastet werden.
Verfahren nach einem der Ansprüche 1-7, ferner umfassend Schichten eines langen Kurzzeitgedächtnisses zum Verarbeiten jedes von dem Quellgraphen und dem Zielgraphen, um Kantenmerkmalskarten auszugeben, die sich auf den Quellgraphen und den Zielgraphen beziehen, wobei die Kantenmerkmalskarten Daten umfassen, die für charakteristische Merkmale jeder Kante repräsentativ sind.
Verfahren nach Anspruch 8, wobei in den Kantenmerkmalskarten jede Kante durch einen Kantenmerkmalsvektor dargestellt wird, wobei der Kantenmerkmalsvektor die Daten umfasst, die für charakteristische Merkmale jeder Kante repräsentativ sind.
Verfahren nach Anspruch 8 oder 9, wobei Kantenmerkmale in den Schichten des langen Kurzzeitgedächtnisses anhand einer zugrundeliegenden Geometrie in dem Quellgraphen und dem Zielgraphen gelernt werden.
Verfahren nach Anspruch 10, wobei das Lernen der Kantenmerkmale auf einer oder mehreren Folgen von Stützpunkten von einem Knoten zu einem anderen Knoten basiert.
Verfahren nach einem der Ansprüche 1-11, ferner umfassend das hierarchische Verarbeiten des Quellgraphen und des Zielgraphen, wobei bei den stabilsten Knoten begonnen und sich hierarchisch an den Kanten abwärtsbewegt wird.
Computerprogrammprodukt, umfassend Anweisungen, die, wenn das Programm durch einen Computer ausgeführt wird, den Computer dazu veranlassen, die Schritte des Verfahrens nach einem der Ansprüche 1-12 auszuführen.
Computer, umfassend mindestens einem Prozessor und mindestens einen Speicher, wobei der Computer dazu konfiguriert ist, das Computerprogramm nach Anspruch 13 auszuführen.