DE102021208927A1

DE102021208927A1 - System und verfahren zur strassenzeichen-ground-truth-erstellung mit einem wissensgraphen und maschinellem lernen

Info

Publication number: DE102021208927A1
Application number: DE102021208927.5A
Authority: DE
Inventors: Cory Henson; Wan-Yi Lin; Kevin Huang; Ji Eun Kim; Anh Tuan Tran
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-08-27
Filing date: 2021-08-13
Publication date: 2022-03-03
Also published as: CN114202003A; US20220067405A1; US11605232B2; TW202217660A

Abstract

Ein Verfahren zur Straßenzeichenklassifizierung unter Nutzung eines Wissensgraphen, das Folgendes beinhaltet: Detektieren und Auswählen einer Repräsentation eines Zeichens über eine Mehrzahl von Frames hinweg, Ausgeben einer Aufforderung, die eine Anforderung einer mit der Repräsentation des Zeichens assoziierten Klassifizierung initiiert, Klassifizieren eines oder mehrerer das Zeichen beinhaltender Bilder, Abfragen des Wissensgraphen, um eine Mehrzahl von Straßenzeichenklassen mit mindestens einem gleichen Attribut wie das Zeichen zu erhalten, und Klassifizieren des Zeichens über die Mehrzahl von Frames hinweg als Reaktion darauf, dass ein Konfidenzgrad eine Schwelle überschreitet.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft maschinelles Lernen und Straßenzeichenerkennung.
Hintergrund
Das Erkennen und Verstehen von Straßenzeichen sind wichtige Merkmale eines Fahrerassistenzsystems (ADAS: Advanced Driver Assistance System), die in modernen Fahrzeugen über Technologien wie Straßenzeichenerkennung (RSR: Road Sign Recognition) oder intelligente Geschwindigkeitsanpassung (ISA: Intelligent Speed Adaption) angeboten werden. Derartige Merkmale können gemäß Richtlinien, die je nach Land variieren können, vorgeschrieben sein. Neueste RSR- und ISA-Lösungen machen starken Gebrauch von Verfahren des maschinellen Lernens und erfordern umfängliche, hochqualitative Datensätze von Straßenzeichenannotationen als Ground Truth. Damit sie zur Verwendung in der realen Welt bereit ist, muss die Ground Truth anhand von weltweiten Testfahrten aufgebaut werden. Die Anzahl zu annotierender Straßenzeichenbilder kann enorm sein, und zwar bis zu mehr als 10 Millionen pro Jahr, wie im Fall der ADAS-Entwicklung. Jede repräsentative Probe dieser Bilder, die genug Länder und Bedingungen abdeckt, wird eine beachtliche Größe haben. Daher ist es äußerst wichtig, die Annotationsaufgabe zu optimieren und die Zeit des Annotierenden in jeder Sitzung auf ein Minimum zu reduzieren.
Straßen- und Verkehrszeichen in verschiedenen Ländern unterscheiden sich stark. Zeichen in jedem Land folgen einem von mehreren Übereinkommen (z. B. Wiener Übereinkommen, SADC-Übereinkommen, SIECA-Übereinkommen und MUTCD-Übereinkommen), jedoch mit Varianten. Es ist noch kein universeller Maschinenklassifikator verfügbar. Um einen derartigen universellen Klassifikator für Zeichen in allen Ländern zu trainieren, sollte es zunächst einen ausreichend großen Datensatz geben, der so viele annotierte Zeichen wie möglich beinhaltet. Es ist eine große Herausforderung für eine annotierende Person, sich selbst in einem einzigen Land mit allen Straßenzeichen auszukennen. Daher bedarf es einer steilen Lernkurve und eines ausgiebigen Überprüfungsprozesses, um hochqualitative Annotationen zu erzeugen. Annotationsverfahren mit Mensch-Maschine-Kollaboration befassen sich mit effizienter und skalierbarer Annotation.
Kurzdarstellung
Gemäß einer Ausführungsform beinhaltet ein System einen Wissensgraphen. Das System beinhaltet auch eine Steuerung, die ausgelegt ist zum Detektieren und Auswählen eines über einen oder mehrere Frames eines Bilds hinweg identifizierten Straßenzeichens, Ausgeben einer Aufforderung, die eine Anforderung einer Klassifizierung des Straßenzeichens initiiert, Klassifizieren eines oder mehrerer Bilder, die die Straßenzeichen beinhalten, Abfragen des Wissensgraphen, um eine Mehrzahl von Straßenzeichenklassen mit einem gleichen Attribut als Kandidatenklassen für einen nächsten Klassifikator zu erhalten, und Klassifizieren des Straßenzeichens über die mehreren Frames hinweg.
Gemäß einer zweiten Ausführungsform wird ein Verfahren zur Straßenzeichendetektion und -klassifizierung mit Mensch-Maschine-Kollaboration unter Nutzung eines Wissensgraphen offenbart. Das Verfahren beinhaltet Detektieren und Auswählen einer Repräsentation eines Zeichens über eine Mehrzahl von Frames hinweg, Ausgeben einer Aufforderung, die eine Anforderung einer mit der Repräsentation des Zeichens assoziierten Klassifizierung initiiert, Klassifizieren von Straßenzeichen und visuellen Attributen in einem oder mehreren Bildern, Abfragen des Wissensgraphen, um eine Mehrzahl von Straßenzeichenklassen mit mindestens einem gleichen Attribut wie das Zeichen zu erhalten, Klassifizieren des Zeichens als Reaktion darauf, dass ein Konfidenzgrad von dem Modell eine Schwelle überschreitet, und Verfolgen des gleichen Zeichens über die Mehrzahl von Frames hinweg.
Gemäß einer dritten Ausführungsform wird ein System zur Straßenzeichenklassifizierung unter Nutzung eines Maschinenlernmodells offenbart. Das System beinhaltet eine Anzeige, ausgelegt zum Ausgeben einer Benutzeroberfläche, und einen Prozessor in Kommunikation mit der Anzeige, wobei der Prozessor programmiert ist zum Detektieren und Auswählen einer Repräsentation eines Zeichens über ein oder mehrere Bilder hinweg unter Nutzung des Maschinenlernmodells, Ausgeben einer Aufforderung, die eine Anforderung einer mit der Repräsentation des Zeichens assoziierten Klassifizierung initiiert, Klassifizieren eines oder mehrerer das Zeichen beinhaltender Bilder, Erhalten einer Mehrzahl von Straßenzeichenklassen mit mindestens einem gleichen Attribut wie das Zeichen und Klassifizieren des Zeichens über das eine oder die mehreren Bilder hinweg als Reaktion darauf, dass ein Konfidenzgrad eine Schwelle überschreitet.
Figurenliste

1 veranschaulicht ein beispielhaftes Annotationssystem für die Erfassung und Annotation von Bilddaten.
2 veranschaulicht eine Visualisierung einer Straßenzeichenontologie.
3 veranschaulicht ein Beispiel eines Ausrichtens des Konzepts eines Straßenzeichens in RSO mit einer Nutzung anderer Vokabularien.
4 veranschaulicht ein beispielhaftes Bild einer Crowdsourcing-Aufgabe unter Nutzung einer Benutzeroberfläche gemäß einer Ausführungsform der Offenbarung.
5 offenbart einen Straßenzeichenarbeitsfluss zum Adressieren von Verwendungen eines Maschinenlerntrainings- und Annotationsprozesses.
6A veranschaulicht eine vollautomatisierte Straßenzeichenannotation für ein anderes Land.
6B veranschaulicht eine halbautomatisierte Straßenzeichenannotation für ein anderes Land.
6C veranschaulicht ein System zur menscheninitiierten halbautomatisierten Bezeichnung.
7 veranschaulicht ein Beispiel eines Verfolgens von Straßenzeichen über mehrere Frames hinweg.
8A veranschaulicht ein Beispiel einer mit dem Wissensgraphen assoziierten Benutzeroberfläche.
8B veranschaulicht ein Beispiel der Benutzeroberfläche, wenn das Straßenzeichen falsch klassifiziert wird.
8C veranschaulicht ein Beispiel einer mit dem Wissensgraphen assoziierten Benutzeroberfläche, wenn eine Straßenzeichenklassifizierung inkorrekt ist und eine Eingabe an der Benutzeroberfläche empfangen wird.

Ausführliche Beschreibung
Ausführungsformen der vorliegenden Offenbarung werden hier beschrieben. Es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich Beispiele sind und andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale könnten übertrieben oder minimiert sein, um Einzelheiten bestimmter Komponenten zu zeigen. Hier offenbarte spezifische strukturelle und funktionale Einzelheiten sind daher nicht als beschränkend aufzufassen, sondern lediglich als eine repräsentative Basis, um Fachleute zu lehren, die Ausführungsformen verschiedentlich einzusetzen. Durchschnittsfachleute erkennen, dass verschiedene unter Bezugnahme auf irgendeine der Figuren veranschaulichte und beschriebene Merkmale mit in einer oder mehreren anderen Figuren veranschaulichten Merkmalen kombiniert werden können, um Ausführungsformen zu produzieren, die nicht explizit veranschaulicht oder beschrieben sind. Die Kombinationen veranschaulichter Merkmale stellen repräsentative Ausführungsformen für typische Anwendungen bereit. Verschiedene Kombinationen und Modifikationen der mit den Lehren dieser Offenbarung konsistenten Merkmale könnten jedoch für bestimmte Anwendungen oder Implementierungen erwünscht sein.
Das Vorliegen eines umfassenden, hochqualitativen Straßenzeichenannotationsdatensatzes ist entscheidend für den Erfolg Klbasierter Straßenzeichenerkennungs- bzw. RSR-Systeme. In der Praxis stellt das Erlernen von Verkehrssystemen anderer Länder Annotierende häufig vor Schwierigkeiten; daher sind die Aufgaben oft zeitaufwendig und produzieren minderwertige Ergebnisse. Die nachstehenden Ausführungsformen beschreiben ein System, das Wissensgraph- und Maschinenlernmodelle nutzt, die verschiedene Straßenzeichen klassifizieren und/oder visuelle Attribute von Straßenzeichen klassifizieren, mit dem sich Abstände zwischen einem realen Zeichen auf einem Bild und in einem latenten Raum dargestellten Zeichenprototypen kalkulieren lassen, um eingestufte Zeichenprototypen bereitzustellen, die mit einem realen Zeichen auf einem Bild übereinstimmen - um Annotierende wirksam bei der Klassifizierung von Straßenzeichen zu unterstützen. Annotierende können den Straßenzeichenwissensgraphen unter Verwendung visueller Attribute abfragen und durch das Modell vorgeschlagene, am nächsten übereinstimmende Kandidaten empfangen. Das Modell verwendet die Kandidaten aus dem Wissensgraphen und eine Bildfläche eines realen Zeichens als Eingaben. Mit einer derartigen Ausführungsform unter Nutzung eines Wissensgraphansatzes lässt sich ein Zeichensuchraum reduzieren. Des Weiteren kann das vorliegende System mit einem Maschinenlernmodell insgesamt den korrekten einzigen Kandidaten vorschlagen, wodurch der Suchaufwand für den Menschen beträchtlich reduziert wird.
Es gibt zwei Hauptherausforderungen beim Durchführen einer Straßenzeichenannotationsaufgabe. Erstens müssen viele Straßenzeichen durchsucht werden, um ein übereinstimmendes zu finden (allein in den USA gibt es mehr als 800 staatlich zugelassene Straßenzeichen, und mehr als 10 Bundesstaaten in den USA haben ihre eigenen bundestaatlichen Regelungen, die sich von der Federal Convention unterscheiden). Daher ist eine manuelle Klassifizierung jeder Zeicheninstanz gegenüber einer vollen Palette von Zeichen unausführbar. Eine Lösung besteht darin, die Anzahl von Kandidaten zum Durchsuchen durch eine annotierende Person durch ein Maschinenlernsystem begrenzen zu lassen (z. B. auf 5 Zeichen). Die zweite Herausforderung besteht in der Tatsache, dass unterschiedliche Länder unterschiedliche Übereinkommen bezüglich Straßenzeichen befolgen. So befolgen beispielsweise die USA das MUTCD, während europäische Länder das Wiener Übereinkommen anwenden. Einige Länder wenden mehrere Übereinkommen an und andere führen verschiedene Varianten bei Merkmalen wie Farben, Schriftarten, Größe usw. ein. Keine annotierende Person besitzt eine volle Kenntnis sämtlicher Straßenzeichensysteme, und es können falsche gewählt werden, insbesondere wenn die Instanz unklar ist (z. B. Graustufenbilder, Nachtbilder usw.).
Die nachstehenden Ausführungsformen können darauf abzielen, den Aufwand für annotierende Personen zu reduzieren, indem eine maschinengeleitete Annotation bereitgestellt wird und die kognitive Belastung des Menschen mit einer kleineren Anzahl von Straßenzeichenkandidaten während der Detektions- und Klassifizierungsphase zu reduzieren, und eine Verfolgung mit Mensch-Maschine-Kollaboration für das identische Straßenzeichen über Frames hinweg anzuwenden.
Das nachstehend beschriebene System kann ein Bild als Eingabe in ein Maschinenlernmodell, das eine Zeichendetektion aufweist, nutzen. Falls die Zeichendetektion ausfällt oder ein Zeichen in dem Bild nicht erkennen kann, kann das System eine annotierende Person nutzen, um einen Umrandungskasten um das Bild herum zu zeichnen. Das System kann spezifische Eingaben von dem Annotierenden abrufen, um das Maschinenlernmodell und -System zu verbessern. Derartige Eingaben können Informationen über visuelle Attribute (z. B. Form, Farbe usw.) beinhalten. Beispielsweise kann das System einen Wissensgraphen nutzen, um falsche visuelle Attribute über das Zeichen zur Korrektur zu identifizieren. Das System kann außerdem dahingehend arbeiten, die visuellen Attribute zu empfangen, wenn der Klassifikator eine falsche Zeichenklassifizierung identifiziert. Somit können die bezüglich der visuellen Attribute abgerufenen Eingaben zum Verbessern des Maschinenlernmodells genutzt werden.
Das nachstehend beschriebene System kann unter Verwendung verschiedener Maschinenlernmodelle eine beste Schätzung (Detektion, Kategorie, Formen, Farbe, Zeichentext usw.) der Zeichen erhalten. Darüber hinaus kann das System Abduktion nutzen, um Straßenzeichenkandidaten über einen Wissensgraphen herzuleiten. Des Weiteren kann das System dynamisch Mikroaufgaben für annotierende Personen erstellen, um eine Annotation (z. B. Einholen fehlender Informationen, Kontextinformationen, Validieren von Maschinenlernvorhersagen usw.) auch mit Maschineninteraktionen zu vervollständigen. Automatisches (durch einen Maschinenlernalgorithmus), manuelles (durch einen Menschen) oder halbautomatisches (durch Mensch-Maschine-Interaktion) Verfolgen des identischen Zeichenobjekts über Frames hinweg.
Die Probleme können gelöst werden, indem ein Wissensgraph mit maschinellem Lernen kombiniert wird, um Annotierende zu unterstützen und die Ground-Truth-Annotation zu beschleunigen. Es kann grundsätzlich angenommen werden, dass alle Straßenzeichen gewisse grundlegende visuelle Merkmale aufweisen, und das System kann durch den Wissensgraphen dieser visuellen Merkmale navigieren (mit Fokus auf landesspezifische Untergraphen unter Verwendung mit derartigen Bildern assoziierter GPS-Daten), um die Kandidatenzeichen zu orten und den Verstehensprozess annotierender Personen zu unterstützen. Die Reduzierung des Suchraums kann zu reduziertem Such- und Zeitaufwand durch Annotierende (z. B. annotierende Personen) zum Orten eines korrekten Zeichens führen. Um den Suchraum weiter zu reduzieren, kann das System ein Maschinenlernmodell nutzen, das One-Shot-Lernen nutzt, um übereinstimmende Zeichen zu finden, selbst wenn diese in vorherigen Trainingsdaten nicht gesehen wurden. Somit kann das System Straßenzeichenontologie (RSO: Road Sign Ontology) einführen, um typische Merkmale von Straßenzeichen zu repräsentieren, vorgeschlagene Crowdsourcing-Techniken einführen, um den Straßenzeichenwissensgraphen maßstäblich über Länder und Staaten hinweg zu kontrastieren, und ein Maschinenlernmodell erstellen, das mit dem Wissensgraphen kombiniert ist, um ferner Zeichenkandidaten mit (normalisierten) Vorhersagebewertungen einzustufen.
1 veranschaulicht ein beispielhaftes Annotationssystem 100 für die Erfassung und Annotation von Bilddaten 132. Das Annotationssystem 100 beinhaltet einen Server 102, der eine Annotationswebanwendung 124 hostet, auf die Client-Vorrichtungen 104 über ein Netzwerk 122 zugreifen können. Der Server 102 beinhaltet einen Prozessor 106, der mit einem Speicher 110 und mit einer Netzwerkvorrichtung 118 wirkverbunden ist. Der Server 102 beinhaltet ferner eine Bilddateneingabequelle 130 zum Empfang der Bilddaten 132. Die Client-Vorrichtung 104 beinhaltet einen Prozessor 108, der mit einem Speicher 112, einer Anzeigevorrichtung 114, Mensch-Maschine-Schnittstelle- bzw. HMI-Steuerelementen 116 und einer Netzwerkvorrichtung 120 wirkverbunden ist. Es sei angemerkt, dass das beispielhafte Annotationssystem 100 ein Beispiel ist und andere Systeme 100 verwendet werden können. Beispielsweise werden, obgleich nur eine Client-Vorrichtung 104 gezeigt ist, Systeme 100 mit mehreren Client-Vorrichtungen 104 in Betracht gezogen. Als eine weitere Möglichkeit können, obgleich das Implementierungsbeispiel als eine webbasierte Anwendung gezeigt ist, alternative Systeme als eigenständige Systeme oder als Client-Server-Systeme mit vollwertiger Client-Software implementiert sein.
Der Prozessor 106 des Servers 102 und der Prozessor 108 der Client-Vorrichtung 104 können jeweils eine oder mehrere integrierte Schaltungen beinhalten, die die Funktionalität einer zentralen Verarbeitungseinheit (CPU: Central Processing Unit) und/oder einer Grafikverarbeitungseinheit (Graphics Processing Unit) implementieren. In einigen Beispielen handelt es sich bei den Prozessoren 106, 108 um ein System-on-a-Chip (SoC), das die Funktionalität der CPU und der GPU integriert. Das SoC kann gegebenenfalls andere Komponenten, wie beispielsweise den Speicher 110 und die Netzwerkvorrichtung 118 oder 120 in einer einzigen integrierten Vorrichtung einschließen. In anderen Beispielen sind die CPU und die GPU über eine Peripherieverbindungsvorrichtung, wie etwa PClexpress oder eine andere geeignete Peripheriedatenverbindung, miteinander verbunden. In einem Beispiel ist die CPU eine kommerziell erhältliche zentrale Verarbeitungsvorrichtung, die einen Befehlssatz, wie etwa einen der Befehlssatzfamilien x86, ARM, Power oder MIPS, implementiert.
Unabhängig von den Einzelheiten führen die Prozessoren 106, 108 während des Betriebs gespeicherte Programmanweisungen aus, die aus den Speichern 110 bzw. 112 abgerufen werden. Entsprechend beinhalten die gespeicherten Programmanweisungen Software, die den Betrieb der Prozessoren 106, 108 dahingehend steuert, die hier beschriebenen Operationen durchzuführen. Die Speicher 110, 112 können sowohl nichtflüchtige Speicher- als auch flüchtige Speichervorrichtungen beinhalten. Der nichtflüchtige Speicher beinhaltet Festkörperspeicher, wie etwa NAND-Flash-Speicher, magnetische und optische Speicherungsmedien oder eine beliebige andere geeignete Datenspeicherungsvorrichtung, die Daten beibehält, wenn das Annotationssystem 100 deaktiviert wird oder elektrische Leistung verliert. Der flüchtige Speicher beinhaltet statischen und dynamischen Direktzugriffsspeicher (RAM), der Programmanweisungen und Daten während des Betriebs des Annotationssystem 100 speichert.
Die GPU der Client-Vorrichtung 104 kann Hardware und Software zum Anzeigen von zumindest zweidimensionalen (2D) und optional dreidimensionalen (3D) Grafiken auf einer Anzeigevorrichtung 114 beinhalten. Die Anzeigevorrichtung 114 kann einen elektronischen Anzeigebildschirm, einen Projektor, einen Drucker oder eine beliebige andere geeignete Vorrichtung, die eine Grafikanzeige wiedergibt, beinhalten. In einigen Beispielen führt der Prozessor 108 des Clients 104 Softwareprogramme unter Verwendung der Hardwarefunktionalität in der GPU aus, um die Leistungsfähigkeit des maschinellen Lernens oder anderer hier beschriebener Computeroperationen zu verbessern.
Die HMI-Steuerelemente 116 des Clients 104 können beliebige verschiedener Vorrichtungen beinhalten, die ermöglichen, dass die Client-Vorrichtung 104 des Annotationssystems 100 Steuereingaben von Arbeitern oder anderen Benutzern empfängt. Zu Beispielen für geeignete Eingabevorrichtungen, die Mensch-Schnittstelle-Eingaben empfangen, gehören Tastaturen, Mäuse, Trackballs, Berührungsbildschirme, Spracheingabevorrichtungen, Grafik-Tablets und dergleichen.
Die Netzwerkvorrichtungen 118, 120 können jeweils beliebige verschiedener Vorrichtungen beinhalten, die ermöglichen, dass der Server 102 bzw. die Client-Vorrichtung 104 Daten von externen Vorrichtungen über das Netzwerk 122 sendet und/oder empfängt. Zu Beispielen geeigneter Netzwerkvorrichtungen 118, 120 gehören ein Netzwerkadapter oder eine Peripherieverbindungsvorrichtung, die Daten von einem anderen Computer oder einer externen Datenspeicherungsvorrichtung empfängt, was zum effizienten Empfangen großer Datensätze nützlich sein kann.
Die Annotationswebanwendung 124 kann ein Beispiel für eine durch den Server 102 ausgeführte Softwareanwendung sein. Bei Ausführung kann die Annotationswebanwendung 124 verschiedene Algorithmen verwenden, um Aspekte der hier beschriebenen Operationen durchzuführen. In einem Beispiel kann die Annotationswebanwendung 124 Anweisungen beinhalten, die durch den Prozessor 106 des Servers 102 wie oben erörtert ausführbar sind. Computerausführbare Anweisungen können von Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung einer Vielzahl von Programmiersprachen und/oder -technologien erzeugt wurden, darunter unter anderem und entweder allein oder in Kombination, Java, C, C++, C#, Visual Basic, JavaScript, Python, Perl, PL/SQL, usw. Im Allgemeinen empfängt der Prozessor 106 die Anweisungen, z. B. von dem Speicher 110, einem computerlesbaren Medium usw., und führt diese Anweisungen aus, wodurch ein oder mehrere Prozesse, darunter einer oder mehrere der hier beschriebenen Prozesse, durchgeführt werden. Derartige Anweisungen und andere Daten können unter Verwendung einer Vielzahl computerlesbarer Medien gespeichert und übertragen werden.
Der Web-Client 126 kann ein Web-Browser oder ein anderer durch die Client-Vorrichtung 104 ausgeführter web-basierter Client sein. Bei Ausführung kann der Web-Client 126 gestatten, dass die Client-Vorrichtung 104 auf die Annotationswebanwendung 124 zugreift, um Benutzeroberflächen der Annotationswebanwendung 124 anzuzeigen. Der Web-Client 126 kann ferner der Annotationswebanwendung 124 des Servers 102 eine über die HMI-Steuerelemente 116 empfangene Eingabe über das Netzwerk 122 bereitstellen.
In KI(Künstliche Intelligenz)- oder Maschinenlernsystemen bezieht sich modellbasierte Folgerung auf ein Inferenzverfahren, das auf der Grundlage eines Maschinenlernmodells 128 einer zu analysierenden Weltansicht arbeitet. Im Allgemeinen ist das Maschinenlernmodell 128 darauf trainiert, eine Funktion zu erlernen, die eine präzise Korrelation zwischen Eingabewerten und Ausgabewerten liefert. Zur Laufzeit verwendet eine Maschinenlernengine das in dem Maschinenlernmodell 128 codierte Wissen gegenüber Beobachtungsdaten, um Schlussfolgerungen, wie etwa eine Diagnose oder eine Vorhersage, abzuleiten. Zu einem beispielhaften Maschinenlernsystem kann die von Alphabet Inc. in Mountain View, CA, USA bereitgestellte TensorFlow AI Engine gehören, obgleich zusätzlich oder alternativ andere Maschinenlernsysteme verwendet werden können. Wie hier ausführlich erörtert, können die Annotationswebanwendung 124 und das Maschinenlernmodell 128 ausgelegt sein zum Erkennen und Annotieren von Merkmalen der Bilddaten 132 zur Verwendung in dem/den effizienten und skalierbaren Ground-Truths-Erzeugungssystem und -Verfahren, um Annotationen mit hoher Präzision (Pixelebenengenauigkeit) zu produzieren, die zum Entwickeln von Objektdetektion/-lokalisation, Objektverfolgung verwendet werden.
Bei der Bilddatenquelle 130 kann es sich um eine Kamera handeln, die z. B. an einem sich bewegenden Objekt wie einem Auto, einer Wand oder einem Stab montiert oder in einer mobilen Vorrichtung installiert ist, ausgelegt zum Erfassen von Bilddaten 132. In einem anderen Beispiel kann es sich bei der Bilddateneingabe 132 um eine Schnittstelle, wie etwa die Netzwerkvorrichtung 118 oder eine Schnittstelle mit dem Speicher 110, zum Abrufen zuvor erfasster Bilddaten 132 handeln. Bei den Bilddaten 132 kann es sich um Video, z. B. eine Sequenz von Bildern, handeln. Jedes Bild in den Bilddaten 132 kann hier als ein Frame bezeichnet werden. Aus Datenschutzgründen können Gesichter und Nummernschilder für bestimmte Annotationsaufgaben in den Bilddaten 132 unkenntlich gemacht werden.
Das Annotationssystem 100 kann auch einen Wissensgraphen beinhalten, der genutzt werden kann. Der Wissensgraph (KG: Knowledge Graph) kann eine Sammlung miteinander verknüpfter Beschreibungen von Entitäten - Objekte, Ereignisse, Situationen der realen Welt oder abstrakte Konzepte - repräsentieren, wobei die Beschreibungen eine formelle Struktur nutzen, die sowohl Personen als auch Computern gestattet, sie effizient und deutlich zu verarbeiten. Der Wissensgraph kann eine Art Datenbank sein. Die Entitätsbeschreibungen können zueinander beitragen, wobei sie ein Netzwerk bilden, in dem jede Entität einen Teil der Beschreibung der mit ihr in Zusammenhang stehenden Entitäten repräsentiert.
2 veranschaulicht eine Visualisierung einer Straßenzeichenontologie. Das System kann Straßenzeichenontologie (RSO) und seinen konformen Wissensgraphen (nachstehend ausführlicher beschrieben) nutzen, um den Datenannotationsprozess und das Training des Maschinenlernmodells zur Straßenzeichenklassifizierung zu unterstützen. Die RSO kann eine Repräsentation der typischen visuellen Merkmale eines Straßenzeichens, die sichtbar oder vorstellbar sind, anstreben und ist unter Verwendung der Web Ontology Language modelliert. 2 kann ein Beispiel zur Visualisierung der primären Ontologiekonzepte sein.
Die Ontologie einer RSO kann die Merkmale von Straßenzeichen repräsentieren, die für die Leistungsfähigkeit eines Maschinenlernalgorithmus vorteilhaft sind. Darüber hinaus sollte die Ontologie Konzepte auf einer angemessenen Granularitätsebene repräsentieren, die es Annotierenden gestattet, Straßenzeichen und ihre visuellen Merkmale bei Überprüfung oder Ansicht eines Bilds wirksam zu identifizieren. Einige der primären Merkmale des Straßenzeichens können gemäß Repräsentation in dessen Form, Farbe, Text und gedruckten Icons enthalten sein. RSO unterscheidet zwischen zwei Arten von mit einem Straßenzeichen assoziierten Formen. Die offensichtlichste ist die Form des physischen Schilds. Beispielsweise haben in den Vereinigten Staaten Stoppzeichen eine Achteckform, Vorfahrtszeichen eine nach unten zeigende Dreiecksform und Geschwindigkeitsbegrenzungszeichen eine Rechteckform. Es gibt 11 verschiedene Formen, die das physische Schild eines Straßenzeichens aufweisen könnte. Die zweite Art von Formen beinhaltet geometrische Formen, die auf das physische Schild aufgedruckt sind. Zu gängigen gedruckten geometrischen Formen gehören Pfeile, Kreise und diagonale Linien. RSO repräsentiert 9 verschiedene gedruckte Formen.
Die RSO kann auch zwischen der Farbe von Straßenzeichen unterscheiden. Ähnlich der Form, unterscheidet die RSO zwischen mehreren verschiedenen Arten von Farben, die mit einem Straßenzeichen assoziiert sind. Insbesondere kann ein Straßenzeichen eine Vordergrundfarbe, eine Hintergrundfarbe und eine Grenzfarbe aufweisen. Beispielsweise können 11 gängige Farben in der Ontologie angegeben sein.
Icons sind eine besondere Art auf ein Straßenzeichen aufgedruckter Formen, die verschiedene Objekte darstellen. Zu den Arten von Objekten, die häufig dargestellt werden, gehören Fahrzeuge, Personen, Tiere und verschiedene Verkehrsinfrastrukturelemente (z. B. eine Ampel). Angesichts der großen Anzahl möglicher verschiedener Icons definiert RSO lediglich einige wenige allgemeine Kategorien, darunter: Tier, Infrastruktur, Natur, Person, Fahrzeug und andere.
Die RSO kann auch den verschiedenartigen Text von Straßenzeichen erkennen. Viele Straßenzeichen beinhalten gedruckten Text. Auf Stoppzeichen ist das Wort Stopp (STOP) aufgedruckt, auf Vorfahrtszeichen ist das Wort Vorfahrt (YIELD) aufgedruckt und Geschwindigkeitsbegrenzungszeichen beinhalten sowohl das Wort Geschwindigkeitsbegrenzung als auch eine Zahl. Anstatt sämtlichen möglichen Text, der auf einem Zeichen aufgedruckt sein kann, anzugeben, gestattet RSO ein Annotieren des Texts eines spezifischen Zeichens unter Verwendung einer OWL-Datatype-Eigenschaft. Zwar definiert RSO möglicherweise keine Angaben für sämtlichen möglichen Text auf einem Straßenzeichen, doch ermöglicht sie die Kategorisierung von Text in verschiedene Arten, basierend auf der beabsichtigten Bedeutung oder Verwendung. Zu den Kategorien von Text können unter anderem Geschwindigkeit, Höhe, Gewicht, Zeit, Name und Anzahl gehören. Als ein Beispiel kann der Text eines Geschwindigkeitsbegrenzungszeichens mit der Geschwindigkeitskategorie identifiziert werden, während der Text eines Ortseingangsschilds mit der Namenskategorie identifiziert wird.
Die Straßenzeichen können Übereinkommen befolgen und ermöglichen, dass die Person die Bedeutung eines Zeichens mit nur einem kurzen Blick detektiert und identifiziert, und gestatten somit, dass ein Fahrer nur eine geringe kognitive Belastung aufbringen muss. Derartige Übereinkommen können Regeln und Beschränkungen bezüglich des Bedruckens und/oder Zeigens von Straßenzeichen und verschiedener Arten definieren. Zu einigen Übereinkommen über Straßenzeichen können das Wiener Übereinkommen (hauptsächlich in Europa und China), das MUTCD-Übereinkommen (Manual on Uniform Traffic Control Devices) (hauptsächlich in den Vereinigten Staaten verwendet) und das SADC-Übereinkommen (South African Development Community) (hauptsächlich in Afrika verwendet) gehören. Variationen dieser Übereinkommen können für spezifischere georäumliche Regionen definiert und verwendet werden. So kann beispielsweise jeder Bundesstaat in den Vereinigten Staaten entweder die Bundesversion des MUTCD befolgen oder seine eigene bundesstaatspezifische Version definieren. Jedes durch RSO repräsentierte Straßenzeichen kann mit dem Übereinkommen, das es befolgt, assoziiert sein.
Die Übereinkommen können auch Standardbilder bereitstellen, die das Zeichen darstellen. Derartige Standardbilder werden oft als Prototypen bezeichnet und stellen eine Vorlage für die Gestaltung, die Erstellung und die Illustration von Zeichen in Handbüchern bereit. Prototypen werden häufig in zwei Versionen bereitgestellt, einer Vollfarbversion und einer Graustufenversion. RSO kann eine Verknüpfung von Straßenzeichen mit diesen Prototypbildern im Web ermöglichen.
3 veranschaulicht eine Ausführungsform eines Straßenzeichens in Straßenzeichenontologie mit anderen Vokabularkonzepten in einem Wissensgraphen. Der Wissensgraph muss möglicherweise die Erkennung von Straßenzeichen und verschiedenen Anwendungen ermöglichen. Ein manuelles Erstellen des Wissensgraphen kann jedoch sowohl zeitaufwendig als auch schwierig sein, da es Annotierenden an umfassendem Domänenwissen mangelt. Das folgende System kann anhand eines Zweischrittsystems arbeiten: 1) Nutzen der Crowd (z. B. Crowdsourcing) zum Erstellen der großskaligen Graphen mit grundlegenden Eigenschaften; und 2) Ausrichten und Erweitern der Graphen zur „Feinabstimmung“ auf domänenspezifische Daten und Vokabularien.
4 veranschaulicht ein beispielhaftes Bild einer Crowdsourcing-Aufgabe unter Nutzung einer Benutzeroberfläche gemäß einer Ausführungsform der Offenbarung. Bei einer derartigen Aufgabe kann das System eine webbasierte Anwendung zur Verwendung durch Crowdsourcing-Arbeiter oder Anwendungen zum Extrahieren der zur Erstellung des Straßenzeichenwissensgraphen genutzten Zeichenmerkmale erzeugen. Wie auf der Benutzeroberfläche gezeigt, kann die Oberfläche für Merkmale im Zusammenhang mit der Straßenzeichenvorlage zu sehen sein, indem eine Eingabe bezüglich der Schildform, der Hintergrundfarbe, der Grenzfarbe, zusätzlicher Formen (z. B. Linkspfeil) auf dem Schild, Icons (z. B. Fahrzeug), Text und Varianten (z. B. Straßenname) falls zutreffend verlangt wird. Die Mikroaufgabe kann durch jegliche Crowd-Arbeiten ausgeführt werden und verlangt kein Straßenzeichenwissen, z. B. die Bedeutung einer gegebenen Straßenzeichenvorlage. Sämtliche Antworten können aus den bereitgestellten Optionen ausgewählt werden, außer Text, der in das Textfeld eingegeben werden sollte. Daher wird von dem System weder eine Qualifikation spezifiziert noch eine Schulung erfordert, sondern es werden einfach Anweisungen mit Beispielen bereitgestellt. Das System kann ein „Goldstandard“-Straßenzeichen modellieren, für das das System die Ground-Truth-Menge zehn Straßenzeichenvorlagen kennen kann, um Betrüger herauszufiltern, die möglicherweise vorsätzlich versuchen, die verschiedenen Mikroaufgaben zu überlisten. Jede einzelne Zeichenvorlage kann einer Arbeit präsentiert werden, und ein interner Experte kann die Antworten von der Arbeit überprüfen, gefolgt von einer zusätzlichen Überprüfung mit einem anderen internen Experten zur weiteren Klärung, falls erforderlich. Als Kontext kann die Straßenzeichenvorlage sich auf ein Prototypbild beziehen, das aus einer Übereinkommensschrift (z. B. MUTCD) extrahiert sein kann. Das Straßenzeichen kann sich auf ein reales physisches Zeichen auf dem durch eine Kamera aufgenommenen Bild beziehen. Das Icon kann ein Symbol sein (z. B. eine Person, ein Fahrzeug usw.), das sich auf einem Straßenzeichen oder einer Straßenzeichenvorlage findet.
Da die Anzahl lokalisierter Straßenzeichen erheblich zunimmt und Personen eine Kenntnis an verschiedenen Orten verwendeter verschiedener Sprachen abverlangt, kann das System Crowds nutzen, die von verschiedenen Crowdsourcing-Marktplätzen mit weltweit registrierten Arbeitskräften oder internen Arbeitskräften rekrutiert werden.
Das System kann zuerst dahingehend arbeiten, Straßenzeichenvorlagen für verschiedene Länder zu identifizieren. Bei der ersten Aufgabe kann das System die Crowd dazu auffordern, eine Webseite zu finden, auf der offizielle Straßenzeichendokumente mit Vorlagen des Straßenzeichens für ein Zielland oder einen Zielstaat bereitgestellt sind. Das System kann dann mindestens drei Crowd-Arbeiter dazu auffordern, einen Konsens bezüglich empfohlener Quellen zu finden. Nachdem eine Quelle identifiziert wurde, kann eine manuelle Vorlagenextraktion erforderlich sein, falls die identifizierte Ressource ein separates Bilddateiformat für jede Straßenzeichenvorlage nicht unterstützt.
Validierte Attribute können aus der Zeichenvorlage extrahiert werden und werden in RDF-Fakten entsprechender Entität des Typs Zeichen in dem generischen Wissensgraphen übersetzt. Das System kann verfeinert werden, um verschiedene domänenspezifische Graphen zu produzieren. Um den für verschiedene Domänen spezifischen Wissensgraphen zu erhalten, kann das System zuerst aus dem relevanten Untergraphen des generischen Wissensgraphen einen separaten Graphen für jede Domäne erzeugen. Beispielsweise beinhaltet ein Untergraph sämtliche Fakten über ein Zielland oder einen Zielstaat. Das System kann dann Alignments durchführen, um die domänenspezifischen Graphen zu erweitern und zu verfeinern.
Ein Alignment kann automatische Folgerung beinhalten. Da die RSO OWL-DL-konform sein kann, kann das System eine semantische Folgerung durchführen, um mehr Fakten hinzuzufügen, wie etwa Hinzufügen einer Kategorie zu dem Zeichen über dessen Farbe und Formen. Die Folgerung kann auch Fakten mit unterschiedlicher Granularität erzeugen. Beispielsweise weist die Eigenschaft Vordergrundfarbe auf und kann unter Verwendung der Subsumption dahingehend verfeinert werden, Icon-Farbe, Textfarbe, Form und eine Zeichenfarbe aufzuweisen, oder einer generischen Eigenschaft, die Farbe aufweist, zugeordnet werden.
Ein anderes Alignment kann eine Autotransformation für einzelne Tripel beinhalten. Ist der Inhalt in einem Triple in dem generischen Graphen transformierbar, so kann das System Regeln anwenden, um mehr Fakten zu erhalten. Beispielsweise kann der Text „Geschwindigkeitsbegrenzung 30“ in zwei Tripel mit „Geschwindigkeitsbegrenzung“ als Text und 30 als numerischen Wert in dem domänenspezifischen Graphen transformiert werden.
Eine andere Art von Alignment kann einfach ein manuelles Alignment sein. Experten des Ontologie-Alignments kann außerdem empfohlen werden, bei Bedarf neue Vokabularien in die domänenspezifischen Graphen einzufügen. Beispielsweise sind die möglicherweise in einer Domäne verwendeten Kategorie-/Klassennamen oft Abkürzungen, die sich nicht ohne zusätzliche Eingaben automatisieren lassen. Es muss also möglicherweise ein manuelles Alignment oder eine manuelle Eingabe durch einen Annotierenden hinzugefügt werden.
Als Ergebnis der Alignments (oder verschiedener Formen von Alignment) können sich ein generischer Straßenzeichenwissensgraph und mehrere domänenspezifische Graphen ergeben. Die Graphen können regelmäßig durch Domänenexperten unter Verwendung anderer webbasierter Anwendungen, einschließlich einer firmeninternen Anwendung, überprüft werden. Die Wissensgraphen können in einem Enterprise Cluster gespeichert und verarbeitet werden. Das System kann eine Datenbank nutzen, um Zwischenannotationen zu speichern und Mehrfachvalidierung durchzuführen, bevor es in dem Cluster gespeichert wird. Das System kann verschiedene Apps nutzen, um ein Webanwendungsdatenmodell in die Tripel, die einer RSO folgen, umzuwandeln. Das System kann eingebaute Fähigkeiten zur semantischen Folgerung und zum regulären Ausdruck in dem Enterprise Cluster nutzen, um Graph-Alignment durchzuführen.
Die Aufgabe für annotierende Personen kann darin bestehen, einen Umrandungskasten um ein Straßenzeichen auf einem Bild herum zu zeichnen und einen übereinstimmenden Zeichenprototyp aus einer kleinen Palette von Zeichen auszuwählen. Das System erwartet möglicherweise nicht, dass die annotierende Person über Kenntnis von Verkehrssystemen verfügt, die sich oft von Land zu Land unterscheiden. Des Weiteren erfordert die Erfüllung der einfachen Aufgabe keine separate Schulungssitzung über Straßenzeichen. Stattdessen können die Annotierenden mit dem System interagieren, indem sie Straßenzeichenmerkmale bereitstellen, die in dem Umrandungskasten, den sie auf der Web-Ul zeichnen, zu sehen sind. Der Annotierende kann eine Schildzeichenform und eine Hintergrundfarbe als allgemeine Attribute und Icons, Text und zusätzliche Formen als optionale Attribute bereitstellen. Dann können die Annotierenden dazu aufgefordert werden, eine Zeichenvorlage aus K höchsten Kandidaten auszuwählen, basierend auf einer visuellen Übereinstimmung, die durch eine Durchschnittsperson durchgeführt werden kann. Die Aufgabenausführungszeit und -qualität können von dem Suchraum, d. h. der Anzahl an Kandidaten, die sie visuell vergleichen müssen, sowie der Bildqualität abhängen.
Die Werkzeuge des Systems können Annotierende unterstützen, indem eine Handvoll Straßenzeichenkandidaten, die mit den durch eine Wissensgraphsuche gegebenen Attributen übereinstimmen, bereitgestellt werden. Ist die Anzahl an Zeichenkandidaten größer als eine Schwelle K, so kann ein Maschinenlernmodell zur Anwendung kommen, um die Anzahl an Kandidaten weiter zu reduzieren.
Das System kann ein Maschinenlernmodell wie etwa einen One-Shot-Klassifikator integrieren, um K höchste Straßenzeichenvorlagenkandidaten vorherzusagen, die einer ein Straßenzeichen beinhaltenden zugeschnittenen Bildfläche ähnlich sind. Die Eingaben für dieses Modell können Folgendes sein: (1) eine zugeschnittene Bildfläche um den Umrandungskasten, den der Annotierende auf dem realen Straßenbild zeichnet, und (2) durch den Straßenzeichenwissensgraphen gefilterte Zeichenvorlagen. Diese zwei obengenannten Eingaben können in den latenten Raum codiert werden, und die nächste Nachbarklassifizierung kann zum Einstufen der Straßenzeichenvorlagen verwendet werden. Das System kann die höchsten K Kandidaten an die annotierende Person zurückgeben. Eine Vorhersage ungesehener Klassen kann bei der Straßenzeichenannotation aufgrund seltener Straßenzeichen in dem langen Ausläufer äußerst wichtig sein. Eine Modellvorhersage konventioneller Klassifizierung mit bekannten Klassen kann annotierende Personen effektiv unterstützen, sofern dieses Modell nicht möglicherweise mit großen Datensätzen trainiert ist, die seltene Klassen beinhalten. Der Codierer in der Trainingsphase eines derartigen Modells codiert reale Bilder zu einer latenten Verteilung, und der Decodierer rekonstruiert die codierte Verteilung zurück zu einem Prototyp, der dem Eingabebild entspricht. Dadurch kann der trainierte Encoder als ein Merkmalsextraktor verwendet werden, und das Modell erlernt Bildähnlichkeit und prototypische Konzepte, anstatt eine Klassifizierung an sich zu erlernen. Daher kann das vortrainierte Modell neue Klassen vorhersagen, die während der Trainingszeit unbekannt sind.
5 veranschaulicht ein Beispiel einer Straßenzeichendetektion und eines Klassifizierungsprozesses mit Mensch-Maschine-Interaktion zum Adressieren von Verwendungen von Maschinenlerntraining und eines Annotationsprozesses. Ein Eingangsframe 501 kann von einer oder mehreren Kameras oder einem oder mehreren Sensoren empfangen werden, die sich an einem Fahrzeug, das Daten auf der Straße sammelt, befinden. Die empfangenen Bilder und Videos können von der Kamera abgerufen und an den Detektor 503 gesendet werden. Der Detektor kann dahingehend automatisiert sein, Umrandungskästen um sämtliche gemeldeten Straßenzeichen unter Nutzung verschiedener Algorithmen mit Erkennungsfähigkeiten zu identifizieren.
Bei Vorliegen eines Bilds kann das System 500 zuerst einen Straßenzeichendetektor 503 ausführen und dann Orte sämtlicher Zeichen in dem Bild durch einen Menschen verifizieren und korrigieren lassen. Die Verifizierung durch einen Menschen kann bei erster Gelegenheit oder bei einer weiteren anderen nachfolgenden Gelegenheit erfolgen. Der Detektor 503 kann partielle Umrandungskästen um verschiedene in dem Eingangsframe 501 identifizierte Straßenzeichen bereitstellen. Das System 500 kann dann einen Klassifikator 507 (wie etwa einen naiven Klassifikator) an jedem Straßenzeichen ausführen. Die Klassifizierung kann durch einen einzigen Klassifikator 507 oder eine Kombination von Klassifikatoren 507 erfolgen, um partielle Attribute von Straßenzeichen vorherzusagen, wie etwa Form, Farbe, Zeichentext (z. B. der Wert einer Geschwindigkeitsbegrenzung). Ist diese Klassifizierung falsch (durch einen Menschen verifiziert), so verwendet das System möglicherweise die falsche Klassifizierung zum Abfragen eines Wissensgraphen 509, um fehlende Attribute des Zeichens zu erhalten. Ein Benutzer 511 kann genutzt werden, um zu identifizieren, ob das Zeichen korrekt ist, oder es kann unter Nutzung von maschinellem Lernen automatisiert sein. Das System kann den Wissensgraphen 509 auch dann abfragen, wenn der Konfidenzgrad unterhalb einer Schwelle liegt oder wenn das Zeichen unidentifizierbar ist. Der Benutzer 511 kann zum Korrigieren von Attributen, die durch das System 500, wie etwa durch den Wissensgraphen oder das Maschinenlernmodell, identifiziert werden, genutzt werden. Unter Verwendung dieser Attribute kann das System erneut den Wissensgraphen 513 abfragen, um den Satz sämtlicher Straßenzeichenklassen, die die gleichen Attribute wie Kandidatenklassen aufweisen, für den nächsten Klassifikator zu erhalten.
Bei dem nächsten Klassifikator 515 kann es sich um einen One-Shot-Klassifikator basierend auf einem Codierer, etwa einem Vibrational-Prototyping-Codierer, handeln, der eine Ähnlichkeitsmetrik zum Klassifizieren von Bildern zu einer Testzeit unter Verwendung eines einzigen Prototyps für jedes Straßenzeichen in den Kandidatenklassen erlernt. Dieser Ansatz ist ideal für ungesehene Zeichen, für die keine Daten verfügbar sind aber ein Prototypzeichen verfügbar ist. Durch die Reduzierung von Kandidatenklassen durch einen Wissensgraphen wird die Klassifizierungsgenauigkeit verbessert. Jedoch könnte es weiterhin eine große Anzahl an Kandidatenklassen mit dem gleichen Attribut geben. So gibt es beispielsweise in den Vereinigten Staaten mehr als 50 Zeichen, die rautenförmig mit schwarzer Vordergrundfarbe und gelber Hintergrundfarbe sind. Zur Verbesserung des One-Shot-Klassifikators wird Metrik-Lernen, wie etwa Triplettverlust, während des Trainings eingeführt, um verschiedene Klassen in dem Einbettungsraum weiter zu separieren. Die k höchsten Ausgaben aus diesem Klassifikator werden schließlich dem Crowd-Arbeiter präsentiert, wodurch dessen Aufwand im Vergleich zu den bestehenden Annotations-Pipelines erheblich reduziert wird.
6A veranschaulicht eine automatisierte Straßenzeichenannotation für ein anderes Land. Die Rohdaten 601 können in einem Land, beispielsweise Großbritannien, gesammelt werden. Der Maschinenlerndetektor 603 kann jedoch an chinesischen Zeichen trainiert sein. Somit kann das System nicht genau verstehen, worauf das Zeichen 605 verweist. Der Detektor 603 kann nach spezifischen in dem Zeichen zu identifizieren Attributen suchen, wie etwa der Kreisform. Als Nächstes kann das System einen entsprechenden Klassifikator identifizieren, da es an einem benachbarten Land oder einem anderen europäischen Land, wie etwa den deutschen Zeichen, trainiert ist. Das System kann klassifizieren, dass das identifizierte Zeichen einen hohen Konfidenzgrad für ein Fahrradzeichen in Deutschland aufweist, wobei jedoch das Zielland Großbritannien ist. Somit kann das System einen Wissensgraphen nutzen, um eine Klassifizierung des Icons für Deutschland zu unterstützen.
Somit kann, wie gezeigt, eine automatische Vorbezeichnung erfolgen. Länder, die das gleiche Übereinkommen anwenden, haben die gleiche Zeichenrepräsentation, können jedoch in dem vorliegenden System unterschiedliche Zeichenklassen aufweisen. Das System stellt eine automatische Klassifizierung für ein Zielland mit Inferenz in dem Wissensgraphen bereit. Das oben beschriebene Beispiel zeigt, dass ein mit einem Datensatz für deutsche Straßenzeichen trainiertes Maschinenlernmodell eine Fahrradspurangabezeichenklasse in deutschen Straßenzeichen vorhersagt. Dann kann die Wissensgraphinferenzengine eine entsprechende Zeichenklasse in Straßenzeichen 611 Großbritanniens finden.
6B veranschaulicht eine halbautomatisierte Straßenzeichenannotation für ein anderes Land. In einem derartigen Beispiel kann die Sammlung in einem Land, Irland, erfolgen, jedoch in einem Maschinenlernmodell für China genutzt werden. Die Rohdaten 620 können in Irland gesammelt werden. Der ML-Detektor 621 kann an chinesischen Zeichen trainiert sein und das Zeichen 623 identifizieren. Der ML-Straßenzeichenklassifikator 625 kann für deutsche Zeichen genutzt werden, da es sich um ein Land handelt, das näher an Irland und in Europa liegt. Der Klassifikator kann das Zeichen mit einem niedrigen Konfidenzgrad klassifizieren und nachvollziehen, das es sich bei dem Zielland um Irland handelt. Das System kann den Wissensgraphen 627 nutzen, um ein Zeichen zu identifizieren, jedoch kann es sich um ein inkorrektes Zeichen 629 handeln. Ein Annotierender (wobei es sich um eine annotierende Person handeln kann) kann Eigenschaften 631 des Zeichens, einschließlich der Farbe, der Form, des Inhalts usw., bereitstellen. Der Wissensgraph kann bei Eingabe das Annotierenden Zeichenkandidaten bereitstellen, aus denen ausgewählt werden kann. Somit kann die annotierende Person nächstbeste Schätzungen bereitstellen, anstatt hunderte, wenn nicht tausende, mögliche Kandidaten zu durchsuchen. Somit kann, falls ein oder mehrere Maschinenklassifikatoren nicht in der Lage sind, eine Straßenzeichenklasse mit hoher Konfidenz vorherzusagen, eine menschliche Annotationsaufgabe mit einem Wissensgraphen den Suchraum für Straßenzeichenkandidaten reduzieren. Das System kann einen Schwellenkonfidenzgrad beinhalten, um Zeichenkandidaten bereitzustellen, wie etwa einen Konfidenzgrad von 40 %. Jedoch kann ein beliebiger Prozentwert eines Konfidenzgrads als die Schwelle zum Definieren, ob zusätzliche Eingaben von dem Annotierenden benötigt werden und mögliche Kandidaten ausgegeben werden sollten, genutzt werden. Dieser Ansatz erfordert weniger kognitive Belastung für eine annotierende Person im Vergleich zu einem Brute-Force-Ansatz zum Finden einer korrekten Straßenzeichenklasse unter hunderten von Straßenzeichenkandidaten in einem Zielland.
6C veranschaulicht ein System zur menscheninitiierten halbautomatisierten Bezeichnung. Bei einer solchen Ausführungsform lassen sich Straßenzeichen, die nicht in einem Maschinentraining verwendet wurden, als K höchste Kandidaten vorhersagen. Das Beispiel zeigt, dass eine Maschine nicht in der Lage ist, in einem gegebenen Bild 650 ein Straßenzeichen zu detektieren, woraufhin ein Mensch eine geometrische Form (z. B. einen Umrandungskasten) zeichnet, um ein Straßenzeichen anzugeben, gefolgt von Attributen dieses Straßenzeichens. Lässt sich das Zeichen nicht vorhersagen, so kann das System eine Anforderung zum Zeichnen eines Umrandungskastens ausgeben. Das System kann eine mit einem Umrandungskasten um ein Bild assoziierte Eingabe empfangen (z. B. gewisse Pixel). Das System kann auch anstreben, eine mit Eigenschaften des Zeichens, wie etwa Form, Farbe, Inhalt usw. assoziierte Eingabe anzufordern, die es als Eingabe empfangen wird. Der Wissensgraph kann dazu verwendet werden, übereinstimmende Straßenzeichenkandidaten mit ihren prototypischen Bildern (Straßenzeichenvorlagen) basierend auf Eingaben annotierender Personen bezüglich Attributen zu finden. Das System kann Straßenzeichen-Icons zusammen mit der Bildfläche ausgeben (zugeschnitten basierend auf einer Eingabe einer geometrischen Form durch eine annotierende Person), die für einen Few-Shot-Lern-Klassifikator verwendet werden, der K höchste Kandidaten produziert. Der Suchraum (Anzahl von Kandidaten) kann durch den Wissensgraphen reduziert werden, was für eine bessere Vorhersage in dem Few-Shot-Lern-Klassifikator sorgt. Wenn der Annotierende das korrekte Bild bestätigt, kann die Eingabe für zukünftige Bezugnahme gespeichert werden, um das Erfordernis menschlicher Eingaben und Annotierender zu beseitigen.
7 veranschaulicht ein Beispiel eines Verfolgens von Straßenzeichen über mehrere Frames hinweg. Wie in 7 gezeigt, kann das Straßenzeichen über die Videoaufnahmezeiten untersucht werden. Das System kann zuerst die beste Repräsentation eines Zeichens über die Frames hinweg auswählen und einen Annotationsagenten auffordern, diese zu klassifizieren. Dann kann der Annotationsagent durch andere Frames gehen, in denen das Signal auftritt, und spezifizieren, dass es sich bei diesen Zeicheninstanzen um dasselbe Zeichen handelt. Dadurch muss die Klassifizierung eines Zeichens möglicherweise nur einmalig durchgeführt werden, und die gleiche ID wird sämtlichen Instanzen dieses Zeichens über die Frames hinweg zugewiesen. Abhängig von der Leistungsfähigkeit das Annotationsagenten können Detektion (Identifizieren der Position des Zeichens), Klassifizierung (Spezifizieren, um welches Zeichen es sich handelt) und Verfolgung (Versehen sämtlicher Instanzen eines Zeichens über Frames hinweg mit der gleichen ID) durch eine annotierende Person, eine Maschine (z. B. ein Maschinenlernmodell oder Kl) oder mittels eines hybriden Maschine-Mensch-Ansatzes durchgeführt werden.
In einem ersten Frame, und Verfolgung eines Straßenzeichens A rückwärts oder vorwärts über Schlüsselframes hinweg, bis das identische Zeichen nicht gefunden wird. Das identische Zeichen kann entweder durch einen Maschinenverfolgungsalgorithmus oder eine annotierende Person verfolgt werden. Das System kann eine Annotation eines Straßenzeichens B in einem anderen Frame identifizieren. Dies kann unter der Annahme erfolgen, dass die Maschine in der Lage ist, das Straßenzeichen B in Frame X mit höherer Konfidenz als dasselbe Zeichen in Frame_k8 zu detektieren. Das Straßenzeichen B kann rückwärts oder vorwärts über Schlüsselframes hinweg verfolgt werden, bis das identische Zeichen nicht gefunden werden kann.
8A veranschaulicht ein Beispiel einer mit dem Wissensgraphen assoziierten Benutzeroberfläche. Wie in 8A gezeigt, kann sich ein auf dem Bild 801 befindendes Straßenzeichen von der Straßenzeichenvorlage 803, die als durch das System identifiziert und klassifiziert gezeigt wird, unterscheiden. Die Oberfläche kann eine Eingabe von dem Benutzer anfordern, mit der bestätigt wird, ob der Umrandungskasten 801 mit der identifizierten Vorlage 803 gemäß dem Maschinenlernmodell übereinstimmt. 8B veranschaulicht ein Beispiel der Benutzeroberfläche, wenn das Straßenzeichen falsch klassifiziert wird. Wie gezeigt, kann die Eingabe identifizieren, dass die Klassifizierung inkorrekt ist. Somit können das System und die Oberfläche mehrere Fragen ausgeben. 8C veranschaulicht ein Beispiel einer mit dem Wissensgraphen assoziierten Benutzeroberfläche, wenn eine Straßenzeichenklassifizierung inkorrekt ist und eine Eingabe an der Benutzeroberfläche empfangen wird. Wie in 8C gezeigt, unterscheidet sich ein auf dem Bild 801 befindendes Straßenzeichen von der Straßenzeichenvorlage 803, die als durch das System identifiziert und klassifiziert gezeigt wird. Wie gezeigt, kann das System Fragen darüber ausgeben, ob das in der Zeichnung gezeigte Zeichenbild mit dem in Frage 1 klassifizierten und in der Vorlage 803 identifizierten übereinstimmt. Lautet die empfangene Eingabe Nein, so können zusätzliche Fragen hinzugefügt werden. Beispielsweise kann das System bestätigen, ob die Hintergrundfarbe des Straßenzeichens „hell“ oder „dunkel“ ist, falls ein Graustufenbild vorliegt. Frage 2 kann fragen, ob die „Vordergrundfarbe“ hell oder dunkel ist. Frage 3 kann fragen, ob die „Grenzfarbe“ hell oder dunkel ist. Frage 3 kann fragen, ob die Grenzfarbe des Straßenzeichens in dem Umrandungskasten hell oder dunkel ist. Frage 4 kann fragen, ob die Form des Straßenzeichens in dem Umrandungskasten eines von „Rund“, „Raute“, „Rechteck“, „DreieckNachUnten“ oder „DreieckNachOben“ ist. Schließlich kann die Oberfläche für Frage 5 fragen, ob der Inhalt des Straßenzeichens in dem ausgewählten Umrandungskasten eines von einem Auto, einem Pfeil, einem Fahrrad, einem Fußgänger oder einem anderen Objekt ist. Die Oberfläche kann auch dazu auffordern, das Icon auszuwählen, das dem Icon in dem Umrandungskasten am ähnlichsten ist, wenn sämtliche Fragen beantwortet wurden. Die Oberfläche kann Eingaben bei jedem der Fragebögen empfangen und jede der Eingaben in einem Maschinenlernmodell nutzen, um das Identifizieren eines zukünftigen Trainings und einer zukünftigen Klassifizierung des Maschinenlernsystems weiter zu unterstützen.
Die hier offenbarten Prozesse, Verfahren oder Algorithmen können lieferbar sein an/implementiert werden durch eine Verarbeitungsvorrichtung, eine Steuerung oder einen Computer, die/der eine beliebige existierende programmierbare elektronische Steuereinheit oder dedizierte elektronische Steuereinheit beinhalten kann. Gleichermaßen können die Prozesse, Verfahren oder Algorithmen als Daten und durch eine Steuerung oder einen Computer ausführbare Anweisungen in vielen Formen gespeichert werden, darunter unter anderem Informationen, die auf nichtbeschreibbaren Speicherungsmedien wie etwa ROM-Vorrichtungen permanent gespeichert sind, und Informationen, die auf beschreibbaren Speicherungsmedien wie etwa Disketten, Magnetbändern, CDs, RAM-Vorrichtungen und anderen magnetischen und optischen Medien änderbar gespeichert sind. Die Prozesse, Verfahren oder Algorithmen können auch in einem ausführbaren Softwareobjekt implementiert werden. Alternativ können die Prozesse, Verfahren oder Algorithmen in Gänze oder teilweise unter Verwendung geeigneter Hardwarekomponenten umgesetzt werden, wie etwa anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Arrays (FPGAs), Zustandsmaschinen, Steuerungen oder anderer Hardwarekomponenten oder -vorrichtungen oder einer Kombination von Hardware-, Software- und Firmwarekomponenten.
Obgleich oben beispielhafte Ausführungsformen beschrieben sind, ist nicht beabsichtigt, dass diese Ausführungsformen alle möglichen durch die Ansprüche eingeschlossenen Formen beschreiben. Die in der Beschreibung verwendeten Ausdrücke sind Ausdrücke der Beschreibung und nicht der Beschränkung, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne von der Idee und dem Schutzumfang der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die möglicherweise nicht explizit beschrieben oder veranschaulicht sind. Obgleich verschiedene Ausführungsformen als Vorteile bereitstellend oder gegenüber anderen Ausführungsformen oder Implementierungen nach dem Stand der Technik bezüglich einer oder mehrerer erwünschter Charakteristiken bevorzugt beschrieben worden sein können, erkennen Durchschnittsfachleute, dass ein(e) oder mehrere Merkmale oder Charakteristiken beeinträchtigt werden können, um erwünschte Gesamtsystemattribute zu erzielen, die von der speziellen Anwendung und Implementierung abhängen. Zu diesen Attributen können unter anderem Kosten, Festigkeit, Haltbarkeit, Lebenszykluskosten, Vermarktungsfähigkeit, Erscheinungsbild, Verpackung, Größe, Wartbarkeit, Gewicht, Herstellbarkeit, Montagefreundlichkeit usw. gehören. Von daher liegen, soweit irgendwelche Ausführungsformen als bezüglich einer oder mehreren Charakteristiken weniger wünschenswert als andere Ausführungsformen oder Implementierungen nach dem Stand der Technik beschrieben sind, diese Ausführungsformen nicht außerhalb des Schutzumfangs der Offenbarung und können für bestimmte Anwendungen erwünscht sein.

Claims

System, das Folgendes umfasst: eine Eingabeschnittstelle, ausgelegt zum Empfangen eines oder mehrerer Bilder; eine Steuerung, die mit der Eingabeschnittstelle in Kommunikation steht und zu Folgendem ausgelegt ist: Detektieren und Auswählen eines über eine Mehrzahl von Frames hinweg identifizierten Straßenzeichens aus dem einen oder den mehreren Bildern; Ausgeben einer Aufforderung, die eine Anforderung zur Klassifizierung des Straßenzeichens initiiert; Detektieren und Klassifizieren eines oder mehrerer Bilder, die die Straßenzeichen beinhalten, unter Nutzung eines Maschinenlernmodells; Abfragen eines Wissensgraphen, um eine Mehrzahl von Straßenzeichenklassen mit einem gleichen Attribut als Kandidatenklassen für einen nächsten Klassifikator zu erhalten; Klassifizieren des Straßenzeichens über die Mehrzahl von Frames hinweg; und Verfolgen des Straßenzeichens über die Mehrzahl von Frames hinweg.
System nach Anspruch 1, wobei die Steuerung ferner ausgelegt ist zum Identifizieren eines oder mehrerer mit dem Straßenzeichen assoziierter Attribute und Ausgeben einer Mehrzahl von Straßenzeichenvorlagen als Reaktion auf das eine oder die mehreren Attribute.
System nach Anspruch 1, wobei die Steuerung ferner ausgelegt ist zum Klassifizieren des Straßenzeichens als Reaktion auf eine an einer Schnittstelle empfangene Eingabe.
System nach Anspruch 1, wobei die Steuerung ferner ausgelegt ist zum Ausgeben einer ersten Klassifizierung und, als Reaktion auf eine falsche Klassifizierung der ersten Klassifizierung, Empfangen einer Eingabe zur Neuklassifizierung von einem Annotierenden.
System nach Anspruch 1, wobei die Steuerung ferner ausgelegt ist zum Klassifizieren des Straßenzeichens über die Mehrzahl von Frames hinweg als Reaktion darauf, dass ein Konfidenzgrad eine Schwelle überschreitet, und Ausgeben einer Anforderung einer Attributeingabe, wenn der Konfidenzgrad unterhalb der Schwelle liegt.
System nach Anspruch 1, wobei die Steuerung ferner ausgelegt ist zum Ausgeben einer mit dem Straßenzeichen assoziierten Klassifizierung an einer Benutzeroberfläche.
Verfahren zur Straßenzeichenklassifizierung unter Nutzung eines Wissensgraphen, das Folgendes umfasst: Detektieren und Auswählen einer Repräsentation eines Zeichens über eine Mehrzahl von Frames hinweg; Ausgeben einer Aufforderung, die eine Anforderung einer mit der Repräsentation des Zeichens assoziierten Klassifizierung initiiert; Klassifizieren eines oder mehrerer das Zeichen beinhaltender Bilder, Abfragen des Wissensgraphen, um eine Mehrzahl von Straßenzeichenklassen mit mindestens einem gleichen Attribut wie das Zeichen zu erhalten; und Klassifizieren des Zeichens über die Mehrzahl von Frames hinweg als Reaktion darauf, dass ein Konfidenzgrad eine Schwelle überschreitet.
Verfahren nach Anspruch 7, wobei die Klassifizierung eine Identifikation zuweist, die mit dem einen oder den mehreren Zeichen beinhaltenden Bildern assoziiert ist.
Verfahren nach Anspruch 7, wobei die Klassifizierung ein oder mehrere Maschinenlernmodelle zur Detektion von Straßenzeichen, Klassifizierung von Straßenzeichen und Vorhersage von Straßenzeicheneigenschaften nutzt.
Verfahren nach Anspruch 7, wobei das Verfahren Nutzen von Metrik-Lernen beinhaltet, um verschiedene Klassen in einem eingebetteten Raum zu separieren.
Verfahren nach Anspruch 7, wobei das Verfahren Ausgeben einer Anforderung einer mit der Repräsentation des Zeichens assoziierten Attributeingabe, wenn der Konfidenzgrad unterhalb der Schwelle liegt, beinhaltet.
Verfahren nach Anspruch 11, wobei das Verfahren Ausgeben einer Mehrzahl von potenziellen Zeichenvorlagen als Reaktion auf die Attributeingabe beinhaltet.
System zur Straßenzeichenklassifizierung unter Nutzung eines Maschinenlernmodells, das Folgendes umfasst: eine Anzeige, ausgelegt zum Ausgeben einer Benutzeroberfläche; und einen Prozessor in Kommunikation mit der Anzeige, wobei der Prozessor programmiert ist zum: Detektieren und Auswählen einer Repräsentation eines Zeichens über ein oder mehrere Bilder hinweg unter Nutzung des Maschinenlernmodells; Ausgeben einer Aufforderung an der Benutzeroberfläche, die eine Anforderung einer mit der Repräsentation des Zeichens assoziierten Klassifizierung initiiert; Klassifizieren eines oder mehrerer das Zeichen beinhaltender Bilder, Erhalten einer Mehrzahl von Straßenzeichenklassen, die mit Kandidaten assoziiert sind, die mindestens ein gleiches Attribut wie das Zeichen beinhalten; und Klassifizieren des Zeichens über das eine oder die mehreren Bilder hinweg als Reaktion darauf, dass ein Konfidenzgrad eine Schwelle überschreitet.
System nach Anspruch 13, wobei der Prozessor ferner programmiert ist zum Ausgeben einer Anforderung einer mit der Repräsentation des Zeichens assoziierten Attributeingabe, wenn der Konfidenzgrad unterhalb der Schwelle liegt.
System nach Anspruch 14, wobei der Prozessor ferner programmiert ist zum Ausgeben einer Mehrzahl von Zeichenvorlagen als Reaktion auf die Attri b utei ngabe.
System nach Anspruch 13, wobei der Prozessor ferner programmiert ist zum Ausgeben eines oder mehrerer mit dem Zeichen assoziierter Attribute.
System nach Anspruch 13, wobei der Prozessor ferner programmiert ist zum Empfangen einer mit dem Zeichen assoziierten geometrischen Form als Eingabe.
System nach Anspruch 13, wobei der Prozessor ferner programmiert ist zum Klassifizieren unter Nutzung eines One-Shot-Klassifikators oder eines Few-Shot-Klassifikators.
System nach Anspruch 13, wobei der Prozessor ferner programmiert ist zum Erhalten einer Mehrzahl von Straßenzeichenklassen mit mindestens einem gleichen Attribut wie das Zeichen.
System nach Anspruch 13, wobei der Prozessor ferner programmiert ist zum Klassifizieren unter Nutzung eines Few-Shot-Klassifikators.