DE102023102316A1

DE102023102316A1 - System und verfahren zur robusten erzeugung von pseudo-labels für die halb-überwachte objekterkennung

Info

Publication number: DE102023102316A1
Application number: DE102023102316.0A
Authority: DE
Inventors: Shu Hu; Chun-Hao Lin; Jayanta Kumar Dutta; Naveen Ramakrishnan
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-01-31
Filing date: 2023-01-31
Publication date: 2023-08-03
Also published as: US20230244924A1; CN116523823A

Abstract

Ein System und Verfahren zum Erzeugen eines robusten Pseudo-Label-Datensatzes, bei dem ein markierter Quellendatensatz (z.B. Video) empfangen und zum Trainieren eines neuronalen Lehrernetzwerks verwendet werden kann. Ein pseudo-markierter Datensatz kann dann von dem Lehrernetzwerk ausgegeben werden und zusammen mit einem unmarkierten Datensatz einem ähnlichkeitsbewussten, gewichteten Box-Fusions-Algorithmus (SWBF) bereitgestellt werden. Ein robuster Pseudo-Label-Datensatz kann dann durch den SWBF-Algorithmus erzeugt werden und zum Trainieren eines neuronalen Schülernetzwerks verwendet werden. Das neuronale Schülernetzwerk kann unter Verwendung des markierten Quelldatensatzes weiter abgestimmt werden. Schließlich kann das neuronale Lehrernetzwerk unter Verwendung des neuronalen Schülernetzwerks ersetzt werden. Es wird erwogen, dass das System und das Verfahren iterativ wiederholt wird.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft ein System und ein Verfahren zum Kombinieren von unmarkierten Videodaten mit markierten Bilddaten, um robuste Objektdetektoren zu schaffen, um falsche Erkennungen und Fehlerkennungen zu reduzieren und dabei zu helfen, den Bedarf an Anmerkungen zu verringern.
HINTERGRUND
Es wird auch erwogen, dass tiefe neuronale Netze (Deep Neural Networks - DNNs) mit halb-überwachtem Lernen (Semi-Supervised Learning - SSL) zur Verbesserung von Objekterkennungsproblemen eingesetzt werden können. Ungeachtet dessen sind die von den herkömmlichen SSL-basierten Objekterkennungsmodellen aus den unmarkierten Daten erzeugten Pseudo-Labels möglicherweise nicht immer zuverlässig und können daher nicht immer direkt auf das Trainingsverfahren des Detektors angewendet werden, um dieses zu verbessern. So können in den Pseudo-Labels beispielsweise Probleme mit einer falschen Erkennung und einer Fehlerkennung auftreten, die auf den Leistungsengpass des ausgewählten Objektdetektors zurückzuführen sind. Darüber hinaus können Bewegungsinformationen, die sich in den unmarkierten Sequenzdaten befinden, zur Verbesserung der Qualität der Pseudo-Label-Erzeugung erforderlich sein.
ZUSAMMENFASSUNG
Es ist ein System und Verfahren zum Erzeugen eines robusten Pseudo-Label-Datensatzes offenbart. Das System und Verfahren kann ein neuronales Lehrernetzwerk (Teacher Neural Network) unter Verwendung eines empfangenen markierten Quelldatensatzes trainieren. Ein pseudo-markierter Datensatz kann als Ausgabe von dem neuronalen Lehrernetzwerk erzeugt werden. Der pseudo-markierte Datensatz und ein unmarkierter Datensatz können einem ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus bereitgestellt werden. Der robuste Pseudo-Label-Datensatz kann von einem ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus erzeugt werden, der unter Verwendung des Pseudo-Label-Datensatzes und des unmarkierten Datensatzes arbeitet. Unter Verwendung des robusten Pseudo-Label-Datensatzes kann ein neuronales Schülernetzwerk trainiert werden. Außerdem kann das neuronale Lehrernetzwerk durch das neuronale Schülernetzwerk ersetzt werden.
Das System und das Verfahren können das neuronale Schülernetzwerk auch unter Verwendung des markierten Quelldatensatzes abstimmen. Der markierte Quelldatensatz kann zumindest ein Bild und zumindest eine menschliche Anmerkung umfassen. Die menschliche Anmerkung kann ein Begrenzungsfeld bzw. eine Bounding-Box aufweisen, das/die eine Vertrauensbewertung für ein Objekt innerhalb des zumindest einen Bildes definiert. Das neuronale Lehrernetzwerk kann auch konfiguriert sein, um einen Bewegungsvektor für ein Pixel innerhalb eines Rahmens bzw. Frames des markierten Quelldatensatzes vorherzusagen. Das neuronale Lehrernetzwerk kann unter Verwendung einer Verlustfunktion für die Objekterkennung trainiert werden.
Es ist auch denkbar, dass die Verlustfunktion einen Klassifikationsverlust und einen Regressionsverlust für eine Vorhersage der Vertrauensbewertung innerhalb der Bounding-Box aufweist. Das neuronale Lehrernetzwerk kann unter Verwendung einer Vorhersagefunktion neu trainiert werden. Der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus kann ferner als ein Bewegungsvorhersage-Algorithmus ausgeführt sein, der derart betreibbar ist, um die Qualität des robusten Pseudo-Label-Datensatzes auf einen ersten vordefinierten Schwellenwert zu verbessern. Der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus kann ferner als ein rauschresistenter Pseudo-Label-Fusions-Algorithmus ausgeführt sein, der derart betreibbar ist, um die Qualität des robusten Pseudo-Label-Datensatzes auf einen zweiten vordefinierten Schwellenwert zu verbessern.
Das System und das Verfahren können auch einen Bewegungsvektor für ein Pixel innerhalb einer Vielzahl von Frames innerhalb des unmarkierten Datensatzes unter Verwendung eines SDC-Net-Algorithmus vorhersagen. Auch kann der SDC-Net-Algorithmus unter Verwendung der Vielzahl von Frames trainiert werden, wobei der SDC-Net-Algorithmus ohne ein manuelles Label trainiert wird. Es ist denkbar, dass der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus einen Ähnlichkeitsalgorithmus aufweist, der derart betreibbar ist, um eine Vertrauensbewertung für ein Objekt zu reduzieren, das innerhalb des pseudo-markierten Datensatzes falsch erkannt bzw. erfasst wurde. Der Ähnlichkeitsalgorithmus kann auch eine Klassenbewertung (Class Score), eine Positionsbewertung (Position Score) und die Vertrauensbewertung für eine Bounding-Box innerhalb zumindest eines Frames des pseudo-markierten Datensatzes umfassen. Der Ähnlichkeitsalgorithmus kann ferner eine merkmalsbasierte Strategie verwenden, die eine vorgegebene Punktzahl bzw. einen vorgegebenen Score liefert, wenn das Objekt als zu einer bestimmten Klasse gehörig bestimmt wird. Der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus kann auch derart betreibbar sein, um die Bounding-Box zu verkleinern, die als redundant bestimmt wurde, und die Vertrauensbewertung für ein falsch-positives Ergebnis zu reduzieren. Schließlich kann der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus derart betreibbar sein, um einen Durchschnittswert aus einem Lokalisierungswert und der Vertrauensbewertung für einen vorhergehenden Frame, einen aktuellen Frame und einen zukünftigen Frame für das in dem pseudo-markierten Datensatz erfasste Objekt zu bilden.
Figurenliste

1 stellt ein beispielhaftes Computersystem dar, das von offenbarten Ausführungsformen verwendet werden kann.
2 stellt ein beispielhaftes Blockdiagramm dar, das die Methodik zur robusten Pseudo-Label-Erzeugung bei einer halb-überwachten Objekterkennung darstellt.
3 zeigt ein beispielhaftes Blockdiagramm des ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus.
4 stellt ein Computersystem dar, das einen zumindest teilweise autonomen Roboter steuert.
5 zeigt eine Ausführungsform, bei der ein Computersystem zum Steuern eines automatisierten persönlichen Assistenten verwendet werden kann.
6A zeigt ein Beispiel des falsch-positiven Typs-A von der bidirektionalen Pseudo-Label-Propagationsmethodik.
6B zeigt ein Beispiel des falsch-positiven Typs-B von der bidirektionalen Pseudo-Label-Propagationsmethodik.
7 zeigt einen beispielhaften Pseudocode für die bidirektionale Pseudo-Label-Propagationsmethodik.
8 zeigt ein Beispiel der bidirektionalen Pseudo-Label-Propagationsmethodik.

AUSFÜHRLICHE BESCHREIBUNG
Ausführungsformen der vorliegenden Offenbarung werden hierin beschrieben. Es ist jedoch zu verstehen, dass die offenbarten Ausführungsformen lediglich Beispiele darstellen und andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale könnten übertrieben oder verkleinert dargestellt sein, um Details bestimmter Komponenten zu zeigen. Daher sind spezifische strukturelle und funktionelle Details, die hierin offenbart werden, nicht als einschränkend zu verstehen, sondern lediglich als eine repräsentative Grundlage, um einem Fachmann zu vermitteln, wie er die Ausführungsformen in unterschiedlicher Weise einsetzen kann. Wie ein Fachmann verstehen wird, können verschiedene Merkmale, die unter Bezugnahme auf eine der Figuren dargestellt und beschrieben sind, mit Merkmalen kombiniert werden, die in einer oder mehreren anderen Figuren dargestellt sind, um Ausführungsformen zu erzeugen, die nicht ausdrücklich dargestellt oder beschrieben sind. Die dargestellten Kombinationen von Merkmalen ermöglichen repräsentative Ausführungsformen für typische Anwendungen. Verschiedene Kombinationen und Modifikationen der Merkmale, die mit den Lehren dieser Offenbarung übereinstimmen, könnten jedoch für bestimmte Anwendungen oder Implementierungen erwünscht sein.
Es wird davon ausgegangen, dass die Objekterkennung in Bildern für Computer-Vision-Aufgaben in verschiedenen Bereichen, einschließlich beispielsweise autonomes Fahren, Videoüberwachung und Smart-Home-Anwendungen, an Bedeutung gewonnen hat. Es kann davon ausgegangen werden, dass ein Objektdetektor dazu dient, bestimmte Objekte in Bildern zu erfassen bzw. zu erkennen und auch ein Begrenzungsfeld bzw. eine Bounding-Box um das Objekt ziehen kann, d.h. das Objekt zu lokalisieren. Es hat sich gezeigt, dass tiefe neuronale Netze ein Rahmenwerk sind, das betreibbar ist, um eine zuverlässige Objekterkennung zu erzeugen. Es ist jedoch klar, dass tiefe neuronale Netze im Allgemeinen eine große Menge an markierten Trainingsdaten benötigen. Um den Labeling- bzw. Kennzeichnungsprozess zu unterstützen, kann ein Ansatz ein Kombinieren von unmarkierten Bildern mit markierten Bildern umfassen, um die Objekterkennungsleistung zu verbessern und so den Bedarf an Anmerkungen bzw. Annotationen zu verringern. Bei einigen Anwendungen (z.B. beim autonomen Fahren, das Videodaten sammelt) können jedoch zusätzliche Informationen in der Form von Objektbewegungen vorliegen, die zur Verbesserung der Objekterkennungsleistung und zur weiteren Reduzierung des Kennzeichnungsbedarfs genutzt werden könnten. Es wird daher erwogen, dass ein System und ein Verfahren verwendet werden kann, um nicht markierte Videodaten mit markierten Bildern zu kombinieren, um robuste Objektdetektoren zu erstellen, die nicht nur falsche Erkennungen und Fehlerkennungen reduzieren, sondern auch dazu beitragen, den Aufwand für Annotationen weiter zu verringern.
So können beispielsweise Pseudo-Labels zur Verbesserung der Objekterkennung verwendet werden. Die Bewegungsinformationen innerhalb von unmarkierten Videodatensätzen können jedoch typischerweise übersehen werden. Es wird erwogen, ein Verfahren könnte statische bildbasierte, halb-überwachte Verfahren für eine Verwendung in der Objekterkennung erweitern. Ein solches Verfahren kann jedoch zu zahlreichen falschen Erkennungen und Fehlerkennungen in den erzeugten Pseudo-Labels führen. Die vorliegende Offenbarung sieht vor, dass ein anderes Modell (d.h. PseudoProp) zum Erzeugen robuster Pseudo-Labels verwendet werden kann, um die Video-Objekterkennung in einer halb-überwachten Weise zu verbessern. Es wird in Betracht gezogen, dass die PseudoProp-Systeme und -Verfahren sowohl eine neuartige bidirektionale Pseudo-Label-Propagation als auch eine auf Bildsemantik basierende Fusionstechnik umfassen. Die bidirektionale Pseudo-Label-Propagation kann verwendet werden, um durch Nutzung der Bewegungsvorhersage eine Fehlerkennung zu kompensieren. Dagegen kann die auf der Bildsemantik basierende Fusionstechnik zum Unterdrücken von Inferenzrauschen durch Kombinieren von Pseudo-Labels verwendet werden.
Es wird auch in Betracht gezogen, dass tiefe neuronale Netze (Deep Neural Networks - DNNs) mit halb-überwachtem Lernen (Semi-Supervised Learning - SSL) ebenfalls beide Probleme der Objekterkennung in Bildern verbessert haben. Allerdings sind die von den herkömmlichen SSL-basierten Objekterkennungsmodellen aus den nicht markierten Daten erzeugten Pseudo-Labels nicht immer zuverlässig und können daher nicht immer direkt auf das Trainingsverfahren des Detektors angewendet werden, um dieses zu verbessern. So können in den Pseudo-Labels beispielsweise Probleme mit einer falschen Erkennung und einer Fehlerkennung auftreten, die auf den Leistungsengpass des ausgewählten Objektdetektors zurückzuführen sind. Darüber hinaus können Bewegungsinformationen, die sich in den unmarkierten Sequenzdaten befinden, zur Verbesserung der Qualität der Pseudo-Label-Erzeugung erforderlich sein. Solche Daten können jedoch bei der Entwicklung eines SSL-basierten Objektdetektors für Echtzeit-Erfassungsszenarien - wie autonomes Fahren oder Videoüberwachungssysteme - übersehen werden. Die vorliegende Offenbarung befasst sich daher mit Systemen und Verfahren zum Erzeugen robuster Pseudo-Labels, um die Leistung des SSL-basierten Objektdetektors zu verbessern.
Die in Erwägung gezogenen Systeme und Verfahren können erforderlich sein, weil bestehende SSL-basierte Objekterkennungsarbeiten sich im Allgemeinen auf statische Bilder konzentrieren, bei denen die Beziehung zwischen den Bildern möglicherweise nicht gründlich berücksichtigt worden ist. Es versteht sich auch, dass die Objekterkennung SSL-basierte Verfahren nutzen kann, um Pseudo-Labels zu erzeugen, da die ursprünglich markierten Daten aus spärlichen Videoframes bestehen können. In solchen Fällen kann jeder Frame von Videos als statisches Bild betrachtet werden, und auf statischen Bildern basierende SSL-Modelle können dann für die Objekterkennung angewendet werden. Bei solchen Erkennungsmodellen können jedoch Bewegungsinformationen zwischen Frames übersehen werden. Die übersehenen Informationen können dann genutzt werden, um bei der Vorhersage von Pseudo-Labels von unmarkierten Daten Probleme der Fehl- und Falscherkennung zu lösen. Während der Schwerpunkt der Objektverfolgung darauf liegt, ähnliche oder gleiche Objekte zu erkennen-dann-zu identifizieren, können sich das vorliegende System und die Verfahren auf die Verbesserung der Objekterkennungsaufgabe konzentrieren, ohne dass eine erneute Identifizierung der Objekte erforderlich ist.
Dies kann wiederum durch die Formulierung eines ersten Rahmenwerks für die robuste Erzeugung von Pseudo-Labels bei der SSL-basierten Objekterkennung geschehen. Wie oben angegeben, kann das offenbarte Rahmenwerk als „PseudoProp“ aufgrund seiner Funktionsfähigkeit zum Nutzen von Bewegungen zur Propagation von Pseudo-Labels bezeichnet werden. Das offenbarte PseudoProp-Rahmenwerk kann ein ähnlichkeitsbewusstes, gewichtetes Boxen-Fusions-(Similarity-aware Weighted Boxes Fusion - SWBF)-Verfahren umfassen, das auf einer neuartigen bidirektionalen Pseudo-Label-Propagation (Bidirectional Pseudo-Label Propagation - BPLP) beruht. Es wird in Erwägung gezogen, dass das Rahmenwerk derart betreibbar sein kann, das Fehlerkennungsproblem zu lösen und auch die Vertrauensbewertungen für die falsch erkannten Objekte zu reduzieren.
Um beispielsweise eine Fehlererkennung für einen bestimmten Frame zu lösen, kann eine Vorwärts- und Rückwärts-Bewegungsvorhersage für die Pseudo-Labels für vorherige und zukünftige Frames verwendet werden. Diese Pseudo-Labels können dann auf einen anderen spezifischen Frame angewendet (d.h. übertragen) werden. Allerdings erzeugt das BPLP-Verfahren viele redundante Begrenzungsfelder bzw. Bounding-Boxen. Außerdem führt es unweigerlich zu zusätzlichen falsch-positiven Erkennungen (False Positives). Erstens werden, wenn ein Objekt im aktuellen Frame vollständig verdeckt ist, die nicht verdeckten Pseudo-Labels aus früheren und zukünftigen Frames in den aktuellen Frame übertragen. Wenn eine falsche Erkennung in einem Frame bereits vorhanden ist, wird sie an andere Frames in der Videosequenz übertragen. Solche falsch-positiven Erkennungen können die Qualität der erzeugten Pseudo-Labels beeinträchtigen.
Somit bestehen die größten Herausforderungen bei der Anwendung des BPLP-Verfahrens darin, die Vertrauensbewertungen für die falsch-positiven Erkennungen zu reduzieren und die redundanten Bounding-Boxen zu entfernen. Ein Ansatz könnte die Verringerung der Vertrauensbewertungen von falsch übertragenen Bounding-Boxen auf der Grundlage der Ähnlichkeit zwischen ihren extrahierten Merkmalen umfassen. Ein anderer Ansatz kann darin bestehen, den Algorithmus der gewichteten Boxenfusion (Weighted Boxes Fusion - WBF) anzupassen, der für die Reduzierung von Bounding-Boxen konzipiert wurde. Es wird erwogen, dass dieser alternative Ansatz die Vertrauensbewertungen der falsch-positiven Erkennungen, die in den Originalframes vorhanden sind, reduzieren kann.
Auch hier zieht die vorliegende Offenbarung daher ein Rahmenwerk (d.h. PseudoProp) in Betracht, das für die robuste Pseudo-Label-Erzeugung bei der SSL-basierten Objekterkennung unter Verwendung von Bewegungspropagation implementiert werden kann. Darüber hinaus können das vorgeschlagene SWBF-System und -Verfahren auf einem neuartigen BPLP-Ansatz basieren, der derart betreibbar ist, um das Problem der Fehlerkennung zu lösen und die Vertrauensbewertungen der falsch-positiven Erkennungen in den erzeugten Pseudo-Labels erheblich zu reduzieren.
1 stellt ein beispielhaftes System 100 dar, das zur Realisierung des vorgeschlagenen Rahmenwerks verwendet werden kann. Das System 100 kann zumindest eine Computervorrichtung 102 umfassen. Das Computersystem 102 kann zumindest einen Prozessor 104 umfassen, der operativ mit einer Speichereinheit 108 verbunden ist. Bei dem Prozessor 104 kann es sich um einen oder mehrere integrierte Schaltungen handeln, die die Funktionalität einer Zentraleinheit (Central Processing Unit - CPU) 106 implementieren. Es versteht sich, dass es sich bei der CPU 106 auch um eine oder mehrere integrierte Schaltungen handeln kann, die die Funktionalität einer allgemeinen Verarbeitungseinheit oder einer spezialisierten Verarbeitungseinheit (z.B. grafische Verarbeitungseinheit, ASIC, FPGA oder neuronale Verarbeitungseinheit (Neural Processing Unit - NPU)) implementieren.
Bei der CPU 106 kann es sich um eine handelsübliche Verarbeitungseinheit handeln, die einen Befehlssatz wie eine der Befehlssatzfamilien x86, ARM, Power oder MIPS implementiert. Während eines Betriebs kann die CPU 106 gespeicherte Programmanweisungen ausführen, die aus der Speichereinheit 108 abgerufen werden. Die gespeicherten Programmanweisungen können Software umfassen, die einen Betrieb der CPU 106 zum Durchführen der hierin beschriebenen Operation steuert. In einigen Beispielen kann der Prozessor 104 ein System auf einem Chip (System on Chip - SoC) sein, das die Funktionalität der CPU 106, der Speichereinheit 108, einer Netzwerkschnittstelle und von Eingabe-/Ausgabeschnittstellen in einer einzigen integrierten Vorrichtung integriert. Das Computersystem 102 kann ein Betriebssystem zur Verwaltung verschiedener Ausgestaltungen des Betriebs implementieren.
Die Speichereinheit 108 kann flüchtige und nichtflüchtige Speicher zum Speichern von Anweisungen und Daten umfassen. Der nichtflüchtige Speicher kann Festkörperspeicher (Solid-State-Speicher), wie z.B. NAND-Flash-Speicher, magnetische und optische Speichermedien oder andere geeignete Datenspeichergeräte umfassen, die Daten beibehalten, wenn das Computersystem 102 deaktiviert ist oder die elektrische Energie verliert. Der flüchtige Speicher kann statische und dynamische Direktzugriffsspeicher (Random-Access Memory - RAM) umfassen, die Programmanweisungen und Daten speichern. Zum Beispiel kann die Speichereinheit 108 ein Modell für maschinelles Lernen (Machine-Learning-Modell) 110 oder einen Algorithmus, einen Trainingsdatensatz 112 für das Machine-Learning-Modell 110 und/oder Rohdaten 115 speichern.
Das Computersystem 102 kann eine Netzwerkschnittstellenvorrichtung 122 umfassen, die konfiguriert ist, um eine Kommunikation mit externen Systemen und Vorrichtungen zu ermöglichen. Zum Beispiel kann die Netzwerkschnittstellenvorrichtung 122 eine drahtgebundene und/oder drahtlose Ethernet-Schnittstelle umfassen, wie sie in der IEEE 802.11-Standardfamilie definiert ist. Die Netzwerkschnittstellenvorrichtung 122 kann eine Mobilfunkkommunikationsschnittstelle für eine Kommunikation mit einem Mobilfunknetz (z.B. 3G, 4G, 5G) umfassen. Die Netzwerkschnittstellenvorrichtung 122 kann ferner derart konfiguriert sein, dass sie eine Kommunikationsschnittstelle zu einem externen Netzwerk 124 oder einer Cloud bereitstellt.
Das externe Netzwerk 124 kann als das World-Wide Web oder das Internet bezeichnet werden. Das externe Netzwerk 124 kann ein Standard-Kommunikationsprotokoll zwischen Computervorrichtungen einrichten. Das externe Netzwerk 124 kann ermöglichen, dass Informationen und Daten zwischen Computervorrichtungen und Netzwerken einfach ausgetauscht werden. Ein oder mehrere Server 130 können mit dem externen Netzwerk 124 in Verbindung stehen.
Das Computersystem 102 kann eine Ein-/Ausgabe (E/A)-Schnittstelle 120 umfassen, die konfiguriert sein kann, um digitale und/oder analoge Ein- und Ausgänge bereitzustellen. Die E/A-Schnittstelle 120 kann zusätzliche serielle Schnittstellen zum Kommunizieren mit externen Vorrichtungen umfassen (z.B. Universal Serial Bus (USB)-Schnittstelle).
Das Computersystem 102 kann eine Mensch-Maschine-Schnittstellen (Human-Machine Interface - HMI)-Schnittstelle 118 umfassen, die jede Vorrichtung umfassen kann, die es dem System 100 ermöglicht, Steuereingaben bzw. Steuereingänge zu empfangen. Beispiele von Eingabevorrichtungen können Eingaben über menschliche Schnittstellen wie Tastaturen, Mäuse, Touchscreens, Spracheingabevorrichtungen und andere ähnliche Vorrichtungen umfassen. Das Computersystem 102 kann eine Anzeigevorrichtung 132 umfassen. Das Computersystem 102 kann Hardware und Software zum Ausgeben von Grafiken und Textinformationen an die Anzeigevorrichtung 132 umfassen. Die Anzeigevorrichtung 132 kann einen elektronischen Bildschirm, Projektor, Drucker oder eine andere geeignete Vorrichtung zum Anzeigen von Informationen für einen Benutzer oder Bediener umfassen. Das Computersystem 102 kann ferner derart konfiguriert sein, dass es die Interaktion mit entfernten HMI- und entfernten Anzeigevorrichtungen über die Netzwerkschnittstellenvorrichtung 122 ermöglicht.
Das System 100 kann unter Verwendung eines oder mehrerer Computersysteme implementiert werden. Während das Beispiel zwar ein einzelnes Computersystem 102 darstellt, das alle beschriebenen Merkmale implementiert, ist es beabsichtigt, dass verschiedene Merkmale und Funktionen getrennt und von mehreren miteinander kommunizierenden Computereinheiten implementiert werden können. Die gewählte Systemarchitektur kann von einer Vielzahl von Faktoren abhängen.
Das System 100 kann einen Machine-Learning-Algorithmus 110 implementieren, der konfiguriert ist, um die Quellrohdaten 115 zu analysieren. Die Quellrohdaten 115 können rohe oder unverarbeitete Sensordaten umfassen, die repräsentativ für einen Eingabedatensatz für ein maschinelles Lernsystem sein können. Die Quellrohdaten 115 können Video, Videosegmente, Bilder und rohe oder teilweise verarbeitete Sensordaten umfassen (z.B. Daten, die empfangen werden von einer Kamera 114, die eine Digitalkamera oder LiDAR aufweisen kann). In einigen Beispielen kann der Algorithmus für maschinelles Lernen 110 ein neuronaler Netzwerkalgorithmus sein, der derart konzipiert ist, dass er eine vorgegebene Funktion durchführt. Beispielsweise kann der neuronale Netzwerkalgorithmus in Automobilanwendungen derart konfiguriert sein, dass er Objekte (z.B. Fußgänger) aus von einer Digitalkamera bereitgestellten Bildern und/oder einer Tiefenkarte von einem LiDAR-Sensor identifiziert bzw. ermittelt.
Das System 100 kann einen Trainingsdatensatz 112 für den Algorithmus für maschinelles Lernen 110 speichern. Der Trainingsdatensatz 112 kann einen Satz zuvor erstellter Daten zum Trainieren des Algorithmus für maschinelles Lernen 110 darstellen. Der Trainingsdatensatz 112 kann von dem Algorithmus für maschinelles Lernen 110 verwendet werden, um Gewichtungsfaktoren zu lernen, die mit einem neuronalen Netzwerkalgorithmus verbunden sind. Der Trainingsdatensatz 112 kann einen Satz von Quelldaten umfassen, der entsprechende Folgen oder Ergebnisse aufweist, die der Algorithmus für maschinelles Lernen 110 durch den Lernprozess zu duplizieren versucht. In einem Beispiel kann der Trainingsdatensatz 112 Quellbilder und Tiefenkarten aus verschiedenen Szenarien umfassen, in denen Objekte (z.B. Fußgänger) identifiziert werden können.
Der Algorithmus für maschinelles Lernen 110 kann in einem Lernmodus unter Verwendung des Trainingsdatensatzes 112 als Eingabe betrieben werden. Der Algorithmus für maschinelles Lernen 110 kann unter Verwendung der Daten aus dem Trainingsdatensatz 112 über eine Reihe von Iterationen ausgeführt werden. Bei jeder Iteration kann der Algorithmus für maschinelles Lernen 110 interne Gewichtungsfaktoren auf der Grundlage der erzielten Ergebnisse aktualisieren. Zum Beispiel kann der Algorithmus für maschinelles Lernen 110 ausgegebene Ergebnisse mit denen vergleichen, die in dem Trainingsdatensatz 112 umfasst sind. Da der Trainingsdatensatz 112 die erwarteten Ergebnisse umfasst, kann der Algorithmus für maschinelles Lernen 110 bestimmen, wann die Leistung akzeptabel ist. Nachdem der Algorithmus für maschinelles Lernen 110 ein vorgegebenes Leistungsniveau erreicht hat, kann der Algorithmus für maschinelles Lernen 110 unter Verwendung von Daten ausgeführt werden, die sich nicht in dem Trainingsdatensatz 112 befinden. Der trainierte Algorithmus für maschinelles Lernen 110 kann auf neue Datensätze angewendet werden, um mit Anmerkungen versehene Daten zu erzeugen.
Der Algorithmus für maschinelles Lernen 110 kann auch konfiguriert sein, um ein Merkmal in den Quellrohdaten 115 zu identifizieren. Die Quellrohdaten 115 können eine Vielzahl von Varianten oder Eingabedatensätzen umfassen, für die Annotationsergebnisse erwünscht sind. Beispielsweise kann der Algorithmus für maschinelles Lernen 110 derart konfiguriert sein, dass er das Vorhandensein eines Fußgängers in Bildern identifiziert und die Vorkommnisse annotiert. Der Algorithmus für maschinelles Lernen 110 kann derart programmiert sein, dass er die Quellrohdaten 115 verarbeitet, um das Vorhandensein der Merkmale zu identifizieren. Der Algorithmus für maschinelles Lernen 110 kann konfiguriert sein, um ein Merkmal in den Quellrohdaten 115 als vorgegebenes Merkmal zu identifizieren. Quellrohdaten 115 können aus einer Vielzahl von Quellen abgeleitet bzw. gewonnen werden. Beispielsweise kann es sich bei den Quellrohdaten 115 um tatsächliche Eingabedaten handeln, die von einem maschinellen Lernsystem gesammelt wurden. Die Quellrohdaten 115 können maschinell erzeugt werden, um das System zu testen. Als Beispiel können die Quellrohdaten 115 rohe, digitale Bilder von einer Kamera umfassen.
In dem Beispiel kann der Algorithmus für maschinelles Lernen 110 Quellrohdaten 115 verarbeiten und eine Ausgabe erzeugen. Ein Algorithmus für maschinelles Lernen 110 kann für jede erzeugte Ausgabe einen Vertrauenswert oder -faktor erzeugen. Zum Beispiel kann ein Vertrauenswert, der einen vorgegebenen, hochverlässlichen Schwellenwert überschreitet, angeben, dass der Algorithmus für maschinelles Lernen 110 zuversichtlich ist, dass das identifizierte Merkmal dem bestimmten Merkmal entspricht. Ein Vertrauenswert, der kleiner ist als ein Schwellenwert für geringes Vertrauen, kann angeben, dass der Algorithmus für maschinelles Lernen 110 eine gewisse Unsicherheit aufweist, dass das bestimmte Merkmal vorhanden ist.
Das System 100 ist auch ein Beispiel für eine Computerumgebung, die zur Objekterkennung im Sinne der vorliegenden Offenbarung verwendet werden kann. Beispielsweise kann das System 100 für Objekterkennungsanwendungen wie das autonome Fahren verwendet werden, um Menschen, Fahrzeuge und andere Objekte zu Sicherheitszwecken zu erfassen. Oder das System 100 kann für ein Videoüberwachungssystem (z.B. Kameras 114) verwendet werden, um Objekte in Innenräumen in Echtzeit zu erfassen. Es ist auch denkbar, dass das System 100 einen Deep-Learning-Algorithmus zum Erfassen und Erkennen von Objekten (z.B. von Bildern, die von der Kamera 114 erfasst wurden) einsetzt. Ein Deep-Learning-Algorithmus kann aufgrund seiner Fähigkeit zur Analyse von Datenmerkmalen und Modellverallgemeinerungsfähigkeiten bevorzugt werden.
Das System 100 kann auch konfiguriert sein, um einen halb-überwachten Lernalgorithmus (SSL) für Bildverarbeitungsanwendungen zu implementieren, der eine Objekterkennung und semantische Segmentierung umfasst. Im Hinblick auf eine Objekterkennung kann der SSL-Algorithmus Pseudo-Labels (d.h. Begrenzungsfelder - Bounding-Boxen) für unmarkierte Daten umfassen, die unter Verwendung eines vorab trainierten Modells wiederholt erzeugt werden können. Es wird erwogen, dass das Modell durch Trainieren mit einer Mischung aus pseudo-markierten und von Menschen annotierten Daten aktualisiert werden kann. Es wird auch erwogen, dass die SSL-basierten Objektverfahren auch auf statische Bilder angewendet werden können. Schließlich sieht die vorliegende Offenbarung eine Objekterkennung für Videos vor, die SSL-basierte Algorithmen nutzt, um Pseudo-Labels auf nicht markierten Daten zu erzeugen, indem die Beziehung zwischen Frames innerhalb desselben Videos berücksichtigt wird. Das offenbarte System und Verfahren erzeugt daher Pseudo-Labels, die weniger falsch-positive und falsch-negative Ergebnisse aufweisen.
Unter Bezugnahme auf 2 ist ein beispielhaftes Blockdiagramm 200 des offenbarten Rahmenwerks (d.h. PseudoProp) dargestellt. Das im Blockdiagramm 200 dargestellte Rahmenwerk kann unter Verwendung des Computersystems 102 realisiert bzw. implementiert werden. Es wird in Betracht gezogen, dass das Blockdiagramm 200 auch ein Lehrer-Schüler-Rahmenwerk darstellt, das auf einem halb-überwachten Lernalgorithmus basieren kann. Es wird erwogen, dass das Lehrer-Schüler-Rahmenwerk ferner ein Algorithmus zur Wissensdestillation sein kann, der unter Verwendung von SSL angewendet wird. Während ein Lehrer-Schüler-Rahmenwerk für eine Objekterkennung verwendet werden kann, ist es auch denkbar, dass das offenbarte System und Verfahren auch robuste Pseudo-Labels auf der Grundlage der Bewegungspropagation erzeugen.
In Block 202 kann ein markierter Trainingsdatensatz vom System 100 verwendet werden, um den Trainingsabschnitt des Lehrernetzwerks zu beginnen. Es wird erwogen, dass der markierte Datensatz ein maschinelles Lernmodell 110 sein kann, das im Speicher 108 gespeichert ist, oder vom System 100 über ein externes Netzwerk 124 empfangen werden kann. Der markierte Trainingsdatensatz kann auch unter Verwendung der folgenden Gleichung (1) dargestellt werden:
$D_{L} = {({\tilde{X}}_{l}, {\tilde{Y}}_{l})}_{i = 1}^{n}$
Dabei kann n die Anzahl der markierten Daten sein; X̃_l kann ein Frame in einem Video sein; und Y_i kann die entsprechenden menschlichen Anmerkungen (d.h. ein Satz von Bounding-Boxen) von X̃_l sein. Es wird in Betracht gezogen, dass es sich bei dem Video um ein im Speicher 108 gespeichertes maschinelles Lernmodell 110 handeln kann. Alternativ kann das Video über ein externes Netzwerk 124 empfangen werden oder in Echtzeit von der Kamera/LiDAR 114 empfangen werden.
Block 204 stellt einen unmarkierten Datensatz dar, der im Speicher 108 gespeichert oder vom System empfangen werden kann - z.B. über das externe Netzwerk 124. Die nachstehende Gleichung (2) kann auch für den unmarkierten Datensatz D_U repräsentativ sein, dargestellt durch Block 204:
$D_{U} = {({\tilde{X}}_{l})}_{i = 1}^{m}$
Dabei kann m die Anzahl der unmarkierten Daten sein. Es wird auch in Betracht gezogen, dass der unmarkierte Datensatz D_U aus mehreren Videosequenzen extrahiert werden kann, für die keine manuellen Anmerkungen vorgesehen sind. Anders ausgedrückt, kann der unmarkierte Datensatz aus Videosequenzen bestehen, die Teil des im Speicher 108 gespeicherten maschinellen Lernmodells 110 sind. Alternativ können die Videosequenzen über das externe Netzwerk 124 oder in Echtzeit von der Kamera/LiDAR 114 empfangen werden.
Der von Menschen annotierte Datensatz D_L kann auch verwendet werden, um das Lehrernetzwerk 206 (das als θ₁ dargestellt werden kann) unter Verwendung einer herkömmlichen Verlustfunktion (
) für die Objekterkennung zu trainieren, wobei
aus dem Klassifikationsverlust und dem Regressionsverlust für die Bounding-Box-Vorhersage zusammengesetzt sein kann. Es wird in Betracht gezogen, dass die nachstehende Gleichung (3) das optimale Lehrernetzwerk 206 darstellt, das während des Trainingsprozesses erhalten werden kann.
$θ_{1}^{*} = {arg}_{θ_{1}} min \frac{1}{n} \sum_{({\tilde{X}}_{l}, {\tilde{Y}}_{l}) \in D_{L}} L ({\tilde{Y}}_{l}, ƒ_{θ_{1}} (X_{i}))$
Dabei kann $θ_{1}^{*}$
das optimale Lehrernetzwerk 204 (mit einer Vorhersagefunktionf) sein, das während jeder Iteration des Trainings erhalten wird. Wie in 2 dargestellt, kann die erste Iteration die „Iteration 0“ sein. Es wird jedoch erwogen, dass das Lehrer-Schüler-Netzwerk ein iterativer Prozess sein kann. Die Ausgabe des optimalen Lehrernetzwerks 204 (d.h., $θ_{1}^{*}$
) kann dann verwendet werden, um Block 208 zu erzeugen (oder zu aktualisieren), der der Pseudo-Label-Datensatz für alle unmarkierten Daten (D_U) innerhalb von Block 202 sein kann.
Block 210 kann ein ähnlichkeitsbewusster, gewichteter Boxen-Fusions-Algorithmus (SWBF) sein, der derart konzipiert ist, um den unmarkierten Datensatz aus Block 204 und den pseudo-markierten Datensatz aus Block 208 zu empfangen. Es wird in Erwägung gezogen, dass der SWBF-Algorithmus ein Bewegungsvorhersagemodell und/oder ein rauschresistentes Pseudo-Label-Fusionsmodell sein kann, die derart betreibbar sind, dass die Qualität des robusten Pseudo-Label-Datensatzes verbessert wird, der in Block 212 erzeugt oder an diesen ausgegeben wird. Während weitere Einzelheiten zum SWBF-Algorithmus von Block 210 im Folgenden erläutert werden, stellt Gleichung (4) die Vorgehensweise zum Erzeugen der hochwertigen Pseudo-Labels unter Verwendung des SWBF-Algorithmus dar.
$Y_{i} = ƒ_{θ_{1}^{*}} (X_{i}), {\bar{Y}}_{i} = S W B F (Y_{i}), \forall X_{i} \in D_{U}$
Dabei kann Y_i ein Satz von Pseudo-Labels (Bounding-Boxen) der unmarkierten Daten X_i aus dem Lehrermodell (Block 206) sein, und Y_i kann ein Satz von qualitativ hochwertigen Pseudo-Labels sein, nachdem das SWBF-Verfahren auf Y_i verwendet wurde. Der pseudo-markierte Datensatz kann dann verwendet werden, um ein Schülernetzwerk 214 unter Verwendung der Verlustfunktion (
), wie in Gleichung (5) unten gezeigt, zu trainieren:
$θ_{2}^{*} = {arg}_{θ_{2}} min \frac{1}{m} \sum_{{\tilde{X}}_{l} \in D_{U}} L ({\bar{Y}}_{i}, ƒ_{θ_{2}} (X_{i}))$
Es wird in Betracht gezogen, dass, da die von Block 212 bereitgestellten pseudo-markierten Daten verrauscht sein können, das trainierte Schülernetzwerk 214 möglicherweise nicht betreibbar ist, um ein Leistungsniveau oberhalb eines vordefinierten Schwellenwerts zu erreichen. Daher kann das Schülernetzwerk 214 eine zusätzliche Abstimmung (wie durch die „Feinabstimmungs- bzw. Optimierungs-"Linie gezeigt) unter Verwendung des markierten Datensatzes (D_L) erfordern, bevor es anhand des Validierungs- oder Testdatensatzes bewertet wird, wie nachstehend in Gleichung (6) gezeigt:
$θ_{2}^{* *} = {arg}_{θ_{2}^{*}} min \frac{1}{m} \sum_{({\tilde{X}}_{l}, {\tilde{Y}}_{l}) \in D_{L}} L ({\tilde{Y}}_{l}, ƒ_{θ_{2}^{*}} ({\tilde{X}}_{l}))$
Wie auch durch die gestrichelte Linie in 2 gezeigt ist, kann das Schülernetzwerk 214 (d.h., $ƒ_{θ_{2}^{* *}}$
) dann verwendet werden, um das Lehrernetzwerk 206 (d. h., $ƒ_{θ_{1}^{*}}$
) zu ersetzen. Wie bereits erwähnt, kann der gesamte in Diagramm 200 gezeigte Prozess wiederholt werden, sobald das Lehrernetzwerk 206 durch die vorherige Iteration des trainierten Schülernetzes 214 ersetzt worden ist.
Zum Schätzen der Bewegung aus unmarkierten Videoframes kann das offenbarte Rahmenwerk auch einen SDC-Net-Algorithmus zum Vorhersagen des Bewegungsvektors (du, dv) für jedes Pixel (u, v) pro Frame X_t zum Zeitpunkt t verwenden. Es wird erwogen, dass der SDC-Net-Algorithmus zum Vorhersagen des Videoframes X_t+1 auf der Grundlage früherer Framebeobachtungen sowie geschätzter optischer Flüsse implementiert werden kann. Der SDC-Net-Algorithmus kann derart konzipiert werden, dass er herkömmliche, auf optischen Flüssen basierende Verfahren zur Bewegungsvorhersage übertrifft, da SDC-Net betreibbar sein kann, ein Disocclusionsproblem innerhalb gegebener Videoframes handzuhaben bzw. zu verarbeiten. Darüber hinaus kann der SDC-Net-Algorithmus unter Verwendung von aufeinanderfolgenden Frames trainiert werden, ohne dass manuelle Labels erforderlich sind. Schließlich kann in Erwägung gezogen werden, dass der SDC-Net-Algorithmus unter Verwendung von Videoframe-Rekonstruktion anstelle von Framevorhersage (d.h. Anwenden von bidirektionalen Frames zur Rekonstruktion des aktuellen Frames) verbessert werden kann. Der vorhergesagte Frame X_t+1 und seine entsprechenden vorhergesagten Pseudo-Labels Ŷ_t+1 können beide unter Verwendung der unten gezeigten Gleichungen (7) und (8) formuliert werden:
$X_{t + 1} = B (M (X_{t - τ : t + 1}, V_{t - τ + 1 : t + 1}), X_{t})$

${\hat{Y}}_{t + 1} = T (M (X_{t - τ : t + 1}, V_{t - τ + 1 : t + 1}), Y_{t})$
Dabei können X_t-τ:t die Frames vom Zeitpunkt t - τ bis t sein. Es wird auch davon ausgegangen, dass V_t-τ+1:t die entsprechenden optischen Flüsse vom Zeitpunkt t - τ + 1 bis t sein können. Der Wert B kann eine bilineare Abtastoperation sein, die betreibbar ist, um den bewegungsübersetzten Frame in den endgültigen, vorhergesagten Frame zu interpolieren. Der Wert T kann eine Floor-Operation zum Ableiten von Pseudo-Labels aus einer Bewegungsvorhersage sein. Und schließlich kann der Wert
ein faltendes neuronales Netzwerk (Convolutional Neural Network - CNN) (oder andere Netzwerke wie ein tiefes neuronales Netzwerk (Deep Neural Network - DNN)) sein, das betreibbar ist, um den Bewegungsvektor (du, dv) pro Pixel auf X_t vorherzusagen. Ein nicht einschränkendes Beispiel für ein CNN, das von dem Lehrernetzwerk 206 oder dem Schülernetzwerk 214 verwendet werden kann, kann beispielsweise eine oder mehrere Faltungsschichten, eine oder mehrere Pooling-Schichten, eine vollständig verbundene Schicht und eine Softmax-Schicht umfassen.
Wie in 2 dargestellt, kann der markierte Eingabedatensatz 202 als Eingabe für das Lehrernetzwerk 206 bereitgestellt werden, während der robuste pseudo-markierte Datensatz 212 für das Schülernetzwerk bereitgestellt werden kann. Der markierte Datensatz 202 kann als Trainingsdatensatz oder von einem oder mehreren Sensoren (z.B. der Kamera 114) empfangen werden. Der Datensatz kann auch leicht verarbeitet werden, bevor er dem CNN zur Verfügung gestellt wird. Faltungsschichten können derart betreibbar sein, Merkmale aus den Datensätzen zu extrahieren, die dem Lehrernetzwerk 206 oder dem Schülernetzwerk 214 zur Verfügung gestellt werden. Es ist allgemein bekannt, dass Faltungsschichten 220-240 derart betreibbar sein können, Filteroperationen (z.B. Kernel) anzuwenden, bevor sie das Ergebnis an eine andere Schicht des CNN weiterleiten. Beispielsweise können die Faltungsschichten für einen gegebenen Datensatz (z.B. ein Farbbild) Filterroutinen ausführen, um Operationen wie Bildidentifizierung, Kantenerfassung eines Bildes und Bildschärfung durchzuführen.
Es ist auch denkbar, dass das CNN eine oder mehrere Pooling-Schichten umfasst, die die gefalteten Daten von den jeweiligen Faltungsschichten empfangen. Pooling-Schichten können eine oder mehrere Pooling-Schicht-Einheiten umfassen, die eine Pooling-Funktion auf eine oder mehrere Faltungsschicht-Ausgaben anwenden, die unter Verwendung einer Pooling-Funktion in verschiedenen Bändern berechnet werden. Beispielsweise kann die Pooling-Schicht eine Pooling-Funktion auf die von der Faltungsschicht empfangene Kernel-Ausgabe anwenden. Bei der von den Pooling-Schichten implementierten Pooling-Funktion kann es sich um eine Durchschnitts- oder Maximalfunktion oder eine andere Funktion handeln, die mehrere Werte zu einem einzigen Wert zusammenfasst.
Eine vollständig verbundene Schicht kann auch derart betreibbar sein, dass sie nichtlineare Kombinationen für die hochrangigen Merkmale in den von den Faltungsschichten und Pooling-Schichten 250- empfangenen Ausgabedaten lernt. Schließlich kann das vom Lehrernetzwerk 206 oder vom Schülernetzwerk 214 implementierte CNN eine Softmax-Schicht umfassen, die die Ausgaben der vollständig verbundenen Schicht unter Verwendung von Softmax-Funktionen kombiniert. Es ist denkbar, dass das neuronale Netzwerk für eine Operation in Automobilanwendungen konfiguriert sein kann, um Objekte (z.B. Fußgänger) aus von einer digitalen Kamera bereitgestellten Bildern und/oder einer Tiefenkarte von einem LiDAR-Sensor zu identifizieren.
Das offenbarte System und Verfahren kann ein vorab trainiertes Modell zur Schätzung des optischen Flusses umfassen, um V zu erzeugen, und der Ansatz zur Rekonstruktion von Videoframes wird für M verwendet. Es ist denkbar, dass das vortrainierte Modell zur Schätzung des optischen Flusses unter Verwendung eines FlowNet2-Algorithmus konzipiert werden kann. Der oben erläuterte SDC-Net-Algorithmus kann auch mit unmarkierten Videosequenzen in einem gegebenen Datensatz (z.B. Cityscapes-Datensatz) trainiert werden. Der Algorithmus kann τ = 1 auswählen und zum Schätzen der Bewegung (im Gegensatz zum Vorhersagen zukünftiger Frames) kann der Algorithmus zukünftige Bounding-Boxen vorhersagen, indem er das Zwischenergebnis vom Modell
verwendet, um die Werte (du, dv) abzurufen. Sobald alle Bewegungsvektoren für jedes Pixel gesammelt sind, kann der Operator T auch verwendet werden, um (u, v) in Y_t vorherzusagen, um als (u + du, v + dv) in Ŷ_t+1 zu erscheinen, wie in Gleichung (8) oben gezeigt.
3 zeigt ein beispielhaftes Boxdiagramm 300 einer Ausführungsform des Algorithmus für die ähnlichkeitsbewusste, gewichtete Boxenfusion (Similarity-aware Weighted Boxes Fusion - SWBF), der in 1 allgemein als Block 210 gezeigt wurde. Block 302 stellt einen bidirektionalen Pseudo-Label-Propagations- (BPLP)-Algorithmus dar, der derart betreibbar ist, Pseudo-Label-Kandidaten gemäß der Bewegungsvorhersage zu erzeugen. Insbesondere stellt Block 302 eine Operation des BPLP-Algorithmus dar, der im Folgenden ausführlicher beschrieben wird. Wie dargestellt, kann eine Vielzahl von unmarkierten Datensatz-Videoframes 306-318 von dem in Block 204 dargestellten unmarkierten Datensatz empfangen (d.h. eingegeben) werden. Ebenso kann eine Vielzahl von pseudo-markierten Datensatz-Videoframes 322-330 von dem in Block 208 gezeigten pseudo-markierten Datensatz empfangen werden. Der BPLP-Algorithmus kann unter Verwendung der Frames 306-318 und der Frames 322-330 eine Summations- und Ähnlichkeitsberechnung operativ durchführen, um einen robusten pseudo-markierten Frame 320 zu erzeugen, der keine Fusion durchlaufen hat. Block 304 stellt dann einen robusten Fusionsalgorithmus dar, der derart betreibbar ist, den endgültigen Pseudo-Label-Datensatz zu erzeugen, der an Block 212 in 1 ausgegeben wird.
Da die vorhergesagten (d.h. abgeleiteten) Pseudo-Labels in Block 208, die aus dem Lehrermodell 206 erzeugt werden, falsch-negative Ergebnisse enthalten können, kann das oben in Bezug auf die Gleichungen (7) und (8) besprochene Verfahren zur Bewegungsvorhersage verwendet werden, um die Pseudo-Label-Vorhersage, die im Detail als Block 302 gezeigt wird, zu propagieren. Das Verfahren zur Bewegungsvorhersage unter Verwendung der Gleichungen (7) und (8) kann jedoch nur betreibbar sein, Frames und Labels in einer Richtung und auch in einer Schrittgröße zu vorhersagen. Um die vorhergesagten Pseudo-Labels zum Zeitpunkt t + 1 robuster zu machen, kann ein Interpolationsalgorithmus (d.h. bidirektionale Pseudo-Label-Propagation) operativ verwendet werden, um Pseudo-Label-Vorschläge zu erzeugen. Mit anderen Worten können die ursprüngliche Label-Vorhersage (Vorwärtspropagation) und ihre umgekehrte Version (Rückwärtspropagation) zum Vorhersagen der Pseudo-Labels verwendet werden. Es wird auch erwogen, dass die Propagationslänge k ∈ ℤ⁺ verwendet wird, wie in den Gleichungen (9) e- (12) unten gezeigt:
${\bar{Y}}_{t + 1} = Y_{t + 1} \cup {\hat{Y}}_{t + 1}$

${\hat{Y}}_{t + 1} = U_{t \in K} {\hat{Y}}_{t + 1}^{i}, {\hat{Y}}_{t + 1}^{i} = T (\sum_{j \in J} M (X_{t - j : t - j + 2}, V_{t + 1 - j : 0}), Y_{t + 1 - i}$

$s . t . K = {\pm 1, \dots, \pm (k - 1), \pm k}, o = {\begin{matrix} t + 2 - j, i f i > 0 \\ t - j, i f i < 0 \end{matrix}$

$J = {s g n (i) \cdot 1, \dots, s g n (i) \cdot (| i | - 1), s g n (i) \cdot (| i |)}$
Dabei $s g n (i) = {\begin{matrix} + 1, i f i > 0 \\ - 1, i f i < 0 \end{matrix}$
und i ∈ K gilt. Es wird in Betracht gezogen, dass in der rechten Seite von Gleichung (9) der erste Term Y_t+1 der Pseudo-Label-Satz des unmarkierten Frames X_t+1 aus der Vorhersage des Lehrermodells 206 sein kann. Der zweite Term Ŷ_t+1 kann ein Satz sein, der Pseudo-Labels aus den vergangenen und zukünftigen Frames nach Verwendung der Bewegungspropagation enthält, die unter Verwendung der obigen Gleichung (12) abgeleitet werden kann. Der Ausdruck ${\hat{Y}}_{t + 1}^{i}$
kann der Pseudo-Label-Satz von Y_t+1-i sein. Es wird auch in Betracht gezogen, dass der Wert Y _t+1 für X_t+1 berechnet werden kann, indem eine Vereinigungsoperation auf Y_t+1 und Ŷ_t+1 angewendet wird. In dem Satz K gibt „+“ eine Vorwärtspropagation an, und „-“ stellt eine Rückwärtspropagation dar. In 8 ist ein Beispiel gezeigt, das darstellt, wie Ŷ_t+1 errechnet werden kann.
Der BPLP-Algorithmus mit verschiedenen k-Einstellungen kann viele Pseudo-Label-Kandidaten erzeugen, wie in Block 320 dargestellt. Es wird jedoch in Betracht gezogen, dass zusätzliche (zwei Arten) falsch positive Ergebnisse (False Positives - FP) auch eingeführt werden können. Wie in 6A gezeigt, kann ein FP vom Typ A eingeführt werden, wobei der Algorithmus derart betreibbar ist, eine Person zum Zeitpunkt t (Block 602) und t + 2 (Block 604) zu erfassen, wobei die Person jedoch zum Zeitpunkt t + 1 (Block 606) nicht erfasst werden kann. Der Grund dafür, dass die Person nicht erfasst werden kann, ist, dass sie in Block 606 von einem Baum verdeckt wird. Durch das BPLP-Verfahren werden jedoch zum Zeitpunkt t + 1 zwei Bounding-Boxen bzw. Begrenzungsfelder erscheinen, wie in Block 608 gezeigt ist. Block 610 zeigt die endgültigen Bounding-Boxen mit den Vertrauensbewertungen einer Person, die innerhalb des Bildes t+1 erfasst wurde, aber die Vertrauensbewertungen sind möglicherweise nicht so hoch wie in den Blöcken 402 und 406, weil die Person verdeckt worden ist.
In Hinblick auf die FP-Erkennung vom Typ-B kann, wie in 6B gezeigt, ein Objekt (z.B. das in den Blöcken 620 und 622 gezeigte Plakat) zum Zeitpunkt t + 1 (Block 624) fälschlicherweise als ein anderes Objekt (z.B. ein Auto) mit einer hohen Vertrauensbewertung erfasst werden. Außerdem steigt die Anzahl der Pseudo-Label-Kandidaten (Bounding-Boxen) mit zunehmendem Wert von k (wie in Block 626 gezeigt). Daher können viele redundante Bounding-Boxen in Y_t+i für den Zielframe X_t+1 erscheinen.
Auf der Grundlage der obigen Ausführungen wird daher erwogen, dass zur Verringerung der Vertrauensbewertungen des FP ein Ähnlichkeitsberechnungsansatz implementiert werden kann (wie in Block 302 gezeigt), wie in Gleichung (13) unten dargestellt.
$Y_{t + 1 - i} : = {(L_{t + 1 - i}^{z}, P_{t + 1 - i}^{z}, S_{t + 1 - i}^{z})}_{z = 1}^{| Y_{t + 1 - i} |}$
Dabei können $L_{t + 1 - i}^{z}, P_{t + 1 - i}^{z}, S_{t + 1 - i}^{z}$
die Klasse, die Positionen und die Vertrauensbewertungen der z-ten Bounding-Box in Y_t+1-i sein. Der Wert |Y_t+1-i | kann auch die Anzahl der Bounding-Boxen in Y_t+1-i darstellen. In ähnlicher Weise kann ${\hat{Y}}_{t + 1}^{i}$
wie in Gleichung (14) unten gezeigt definiert werden:
${\hat{Y}}_{t + 1}^{i} : = {({\hat{L}}_{t + 1}^{i, z}, {\hat{P}}_{t + 1}^{i, z}, {\hat{S}}_{t + 1}^{i, z})}_{z = 1}^{| Y_{t + 1}^{i} |}$
Es wird auch in Betracht gezogen, dass $L_{t + 1 - i}^{z}, {\hat{L}}_{t + 1}^{i, z}, \forall z$
entsprechen kann, da die Bounding-Box-Klasse während der Propagation nicht geändert werden darf. Der Wert ${\hat{P}}_{t + 1}^{i, z}$
kann erhalten werden aus $P_{t + 1 - i}^{z}$
durch Anwenden von T, wie in Gleichung (10) oben gezeigt. Es versteht sich auch, dass $S_{t + 1 - i}^{z} = {\hat{S}}_{t + 1}^{i, z}, \forall z$
gilt, wobei dies aber zu dem in 6A dargestellten falsch positiven Ergebnis vom Typ-A führen kann. Es wird daher erwogen, dass eine Ähnlichkeitsbewertung „sim“ auf der Grundlage von ${\hat{P}}_{t + 1}^{i, z}$
und $P_{t + 1 - i}^{z}$
zu der Bounding-Box-Vertrauensbewertung implementiert werden kann, die auch von $S_{t + 1 - i}^{z}$
und ${\hat{S}}_{t + 1}^{i, z}$
überführt werden kann. Das vorliegende Rahmenwerk kann die Ähnlichkeit durch Zuschneiden von Bildern an Rahmen X_t+1-i und X_t+1 gemäß den Positionen $P_{t + 1 - i}^{z}$
und ${\hat{P}}_{t + 1}^{i, z}$
berechnen.
Es wird dann erwogen, dass das vortrainierte neuronale Netzwerk verwendet werden kann, um die hochrangigen Merkmalsvertreter aus den zugeschnittenen Bildern zu extrahieren. Schließlich kann die Ähnlichkeit durch Vergleichen dieser beiden hochrangigen Merkmalvertreter ermittelt werden. Für die Ähnlichkeitsberechnung kann ein merkmalsbasiertes Verfahren verwendet werden, um dem Objekt die gleiche Punktzahl bzw. die gleiche Bewertung zu geben, wenn es vor und nach der Pseudo-Label-Propagation zur gleichen Klasse gehört. Ist dies nicht der Fall, kann die Berechnung eine niedrige Punktzahl bzw. Bewertung ergeben, um die FP-Erkennung vom Typ-A zu reduzieren. Die Bewertung kann unter Verwendung der nachstehenden Gleichung (15) bestimmt werden.
${\hat{S}}_{t + 1}^{i, z} = S_{t + 1 - i}^{z} \cdot s i m (C (P_{t + 1}^{i, z}), C (P_{t + 1 - i}^{z}))$
Dabei kann C(-) eine Funktion sein, die auf der Grundlage der Boxen-Positionen die hochrangigen Merkmalsvertreter aus den zugeschnittenen Bildern extrahieren kann. Der obige Algorithmus des Ähnlichkeitsverfahrens kann eine Verringerung der Vertrauensbewertungen der falsch positiven Erkennungen vom Typ A ermöglichen, wie in 6A gezeigt.
Obwohl die Ähnlichkeitsberechnung die Vertrauensbewertung für einige Typ-A-FP-Erkennungen reduzieren kann, ist sie möglicherweise nicht betreibbar, um die Typ-B-FP-Erkennungen handzuhaben und redundante Bounding-Boxen zu reduzieren. Daher kann ein WBF-Algorithmus implementiert werden, um die redundanten Bounding-Boxen zu reduzieren und die Vertrauensbewertungen für die Typ-B-FP-Boxen weiter zu verringern. Der WBF-Algorithmus kann derart konzipiert sein, dass er die Lokalisierungs- und Vertrauensbewertungen der Vorhersagen aus allen Quellen (vorherigen, aktuellen Frame und zukünftige Frames) für dasselbe Objekt mittelt.
Vor der Verwendung der Fusion kann Ŷ_t+1 gemäß den Bounding-Box-Klassen in d Teile aufgeteilt werden. Es wird erwogen, dass d die Gesamtzahl der Klassen in Ŷ_t+1 sein kann. Es wird auch in Erwägung gezogen, dass Y _t+1,c ⊆ Ŷ_t+1 als eine Teilmenge bzw. ein Teilsatz für die c-te Klasse definiert werden kann. Für jede Teilmenge, d.h. Y _t+1,c können die folgenden Fusionsvorgehensweisen umfasst sein:
Zunächst können die Bounding-Boxen von Y_t+1,c in verschiedene Cluster unterteilt werden. Für jeden Cluster sollte die Schnittmenge über der Vereinigung (IoU) von jeweils zwei Bounding-Boxen größer als ein benutzerdefinierter Schwellenwert sein. Es wird erwogen, dass der benutzerdefinierte Schwellenwert etwa 0,5 betragen kann.
Zweitens kann für Boxen in jedem Cluster r eine durchschnittliche Vertrauensbewertung C_r berechnet werden und der gewichtete Durchschnitt für die Positionen unter Verwendung der Gleichungen (17) und (18) unten.
$C_{r} = \frac{1}{B} \sum_{l = 1}^{B} C_{r}^{l}$

$P_{r} = \frac{\sum_{l = 1}^{B} C_{r}^{l} \cdot P_{r}^{l}}{\sum_{l = 1}^{B} C_{r}^{l}}$
Dabei kann B die Gesamtzahl der Boxen in dem Cluster r sein, $C_{r}^{l}$
und $P_{r}^{l}$
können die Vertrauensbewertung und die Position der l-ten Box im Cluster r sein.
Drittens können die erste und die zweite Vorgehensweise verwendet werden, um die redundanten Bounding-Boxen zu reduzieren. Es wird jedoch in Betracht gezogen, dass diese Vorgehensweisen nicht betreibbar sind, um die in 6B gezeigten falsch positiven Erkennungen vom Typ-B zu lösen. Um die Vertrauensbewertung von falsch erfassten Boxen zu reduzieren, kann C_r unter Verwendung der folgenden Gleichung (19) neu skaliert werden.
$C_{r} = C_{r} \cdot \frac{min (B, | K | + 1)}{| K | + 1}$
Dabei kann |K| die Größe der oben erwähnten Menge K sein. Wenn eine kleine Anzahl von Quellen Pseudo-Labels für ein Objekt bereitstellen kann, ist die Erkennung höchstwahrscheinlich eine Fehlerkennung, wie in 6B dargestellt.
Schließlich kann Y _t+1,c nur die gemittelten Bounding-Box-Informationen (c, P_r, C_r) aus jedem Cluster enthalten. Es wird daher erwogen, dass die endgültige Ŷ_t+1 die aktualisierten Y _t+1,c von jeder Klasse enthalten können. 7 stellt eine beispielhafte Version des Pseudo-Codes für dieses Fusionsverfahren dar.
Die 4 bis 5 stellen verschiedene Anwendungen dar, die zur Implementierung des in den 2 und 3 offenbartes Rahmenwerks verwendet werden können. Beispielsweise stellt 4 eine Ausführungsform dar, bei der ein Computersystem 440 zum Steuern eines zumindest teilweise autonomen Roboters, z.B. eines zumindest teilweise autonomen Fahrzeugs 400, verwendet werden kann. Das Computersystem 440 kann dem in 1 beschriebenen System 100 gleichen. Der Sensor 430 kann einen oder mehrere Video-/Kamerasensoren und/oder einen oder mehrere Radarsensoren und/oder einen oder mehrere Ultraschallsensoren und/oder einen oder mehrere LiDAR-Sensoren und/oder einen oder mehrere Positionssensoren (wie z.B. GPS) aufweisen. Einige oder alle diese Sensoren sind vorzugsweise, aber nicht unbedingt in das Fahrzeug 400 integriert bzw. eingebaut.
Alternativ kann der Sensor 430 ein Informationssystem zum Bestimmen eines Zustands des Aktuatorsystems aufweisen. Der Sensor 430 kann Sensordaten oder andere Informationen sammeln, die von dem Computersystem 440 verwendet werden können. Ein Beispiel für ein solches Informationssystem ist ein Wetterinformationssystem, das einen aktuellen oder zukünftigen Zustand des Wetters in der Umgebung bestimmt. Unter Verwendung eines Eingangssignals x kann der Klassifikator beispielsweise Objekte in der Nähe des zumindest teilweise autonomen Roboters erfassen. Ein Ausgangssignal y kann eine Information aufweisen, die charakterisiert, wo sich Objekte in der Umgebung des zumindest teilautonomen Roboters befinden. Gemäß dieser Information kann dann ein Steuerbefehl A bestimmt werden, zum Beispiel um Kollisionen mit den erfassten Objekten zu vermeiden.
Der Aktuator 410, der in das Fahrzeug 400 integriert bzw. eingebaut sein kann, kann durch eine Bremse, ein Antriebssystem, einen Motor, einen Antriebsstrang oder eine Lenkung des Fahrzeugs 400 erhalten werden. Die Steuerbefehle für den Aktuator 410 können derart bestimmt werden, dass der Aktuator (oder die Aktuatoren) 410 so gesteuert wird/werden, dass das Fahrzeug 400 Kollisionen mit den erfassten Objekten vermeidet. Erfasste Objekte können auch gemäß dem klassifiziert werden, was der Klassifikator als am wahrscheinlichsten ansieht, z.B. Fußgänger oder Bäume, und die Aktuator-Steuerbefehle können in Abhängigkeit von der Klassifizierung bestimmt werden.
In 5 ist eine Ausführungsform gezeigt, bei der das Computersystem 540 zum Steuern eines automatisierten persönlichen Assistenten 550 verwendet wird. Der Sensor 530 kann ein optischer Sensor sein, z.B. zum Empfangen von Videobildern einer Geste des Benutzers 549. Alternativ kann der Sensor 530 auch ein Audiosensor sein, z.B. zum Empfangen eines Sprachbefehls des Benutzers 549.
Das Steuerungssystem 540 bestimmt dann Aktuator-Steuerbefehle A zum Steuern des automatisierten persönlichen Assistenten 550. Die Aktuator-Steuerbefehle A werden gemäß dem Sensorsignal S des Sensors 530 bestimmt. Das Sensorsignal S wird an das Steuerungssystem 540 übertragen. Beispielsweise kann der Klassifikator eingerichtet sein, um z.B. einen Gestenerkennungsalgorithmus auszuführen, um eine vom Benutzer 549 vorgenommene Geste zu identifizieren. Das Steuerungssystem 540 kann dann einen Aktuator-Steuerbefehl A für eine Übertragung an den automatisierten persönlichen Assistenten 550 bestimmen. Es überträgt dann den Aktuator-Steuerbefehl A an den automatisierten persönlichen Assistenten 550.
Beispielsweise kann der Aktuator-Steuerbefehl A gemäß der identifizierten und vom Klassifikator erkannten Benutzergeste bestimmt werden. Er kann dann Informationen aufweisen, die den automatischen persönlichen Assistenten 550 veranlassen, Informationen aus einer Datenbank abzurufen und diese abgerufenen Informationen in einer Form auszugeben, die für einen Empfang durch den Benutzer 549 geeignet ist.
In weiteren Ausführungsformen ist es denkbar, dass das Steuerungssystem 540 anstelle des automatisierten persönlichen Assistenten 550 ein Haushaltsgerät (nicht gezeigt) steuert, das gemäß der identifizierten Benutzergeste gesteuert wird. Das Haushaltsgerät kann eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder ein Geschirrspüler sein.
Die hier offenbarten Prozesse, Verfahren oder Algorithmen können an eine Verarbeitungsvorrichtung, eine Steuerung oder einen Computer geliefert bzw. von diesen realisiert bzw. implementiert werden, was jede vorhandene programmierbare elektronische Steuereinheit oder dedizierte elektronische Steuereinheit umfassen kann. Ebenso können die Prozesse, Verfahren oder Algorithmen als Daten und Anweisungen gespeichert werden, die von einer Steuerung bzw. einem Controller oder einem Computer in vielen Formen ausführbar sind, einschließlich in nicht einschränkender Weise Informationen, die dauerhaft auf nicht beschreibbaren Speichermedien wie ROM-Vorrichtungen gespeichert sind, und Informationen, die veränderbar auf beschreibbaren Speichermedien wie Disketten, Magnetbändern, CDs, RAM-Vorrichtungen und anderen magnetischen und optischen Medien gespeichert sind. Die Prozesse, Verfahren oder Algorithmen können auch in einem ausführbaren Softwareobjekt realisiert bzw. implementiert werden. Alternativ können die Prozesse, Verfahren oder Algorithmen ganz oder teilweise unter Verwendung geeigneter Hardware-Komponenten, wie anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Arrays (FPGAs), Zustandsautomaten, Steuerungen oder anderer Hardware-Komponenten oder -Vorrichtungen oder einer Kombination aus Hardware-, Software- und Firmware-Komponenten ausgebildet werden.
Obwohl oben beispielhafte Ausführungsbeispiele beschrieben sind, ist nicht beabsichtigt, dass diese Ausführungsbeispiele alle möglichen Formen beschreiben, die von den Ansprüchen umfasst sind. Die in der Beschreibung verwendeten Worte sind eher beschreibend als einschränkend, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Sinn und Umfang der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die möglicherweise nicht ausdrücklich beschrieben oder dargestellt sind. Während verschiedene Ausführungsformen Vorteile aufweisen oder gegenüber anderen Ausführungsformen oder Implementierungen des Standes der Technik in Bezug auf eine oder mehrere gewünschte Eigenschaften bevorzugt sind, erkennt ein Fachmann, dass ein oder mehrere Merkmale oder Eigenschaften beeinträchtigt werden können, um gewünschte Gesamtsystemattribute zu erreichen, die von der spezifischen Anwendung und Implementierung abhängen. Diese Eigenschaften können Kosten, Festigkeit, Haltbarkeit, Lebenszykluskosten, Marktfähigkeit, Aussehen, Baugruppen, Größe, Wartungsfreundlichkeit, Gewicht, Herstellbarkeit, Montagefreundlichkeit usw. umfassen, sind aber nicht darauf beschränkt. Soweit Ausführungsformen in Bezug auf ein oder mehrere Merkmale als weniger wünschenswert als andere Ausführungsformen oder Implementierungen des Standes der Technik beschrieben werden, liegen diese Ausführungsformen nicht außerhalb des Anwendungsbereichs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.

Claims

Verfahren zum Erzeugen eines robusten Pseudo-Label-Datensatzes, aufweisend: Empfangen eines markierten Quelldatensatzes; Trainieren eines neuronalen Lehrernetzwerks unter Verwendung des markierten Quelldatensatzes; Erzeugen eines pseudo-markierten Datensatzes als eine Ausgabe aus dem neuronalen Lehrernetzwerk; Bereitstellen des pseudo-markierten Datensatzes und eines unmarkierten Datensatzes an einen ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus; Erzeugen des robusten Pseudo-Label-Datensatzes aus einem ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus, der unter Verwendung des Pseudo-Label-Datensatzes und des unmarkierten Datensatzes arbeitet; Trainieren eines neuronalen Schülernetzwerks unter Verwendung des robusten Pseudo-Label-Datensatzes; und Ersetzen des neuronalen Lehrernetzwerks durch das neuronale Schülernetzwerk.
Verfahren nach Anspruch 1, ferner aufweisend: Abstimmen des neuronalen Schülernetzwerks unter Verwendung des markierten Quelldatensatzes.
Verfahren nach Anspruch 1, wobei der markierte Quelldatensatz zumindest ein Bild und zumindest eine menschliche Anmerkung umfasst.
Verfahren nach Anspruch 3, wobei die zumindest eine menschliche Anmerkung eine Bounding-Box aufweist, die eine Vertrauensbewertung für ein Objekt innerhalb des zumindest einen Bildes definiert.
Verfahren nach Anspruch 4, wobei das neuronale Lehrernetzwerk konfiguriert ist, um einen Bewegungsvektor für ein Pixel innerhalb eines Frames des markierten Quelldatensatzes vorherzusagen.
Verfahren nach Anspruch 4, wobei das neuronale Lehrernetzwerk unter Verwendung einer Verlustfunktion für die Objekterkennung trainiert wird.
Verfahren nach Anspruch 6, wobei die Verlustfunktion einen Klassifikationsverlust und einen Regressionsverlust für eine Vorhersage der Vertrauensbewertung innerhalb der Bounding-Box aufweist.
Verfahren nach Anspruch 1, ferner aufweisend: Neutrainieren des neuronalen Lehrernetzwerks unter Verwendung einer Vorhersagefunktion.
Verfahren nach Anspruch 1, wobei der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus als ein Bewegungsvorhersagealgorithmus ausgeführt ist, der betreibbar ist, um die Qualität des robusten Pseudo-Label-Datensatzes auf einen ersten vordefinierten Schwellenwert zu verbessern.
Verfahren nach Anspruch 9, wobei der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus als ein rauschresistenter Pseudo-Label-Fusionsalgorithmus ausgeführt ist, der betreibbar ist, um die Qualität des robusten Pseudo-Label-Datensatzes auf einen zweiten vordefinierten Schwellenwert zu verbessern.
Verfahren nach Anspruch 1, ferner aufweisend: Vorhersagen eines Bewegungsvektors für ein Pixel innerhalb einer Vielzahl von Frames innerhalb des unmarkierten Datensatzes unter Verwendung eines SDC-Net-Algorithmus.
Verfahren nach Anspruch 11, ferner aufweisend: Trainieren des SDC-Net-Algorithmus unter Verwendung der Vielzahl von Frames, wobei der SDC-Net-Algorithmus ohne ein manuelles Label trainiert wird.
Verfahren nach Anspruch 12, wobei der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus einen Ähnlichkeitsalgorithmus aufweist, der betreibbar ist, um eine Vertrauensbewertung für ein Objekt, das innerhalb des pseudo-markierten Datensatz falsch erfasst wird, zu reduzieren.
Verfahren nach Anspruch 13, wobei der Ähnlichkeitsalgorithmus eine Klassenbewertung, eine Positionsbewertung und die Vertrauensbewertung für eine Bounding-Box innerhalb zumindest eines Frames des pseudo-markierten Datensatzes umfasst.
Verfahren nach Anspruch 14, wobei der Ähnlichkeitsalgorithmus eine merkmalsbasierte Strategie anwendet, die eine vorgegebene Bewertung liefert, wenn das Objekt als zu einer definierten Klasse gehörig bestimmt wird.
Verfahren nach Anspruch 15, wobei der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus betreibbar ist, um die Bounding-Box, die als redundant bestimmt wird, zu reduzieren und die Vertrauensbewertung für ein falsch positives Ergebnis zu reduzieren.
Verfahren nach Anspruch 16, wobei der ähnlichkeitsbewusste, gewichtete Box-Fusion-Algorithmus betreibbar ist, um einen Lokalisierungswert und die Vertrauensbewertung für einen vorherigen Frame, einen aktuellen Frame und einen zukünftigen Frame für das innerhalb des pseudo-markierten Datensatz erfasste Objekt zu mitteln.
Verfahren zum Erzeugen eines robusten Pseudo-Label-Datensatzes, aufweisend: Empfangen eines markierten Datensatzes, der eine Vielzahl von Frames umfasst; Trainieren eines faltenden neuronalen Lehrernetzwerks unter Verwendung des markierten Datensatzes; Erzeugen eines pseudo-markierten Datensatzes als eine Ausgabe von dem faltenden neuronalen Lehrernetzwerk; Bereitstellen des pseudo-markierten Datensatzes und eines unmarkierten Datensatzes an einen ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus; Erzeugen des robusten Pseudo-Label-Datensatzes aus einem ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus, der unter Verwendung des pseudo-markierten Datensatzes und des unmarkierten Datensatzes arbeitet; Trainieren eines faltenden neuronalen Schülernetzwerks unter Verwendung des robusten Pseudo-Label-Datensatzes; und Ersetzen des faltenden neuronalen Lehrernetzwerks durch das faltende neuronale Schülernetzwerk.
Verfahren nach Anspruch 18, ferner aufweisend: Abstimmen des faltenden neuronalen Schülernetzwerks unter Verwendung des markierten Datensatzes.
System zum Erzeugen eines robusten Pseudo-Label-Datensatzes, aufweisend: einen Prozessor, der eingerichtet ist, um: einen markierten Quelldatensatz zu empfangen; ein neuronales Lehrernetzwerk unter Verwendung des markierten Quelldatensatzes zu trainieren; einen pseudo-markierten Datensatz als eine Ausgabe aus dem neuronalen Lehrernetzwerk zu erzeugen; den pseudo-markierten Datensatz und einen unmarkierten Datensatz an einen ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus bereitzustellen; den robusten Pseudo-Label-Datensatz aus einem ähnlichkeitsbewussten, gewichteten Box-Fusion-Algorithmus zu erzeugen, der unter Verwendung des pseudo-markierten Datensatzes und des unmarkierten Datensatzes arbeitet; ein neuronales Schülernetzwerk unter Verwendung des robusten Pseudo-Label-Datensatzes zu trainieren; und das neuronale Lehrernetzwerk durch das neuronale Schülernetzwerk zu ersetzen.