-
Die Erfindung betrifft ein Verfahren zum Ansteuern eines Aktors, ein Computerprogramm das Anweisungen umfasst, welche eingerichtet sind, das Verfahren auszuführen, wenn es auf einem Computer ausgeführt wird, ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gespeichert ist und ein Aktorsteuerungssystem, das eingerichtet ist, dieses Verfahren auszuführen.
-
Stand der Technik
-
Aus der nicht vorveröffentlichten
DE 10 2017 218 773 ist ein Verfahren zum Ansteuern eines Aktors bekannt, wobei mittels eines maschinellen Lernsystems ein Objekt detektiert wird, wobei eine Eingangsgröße des maschinellen Lernsystems eine Mehrzahl paralleler Informationskanäle, insbesondere Farbkanäle, umfasst, wobei abhängig von der Mehrzahl paralleler Informationskanäle eine permutationsinvariante Größe ermittelt wird, wobei die Detektion dann abhängig von dieser permutationsinvarianten Größe erfolgt und wobei die Ansteuerung des Aktors abhängig vom Ergebnis der Objektdetektion erfolgt.
-
Maschinelle Lernverfahren zum Detektieren von Objekten können irrelevante Statistiken der Trainingsdaten lernen, die dann zu Fehlklassifikationen und somit zu einer Fehldetektion führen können. Wird beispielsweise eine Funktion angelernt, die Freiflächen erkennen soll (beispielsweise, um ein autonom fahrendes Kraftfahrzeug darauf zu steuern), können beispielsweise die Farben „weiß“ und „gelb“ mit Freiflächen assoziiert werden, wenn diese beiden Farben durch Fahrbahnmarkierungen im Trainingsdatensatz enthalten sind.
-
Zwar besteht die Möglichkeit, die relative Häufigkeit von Trainingsbildern auszugleichen, indem beispielsweise viele Bilder gelb oder weiß gekleideter Personen dem Trainingsdatensatz hinzugefügt werden. Damit ist allerdings noch immer nicht auszuschließen, dass es zu einer Fehlklassifikation kommt. Bei sicherheitskritischen Systemen, beispielsweise bei autonomen Kraftfahrzeugen, besteht daher die Notwendigkeit, nachzuweisen, dass es nicht zu derartigen Fehlklassifikationen kommen kann.
-
Vorteil der Erfindung
-
Das Verfahren mit den Merkmalen des unabhängigen Anspruch 1 hat demgegenüber dem Vorteil, dass es auf unabhängigen Informationskanälen beruht und damit eine nachweisbar zuverlässige Ansteuerung eines Aktors ermöglicht.
-
Vorteilhafte Weiterbildungen sind Gegenstand der unabhängigen Ansprüche.
-
Offenbarung der Erfindung
-
In einem ersten Aspekt betrifft die Erfindung daher in Verfahren zum Detektieren eines Objekts in einem bereitgestellten Eingangssignal insbesondere mittels eines maschinellen Lernsystems, wobei abhängig von dem bereitgestellten Eingangssignal ein Objekt detektiert wird und wobei die Ansteuerung des Aktors abhängig von der Detektion des Objekts erfolgt, wobei abhängig von dem bereitgestellten Sensorsignal mittels Filteroperationen, insbesondere mittels Konvolutionsfiltern, eine Mehrzahl von Merkmalskarten ermittelt werden, und wobei dann eine zusammengeführte Merkmalskarte aus der Mehrzahl von Merkmalskarten dadurch ermittelt wird, dass die zusammengeführte Merkmalskarte in vorgebbaren Bereichen, insbesondere pixelweise, abhängig von den Merkmalskarte derart gewählt wird, dass sie in dem jeweiligen vorgebbaren Bereich durch eine zumindest teilweise Sortierung der Merkmalskarten und Auswahl einer vorgebbaren Anzahl der am stärksten ausgeprägten Merkmalskarten als parallele Informationskanäle der zusammengeführten Merkmalskarte erfolgt, wobei die Detektion des Objekts abhängig von der zusammengeführten Merkmalskarte erfolgt, wobei parallel zu der zusammengeführten Merkmalskarte eine Indexkarte ermittelt wird, die beispielsweise eine gleiche Anzahl paralleler Informationskanäle aufweist wie die Merkmalskarte, wobei die Werte der Indexkarte in dem jeweiligen vorgebbaren Bereich charakterisieren, welche der jeweiligen Merkmalskarten in den jeweiligen Informationskanal der Merkmalskarte eingegangen sind, wobei die Detektion des Objekts abhängig von der zusammengeführten Merkmalskarte und der Indexkarte erfolgt.
-
Beispielsweise ist es möglich, dass der Größe nach nur die vorgebbare Anzahl der Merkmalskarten sortiert und ausgewählt werden, z.B. nur eine einzige. In diesem Fall entspricht die zumindest teilweise Sortierung und Auswahl einer Maximalwertauswahl. Alternativ ist beispielsweise auch möglich, dass die stärksten zwei oder drei etc. Merkmalskarten ausgewählt werden.
-
D.h. die Merkmalskarten sind mit einem Index durchnummeriert, wobei vorteilhafterweise keine zwei Merkmalskarten den gleichen Index haben. In der Indexkarte werden die Indexwerte derjenigen Merkmalskarten gespeichert, die in dem jeweiligen vorgebbaren Bereich die jeweils am stärksten ausgeprägten Werte haben. Insbesondere kann vorgesehen sein, dass sich die vorgebbaren Bereiche nicht überlappen und/oder dass die vorgebbaren Bereiche die Merkmalskarten vollständig bedecken.
-
Die so ermittelte Indexkarte und die zusammengeführte Merkmalskarte sind unabhängige Informationsquellen, was einer Redundanz in der Ansteuerung des Aktors gleichkommt. Eine solche Redundanz wird i.d.R. zum Nachweise der Daher ist dieses Verfahren besonders sicher.
-
Hierbei kann in einer besonders einfachen Weiterbildung vorgesehen sein, dass die zusammengeführte Merkmalskarte in den jeweiligen vorgebbaren Bereichen dergestalt abhängig von den Werten der Merkmalskarte mit den am stärksten ausgeprägten Werten gewählt wird, dass in dem jeweiligen vorgebbaren Bereich deren Werte, d.h. die Werte der genannten jeweiligen Merkmalskarte, übernommen werden, beispielsweise mit einer Max-Pooling-Schicht (Englisch: max pooling layer).
-
In einem weiteren Aspekt kann vorgesehen sein, dass das Sensorsignal eine Mehrzahl paralleler Informationskanäle, insbesondere Farbkanäle, umfasst, und die Filteroperationen zur Ermittlung der Mehrzahl von Merkmalskarten mittels einer vorgebbaren Transformation in dem von diesen Informationskanälen aufgespannten Farbraum ermittelt werden.
-
Hiermit lassen sich insbesondere fehlerhafte Objektklassifikationen vermeiden, wenn die Objekterkennung mittels eines zu trainierenden maschinellen Lernsystems, insbesondere mittels eines künstlichen neuronalen Netzes, durchgeführt wird.
-
Die vorgebbare Transformation kann dabei eine Rotation im Farbraum oder eine Helligkeitstransformation insbesondere eine Aufhellung bzw. eine Abdunkelung (d.h. eine gleichwirkende Verstärkung bzw. Abschwächung der Gewichte des Filters), sein.
-
Es wird also durch diese Transformationen eine Mehrzahl von Filtern erzeugt, wobei mittels eines jeden dieser Mehrzahl von Filtern jeweils eine der Mehrzahl von Merkmalskarten erzeugt wird.
-
Vorteilhafterweise ist nun vorgesehen, dass diese Filteroperationen durch unterschiedlich häufige multiple, insbesondere unmittelbar aufeinanderfolgende, Anwendung der Transformationen im Farbraum ermittelt werden.
-
Ferner kann zusätzlich vorgesehen sein, dass die Filteroperationen auch mittels einer räumlichen, insbesondere orthogonalen, Transformation, also einer Drehung und/oder einer Spiegelung, ermittelt werden. Diese Drehung bzw. Spiegelung wirkt dabei in den räumlichen Dimensionen, also beispielsweise auf den Koordinaten von Pixeln.
-
Es kann dann vorgesehen sein, dass abhängig von der zusammengeführten Merkmalskarte und unabhängig von der Indexkarte eine erste Teilentscheidung ermittelt wird, ob das Objekt vorliegt, oder nicht. Abhängig von der ersten Teilentscheidung kann dann entschieden werden, ob das Objekt vorliegt, oder nicht.
-
Ebenso kann abhängig von der Indexkarte und unabhängig von der zusammengeführten Merkmalskarte eine zweite Teilentscheidung ermittelt wird, ob das Objekt vorliegt, oder nicht. Abhängig von der zweiten Teilentscheidung kann dann entschieden werden, ob das Objekt vorliegt, oder nicht. Die zweite Teilentscheidung ist dann unabhängig von der ersten Teilentscheidung ermittelt worden.
-
Die Redundanz dieser zwei Informationskanäle kann dann am besten ausgenutzt werden, wenn abhängig von der ersten und zweiten Teilentscheidung entschieden wird, ob das Objekt vorliegt, oder nicht, beispielsweise, indem dann, insbesondere nur dann, darauf entschieden wird, dass das Objekt vorliegt, wenn sowohl die erste Teilentscheidung als auch die zweite Teilentscheidung darauf lautet, dass das Objekt vorliegt.
-
Es kann nun sein, dass bei einem der vorgenannten Verfahren neuronale Netze zum Einsatz kommen. Insbesondere kann vorgesehen sein, dass ein erstes neuronales Netz darauf trainiert wurde, mittels der zusammengeführten Merkmalskarte und unabhängig von der Indexkarte zu entscheiden, ob das Objekt vorliegt, oder nicht, wobei das erste neuronale Netz eine erste Mehrzahl von Schichten umfasst und abhängig von Werten, die an Ausgängen der vorletzten Schicht dieser ersten Mehrzahl an Schichten anliegen, entschieden wird, ob das Objekt vorliegt, oder nicht. D.h. die vorletzte Schicht hat Ausgänge, die von der letzten Schicht beispielsweise zu den Klassen „Objekt erkannt“ bzw. „Objekt nicht erkannt“, also insbesondere zu der ersten Teilentscheidung, verschaltet werden. Diese Ausgänge werden in dieser Ausführungsform der Erfindung abgegriffen.
-
In einer Weiterbildung kann vorgesehen sein, dass ein zweites neuronales Netz darauf trainiert wurde, mittels der Indexkarte und unabhängig von der zusammengeführten Merkmalskarte zu entscheiden, ob das Objekt vorliegt, oder nicht, wobei das zweiten neuronale Netz eine zweite Mehrzahl von Schichten umfasst und abhängig von Werten, die an Ausgängen der vorletzten Schicht dieser zweiten Mehrzahl an Schichten anliegen, entschieden wird, ob das Objekt vorliegt, oder nicht. D.h. auch hier hat die vorletzte Schicht Ausgänge, die von der letzten Schicht beispielsweise zu den Klassen „Objekt erkannt“ bzw. „Objekt nicht erkannt“, also insbesondere zu der zweiten Teilentscheidung, verschaltet werden. Diese Ausgänge werden hier abgegriffen.
-
Diese Verfahren des Abgreifens von Ausgängen vor der letzten Schicht hat den Vorteil, dass eine Ungleichheit des Grads, zu dem jeder der beiden Teilentscheidungen vertraut werden kann, besser kompensiert werden kann. Dies steigert die Zuverlässigkeit.
-
In einem weiteren Aspekt der Erfindung kann vorgesehen sein, dass ein Aktor abhängig von der Detektion des Objekts angesteuert wird. Insbesondere kann der Aktor ein wenigstens teilautonomer Roboter, insbesondere ein wenigstens teilautonomes Kraftfahrzeug, ist.
-
Besonders vorteilhaft ist es, wenn die Eingangsgröße abhängig von einem Ausgangssignal eines Videosensors ermittelt wird, da dieser typischerweise parallel drei Farbkanäle aufweist und sich somit besonders natürlich für die Erfindung eignet. Die Erfindung ist aber auch auf andere Kanäle (beispielsweise separat erfasste Polarisationsrichtungen eines optischen Signals) und/oder andere Sensoren wie einen Radarsensor, einen Ultraschallsensor oder einen Positionssensor anwendbar, sofern dieser Sensor die Mehrzahl paralleler Informationskanäle aufweist.
-
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:
- 1 schematisch einen Aufbau einer Ausführungsform der Erfindung;
- 2 schematisch ein Informationsfluss in einem maschinellen Lernsystem gemäß einem ersten Aspekt der Erfindung;
- 3 schematisch den Aufbau eines Filters;
- 4 schematisch eine Konstruktion einer ersten Familie von Filtern;
- 5 schematisch eine Konstruktion einer zweiten Familie von Filtern;
- 6 schematisch eine Konstruktion einer dritten Familie von Filtern;
- 7 schematisch ein Informationsfluss im maschinellen Lernsystem gemäß einem zweiten Aspekt der Erfindung;
- 8 ein Flussdiagramm zu einem möglichen Trainingsverfahren des maschinellen Lernsystems.
-
Beschreibung der Ausführungsbeispiele
-
1 zeigt einen Aktor 10 in seiner Umgebung 20 in Interaktion mit einem Aktorsteuerungssystem 40. Aktor 10 und Umgebung 20 werden gemeinschaftlich nachfolgend auch als Aktorsystem bezeichnet. In regelmäßigen zeitlichen Abständen wird ein Zustand des Aktorsystems mit einem Sensor 30 erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann. Je ein Sensorsignal S des Sensors 30 wird an das Aktorsteuerungssystem 40 übermittelt. Das Aktorsteuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Aktorsteuerungssystem 40 ermittelt hieraus eine Folge von Ansteuersignalen A, welches der Aktor 10 empfängt.
-
Bei dem Aktor 10 kann es sich beispielsweise um einen (teil-)autonomen Roboter, beispielsweise ein (teil-)autonomes Kraftfahrzeug handeln. Bei dem Sensor 30 kann es sich beispielsweise um einen oder mehrere Videosensoren und/oder einen oder mehrere Radarsensoren und/oder einen oder mehrere Ultraschallsensoren und/oder einen oder mehrere Positionssensoren (beispielsweise GPS) handeln. Alternativ oder zusätzlich kann der Sensor 30 auch ein Informationssystem umfassen, das eine Information über einen Zustand des Aktorsystems ermittelt, wie beispielsweise ein Wetterinformationssystem, das einen aktuellen oder zukünftigen Zustand des Wetters in der Umgebung 20 ermittelt.
-
In einem anderen Ausführungsbeispiel kann es sich bei dem Aktor 10 um einen Fertigungsroboter handeln, und bei dem Sensor 30 dann beispielsweise um einen optischen Sensor handeln, der Eigenschaften von Fertigungserzeugnissen des Fertigungsroboters erfasst.
-
In einem weiteren Ausführungsbeispiel kann es sich bei dem Aktor 10 um ein Freigabesystem handeln, welches eingerichtet ist, die Aktivität eines Geräts freizugeben oder nicht. Bei dem Sensor 30 kann es sich beispielsweise um einen optischen Sensor (beispielsweise zur Erfassung von Bild- oder Videodaten) handeln, der eingerichtet ist, ein Gesicht zu erfassen. Der Aktor 10 ermittelt abhängig von der Folge von Ansteuersignalen A ein Freigabesignal, das benutzt werden kann, um abhängig vom Wert des Freigabesignals das Gerät freizugeben. Bei dem Gerät kann es sich beispielsweise um eine physische oder logische Zugangskontrolle handeln. Abhängig vom Wert des Ansteuersignals A kann die Zugangskontrolle dann vorsehen, dass Zugang gewährt wird, oder nicht.
-
Das Aktorsteuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors in einer optionalen Empfangseinheit 50, die die Folge von Sensorsignalen S in eine Folge von Eingangssignalen x umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Eingangssignal x übernommen werden). Das Eingangssignal x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangssignal x wird einem maschinellen Lernsystem 60, beispielsweise einem neuronalen Netzwerk, zugeführt.
-
Das erste maschinelle Lernsystem 60 ermittelt aus den Eingangssignalen x Ausgangssignale y. Die Ausgangssignale y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktor 10 zugeführt werden.
-
In weiteren Ausführungsformen umfasst das Aktorsteuerungssystem 1 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Aktorsteuerungssystem 40 alternativ oder zusätzlich auch den Aktor 10.
-
Anstelle des Aktorsteuerungssystems 40 kann alternativ auch ein Messsystem 41 vorgesehen sein. In diesem Fall entfällt gegenüber dem Aktorsteuerungssystem 40 die Ansteuerung des Aktors 10. Die restlichen Teile des Aktorsteuerungssystems 40 können unverändert auch im Messsystem 41 vorhanden sein.
-
In weiteren bevorzugten Ausführungsformen umfasst das Aktorsteuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenlesbares Speichermedium 46, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Aktorsteuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen.
-
2 zeigt schematisch einen möglichen Informationsfluss im maschinellen Lernsystem 60. Das Eingangssignal x wird einer Familie von Filtern 61, deren Ausgangssignale Merkmalskarten M sind. Diese Merkmalskarten M werden einer Max-Pooling-Schicht 62 zugeführt, die hieraus Werte w auswählt, die zusammen eine zusammengeführte Merkmalskarte MK ergeben. Die Indices derjenigen Merkmalskarten M, deren Werte w die zusammengeführte Merkmalskarte MK ergeben, bilden zusammen eine Indexkarte IK. Die Ermittlung der zusammengeführten Merkmalskarte MK und der Indexkarte IK ist im Zusammenhang mit 7 näher erläutert.
-
Die zusammengeführte Merkmalskarte MK wird einem ersten neuronalen Netz 63 zugeführt, das hieraus eine erste Teilentscheidung e ermittelt, ob in dem Eingangssignal x ein Objekt vorhanden ist, oder nicht. Die Indexkarte IK wird einem zweiten neuronalen Netz 64 zugeführt, das hieraus eine zweite Teilentscheidung f ermittelt, ob im Eingangssignal x ein Objekt vorhanden ist, oder nicht. Anstelle neuronaler Netze können hier selbstverständlich auch andere Algorithmen zum Einsatz kommen.
-
Die erste Teilentscheidung e und die zweite Teilentscheidung f werden einem Block 65 zugeführt. Dieser kann beispielsweise vorsehen, dass nur dann darauf erkannt wird, dass ein Objekt vorhanden ist, wenn sowohl erste Teilentscheidung e als auch zweite Teilentscheidung f anzeigen, das das Objekt vorhanden ist. Der Block y ermittelt abhängig von dieser Entscheidung dann die Ausgangsgröße y.
-
Beispielsweise kann in dem Fall, dass der Aktor 10 durch ein wenigstens teilautonomes Kraftfahrzeug gegeben ist, vorgesehen sein, dass die Ausgangsgröße y derart ausgebildet ist, dass das wenigstens teilautonome Kraftfahrzeug eine Notbremsung einleitet, wenn sowohl erste Teilentscheidung e als auch zweite Teilentscheidung f anzeigen, dass ein Objekt in einem kritischen Bereich vorhanden ist. Auf diese Weise kann besonders wirksam verhindert werden, dass eine potenziell sicherheitskritische Notbremsung irrtümlich unnötig ausgelöst wird. D.h. es wird verhindert, dass das irrtümliche Erkennen des Objekts, das tatsächlich nicht vorhanden ist, zu einer Fehlfunktion führt.
-
Alternativ oder zusätzlich kann vorgesehen sein, dass die Ausgangsgröße y derart ausgebildet ist, dass das wenigstens teilautonome Kraftfahrzeug einen Spurwechsel, beispielsweise zum Durchführen eines Überholvorgangs, nicht durchführt, wenn entweder die erste Teilentscheidung e oder die zweite Teilentscheidung f anzeigt, dass ein Objekt in einem kritischen Bereich vorhanden ist. Auf diese Weise kann besonders wirksam verhindert werden, dass ein potenziell sicherheitskritisches Überholmanöver irrtümlich ausgelöst wird. D.h. es wird verhindert, dass das irrtümliche nicht-Erkennen des Objekts, das tatsächlich vorhanden ist, zu einer Fehlfunktion führt.
-
Alternativ oder zusätzlich ist es auch möglich, dass abhängig von der zusammengeführten Merkmalskarte MK und der Indexkarte IK eine Verfolgung eines beweglichen Objekts durchgeführt wird, beispielsweise, wenn es sich bei dem Eingangssignal x um einen Strom aus Videobildern handelt. Durch die zusätzliche Information der Indexkarte IK wird die Identifikation, dass es sich bei erkannten Objekten in verschiedenen Bildern des Stroms aus Videobildern handelt erleichtert.
-
3 zeigt schematisch den Aufbau eines der Filter 61. Ein Eingangssignal x ist ein Bildsignal und weist drei Farbkanäle auf: Einen roten Farbkanal r, einen grünen Farbkanal g und einen blauen Farbkanal b. Selbstverständlich sind auch andere parallele Informationskanäle denkbar. Ein Bereich B des Bildsignals erstreckt sich auf alle parallelen Informationskanäle gleichzeitig.
-
Das Eingangssignal wird dem Filter
61 zugeführt. Der Filter
61 weist eine Dimension von k × I × 3 Werten auf, wobei die letzte Dimension durch die Zahl paralleler Informationskanäle gegeben ist. Die räumliche Dimension des Filters k × I kann beispielsweise 3 × 3, 11 × 11 oder 3 × 10 sein. Durch eine übliche Faltung des Eingangssignals x mit dem Filter
61 wird dann eine Merkmalskarte
M erzeugt. Die Einträge des Filters
61 zu einem gegebenen Pixel ist also im Beispiel dreidimensional, und lässt sich als homogener Vektor
schreiben. Auf diesen Vektor lässt sich in üblicher Weise eine Rotation
R anwenden.
-
4 zeigt schematisch eine Konstruktion einer ersten Familie von Filtern 61. Die Mitglieder dieser ersten Familie von Filtern werden mit W1 , W2 , ..., Wn bezeichnet. Das jeweils nachfolgende Mitglied, z.B. W2 , wird erzeugt, indem das vorhergehende Mitglied, im Beispiel W1 mittels der Rotation R im Farbraum gedreht wird.
-
5 zeigt schematisch eine Konstruktion einer zweiten Familie von Filtern 61. Die Mitglieder dieser ersten Familie von Filtern werden mit V1 , V2 , ..., Vm bezeichnet. Das erste Mitglied, Vi, wird aus dem ursprünglichen Filter W1 erzeugt, indem dieser einer räumlichen Transformation D unterworfen wird, also einer Spiegelung oder Drehung. Ausgehend von V1 werden die weiteren Mitglieder V2 , ..., Vm analog zu 4 jeweils mittels der Rotation R aus dem unmittelbar vorhergehenden Mitglied erzeugt.
-
6 zeigt schematisch eine Konstruktion einer dritten Familie von Filtern 61. Die Mitglieder dieser ersten Familie von Filtern werden mit U1 , U2 , ..., U0 bezeichnet. Die Konstruktion der Folge von Filtern erfolgt analog zum Ausführungsbeispiel von 5, mit zwei Unterschieden. Zum einen ist die räumliche Transformation D optional. Der Fall, dass sie entfällt, ist durch eine Identitätsoperation K angedeutet. Zum anderen wird die Rotation R ersetzt durch eine Helligkeitstransformation H. Die Helligkeitstransformation H erzeugt aus einem vorhergehenden Mitglied, z.B. U1 , ein nachfolgendes Mitglied, im Beispiel U2 , indem die Werte r, g, b der vektoriellen Darstellung jeweils um z.B. 10% erhöht werden.
-
7 zeigt schematisch ein Informationsfluss im maschinellen Lernsystem 60 gemäß einem zweiten Aspekt der Erfindung. Die Eingangsgröße x wird parallel allen Mitgliedern der ersten Familie von Filtern W, der zweiten Familie von Filtern V und der dritten Familie von Filtern U zugeführt. Aus Gründen der Übersichtlichkeit werden diese Familien in der Figur jeweils nur durch ein einzelnes Mitglied dargestellt. Diese erzeugen aus der Eingangsgröße x jeweils eine Merkmalskarte M1 , M2 , M3 . Aus dieser parallel erzeugten Mehrzahl an Merkmalskarten M1 , M2 , M3 wird pixelweise eine zusammengeführte Merkmalskarte MK erzeugt.
-
Ein jeweiliger Pixel v der zusammengeführten Merkmalskarte MK hat in den Merkmalskarten M1 , M2 , M3 jeweils unterschiedliche Ausprägungen v1 , v2 , v3 . Eine Max-Pooling-Schicht 62 wählt aus diesen Ausprägungen v1 , v2 , v3 eine maximale aus. Die Merkmalskarten M1 , M2 , M3 sind mit einem Index durchnummeriert. Ein Indexwert i der diejenige Merkmalskarte M1 , M2 , M3 , aus der die maximale Ausprägung ausgewählt wurde, bildet in der Indexkarte IK den Eintrag des Pixels v. Anstelle einzelner Pixel kann selbstverständlich jeweils ein größerer Bereich ausgewählt werden. Ebenfalls kann wie beschrieben anstelle einer Max-Pooling-Schicht 62 eine Sortierung der Ausprägungen v1 , v2 , v3 vorgenommen werden und eine vorgebbare Anzahl der stärksten dieser Ausprägungen v1 , v2 , v3 Als parallele Informationskanäle der zusammengeführten Merkmalskarte MK übernommen werden.
-
8 illustriert in einem Flussdiagramm ein mögliches Trainingsverfahren des maschinellen Lernsystems 60. Da die Funktion zur Extraktion des Indexes i nicht differenzierbar ist, muss das maschinelle Lernsystem 60 in spezieller Weise trainiert werden. In einem ersten Schritt 1000 ist daher vorgesehen, dass die Parameter des „Merkmalspfads“ 62-62-63-65 angepasst werden. In einem zweiten Schritt 2000 werden diese Parameter dann fixiert, und nur die Parameter des zweiten neuronalen Netzes 64 angepasst.
-
Es versteht sich, dass das Verfahren nicht nur wie beschrieben vollständig in Software implementiert sein kann. Es kann auch in Hardware implementiert sein, oder in einer Mischform aus Software und Hardware.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-