DE102020201400A1

DE102020201400A1 - Generieren von akustischen Trainingsdaten

Info

Publication number: DE102020201400A1
Application number: DE102020201400.0A
Authority: DE
Inventors: Michael Hertkorn
Original assignee: ZF Friedrichshafen AG
Current assignee: ZF Friedrichshafen AG
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2021-08-05

Abstract

Trainingsverfahren für ein künstliches neuronales Netzwerk mit den folgenden Schritten: Vorgeben eines Zielgeräuschs, indem eine einzige Aufnahme des Zielgeräuschs bereitgestellt wird, wobei die Aufnahme frei von Umgebungsgeräuschen ist; Generieren von wenigstens einer Variante der Aufnahme des Zielgeräuschs, indem die Aufnahme aufgrund von zu erwartenden Umgebungseffekten verändert wird; Trainieren des künstlichen neuronalen Netzwerks mit der Aufnahme und der Variante der Aufnahme.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Trainingsverfahren für ein künstliches neuronales Netzwerk.
ZUSAMMENFASSUNG DER ERFINDUNG
Demgemäß ist vorgesehen:

- ein Trainingsverfahren für ein künstliches neuronales Netzwerk mit den folgenden Schritten: Vorgeben eines Zielgeräuschs, indem eine einzige Aufnahme des Zielgeräuschs bereitgestellt wird, wobei die Aufnahme frei von Umgebungsgeräuschen ist; Generieren von wenigstens einer Variante der Aufnahme des Zielgeräuschs, indem die Aufnahme aufgrund von zu erwartenden Umgebungseffekten verändert wird; Trainieren des künstlichen neuronalen Netzwerks mit der Aufnahme und der Variante der Aufnahme.

Fahrzeuge sind Land-, Wasser-, oder Luftfahrzeuge mit oder ohne Antrieb.
Ein Mikrofon oder Mikrophon ist ein Schallwandler, der Luftschall als Schallwechseldruckschwingungen in entsprechende elektrische Spannungsänderungen als Mikrofonsignal umwandelt.
Geräusch ist ein Sammelbegriff für alle Hörempfindungen, auch für Töne, Klänge, Tongemische, Zusammenklänge oder Klanggemische. Periodische oder nicht periodische Schwingungsvorgänge sind ursächlich für Geräusche. Fahrzeugumgebungsgeräusche sind in der Umgebung eines Fahrzeugs erfassbar.
Umgebungsgeräusche aus dem Straßenverkehr sind sämtliche Geräusche, die in der Nähe einer Verkehrsstraße hörbar sind. Dementsprechend sind beispielsweise Motorengeräusche, die von Fahrzeugen, die eine Straße befahren, emittiert werden, Umgebungsgeräusche. Hierunter fallen jedoch auch Geräusche von anderen Verkehrsteilnehmern, wie Fußgänger oder Fahrradfahrer, die sich in unmittelbarer Nähe zu der Straße befinden. Hierunter fallen auch Geräusche, die von Tieren emittiert werden, beispielsweise das Bellen eines Hundes.
Ferner sind auch Geräusche durch Baustellen oder Grünpflegearbeiten Umgebungsgeräusche aus dem Straßenverkehr.
Ein künstliches neuronales Netzwerk (KNN, englisch artificial neural network - ANN) ist insbesondere ein in einem Rechenprogramm nachgebildetes Netzwerk aus vernetzten künstlichen Neuronen. Die künstlichen Neuronen sind dabei typischerweise auf verschiedenen Schichten (layers) angeordnet. Üblicherweise umfasst das künstliche neuronale Netzwerk eine Eingangsschicht und eine Ausgabeschicht (output layer), deren Neuronenausgabe als einzige des künstlichen neuronalen Netzwerks sichtbar wird. Zwischen der Eingangsschicht und der Ausgabeschicht liegende Schichten werden typischerweise als verdeckte Schichten (hidden layer) bezeichnet. Typischerweise wird zunächst eine Architektur bzw. Topologie eines künstlichen neuronalen Netzwerks initiiert und dann in einer Trainingsphase für eine spezielle Aufgabe oder für mehrere Aufgaben in einer Trainingsphase trainiert.
Der Begriff „Topologie eines KNN“ umfasst sämtliche Aspekte bezüglich des Aufbaus eines KNN. Hierunter fallen beispielsweise die Anzahl der Neuronen des KNN, die Aufteilung der Neuronen auf die einzelnen Schichten des KNN, die Anzahl der Schichten eines KNN, die Vernetzung der Neuronen und die Gewichtung der Vernetzung.
Das Training des künstlichen neuronalen Netzwerks umfasst dabei typischerweise eine Veränderung eines Gewichts einer Verbindung zwischen zwei künstlichen Neuronen des künstlichen neuronalen Netzwerks. Das Gewicht enthält Information zur Stärke der Berücksichtigung eines Eingangs eines Neurons. Das Training des künstlichen neuronalen Netzwerks kann auch eine Entwicklung von neuen Verbindungen zwischen künstlichen Neuronen, ein Löschen von bestehenden Verbindungen zwischen künstlichen Neuronen, ein Anpassen von Schwellwerten der künstlichen Neuronen und/oder ein Hinzufügen oder ein Löschen von künstlichen Neuronen umfassen.
Ein Beispiel für ein künstliches neuronales Netzwerk ist ein flaches künstliches neuronales Netzwerkwerk (shallow neural network), welches oft nur eine einzelne verdeckte Schicht zwischen der Eingabeschicht und der Ausgabeschicht enthält und damit relativ einfach zu trainieren ist. Ein weiteres Beispiel ist ein tiefes künstliches neuronales Netzwerkwerk (deep neural network), welches zwischen der Eingangsschicht und der Ausgabeschicht mehrere verschachtelte verdeckte Schichten von künstlichen Neuronen enthält. Das tiefe künstliche neuronale Netzwerk ermöglicht dabei eine verbesserte Erkennung von Mustern und komplexen Zusammenhängen Beispielsweise kann das künstliche neuronale Netzwerk ein ein- bzw. mehrschichtiges feedforward-Netzwerk oder eine rekurrentes Netzwerk sein. Feedforward-Netzwerke weisen Neuronen auf, die ausschließlich vorwärtsgespeist werden, d.h. ein Neuron wird ausschließlich von höher liegenden Schichten gespeist.
Ein rekurrentes Netzwerk weist bidirektional verbundene Neuronen auf, d.h. ein Neuron wird zudem von tiefer liegenden Schichten gespeist. Somit lässt sich bei einem späteren Durchlauf des KNN Information aus eine früheren Durchlauf berücksichtigen, wodurch ein Erinnerungsvermögen geschaffen wird.
Ein Trainingssystem ist eine Recheneinheit, auf welcher ein KNN trainiert wird.
Trainingsdaten sind in dieser Anmeldung Datenpaare aus Eingangsdaten (akustische Daten), die von dem KNN zu verarbeiten sind, sowie Soll-Ergebnisdaten, etwa eine Reaktion auf ein Geräusch oder eine Entscheidung, ob ein Zielgeräusch in Eingangsdaten enthalten ist, die von dem KNN zu ermitteln sind. Während des Trainings wird das KNN aufgrund eines Vergleichs von Soll-Ergebnisdaten mit dem von dem KNN ermittelten Ist-Ergebnisdaten angepasst, wodurch sich ein Trainingseffekt einstellt. Ein Trainingsdatensatz kann mehrere Datenpaare aus Eingangs- und Ausgangsdaten enthalten.
Ein Egofahrzeug ist ein Fahrzeug, welches Mikrofondaten erfasst und auswertet.
Die Eingangsdaten, mit welchen das KNN in dieser Anmeldung gespeist wird, sind akustische Daten, die das Zielgeräusch enthalten.
Das Zielgeräusch ist ein von einem trainierten KNN zu identifizierendes Geräusch und kann beispielsweise ein akustisches Warnsignal oder ein charakteristisches Maschinengeräusch, welches einen Defekt oder eine Verschleißerscheinung anzeigt, sein. Das Zielgeräusch kann jedoch auch ein zu identifizierendes Umgebungsgeräusch sein, wenn das Umgebungsgeräusch durch bestimmte Charakteristika erkannt werden kann.
Ein Echo entsteht, wenn Reflexionen einer Schallwelle so stark verzögert sind, dass man diesen Schall als separates Ereignis erfassen kann. Ein einzelnes separat erfasstes Echo hat eine geringere Tonstärke als die des Originals.
Der Doppler-Effekt ist die zeitliche Stauchung bzw. Dehnung eines Signals bei Veränderungen des Abstands zwischen Sender und Empfänger während der Dauer des Signals. Ursache ist die Veränderung der Laufzeit. Dieser rein kinematische Effekt tritt bei allen Signalen auf, die sich mit einer bestimmten Geschwindigkeit, meist Lichtgeschwindigkeit oder Schallgeschwindigkeit, ausbreiten. Breitet sich das Signal in einem Medium aus, so ist dessen Bewegungszustand zu berücksichtigen. Bei periodischen Signalen erhöht bzw. vermindert sich die beobachtete Frequenz. Das betrifft sowohl Tonhöhen als auch Modulationsfrequenzen, z. B. den Wechsel der Töne eines Martinhorns. Bei geringen Geschwindigkeiten im Verhältnis zur Ausbreitungsgeschwindigkeit gibt dieses Verhältnis zugleich die relative Frequenzänderung Δf an.
Unter Schalldämpfung wird eine Behinderung der Schallausbreitung durch Absorption von Luftschall verstanden. Bei dieser Schallabsorption wird die Schallenergie in nicht hörbare Wellen von Schwingungsenergie umgewandelt und dementsprechend die Reflexion an einer Grenzfläche vermindert. Die Fähigkeit von Luft Schallwellen zu dämpfen, beschreibt man mit Dissipationseigenschaften.
Datenbeschreibungen oder im Fachjargon auch mit Labels bezeichnet, sind eine Beschreibung von Trainingsdaten zu in den Trainingsdaten enthaltenen Merkmalen. Beispielsweise kann bestimmten Anteilen eines Geräuschs oder Anteilen einer Aufnahme in einem Label eine Ursache zugeordnet werden.
Gelabelte Daten oder Daten, die mit Informationen versehen sind, sind Datensätze, die mit einer oder mehreren Informationen versehen wurden. Dabei wird normalerweise ein Satz nicht gelabelter Daten verwendet, der mit aussagekräftigen Information ergänzt wird. Zum Beispiel können Labels angeben, ob ein Foto ein Pferd oder eine Kuh enthält, welche Wörter in einer Audioaufzeichnung gesprochen wurden, welche Art von Aktion in einem Video ausgeführt wird, welches Thema ein Nachrichtenartikel hat und wie die allgemeine Stimmung ist, etc.
Labels werden oft durch Menschen generiert, z.B. indem Menschen über ein bestimmtes Stück unbeschrifteter Daten urteilen (z. B. „Enthält dieses Foto ein Pferd oder eine Kuh?“). Folglich sind gelabelte Daten erheblich teurer als unbeschriftete Rohdaten.
Labels können von einem menschlichen Bearbeiter oder automatisiert gesetzt werden. Automatisierte Labels lassen sich setzen, indem die Labels beispielsweise von einem weiteren hierfür trainierten KNN gesetzt werden oder indem auf gelabelte Datensätze zurückgegriffen wird und der gelabelte Datensatz mit Trainingsdaten kombiniert wird. Beispielsweise ist es denkbar, ein Zielgeräusch mit verschiedenen Wettergeräuschen, wie Regengeräusche oder Windböengeräusche, zu kombinieren.
Akustische Warnsignale sind beispielsweise ein Martinshornsignal, ein Yelp-Signal, das Pfeifen eines Zuges, Warntöne an Bahnübergängen und dergleichen.
Als Martinshorn wird generell eine akustische Einrichtung an Fahrzeugen bezeichnet, die nacheinander mehrere Signaltöne verschiedener Grundfrequenzen abgibt.
Es wird eine bestimmte Tonfolge erzeugt, die andere Verkehrsteilnehmer warnt und dazu veranlassen soll, dem Einsatzfahrzeug freie Bahn zu gewähren. Bei Einsatzfahrten mit Martinshorn wird dieses in den meisten Staaten stets mit Blaulicht kombiniert.
Die grundlegende Idee der Erfindung ist es, ein künstliches neuronales Netzwerk mit der Aufnahme eines Zielgeräuschs zu trainieren, wobei die Aufnahme ausschließlich das Zielgeräusch ohne weitere akustische Störeinflüsse aufzeichnet.
Während des Trainings ist zudem vorgesehen, das künstliche neuronale Netzwerk mit weiteren, veränderten Aufnahmen des Zielgeräuschs zu trainieren.
Künstliche neuronale Netzwerke lassen sich trainieren, indem typischerweise eine in einem Verhältnis zu dem in dem Netzwerk anpassbaren Parametern, also dessen Topologie, eine entsprechend größere Anzahl an Datenpunkten in einem Trainingsdatensatz vorgegeben wird. Somit kann erreicht werden, dass ein künstliches neuronales Netzwerk eine gewünschte Vorhersage trifft und keine Überbestimmtheit (englisch „overfitting“) des neuronalen Netzwerks erfolgt, sondern Trainingsdaten lediglich „auswendig gelernt“ werden und keine Verallgemeinerung bezüglich des Problems stattfindet. Diese Problematik betrifft vor allem tiefe neuronale Netzwerke (DNN).
Bei einer akustischen Ereigniserkennung sind zahlreiche Zielgeräusche von dem neuronalen Netzwerk zu erlernen, die häufig sehr ähnlich sind bzw. identische Charakteristika aufweisen. Derartige Geräusche können beispielsweise technischer Natur und/oder umgebungsbedingt sein. Geräusche, die sich einem bestimmten Ereignis zuordnen lassen, werden in der Regel von physikalischen Effekten, beispielsweise einer Dämpfung in einem Ausbreitungsmedium, zum Beispiel Luft, einer Superposition mit Störgeräuschen oder dem Dopplereffekt verändert bzw. gestört.
Die Erfindung sieht vor, ein künstliches neuronales Netzwerk mit einer einzigen Aufnahme eines Zielgeräuschs zu trainieren. Dieses Zielgeräusch muss ohne weitere Einflüsse aufgezeichnet sein.
Sofern in dieser Patentanmeldung die Formulierung „einzige Aufnahme“ verwendet wird, ist hierunter zu verstehen, dass ein Zielgeräusch ein einziges Mal aufgezeichnet wird, wobei die einzige Aufnahme mit computergestützten, technischen Mitteln weiter verändert werden kann, derart dass das neuronale Netzwerk zudem mit mehreren Varianten der einzigen Aufnahme trainiert wird.
Hiervon ist zu unterscheiden, dass ein einziges Zielgeräusch in verschiedenen akustischen Umgebungen mehrfach aufgenommen wird und das künstliche neuronale Netzwerk mit mehreren Aufnahmen eines einzigen Zielgeräuschs trainiert wird.
Somit lassen sich die Varianten der einzigen Aufnahme automatisiert generieren und bestimmte Charakteristika, die sich aufgrund von physikalischen Umgebungseffekten einstellen, präzise einstellen.
Dies vereinfacht und verbessert das Labeling der Trainingsdaten.
Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den weiteren Unteransprüchen sowie aus der Beschreibung unter Bezugnahme auf die Figuren der Zeichnung.
Gemäß einer bevorzugten Weiterbildung der Erfindung beinhalten die Umgebungseffekte Umgebungsgeräusche und die Aufnahme wird verändert, indem das Zielgeräusch mit Umgebungsgeräuschen kombiniert bzw. überlagert wird.
Dabei ist es auch zweckmäßig, wenn die Umgebungsgeräusche aus Reifenabrollgeräuschen, Windgeräuschen, Niederschlagsgeräuschen, Tierlauten, Arbeitsgeräuschen aufgrund von Bauarbeiten und/oder Grünpflegearbeiten und/oder der gleichen resultieren.
Somit ist es möglich, ein bestimmtes Zielgeräusch in einer Vielzahl von verschiedenen Simulationsumgebungen zu simulieren. Entsprechende Umgebungsgeräusche können beispielsweise aus einer bestehenden Datenbank bereitgestellt werden, ohne dass diese im Vorfeld aufgezeichnet werden müssen.
Vorteilhaft hieran ist auch, dass bereits existierende Umgebungsgeräusche in der Regel mit einer Datenbeschreibung versehen sein dürften, sodass für die Datenbeschreibung der Variante der Aufnahme auf die Datenbeschreibung der Umgebungsgeräusche zurückgegriffen werden kann.
Somit ist es nicht länger erforderlich, eine Vielzahl von typischen Umgebungsgeräuschen einer Zielumgebung aufzuzeichnen bzw. das Zielgeräusch unter entsprechenden Umgebungsbedingungen abzuspielen und die abgespielten Aufnahmen zusammen mit den Umgebungsgeräuschen aufzuzeichnen. Dementsprechend kann der Aufzeichnungsaufwand für das Generieren von Trainingsdaten verringert werden.
Gemäß einer bevorzugten Weiterbildung der Erfindung sind Umgebungseffekte solche Effekte, die eine Ausbreitung von Schallwellen beeinflussen.
Dementsprechend können die Umgebungseffekte beispielsweise als Dämpfungseffekte, Echoeffekte, Dopplereffekte oder als verschiedene Dissipationseigenschaften der Luft und/oder dergleichen ausgebildet sein.
Somit ist es möglich, die Aufnahme aufgrund von verschiedenen zu erwartenden, beispielsweise wetterabhängigen, Wellenausbreitungseigenschaften von Luft oder aufgrund von zu erwartenden Reflexionen an Oberflächen, wie beispielsweise anderen Fahrzeugen, Straßen, Gebäuden und/oder natürlichen Strukturen, zu verändern. Dementsprechend lässt sich beispielsweise das Auftreten eines Dopplereffektes oder verschiedene luftfeuchtigkeits-, und temperaturabhängige Dissipationseigenschaften von Luft in einem Trainingsdatensatz simulieren.
Gemäß einer bevorzugten Weiterbildung der Erfindung wird ein Trainingsdatensatz generiert, der die Aufnahme sowie eine Vielzahl an Varianten der Aufnahme, aufweist, wobei die Umgebungseffekte in einem automatisierten Datenbeschreibungsverfahren derart beschrieben werden, dass die Beschreibung für das künstliche neuronale Netzwerk interpretierbar ist. Im Fachjargon wird die Datenbeschreibung auch als Labeling bezeichnet. Das Labeling der Daten kann somit automatisiert werden und menschlicher Bearbeitungsaufwand zum Beschreiben der Daten lässt sich verringern.
Es versteht sich, dass zusätzlich auch vorgesehen sein kann, das KNN mittels Aufnahmen, die kein Zielgeräusch enthalten zu trainieren. Somit lässt sich die Unterscheidungsfähigkeit zwischen Zielgeräusch (nicht) vorhanden des KNNs weiter verbessern.
Es versteht sich, dass es vorteilhaft ist, dass Verfahren wie es vorstehend beschrieben wurde, mit computergestützten Mitteln in Form eines Computer Programmproduktes durchzuführen.
Figurenliste
Die vorliegende Erfindung wird nachfolgend anhand der in den schematischen Figuren der Zeichnungen angegebenen Ausführungsbeispiele näher erläutert. Es zeigen dabei:

1 ein schematisches Blockdiagramm einer Ausführungsform der Erfindung.

Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung. Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
In den Figuren der Zeichnungen sind gleiche, funktionsgleiche und gleichwirkende Elemente, Merkmale und Komponenten - sofern nicht anders ausgeführt ist - jeweils mit denselben Bezugszeichen versehen.
BESCHREIBUNG VON AUSFÜHRUNGSBEISPIELEN
1 zeigt ein schematisches Blockdiagramm eines Verfahrens zum Trainieren eines künstlichen neuronalen Netzwerks. In dem Schritt S1 wird ein Zielgeräusch vorgegeben, indem eine einzige Aufnahme des Zielgeräuschs bereitgestellt wird, wobei die Aufnahme frei von Umgebungsgeräuschen ist. In dem Schritt S2 wird wenigstens eine Variante der Aufnahme des Zielgeräuschs generiert, indem die Aufnahme aufgrund von zu erwartenden Umgebungseffekten verändert wird. In dem Schritt S3 wird das künstliche neuronale Netzwerk mit einer Aufnahme und der Variante der Aufnahme trainiert.
Bezugszeichenliste

S1-S3: Verfahrensschritte

Claims

Trainingsverfahren für ein künstliches neuronales Netzwerk mit den folgenden Schritten: - Vorgeben (S1) eines Zielgeräuschs, indem eine einzige Aufnahme des Zielgeräuschs bereitgestellt wird, wobei die Aufnahme frei von Umgebungsgeräuschen ist; - Generieren (S2) von wenigstens einer Variante der Aufnahme des Zielgeräuschs, indem die Aufnahme aufgrund von zu erwartenden Umgebungseffekten verändert wird; - Trainieren des künstlichen neuronalen Netzwerks mit der Aufnahme und der Variante der Aufnahme.
Trainingsverfahren für ein künstliches neuronales Netzwerk nach Anspruch 1, wobei die Umgebungseffekte Umgebungsgeräusche beinhalten und die Aufnahme verändert wird, indem das Zielgeräusch mit Umgebungsgeräuschen kombiniert wird.
Trainingsverfahren für ein künstliches neuronales Netzwerk nach einem der vorstehenden Ansprüche, wobei die Umgebungsgeräusche aus Reifenabrollgeräuschen, Windgeräuschen, Niederschlagsgeräuschen, Tierlauten, Arbeitsgeräuschen aufgrund von Bauarbeiten und/oder Grünpflegearbeiten und/oder dergleichen resultieren.
Trainingsverfahren für ein künstliches neuronales Netzwerk nach einem der vorstehenden Ansprüche, wobei die Umgebungseffekte eine Ausbreitung von Schallwellen beeinflussen.
Trainingsverfahren für ein künstliches neuronales Netzwerk nach Anspruch 4, wobei die Umgebungseffekte als Dämpfungseffekte, Echoeffekte, Dopplereffekte, verschiedene Dissipationseigenschaften der Luft und/oder dergleichen ausgebildet sind.
Trainingsverfahren zum Trainieren eines künstlichen neuronalen Netzwerks nach einem der vorstehenden Ansprüche, wobei ein Trainingsdatensatz generiert wird, der die Aufnahme sowie eine Vielzahl an Varianten der Aufnahme aufweist, wobei die Umgebungseffekte in einem automatisierten Datenbeschreibungsverfahren derart beschrieben werden, dass die Beschreibung für das künstliche neuronale Netzwerk interpretierbar ist.
Computerprogrammprodukt, das ausgeführt ist, in einen Speicher eines Computers geladen zu werden und das Softwarecodeabschnitte umfasst, mit denen die Schritte des Verfahrens nach einem der vorstehenden Ansprüche 1-6 ausgeführt werden, wenn das Computerprogrammprodukt auf dem Computer läuft.