DE102020201400A1 - Generieren von akustischen Trainingsdaten - Google Patents

Generieren von akustischen Trainingsdaten Download PDF

Info

Publication number
DE102020201400A1
DE102020201400A1 DE102020201400.0A DE102020201400A DE102020201400A1 DE 102020201400 A1 DE102020201400 A1 DE 102020201400A1 DE 102020201400 A DE102020201400 A DE 102020201400A DE 102020201400 A1 DE102020201400 A1 DE 102020201400A1
Authority
DE
Germany
Prior art keywords
recording
neural network
artificial neural
noise
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020201400.0A
Other languages
English (en)
Inventor
Michael Hertkorn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZF Friedrichshafen AG
Original Assignee
ZF Friedrichshafen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZF Friedrichshafen AG filed Critical ZF Friedrichshafen AG
Priority to DE102020201400.0A priority Critical patent/DE102020201400A1/de
Publication of DE102020201400A1 publication Critical patent/DE102020201400A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Trainingsverfahren für ein künstliches neuronales Netzwerk mit den folgenden Schritten: Vorgeben eines Zielgeräuschs, indem eine einzige Aufnahme des Zielgeräuschs bereitgestellt wird, wobei die Aufnahme frei von Umgebungsgeräuschen ist; Generieren von wenigstens einer Variante der Aufnahme des Zielgeräuschs, indem die Aufnahme aufgrund von zu erwartenden Umgebungseffekten verändert wird; Trainieren des künstlichen neuronalen Netzwerks mit der Aufnahme und der Variante der Aufnahme.

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Trainingsverfahren für ein künstliches neuronales Netzwerk.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Demgemäß ist vorgesehen:
    • - ein Trainingsverfahren für ein künstliches neuronales Netzwerk mit den folgenden Schritten: Vorgeben eines Zielgeräuschs, indem eine einzige Aufnahme des Zielgeräuschs bereitgestellt wird, wobei die Aufnahme frei von Umgebungsgeräuschen ist; Generieren von wenigstens einer Variante der Aufnahme des Zielgeräuschs, indem die Aufnahme aufgrund von zu erwartenden Umgebungseffekten verändert wird; Trainieren des künstlichen neuronalen Netzwerks mit der Aufnahme und der Variante der Aufnahme.
  • Fahrzeuge sind Land-, Wasser-, oder Luftfahrzeuge mit oder ohne Antrieb.
  • Ein Mikrofon oder Mikrophon ist ein Schallwandler, der Luftschall als Schallwechseldruckschwingungen in entsprechende elektrische Spannungsänderungen als Mikrofonsignal umwandelt.
  • Geräusch ist ein Sammelbegriff für alle Hörempfindungen, auch für Töne, Klänge, Tongemische, Zusammenklänge oder Klanggemische. Periodische oder nicht periodische Schwingungsvorgänge sind ursächlich für Geräusche. Fahrzeugumgebungsgeräusche sind in der Umgebung eines Fahrzeugs erfassbar.
  • Umgebungsgeräusche aus dem Straßenverkehr sind sämtliche Geräusche, die in der Nähe einer Verkehrsstraße hörbar sind. Dementsprechend sind beispielsweise Motorengeräusche, die von Fahrzeugen, die eine Straße befahren, emittiert werden, Umgebungsgeräusche. Hierunter fallen jedoch auch Geräusche von anderen Verkehrsteilnehmern, wie Fußgänger oder Fahrradfahrer, die sich in unmittelbarer Nähe zu der Straße befinden. Hierunter fallen auch Geräusche, die von Tieren emittiert werden, beispielsweise das Bellen eines Hundes.
  • Ferner sind auch Geräusche durch Baustellen oder Grünpflegearbeiten Umgebungsgeräusche aus dem Straßenverkehr.
  • Ein künstliches neuronales Netzwerk (KNN, englisch artificial neural network - ANN) ist insbesondere ein in einem Rechenprogramm nachgebildetes Netzwerk aus vernetzten künstlichen Neuronen. Die künstlichen Neuronen sind dabei typischerweise auf verschiedenen Schichten (layers) angeordnet. Üblicherweise umfasst das künstliche neuronale Netzwerk eine Eingangsschicht und eine Ausgabeschicht (output layer), deren Neuronenausgabe als einzige des künstlichen neuronalen Netzwerks sichtbar wird. Zwischen der Eingangsschicht und der Ausgabeschicht liegende Schichten werden typischerweise als verdeckte Schichten (hidden layer) bezeichnet. Typischerweise wird zunächst eine Architektur bzw. Topologie eines künstlichen neuronalen Netzwerks initiiert und dann in einer Trainingsphase für eine spezielle Aufgabe oder für mehrere Aufgaben in einer Trainingsphase trainiert.
  • Der Begriff „Topologie eines KNN“ umfasst sämtliche Aspekte bezüglich des Aufbaus eines KNN. Hierunter fallen beispielsweise die Anzahl der Neuronen des KNN, die Aufteilung der Neuronen auf die einzelnen Schichten des KNN, die Anzahl der Schichten eines KNN, die Vernetzung der Neuronen und die Gewichtung der Vernetzung.
  • Das Training des künstlichen neuronalen Netzwerks umfasst dabei typischerweise eine Veränderung eines Gewichts einer Verbindung zwischen zwei künstlichen Neuronen des künstlichen neuronalen Netzwerks. Das Gewicht enthält Information zur Stärke der Berücksichtigung eines Eingangs eines Neurons. Das Training des künstlichen neuronalen Netzwerks kann auch eine Entwicklung von neuen Verbindungen zwischen künstlichen Neuronen, ein Löschen von bestehenden Verbindungen zwischen künstlichen Neuronen, ein Anpassen von Schwellwerten der künstlichen Neuronen und/oder ein Hinzufügen oder ein Löschen von künstlichen Neuronen umfassen.
  • Ein Beispiel für ein künstliches neuronales Netzwerk ist ein flaches künstliches neuronales Netzwerkwerk (shallow neural network), welches oft nur eine einzelne verdeckte Schicht zwischen der Eingabeschicht und der Ausgabeschicht enthält und damit relativ einfach zu trainieren ist. Ein weiteres Beispiel ist ein tiefes künstliches neuronales Netzwerkwerk (deep neural network), welches zwischen der Eingangsschicht und der Ausgabeschicht mehrere verschachtelte verdeckte Schichten von künstlichen Neuronen enthält. Das tiefe künstliche neuronale Netzwerk ermöglicht dabei eine verbesserte Erkennung von Mustern und komplexen Zusammenhängen Beispielsweise kann das künstliche neuronale Netzwerk ein ein- bzw. mehrschichtiges feedforward-Netzwerk oder eine rekurrentes Netzwerk sein. Feedforward-Netzwerke weisen Neuronen auf, die ausschließlich vorwärtsgespeist werden, d.h. ein Neuron wird ausschließlich von höher liegenden Schichten gespeist.
  • Ein rekurrentes Netzwerk weist bidirektional verbundene Neuronen auf, d.h. ein Neuron wird zudem von tiefer liegenden Schichten gespeist. Somit lässt sich bei einem späteren Durchlauf des KNN Information aus eine früheren Durchlauf berücksichtigen, wodurch ein Erinnerungsvermögen geschaffen wird.
  • Ein Trainingssystem ist eine Recheneinheit, auf welcher ein KNN trainiert wird.
  • Trainingsdaten sind in dieser Anmeldung Datenpaare aus Eingangsdaten (akustische Daten), die von dem KNN zu verarbeiten sind, sowie Soll-Ergebnisdaten, etwa eine Reaktion auf ein Geräusch oder eine Entscheidung, ob ein Zielgeräusch in Eingangsdaten enthalten ist, die von dem KNN zu ermitteln sind. Während des Trainings wird das KNN aufgrund eines Vergleichs von Soll-Ergebnisdaten mit dem von dem KNN ermittelten Ist-Ergebnisdaten angepasst, wodurch sich ein Trainingseffekt einstellt. Ein Trainingsdatensatz kann mehrere Datenpaare aus Eingangs- und Ausgangsdaten enthalten.
  • Ein Egofahrzeug ist ein Fahrzeug, welches Mikrofondaten erfasst und auswertet.
  • Die Eingangsdaten, mit welchen das KNN in dieser Anmeldung gespeist wird, sind akustische Daten, die das Zielgeräusch enthalten.
  • Das Zielgeräusch ist ein von einem trainierten KNN zu identifizierendes Geräusch und kann beispielsweise ein akustisches Warnsignal oder ein charakteristisches Maschinengeräusch, welches einen Defekt oder eine Verschleißerscheinung anzeigt, sein. Das Zielgeräusch kann jedoch auch ein zu identifizierendes Umgebungsgeräusch sein, wenn das Umgebungsgeräusch durch bestimmte Charakteristika erkannt werden kann.
  • Ein Echo entsteht, wenn Reflexionen einer Schallwelle so stark verzögert sind, dass man diesen Schall als separates Ereignis erfassen kann. Ein einzelnes separat erfasstes Echo hat eine geringere Tonstärke als die des Originals.
  • Der Doppler-Effekt ist die zeitliche Stauchung bzw. Dehnung eines Signals bei Veränderungen des Abstands zwischen Sender und Empfänger während der Dauer des Signals. Ursache ist die Veränderung der Laufzeit. Dieser rein kinematische Effekt tritt bei allen Signalen auf, die sich mit einer bestimmten Geschwindigkeit, meist Lichtgeschwindigkeit oder Schallgeschwindigkeit, ausbreiten. Breitet sich das Signal in einem Medium aus, so ist dessen Bewegungszustand zu berücksichtigen. Bei periodischen Signalen erhöht bzw. vermindert sich die beobachtete Frequenz. Das betrifft sowohl Tonhöhen als auch Modulationsfrequenzen, z. B. den Wechsel der Töne eines Martinhorns. Bei geringen Geschwindigkeiten im Verhältnis zur Ausbreitungsgeschwindigkeit gibt dieses Verhältnis zugleich die relative Frequenzänderung Δf an.
  • Unter Schalldämpfung wird eine Behinderung der Schallausbreitung durch Absorption von Luftschall verstanden. Bei dieser Schallabsorption wird die Schallenergie in nicht hörbare Wellen von Schwingungsenergie umgewandelt und dementsprechend die Reflexion an einer Grenzfläche vermindert. Die Fähigkeit von Luft Schallwellen zu dämpfen, beschreibt man mit Dissipationseigenschaften.
  • Datenbeschreibungen oder im Fachjargon auch mit Labels bezeichnet, sind eine Beschreibung von Trainingsdaten zu in den Trainingsdaten enthaltenen Merkmalen. Beispielsweise kann bestimmten Anteilen eines Geräuschs oder Anteilen einer Aufnahme in einem Label eine Ursache zugeordnet werden.
  • Gelabelte Daten oder Daten, die mit Informationen versehen sind, sind Datensätze, die mit einer oder mehreren Informationen versehen wurden. Dabei wird normalerweise ein Satz nicht gelabelter Daten verwendet, der mit aussagekräftigen Information ergänzt wird. Zum Beispiel können Labels angeben, ob ein Foto ein Pferd oder eine Kuh enthält, welche Wörter in einer Audioaufzeichnung gesprochen wurden, welche Art von Aktion in einem Video ausgeführt wird, welches Thema ein Nachrichtenartikel hat und wie die allgemeine Stimmung ist, etc.
  • Labels werden oft durch Menschen generiert, z.B. indem Menschen über ein bestimmtes Stück unbeschrifteter Daten urteilen (z. B. „Enthält dieses Foto ein Pferd oder eine Kuh?“). Folglich sind gelabelte Daten erheblich teurer als unbeschriftete Rohdaten.
  • Labels können von einem menschlichen Bearbeiter oder automatisiert gesetzt werden. Automatisierte Labels lassen sich setzen, indem die Labels beispielsweise von einem weiteren hierfür trainierten KNN gesetzt werden oder indem auf gelabelte Datensätze zurückgegriffen wird und der gelabelte Datensatz mit Trainingsdaten kombiniert wird. Beispielsweise ist es denkbar, ein Zielgeräusch mit verschiedenen Wettergeräuschen, wie Regengeräusche oder Windböengeräusche, zu kombinieren.
  • Akustische Warnsignale sind beispielsweise ein Martinshornsignal, ein Yelp-Signal, das Pfeifen eines Zuges, Warntöne an Bahnübergängen und dergleichen.
  • Als Martinshorn wird generell eine akustische Einrichtung an Fahrzeugen bezeichnet, die nacheinander mehrere Signaltöne verschiedener Grundfrequenzen abgibt.
  • Es wird eine bestimmte Tonfolge erzeugt, die andere Verkehrsteilnehmer warnt und dazu veranlassen soll, dem Einsatzfahrzeug freie Bahn zu gewähren. Bei Einsatzfahrten mit Martinshorn wird dieses in den meisten Staaten stets mit Blaulicht kombiniert.
  • Die grundlegende Idee der Erfindung ist es, ein künstliches neuronales Netzwerk mit der Aufnahme eines Zielgeräuschs zu trainieren, wobei die Aufnahme ausschließlich das Zielgeräusch ohne weitere akustische Störeinflüsse aufzeichnet.
  • Während des Trainings ist zudem vorgesehen, das künstliche neuronale Netzwerk mit weiteren, veränderten Aufnahmen des Zielgeräuschs zu trainieren.
  • Künstliche neuronale Netzwerke lassen sich trainieren, indem typischerweise eine in einem Verhältnis zu dem in dem Netzwerk anpassbaren Parametern, also dessen Topologie, eine entsprechend größere Anzahl an Datenpunkten in einem Trainingsdatensatz vorgegeben wird. Somit kann erreicht werden, dass ein künstliches neuronales Netzwerk eine gewünschte Vorhersage trifft und keine Überbestimmtheit (englisch „overfitting“) des neuronalen Netzwerks erfolgt, sondern Trainingsdaten lediglich „auswendig gelernt“ werden und keine Verallgemeinerung bezüglich des Problems stattfindet. Diese Problematik betrifft vor allem tiefe neuronale Netzwerke (DNN).
  • Bei einer akustischen Ereigniserkennung sind zahlreiche Zielgeräusche von dem neuronalen Netzwerk zu erlernen, die häufig sehr ähnlich sind bzw. identische Charakteristika aufweisen. Derartige Geräusche können beispielsweise technischer Natur und/oder umgebungsbedingt sein. Geräusche, die sich einem bestimmten Ereignis zuordnen lassen, werden in der Regel von physikalischen Effekten, beispielsweise einer Dämpfung in einem Ausbreitungsmedium, zum Beispiel Luft, einer Superposition mit Störgeräuschen oder dem Dopplereffekt verändert bzw. gestört.
  • Die Erfindung sieht vor, ein künstliches neuronales Netzwerk mit einer einzigen Aufnahme eines Zielgeräuschs zu trainieren. Dieses Zielgeräusch muss ohne weitere Einflüsse aufgezeichnet sein.
  • Sofern in dieser Patentanmeldung die Formulierung „einzige Aufnahme“ verwendet wird, ist hierunter zu verstehen, dass ein Zielgeräusch ein einziges Mal aufgezeichnet wird, wobei die einzige Aufnahme mit computergestützten, technischen Mitteln weiter verändert werden kann, derart dass das neuronale Netzwerk zudem mit mehreren Varianten der einzigen Aufnahme trainiert wird.
  • Hiervon ist zu unterscheiden, dass ein einziges Zielgeräusch in verschiedenen akustischen Umgebungen mehrfach aufgenommen wird und das künstliche neuronale Netzwerk mit mehreren Aufnahmen eines einzigen Zielgeräuschs trainiert wird.
  • Somit lassen sich die Varianten der einzigen Aufnahme automatisiert generieren und bestimmte Charakteristika, die sich aufgrund von physikalischen Umgebungseffekten einstellen, präzise einstellen.
  • Dies vereinfacht und verbessert das Labeling der Trainingsdaten.
  • Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den weiteren Unteransprüchen sowie aus der Beschreibung unter Bezugnahme auf die Figuren der Zeichnung.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung beinhalten die Umgebungseffekte Umgebungsgeräusche und die Aufnahme wird verändert, indem das Zielgeräusch mit Umgebungsgeräuschen kombiniert bzw. überlagert wird.
  • Dabei ist es auch zweckmäßig, wenn die Umgebungsgeräusche aus Reifenabrollgeräuschen, Windgeräuschen, Niederschlagsgeräuschen, Tierlauten, Arbeitsgeräuschen aufgrund von Bauarbeiten und/oder Grünpflegearbeiten und/oder der gleichen resultieren.
  • Somit ist es möglich, ein bestimmtes Zielgeräusch in einer Vielzahl von verschiedenen Simulationsumgebungen zu simulieren. Entsprechende Umgebungsgeräusche können beispielsweise aus einer bestehenden Datenbank bereitgestellt werden, ohne dass diese im Vorfeld aufgezeichnet werden müssen.
  • Vorteilhaft hieran ist auch, dass bereits existierende Umgebungsgeräusche in der Regel mit einer Datenbeschreibung versehen sein dürften, sodass für die Datenbeschreibung der Variante der Aufnahme auf die Datenbeschreibung der Umgebungsgeräusche zurückgegriffen werden kann.
  • Somit ist es nicht länger erforderlich, eine Vielzahl von typischen Umgebungsgeräuschen einer Zielumgebung aufzuzeichnen bzw. das Zielgeräusch unter entsprechenden Umgebungsbedingungen abzuspielen und die abgespielten Aufnahmen zusammen mit den Umgebungsgeräuschen aufzuzeichnen. Dementsprechend kann der Aufzeichnungsaufwand für das Generieren von Trainingsdaten verringert werden.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung sind Umgebungseffekte solche Effekte, die eine Ausbreitung von Schallwellen beeinflussen.
  • Dementsprechend können die Umgebungseffekte beispielsweise als Dämpfungseffekte, Echoeffekte, Dopplereffekte oder als verschiedene Dissipationseigenschaften der Luft und/oder dergleichen ausgebildet sein.
  • Somit ist es möglich, die Aufnahme aufgrund von verschiedenen zu erwartenden, beispielsweise wetterabhängigen, Wellenausbreitungseigenschaften von Luft oder aufgrund von zu erwartenden Reflexionen an Oberflächen, wie beispielsweise anderen Fahrzeugen, Straßen, Gebäuden und/oder natürlichen Strukturen, zu verändern. Dementsprechend lässt sich beispielsweise das Auftreten eines Dopplereffektes oder verschiedene luftfeuchtigkeits-, und temperaturabhängige Dissipationseigenschaften von Luft in einem Trainingsdatensatz simulieren.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung wird ein Trainingsdatensatz generiert, der die Aufnahme sowie eine Vielzahl an Varianten der Aufnahme, aufweist, wobei die Umgebungseffekte in einem automatisierten Datenbeschreibungsverfahren derart beschrieben werden, dass die Beschreibung für das künstliche neuronale Netzwerk interpretierbar ist. Im Fachjargon wird die Datenbeschreibung auch als Labeling bezeichnet. Das Labeling der Daten kann somit automatisiert werden und menschlicher Bearbeitungsaufwand zum Beschreiben der Daten lässt sich verringern.
  • Es versteht sich, dass zusätzlich auch vorgesehen sein kann, das KNN mittels Aufnahmen, die kein Zielgeräusch enthalten zu trainieren. Somit lässt sich die Unterscheidungsfähigkeit zwischen Zielgeräusch (nicht) vorhanden des KNNs weiter verbessern.
  • Es versteht sich, dass es vorteilhaft ist, dass Verfahren wie es vorstehend beschrieben wurde, mit computergestützten Mitteln in Form eines Computer Programmproduktes durchzuführen.
  • Figurenliste
  • Die vorliegende Erfindung wird nachfolgend anhand der in den schematischen Figuren der Zeichnungen angegebenen Ausführungsbeispiele näher erläutert. Es zeigen dabei:
    • 1 ein schematisches Blockdiagramm einer Ausführungsform der Erfindung.
  • Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung. Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
  • In den Figuren der Zeichnungen sind gleiche, funktionsgleiche und gleichwirkende Elemente, Merkmale und Komponenten - sofern nicht anders ausgeführt ist - jeweils mit denselben Bezugszeichen versehen.
  • BESCHREIBUNG VON AUSFÜHRUNGSBEISPIELEN
  • 1 zeigt ein schematisches Blockdiagramm eines Verfahrens zum Trainieren eines künstlichen neuronalen Netzwerks. In dem Schritt S1 wird ein Zielgeräusch vorgegeben, indem eine einzige Aufnahme des Zielgeräuschs bereitgestellt wird, wobei die Aufnahme frei von Umgebungsgeräuschen ist. In dem Schritt S2 wird wenigstens eine Variante der Aufnahme des Zielgeräuschs generiert, indem die Aufnahme aufgrund von zu erwartenden Umgebungseffekten verändert wird. In dem Schritt S3 wird das künstliche neuronale Netzwerk mit einer Aufnahme und der Variante der Aufnahme trainiert.
  • Bezugszeichenliste
  • S1-S3
    Verfahrensschritte

Claims (7)

  1. Trainingsverfahren für ein künstliches neuronales Netzwerk mit den folgenden Schritten: - Vorgeben (S1) eines Zielgeräuschs, indem eine einzige Aufnahme des Zielgeräuschs bereitgestellt wird, wobei die Aufnahme frei von Umgebungsgeräuschen ist; - Generieren (S2) von wenigstens einer Variante der Aufnahme des Zielgeräuschs, indem die Aufnahme aufgrund von zu erwartenden Umgebungseffekten verändert wird; - Trainieren des künstlichen neuronalen Netzwerks mit der Aufnahme und der Variante der Aufnahme.
  2. Trainingsverfahren für ein künstliches neuronales Netzwerk nach Anspruch 1, wobei die Umgebungseffekte Umgebungsgeräusche beinhalten und die Aufnahme verändert wird, indem das Zielgeräusch mit Umgebungsgeräuschen kombiniert wird.
  3. Trainingsverfahren für ein künstliches neuronales Netzwerk nach einem der vorstehenden Ansprüche, wobei die Umgebungsgeräusche aus Reifenabrollgeräuschen, Windgeräuschen, Niederschlagsgeräuschen, Tierlauten, Arbeitsgeräuschen aufgrund von Bauarbeiten und/oder Grünpflegearbeiten und/oder dergleichen resultieren.
  4. Trainingsverfahren für ein künstliches neuronales Netzwerk nach einem der vorstehenden Ansprüche, wobei die Umgebungseffekte eine Ausbreitung von Schallwellen beeinflussen.
  5. Trainingsverfahren für ein künstliches neuronales Netzwerk nach Anspruch 4, wobei die Umgebungseffekte als Dämpfungseffekte, Echoeffekte, Dopplereffekte, verschiedene Dissipationseigenschaften der Luft und/oder dergleichen ausgebildet sind.
  6. Trainingsverfahren zum Trainieren eines künstlichen neuronalen Netzwerks nach einem der vorstehenden Ansprüche, wobei ein Trainingsdatensatz generiert wird, der die Aufnahme sowie eine Vielzahl an Varianten der Aufnahme aufweist, wobei die Umgebungseffekte in einem automatisierten Datenbeschreibungsverfahren derart beschrieben werden, dass die Beschreibung für das künstliche neuronale Netzwerk interpretierbar ist.
  7. Computerprogrammprodukt, das ausgeführt ist, in einen Speicher eines Computers geladen zu werden und das Softwarecodeabschnitte umfasst, mit denen die Schritte des Verfahrens nach einem der vorstehenden Ansprüche 1-6 ausgeführt werden, wenn das Computerprogrammprodukt auf dem Computer läuft.
DE102020201400.0A 2020-02-05 2020-02-05 Generieren von akustischen Trainingsdaten Pending DE102020201400A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102020201400.0A DE102020201400A1 (de) 2020-02-05 2020-02-05 Generieren von akustischen Trainingsdaten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020201400.0A DE102020201400A1 (de) 2020-02-05 2020-02-05 Generieren von akustischen Trainingsdaten

Publications (1)

Publication Number Publication Date
DE102020201400A1 true DE102020201400A1 (de) 2021-08-05

Family

ID=76854001

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020201400.0A Pending DE102020201400A1 (de) 2020-02-05 2020-02-05 Generieren von akustischen Trainingsdaten

Country Status (1)

Country Link
DE (1) DE102020201400A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102023000978A1 (de) 2023-03-13 2024-04-04 Mercedes-Benz Group AG Verfahren zum Trainieren künstlicher neuronaler Netzwerke

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170133006A1 (en) 2015-11-06 2017-05-11 Samsung Electronics Co., Ltd. Neural network training apparatus and method, and speech recognition apparatus and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170133006A1 (en) 2015-11-06 2017-05-11 Samsung Electronics Co., Ltd. Neural network training apparatus and method, and speech recognition apparatus and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAINATH, Tara N. [et al.]: Learning the speech front-end with raw waveform CLDNNs. In: Sixteenth Annual Conference of the International Speech Communication Association. 2015
SELTZER, Michael L.; YU, Dong; WANG, Yongqiang: An investigation of deep neural networks for noise robust speech recognition. In: 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013. S. 7398-7402

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102023000978A1 (de) 2023-03-13 2024-04-04 Mercedes-Benz Group AG Verfahren zum Trainieren künstlicher neuronaler Netzwerke

Similar Documents

Publication Publication Date Title
Murray et al. Characterizing the graded structure of false killer whale (Pseudorca crassidens) vocalizations
EP3522135A1 (de) Detektion von gefahrengeräuschen
DE602004003439T2 (de) Rauschunterdrückung zur robusten Spracherkennung
DE102016221646A1 (de) Verbesserte Geräuscherzeugung für leise Fahrzeuge
DE102020215650A1 (de) Ontologiebewusste klangklassifizierung
DE102020201400A1 (de) Generieren von akustischen Trainingsdaten
EP4189673A1 (de) Computerimplementiertes verfahren und computerprogramm zum maschinellen lernen einer robustheit eines akustischen klassifikators, akustisches klassifikationssystem für automatisiert betreibbare fahrsysteme und automatisiert betreibbares fahrsystem
WO2009037077A2 (de) Sensoreinrichtung und überwachungssystem für geräusche
DE102019218069A1 (de) Vorrichtung und Verfahren zum Erkennen und Klassifizieren eines Unfallgegners
DE102019205543A1 (de) Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten
DE102019213818A1 (de) Detektieren von akustischen Betriebsmitteln eines Bahnübergangs
EP1092964A2 (de) Verfahren und Vorrichtungen zur Geräuscherkennung und -trennung sowie Lärmüberwachung und -prognose
DE102019216927A1 (de) Synthetische Erzeugung von Radar-, LIDAR- und Ultraschallmessdaten
DE102019219749B4 (de) Beurteilen der Identifizierbarkeit eines Warnsignals in Mikrofondaten
DE102019210933A1 (de) Umwelterfassungsvorrichtung und System für automatisierte Mobilität
DE102021203815A1 (de) Tonverarbeitungsvorrichtung, System und Verfahren
DE102020103163A1 (de) Verfahren und Vorrichtung zur Erzeugung von simulierten Motorgeräuschen in einem Kraftfahrzeug
DE10322617A1 (de) Verfahren und Vorrichtungen zum Erkennen von einem Gegenstand auf einer Fahrbahnoberfläche
DE102018214420A1 (de) Fahrerassistenzsystem
DE102019218067A1 (de) Steuergerät für ein automatisiert betreibbares Fahrzeug zur Erkennung eines Ursprungsortes von Schallwellen, Verfahren zur Erkennung eines Ursprungsortes von Schallwellen und automatisiert betreibbares Fahrzeug
DE102019210144A1 (de) Kombination von Sensorsystemen im Fahrzeug zum Verbessern des Erkennens von Nutzerbefehlen
DE102019210943A1 (de) Vorrichtung für ein automatisiert betreibbares Personentransportfahrzeug zum automatischen Schließen oder geschlossen Halten einer Tür des Personentransportfahrzeuges bei Erkennung einer Überschreitung einer Soll-Lautstärke, Personentransportfahrzeug, Verfahren zum Schutz von Insassen eines Personentransportfahrzeuges gegen Geräusche außerhalb des Personentransportfahrzeuges und Verfahren zum Betreiben eines Personentransportfahrzeuges auf Flughäfengeländen
DE102018117205A1 (de) Verfahren zum Informieren eines Insassen eines Kraftfahrzeugs über eine Verkehrssituation mittels einer Sprachinformation; Steuereinrichtung; Fahrerassistenzsystem; sowie Computerprogrammprodukt
DE102022205641A1 (de) Computerimplementiertes Verfahren und Computerprogramm zur Hörbarkeitsvorhersage eines Sondersignals und Steuergerät für ein Egofahrzeug zur Hörbarkeitsvorhersage eines Sondersignals eines Einsatzfahrzeuges
DE102021103310B4 (de) Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication