DE102019205543A1 - Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten - Google Patents

Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten Download PDF

Info

Publication number
DE102019205543A1
DE102019205543A1 DE102019205543.5A DE102019205543A DE102019205543A1 DE 102019205543 A1 DE102019205543 A1 DE 102019205543A1 DE 102019205543 A DE102019205543 A DE 102019205543A DE 102019205543 A1 DE102019205543 A1 DE 102019205543A1
Authority
DE
Germany
Prior art keywords
frequency
audio data
classifier
representations
digital audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019205543.5A
Other languages
English (en)
Inventor
Katharina Maria Radermacher
Olaf Schoenrock
Christoph Bayer
Andrea Kirsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102019205543.5A priority Critical patent/DE102019205543A1/de
Priority to CN202010298706.6A priority patent/CN111833904A/zh
Priority to US16/850,780 priority patent/US11404074B2/en
Publication of DE102019205543A1 publication Critical patent/DE102019205543A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • G08G1/096855Systems involving transmission of navigation instructions to the vehicle where the output is provided in a suitable form to the driver
    • G08G1/096872Systems involving transmission of navigation instructions to the vehicle where the output is provided in a suitable form to the driver where instructions are given per voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

Es wird ein Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten, die Gefahrensituationen kennzeichnende akustische Signale beschreiben, mit den Schritten:Berechnen einer Vielzahl von Frequenz-Repräsentationen für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden Audiodaten;Bilden einer bestimmten Anzahl von Frequenzsegmenten für jede Oktave jeder einzelnen Frequenz-Repräsentation, wobei die Frequenzsegmente eine Teilmenge der einzelnen Frequenz-Repräsentation umfassen;Addieren von korrespondierenden Frequenzsegmenten der Oktaven jeder einzelnen Frequenz-Repräsentation;Berechnen von Frequenz-Komponenten durch Bilden von Mittelwerten für die einzelnen addierten Frequenzsegmente in jeder einzelnen Frequenz-Repräsentation;Generieren eines Klassifikationsvektors mittels eines Klassifikators und der Anzahl der Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, wobei der Klassifikator eingerichtet ist Gefahrensituationen kennzeichnende Signale, die mit den zugehörigen zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der zugehörigen Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, zu klassifizieren und dem Klassifikationsvektor der Klassifikation entsprechende Werte zuzuordnen.

Description

  • Die Erfindung betrifft ein Verfahren zum Klassifizieren digitaler Audiodaten, die Gefahrensituationen kennzeichnende akustische Signale beschreiben, wie sie z. B. im Straßenverkehr auftreten.
  • Stand der Technik
  • Bisher befinden sich noch keine Systeme mit Sondersignal-Erkennung im Straßenverkehr im Einsatz, da die praktische Anwendung ein System mit einer hohen Sensitivität erforderlich macht, welches eine Klassifikation der Schallsignale im Straßenverkehr auf das Vorhandensein von Sondersignalen mit einer vernachlässigbar geringen Anzahl von Falschalarmen gewährleisten muss. Denn nur bei einer Fehlerrate sehr nahe Null kann den Einsatz eines solchen Systems im Straßenverkehr rechtfertigen, um eine unnötige oder womöglich falsche Reaktion des Fahrzeugs, wie z. B. das Überfahren einer roten Ampel, mit den damit verbundenen Verzögerungen im Straßenverkehr zu vermieden. Ein solches System sollte außerdem zwischen den weltweit eingesetzten, verschiedenen Sondersignalen unterscheiden können.
  • Offenbarung der Erfindung
  • Die vorliegende Erfindung offenbart ein Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten, die Gefahrensituationen kennzeichnende akustische Signale beschreiben, sowie ein Computerprogramm, ein computerlesbares Speichermedium sowie ein Entscheidungssystem, gemäß den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche sowie der nachfolgenden Beschreibung.
  • Sowohl für Fahrassistenz-Systeme, aber auch im Bereich des zumindest teilautomatischen Fahrens, ist es wichtig, Einsatzfahrzeuge mit Sondersignal und Verkehrspolizisten mit akustischem Signalgeber, entsprechend den gesetzlichen Bestimmungen in unterschiedlichen Ländern, zu erkennen. Auch andere akustische Signale, die Gefahrensituationen kennzeichnen, wie z. B. Hilfeschreie oder Warnsignale von anderen Fahrzeugen, sollten erkannt werden, um eine entsprechende, ggf. automatische Aktion einleiten zu können oder einen Fahrzeugführer auf die Situation hinweisen zu können.
  • Darüber hinaus bietet ein zumindest teil-automatisch fahrendes Fahrzeug mit akustischer Sondersignal-Erkennung den Vorteil, dass in Fällen, in denen noch kein direkter Sichtkontakt zu einem Sonderfahrzeug bzw. zu einem Verkehrspolizisten besteht, durch die Identifikation eines solchen Audiosignals eine frühzeitige Situationseinschätzung, sowohl für einen Fahrzeugführer als auch für ein teil-automatisches System, möglich zu machen, um entsprechend reagieren zu können.
  • Einem zumindest teil-automatischen Fahrzeug ist bei der Anfahrt zu einer schwer einsehbaren Kreuzung oder im Notfall, mittels einer entsprechend kategorisierten Audiosignal-Information möglich, rechtzeitig eine geeignete Fahrtroute zu wählen, um dem Einsatzfahrzeug Wegerecht zu gewähren. Alternativ, wenn es sich nicht um einen Einsatz eines Erkennungssystems im Bereich zumindest teilautomatischen Fahrens handelt, kann eine entsprechende Benachrichtigung des Fahrers erfolgen, wenn ein Sondersignal erkannt wird. Dies wäre bei einem Fahrassistenzsystem für Menschen mit eingeschränktem Hörvermögen von großem Vorteil, kann aber auch, durch eine höhere Empfindlichkeit, aufgrund eines möglichst außerhalb des Innenraums angebrachten Schallwandlers, für alle Fahrzeugführer vorteilhaft sein.
    Die Sonderrechte von Einsatzfahrzeugen bedingen für ein betroffenes anderes Fahrzeug, etwa durch Bilden einer Rettungsgasse z. B. ein Wegerecht zu gewähren oder ein Verbot in Kreuzungen einzufahren. Es muss also eine geeignete Fahrtroute identifiziert werden. In unterschiedlichen Ländern werden allerdings unterschiedliche Signale als Sondersignale verwendet. Z.B. das Folgensignal („Martinshorn“) in Deutschland oder aber das „Wail“, „Yelp“ oder „Rumbler“ in den USA.
  • Die Erfindung beruht auf der Erkenntnis, dass bei der Identifikation, insbesondere von Sondersignalen und anderen akustischen Signalen, die Gefahrensituationen kennzeichnen, in der akustischen Situation des Straßenverkehrs, oftmals eine Analyse von zu einem Grundton zugehöriger Obertöne eine Identifikation des zu bestimmenden Signales verbessern und in bestimmten akustischen Situationen die Obertöne sogar prägnanter als der zugehörige Grundton aus dem Hintergrundgeräusch herausragen.
  • Akustische Signale, die Gefahrensituationen kennzeichnen spielen vor allem im Straßenverkehr eine große Rolle, da jeder Verkehrsteilnehmer, abhängig von der Situation in der er sich im Straßenverkehr befindet, auf ein solches Signal reagieren muss. Als ein wichtiges Beispiel für solche Signale sind die Sondersignale von Einsatzfahrzeugen zu nennen, die typischerweise als spezielle Sirenen ausgeführt sind und unterschiedliche Tonfolgen generieren, die auch noch länderspezifisch sind. Als Beispiel für Sondersignale sind Martinshorn: Tonfolge „Ta-Tü-Ta-Ta“ von zwei Grundtönen (zwischen ca. 360Hz und 630Hz) innerhalb von 3.0 +/- 0.5 s; sowie Wail, Yelp und Rumbler zu nennen, die aber von anderen Tonhöhen-Abfolgen (engl. change of constant notes), gefälschten Sirenen-Signalen, die z. B. von Spielzeugen oder Smartphones stammen, stationären Sirenen (engl. Civil defense siren) unterschieden werden müssen. Weitere Beispiele sind Hupen, die von unterschiedlichen Fahrzeugtypen wie PKW, LKW oder Zügen bzw. Straßenbahnen stammen können. Relevant für die Straßenverkehrsteilnehmer sind auch akustische Signale von Verkehrspolizisten wie die einer Trillerpfeife, die akustischen Wecker-Signale an einem Bahnübergang, das akustische Warnsignal eines rückwärtsfahrenden Fahrzeuges sowie akustische Signale von Auto-Alarmanlagen. Weiterhin sind Hilfeschreie oder andere Schreie wie „Stopp“ oder „Feuer“ in verschiedenen Sprachen zu beachten und müssen ggf. von normalem Reden oder Musik unterschieden werden können.
  • Solche akustischen Signale, die Gefahrensituationen kennzeichnen, können mittels einem oder mehrerer Schallwandlern wie z. B. Mikrofonen in elektrische Signale gewandelt werden, wobei der Schallwandler weitgehend akustisch direkt mit einem zu überwachenden Schallumfeld z. B. einer Straßenverkehrssituation gekoppelt werden kann. Schallwandler, die z. B. außerhalb einer Fahrzeugkabine angeordnet sind, haben gegenüber einer Anordnung im Innenbereich des Fahrzeugs den Vorteil, dass die akustischen Signale nicht durch die Kabinenbegrenzungen gedämpft werden und somit direkter an das Schallumfeld gekoppelt sind.
  • Aus solchen elektrischen Signalen der Schallwandler können zeitlich aufeinanderfolgende digitale Audiodaten, z. B. mittels einer elektronischen analog-zu-digital Wandlerschaltung generiert werden, die dann die entsprechenden Gefahrensituationen kennzeichnenden Signale digital kodiert enthalten.
  • Die analog-zu-digital Wandlung der elektrischen Signale kann dabei so durchgeführt werden, dass akustischen Signale, die eine Gefahrensituationen kennzeichnen, einen relevanten Frequenzbereich von z. B. 250 Hz bis 8 kHz umfassen und somit die elektrischen Signale mittels einer Abtast- oder Sample-Rate in doppelter Höhe der höchsten zu erfassenden Frequenz erfasst und somit in digitale Audiodaten überführt werden. Eine höhere Abtast-Rate kann die Genauigkeit der Wandlung erhöhen.
  • Die oben beschriebenen Schritte zur Bereitstellung von digitalen Audiodaten, die Gefahrensituationen kennzeichnende akustische Signale beschreiben, dienen vorwiegend der Erläuterung, Einführung und Definition der Begriffe.
  • Das erfindungsgemäße Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten, die Gefahrensituationen kennzeichnende akustische Signale beschreiben, berechnet in einem Schritt des Verfahrens eine Vielzahl von Frequenz-Repräsentationen für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden Audiodaten.
  • Die Frequenz-Repräsentationen werden für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden, also zu späteren Zeiten versetzten Zeitintervalle, der digitalen Audiodaten berechnet, wobei die Berechnung der Frequenz-Repräsentationen mit einer Vielzahl von alternativen Verfahren durchgeführt werden kann. Ein beispielhaftes Verfahren ist die sogenannte Kurzzeit-Fourier Transformation (Short-time Fourier Transformation; STFT), ein anderes mögliches Verfahren ist die sogenannte Wavelet-Transformation. Diese Verfahren werden weiter unten noch näher erläutert. Aus dieser Berechnung resultiert ein Frequenzspektrum, d. h. eine Amplitude der Frequenzanteile der von den digitalen Audiodaten beschriebenen akustischen Signale über der Frequenz.
  • Diese schrittweise fortschreitenden Zeitintervalle können sich, gemäß dem erfinderischen Verfahren, zeitlich überschneiden. Ein hohes Maß an Überlappung der Zeitintervalle führt zu einer Darstellung von Frequenzspektren, also von Frequenz-Repräsentationen des digitalen Audiosignals über der Zeit, mit hoher Zeitauflösung.
  • Als ein Beispiel kann die Berechnung von Frequenz-Repräsentationen mittels einer Short Time Fourier-Transformation mit 2 Exponent 11 = 2048 digitalen Audiosamples berechnet werden, aber der Fachmann versteht, dass hier eine Vielzahl von anderen Werten von Audiosamples möglich sind. Wenn das digitale Audiosignal mit einer 10 kHz Sampling-Rate generiert wurde, umfassen diese Daten ein Zeitintervall von 0.2048 Sekunden und es resultiert eine hohe Detektionsgenauigkeit bei gleichzeitig geringer Latenz, wenn das Fortschreiten der Zeitintervalle in zeitlichen Schritten von 0,1 Sekunden erfolgt. Damit überlappen sich die Zeitintervalle gegenseitig um ca. 50%. Abhängig von dem zu detektierenden Signal, der erforderlichen Genauigkeit und der Latenzzeit für die Klassifikation können die zeitlichen Schritte auch z. B. im Bereich von z. B. 0,05 Sekunden bis z. B. 0,2 Sekunden angepasst werden und auch die Überlappung kann größer oder kleiner gewählt werden. Mit zeitlichen Intervallen der Schrittweite von 0,05 Sekunden erfolgt, durch die erhöhte Zeitauflösung, eine erhöhte Klassifikations-Performance für schnell wechselnde Signale wie z.B. „Yelp“.
  • Die Vielzahl von Frequenz-Repräsentationen kann z. B. 28 Frequenz-Repräsentationen umfassen, so dass bei einem Zeitintervall von 0,1 Sekunde jeweils ein Zeitbereich von ca. 3 Sekunden umfasst wird, was bei einer Wiederholfrequenz z. B. des Folgensignals von 3 Sekunden an einer Detektion eines besonders wichtigen Signals dem Folgen-Sondersignal von Einsatzfahrzeugen orientiert ist, um charakteristische zeitliche Variationen dieses Signals auswerten zu können. Diese beispielhaft genannten Werte können leicht an andere Klassifizierungsaufgaben angepasst werden.
  • In einem weiteren Schritt des Verfahrens werden die einzelnen Frequenz-Repräsentationen in Oktaven, also Bereiche der Frequenz unterteilt, deren Endfrequenz das Doppelte der Anfangsfrequenz beträgt. Innerhalb jeder Oktave wird eine bestimmte Anzahl von Frequenzsegmenten jeder einzelnen Frequenz-Repräsentation gebildet, wobei die Frequenzsegmente eine Teilmenge der einzelnen Frequenz-Repräsentation umfassen. Die bestimmte Anzahl von Frequenzsegmenten kann z. B. 12 betragen, aber jede andere Anzahl von Unterteilungen, die für die spätere Auswertung von den z. B. durch Klassifikation zu identifizierenden akustischen Signalen besonders günstig ist, kann gewählt werden. Dabei kann die Aufteilung auch entsprechend mehrfach Filter-Bänken (multirate filter banks) oder entsprechend anderer Binning-Strategien aufgeteilt werden, bei denen z. B. breitere Segmente bei höheren Frequenzen verwendet werden.
  • Die korrespondierenden Frequenzsegmente jeder einzelnen Frequenz-Repräsentation der unterschiedlichen Oktaven werden in einem weiteren Schritt des erfindungsgemäßen Verfahrens addiert.
    Die Frequenzsegmente liegen in allen Oktaven der Frequenz-Repräsentationen vor, sind gemäß steigenden Frequenzen in der zugehörigen Oktave sortiert und können sich mit gleichen Anteilen auf die jeweilige Oktave verteilen. Somit sind die Frequenzsegmente einer Oktave korrespondierend zu den Frequenzsegmenten einer anderen Oktave, die in gleicher Weise in ihrer Oktave sortiert sind.
  • Damit wird erreicht, dass bei harmonisch aufgebauten Signalen die zu einem Grundton zugehörigen Obertöne zu dem Signalanteil der Grundtöne dazu addiert werden und somit einen größeren Wert annehmen, der leichter aus einem Grundgeräusch, z. B. einer Verkehrssituation herausragen kann. Wenn ein Grundton in den Audiodaten gering ausgeprägt ist, kann das zu detektierende Signal auf Grund der oftmals ausgeprägten Obertöne identifiziert werden.
  • Durch Bilden von Mittelwerten für die einzelnen addierten Frequenzsegmente in jeder einzelnen Frequenz-Repräsentation werden in einem weiteren Schritt des Verfahrens Frequenz-Komponenten berechnet.
  • Somit wird, durch die stufenweise Reduzierung der Anzahl der zu behandelnden Daten, neben einer vereinfachten weiteren Verarbeitung der Daten erreicht, dass kleine Schwankungen in der Frequenz des zu identifizierenden Signals, das von den digitalen Audiodaten beschrieben wird, die Qualität der Daten für die Identifizierung und Klassifizierung nicht beeinträchtigt wird oder Rauschkomponenten für die Auswertung zurückgedrängt werden. Unterschiede oder Variabilität des zu identifizierenden Signals durch zum Beispiel unterschiedliche Generatortypen für Sondersignale, die auf beispielsweise pneumatischen oder elektrischen Wirkprinzipen basieren, sowie Mehrfachüberlagerung von zu identifizierenden Signalen, werden durch dieses Verfahren vermindert, was die Komplexität einer Klassifikationsaufgabe deutlich reduziert.
  • In einem weiteren Schritt des Verfahrens wird ein Klassifikationsvektor mittels eines Klassifikators und der Anzahl der Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen generiert. Dazu ist der Klassifikator eingerichtet Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der zugehörigen Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, zu klassifizieren und dem Klassifikationsvektor der Klassifikation entsprechende Werte zuzuordnen.
  • Mit dem beschriebenen erfindungsgemäßen Verfahren wird somit eine hohe Sensitivität, d. h. Reichweite, für die Identifikation akustischer Sondersignale und für andere eine Gefahrensituation kennzeichnende akustische Signale erreicht, was eine deutlich frühere Identifikation dieser Signale bewirkt.
  • Da mittels dieses Verfahrens eine Hervorhebung des zu detektierenden Signals aus der akustischen Umgebung ermöglicht wird, resultiert eine niedrige Fehlerrate, die aus der spezifischen Signalaufarbeitung, besonders durch die Überlagerung der Frequenzsegmente, zusammen mit spezifisch definierten Klassifikatoren resultiert. Denn z. B. regional ungültige Sirenentypen lösen keine unnötigen und falschen Reaktionen eines Systems bei der Erkennung von Sondersignalen aus und eine Störung des Verkehrsflusses kann auf ein Minimum reduziert werden. Dieses Verfahren identifiziert somit z. B. ein akustisches Sondersignal und unterscheidet zwischen den verschiedenen Sondersignaltypen.
  • Gemäß einer Ausgestaltung des Verfahrens wird vorgeschlagen, dass die Frequenzsegmente der Anzahl der Frequenzsegmente für jede Oktave jeder einzelnen Frequenz-Repräsentation innerhalb einer Oktave so angeordnet sind, dass die Frequenzsegmente sich zumindest teilweise gegenseitig überlappen. Ein solches Überlappen kann auch mit Frequenzsegmenten erfolgen, die vorher mit einer Verteilungsfunktion gefaltet wurden, so dass die Beiträge aus den Überlappungsbereichen mit anderen Segmenten weniger stark ausfallen, auch wenn der frequenzmäßige Überlappungsbereich groß ist.
  • Die hiermit erreichte Einbeziehung eines größeren Frequenzbereiches kann eine robustere Klassifizierung und ein besseres Signal-Rausch Verhältnis bedingen.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass die zeitlich aufeinanderfolgenden digitalen Audiodaten auf das Vorhandensein von Grundtönen und Obertönen analysiert werden und Frequenzen in einem Frequenzband um diese Grundtöne und Obertöne in den Audiodaten abgeschwächt werden, bevor die Vielzahl von Frequenz-Repräsentationen für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden Audiodaten berechnet werden.
  • Mit dieser Vorverarbeitung der Audiodaten wird erreicht, dass die Audiodaten in Bezug auf insbesondere Sondersignale, z. B. von Einsatzfahrzeugen, ein verbessertes Signal-Rausch Verhältnis aufweisen und somit robuster klassifiziert werden können.
    Beispielsweise können Frequenzbänder einer bestimmten Breite um eine Grundfrequenz und die ersten drei Harmonischen der Grundfrequenz herum aus dem Audiosignal herausgefiltert werden. D.h. Frequenzanteile außerhalb dieser Frequenzbänder werden abgeschwächt, um die genannten Frequenzbänder herauszufiltern.
  • Das Identifizieren von Grundfrequenzen und/oder von Obertönen im Audiosignal kann mit einer Reihe von Analyseverfahren durchgeführt werden. Beispielhaft werden hier einige Verfahren im Folgenden genannt, die entsprechende Merkmale von Ausgestaltungen des Verfahrens darstellen.
  • Die Tonhöhendetektion oder Grundfrequenzanalyse (engl. Pitch Detection) untersucht ein Zeitsignal mittels einer Autokorrelationsberechnung des Audiosignals auf Vorhandensein eines prominenten Signalanteils. Die Filterung oder Absenkung der Frequenzanteile außerhalb der identifizierten Frequenzbänder kann dann mittels Bandpass-Filtern durchgeführt werden.
  • Die Cepstrum-Analyse ist ein auf der Fourier-Transformation aufbauendes Verfahren. Die Berechnung erfolgt durch das komplexe Logarithmieren der Fourier-Transformierten und anschließenden inversen Fourier-Transformation. Mittels eines Bandpass-Filters können die Frequenzanteile außerhalb der identifizierten Frequenzbände gefiltert werden.
  • Die spektrale Flachheit (engl. Spectral Flatness) kann insbesondere bei zu klassifizierenden Sondersignalen durch deren hohe spektrale Energiedichte in nur einzelnen, diskreten Frequenzen angewendet werden. Dabei werden nur solche Frequenz-Anteile, die einen Peak im Frequenzspektrum darstellen, beibehalten, alle anderen hingegen herausgefiltert. Die „Spectral Flatness“ ist ein Maß für die „Peakigkeit“/Tonalität und berechnet sich durch: Spectral flatness = (geometrisches Mittel des Leistungsspektrums) / (arithmetisches Mittel des Leistungsspektrums). Dabei ist ein zusätzlicher Schritt für eine Filterung nicht mehr notwendig.
  • Ein „Adaptive Spectral Subtraction“ Filter stellt einen adaptiven Filter dar, der sein Filterverhalten anpassen kann. Bei besonders ausgeprägtem Rauschuntergrund kann der Filter auf die aktuellen Daten adaptiert werden und der Untergrund verstärkt unterdrückt werden.
    Hier wird in regelmäßigen Zeit- und Frequenzintervallen der Untergrund im Spektrum, wie z.B. ein flacher Background unterhalb der tonalen/peak-ähnlichen Frequenzanteile, wie z.B. „Ta-Tü-Ta-Ta“ des Martinshorns, berechnet und vom Gesamt-Spektrum subtrahiert.
  • Eine weitere Möglichkeit der Vorverarbeitung ist der Einsatz eines Autoencoder-Neuronalen-Netzwerkes, das Muster erlernt, um komprimierte oder rauschbefreite Repräsentationen der Eingabe-Daten zu generieren, indem entsprechend die wesentlichen Merkmale, in unserem Fall: Audio-Signale vom allgemeinen Untergrund zu extrahieren.
  • Unter einem „Autoencoder“ versteht man ein künstliches Neuronales Netz KNN, welches es ermöglicht, bestimmte in den Eingabedaten enthaltene Muster zu erlernen. Autoencoder werden genutzt, um eine komprimierte oder rauschbefreite Repräsentation der Eingabe-Daten zu generieren, indem entsprechend die wesentlichen Merkmale, wie bestimmte Klassen, in unserem Fall Audio-Signale, vom allgemeinen Untergrund extrahiert werden.
    Der Autoencoder benutzt drei oder mehr Schichten:
    • • Eine Eingabeschicht, wie zum Beispiel ein 2-dimensionales Bild.
    • • Mehrere signifikant kleinere Schichten, die das Encoding bilden zur Reduktion der Daten.
    • • Eine Ausgabeschicht, deren Dimension die der Eingabeschicht entspricht, d.h. jeder Ausgabe-Parameter in der Ausgabeschicht hat die gleiche Bedeutung wie der entsprechende Parameter in der Eingabeschicht.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass das Berechnen der Vielzahl von Frequenz-Repräsentationen für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden Audiodaten mittels einer Kurzzeit-Fourier-Transformation oder einer Wavelet-Transformation erfolgt.
  • Die zeitlich begrenzte bzw. Kurzzeit Fourier-Transformation (engl. STFT=Short-Time Fourier Transform) ist eine Prozedur, welche Fourierinformationen für nichtstationäre Daten liefert. Ein Bewertungsfenster (engl. hanning window) wird auf das betrachteten digitalen Audiodaten angewendet, das den Anfang und das Ende der Audiodaten auf den Wert Null reduziert, um einen Leckeffekt zu verringern und die Zeitauflösung zu erhöhen. Jeder einzelnen Fast Fourier-Transformation (FFT) wird dabei der Zeitpunkt zugeordnet, der der Fenstermitte entspricht. Die Kurzzeit Fourier-Transformation mit Fensterfunktion weist eine feste Frequenz-Zeit-Auflösung auf.
  • Bei der Wavelet-Analyse, die der STFT ähnelt, kommen zeitlich begrenzte „Wellenpaket“-Funktionen statt unendlich ausgedehnte Sinus-/Cosinus-Funktionen zum Einsatz. Der Begriff Wavelet-Transformation WT bezeichnet eine Familie von linearen Zeit-Frequenz-Transformationen. Hierbei setzt sich die WT aus der sogenannten Wavelet-Analyse, d.h. der Übergang von der Zeit- in die Spektral-Darstellung, und der Wavelet-Synthese, d.h. die Rücktransformation der Wavelet-Transformierten in den Zeitraum, zusammen. Die Wavelet Transformation weist eine hohe Frequenzauflösung bei tiefen Frequenzen, aber eine geringe zeitliche Lokalisierung auf. Bei hohen Frequenzen weist sie eine geringe Frequenzauflösung, aber eine gute zeitliche Lokalisierung auf.
  • Insbesondere die Berechnung der Frequenz-Repräsentationen mit der Kurzzeit Fourier-Transformation hat den Vorteil, eine besonders schnelle Berechnung der Fourier-Transformation durchzuführen.
  • In einer Ausgestaltung des Verfahrens wird vorgeschlagen die Frequenz-Komponenten jeder einzelnen Frequenz-Repräsentation vor dem Generieren des Klassifikationsvektors zu normieren.
  • In einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen die Frequenz-Komponenten jeder einzelnen Frequenz-Repräsentation auf den Wert eins zu normieren.
  • Der Vorteil der Normierung ist, dass auch weniger intensive akustische Signale, die erst einmal nur wenig aus einem Rauschen der digitalen Audiodaten herausragen, durch eine Normierung für den Klassifikator aus dem Untergrund herausgehoben werden.
  • In einer Abwandlung einer Ausgestaltung des Verfahrens wird vorgeschlagen, die Frequenz-Komponenten jeder einzelnen Frequenz-Repräsentation mittels eines Histogrammausgleich-Verfahrens (engl. „Histogram Equalization“) zu berechnen. Dabei werden solche Skalenwerte wie Grau- oder Farbwerte eines Bildes verstärkt, die selten auftreten und solche abgeschwächt, die besonders häufig auftreten. Im Vergleich zu einer einfachen Normierung auf das Maximum, ist es mit einem Histogrammausgleich-Verfahren möglich gezielt Kontraste oder Strukturen in den Daten hervorzuheben und zu verstärken.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator ein künstliches Neuronales-Feed-Forward-Netz aufweist, das eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren.
  • Eine Klassifikation von Sondersignalen kann mittels eines Künstlichen Neuronalen Netzwerks (KNN, in engl. Artificial Neural Network ANN) erfolgen. KNNs bestehen dabei aus Netzen künstlicher Neuronen, die dem biologischen Vorbild, nämlich der Vernetzung von Neuronen im Nervensystem/Gehirn, entsprechend nachempfunden sind.
  • Ein neuronales Netzwerk stellt einen Rahmen für viele verschiedene Algorithmen zum maschinellen Lernen, zum Zusammenarbeiten und für die Verarbeitung komplexer Dateneingaben zur Verfügung. Solche neuronalen Netzwerke lernen, Aufgaben anhand von Beispielen auszuführen, ohne typischerweise mit aufgabenspezifischen Regeln programmiert worden zu sein.
  • Ein solches neuronale Netz basiert auf einer Sammlung verbundener Einheiten oder Knoten, die als künstliche Neurone bezeichnet werden. Jede Verbindung kann ein Signal von einem künstlichen Neuron zu einem anderen übertragen. Ein künstliches Neuron, das ein Signal empfängt, kann es verarbeiten und dann weitere damit verbundene künstliche Neuronen aktivieren.
    Bei herkömmlichen Implementierungen von neuronalen Netzen ist das Signal an einer Verbindung künstlicher Neuronen eine reelle Zahl, und der Ausgang eines künstlichen Neurons wird durch eine nichtlineare Funktion der Summe seiner Eingänge berechnet. Die Verbindungen der künstlichen Neurone haben typischerweise ein Gewicht, das sich mit fortschreitendem Lernen anpasst. Das Gewicht erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen können eine Schwelle aufweisen, so dass ein Signal nur dann ausgegeben wird, wenn das Gesamtsignal diese Schwelle überschreitet. Typischerweise wird eine Vielzahl von künstlichen Neuronen in Schichten zusammengefasst. Unterschiedliche Schichten führen möglicherweise unterschiedliche Arten von Transformationen für ihre Eingaben durch. Signale wandern von der ersten Schicht, der Eingabeschicht, zur letzten Schicht, der Ausgabeschicht, möglicherweise nach mehrmaligem Durchlaufen der Schichten.
  • Die Architektur des künstlichen Neuronalen-Feed-Forward-Netzes kann eine Architektur sein, die so konfiguriert ist, dass sie in ihrer Eingangsstufe ein einzelnes Datenmuster entsprechend einem Bild empfängt und einen Ausgangs-Klassifikationsvektor bereitstellt, der die Erkennungswahrscheinlichkeit für jede interessierende Klasse enthält.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator ein Multi-Layer-Perceptron (MLP) aufweist, das eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren.
  • Solch ein Netz gehört zur Familie der feed-forward Artificial Neural Networks. Grundsätzlich bestehen MLPs aus mindestens 3 Schichten von Neuronen: einer Eingabe-Schicht, einer Zwischen-Schicht (hidden layer) und einer AusgabeSchicht. Das bedeutet alle Neuronen des Netzwerks sind in Schichten eingeteilt, wobei ein Neuron einer Schicht immer mit allen Neuronen der nächsten Schicht verbunden ist. Es gibt keine Verbindungen zur vorherigen Schicht und keine Verbindungen, die eine Schicht überspringen. Bis auf die Eingabeschicht bestehen die unterschiedlichen Schichten aus Neuronen, die einer nichtlinearen Aktivierungsfunktion unterliegen, und mit den Neuronen der nächsten Schicht verbunden sind.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator ein künstliches Neuronales-Rückkopplungs-Netz aufweist, das eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren. Ein rückgekoppeltes neuronales Netz (engl. Recurrent Neural Network, RNN) ist ein neuronales Netz, das im Gegensatz zu den feed-forward Netzen auch Verbindungen von Neuronen einer Schicht zu Neuronen derselben oder einer vorangegangenen Schicht besitzen. Diese Struktur eignet sich dabei besonders um zeitlich codierte Informationen in den Daten zu entdecken.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator ein künstliches Neuronales-Faltungs-Netz aufweist, das eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren.
  • Ergänzend zu den Ausführungen zum Feed-Forward neuronalen Netz oben besteht der Aufbau eines künstliches Neuronales-Faltungs-Netz (Convolutional Neural Network) aus einer oder mehreren Faltungs-Schichten (convolutional layer), gefolgt von einem Pooling Layer. Die Abfolge von Schichten können mit oder ohne Normalisierungs-Schichten (z.B. Batch-Normalisierung), Zero-Padding-Schichten, Dropout-Schichten und Aktivierungs-Funktionen, wie z.B. Rectified Linear Unit ReLU, sigmoid-Funktion, tanh-Funktion oder softmax-Funktion, verwendet werden.
    Diese Einheiten können sich prinzipiell beliebig oft wiederholen, bei ausreichend Wiederholungen spricht man dann von Deep Convolutional Neural Networks. Nach einigen sich wiederholenden Blöcken bestehend aus Convolutional und Pooling Layer, wird das CNN mit einem (oder mehreren) Fully-connected Layern, ähnlich der Architektur des MLP, abgeschlossen.
  • Die Architektur solcher neuronalen Faltungsnetzwerke ist typischerweise aus zwei Teilen aufgebaut.
    Der erste Teil ist eine Abfolge von Schichten, die die Eingangsgitter auf eine niedrigere Auflösung herunter abtasten, um die gewünschten Informationen zu erhalten und die redundanten Informationen zu speichern.
    Der zweite Teil ist eine Abfolge von Schichten, die die Ausgabe des ersten Teils erneut in eine vollständig verbundene Schicht abtasten und die gewünschte Ausgangsauflösung erzeugen, wie z. B. einen Klassifizierungsvektor mit der gleichen Länge wie die Anzahl der zu klassifizierenden Gefahrensituationen kennzeichnende Signale.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator eingerichtet ist, Gefahrensituationen kennzeichnende Signale mittels abschnittsweisem Vergleich der Anzahl der Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen mit einer Anzahl von Mustern zu klassifizieren und abhängig vom Ergebnis des Vergleichs, dem Klassifikationsvektor unterschiedliche Werte zuzuordnen.
  • Der Vorteil dieses einfachen Ansatzes ist, dass im Gegensatz zu KNNs hier die Wirkungsweise des Algorithmus klar nachvollziehbar ist.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator eine „Support Vector Machine“ SVM aufweist, die eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren.
  • Dieser Algorithmus verwendet Trainingsdaten von denen jeweils bekannt ist, welcher Klasse sie zugehören und kann sowohl als Klassifikator als auch als Regressor eingesetzt werden. SVMs unterteilen dabei eine Menge von Datenpunkten/Objekten in einem n-dimensionalen Raum so in Klassen, dass um die Klassengrenzen ein möglichst großer n-dimensionaler „Bereich“ frei bleibt. Es wird also eine sog. Hyperebene gesucht, die die Datensets verschiedener Klassen möglichst gut voneinander separiert.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator ein k-Nearest-Neighbour k-NN (k-Nächste-Nachbarn) Klassifikator ist. Dies ist eine parameterfreie Methode mit der Wahrscheinlichkeitsdichtefunktionen abgeschätzt werden. Die Klassenzuordnung erfolgt lediglich unter Berücksichtigung der k nächsten Nachbarn. Im einfachsten Fall erfolgt die Klassifikation durch eine simple Mehrheitsentscheidung bei der die k nächsten Objekte beteiligt sind. Ein Objekt x wird derjenigen Klasse zugewiesen, welche die größte Anzahl der Objekte dieser k Nachbarn hat. Um die k nächsten Nachbarn zu ermitteln, sind viele Abstandsmaße (wie zum Beispiel euklidischer Abstand, etc.) denkbar. Dazu wird ein k-NN Klassifikator anhand von Daten bekannter Klassen trainiert werden.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator einen Vor-Klassifikator und einen Haupt-Klassifikator aufweist, und der Vor-Klassifikator eingerichtet ist Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, zu identifizieren. Der Haupt-Klassifikator ist eingerichtet Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, durch Werte des Klassifikationsvektors zu klassifizieren, wenn der Vor-Klassifikator Gefahrensituationen kennzeichnende Signale, in den zeitlich aufeinanderfolgenden digitalen Audiodaten identifiziert hat.
  • Da der Vor-Klassifikator eine weniger komplexe Aufgabe zu lösen hat, ist der Vorteil gegeben, dass der Vor-Klassifikator schneller und mit weniger Ressourcen identifizieren kann, ob überhaupt ein Gefahrensituationen kennzeichnendes Signal vorliegt, bevor die komplexere Aufgabe der genauen Klassifikation angeschlossen wird.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass der Klassifikator eine Anzahl von Teil-Klassifikatoren aufweisen, die jeweils nur auf ein zu klassifizierendes Signal trainiert sind und die Klassifikationsaufgabe parallel abarbeiten. Damit sind die Teil-Klassifikatoren hochspezifisch einzeln trainierbar und robuster gegen Falschklassifikation. Dazu werden N Klassifikatoren einzeln trainiert, wobei N die Anzahl der alternativen Klassen ist. Die einzelnen „binären“ Klassifikatoren können auf verschiedene Weisen zu einem Gesamt-Klassifikator kombiniert werden.
    Die finale Bewertung der Klassifikation kann dann durch die Klasse mit der höchsten Wahrscheinlichkeit aus den Einzel-Klassifikatoren erfolgen.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass abhängig von mindestens einem der Werte des Klassifikationsvektors ein Ansteuerungssignal, zur Ansteuerung eines wenigstens teilautomatisierten Fahrzeugs, und/oder ein Warnsignal, zur Warnung eines Fahrzeuginsassen, ausgesendet wird.
  • Basierend auf dem Ansteuerungssignal kann insbesondere eine Längs- oder Querführung durch das Fahrzeug erfolgen.
  • Ein solches Ansteuerungssignal kann somit beispielsweise einer Steuereinheit oder einem Aktuator zugeführt werden, die dann jeweils Vorgänge, wie beispielsweise einen Lenkvorgang, einen Beschleunigungs- oder Bremsvorgang einleiten können.
  • Basierend auf dem Warnsignal kann beispielsweise eine Anzeigeeinheit derart angesteuert werden, dass ein Fahrzeuginsasse einen Hinweis auf ein zukünftiges Ereignis erhält. Beispielsweise auf das sich Nähern eines Einsatzfahrzeugs, sodass eine angepasste Handlung durch den Fahrer erfolgen kann.
  • Diese Ausgestaltung des Verfahrens bietet den Vorteil, dass sich die Sicherheit im Straßenverkehr erhöht. Zum einen können sich Rettungsfahrzeuge schneller Fortbewegen, zum anderen können Verkehrsunfälle durch Rettungsfahrzeuge verhindert werden.
  • Unter einem wenigstens teilautomatisierten Fahrzeug können insbesondere auch Roboter, wie Logistik- und/oder Industrieroboter verstanden werden. Auch mobile Gartengeräte wie wenigstens teilautomatisiert betriebene Rasenmäher oder dergleichen fallen unter diese Definition.
  • Bei dem wenigstens teilautomatischen Fahrzeug kann es sich auch um einen anderen mobilen Roboter handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautomatischen Putzroboter handeln.
  • Insbesondere können diese Fahrzeuge basierend auf einem Wert des Klassifikationsvektors zum Stillstand gebracht werden und/oder vollständig abgeschaltet werden. Falls beispielsweise, basierend auf dem Klassifikationsvektor, eine Gefahr für ein Lebewesen, insbesondere einen Menschen, abgeleitet wird, dient eine entsprechende Ansteuerung der Erhöhung der Betriebssicherheit des entsprechenden Fahrzeugs. Bei Logistik-, Putz- und/oder Mährobotern können auf diese Weise Unfälle mit verhindert werden, insbesondere mit Mitarbeiter, Haustieren und Kindern.
  • Gemäß einer weiteren Ausgestaltung des Verfahrens wird vorgeschlagen, dass abhängig von mindestens einem der Werte des Klassifikationsvektors eine Fahrtroute für ein zumindest teilautomatisches Fahrzeug oder für ein Fahrerassistenzsystem aus einer Vielzahl von Fahrtrouten bestimmt wird. Bei einem Fahrerassistenzsystem würde die Bestimmung einen Vorschlag an den Fahrer betreffen. Wenn nämlich ein Wert des Klassifikationsvektors angibt, dass ein akustisches Signal identifiziert wurde, das eine Gefahrensituationen kennzeichnet, kann, abhängig von einer gegenwärtigen Verkehrssituation, eine Fahrtroute bestimmt werden, die z. B. eine freie Gasse bilden hilft oder es kann z. B. eine Fahrtroute mit einer reduzierten Geschwindigkeit bestimmt werden.
  • Es wird ein Computerprogramm vorgeschlagen, welches Befehle umfasst, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das oben beschriebene Verfahren auszuführen.
  • Ein Computerprogramm umfasst den Programmcode in einer beliebigen Programmiersprache, ein Computerprogramm, eine kompilierte Version des Programmcodes, eine Firmware, mittels der der Programmcode umgesetzt ist oder auch einen Chip, dessen Funktionalität den Programmcode abbildet.
  • Außerdem wird ein maschinenlesbares Speichermedium vorgeschlagen, das Befehle umfasst, die bei der Ausführung durch einen Computer diesen veranlassen, das oben beschriebene Verfahren auszuführen.
  • Außerdem wird ein maschinenlesbares Speichermedium vorgeschlagen, auf dem das Computerprogramm gespeichert ist.
  • Erfindungsgemäß wird eine Vorrichtung angegeben, die eingerichtet ist, eines der oben beschriebenen Verfahren auszuführen.
  • Bei der Vorrichtung kann es sich insbesondere um ein Steuergerät, beispielsweise für einen zumindest teilautomatischen Roboter, insbesondere für ein wenigstens teilautomatisches Fahrzeug, handeln.
  • Erfindungsgemäß wird ein Entscheidungssystem für eine Fahrtroute eines Fahrzeugs vorgeschlagen, das eingerichtet ist, eines der oben beschriebenen Verfahren auszuführen, und abhängig vom Wert des Klassifikationsvektors eine Fahrtroute, aus einer Vielzahl von Fahrtrouten für ein Fahrzeug, zu bestimmen. Ein solches Entscheidungssystem kann sowohl in zumindest teilweise automatischen Fahrzeugen als auch als für den Einsatz in einem Fahrerassistenzsystem vorgesehen sein.
  • Ausführungsbeispiele
  • Ausführungsbeispiele der Erfindung werden mit Bezug auf die 1 bis 2 dargestellt und im Folgenden näher erläutert. Es zeigen:
    • 1a eine Abfolge von Frequenzkomponenten über der Zeit ohne Sondersignal;
    • 1b eine Abfolge von Frequenzkomponenten über der Zeit mit einem Folgensignal;
    • 1c eine Abfolge von Frequenzkomponenten über der Zeit mit einem Wail-Signal;
    • 2 ein Verfahren zum Klassifizieren akustischer Signale.
  • Das Ausführungsbeispiel zeigt exemplarisch an drei unterschiedlichen zeitlich aufeinanderfolgenden digitalen Audiodaten, die unterschiedliche akustische Signale beschreiben, wie das erfindungsgemäße Verfahren diese klassifiziert.
  • Dabei werden in einem ersten Schritt S1 die zeitlich aufeinanderfolgenden digitalen Audiodaten aus dem Zeit-Raum in einen Frequenz-Raum transformiert. Exemplarisch kann das mit einer Kurzzeit-Fourier-Transformation erfolgen.
  • Bei der Berechnung einer Vielzahl von Frequenz-Repräsentationen für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden Audiodaten wird ein Zeitfenster von 0,2 Sekunden vom Anfang von ca. drei Sekunden der zeitlich aufeinanderfolgenden digitalen Audiodaten, mittels der Kurzzeit-Fourier-Transformation in den Frequenzraum mit beispielsweise 2048 Amplitudenwerten überführt und somit eine Frequenz-Repräsentation für dieses erste Zeitfenster erstellt. Dieses Zeitfenster wird dann um 0,1 Sekunden in der Zeit weiter verschoben, um eine weitere Kurzzeit-Fourier-Transformation durchzuführen und eine zweite Frequenz-Repräsentation zu bilden. Diese Schritte werden wiederholt bis der Algorithmus das Ende der ca. drei Sekunden erreicht hat. Dies führt zu einer Vielzahl von 28 Frequenz-Repräsentationen für die ca. drei Sekunden.
  • Die Frequenz-Repräsentationen werden in ihre Oktaven aufgeteilt, also die Frequenzbereiche bei denen das Ende eines Bereichs durch den doppelten Wert der Frequenz des Anfangs des Bereiches gebildet wird. Innerhalb jeder solcher Oktave werden eine bestimmte Anzahl von Frequenzsegmenten für jede einzelne Frequenz-Repräsentation gebildet S2. Diese bestimmte Anzahl kann z. B. 12 sein. Beispielhaft werden diese Frequenzsegmente gleichmäßig und nebeneinander angeordnet in der Oktave gebildet und umfassen eine Teilmenge jeder der einzelnen Frequenz-Repräsentationen.
  • Die Werte der beispielsweise 12 Frequenzsegmente werden aus den korrespondierenden Frequenzsegmenten, also den Segmenten die innerhalb der Oktaven an der gleichen Position angeordnet sind, der unterschiedlichen Oktaven jeder einzelnen Frequenz-Repräsentation addiert S3. Damit werden dann 12 addierte Frequenzsegmente gebildet, von denen jeweils ein Mittelwert gebildet wird und so Frequenz-Komponenten berechnet werden S4.
  • Diese 12 Frequenz-Komponenten der 28 Frequenz-Repräsentationen werden z. B. als 28 x 12 Bild als Eingangswert einem Klassifikator übergeben, der daraus einen Klassifikationsvektor generiert S5 dessen Werte die Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, klassifiziert und dem Klassifikationsvektor der Klassifikation entsprechende Werte zuordnet.
  • Der Klassifikator weist in diesem Ausführungsbeispiel ein künstliches Neuronales-Faltungs-Netz auf, das eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren.
  • Dabei besteht das künstliche Neuronale-Faltungs-Netz aus einer Folge von zwei Blöcken mit Faltungsschichten.
    Der erste Block weist die folgenden Schichten auf:
    • • Null auffüllende Schicht (engl. zero padding layer); Rückskalierung des Eingangs mit +1 in beide Bildrichtungen
    • • Faltungsschicht mit Kernel Nummer N1 (e.g. N1=16) 3x3 und Schrittweite (engl. stride ) 1, ReLU Aktivierungsfunktion
    • • Null auffüllende Schicht; Rückskalierung des Eingangs mit +1 in beide Bildrichtungen
    • • Faltungsschicht mit Kernel Nummer N1 (e.g. N1=16) 3x3 und Schrittweite 1, ReLU Aktivierungsfunktion
    • • Maximum-Pooling Schicht der Größe 2x2 und Schrittweite 2
    • • Dropout Schicht
    Zweiter Block:
    • • Null auffüllende Schicht; Rückskalierung des Eingangs mit +1 in beide Bildrichtungen
    • • Faltungsschicht mit Kernel Nummer N1 (e.g. N1=16) 3x3 und Schrittweite 1, ReLU Aktivierungsfunktion
    • • Null padding Schicht; Rückskalierung des Eingangs mit +1 in beide Bildrichtungen
    • • Faltungsschicht mit Kernel Nummer N1 (e.g. N1=16) 3x3 und Schrittweite 1, ReLU Aktivierungsfunktion
    • • Maximum-Pooling Schicht der Größe 2x2 und stride 2
    • • Dropout Schicht
  • Um die Netzwerkmodellarchitektur zu vervollständigen, sind eine vollständig verbundene Schicht und eine dicht verbundene Ausgabeschicht, mit Aktivierungsfunktion „Softmax“, enthalten. Die Dropout-Schichten, schalten einige Neuronen im neuronalen Netzwerk zufällig stumm, um die Möglichkeit einer Überanpassung zu verringern. Die letzte Schicht hat eine Ausgabegröße, die der Anzahl der Kategorien Gefahrensituationen kennzeichnender Signale entspricht. Tabelle 1 beschreibt die Schichten detaillierter.
    Schicht (Typ) Ausgangsform Parameter #
    zero padding2d 1 (30, 14, 1) 0
    conv2d 1 (28, 12, 16) 160
    zero padding2d 2 (30, 14, 16) 0
    conv2d 2 (28, 12, 16) 2320
    max pooling2d 1 (14, 6, 16) 0
    dropout 1 (14, 6, 16) 0
    zero padding2d 3 (16, 8, 16) 0
    conv2d 3 (14, 6, 32) 4640
    zero padding2d 4 (16, 8, 32) 0
    conv2d 4 (14, 6, 32) 9248
    max pooling2d 2 (7, 3, 32) 0
    dropout 2 (7, 3, 32) 0
    flatten 1 (672) 0
    dense 1 (64) 43072
    dropout 3 (64) 0
    output node (Anzahl der Klassen) (64+1) x Anzahl der Klassen
  • Der Eingang ist ein 28x12x1 Bild bzw. Tensor-Datenmuster
  • Geeignete Neuronale Netze gemäß dieser Erfindung werden trainiert indem in einer Eingangsschicht eine Anzahl von Frequenz-Komponenten einer Vielzahl von Frequenz-Repräsentationen als Trainingsdaten bereitgestellt werden und die Ausgangsdaten des Neuronalen Netzes mit den erwarteten Klassifizierungen verglichen werden. Dann werden die Parameter des Neuronalen Netzes modifiziert bis eine Übereinstimmung ausreichend genau ist (engl. superwised learning).
  • Die 1a bis 1c zeigen Beispiele für Eingangswerte, die dem Klassifikator übergeben werden. Die Abszisse stellt jeweils eine Zeitachse dar und die Ordinate gibt die 12 Frequenz-Komponenten an. Die Schwärze der kleinen Teilflächen 10, 12 der jeweiligen Figur ist proportional zur Höhe des Wertes der Frequenz-Komponente.
    Die 1a zeigt die Werte der Frequenz-Komponenten, wenn kein Sondersignal in den Audiodaten detektiert wird. In der 1b ist das
    Folgensignal klar, aus den zeitlich wechselnden Frequenz-Komponenten mit der höchsten Amplitude 10, erkenntlich. Die 1c zeigt ein Yelp Sondersignal, bei dem die Frequenz-Komponenten mit maximaler Amplitude 12 zeitlich fortlaufend unterschiedliche der zwölf Frequenz-Komponenten durchläuft. Es ist deutlich erkenntlich, dass das Verfahren geeignet ist, Sondersignale aus Verkehrssituationen heraus so aufzubereiten, dass die Klassifikation dieser Bilder mit unterschiedlichen Klassifikatoren möglich ist.

Claims (15)

  1. Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten, die Gefahrensituationen kennzeichnende akustische Signale beschreiben, mit den Schritten: Berechnen einer Vielzahl von Frequenz-Repräsentationen (S1) für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden Audiodaten; Bilden einer bestimmten Anzahl von Frequenzsegmenten (S2) für jede Oktave jeder einzelnen Frequenz-Repräsentation, wobei die Frequenzsegmente eine Teilmenge der einzelnen Frequenz-Repräsentation umfassen; Addieren von korrespondierenden Frequenzsegmenten (S3) der Oktaven jeder einzelnen Frequenz-Repräsentation; Berechnen von Frequenz-Komponenten (S4) durch Bilden von Mittelwerten für die einzelnen addierten Frequenzsegmente in jeder einzelnen Frequenz-Repräsentation; Generieren eines Klassifikationsvektors (S5) mittels eines Klassifikators und der Anzahl der Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, wobei der Klassifikator eingerichtet ist Gefahrensituationen kennzeichnende Signale, die mit den zugehörigen zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der zugehörigen Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, zu klassifizieren und dem Klassifikationsvektor der Klassifikation entsprechende Werte zuzuordnen.
  2. Verfahren nach Anspruch 1, wobei die Frequenzsegmente der Anzahl der Frequenzsegmente für jede Oktave jeder einzelnen Frequenz-Repräsentation innerhalb einer Oktave so angeordnet sind, dass die Frequenzsegmente sich zumindest teilweise gegenseitig überlappen.
  3. Verfahren nach Anspruch 1 oder 2, wobei die zeitlich aufeinanderfolgenden digitalen Audiodaten auf das Vorhandensein von Grundtönen und Obertönen analysiert werden und Frequenzen in einem Frequenzband um diese Grundtöne und Obertöne in den Audiodaten abgeschwächt werden, bevor die Vielzahl von Frequenz-Repräsentationen für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden Audiodaten berechnet werden.
  4. Verfahren nach einem der vorangehenden Ansprüche, wobei das Berechnen der Vielzahl von Frequenz-Repräsentationen für schrittweise fortschreitende Zeitintervalle der zeitlich aufeinanderfolgenden Audiodaten mittels einer Kurzzeit-Fourier-Transformation oder einer Wavelet-Transformation erfolgt.
  5. Verfahren nach einem der vorangehenden Ansprüche, wobei die Frequenz-Komponenten jeder einzelnen Frequenz-Repräsentation vor dem Generieren des Klassifikationsvektors normiert werden.
  6. Verfahren nach Anspruch 5, wobei die Frequenz-Komponenten jeder einzelnen Frequenz-Repräsentation auf den Wert eins normiert werden oder die Frequenz-Komponenten jeder einzelnen Frequenz-Repräsentation mittels eines Histogrammausgleich-Verfahrens normiert werden.
  7. Verfahren nach einem der vorangehenden Ansprüche, wobei der Klassifikator ein künstliches Neuronales-Feed-Forward-Netz aufweist, das eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren.
  8. Verfahren nach einem der Ansprüche 1 bis 7, wobei der Klassifikator ein künstliches Neuronales-Rückkopplungs-Netz aufweist, das eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten einer Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren.
  9. Verfahren nach einem der vorangehenden Ansprüche, wobei der Klassifikator ein künstliches Neuronales-Faltungs-Netz aufweist, das eingerichtet und trainiert wurde Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen durch Generieren von Werten des Klassifikationsvektors zu klassifizieren.
  10. Verfahren nach einem der Ansprüche 1 bis 7, wobei der Klassifikator eingerichtet ist Gefahrensituationen kennzeichnende Signale mittels abschnittsweisem Vergleich der Anzahl der Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen mit einer Anzahl von Mustern zu klassifizieren und abhängig vom Ergebnis des Vergleichs, dem Klassifikationsvektor unterschiedliche Werte zuzuordnen.
  11. Verfahren nach einem der Ansprüche 1 bis 7, wobei der Klassifikator einen Vor-Klassifikator und einen Haupt-Klassifikator aufweist, und der Vor-Klassifikator eingerichtet ist Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, zu identifizieren, und der Haupt-Klassifikator eingerichtet ist Gefahrensituationen kennzeichnende Signale, die mit zeitlich aufeinanderfolgenden digitalen Audiodaten beschrieben werden, mittels der Anzahl von Frequenz-Komponenten der Vielzahl von Frequenz-Repräsentationen, durch Werte des Klassifikationsvektors zu klassifizieren, wenn der Vor-Klassifikator Gefahrensituationen kennzeichnende Signale, in den zeitlich aufeinanderfolgenden digitalen Audiodaten identifiziert hat.
  12. Verfahren nach einem der vorangehenden Ansprüche, wobei abhängig von mindestens einem der Werte des Klassifikationsvektors ein Ansteuerungssignal zur Ansteuerung eines wenigstens teilautomatisierten Fahrzeugs und/oder ein Warnsignal zur Warnung eines Fahrzeuginsassen ausgesendet wird.
  13. Vorrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen.
  14. Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.
  15. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 14 gespeichert ist.
DE102019205543.5A 2019-04-17 2019-04-17 Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten Pending DE102019205543A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102019205543.5A DE102019205543A1 (de) 2019-04-17 2019-04-17 Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten
CN202010298706.6A CN111833904A (zh) 2019-04-17 2020-04-16 用于将在时间上彼此跟随的数字音频数据分类的方法
US16/850,780 US11404074B2 (en) 2019-04-17 2020-04-16 Method for the classification of temporally sequential digital audio data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019205543.5A DE102019205543A1 (de) 2019-04-17 2019-04-17 Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten

Publications (1)

Publication Number Publication Date
DE102019205543A1 true DE102019205543A1 (de) 2020-10-22

Family

ID=72660275

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019205543.5A Pending DE102019205543A1 (de) 2019-04-17 2019-04-17 Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten

Country Status (3)

Country Link
US (1) US11404074B2 (de)
CN (1) CN111833904A (de)
DE (1) DE102019205543A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3115423A1 (en) * 2020-05-01 2021-11-01 Systemes De Controle Actif Soft Db Inc. A system and a method for sound recognition
CN112937364B (zh) * 2021-04-02 2023-01-31 中车青岛四方机车车辆股份有限公司 一种车辆的制动方法、系统、装置及牵引装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100126332A1 (en) * 2008-11-21 2010-05-27 Yoshiyuki Kobayashi Information processing apparatus, sound analysis method, and program
DE202013007042U1 (de) * 2013-08-06 2013-12-06 Claus Breitung Martinshornwarner für Radio- und Multimediageräte in Straßenverkehrsfahrzeugen

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331573B2 (en) * 2007-10-16 2012-12-11 Agere Systems Llc Applause attenuation system
US9788777B1 (en) * 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
WO2017158105A1 (en) * 2016-03-18 2017-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding by reconstructing phase information using a structure tensor on audio spectrograms
EP3223253A1 (de) * 2016-03-23 2017-09-27 Thomson Licensing Mehrstufiger verfolger für akustische aktivität basierend auf akustischer erkennung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100126332A1 (en) * 2008-11-21 2010-05-27 Yoshiyuki Kobayashi Information processing apparatus, sound analysis method, and program
DE202013007042U1 (de) * 2013-08-06 2013-12-06 Claus Breitung Martinshornwarner für Radio- und Multimediageräte in Straßenverkehrsfahrzeugen

Also Published As

Publication number Publication date
US20200335123A1 (en) 2020-10-22
CN111833904A (zh) 2020-10-27
US11404074B2 (en) 2022-08-02

Similar Documents

Publication Publication Date Title
DE102019106204B4 (de) Ultraschallsystem mit zentralisierter Objekterkennung auf Basis von dekomprimierten Ultraschallsignalen mehrerer Sensoren und zugehöriges Kompressionsverfahren
DE60115653T2 (de) Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
DE60108373T2 (de) Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation
WO1993006591A1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE102019009243B3 (de) Sensorsystem mit Übertragung des Ultraschallsignals an das Rechnersystem mittels approximierender Signalobjektkompression und -dekompression
WO2005025918A1 (de) Verfahren und vorrichtung zur fahrerunterstützung
DE3938645C1 (de)
DE102019205543A1 (de) Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten
DE102020210352A1 (de) Verfahren und Vorrichtung zum Transferlernen zwischen modifizierten Aufgaben
DE4010028C2 (de) Spracherkennungsverfahren
WO2020126597A1 (de) Verfahren, computerprogramm, maschinenlesbares speichermedium sowie vorrichtung zur datenvorhersage
DE102020003692A1 (de) Assistenzsystem zur schallabhängigen Erkennung von Objekten im Straßenverkehr und einer Warnfunktion
DE102019209463A1 (de) Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
EP4189673A1 (de) Computerimplementiertes verfahren und computerprogramm zum maschinellen lernen einer robustheit eines akustischen klassifikators, akustisches klassifikationssystem für automatisiert betreibbare fahrsysteme und automatisiert betreibbares fahrsystem
DE69726458T2 (de) Vorichtung und verfahren zur analyse und zum filtern von geräuschen
DE102019213697B4 (de) Verfahren zum Erkennen einer Annäherung und/oder Entfernung eines Einsatzfahrzeugs relativ zu einem Fahrzeug
DE102022106036A1 (de) Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug
DE102019107126B3 (de) Verarbeiten eines Ultraschallsignals mittels eines künstlichen neuronalen Netzwerks
DE102021204040A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung von Trainingsdaten im Fahrzeug
DE19705471C2 (de) Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
EP4007990A1 (de) Verfahren zur analyse von bild-informationen mit zugeordneten skalaren werten
DE102020202603A1 (de) Vorrichtung und Verfahren zum Erkennen eines charakteristischen Signals im Umfeld eines Fahrzeugs
DE102019009130A1 (de) Approximierendes Kompressionsverfahren für Ultraschallsensordaten
DE102019215269A1 (de) Verfahren und Vorrichtung zum Bereitstellen eines Arbeitsspektrums für einen zum Klassifizieren eines Tonsignals ausgebildeten Algorithmus des maschinellen Lernens und Verfahren zum Klassifizieren eines Tonsignals
DE4404775C1 (de) Verfahren zum Betrieb eines hybriden neuronalen Netzwerks zur automatischen Objekterkennung

Legal Events

Date Code Title Description
R163 Identified publications notified