DE102020200946A1 - Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien - Google Patents

Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien Download PDF

Info

Publication number
DE102020200946A1
DE102020200946A1 DE102020200946.5A DE102020200946A DE102020200946A1 DE 102020200946 A1 DE102020200946 A1 DE 102020200946A1 DE 102020200946 A DE102020200946 A DE 102020200946A DE 102020200946 A1 DE102020200946 A1 DE 102020200946A1
Authority
DE
Germany
Prior art keywords
abcd
audio segments
audio
feature vectors
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020200946.5A
Other languages
English (en)
Inventor
Jakob Abesser
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE102020200946.5A priority Critical patent/DE102020200946A1/de
Priority to PCT/EP2021/051804 priority patent/WO2021151915A1/de
Priority to EP21702020.5A priority patent/EP4097695B1/de
Publication of DE102020200946A1 publication Critical patent/DE102020200946A1/de
Priority to US17/874,072 priority patent/US20220358952A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/02Mechanical actuation
    • G08B13/04Mechanical actuation by breaking of glass
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/04Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
    • G08B21/0438Sensor means for detecting
    • G08B21/0469Presence detectors to detect unsafe condition, e.g. infrared sensor, microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Gerontology & Geriatric Medicine (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Emergency Alarm Devices (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

Erhalten einer Langzeitaufnahme (113) mit einer Vielzahl von ersten Audiosegmenten (ABCD) zugeordnet zu jeweiligen ersten Zeitfenstern; Analysieren der Vielzahl der ersten Audiosegmente (ABCD), um zu jedem der Vielzahl der ersten Audiosegmente (ABCD) einen das jeweilige erste Audiosegment (ABCD) beschreibenden ersten Merkmalsvektor zu erhalten; Erhalten einer weiteren Aufnahme (123) mit einem oder mehreren zweiten Audiosegmenten (ABCD) zugeordnet zu jeweiligen zweiten Zeitfenstern; Analysieren der einen oder mehreren zweiten Audiosegmente (ABCD), um einen oder mehrere die einen oder mehreren zweiten Audiosegmente (ABCD) beschreibenden Merkmalsvektoren zu erhalten; Abgleichen der einen oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren, um zumindest eine Anomalie, wie z.B. eine zeitliche, klangliche oder räumliche Anatomie, zu erkennen.

Description

  • Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf ein Verfahren, eine Vorrichtung zur Erkennung von akustischen Anomalien. Weitere Ausführungsbeispiele beziehen sich auf ein entsprechendes Computerprogramm. Entsprechend Ausführungsbeispielen erfolgt die Erkennung einer Normalsituation sowie die Erkennung von Anomalien im Vergleich zu dieser Normalsituation.
  • In realen akustischen Szenen existiert i.d.R. eine komplexe Überlagerung mehrerer Klangquellen. Diese können vorder- und hintergründig sowie beliebig räumlich positioniert sein. Ebenso ist eine Vielzahl möglicher Klänge denkbar, welche von sehr kurzen transienten Signalen (z. B. Klatschen, Schuss) bis zu längeren, stationären Klängen (Sirene, vorbeifahrende Bahn) reichen können. Eine Aufnahme umfasst typischerweise einen bestimmten Zeitraum, der bei nachfolgender Betrachtung in ein oder mehrere Zeitfenster untergliedert ist.. Ein Geräusch kann sich ausgehend von dieser Unterteilung und je nach Geräuschlänge (vgl. transientes oder längerer, stationärer Klang) über ein oder mehrere Audiosegment/ Zeitfenster hinweg erstrecken.
  • In vielen Anwendungsszenarien muss eine Anomalie, also eine klangliche Abweichung vom „akustischen Normalzustand“, also der Menge als „normal“ angesehener Geräusche, erkannt werden. Beispiele solcher Anomalien sind Glasbruch (Einbruchsdetektion), ein Pistolenschuss (Überwachung öffentlicher Ereignisse) oder eine Kettensäge (Überwachung von Naturschutzgebieten).
  • Problematisch ist, dass der Klang der Anomalie (Nicht-in-Ordnung-Klasse) oft nicht bekannt ist oder nicht genau definiert oder beschrieben werden kann (z. B. wie kann eine kaputte Maschine klingen?).
  • Das zweite Problem liegt darin, dass neuartige Algorithmen zur Klangklassifikation mittels tiefer neuronaler Netze sehr empfindlich gegenüber veränderten (und oftmals unbekannten) akustischen Bedingungen im Einsatzszenario sind. So erreichen Klassifikationsmodelle, die mit Audiodaten trainiert werden, welche bspw. mit einem hochwertigen Mikrofon aufgenommen wurden, bei der Klassifikation von Audiodaten, welche mittels eines schlechteren Mikrofons aufgenommen wurden, nur schlechte Erkennungsraten. Mögliche Lösungsansätze liegen im Bereich „Domain Adaptation“, also der Anpassung der Modelle oder der zu klassifizierenden Audiodaten, um eine höhere Robustheit in der Erkennung zu erreichen. In der Praxis ist es aber logistisch oft schwierig und zu teuer, repräsentative Audioaufnahmen am späteren Einsatzort eines Audioanalysesystems aufzunehmen und anschließend bezüglich enthaltener Klangereignisse zu annotieren.
  • Das dritte Problem der Audioanalyse von Umweltgeräuschen liegt in datenschutzrechtlichen Bedenken, da Klassifikationsverfahren theoretisch auch zur Erkennung und Transkription von Sprachsignalen (z. B. bei der Aufnahme einer Unterhaltung in der Nähe des Audiosensors) genutzt werden können.
  • Die Klassifikationsmodelle von bestehenden Stand der Technik-Lösungen gestalten wie folgt:
    • Wenn die zu detektierende klangliche Anomalie genau spezifiziert werden kann, so kann ein Klassifikationsmodell basierend auf maschinellen Lernalgorithmen mittels überwachten Lernens (supervised learning) auf die Erkennung bestimmter Geräuschklassen trainiert werden. Aktuelle Studien zeigen, dass insbesondere neuronale Netze sehr empfindlich gegenüber veränderten akustischen Bedingungen sind und eine zusätzliche Adaptierung von Klassifikationsmodellen an die jeweilige akustische Situation der Anwendung durchgeführt werden muss.
  • Ausgehend von oben erläuterten Nachteilen besteht der Bedarf nach einem verbesserten Ansatz. Aufgabe der vorliegenden Erfindung ist es, ein Konzept zur Detektion von Anomalien zu schaffen, das in Bezug auf das Anlernverhalten optimiert und das eine zuverlässige und genaue Erkennung von Anomalien ermöglicht.
  • Die Aufgabe wird durch unabhängige Patentansprüche gelöst.
  • Ausführungsbeispiele der vorliegenden Erfindung schaffen ein Verfahren zur Erkennung von akustischen Anomalien. Das Verfahren umfasst die Schritte des Erhaltens einer Langzeitaufnahme mit einer Vielzahl von ersten Audiosegmenten zugeordnet zu jeweiligen ersten Zeitfenstern und des Analysierens der Vielzahl der ersten Audiosegmente, um zu jedem der Vielzahl der ersten Audiosegmente einen das jeweilige erste Audiosegment beschreibenden ersten Merkmalsvektor, wie z. B. ein Spektrum für das Audiosegment (Zeit-Frequenz-Spektrum) oder einen Audiofingerabdruck mit bestimmten Charakteristika für das Audiosegment zu erhalten. Beispielsweise ist das Resultat der Analyse einer in eine Vielzahl von Zeitfenstern unterteilte Langzeitaufnahme eine Vielzahl von ersten (ein- oder mehrdimensionalen) Merkmalsvektoren für die Vielzahl der ersten Audiosegmente (zugeordnet zu den entsprechenden Zeitpunkten/-fenstern der Langzeitaufnahme), die den „Normalzustand“ repräsentieren. Das Verfahren umfasst weitere Schritte des Erhaltens einer weiteren Aufnahme mit einem oder mehreren zweiten Audiosegmenten zugeordnet zu jeweiligen zweiten Audiofenstern und des Analysierens der ein oder mehreren zweiten Audiosegmente, um ein oder mehrere die ein oder mehreren zweiten Audiosegmente beschreibenden Merkmalsvektoren zu erhalten. Insofern ist das Ergebnis des zweiten Teils des Verfahrens beispielsweise eine Vielzahl von zweiten Merkmalsvektoren (z. B. mit entsprechenden Zeitpunkten der weiteren Aufnahme). In einem nachfolgenden Schritt erfolgt dann das Abgleichen der ein oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren (z. B. durch Vergleich der Identitäten oder Ähnlichkeiten oder durch Erkennen einer Reihenfolge), um zumindest eine Anomalie zu erkennen. Denkbar wären entsprechend Ausführungsbeispielen das Erkennen von unterschiedlichen Formen von Anomalien, nämlich eine klangliche Anomalie (das heißt ein Erkennen eines erstmaligen Auftretens eines bisher ungehörten Klanges), einer zeitlichen Anomalie (z. B. verändertes Wiederholmuster eines bereits gehörten Klanges) oder eine räumliche Anomalie (Auftretens eines bereits gehörten Klanges an einer bisher unbekannten räumlichen Position).
  • Ausführungsbeispielen der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass alleine durch eine Langzeitklanganalyse (Phase 1 des Verfahrens umfassend die Schritte Erhalten einer Langzeitaufnahme und Analysieren derselben) selbstständig ein „akustischer Normalzustand“ und „normale Geräusche“ angelernt werden können. D.h., dass durch diese Langzeitklanganalyse ein selbstständiges bzw. autonomes Anpassen eines Analysesystems an eine bestimmte akustische Szene erfolgt. Es sind keine annotierten Trainingsdaten (Aufnahme + semantische Klassenannotation) erforderlich, was eine große Ersparnis an Zeit, Aufwand und Kosten darstellt. Wenn dieser akustische „Normalzustand“ bzw. die „normalen“ Geräusche erfasst sind, kann die aktuelle Geräuschumgebung in einer nachfolgenden Analysephase (Phase 2 mit den Schritten Erhalten einer weiteren Aufnahme und Analysieren derselben) erfolgen. Hierbei erfolgt ein Abgleich der aktuellen Audiosegment / aktuellen Geräuschkulisse mit den im Vorfeld / in Phase 1 erkannten bzw. angelernten „normalen“ Geräuschen. Im Allgemeinen heißt das, dass Phase 1 ein Erlernen eines Modells anhand der normalen Geräuschkulisse auf Basis eines statistischen Verfahrens bzw. maschinellen Lernens ermöglicht, wobei dieses Modell es anschließend (in Phase 2) erlaubt, aktuell aufgenommene Geräuschkulisse damit bezüglich ihres Neuigkeitsgrades (Wahrscheinlichkeit einer Anomalie) abzugleichen.
  • Ein weiterer Vorteil dieses Ansatzes liegt darin, dass die Privatsphäre der sich möglicherweise im direkten Umfeld der akustischen Sensoren befindlichen Menschen geschützt ist. Man spricht hiervon Privacy-by-design. Systembedingt ist keine Spracherkennung möglich, da Schnittstelle (Audio rein, Anomaliewahrscheinlichkeitsfunktion raus) klar definiert ist. Damit lassen sich mögliche Datenschutzbedenken beim Einsatz der akustischen Sensoren zerstreuen.
  • Entsprechend einem Ausführungsbeispiel sind also durch die Phase 1 eine Vielzahl von ersten Audiosegmenten erfasst, die nachfolgend auch als „normale“ bzw. „normal“ angesehene Geräusche/Audiosegmente bezeichnet werden. Entsprechend Ausführungsbeispielen ist unter Kenntnis dieser „normalen“ Audiosegmente es ermöglicht, eine sogenannte klangliche Anomalie zu erkennen. Hierbei wird dann der Unterschritt des Identifizierens eines zweiten Merkmalsvektors, der sich von den analysierten ersten Merkmalsvektoren unterscheidet, durchgeführt.
  • Entsprechend weiteren Ausführungsbeispielen umfasst das Verfahren beim Analysieren den Unterschritt des Identifizierens eines Wiederholmusters in der Vielzahl der ersten Zeitfenster. Hierbei werden also sich wiederholende Audiosegmente identifiziert und das daraus resultierende Muster bestimmt. Entsprechend Ausführungsbeispielen erfolgt das Identifizieren anhand von sich wiederholenden, identischen oder ähnlichen ersten Merkmalsvektoren zugehörig zu unterschiedlichen ersten Audiosegmenten. Entsprechend Ausführungsbeispielen kann beim Identifizieren auch ein Gruppieren von identischen und ähnlichen ersten Merkmalsvektoren bzw. ersten Audiosegmenten zu einer oder mehreren Gruppen erfolgen.
  • Entsprechend Ausführungsbeispielen umfasst das Verfahren das Erkennen einer Reihenfolge von ersten Merkmalsvektoren zugehörig zu den ersten Audiosegmenten oder das Erkennen einer Reihenfolge von Gruppen von identischen oder ähnlichen ersten Merkmalsvektoren bzw. ersten Audiosegmenten. Durch die Basisschritte ist es also vorteilhafterweise möglich, normale Geräusche zu erkennen bzw. normale Audioobjekte zu erkennen. Die Kombination dieser normalen Audioobjekte in zeitlicher Hinsicht zu einer bestimmten Reihenfolge oder einem bestimmten Wiederholmuster stellt dann also in Summe einen akustischen Normalzustand dar.
  • Entsprechend weiteren Ausführungsbeispielen wäre es auch denkbar, dass ein Wiederholmuster in dem einen oder mehreren zweiten Zeitfenstern und/oder eine Reihenfolge von zweiten Merkmalsvektoren zugehörig zu unterschiedlichen zweiten Audioobjekten bzw. von Gruppen von identischen oder ähnlichen zweiten Merkmalsvektoren erkannt wird. Dieses Verfahren ermöglicht dann entsprechend weiteren Ausführungsbeispielen, dass beim Abgleichen der Unterschritt des Abgleichens des Wiederholmusters der ersten Audiosegmente und/oder Reihenfolge bei den ersten Audiosegmenten mit dem Wiederholmuster der zweiten Audiosegmente und/oder Reihenfolge bei den zweiten Audiosegmenten erfolgt. Dieser Abgleich ermöglicht das Erkennen von einer zeitlichen Anomalie.
  • Entsprechend einem weiteren Ausführungsbeispiel kann das Verfahren den Schritt des Bestimmens einer jeweiligen Position für die jeweiligen ersten Audiosegmente umfassen. Entsprechend einem Ausführungsbeispiel kann auch das Bestimmen der jeweiligen Position für die jeweiligen zweiten Audiosegmente vorgenommen werden. Dies ermöglicht dann entsprechend einem Ausführungsbeispiel, dass durch den Unterschritt des Abgleichs der Position zugeordnet zu den jeweiligen ersten Audiosegmenten mit der Position zugeordnet zu dem entsprechenden jeweiligen zweiten Audiosegment das Erkennen einer räumlichen Anomalie vorgenommen wird.
  • Es sei angemerkt, dass für eine räumliche Lokalisation beispielsweise mind. 2 Mikrofone verwendet werden, während für die anderen beiden Anomalietypen ein Mikrofon ausreicht.
  • Wie oben bereits angedeutet, kann jeder Merkmalsvektor (erster und zweiter Merkmalsvektor) für die unterschiedlichen Audiosegmente jeweils eine Dimension oder mehrere Dimensionen aufweisen. Eine mögliche Realisierung eines Merkmalsvektors wäre beispielsweise ein Zeit-Frequenz-Spektrum. Entsprechend einem Ausführungsbeispiel kann auch der Dimensionsraum reduziert sein. Insofern umfasst entsprechend Ausführungsbeispielen das Verfahren den Schritt des Reduzierens der Dimensionen des Merkmalsvektors.
  • Entsprechend einem weiteren Ausführungsbeispiel kann das Verfahren den Schritt des Bestimmens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments und des Aufgebens der Auftretenswahrscheinlichkeit zusammen mit dem jeweiligen ersten Merkmalsvektor aufweisen. Alternativ kann das Verfahren den Schritt des Bestimmens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments und des Ausgebens der Auftretenswahrscheinlichkeit mit dem jeweiligen ersten Merkmalsvektor und einem zugehörigen ersten Zeitfenster aufweisen. Insofern erfolgt eine Ausgabe der Auftretenswahrscheinlichkeit für das jeweilige Audiosegment bzw. eine nähere Wahrscheinlichkeit des Auftretens des Audiosegments zu diesem Zeitpunkt. Das Ausgeben erfolgt mit dem entsprechenden Datensatz bzw. Merkmalsvektor.
  • Entsprechend einem Ausführungsbeispiel kann das Verfahren auch Computer-implementiert ablaufen. Insofern weist das Verfahren ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens auf.
  • Weitere Ausführungsbeispiele beziehen sich auf eine Vorrichtung mit einer Schnittstelle und einem Prozessor. Die Schnittstelle dient zum Erhalten einer Langzeitaufnahme mit einer Vielzahl von ersten Audiosegmenten zugeordnet zu jeweiligen ersten Zeitfenstern sowie zum Erhalten einer weiteren Aufnahme mit einem oder mehreren zweiten Audiosegmenten zugeordnet zu jeweiligen zweiten Zeitfenstern. Der Prozessor ist ausgebildet, um die Vielzahl der ersten Audiosegmente zu analysieren, um zu jedem der Vielzahl der ersten Audiosegmente einen das jeweilige erste Audiosegment beschreibenden ersten Merkmalsvektor zu erhalten. Ferner ist der Prozessor ausgebildet, um das eine oder mehrere zweiten Audiosegmente zu analysieren, um einen oder mehrere die einen oder mehreren zweiten Audiosegmente beschreibenden Merkmalsvektoren zu erhalten. Ferner ist der Prozessor ausgebildet, um den einen oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren abzugleichen, um zumindest eine Anomalie zu erkennen.
  • Entsprechend Ausführungsbeispielen umfasst die Vorrichtung eine mit der Schnittstelle verbundene Aufnahmeeinheit, wie z. B. ein Mikrofon oder ein Mikrofon-Array. Das Mikrofon-Array ermöglicht vorteilhafterweise eine Positionsbestimmung, wie sie oben bereits erläutert wurde. Entsprechend weiteren Ausführungsbeispielen umfasst die Vorrichtung eine Ausgabeschnittstelle zur Ausgabe der oben erläuterten Auftretenswahrscheinlichkeit.
  • Ausführungsbeispiele der vorliegenden Erfindung werden anhand der beiliegenden Zeichnungen erläutert. Es zeigen:
    • 1 ein schematisches Flussdiagramm zur Illustration des Verfahrens gemäß einem Basisausführungsbeispiel ;
    • 2 eine schematische Tabelle zur Illustration von unterschiedlichen Anomalietypen; und
    • 3 ein schematisches Blockschaltbild zur Illustration einer Vorrichtung gemäß einem weiteren Ausführungsbeispiel.
  • Bevor der nachfolgenden Ausführungsbeispiele der vorliegenden Erfindung anhand der beiliegenden Zeichnungen erläutert werden, sei darauf hingewiesen, dass gleichwirkende Elemente und Strukturen mit gleichem Bezugszeichen versehen sind, so dass die Beschreibung derer aufeinander anwendbar bzw. austauschbar ist.
  • 1 zeigt ein Verfahren 100, das in zwei Phasen 110 und 120 untergliedert ist.
  • In der ersten Phase 110, die als Justierphase bezeichnet wird, gibt es zwei Basisschritte. Dies ist mit dem Bezugszeichen 112 und 114 markiert. Der Schritt 112 umfasst eine Langzeitaufnahme des akustischen Normalzustands im Anwendungsszenario. Hierbei wird beispielsweise die Analysevorrichtung 10 (vgl. 3) in der Zielumgebung aufgestellt, so dass eine Langzeitaufnahme 113 des Normalzustands erfasst wird. Diese Langzeitaufnahme kann beispielsweise eine Dauer von 10 Minuten, 1 Stunde oder 1 Tag umfassen (allgemein größer 1 Minute, größer 30 Minuten, größer 5 Stunden oder größer 24 Stunden und/oder bis zu 10 Stunden, bis zu 1 Tage, bis zu 3 Tage oder bis zu 10 Tage (inklusiver der durch die oberen und unteren definierten Zeitfenster).
  • Diese Langzeitaufnahme 113 wird dann beispielsweise untergliedert. Die Untergliederung kann in gleich lange Zeitbereiche, wie z. B. 1 Sekunde oder 0,1 Sekunden oder auch dynamischer Zeitbereiche erfolgen. Jeder Zeitbereich umfasst ein Audiosegment. Im Schritt 114, der allgemein als Analysieren bezeichnet wird, werden diese Audiosegment separat oder in Kombination untersucht. Hierzu wird beim Analysieren für jedes Audiosegment ein sogenannter Merkmalsvektor 115 (erste Merkmalsvektoren) ermittelt. Allgemein gesagt heißt es, dass in der Umwandlung von einer digitalen Aufnahme 113 in ein oder mehrere Merkmalsvektoren 115 - z. B. mittels tiefer neuronaler Netze - erfolgt, wobei jeder Merkmalsvektor 115 den Klang zu einem bestimmten Zeitpunkt „codiert“. Merkmalsvektoren 115 können beispielsweise durch ein Energiespektrum für einen bestimmten Frequenzbereich oder allgemein ein Zeit-Frequenz-Spektrum bestimmt werden.
  • An dieser Stelle sei gleich angemerkt, dass es optionaler Weise möglich ist, dass eine Reduktion der Dimensionalität des Merkmalsraums der Merkmalsvektoren 115 mittels statistischer Verfahren (z. B. Hauptkomponentenanalyse) erfolgt. Bei dem Schritt 114 können dann auch optionaler Weise typische bzw. dominante Geräusche mittels unüberwachter Lernverfahren (z. B. Clustering) identifiziert werden. Hierbei werden Zeitabschnitte bzw. Audiosegmente gruppiert, die hier ähnliche Merkmalsvektoren 115 ausprägen und die entsprechend einen ähnlichen Klang besitzen. Hierbei ist keine semantische Klassifikation eines Geräusches (z. B. „Auto“ oder „Flugzeug“) nötig. Insofern erfolgt ein sogenanntes unüberwachtes Lernen anhand von Häufigkeiten sich wiederholender oder sich ähnlicher Audiosegmente. Entsprechend einem weiteren Ausführungsbeispiel wäre es auch denkbar, dass bei dem Schritt 114 ein unüberwachtes Lernen der zeitlichen Reihenfolge und/oder typischer Wiederholmuster bestimmte Geräusche erfolgt.
  • Das Ergebnis des Clusterings ist eine Zusammenstellung von Audiosegmenten bzw. Geräuschen, die für diesen Bereich normal bzw. typisch sind. Beispielsweise kann auch jedem Audiosegment eine Auftretenswahrscheinlichkeit zugeordnet werden. Ferner kann auch ein Wiederholmuster bzw. eine Reihenfolge, das heißt also eine Kombination mehrerer Audiosegmente identifiziert werden, die für die aktuelle Umgebung typisch bzw. normal ist. Hierzu kann jeder Gruppierung, jedem Wiederholmuster oder jeder Abfolge unterschiedliche Audiosegmente ebenso eine Wahrscheinlich zugeordnet werden.
  • Am Ende der Justierphase sind also Audiosegmente bzw. gruppierte Audiosegmente bekannt und als Merkmalsvektoren 115 beschrieben, die typisch für diese Umgebung sind. In einem nächsten Schritt bzw. in einer nächsten Phase 120 wird dann dieses gelernte Wissen entsprechend angewendet. Die Phase 120 hat die drei Basisschritte 122 und 124 und 126.
  • Im Schritt 122 wird wiederum eine Audioaufnahme 123 aufgenommen. Diese ist im Vergleich zur Audioaufnahme 113 typischerweise wesentlich kürzer. Diese Audioaufnahme ist beispielsweise im Vergleich zur Audioaufnahme 113 kürzer. Es kann sich allerdings auch um eine kontinuierliche Audioaufnahme handeln. Diese Audioaufnahme 123 wird dann in einem nachgelagerten Schritt 124 analysiert. Dieser Schritt ist mit dem Schritt 114 inhaltlich vergleichbar. Hierbei erfolgt wiederum eine Umwandlung der digitalen Audioaufnahme 123 in Merkmalsvektoren. Wenn nun diese zweite Merkmalsvektoren 125 vorliegen, können selbige mit den Merkmalsvektoren 115 verglichen werden.
  • Der Vergleich erfolgt im Schritt 126 mit der Zielsetzung, Anomalien festzustellen. Sehr ähnliche Merkmalsvektoren und sehr ähnliche Reihenfolgen von Merkmalsvektoren deuten darauf hin, dass keine Anomalie vorliegt. Abweichungen von vorher bestimmten Mustern (Wiederholmustern, typischen Reihenfolgen etc.) oder Abweichungen von den vormals bestimmten Audiosegmenten gekennzeichnet durch andere/neue Merkmalsvektoren deuten auf eine Anomalie hin. Diese werden in dem Schritt 126 erkannt. Bei dem Schritt 126 können unterschiedliche Typen von Anomalien erkannt werden. Diese sind beispielsweise:
    • - klangliche Anomalie (neuer, bisher ungehörter Klang)
    • - zeitliche Anomalie (bereits gehörter Klang tritt zeitlich „unpassend“ auf, wiederholt sich zu schnell oder tritt in falscher Reihenfolge mit anderen Klängen auf)
    • - räumliche Anomalie (bereits gehörter Klang tritt an „ungewohnter“ räumlicher Position auf oder die entsprechende Quelle folgt einem ungewohnten räumlichen Bewegungsmuster)
  • Diese Anomalien werden bezugnehmend auf 2 näher erläutert.
  • Optionaler Weise kann die Ausgabe einer Wahrscheinlichkeit für jede der drei Anomaliearten zum Zeitpunkt X erfolgen. Das ist mit den Pfeilen 126z, 126k und 126r (je ein Pfeil pro Anatomieart) in 3 illustriert.
  • An dieser Stelle sei angemerkt, dass beim Vergleich der Merkmalsvektoren häufig keine Identität, sondern nur Ähnlichkeit vorliegt. Insofern können entsprechend Ausführungsbeispielen Schwellwerte definiert sein, wann sich Merkmalsvektoren ähneln bzw. wann sich Gruppen von Merkmalsvektoren ähneln, so dass dann das Resultat auch einen Schwellwert für eine Anomalie vorlegt. Diese Schwellenwerteanwendung kann sich auch an die Ausgabe der Wahrscheinlichkeitsverteilung anknüpfen bzw. in dieser in Kombination auftauchen, z. B. um genauere zeitliche Erkennungen von Anomalien zu ermöglichen.
  • Entsprechend weiteren Ausführungsbeispielen ist es auch möglich, räumliche Anomalien zu erkennen. Hierzu kann der Schritt 114 in der Justierphase 110 auch ein unüberwachtes Lernen typischer räumlicher Positionen und/oder Bewegungen bestimmte Geräusche aufweisen. Typischerweise sind dann in solchem Fall statt dem in 3 dargestellten Mikrofon 18 zwei Mikrofone oder ein Mikrofon-Array mit zumindest zwei Mikrofonen vorhanden. In einer solchen Situation ist dann in der zweiten Phase 120 durch eine mehrkanalige Aufnahme auch eine räumliche Lokalisierung der aktuellen dominanten Schallquellen/Audiosegmente möglich. Hier zugrundeliegende Technologie kann beispielsweise Beamforming sein.
  • Bezugnehmend auf 2a-2c werden nun drei unterschiedliche Anomalien erläutert. 2a illustriert die zeitliche Anomalie. Hier sind jeweils Audiosegmente ABC sowohl für die Phase 1 als auch die Phase 2 entlang der Zeitachse t aufgetragen. In der Phase 1 wurde erkannt, dass eine normale Situation bzw. normale Reihenfolge derart besteht, dass die Audiosegmente ABC in der Reihenfolge ABC auftauchen. Für einen wurde ein Wiederholmuster erkannt, das nach der ersten Gruppe ABC eine weitere Gruppe ABC folgen kann.
  • Wenn genau dieses Muster ABCABC in Phase 2 erkannt wird, kann davon ausgegangen werden, dass keine Anomalie bzw. zumindest keine zeitliche Anomalie vorliegt. Falls aber das hier dargestellte Muster ABCAABC erkannt wird, so liegt eine zeitliche Anomalie vor, da ein weiteres Audiosegment A zwischen den zwei Gruppen ABC angeordnet ist. Dieses Audiosegment A bzw. anomale Audiosegment A ist mit einem Doppelrahmen versehen.
  • Weiter in 2b ist eine klangliche Anomalie illustriert. In Phase 1 wurden wiederum die Audiosegmente ABCABC entlang der Zeitachse t aufgenommen (vgl. 2a). Die klangliche Anomalie beim Erkennen zeigt sich dadurch, dass ein weiteres Audiosegment, hier das Audiosegment D, in Phase 2 auftaucht. Dieses Audiosegment D hat eine vergrößerte Länge, z. B. über zwei Zeitbereiche und ist deshalb als DD illustriert. Die klangliche Anomalie ist in der Artenordnung der Audiosegment mit einem Doppelrahmen versehen. Bei dieser klanglichen Anomalie kann es sich beispielsweise um einen Klang handeln, der während der Lernphase nie gehört wurde. Beispielsweise kann hier ein Donner vorliegen, der sich in Bezug auf die Lautheit/Intensität und in Bezug auf die Länge von den vorherigen Elementen ABC unterscheidet.
  • In Bezug auf 2c ist eine örtliche Anomalie illustriert. In der initialen Lernphase wurden zwei Audiosegment A und B an zwei verschiedenen Positionen, Position 1 und Positionen 2, erkannt. Während der Phase 2 wurden beide Elemente A und B wiedererkannt, wobei durch Lokalisierung festgestellt wurde, dass sowohl das Audiosegment A als auch das Audiosegment B sich an Positionen 1 befinden. Das Vorliegen vom Audiosegment B an Position 1 stellt eine räumliche Anomalie dar.
  • Bezugnehmend auf 3 wird nun eine Vorrichtung 10 zur Klanganalyse erläutert. Die Vorrichtung 10 umfasst im Wesentlichen die Eingabeschnittstelle 12, wie z. B. eine Mikrofonschnittstelle sowie einen Prozessor 14. Der Prozessor 14 empfängt die einen oder mehreren (zeitgleich vorliegenden) Audiosignale von dem Mikrofon 18 bzw. dem Mikrophon-Array 18' und analysiert diese. Hierzu führt er im Wesentlichen die im Zusammenhang mit 1 erläuterten Schritte 114, 124 und 126 durch. Jeder Phase ist das auszugebende Ergebnis (vgl. Ausgabeschnittstelle 16) eine Menge von Merkmalsvektoren, die den Normalzustand repräsentieren oder in Phase 2 eine Ausgabe der erkannten Anomalien, z. B. zugeordnet zu einem bestimmten Typ und/oder zugeordnet zu einem bestimmten Zeitpunkt.
  • Darüber hinaus kann bei der Schnittstelle 16 auf eine Wahrscheinlichkeit von Anomalien oder eine Wahrscheinlichkeit von Anomalien zu bestimmten Zeitpunkten oder allgemein eine Wahrscheinlichkeit von Merkmalsvektoren zu bestimmten Zeitpunkten erfolgen.
  • Entsprechend Ausführungsbeispielen ist die Vorrichtung 10 bzw. das Audiosystem ausgebildet, (gleichzeitig) verschiedene Typen von Anomalien, z. B. zumindest zwei Anomalien, zu erkennen. Folgen Anwendungsgebiete wären denkbar:
    • • Sicherheitsüberwachung von Gebäuden und Anlagen
      • ◯ Detektion von Einbrüchen (z. B. Glasbruch)/Beschädigungen (Vandalismus)
    • • Predictive Maintenance
      • ◯ Erkennung von beginnendem Fehlverhalten von Maschinen aufgrund ungewöhnlicher Klänge
    • • Überwachung öffentlicher Plätze/Ereignisse (Sportereignisse, Musikereignisse, Demonstrationen, Kundgebungen usw.)
      • ◯ Erkennung von Gefahrengeräuschen (Explosion, Schuss, Hilfeschreie)
    • • Verkehrsmonitoring
      • ◯ Erkennen bestimmter Fahzeuggeräusche (z. B. durchdrehende Reifen - Raser)
    • • Logistikmonitoring
      • ◯ Überwachung von Baustellen - Erkennung von Unfällen (Einsturz, Hilfeschreie)
    • • Health
      • ◯ akustische Überwachung des normalen Alltags älterer/kranker Menschen
      • ◯ Erkennung von Stürzen/Hilfeschreien
  • Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder eine elektronische Schaltung ausgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.
  • Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.
  • Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
  • Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahingehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.
  • Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
  • Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.
  • Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft.
  • Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist. Der Datenträger, das digitale Speichermedium oder das computerlesbare Medium sind typischerweise gegenständlich und/oder nicht-vergänglich bzw. nicht-vorübergehend.
  • Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahingehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
  • Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahingehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
  • Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
  • Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.
  • Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
  • Die hierin beschriebenen Vorrichtungen können beispielsweise unter Verwendung eines Hardware-Apparats, oder unter Verwendung eines Computers, oder unter Verwendung einer Kombination eines Hardware-Apparats und eines Computers implementiert werden.
  • Die hierin beschriebenen Vorrichtungen, oder jedwede Komponenten der hierin beschriebenen Vorrichtungen können zumindest teilweise in Hardware und/oder in Software (Computerprogramm) implementiert sein.
  • Die hierin beschriebenen Verfahren können beispielsweise unter Verwendung eines Hardware-Apparats, oder unter Verwendung eines Computers, oder unter Verwendung einer Kombination eines Hardware-Apparats und eines Computers implementiert werden.
  • Die hierin beschriebenen Verfahren, oder jedwede Komponenten der hierin beschriebenen Verfahren können zumindest teilweise durch Hardware und/oder durch Software ausgeführt werden.
  • Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.
  • Wissenschaftliche Literatur
    • [Borges_2008] N. Borges, G. G. L. Meyer: Unsupervised Distributional Anomaly Detection for a Self-Diagnostic Speech Activity Detector, CISS, 2008, pp. 950-955.
    • [Ntalampiras_2009] S. Ntalampiras, I. Potamitis, N. Fakotakis: On Acoustic Surveillance of Hazardous Situations, ICASSP, 2009, pp. 165-168.
    • [Borges_2009] N. Borges, G. G. L. Meyer: Trimmed KL Divergence between Gaussian Mixtures for Robust Unsupervised Acoustic Anomaly Detection, INTERSPEECH, 2009.
    • [Marchi_2015] E. Marchi, F. Vesperini, F. Eyben, S. Squartini, B. Schuller: A Novel Approach for Automatic Acoustic Novelty Detection using a Denoising Autoencoder with Bidirectional LSTM Neural Networks, ICASSP 2015, pp. 1996-2000.
    • [Valenzise_2017] G. Valenzise, L. Gerosa, M. Tagliasacchi, F. Antopnacci, A. Sarti: Scream and Gunshot Detection and Localization for Audio-Surveillance Systems, IEEE ICAVSBS, 2017, pp. 21-26.
    • [Komatsu_2017] T. Komatsu, R. Kondo: Detection of Anomaly Acoustic Scenes based an a Temporal Dissimilarity Model, ICASSP 2017, pp. 376-380.
    • [Tuor_2017] A. Tuor, S. Kaplan, B. Hutchinson, N. Nichols, S. Robinson: Deep Learning for
    • Unsupervised Insider Threat Detection in Structured Cybersecurity Data Streams, AAAI 2017, pp. 224231.

Claims (16)

  1. Verfahren (100) zur Erkennung von akustischen Anomalien, mit folgenden Schritten: Erhalten einer Langzeitaufnahme (113) mit einer Vielzahl von ersten Audiosegmenten (ABCD) zugeordnet zu jeweiligen ersten Zeitfenstern; Analysieren der Vielzahl der ersten Audiosegmente (ABCD), um zu jedem der Vielzahl der ersten Audiosegmente (ABCD) einen das jeweilige erste Audiosegment (ABCD) beschreibenden ersten Merkmalsvektor zu erhalten; Erhalten einer weiteren Aufnahme (123) mit einem oder mehreren zweiten Audiosegmenten (ABCD) zugeordnet zu jeweiligen zweiten Zeitfenstern; Analysieren der einen oder mehreren zweiten Audiosegmente (ABCD), um einen oder mehrere die einen oder mehreren zweiten Audiosegmente (ABCD) beschreibenden Merkmalsvektoren zu erhalten; Abgleichen der einen oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren, um zumindest eine Anomalie zu erkennen.
  2. Verfahren (100) gemäß Anspruch 1, wobei das Verfahren (100) beim Analysieren den Unterschritt des Identifizierens eines Wiederholungsmusters in der Vielzahl der ersten Zeitfenster umfasst.
  3. Verfahren (100) gemäß Anspruch 2, wobei das Identifizieren anhand von sich wiederholenden, identischen oder ähnlichen ersten Merkmalsvektoren zugehörig zu unterschiedlichen ersten Audiosegmenten (ABCD) erfolgt.
  4. Verfahren (100) gemäß Anspruch 2 oder 3, wobei beim Identifizieren ein Gruppieren von identischen oder ähnlichen ersten Merkmalsvektoren zu einer oder mehreren Gruppen erfolgt.
  5. Verfahren (100) gemäß einem vorherigen Ansprüche, wobei das Verfahren (100) das Erkennen einer Reihenfolge von ersten Merkmalsvektoren zugehörig zu unterschiedlichen ersten Audiosegmenten (ABCD) oder das Erkennen einer Reihenfolge von Gruppen von identischen oder ähnlichen ersten Merkmalsvektoren umfasst.
  6. Verfahren (100) gemäß einem der Ansprüche 2 bis 5, wobei das Verfahren (100) das Identifizieren eines Wiederholmusters in dem einen oder mehreren zweiten Zeitfenstern umfasst; und/oder wobei das Verfahren (100) das Erkennen einer Reihenfolge von zweiten Merkmalsvektoren zugehörig zu unterschiedlichen zweiten Audiosegmenten (ABCD) oder das Erkennen einer Reihenfolge von Gruppen von identischen oder ähnlichen zweiten Merkmalsvektoren umfasst.
  7. Verfahren (100) gemäß Anspruch 6, wobei das Verfahren (100) den Unterschritt des Abgleichens des Wiederholmusters der ersten Audiosegmente (ABCD) und/oder Reihenfolge bei den ersten Audiosegmenten (ABCD) mit dem Wiederholmuster der zweiten Audiosegmente (ABCD) und/oder Reihenfolge bei den zweiten Audiosegmenten (ABCD) umfasst, um eine zeitliche Anomalie zu erkennen.
  8. Verfahren (100) gemäß einem vorherigen Ansprüche, wobei das Abgleichen den Unterschritt des Identifizierens eines zweiten Merkmalsvektors, der sich von den analysierten ersten Merkmalsvektoren unterscheidet, umfasst, um eine klangliche Anomalie zu erkennen.
  9. Verfahren (100) gemäß einem der vorherigen Ansprüche, wobei der Merkmalsvektor eine Dimension, mehrere Dimensionen oder einen reduzierten Dimensionsraum aufweist; und/oder wobei das Verfahren (100) den Schritt des Reduzierens der Dimensionen des Merkmalsvektors umfasst.
  10. Verfahren (100) gemäß einem der vorherigen Ansprüche, wobei das Verfahren (100) den Schritt des Bestimmens einer jeweiligen Position für die jeweiligen ersten Audiosegmente (ABCD) umfasst.
  11. Verfahren (100) gemäß Anspruch 10, wobei das Verfahren (100) den Schritt des Bestimmens einer jeweiligen Position für die jeweiligen zweiten Audiosegmente (ABCD) umfasst, und wobei das Verfahren (100) den Unterschritt des Abgleichens der Position zugeordnet zu dem jeweiligen ersten Audiosegment (ABCD) mit der Position zugeordnet zu dem entsprechenden jeweiligen zweiten Audiosegment (ABCD) umfasst, um eine räumliche Anomalie zu erkennen.
  12. Verfahren (100) gemäß einem der vorherigen Ansprüche, wobei das Verfahren (100) den Schritt des Bestimmens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments (ABCD) und des Ausgebens der Auftretenswahrscheinlichkeit mit dem jeweiligen ersten Merkmalsvektor aufweist oder wobei das Verfahren (100) den Schritt des Bestimmens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments A(BCD) und des Ausgebens der Auftretenswahrscheinlichkeit mit dem jeweiligen ersten Merkmalsvektor und einem ersten Zeitfenster umfasst.
  13. Computerprogramm mit einem Programmcode, der, wenn er auf einem Computer abläuft, einen oder mehrere Schritte des Verfahrens (100) gemäß der vorherigen Ansprüche ausführt.
  14. Vorrichtung (10) zum Erkennen von akustischen Anomalie, mit folgenden Merkmalen: einer Schnittstelle (12) zum Erhalten einer Langzeitaufnahme (113) mit einer Vielzahl von ersten Audiosegmenten (ABCD) zugeordnet zu jeweiligen ersten Zeitfenstern sowie zum Erhalten einer weiteren Aufnahme (123) mit einem oder mehreren zweiten Audiosegmenten (ABCD) zugeordnet zu jeweiligen zweiten Zeitfenstern; einen Prozessor (14), der zum Analysieren der Vielzahl der ersten Audiosegmente (ABCD) ausgebildet ist, um zu jedem der Vielzahl der ersten Audiosegmente (ABCD) einen das jeweilige erste Audiosegment (ABCD) beschreibenden ersten Merkmalsvektor zu erhalten, und der zum Analysieren der einen oder mehreren zweiten Audiosegmente (ABCD) ausgebildet ist, um einen oder mehrere die einen oder mehreren zweiten Audiosegmente (ABCD) beschreibenden Merkmalsvektoren zu erhalten, und der zum Abgleichen der einen oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren ausgebildet ist, um zumindest eine Anomalie zu erkennen.
  15. Vorrichtung (10) gemäß Anspruch 14, wobei die Vorrichtung (10) ein Mikrofon (18) oder ein Mikrofon-Array umfasst, das mit der Schnittstelle (12) verbunden ist.
  16. Vorrichtung (10) gemäß Anspruch 14 und 15, wobei die Vorrichtung (10) eine Ausgabeschnittstelle zur Ausgabe einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments (ABCD) mit dem jeweiligen ersten Merkmalsvektor oder zur Ausgabe einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments (ABCD) mit dem jeweiligen ersten Merkmalsvektor und einem ersten Zeitfenster umfasst.
DE102020200946.5A 2020-01-27 2020-01-27 Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien Pending DE102020200946A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102020200946.5A DE102020200946A1 (de) 2020-01-27 2020-01-27 Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien
PCT/EP2021/051804 WO2021151915A1 (de) 2020-01-27 2021-01-27 Verfahren und vorrichtung zur erkennung von akustischen anomalien
EP21702020.5A EP4097695B1 (de) 2020-01-27 2021-01-27 Verfahren und vorrichtung zur erkennung von akustischen anomalien
US17/874,072 US20220358952A1 (en) 2020-01-27 2022-07-26 Method and apparatus for recognizing acoustic anomalies

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020200946.5A DE102020200946A1 (de) 2020-01-27 2020-01-27 Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien

Publications (1)

Publication Number Publication Date
DE102020200946A1 true DE102020200946A1 (de) 2021-07-29

Family

ID=74285498

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020200946.5A Pending DE102020200946A1 (de) 2020-01-27 2020-01-27 Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien

Country Status (4)

Country Link
US (1) US20220358952A1 (de)
EP (1) EP4097695B1 (de)
DE (1) DE102020200946A1 (de)
WO (1) WO2021151915A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220457A (zh) * 2021-10-29 2022-03-22 成都中科信息技术有限公司 双通道通信链路的音频数据处理方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017012007A1 (de) 2017-12-22 2019-06-27 HST High Soft Tech GmbH Vorrichtung und Verfahren zur universellen akustischen Prüfung von Objekten

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2944903B1 (fr) * 2009-04-24 2016-08-26 Thales Sa Systeme et methode pour detecter des evenements audio anormaux
DE102012211154B4 (de) * 2012-06-28 2019-02-14 Robert Bosch Gmbh Überwachungssystem, Freiflächenüberwachung sowie Verfahren zur Überwachung eines Überwachungsbereichs
FR2994495B1 (fr) * 2012-08-10 2015-08-21 Thales Sa Procede et systeme pour detecter des evenements sonores dans un environnement donne
DE102014012184B4 (de) * 2014-08-20 2018-03-08 HST High Soft Tech GmbH Vorrichtung und Verfahren zur automatischen Erkennung und Klassifizierung von akustischen Signalen in einem Überwachungsbereich
US10134422B2 (en) * 2015-12-01 2018-11-20 Qualcomm Incorporated Determining audio event based on location information
DE102017010402A1 (de) * 2017-11-09 2019-05-09 Guido Mennicken Automatisiertes Verfahren zur Überwachung von Waldgebieten auf Rodungsaktivitäten
DE102018211758A1 (de) * 2018-05-07 2019-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, verfahren und computerprogramm zur akustischen überwachung eines überwachungsbereichs

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017012007A1 (de) 2017-12-22 2019-06-27 HST High Soft Tech GmbH Vorrichtung und Verfahren zur universellen akustischen Prüfung von Objekten

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAS, A. und THAMPI, S.M.: Unsupervised anomaly detection in underwater acoustic sensor networks. In: Journal of Intelligent & Fuzzy Systems 36 (2019) 2367-2372. DOI:10.3233/JIFS-169947
XIA, X. et al.: A Survey: Neural Network-Based Deep Learning for Acoustic Event Detection. In: Circuits, Systems, and Signal Processing 38 (2019) 3433-3453

Also Published As

Publication number Publication date
WO2021151915A1 (de) 2021-08-05
EP4097695A1 (de) 2022-12-07
EP4097695B1 (de) 2024-02-21
US20220358952A1 (en) 2022-11-10

Similar Documents

Publication Publication Date Title
EP3317878A1 (de) Verfahren und vorrichtung zum erzeugen einer datenbank
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE112020004052T5 (de) Sequenzmodelle zur audioszenenerkennung
DE102014118450A1 (de) Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext
DE102014012184A1 (de) Vorrichtung und Verfahren zur automatischen Erkennung und Klassifizierung von akustischen Signalen in einem Überwachungsbereich
EP4097695B1 (de) Verfahren und vorrichtung zur erkennung von akustischen anomalien
WO2020239540A1 (de) Verfahren und vorrichtung zur detektion von rauch
DE102018205561A1 (de) Vorrichtung zur Klassifizierung von Signalen
EP2483834B1 (de) Verfahren und Vorrichtung zum Erkennen einer Fehldetektion eines Objekts in einem Bild
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
DE102020207449A1 (de) Verfahren, Computerprogramm und Vorrichtung zum Verarbeiten von Signalen
DE102020209446A1 (de) Computerimplementiertes Verfahren und Computerprogramm zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators, akustisches Klassifikationssystem für automatisiert betreibbare Fahrsysteme und automatisiert betreibbares Fahrsystem
DE102020200847A1 (de) Verfahren und Vorrichtung zur Objektidentifikation basierend auf Sensordaten
DE102019213697B4 (de) Verfahren zum Erkennen einer Annäherung und/oder Entfernung eines Einsatzfahrzeugs relativ zu einem Fahrzeug
DE102020213289A1 (de) Bildverarbeitungssystem
DE102019207700A1 (de) Klassifikationsvorrichtung zur Objektdetektion in Umfeldsensordaten und Verfahren
DE102016213807A1 (de) Konzept zum Überwachen eines Parkplatzes für Kraftfahrzeuge
DE102018201914A1 (de) Verfahren zum Anlernen eines Modells zur Personen-Wiedererkennung unter Verwendung von Bildern einer Kamera und Verfahren zum Erkennen von Personen aus einem angelernten Modell zur Personen-Wiedererkennung durch eine zweite Kamera eines Kameranetzwerkes
DE112013004687T5 (de) System und Verfahren zum Verarbeiten von Ereignissen in einer Umgebung
EP3759644B1 (de) Identifizieren unbesetzter sitzplätze auf basis der detektion einer sich wiederholenden textur
Kulkarni et al. Insect Sound Recognition Using MFCC and CNN
DE102020202603A1 (de) Vorrichtung und Verfahren zum Erkennen eines charakteristischen Signals im Umfeld eines Fahrzeugs
DE102022129466A1 (de) Funkkommunikationssystem, Testsystem, sowie Verfahren zur Klassifizierung einer Schallquelle
DE102021207849A1 (de) Verfahren zum Nachtrainieren einer Videoüberwachungsvorrichtung, Computerprogramm, Speichermedium und Videoüberwachungsvorrichtung
DE102023112333A1 (de) Verfahren zur sprachsteuerung von technischen geräten

Legal Events

Date Code Title Description
R012 Request for examination validly filed