EP4097695B1 - Method and device for identifying acoustic anomalies - Google Patents

Method and device for identifying acoustic anomalies Download PDF

Info

Publication number
EP4097695B1
EP4097695B1 EP21702020.5A EP21702020A EP4097695B1 EP 4097695 B1 EP4097695 B1 EP 4097695B1 EP 21702020 A EP21702020 A EP 21702020A EP 4097695 B1 EP4097695 B1 EP 4097695B1
Authority
EP
European Patent Office
Prior art keywords
abcd
audio segments
anomaly
audio
accordance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP21702020.5A
Other languages
German (de)
French (fr)
Other versions
EP4097695A1 (en
Inventor
Jakob Abesser
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP4097695A1 publication Critical patent/EP4097695A1/en
Application granted granted Critical
Publication of EP4097695B1 publication Critical patent/EP4097695B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/02Mechanical actuation
    • G08B13/04Mechanical actuation by breaking of glass
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/04Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
    • G08B21/0438Sensor means for detecting
    • G08B21/0469Presence detectors to detect unsafe condition, e.g. infrared sensor, microphone

Definitions

  • Embodiments of the present invention relate to a method and a device for detecting acoustic anomalies. Further exemplary embodiments relate to a corresponding computer program. According to exemplary embodiments, the detection of a normal situation and the detection of anomalies in comparison to this normal situation take place.
  • a complex overlay of several sound sources In real acoustic scenes there is usually a complex overlay of several sound sources. These can be positioned in the foreground or background and in any spatial position.
  • a variety of possible sounds are also conceivable, which can range from very short transient signals (e.g. clapping, gunshot) to longer, stationary sounds (siren, passing train).
  • a recording typically covers a specific period of time, which is divided into one or more time windows when viewed subsequently. Based on this subdivision and depending on the length of the noise (cf. transient or longer, stationary sound), a sound can extend over one or more audio segments/time windows.
  • an anomaly i.e. a sound deviation from the "acoustic normal state", i.e. the amount of noise that is considered “normal"
  • anomalies are breaking glass (burglary detection), a pistol shot (monitoring public events) or a chainsaw (monitoring nature reserves).
  • the problem is that the sound of the anomaly (out-of-order class) is often not known or cannot be precisely defined or described (e.g. what can a broken machine sound like?).
  • the second problem is that novel algorithms for sound classification using deep neural networks are very sensitive to changing (and often unknown) acoustic conditions in the operational scenario.
  • Classification models that are trained with audio data, for example with a high-quality microphone, achieve this recorded, only poor recognition rates when classifying audio data that was recorded using a poorer microphone.
  • Possible solutions lie in the area of “domain adaptation”, i.e. adapting the models or the audio data to be classified in order to achieve greater robustness in recognition. In practice, however, it is often logistically difficult and too expensive to record representative audio recordings at the later location of use of an audio analysis system and then annotate them with regard to the sound events they contain.
  • the third problem with audio analysis of environmental noise lies in data protection concerns, since classification methods can theoretically also be used to recognize and transcribe speech signals (e.g. when recording a conversation near the audio sensor).
  • classification models of existing state-of-the-art solutions are as follows: If the sound anomaly to be detected can be precisely specified, a classification model based on machine learning algorithms can be trained to recognize specific noise classes using supervised learning. Current studies show that neural networks in particular are very sensitive to changing acoustic conditions and that additional adaptation of classification models to the respective acoustic situation of the application must be carried out.
  • EP 2 988 105 A2 which describes a device of the method for the automatic detection and classification of audible acoustic signals in a surveillance area.
  • the object of the present invention is to create a concept for detecting anomalies that is optimized with regard to the learning behavior and that enables reliable and accurate detection of anomalies.
  • Embodiments of the present invention provide a method for detecting acoustic anomalies.
  • the method includes the steps of obtaining a long-term recording, which has a duration of at least greater than 1 minute or at least 10 minutes or at least 1 hour or at least 24 hours, with a plurality of first audio segments assigned to respective first time windows and analyzing the plurality of first audio segments to get to each of the A plurality of first audio segments have a first feature vector describing the respective first audio segment, such as. B. to obtain a spectrum for the audio segment (time-frequency spectrum) or an audio fingerprint with certain characteristics for the audio segment.
  • the result of the analysis of a long-term recording divided into a large number of time windows is a large number of first (single- or multi-dimensional) feature vectors for the large number of first audio segments (assigned to the corresponding times/windows of the long-term recording), which represent the "normal state".
  • the method includes further steps of obtaining another recording with one or more second audio segments associated with respective second audio windows and analyzing the one or more second audio segments to obtain one or more feature vectors describing the one or more second audio segments.
  • the result of the second part of the method is, for example, a large number of second feature vectors (e.g. with corresponding times of further recording).
  • the one or more second feature vectors are compared with the plurality of first feature vectors (e.g. by comparing the identities or similarities or by recognizing a sequence) in order to detect at least one anomaly.
  • a sound anomaly i.e. a recognition of the first appearance of a previously unheard sound
  • a temporal anomaly e.g. changed repetition pattern of a sound that has already been heard
  • a spatial anomaly Occurrence of a sound that has already been heard in a previously unknown spatial position.
  • Embodiments of the present invention are based on the knowledge that an “acoustic normal state” and “normal noises” can be learned independently simply through a long-term sound analysis (phase 1 of the method comprising the steps of obtaining a long-term recording and analyzing it). This means that this long-term sound analysis results in an independent or autonomous adaptation of an analysis system to a specific acoustic scene. No annotated training data (recording + semantic class annotation) is required, which represents a great saving in time, effort and cost. When this acoustic "normal state” or the "normal” noises are recorded, the current noise environment can be carried out in a subsequent analysis phase (phase 2 with the steps of obtaining another recording and analyzing it).
  • phase 1 involves learning a model using the normal background noise based on a statistical procedure or machine learning, whereby this model then allows (in phase 2) to compare currently recorded background noise with regard to its degree of novelty (probability of an anomaly).
  • Another advantage of this approach is that the privacy of people who may be in the immediate vicinity of the acoustic sensors is protected. This is called privacy by design. Due to the system, speech recognition is not possible because the interface (audio in, anomaly probability function out) is clearly defined. This can dispel possible data protection concerns when using acoustic sensors.
  • the long-term recording represents the normal acoustic situation
  • the multitude of first audio segments describes this normal situation in themselves and/or in their order.
  • the large number of first audio segments represent a kind of reference on their own and/or in their combination.
  • the aim of the method is to detect anomalies in comparison to this normal situation.
  • the result of the clustering described above is a description of the reference based on first audio segments.
  • the second audio segments alone or in their combination are then compared with the reference to represent the anomaly.
  • the anomaly is a deviation of the current acoustic situation described by the second feature vectors from the reference described by the first feature vectors.
  • the first feature vectors alone or in their combination represent a reference image of the normal state
  • the second feature vectors alone or in their combination describe the current acoustic situation
  • the anomaly in Form of a deviation of the description of the current acoustic situation (see second feature vectors) from the reference (see first feature vectors) can be recognized.
  • the anomaly is therefore defined by the fact that at least one of the second acoustic feature vectors deviates from the sequence of the first acoustic feature vectors. Possible deviations can be: sound anomalies, temporal anomalies and spatial anomalies.
  • phase 1 captures a large number of first audio segments, which are also referred to below as “normal” or “normal” considered noises/audio segments. According to exemplary embodiments knowing these "normal” audio segments makes it possible to detect a so-called sound anomaly.
  • the sub-step of identifying a second feature vector that differs from the analyzed first feature vectors is then carried out.
  • the method when analyzing, includes the substep of identifying a repeat pattern in the plurality of first time windows. This involves identifying repeating audio segments and determining the resulting pattern. According to exemplary embodiments, identification is carried out using repeating, identical or similar first feature vectors belonging to different first audio segments. According to exemplary embodiments, identical and similar first feature vectors or first audio segments can also be grouped into one or more groups during identification.
  • the method includes recognizing a sequence of first feature vectors associated with the first audio segments or recognizing a sequence of groups of identical or similar first feature vectors or first audio segments.
  • the basic steps make it advantageously possible to recognize normal noises or to recognize normal audio objects.
  • the combination of these normal audio objects in a certain order or a certain repetition pattern in terms of time then represents a normal acoustic state.
  • this method then enables the sub-step of comparing the repetition pattern of the first audio segments and/or order in the first audio segments with the repetition pattern of the second audio segments and/or order in the second audio segments to be carried out during matching. This comparison enables the detection of a temporal anomaly.
  • the method may include the step of determining a respective position for the respective first audio segments.
  • the respective position can also be determined for the respective second audio segments are made. According to one exemplary embodiment, this then enables the detection of a spatial anomaly to be carried out by the substep of comparing the position assigned to the respective first audio segments with the position assigned to the corresponding respective second audio segment.
  • each feature vector can each have one dimension or several dimensions for the different audio segments.
  • a possible realization of a feature vector would be, for example, a time-frequency spectrum.
  • the dimensional space can also be reduced.
  • the method includes the step of reducing the dimensions of the feature vector.
  • the method can have the step of determining a probability of occurrence of the respective first audio segment and of entering the probability of occurrence together with the respective first feature vector.
  • the method can have the step of determining a probability of occurrence of the respective first audio segment and outputting the probability of occurrence with the respective first feature vector and an associated first time window.
  • the probability of occurrence for the respective audio segment or a more precise probability of the occurrence of the audio segment at this point in time is output. The output takes place with the corresponding data record or feature vector.
  • the method can also be implemented using a computer.
  • the method has a computer program with a program code for carrying out the method.
  • FIG. 1 For exemplary embodiments, relate to a device with an interface and a processor.
  • the interface serves to obtain a long-term recording with a plurality of first audio segments assigned to respective first time windows and to obtain a further recording with one or more second audio segments assigned to respective second time windows.
  • the processor is designed to handle the multitude to analyze the first audio segments in order to obtain a first feature vector describing the respective first audio segment for each of the plurality of first audio segments.
  • the processor is designed to analyze the one or more second audio segments in order to obtain one or more feature vectors describing the one or more second audio segments.
  • the processor is designed to match the one or more second feature vectors with the plurality of first feature vectors in order to detect at least one anomaly.
  • the device comprises a recording unit connected to the interface, such as. B. a microphone or a microphone array.
  • the microphone array advantageously enables position determination, as already explained above.
  • the device comprises an output interface for outputting the probability of occurrence explained above.
  • Fig. 1 shows a method 100, which is divided into two phases 110 and 120.
  • Step 112 includes a long-term recording the acoustic normal state in the application scenario.
  • the analysis device 10 placed in the target environment so that a long-term recording 113 of the normal state is captured.
  • this long-term recording can last for at least 1 minute or at least 10 minutes or at least 1 hour or at least 24 hours.
  • This long-term recording 113 is then broken down, for example.
  • the breakdown can be divided into time periods of equal length, such as: B. 1 second or 0.1 seconds or dynamic time ranges.
  • Each time range includes an audio segment.
  • step 114 commonly referred to as analyzing, these audio segments are examined separately or in combination.
  • a so-called feature vector 115 (first feature vectors) is determined for each audio segment during analysis.
  • Feature vectors 115 can be determined, for example, by an energy spectrum for a specific frequency range or generally a time-frequency spectrum.
  • step 114 typical or dominant noises can then optionally be identified using unsupervised learning methods (e.g. clustering).
  • unsupervised learning methods e.g. clustering
  • time periods or audio segments are grouped that have similar feature vectors 115 and that accordingly have a similar sound.
  • No semantic classification of a sound e.g. “car” or “plane”
  • unsupervised learning takes place based on the frequencies of repeating or similar audio segments.
  • an unsupervised learning of the temporal order and/or typical repetition patterns of certain noises takes place.
  • the result of clustering is a compilation of audio segments or noises that are normal or typical for this area.
  • each audio segment can also be assigned a probability of occurrence.
  • Repeat patterns or a sequence i.e. a combination of several audio segments, are identified that are typical or normal for the current environment.
  • different audio segments can also be assigned a probability to each grouping, each repeat pattern or each sequence.
  • Phase 120 has the three basic steps 122 and 124 and 126.
  • an audio recording 123 is again recorded. This is typically significantly shorter compared to the audio recording 113. For example, this audio recording is shorter compared to audio recording 113. However, it can also be a continuous audio recording.
  • This audio recording 123 is then analyzed in a subsequent step 124. This step is comparable in content to step 114. This in turn involves converting the digital audio recording 123 into feature vectors. If these second feature vectors 125 are now available, they can be compared with the feature vectors 115.
  • a probability for each of the three anomaly types can be output at time X. This is with the arrows 126z, 126k and 126r (one arrow for each type of anatomy). Fig. 3 illustrated.
  • threshold values can be defined as to when feature vectors are similar or when groups of feature vectors are similar, so that the result then also presents a threshold value for an anomaly.
  • This threshold application can also be linked to the output of the probability distribution or appear in this in combination, e.g. B. to enable more accurate temporal detection of anomalies.
  • step 114 in adjustment phase 110 can also include unsupervised learning of typical spatial positions and/or movements of certain noises.
  • Microphone 18 shown instead of the in Fig. 3
  • Microphone 18 shown has two microphones or a microphone array with at least two microphones.
  • spatial localization of the current dominant sound sources/audio segments is then possible in the second phase 120 through multi-channel recording.
  • the underlying technology here can be, for example, beamforming.
  • Fig. 2a illustrates the temporal anomaly.
  • audio segments ABC for both phase 1 and phase 2 are plotted along the time axis t.
  • phase 1 it was recognized that a normal situation or normal order exists such that the audio segments ABC appear in the order ABC.
  • a repeat pattern was recognized that can be followed by another group ABC after the first group ABC.
  • this pattern ABCABC is recognized in phase 2, it can be assumed that there is no anomaly or at least no temporal anomaly. However, if the pattern ABCAABC shown here is recognized, there is a temporal anomaly because another audio segment A is arranged between the two groups ABC.
  • This audio segment A or anomalous audio segment A is provided with a double frame.
  • a sonic anomaly is illustrated.
  • the audio segments ABCABC were again recorded along the time axis t (cf. Fig. 2a ).
  • the sound anomaly during recognition is shown by the fact that another audio segment, here audio segment D, appears in phase 2.
  • This audio segment D has an increased length, e.g. B. over two time ranges and is therefore illustrated as DD.
  • the sound anomaly is double-framed in the audio segment species order. This sound anomaly could, for example, be a sound that was never heard during the learning phase. For example, there may be thunder that differs from the previous elements ABC in terms of loudness/intensity and length.
  • a local anomaly is illustrated.
  • two audio segments A and B were detected at two different positions, position 1 and position 2.
  • both elements A and B were recognized, with localization determining that both audio segment A and audio segment B were at positions 1.
  • the presence of audio segment B at position 1 represents a spatial anomaly.
  • the device 10 essentially includes the input interface 12, such as. B. a microphone interface and a processor 14.
  • the processor 14 receives the one or more (simultaneously present) audio signals from the microphone 18 or the microphone array 18 'and analyzes them. To this end, he essentially leads in connection with Fig. 1 Steps 114, 124 and 126 explained.
  • the result to be output (cf. output interface 16) is a set of feature vectors that represent the normal state or, in phase 2, an output of the detected anomalies, e.g. B. assigned to a specific type and/or assigned to a specific time.
  • the interface 16 can refer to a probability of anomalies or a probability of anomalies at certain times or, in general, a probability of feature vectors at certain times.
  • aspects have been described in connection with a device, it is understood that these aspects also represent a description of the corresponding method, so that a block or a component of a device is also to be understood as a corresponding method step or as a feature of a method step. Similarly, aspects described in connection with or as a method step also represent a description of a corresponding block or detail or feature of a corresponding device.
  • Some or all of the method steps may be performed by a hardware apparatus (or using a hardware device). Apparatus), such as a microprocessor, a programmable computer or an electronic circuit can be carried out. In some embodiments, some or more of the key process steps may be performed by such apparatus.
  • embodiments of the invention may be implemented in hardware or in software.
  • the implementation may be using a digital storage medium such as a floppy disk, a DVD, a Blu-ray Disc, a CD, a ROM, a PROM, an EPROM, an EEPROM or a FLASH memory, a hard drive or other magnetic or optical memory are carried out on which electronically readable control signals are stored, which can interact or interact with a programmable computer system in such a way that the respective method is carried out. Therefore, the digital storage medium can be computer readable.
  • Some embodiments according to the invention thus include a data carrier that has electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is carried out.
  • embodiments of the present invention may be implemented as a computer program product with a program code, the program code being effective to perform one of the methods when the computer program product runs on a computer.
  • the program code can, for example, also be stored on a machine-readable medium.
  • inventions include the computer program for performing one of the methods described herein, the computer program being stored on a machine-readable medium.
  • an exemplary embodiment of the method according to the invention is therefore a computer program that has a program code for carrying out one of the methods described herein when the computer program runs on a computer.
  • a further exemplary embodiment of the method according to the invention is therefore a data carrier (or a digital storage medium or a computer-readable medium) on which the computer program for carrying out one of the methods described herein is recorded.
  • the data carrier, digital storage medium or computer-readable medium is typically tangible and/or non-transitory.
  • a further exemplary embodiment of the method according to the invention is therefore a data stream or a sequence of signals which represents the computer program for carrying out one of the methods described herein.
  • the data stream or the sequence of signals can, for example, be configured to be transferred via a data communication connection, for example via the Internet.
  • Another embodiment includes a processing device, such as a computer or a programmable logic device, configured or adapted to perform one of the methods described herein.
  • a processing device such as a computer or a programmable logic device, configured or adapted to perform one of the methods described herein.
  • Another embodiment includes a computer on which the computer program for performing one of the methods described herein is installed.
  • a further embodiment according to the invention includes a device or system designed to transmit a computer program to a receiver for carrying out at least one of the methods described herein.
  • the transmission can take place electronically or optically, for example.
  • the recipient may be, for example, a computer, a mobile device, a storage device or a similar device.
  • the device or system can, for example, comprise a file server for transmitting the computer program to the recipient.
  • a programmable logic device e.g., a field programmable gate array, an FPGA
  • a field programmable gate array may cooperate with a microprocessor to perform any of the methods described herein.
  • the methods in some embodiments are carried out by one any hardware device. This can be universally applicable hardware such as a computer processor (CPU) or hardware specific to the method, such as an ASIC.
  • the devices described herein may be implemented, for example, using a hardware apparatus, or using a computer, or using a combination of a hardware apparatus and a computer.
  • the devices described herein, or any components of the devices described herein may be at least partially implemented in hardware and/or in software (computer program).
  • the methods described herein may be implemented, for example, using a hardware apparatus, or using a computer, or using a combination of a hardware apparatus and a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Gerontology & Geriatric Medicine (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Emergency Alarm Devices (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Description

Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf ein Verfahren, eine Vorrichtung zur Erkennung von akustischen Anomalien. Weitere Ausführungsbeispiele beziehen sich auf ein entsprechendes Computerprogramm. Entsprechend Ausführungsbeispielen erfolgt die Erkennung einer Normalsituation sowie die Erkennung von Anomalien im Vergleich zu dieser Normalsituation.Embodiments of the present invention relate to a method and a device for detecting acoustic anomalies. Further exemplary embodiments relate to a corresponding computer program. According to exemplary embodiments, the detection of a normal situation and the detection of anomalies in comparison to this normal situation take place.

In realen akustischen Szenen existiert i.d.R. eine komplexe Überlagerung mehrerer Klangquellen. Diese können vorder- und hintergründig sowie beliebig räumlich positioniert sein. Ebenso ist eine Vielzahl möglicher Klänge denkbar, welche von sehr kurzen transienten Signalen (z. B. Klatschen, Schuss) bis zu längeren, stationären Klängen (Sirene, vorbeifahrende Bahn) reichen können. Eine Aufnahme umfasst typischerweise einen bestimmten Zeitraum, der bei nachfolgender Betrachtung in ein oder mehrere Zeitfenster untergliedert ist. Ein Geräusch kann sich ausgehend von dieser Unterteilung und je nach Geräuschlänge (vgl. transientes oder längerer, stationärer Klang) über ein oder mehrere Audiosegment/ Zeitfenster hinweg erstrecken.In real acoustic scenes there is usually a complex overlay of several sound sources. These can be positioned in the foreground or background and in any spatial position. A variety of possible sounds are also conceivable, which can range from very short transient signals (e.g. clapping, gunshot) to longer, stationary sounds (siren, passing train). A recording typically covers a specific period of time, which is divided into one or more time windows when viewed subsequently. Based on this subdivision and depending on the length of the noise (cf. transient or longer, stationary sound), a sound can extend over one or more audio segments/time windows.

In vielen Anwendungsszenarien muss eine Anomalie, also eine klangliche Abweichung vom "akustischen Normalzustand", also der Menge als "normal" angesehener Geräusche, erkannt werden. Beispiele solcher Anomalien sind Glasbruch (Einbruchsdetektion), ein Pistolenschuss (Überwachung öffentlicher Ereignisse) oder eine Kettensäge (Überwachung von Naturschutzgebieten).In many application scenarios, an anomaly, i.e. a sound deviation from the "acoustic normal state", i.e. the amount of noise that is considered "normal", must be detected. Examples of such anomalies are breaking glass (burglary detection), a pistol shot (monitoring public events) or a chainsaw (monitoring nature reserves).

Problematisch ist, dass der Klang der Anomalie (Nicht-in-Ordnung-Klasse) oft nicht bekannt ist oder nicht genau definiert oder beschrieben werden kann (z. B. wie kann eine kaputte Maschine klingen?).The problem is that the sound of the anomaly (out-of-order class) is often not known or cannot be precisely defined or described (e.g. what can a broken machine sound like?).

Das zweite Problem liegt darin, dass neuartige Algorithmen zur Klangklassifikation mittels tiefer neuronaler Netze sehr empfindlich gegenüber veränderten (und oftmals unbekannten) akustischen Bedingungen im Einsatzszenario sind. So erreichen Klassifikationsmodelle, die mit Audiodaten trainiert werden, welche bspw. mit einem hochwertigen Mikrofon aufgenommen wurden, bei der Klassifikation von Audiodaten, welche mittels eines schlechteren Mikrofons aufgenommen wurden, nur schlechte Erkennungsraten. Mögliche Lösungsansätze liegen im Bereich "Domain Adaptation", also der Anpassung der Modelle oder der zu klassifizierenden Audiodaten, um eine höhere Robustheit in der Erkennung zu erreichen. In der Praxis ist es aber logistisch oft schwierig und zu teuer, repräsentative Audioaufnahmen am späteren Einsatzort eines Audioanalysesystems aufzunehmen und anschließend bezüglich enthaltener Klangereignisse zu annotieren.The second problem is that novel algorithms for sound classification using deep neural networks are very sensitive to changing (and often unknown) acoustic conditions in the operational scenario. Classification models that are trained with audio data, for example with a high-quality microphone, achieve this recorded, only poor recognition rates when classifying audio data that was recorded using a poorer microphone. Possible solutions lie in the area of “domain adaptation”, i.e. adapting the models or the audio data to be classified in order to achieve greater robustness in recognition. In practice, however, it is often logistically difficult and too expensive to record representative audio recordings at the later location of use of an audio analysis system and then annotate them with regard to the sound events they contain.

Das dritte Problem der Audioanalyse von Umweltgeräuschen liegt in datenschutzrechtlichen Bedenken, da Klassifikationsverfahren theoretisch auch zur Erkennung und Transkription von Sprachsignalen (z. B. bei der Aufnahme einer Unterhaltung in der Nähe des Audiosensors) genutzt werden können.The third problem with audio analysis of environmental noise lies in data protection concerns, since classification methods can theoretically also be used to recognize and transcribe speech signals (e.g. when recording a conversation near the audio sensor).

Die Klassifikationsmodelle von bestehenden Stand der Technik-Lösungen gestalten wie folgt:
Wenn die zu detektierende klangliche Anomalie genau spezifiziert werden kann, so kann ein Klassifikationsmodell basierend auf maschinellen Lernalgorithmen mittels überwachten Lernens (supervised learning) auf die Erkennung bestimmter Geräuschklassen trainiert werden. Aktuelle Studien zeigen, dass insbesondere neuronale Netze sehr empfindlich gegenüber veränderten akustischen Bedingungen sind und eine zusätzliche Adaptierung von Klassifikationsmodellen an die jeweilige akustische Situation der Anwendung durchgeführt werden muss.
The classification models of existing state-of-the-art solutions are as follows:
If the sound anomaly to be detected can be precisely specified, a classification model based on machine learning algorithms can be trained to recognize specific noise classes using supervised learning. Current studies show that neural networks in particular are very sensitive to changing acoustic conditions and that additional adaptation of classification models to the respective acoustic situation of the application must be carried out.

Des Weiteren wird zum Stand der Technik die Offenbarung der EP 2 988 105 A2 , die eine Vorrichtung des Verfahrens zur automatischen Erkennung und Klassifizierung von hörbaren akustischen Signalen in einem Überwachungsbereich beschreibt.Furthermore, the disclosure of the prior art becomes EP 2 988 105 A2 , which describes a device of the method for the automatic detection and classification of audible acoustic signals in a surveillance area.

Ausgehend von oben erläuterten Nachteilen besteht der Bedarf nach einem verbesserten Ansatz. Aufgabe der vorliegenden Erfindung ist es, ein Konzept zur Detektion von Anomalien zu schaffen, das in Bezug auf das Anlernverhalten optimiert und das eine zuverlässige und genaue Erkennung von Anomalien ermöglicht.Based on the disadvantages explained above, there is a need for an improved approach. The object of the present invention is to create a concept for detecting anomalies that is optimized with regard to the learning behavior and that enables reliable and accurate detection of anomalies.

Die Aufgabe wird durch unabhängige Patentansprüche gelöst.The task is solved by independent patent claims.

Ausführungsbeispiele der vorliegenden Erfindung schaffen ein Verfahren zur Erkennung von akustischen Anomalien. Das Verfahren umfasst die Schritte des Erhaltens einer Langzeitaufnahme, welche eine Dauer von mindestens grösser als 1 Minute oder mindestens 10 Minuten oder mindestens 1 Stunde oder mindestens 24 Stunden umfasst, mit einer Vielzahl von ersten Audiosegmenten zugeordnet zu jeweiligen ersten Zeitfenstern und des Analysierens der Vielzahl der ersten Audiosegmente, um zu jedem der Vielzahl der ersten Audiosegmente einen das jeweilige erste Audiosegment beschreibenden ersten Merkmalsvektor, wie z. B. ein Spektrum für das Audiosegment (Zeit-Frequenz-Spektrum) oder einen Audiofingerabdruck mit bestimmten Charakteristika für das Audiosegment zu erhalten. Beispielsweise ist das Resultat der Analyse einer in eine Vielzahl von Zeitfenstern unterteilte Langzeitaufnahme eine Vielzahl von ersten (ein- oder mehrdimensionalen) Merkmalsvektoren für die Vielzahl der ersten Audiosegmente (zugeordnet zu den entsprechenden Zeitpunkten/-fenstern der Langzeitaufnahme), die den "Normalzustand" repräsentieren. Das Verfahren umfasst weitere Schritte des Erhaltens einer weiteren Aufnahme mit einem oder mehreren zweiten Audiosegmenten zugeordnet zu jeweiligen zweiten Audiofenstern und des Analysierens der ein oder mehreren zweiten Audiosegmente, um ein oder mehrere die ein oder mehreren zweiten Audiosegmente beschreibenden Merkmalsvektoren zu erhalten. Insofern ist das Ergebnis des zweiten Teils des Verfahrens beispielsweise eine Vielzahl von zweiten Merkmalsvektoren (z. B. mit entsprechenden Zeitpunkten der weiteren Aufnahme). In einem nachfolgenden Schritt erfolgt dann das Abgleichen der ein oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren (z. B. durch Vergleich der Identitäten oder Ähnlichkeiten oder durch Erkennen einer Reihenfolge), um zumindest eine Anomalie zu erkennen. Denkbar wären entsprechend Ausführungsbeispieten das Erkennen von unterschiedlichen Formen von Anomalien, nämlich eine klangliche Anomalie (das heißt ein Erkennen eines erstmaligen Auftretens eines bisher ungehörten Klanges), einer zeitlichen Anomalie (z. B. verändertes Wiederholmuster eines bereits gehörten Klanges) oder eine räumliche Anomalie (Auftretens eines bereits gehörten Klanges an einer bisher unbekannten räumlichen Position).Embodiments of the present invention provide a method for detecting acoustic anomalies. The method includes the steps of obtaining a long-term recording, which has a duration of at least greater than 1 minute or at least 10 minutes or at least 1 hour or at least 24 hours, with a plurality of first audio segments assigned to respective first time windows and analyzing the plurality of first audio segments to get to each of the A plurality of first audio segments have a first feature vector describing the respective first audio segment, such as. B. to obtain a spectrum for the audio segment (time-frequency spectrum) or an audio fingerprint with certain characteristics for the audio segment. For example, the result of the analysis of a long-term recording divided into a large number of time windows is a large number of first (single- or multi-dimensional) feature vectors for the large number of first audio segments (assigned to the corresponding times/windows of the long-term recording), which represent the "normal state". . The method includes further steps of obtaining another recording with one or more second audio segments associated with respective second audio windows and analyzing the one or more second audio segments to obtain one or more feature vectors describing the one or more second audio segments. In this respect, the result of the second part of the method is, for example, a large number of second feature vectors (e.g. with corresponding times of further recording). In a subsequent step, the one or more second feature vectors are compared with the plurality of first feature vectors (e.g. by comparing the identities or similarities or by recognizing a sequence) in order to detect at least one anomaly. According to exemplary embodiments, it would be conceivable to recognize different forms of anomalies, namely a sound anomaly (i.e. a recognition of the first appearance of a previously unheard sound), a temporal anomaly (e.g. changed repetition pattern of a sound that has already been heard) or a spatial anomaly ( Occurrence of a sound that has already been heard in a previously unknown spatial position).

Ausführungsbeispielen der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass alleine durch eine Langzeitklanganalyse (Phase 1 des Verfahrens umfassend die Schritte Erhalten einer Langzeitaufnahme und Analysieren derselben) selbstständig ein "akustischer Normalzustand" und "normale Geräusche" angelernt werden können. D.h., dass durch diese Langzeitklanganalyse ein selbstständiges bzw. autonomes Anpassen eines Analysesystems an eine bestimmte akustische Szene erfolgt. Es sind keine annotierten Trainingsdaten (Aufnahme + semantische Klassenannotation) erforderlich, was eine große Ersparnis an Zeit, Aufwand und Kosten darstellt. Wenn dieser akustische "Normalzustand" bzw. die "normalen" Geräusche erfasst sind, kann die aktuelle Geräuschumgebung in einer nachfolgenden Analysephase (Phase 2 mit den Schritten Erhalten einer weiteren Aufnahme und Analysieren derselben) erfolgen. Hierbei erfolgt ein Abgleich der aktuellen Audiosegment / aktuellen Geräuschkulisse mit den im Vorfeld / in Phase 1 erkannten bzw. angelernten "normalen" Geräuschen. Im Allgemeinen heißt das, dass Phase 1 ein Erlernen eines Modells anhand der normalen Geräuschkulisse auf Basis eines statistischen Verfahrens bzw. maschinellen Lernens ermöglicht, wobei dieses Modell es anschließend (in Phase 2) erlaubt, aktuell aufgenommene Geräuschkulisse damit bezüglich ihres Neuigkeitsgrades (Wahrscheinlichkeit einer Anomalie) abzugleichen.Embodiments of the present invention are based on the knowledge that an “acoustic normal state” and “normal noises” can be learned independently simply through a long-term sound analysis (phase 1 of the method comprising the steps of obtaining a long-term recording and analyzing it). This means that this long-term sound analysis results in an independent or autonomous adaptation of an analysis system to a specific acoustic scene. No annotated training data (recording + semantic class annotation) is required, which represents a great saving in time, effort and cost. When this acoustic "normal state" or the "normal" noises are recorded, the current noise environment can be carried out in a subsequent analysis phase (phase 2 with the steps of obtaining another recording and analyzing it). This involves comparing the current audio segment / current background noise with the “normal” noises recognized or learned in advance / in phase 1. In general, this means that phase 1 involves learning a model using the normal background noise based on a statistical procedure or machine learning, whereby this model then allows (in phase 2) to compare currently recorded background noise with regard to its degree of novelty (probability of an anomaly).

Ein weiterer Vorteil dieses Ansatzes liegt darin, dass die Privatsphäre der sich möglicherweise im direkten Umfeld der akustischen Sensoren befindlichen Menschen geschützt ist. Man spricht hier von Privacy-by-design. Systembedingt ist keine Spracherkennung möglich, da Schnittstelle (Audio rein, Anomaliewahrscheinlichkeitsfunktion raus) klar definiert ist. Damit lassen sich mögliche Datenschutzbedenken beim Einsatz der akustischen Sensoren zerstreuen.Another advantage of this approach is that the privacy of people who may be in the immediate vicinity of the acoustic sensors is protected. This is called privacy by design. Due to the system, speech recognition is not possible because the interface (audio in, anomaly probability function out) is clearly defined. This can dispel possible data protection concerns when using acoustic sensors.

Nachdem also die Langzeitaufnahme die akustische Normalsituation darstellt, beschreibt die Vielzahl von ersten Audiosegmenten in sich und/oder in ihrer Reihenfolge diese Normalsituation. Insofern stellt die Vielzahl der ersten Audiosegmente für sich und/oder in ihrer Kombination eine Art Referenz dar. Ziel des Verfahrens ist es, Anomalien im Vergleich zu dieser Normalsituation zu erkennen. Das heißt also, dass entsprechend Ausführungsbeispielen das Ergebnis des oben beschriebenen Clusterings eine Beschreibung der Referenz anhand von ersten Audiosegmenten ist. Im Schritt, in welchem die Anomalie festgestellt wird, werden dann die zweiten Audiosegmente für sich oder in ihrer Kombination (das heißt Reihenfolge) mit der Referenz verglichen, um die Anomalie darzustellen. Die Anomalie ist eine Abweichung der aktuellen akustischen Situation beschrieben durch die zweiten Merkmalsvektoren von der Referenz beschrieben durch die ersten Merkmalsvektoren. Mit anderen Worten ausgedrückt heißt das, dass entsprechend Ausführungsbeispielen die ersten Merkmalsvektoren für sich oder in ihrer Kombination eine Referenzabbildung des Normalzustands darstellen, während die zweiten Merkmalsvektoren für sich oder in ihrer Kombination die aktuelle akustische Situation beschreiben, so dass in dem Schritt 126 die Anomalie in Form einer Abweichung der Beschreibung der aktuellen akustischen Situation (vgl. zweite Merkmalsvektoren) von der Referenz (vgl. erste Merkmalsvektoren) erkannt werden kann. Somit ist die Anomalie dadurch definiert, dass zumindest einer der zweiten akustischen Merkmalsvektoren von der Folge der ersten akustischen Merkmalsvektoren abweicht. Mögliche Abweichungen können sein: klangliche Anomalien, zeitliche Anomalien und räumliche Anomalien.Since the long-term recording represents the normal acoustic situation, the multitude of first audio segments describes this normal situation in themselves and/or in their order. In this respect, the large number of first audio segments represent a kind of reference on their own and/or in their combination. The aim of the method is to detect anomalies in comparison to this normal situation. This means that, according to exemplary embodiments, the result of the clustering described above is a description of the reference based on first audio segments. In the step in which the anomaly is detected, the second audio segments alone or in their combination (i.e. order) are then compared with the reference to represent the anomaly. The anomaly is a deviation of the current acoustic situation described by the second feature vectors from the reference described by the first feature vectors. In other words, this means that, according to exemplary embodiments, the first feature vectors alone or in their combination represent a reference image of the normal state, while the second feature vectors alone or in their combination describe the current acoustic situation, so that in step 126 the anomaly in Form of a deviation of the description of the current acoustic situation (see second feature vectors) from the reference (see first feature vectors) can be recognized. The anomaly is therefore defined by the fact that at least one of the second acoustic feature vectors deviates from the sequence of the first acoustic feature vectors. Possible deviations can be: sound anomalies, temporal anomalies and spatial anomalies.

Entsprechend einem Ausführungsbeispiel sind also durch die Phase 1 eine Vielzahl von ersten Audiosegmenten erfasst, die nachfolgend auch als "normale" bzw. "normal" angesehene Geräusche/Audiosegmente bezeichnet werden. Entsprechend Ausführungsbeispielen ist unter Kenntnis dieser "normalen" Audiosegmente es ermöglicht, eine sogenannte klangliche Anomalie zu erkennen. Hierbei wird dann der Unterschritt des Identifizierens eines zweiten Merkmalsvektors, der sich von den analysierten ersten Merkmalsvektoren unterscheidet, durchgeführt.According to one exemplary embodiment, phase 1 captures a large number of first audio segments, which are also referred to below as “normal” or “normal” considered noises/audio segments. According to exemplary embodiments knowing these "normal" audio segments makes it possible to detect a so-called sound anomaly. The sub-step of identifying a second feature vector that differs from the analyzed first feature vectors is then carried out.

Entsprechend weiteren Ausführungsbeispielen umfasst das Verfahren beim Analysieren den Unterschritt des Identifizierens eines Wiederholmusters in der Vielzahl der ersten Zeitfenster. Hierbei werden also sich wiederholende Audiosegmente identifiziert und das daraus resultierende Muster bestimmt. Entsprechend Ausführungsbeispielen erfolgt das Identifizieren anhand von sich wiederholenden, identischen oder ähnlichen ersten Merkmalsvektoren zugehörig zu unterschiedlichen ersten Audiosegmenten. Entsprechend Ausführungsbeispielen kann beim Identifizieren auch ein Gruppieren von identischen und ähnlichen ersten Merkmalsvektoren bzw. ersten Audiosegmenten zu einer oder mehreren Gruppen erfolgen.According to further embodiments, when analyzing, the method includes the substep of identifying a repeat pattern in the plurality of first time windows. This involves identifying repeating audio segments and determining the resulting pattern. According to exemplary embodiments, identification is carried out using repeating, identical or similar first feature vectors belonging to different first audio segments. According to exemplary embodiments, identical and similar first feature vectors or first audio segments can also be grouped into one or more groups during identification.

Entsprechend Ausführungsbeispielen umfasst das Verfahren das Erkennen einer Reihenfolge von ersten Merkmalsvektoren zugehörig zu den ersten Audiosegmenten oder das Erkennen einer Reihenfolge von Gruppen von identischen oder ähnlichen ersten Merkmalsvektoren bzw. ersten Audiosegmenten. Durch die Basisschritte ist es also vorteilhafterweise möglich, normale Geräusche zu erkennen bzw. normale Audioobjekte zu erkennen. Die Kombination dieser normalen Audioobjekte in zeitlicher Hinsicht zu einer bestimmten Reihenfolge oder einem bestimmten Wiederholmuster stellt dann also in Summe einen akustischen Normalzustand dar.According to exemplary embodiments, the method includes recognizing a sequence of first feature vectors associated with the first audio segments or recognizing a sequence of groups of identical or similar first feature vectors or first audio segments. The basic steps make it advantageously possible to recognize normal noises or to recognize normal audio objects. The combination of these normal audio objects in a certain order or a certain repetition pattern in terms of time then represents a normal acoustic state.

Entsprechend weiteren Ausführungsbeispielen wäre es auch denkbar, dass ein Wiederholmuster in dem einen oder mehreren zweiten Zeitfenstern und/oder eine Reihenfolge von zweiten Merkmalsvektoren zugehörig zu unterschiedlichen zweiten Audioobjekten bzw. von Gruppen von identischen oder ähnlichen zweiten Merkmalsvektoren erkannt wird. Dieses Verfahren ermöglicht dann entsprechend weiteren Ausführungsbeispielen, dass beim Abgleichen der Unterschritt des Abgleichens des Wiederholmusters der ersten Audiosegmente und/oder Reihenfolge bei den ersten Audiosegmenten mit dem Wiederholmuster der zweiten Audiosegmente und/oder Reihenfolge bei den zweiten Audiosegmenten erfolgt. Dieser Abgleich ermöglicht das Erkennen von einer zeitlichen Anomalie.According to further exemplary embodiments, it would also be conceivable for a repetition pattern to be recognized in the one or more second time windows and/or a sequence of second feature vectors associated with different second audio objects or groups of identical or similar second feature vectors. According to further exemplary embodiments, this method then enables the sub-step of comparing the repetition pattern of the first audio segments and/or order in the first audio segments with the repetition pattern of the second audio segments and/or order in the second audio segments to be carried out during matching. This comparison enables the detection of a temporal anomaly.

Entsprechend einem weiteren Ausführungsbeispiel kann das Verfahren den Schritt des Bestimmens einer jeweiligen Position für die jeweiligen ersten Audiosegmente umfassen. Entsprechend einem Ausführungsbeispiel kann auch das Bestimmen der jeweiligen Position für die jeweiligen zweiten Audiosegmente vorgenommen werden. Dies ermöglicht dann entsprechend einem Ausführungsbeispiel, dass durch den Unterschritt des Abgleichs der Position zugeordnet zu den jeweiligen ersten Audiosegmenten mit der Position zugeordnet zu dem entsprechenden jeweiligen zweiten Audiosegment das Erkennen einer räumlichen Anomalie vorgenommen wird.According to a further exemplary embodiment, the method may include the step of determining a respective position for the respective first audio segments. According to one exemplary embodiment, the respective position can also be determined for the respective second audio segments are made. According to one exemplary embodiment, this then enables the detection of a spatial anomaly to be carried out by the substep of comparing the position assigned to the respective first audio segments with the position assigned to the corresponding respective second audio segment.

Es sei angemerkt, dass für eine räumliche Lokalisation beispielsweise mind. 2 Mikrofone verwendet werden, während für die anderen beiden Anomalietypen ein Mikrofon ausreicht.It should be noted that for spatial localization, for example, at least 2 microphones are used, while one microphone is sufficient for the other two types of anomalies.

Wie oben bereits angedeutet, kann jeder Merkmalsvektor (erster und zweiter Merkmalsvektor) für die unterschiedlichen Audiosegmente jeweils eine Dimension oder mehrere Dimensionen aufweisen. Eine mögliche Realisierung eines Merkmalsvektors wäre beispielsweise ein Zeit-Frequenz-Spektrum. Entsprechend einem Ausführungsbeispiel kann auch der Dimensionsraum reduziert sein. Insofern umfasst entsprechend Ausführungsbeispielen das Verfahren den Schritt des Reduzierens der Dimensionen des Merkmalsvektors.As already indicated above, each feature vector (first and second feature vector) can each have one dimension or several dimensions for the different audio segments. A possible realization of a feature vector would be, for example, a time-frequency spectrum. According to one embodiment, the dimensional space can also be reduced. In this respect, according to exemplary embodiments, the method includes the step of reducing the dimensions of the feature vector.

Entsprechend einem weiteren Ausführungsbeispiel kann das Verfahren den Schritt des Bestimmens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments und des Aufgebens der Auftretenswahrscheinlichkeit zusammen mit dem jeweiligen ersten Merkmalsvektor aufweisen. Alternativ kann das Verfahren den Schritt des Bestimmens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments und des Ausgebens der Auftretenswahrscheinlichkeit mit dem jeweiligen ersten Merkmalsvektor und einem zugehörigen ersten Zeitfenster aufweisen. Insofern erfolgt eine Ausgabe der Auftretenswahrscheinlichkeit für das jeweilige Audiosegment bzw. eine nähere Wahrscheinlichkeit des Auftretens des Audiosegments zu diesem Zeitpunkt. Das Ausgeben erfolgt mit dem entsprechenden Datensatz bzw. Merkmalsvektor.According to a further exemplary embodiment, the method can have the step of determining a probability of occurrence of the respective first audio segment and of entering the probability of occurrence together with the respective first feature vector. Alternatively, the method can have the step of determining a probability of occurrence of the respective first audio segment and outputting the probability of occurrence with the respective first feature vector and an associated first time window. In this respect, the probability of occurrence for the respective audio segment or a more precise probability of the occurrence of the audio segment at this point in time is output. The output takes place with the corresponding data record or feature vector.

Entsprechend einem Ausführungsbeispiel kann das Verfahren auch Computer-implementiert ablaufen. Insofern weist das Verfahren ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens auf.According to one exemplary embodiment, the method can also be implemented using a computer. In this respect, the method has a computer program with a program code for carrying out the method.

Weitere Ausführungsbeispiele beziehen sich auf eine Vorrichtung mit einer Schnittstelle und einem Prozessor. Die Schnittstelle dient zum Erhalten einer Langzeitaufnahme mit einer Vielzahl von ersten Audiosegmenten zugeordnet zu jeweiligen ersten Zeitfenstern sowie zum Erhalten einer weiteren Aufnahme mit einem oder mehreren zweiten Audiosegmenten zugeordnet zu jeweiligen zweiten Zeitfenstern. Der Prozessor ist ausgebildet, um die Vielzahl der ersten Audiosegmente zu analysieren, um zu jedem der Vielzahl der ersten Audiosegmente einen das jeweilige erste Audiosegment beschreibenden ersten Merkmalsvektor zu erhalten. Ferner ist der Prozessor ausgebildet, um das eine oder mehrere zweiten Audiosegmente zu analysieren, um einen oder mehrere die einen oder mehreren zweiten Audiosegmente beschreibenden Merkmalsvektoren zu erhalten. Ferner ist der Prozessor ausgebildet, um den einen oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren abzugleichen, um zumindest eine Anomalie zu erkennen.Further exemplary embodiments relate to a device with an interface and a processor. The interface serves to obtain a long-term recording with a plurality of first audio segments assigned to respective first time windows and to obtain a further recording with one or more second audio segments assigned to respective second time windows. The processor is designed to handle the multitude to analyze the first audio segments in order to obtain a first feature vector describing the respective first audio segment for each of the plurality of first audio segments. Furthermore, the processor is designed to analyze the one or more second audio segments in order to obtain one or more feature vectors describing the one or more second audio segments. Furthermore, the processor is designed to match the one or more second feature vectors with the plurality of first feature vectors in order to detect at least one anomaly.

Entsprechend Ausführungsbeispielen umfasst die Vorrichtung eine mit der Schnittstelle verbundene Aufnahmeeinheit, wie z. B. ein Mikrofon oder ein Mikrofon-Array. Das Mikrofon-Array ermöglicht vorteilhafterweise eine Positionsbestimmung, wie sie oben bereits erläutert wurde. Entsprechend weiteren Ausführungsbeispielen umfasst die Vorrichtung eine Ausgabeschnittstelle zur Ausgabe der oben erläuterten Auftretenswahrscheinlichkeit.According to exemplary embodiments, the device comprises a recording unit connected to the interface, such as. B. a microphone or a microphone array. The microphone array advantageously enables position determination, as already explained above. According to further exemplary embodiments, the device comprises an output interface for outputting the probability of occurrence explained above.

Ausführungsbeispiele der vorliegenden Erfindung werden anhand der beiliegenden Zeichnungen erläutert. Es zeigen:

Fig. 1
ein schematisches Flussdiagramm zur Illustration des Verfahrens gemäß einem Basisausführungsbeispiel;
Fig. 2
eine schematische Tabelle zur Illustration von unterschiedlichen Anomalietypen; und
Fig. 3
ein schematisches Blockschaltbild zur Illustration einer Vorrichtung gemäß einem weiteren Ausführungsbeispiel.
Embodiments of the present invention are explained with reference to the accompanying drawings. Show it:
Fig. 1
a schematic flowchart illustrating the method according to a basic embodiment;
Fig. 2
a schematic table illustrating different anomaly types; and
Fig. 3
a schematic block diagram to illustrate a device according to a further exemplary embodiment.

Bevor der nachfolgenden Ausführungsbeispiele der vorliegenden Erfindung anhand der beiliegenden Zeichnungen erläutert werden, sei darauf hingewiesen, dass gleichwirkende Elemente und Strukturen mit gleichem Bezugszeichen versehen sind, so dass die Beschreibung derer aufeinander anwendbar bzw. austauschbar ist.Before the following exemplary embodiments of the present invention are explained with reference to the accompanying drawings, it should be noted that elements and structures with the same effect are provided with the same reference numerals so that the description of them can be applied to one another or interchangeable.

Fig. 1 zeigt ein Verfahren 100, das in zwei Phasen 110 und 120 untergliedert ist. Fig. 1 shows a method 100, which is divided into two phases 110 and 120.

In der ersten Phase 110, die als Justierphase bezeichnet wird, gibt es zwei Basisschritte. Dies ist mit dem Bezugszeichen 112 und 114 markiert. Der Schritt 112 umfasst eine Langzeitaufnahme des akustischen Normalzustands im Anwendungsszenario. Hierbei wird beispielsweise die Analysevorrichtung 10 (vgl. Fig. 3) in der Zielumgebung aufgestellt, so dass eine Langzeitaufnahme 113 des Normalzustands erfasst wird. Diese Langzeitaufnahme kann erfindungsgemäß eine Dauer von mindestens 1 Minute oder mindestens 10 Minuten oder mindestens 1 Stunde oder mindestens 24 Stunden umfassen.In the first phase 110, referred to as the adjustment phase, there are two basic steps. This is marked with reference numbers 112 and 114. Step 112 includes a long-term recording the acoustic normal state in the application scenario. Here, for example, the analysis device 10 (cf. Fig. 3 ) placed in the target environment so that a long-term recording 113 of the normal state is captured. According to the invention, this long-term recording can last for at least 1 minute or at least 10 minutes or at least 1 hour or at least 24 hours.

Diese Langzeitaufnahme 113 wird dann beispielsweise untergliedert. Die Untergliederung kann in gleich lange Zeitbereiche, wie z. B. 1 Sekunde oder 0,1 Sekunden oder auch dynamischer Zeitbereiche erfolgen. Jeder Zeitbereich umfasst ein Audiosegment. Im Schritt 114, der allgemein als Analysieren bezeichnet wird, werden diese Audiosegment separat oder in Kombination untersucht. Hierzu wird beim Analysieren für jedes Audiosegment ein sogenannter Merkmalsvektor 115 (erste Merkmalsvektoren) ermittelt. Allgemein gesagt heißt es, dass in der Umwandlung von einer digitalen Aufnahme 113 in ein oder mehrere Merkmalsvektoren 115 - z. B. mittels tiefer neuronaler Netze - erfolgt, wobei jeder Merkmalsvektor 115 den Klang zu einem bestimmten Zeitpunkt "codiert". Merkmalsvektoren 115 können beispielsweise durch ein Energiespektrum für einen bestimmten Frequenzbereich oder allgemein ein Zeit-Frequenz-Spektrum bestimmt werden.This long-term recording 113 is then broken down, for example. The breakdown can be divided into time periods of equal length, such as: B. 1 second or 0.1 seconds or dynamic time ranges. Each time range includes an audio segment. In step 114, commonly referred to as analyzing, these audio segments are examined separately or in combination. For this purpose, a so-called feature vector 115 (first feature vectors) is determined for each audio segment during analysis. Generally speaking, it is said that in the conversion of a digital recording 113 into one or more feature vectors 115 - e.g. B. using deep neural networks - with each feature vector 115 "encoding" the sound at a specific time. Feature vectors 115 can be determined, for example, by an energy spectrum for a specific frequency range or generally a time-frequency spectrum.

An dieser Stelle sei gleich angemerkt, dass es optionaler Weise möglich ist, dass eine Reduktion der Dimensionalität des Merkmalsraums der Merkmalsvektoren 115 mittels statistischer Verfahren (z. B. Hauptkomponentenanalyse) erfolgt. Bei dem Schritt 114 können dann auch optionaler Weise typische bzw. dominante Geräusche mittels unüberwachter Lernverfahren (z. B. Clustering) identifiziert werden. Hierbei werden Zeitabschnitte bzw. Audiosegmente gruppiert, die hier ähnliche Merkmalsvektoren 115 ausprägen und die entsprechend einen ähnlichen Klang besitzen. Hierbei ist keine semantische Klassifikation eines Geräusches (z. B. "Auto" oder "Flugzeug") nötig. Insofern erfolgt ein sogenanntes unüberwachtes Lernen anhand von Häufigkeiten sich wiederholender oder sich ähnlicher Audiosegmente. Entsprechend einem weiteren Ausführungsbeispiel wäre es auch denkbar, dass bei dem Schritt 114 ein unüberwachtes Lernen der zeitlichen Reihenfolge und/oder typischer Wiederholmuster bestimmte Geräusche erfolgt.It should be noted at this point that it is optionally possible for the dimensionality of the feature space of the feature vectors 115 to be reduced using statistical methods (e.g. principal component analysis). In step 114, typical or dominant noises can then optionally be identified using unsupervised learning methods (e.g. clustering). Here, time periods or audio segments are grouped that have similar feature vectors 115 and that accordingly have a similar sound. No semantic classification of a sound (e.g. “car” or “plane”) is necessary. In this respect, so-called unsupervised learning takes place based on the frequencies of repeating or similar audio segments. According to a further exemplary embodiment, it would also be conceivable that in step 114 an unsupervised learning of the temporal order and/or typical repetition patterns of certain noises takes place.

Das Ergebnis des Clusterings ist eine Zusammenstellung von Audiosegmenten bzw. Geräuschen, die für diesen Bereich normal bzw. typisch sind. Beispielsweise kann auch jedem Audiosegment eine Auftretenswahrscheinlichkeit zugeordnet werden. Ferner kann auch ein Wiederholmuster bzw. eine Reihenfolge, das heißt also eine Kombination mehrerer Audiosegmente identifiziert werden, die für die aktuelle Umgebung typisch bzw. normal ist. Hierzu kann jeder Gruppierung, jedem Wiederholmuster oder jeder Abfolge unterschiedliche Audiosegmente ebenso eine Wahrscheinlich zugeordnet werden.The result of clustering is a compilation of audio segments or noises that are normal or typical for this area. For example, each audio segment can also be assigned a probability of occurrence. Furthermore, one can also Repeat patterns or a sequence, i.e. a combination of several audio segments, are identified that are typical or normal for the current environment. For this purpose, different audio segments can also be assigned a probability to each grouping, each repeat pattern or each sequence.

Am Ende der Justierphase sind also Audiosegmente bzw. gruppierte Audiosegmente bekannt und als Merkmalsvektoren 115 beschrieben, die typisch für diese Umgebung sind. In einem nächsten Schritt bzw. in einer nächsten Phase 120 wird dann dieses gelernte Wissen entsprechend angewendet. Die Phase 120 hat die drei Basisschritte 122 und 124 und 126.At the end of the adjustment phase, audio segments or grouped audio segments are known and described as feature vectors 115 that are typical for this environment. In a next step or in a next phase 120, this learned knowledge is then applied accordingly. Phase 120 has the three basic steps 122 and 124 and 126.

Im Schritt 122 wird wiederum eine Audioaufnahme 123 aufgenommen. Diese ist im Vergleich zur Audioaufnahme 113 typischerweise wesentlich kürzer. Diese Audioaufnahme ist beispielsweise im Vergleich zur Audioaufnahme 113 kürzer. Es kann sich allerdings auch um eine kontinuierliche Audioaufnahme handeln. Diese Audioaufnahme 123 wird dann in einem nachgelagerten Schritt 124 analysiert. Dieser Schritt ist mit dem Schritt 114 inhaltlich vergleichbar. Hierbei erfolgt wiederum eine Umwandlung der digitalen Audioaufnahme 123 in Merkmalsvektoren. Wenn nun diese zweite Merkmalsvektoren 125 vorliegen, können selbige mit den Merkmalsvektoren 115 verglichen werden.In step 122, an audio recording 123 is again recorded. This is typically significantly shorter compared to the audio recording 113. For example, this audio recording is shorter compared to audio recording 113. However, it can also be a continuous audio recording. This audio recording 123 is then analyzed in a subsequent step 124. This step is comparable in content to step 114. This in turn involves converting the digital audio recording 123 into feature vectors. If these second feature vectors 125 are now available, they can be compared with the feature vectors 115.

Der Vergleich erfolgt im Schritt 126 mit der Zielsetzung, Anomalien festzustellen. Sehr ähnliche Merkmalsvektoren und sehr ähnliche Reihenfolgen von Merkmalsvektoren deuten darauf hin, dass keine Anomalie vorliegt. Abweichungen von vorher bestimmten Mustern (Wiederholmustern, typischen Reihenfolgen etc.) oder Abweichungen von den vormals bestimmten Audiosegmenten gekennzeichnet durch andere/neue Merkmalsvektoren deuten auf eine Anomalie hin. Diese werden in dem Schritt 126 erkannt. Bei dem Schritt 126 können unterschiedliche Typen von Anomalien erkannt werden. Diese sind beispielsweise:

  • klangliche Anomalie (neuer, bisher ungehörter Klang)
  • zeitliche Anomalie (bereits gehörter Klang tritt zeitlich "unpassend" auf, wiederholt sich zu schnell oder tritt in falscher Reihenfolge mit anderen Klängen auf)
  • räumliche Anomalie (bereits gehörter Klang tritt an "ungewohnter" räumlicher Position auf oder die entsprechende Quelle folgt einem ungewohnten räumlichen Bewegungsmuster)
The comparison takes place in step 126 with the aim of detecting anomalies. Very similar feature vectors and very similar ordering of feature vectors indicate that there is no anomaly. Deviations from previously determined patterns (repetition patterns, typical sequences, etc.) or deviations from the previously determined audio segments characterized by different/new feature vectors indicate an anomaly. These are recognized in step 126. At step 126, different types of anomalies may be detected. These are, for example:
  • sound anomaly (new, previously unheard sound)
  • temporal anomaly (a sound that has already been heard occurs "inappropriately" in time, repeats itself too quickly or occurs in the wrong order with other sounds)
  • spatial anomaly (already heard sound occurs in an "unusual" spatial position or the corresponding source follows an unfamiliar spatial movement pattern)

Diese Anomalien werden bezugnehmend auf Fig. 2 näher erläutert.These anomalies are referred to Fig. 2 explained in more detail.

Optionaler Weise kann die Ausgabe einer Wahrscheinlichkeit für jede der drei Anomaliearten zum Zeitpunkt X erfolgen. Das ist mit den Pfeilen 126z, 126k und 126r (je ein Pfeil pro Anatomieart) in Fig. 3 illustriert.Optionally, a probability for each of the three anomaly types can be output at time X. This is with the arrows 126z, 126k and 126r (one arrow for each type of anatomy). Fig. 3 illustrated.

An dieser Stelle sei angemerkt, dass beim Vergleich der Merkmalsvektoren häufig keine Identität, sondern nur Ähnlichkeit vorliegt. Insofern können entsprechend Ausführungsbeispielen Schwellwerte definiert sein, wann sich Merkmalsvektoren ähneln bzw. wann sich Gruppen von Merkmalsvektoren ähneln, so dass dann das Resultat auch einen Schwellwert für eine Anomalie vorlegt. Diese Schwellenwerteanwendung kann sich auch an die Ausgabe der Wahrscheinlichkeitsverteilung anknüpfen bzw. in dieser in Kombination auftauchen, z. B. um genauere zeitliche Erkennungen von Anomalien zu ermöglichen.At this point it should be noted that when comparing the feature vectors there is often no identity, but only similarity. In this respect, according to exemplary embodiments, threshold values can be defined as to when feature vectors are similar or when groups of feature vectors are similar, so that the result then also presents a threshold value for an anomaly. This threshold application can also be linked to the output of the probability distribution or appear in this in combination, e.g. B. to enable more accurate temporal detection of anomalies.

Entsprechend weiteren Ausführungsbeispielen ist es auch möglich, räumliche Anomalien zu erkennen. Hierzu kann der Schritt 114 in der Justierphase 110 auch ein unüberwachtes Lernen typischer räumlicher Positionen und/oder Bewegungen bestimmte Geräusche aufweisen. Typischerweise sind dann in solchem Fall statt dem in Fig. 3 dargestellten Mikrofon 18 zwei Mikrofone oder ein Mikrofon-Array mit zumindest zwei Mikrofonen vorhanden. In einer solchen Situation ist dann in der zweiten Phase 120 durch eine mehrkanalige Aufnahme auch eine räumliche Lokalisierung der aktuellen dominanten Schallquellen/Audiosegmente möglich. Hier zugrundeliegende Technologie kann beispielsweise Beamforming sein.According to further exemplary embodiments, it is also possible to detect spatial anomalies. For this purpose, step 114 in adjustment phase 110 can also include unsupervised learning of typical spatial positions and/or movements of certain noises. Typically in such a case, instead of the in Fig. 3 Microphone 18 shown has two microphones or a microphone array with at least two microphones. In such a situation, spatial localization of the current dominant sound sources/audio segments is then possible in the second phase 120 through multi-channel recording. The underlying technology here can be, for example, beamforming.

Bezugnehmend auf Fig. 2a-2c werden nun drei unterschiedliche Anomalien erläutert. Fig. 2a illustriert die zeitliche Anomalie. Hier sind jeweils Audiosegmente ABC sowohl für die Phase 1 als auch die Phase 2 entlang der Zeitachse t aufgetragen. In der Phase 1 wurde erkannt, dass eine normale Situation bzw. normale Reihenfolge derart besteht, dass die Audiosegmente ABC in der Reihenfolge ABC auftauchen. Für einen wurde ein Wiederholmuster erkannt, das nach der ersten Gruppe ABC eine weitere Gruppe ABC folgen kann.Referring to Figs. 2a-2c Three different anomalies will now be explained. Fig. 2a illustrates the temporal anomaly. Here, audio segments ABC for both phase 1 and phase 2 are plotted along the time axis t. In phase 1 it was recognized that a normal situation or normal order exists such that the audio segments ABC appear in the order ABC. For one, a repeat pattern was recognized that can be followed by another group ABC after the first group ABC.

Wenn genau dieses Muster ABCABC in Phase 2 erkannt wird, kann davon ausgegangen werden, dass keine Anomalie bzw. zumindest keine zeitliche Anomalie vorliegt. Falls aber das hier dargestellte Muster ABCAABC erkannt wird, so liegt eine zeitliche Anomalie vor, da ein weiteres Audiosegment A zwischen den zwei Gruppen ABC angeordnet ist.If exactly this pattern ABCABC is recognized in phase 2, it can be assumed that there is no anomaly or at least no temporal anomaly. However, if the pattern ABCAABC shown here is recognized, there is a temporal anomaly because another audio segment A is arranged between the two groups ABC.

Dieses Audiosegment A bzw. anomale Audiosegment A ist mit einem Doppelrahmen versehen.This audio segment A or anomalous audio segment A is provided with a double frame.

Weiter in Fig. 2b ist eine klangliche Anomalie illustriert. In Phase 1 wurden wiederum die Audiosegmente ABCABC entlang der Zeitachse t aufgenommen (vgl. Fig. 2a). Die klangliche Anomalie beim Erkennen zeigt sich dadurch, dass ein weiteres Audiosegment, hier das Audiosegment D, in Phase 2 auftaucht. Dieses Audiosegment D hat eine vergrößerte Länge, z. B. über zwei Zeitbereiche und ist deshalb als DD illustriert. Die klangliche Anomalie ist in der Artenordnung der Audiosegment mit einem Doppelrahmen versehen. Bei dieser klanglichen Anomalie kann es sich beispielsweise um einen Klang handeln, der während der Lernphase nie gehört wurde. Beispielsweise kann hier ein Donner vorliegen, der sich in Bezug auf die Lautheit/Intensität und in Bezug auf die Länge von den vorherigen Elementen ABC unterscheidet.Further in Fig. 2b a sonic anomaly is illustrated. In phase 1, the audio segments ABCABC were again recorded along the time axis t (cf. Fig. 2a ). The sound anomaly during recognition is shown by the fact that another audio segment, here audio segment D, appears in phase 2. This audio segment D has an increased length, e.g. B. over two time ranges and is therefore illustrated as DD. The sound anomaly is double-framed in the audio segment species order. This sound anomaly could, for example, be a sound that was never heard during the learning phase. For example, there may be thunder that differs from the previous elements ABC in terms of loudness/intensity and length.

In Bezug auf Fig. 2c ist eine örtliche Anomalie illustriert. In der initialen Lernphase wurden zwei Audiosegment A und B an zwei verschiedenen Positionen, Position 1 und Positionen 2, erkannt. Während der Phase 2 wurden beide Elemente A und B wiedererkannt, wobei durch Lokalisierung festgestellt wurde, dass sowohl das Audiosegment A als auch das Audiosegment B sich an Positionen 1 befinden. Das Vorliegen vom Audiosegment B an Position 1 stellt eine räumliche Anomalie dar.In relation to Fig. 2c a local anomaly is illustrated. In the initial learning phase, two audio segments A and B were detected at two different positions, position 1 and position 2. During phase 2, both elements A and B were recognized, with localization determining that both audio segment A and audio segment B were at positions 1. The presence of audio segment B at position 1 represents a spatial anomaly.

Bezugnehmend auf Fig. 3 wird nun eine Vorrichtung 10 zur Klanganalyse erläutert. Die Vorrichtung 10 umfasst im Wesentlichen die Eingabeschnittstelle 12, wie z. B. eine Mikrofonschnittstelle sowie einen Prozessor 14. Der Prozessor 14 empfängt die einen oder mehreren (zeitgleich vorliegenden) Audiosignale von dem Mikrofon 18 bzw. dem Mikrophon-Array 18' und analysiert diese. Hierzu führt er im Wesentlichen die im Zusammenhang mit Fig. 1 erläuterten Schritte 114, 124 und 126 durch. Jeder Phase ist das auszugebende Ergebnis (vgl. Ausgabeschnittstelle 16) eine Menge von Merkmalsvektoren, die den Normalzustand repräsentieren oder in Phase 2 eine Ausgabe der erkannten Anomalien, z. B. zugeordnet zu einem bestimmten Typ und/oder zugeordnet zu einem bestimmten Zeitpunkt.Referring to Fig. 3 A device 10 for sound analysis will now be explained. The device 10 essentially includes the input interface 12, such as. B. a microphone interface and a processor 14. The processor 14 receives the one or more (simultaneously present) audio signals from the microphone 18 or the microphone array 18 'and analyzes them. To this end, he essentially leads in connection with Fig. 1 Steps 114, 124 and 126 explained. In each phase, the result to be output (cf. output interface 16) is a set of feature vectors that represent the normal state or, in phase 2, an output of the detected anomalies, e.g. B. assigned to a specific type and/or assigned to a specific time.

Darüber hinaus kann bei der Schnittstelle 16 auf eine Wahrscheinlichkeit von Anomalien oder eine Wahrscheinlichkeit von Anomalien zu bestimmten Zeitpunkten oder allgemein eine Wahrscheinlichkeit von Merkmalsvektoren zu bestimmten Zeitpunkten erfolgen.In addition, the interface 16 can refer to a probability of anomalies or a probability of anomalies at certain times or, in general, a probability of feature vectors at certain times.

Entsprechend Ausführungsbeispielen ist die Vorrichtung 10 bzw. das Audiosystem ausgebildet, (gleichzeitig) verschiedene Typen von Anomalien, z. B. zumindest zwei Anomalien, zu erkennen. Folgen Anwendungsgebiete wären denkbar:

  • Sicherheitsüberwachung von Gebäuden und Anlagen
    • o Detektion von Einbrüchen (z. B. Glasbruch)/Beschädigungen (Vandalismus)
  • Predictive Maintenance
    • o Erkennung von beginnendem Fehlverhalten von Maschinen aufgrund ungewöhnlicher Klänge
  • Überwachung öffentlicher Plätze/Ereignisse (Sportereignisse, Musikereignisse, Demonstrationen, Kundgebungen usw.)
    • o Erkennung von Gefahrengeräuschen (Explosion, Schuss, Hilfeschreie)
  • Verkehrsmonitoring
    • o Erkennen bestimmter Fahzeuggeräusche (z. B. durchdrehende Reifen - Raser)
  • Logistikmonitoring
    • ∘ Überwachung von Baustellen - Erkennung von Unfällen (Einsturz, Hilfeschreie)
  • Health
    • o akustische Überwachung des normalen Alltags älterer/kranker Menschen
    • o Erkennung von Stürzen/Hilfeschreien
According to exemplary embodiments, the device 10 or the audio system is designed to (simultaneously) detect various types of anomalies, e.g. B. at least two anomalies to be recognized. The following areas of application would be conceivable:
  • Security monitoring of buildings and facilities
    • o Detection of break-ins (e.g. broken glass)/damage (vandalism)
  • Predictive maintenance
    • o Detection of early machine malfunctions due to unusual sounds
  • Monitoring public places/events (sporting events, music events, demonstrations, rallies, etc.)
    • o Detection of danger sounds (explosion, gunshot, cries for help)
  • Traffic monitoring
    • o Detecting certain vehicle noises (e.g. spinning tires - speeding)
  • Logistics monitoring
    • ∘ Monitoring of construction sites - detection of accidents (collapse, cries for help)
  • Health
    • o acoustic monitoring of the normal everyday life of elderly/sick people
    • o Detection of falls/cries for help

Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder eine elektronische Schaltung ausgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.Although some aspects have been described in connection with a device, it is understood that these aspects also represent a description of the corresponding method, so that a block or a component of a device is also to be understood as a corresponding method step or as a feature of a method step. Similarly, aspects described in connection with or as a method step also represent a description of a corresponding block or detail or feature of a corresponding device. Some or all of the method steps may be performed by a hardware apparatus (or using a hardware device). Apparatus), such as a microprocessor, a programmable computer or an electronic circuit can be carried out. In some embodiments, some or more of the key process steps may be performed by such apparatus.

Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.Depending on particular implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation may be using a digital storage medium such as a floppy disk, a DVD, a Blu-ray Disc, a CD, a ROM, a PROM, an EPROM, an EEPROM or a FLASH memory, a hard drive or other magnetic or optical memory are carried out on which electronically readable control signals are stored, which can interact or interact with a programmable computer system in such a way that the respective method is carried out. Therefore, the digital storage medium can be computer readable.

Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.Some embodiments according to the invention thus include a data carrier that has electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is carried out.

Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahingehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.In general, embodiments of the present invention may be implemented as a computer program product with a program code, the program code being effective to perform one of the methods when the computer program product runs on a computer.

Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.The program code can, for example, also be stored on a machine-readable medium.

Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.Other embodiments include the computer program for performing one of the methods described herein, the computer program being stored on a machine-readable medium.

Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft.In other words, an exemplary embodiment of the method according to the invention is therefore a computer program that has a program code for carrying out one of the methods described herein when the computer program runs on a computer.

Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist. Der Datenträger, das digitale Speichermedium oder das computerlesbare Medium sind typischerweise gegenständlich und/oder nicht-vergänglich bzw. nicht-vorübergehend.A further exemplary embodiment of the method according to the invention is therefore a data carrier (or a digital storage medium or a computer-readable medium) on which the computer program for carrying out one of the methods described herein is recorded. The data carrier, digital storage medium or computer-readable medium is typically tangible and/or non-transitory.

Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahingehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.A further exemplary embodiment of the method according to the invention is therefore a data stream or a sequence of signals which represents the computer program for carrying out one of the methods described herein. The data stream or the sequence of signals can, for example, be configured to be transferred via a data communication connection, for example via the Internet.

Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahingehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.Another embodiment includes a processing device, such as a computer or a programmable logic device, configured or adapted to perform one of the methods described herein.

Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.Another embodiment includes a computer on which the computer program for performing one of the methods described herein is installed.

Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.A further embodiment according to the invention includes a device or system designed to transmit a computer program to a receiver for carrying out at least one of the methods described herein. The transmission can take place electronically or optically, for example. The recipient may be, for example, a computer, a mobile device, a storage device or a similar device. The device or system can, for example, comprise a file server for transmitting the computer program to the recipient.

Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.In some embodiments, a programmable logic device (e.g., a field programmable gate array, an FPGA) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a field programmable gate array may cooperate with a microprocessor to perform any of the methods described herein. In general, the methods in some embodiments are carried out by one any hardware device. This can be universally applicable hardware such as a computer processor (CPU) or hardware specific to the method, such as an ASIC.

Die hierin beschriebenen Vorrichtungen können beispielsweise unter Verwendung eines Hardware-Apparats, oder unter Verwendung eines Computers, oder unter Verwendung einer Kombination eines Hardware-Apparats und eines Computers implementiert werden.The devices described herein may be implemented, for example, using a hardware apparatus, or using a computer, or using a combination of a hardware apparatus and a computer.

Die hierin beschriebenen Vorrichtungen, oder jedwede Komponenten der hierin beschriebenen Vorrichtungen können zumindest teilweise in Hardware und/oder in Software (Computerprogramm) implementiert sein.The devices described herein, or any components of the devices described herein, may be at least partially implemented in hardware and/or in software (computer program).

Die hierin beschriebenen Verfahren können beispielsweise unter Verwendung eines Hardware-Apparats, oder unter Verwendung eines Computers, oder unter Verwendung einer Kombination eines Hardware-Apparats und eines Computers implementiert werden.The methods described herein may be implemented, for example, using a hardware apparatus, or using a computer, or using a combination of a hardware apparatus and a computer.

Die hierin beschriebenen Verfahren, oder jedwede Komponenten der hierin beschriebenen Verfahren können zumindest teilweise durch Hardware und/oder durch Software ausgeführt werden.The methods described herein, or any components of the methods described herein, may be performed at least in part by hardware and/or by software.

Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.The embodiments described above are merely illustrative of the principles of the present invention. It will be understood that modifications and variations of the arrangements and details described herein will occur to others skilled in the art. Therefore, it is intended that the invention be limited only by the scope of the following claims and not by the specific details presented from the description and explanation of the exemplary embodiments herein.

Wissenschaftliche LiteraturScientific literature

  • [Borges_2008] N. Borges, G. G. L. Meyer: Unsupervised Distributional Anomaly Detection for a Self-Diagnostic Speech Activity Detector, CISS, 2008, pp. 950-955 .[Borges_2008] N. Borges, GGL Meyer: Unsupervised Distributional Anomaly Detection for a Self-Diagnostic Speech Activity Detector, CISS, 2008, pp. 950-955 .
  • [Ntalampiras_2009] S. Ntalampiras, I. Potamitis, N. Fakotakis: On Acoustic Surveillance of Hazardous Situations, ICASSP, 2009, pp. 165-168 .[Ntalampiras_2009] S. Ntalampiras, I. Potamitis, N. Fakotakis: On Acoustic Surveillance of Hazardous Situations, ICASSP, 2009, pp. 165-168 .
  • [Borges_2009] N. Borges, G. G. L. Meyer: Trimmed KL Divergence between Gaussian Mixtures for Robust Unsupervised Acoustic Anomaly Detection, INTERSPEECH, 2009 .[Borges_2009] N. Borges, GGL Meyer: Trimmed KL Divergence between Gaussian Mixtures for Robust Unsupervised Acoustic Anomaly Detection, INTERSPEECH, 2009 .
  • [Marchi_2015] E. Marchi, F. Vesperini, F. Eyben, S. Squartini, B. Schuller: A Novel Approach for Automatic Acoustic Novelty Detection using a Denoising Autoencoder with Bidirectional LSTM Neural Networks, ICASSP 2015, pp. 1996-2000 .[Marchi_2015] E. Marchi, F. Vesperini, F. Eyben, S. Squartini, B. Schuller: A Novel Approach for Automatic Acoustic Novelty Detection using a Denoising Autoencoder with Bidirectional LSTM Neural Networks, ICASSP 2015, pp. 1996-2000 .
  • [Valenzise_2017] G. Valenzise, L. Gerosa, M. Tagliasacchi, F. Antopnacci, A. Sarti: Scream and Gunshot Detection and Localization for Audio-Surveillance Systems, IEEE ICAVSBS, 2017, pp. 21-26 .[Valenzise_2017] G. Valenzise, L. Gerosa, M. Tagliasacchi, F. Antopnacci, A. Sarti: Scream and Gunshot Detection and Localization for Audio-Surveillance Systems, IEEE ICAVSBS, 2017, pp. 21-26 .
  • [Komatsu_2017] T. Komatsu, R. Kondo: Detection of Anomaly Acoustic Scenes based an a Temporal Dissimilarity Model, ICASSP 2017, pp. 376-380 .[Komatsu_2017] T. Komatsu, R. Kondo: Detection of Anomaly Acoustic Scenes based on a Temporal Dissimilarity Model, ICASSP 2017, pp. 376-380 .
  • [Tuor_2017] A. Tuor, S. Kaplan, B. Hutchinson, N. Nichols, S. Robinson: Deep Learning for[Tuor_2017] A. Tuor, S. Kaplan, B. Hutchinson, N. Nichols, S. Robinson: Deep Learning for
  • Unsupervised Insider Threat Detection in Structured Cybersecurity Data Streams, AAAI 2017, pp. 224231 .Unsupervised Insider Threat Detection in Structured Cybersecurity Data Streams, AAAI 2017, pp. 224231 .

Claims (15)

  1. Method (100) for recognizing acoustic anomalies, comprising:
    obtaining (113) a long-term recording having a plurality of first audio segments (ABCD) associated to respective first time windows; wherein the long-term recording comprises at least a duration of more than 1 minute, of at least 10 minutes or at least 1 hour or at least 24 hours;
    analyzing (114) the plurality of the first audio segments (ABCD) to obtain, for each of the plurality of the first audio segments (ABCD), a first characteristic vector describing the respective first audio segment (ABCD);
    obtaining (123) a further recording having one or more second audio segments (ABCD) associated to respective second time windows;
    analyzing (124) the one or more second audio segments (ABCD) to obtain one or more characteristic vectors describing the one or more second audio segments (ABCD);
    matching (126) the one or more second characteristic vectors with the plurality of the first characteristic vectors to recognize at least one anomaly when compared to an acoustic normal situation for this environment.
  2. Method (100) in accordance with claim 1, wherein the anomaly comprises a sound, temporal and/or spatial anomaly; and/or
    wherein the anomaly comprises a sound anomaly in combination with a temporal anomaly or a sound anomaly in combination with a spatial anomaly or a temporal anomaly in combination with a spatial anomaly.
  3. Method (100) in accordance with claim 1 or 2, the method (100), when analyzing, comprising the sub-step of identifying a repetition pattern in the plurality of the first time windows; or
    the method (100), when analyzing, comprising the sub-step of identifying a repetition pattern in the plurality of the first time windows; wherein identifying is performed using repeating, identical or similar first characteristic vectors belonging to different first audio segments (ABCD).
  4. Method (100) in accordance with claim 3, wherein, when identifying, grouping of identical or similar first characteristic vectors to form one or more groups is performed; and/or
    the method (100) comprising recognizing an order of first characteristic vectors belonging to different first audio segments (ABCD) or recognizing an order of groups of identical or similar first characteristic vectors.
  5. Method (100) in accordance with any of claims 3 to 4, the method (100) comprising identifying a repetition pattern in the one or more second time windows; and/or
    the method (100) comprising recognizing an order of second characteristic vectors belonging to different second audio segments (ABCD) or recognizing an order of groups of identical or similar second characteristic vectors.
  6. Method (100) in accordance with claim 5, the method (100) comprising the sub-step of matching the repetition pattern of the first audio segments (ABCD) and/or order in the first audio segments (ABCD) with the repetition pattern of the second audio segments (ABCD) and/or order in the second audio segments (ABCD) in order to recognize a temporal anomaly.
  7. Method (100) in accordance with any of the preceding claims, wherein matching comprises the sub-step of identifying a second characteristic vector, which differs from the first characteristic vectors analyzed, in order to recognize a sound anomaly.
  8. Method (100) in accordance with any of the preceding claims, wherein the characteristic vector comprises one dimension, more dimensions or a reduced dimension space; and/or
    wherein the method (100) comprises the step of reducing the dimensions of the characteristic vector.
  9. Method (100) in accordance with any of the preceding claims, the method (100) comprising the step of determining a respective position for the respective first audio segments (ABCD), or
    the method (100) comprising the step of determining a respective position for the respective first audio segments (ABCD); the method (100) comprising the step of determining a respective position for the respective second audio segments (ABCD), and the method (100) comprising the sub-step of matching the position associated to the respective first audio segment (ABCD) with the position associated to the corresponding respective second audio segment (ABCD) in order to recognize a spatial anomaly.
  10. Method (100) in accordance with any of the preceding claims, the method (100) comprising the step of determining a probability of occurrence of the respective first audio segment (ABCD) and outputting the probability of occurrence with the respective first characteristic vector, or the method (100) comprising the step of determining a probability of occurrence of the respective first audio segment (ABCD) and outputting the probability of occurrence with the respective first characteristic vector and a first time window.
  11. Method in accordance with any of the preceding claims, wherein the plurality of the first audio segments and/or the plurality of the first audio segments in their order describe an acoustic normal state in the application scenario and/or represent a reference; and/or
    wherein the one anomaly is recognized when one or more second characteristic vectors deviate from the plurality of the first characteristic vectors.
  12. Method in accordance with any of the preceding claims, wherein the further recoding comprises a time window or, in particular, a time window of less than 5 minutes, less than 1 minute, or less than 10 seconds.
  13. Computer program comprising program code which, when running on a computer, executes one or more steps of the method (100) in accordance with the preceding claims.
  14. Apparatus (10) for recognizing acoustic anomalies, comprising:
    an interface (12) for obtaining a long-term recording (113) having a plurality of first audio segments (ABCD) associated to respective first time windows, and for obtaining a further recording (123) having one or more second audio segments (ABCD) associated to respective second time windows; wherein the long-term recording comprises at least a duration of more than 1 minute, or of at least 10 minutes or at least 1 hour or at least 24 hours;
    a processor (14) configured for analyzing the plurality of the first audio segments (ABCD) to obtain, for each of the plurality of the first audio segments (ABCD), a first characteristic vector describing the respective first audio segment (ABCD), and configured for analyzing the one or more second audio segments (ABCD) to obtain one or more characteristic vectors describing the one or more second audio segments (ABCD), and configured for matching the one or more second characteristic vectors with the plurality of the first characteristic vectors to recognize at least one anomaly when compared to an acoustic normal situation for this environment.
  15. Apparatus (10) in accordance with claim 14, the apparatus (10) comprising a microphone (18) or a microphone array connected to the interface (12); and/or
    the apparatus (10) comprising an output interface for outputting a probability of occurrence of the respective first audio segment (ABCD) having the respective first characteristic vector or for outputting a probability of occurrence of the respective first audio segment (ABCD) having the respective first characteristic vector and a first time window.
EP21702020.5A 2020-01-27 2021-01-27 Method and device for identifying acoustic anomalies Active EP4097695B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020200946.5A DE102020200946A1 (en) 2020-01-27 2020-01-27 Method and device for the detection of acoustic anomalies
PCT/EP2021/051804 WO2021151915A1 (en) 2020-01-27 2021-01-27 Method and device for identifying acoustic anomalies

Publications (2)

Publication Number Publication Date
EP4097695A1 EP4097695A1 (en) 2022-12-07
EP4097695B1 true EP4097695B1 (en) 2024-02-21

Family

ID=74285498

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21702020.5A Active EP4097695B1 (en) 2020-01-27 2021-01-27 Method and device for identifying acoustic anomalies

Country Status (4)

Country Link
US (1) US20220358952A1 (en)
EP (1) EP4097695B1 (en)
DE (1) DE102020200946A1 (en)
WO (1) WO2021151915A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220457A (en) * 2021-10-29 2022-03-22 成都中科信息技术有限公司 Audio data processing method and device of dual-channel communication link and storage medium

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2944903B1 (en) * 2009-04-24 2016-08-26 Thales Sa SYSTEM AND METHOD FOR DETECTING ABNORMAL AUDIO EVENTS
DE102012211154B4 (en) * 2012-06-28 2019-02-14 Robert Bosch Gmbh Monitoring system, open space monitoring and monitoring of a surveillance area
FR2994495B1 (en) * 2012-08-10 2015-08-21 Thales Sa METHOD AND SYSTEM FOR DETECTING SOUND EVENTS IN A GIVEN ENVIRONMENT
DE102014012184B4 (en) * 2014-08-20 2018-03-08 HST High Soft Tech GmbH Apparatus and method for automatically detecting and classifying acoustic signals in a surveillance area
US10134422B2 (en) * 2015-12-01 2018-11-20 Qualcomm Incorporated Determining audio event based on location information
DE102017010402A1 (en) * 2017-11-09 2019-05-09 Guido Mennicken Automated procedure for monitoring forest areas for clearing activities
DE102017012007B4 (en) 2017-12-22 2024-01-25 HST High Soft Tech GmbH Device and method for universal acoustic testing of objects
DE102018211758A1 (en) * 2018-05-07 2019-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. DEVICE, METHOD AND COMPUTER PROGRAM FOR ACOUSTIC MONITORING OF A MONITORING AREA

Also Published As

Publication number Publication date
US20220358952A1 (en) 2022-11-10
EP4097695A1 (en) 2022-12-07
WO2021151915A1 (en) 2021-08-05
DE102020200946A1 (en) 2021-07-29

Similar Documents

Publication Publication Date Title
EP3317878A1 (en) Method and device for creating a database
DE112020004052T5 (en) SEQUENCE MODELS FOR AUDIO SCENE RECOGNITION
DE102014012184A1 (en) Apparatus and method for automatically detecting and classifying acoustic signals in a surveillance area
DE102014118450A1 (en) Audio-based system and method for classifying in-vehicle context
EP3977430A1 (en) Method and apparatus for detecting smoke
EP4097695B1 (en) Method and device for identifying acoustic anomalies
WO1995025316A1 (en) Person identification based on movement information
DE102018205561A1 (en) Device for classifying signals
DE112021006507T5 (en) SPATIO-TEMPORALLY DEEP LEARNING FOR BEHAVIORAL BIOMETRY
EP2483834B1 (en) Method and apparatus for the recognition of a false object detection in an image
WO2022013045A1 (en) Method for automatic lip reading by means of a functional component and for providing said functional component
DE102020208828A1 (en) Method and device for creating a machine learning system
BE1029610B1 (en) Systems and methods for improving the performance of a trainable optical character recognition (OCR)
EP3493171A1 (en) Detection of aggressive behaviour in public transportation
WO2022180218A1 (en) Device for processing at least one input dataset using a neural network, and method
WO2021148392A1 (en) Method and device for object identification on the basis of sensor data
DE102021204040A1 (en) Method, device and computer program for creating training data in the vehicle
EP4047499A1 (en) Voice control method, voice control system and vehicle with voice control system
DE102018201914A1 (en) A method of teaching a person recognition model using images from a camera and method of recognizing people from a learned model for person recognition by a second camera of a camera network
WO2018019480A1 (en) Concept for monitoring a car park for motor vehicles
EP3759644B1 (en) Identification of free seats based on the detection of a repeated texture
DE112013004687T5 (en) System and method for processing events in an environment
DE102019209153A1 (en) Method and device for the reliable classification and / or segmentation of images
DE112022001291T5 (en) RECORDING A SOUND SEPARATED FROM A MIXTURE OF SOUND STREAMS ON A PERSONAL UNIT
DE102020211714A1 (en) Method and device for creating a machine learning system

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20220724

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20230913

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20231212

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 502021002760

Country of ref document: DE

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANG, DE

Free format text: FORMER OWNER: ANMELDERANGABEN UNKLAR / UNVOLLSTAENDIG, 80297 MUENCHEN, DE

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502021002760

Country of ref document: DE

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG9D

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20240221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240621

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240522

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240521

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240521

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240521

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240621

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240522

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240621

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240621

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240221