EP4189673A1 - Computer-implemented method and computer program for machine-learning a robustness of an acoustic classifier, acoustic classification system for automatically operable driving systems, and automatically operable driving system - Google Patents

Computer-implemented method and computer program for machine-learning a robustness of an acoustic classifier, acoustic classification system for automatically operable driving systems, and automatically operable driving system

Info

Publication number
EP4189673A1
EP4189673A1 EP21742385.4A EP21742385A EP4189673A1 EP 4189673 A1 EP4189673 A1 EP 4189673A1 EP 21742385 A EP21742385 A EP 21742385A EP 4189673 A1 EP4189673 A1 EP 4189673A1
Authority
EP
European Patent Office
Prior art keywords
acoustic
classifier
driving system
interference
acoustic classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21742385.4A
Other languages
German (de)
French (fr)
Inventor
Georg Schneider
Fabian Woitschek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZF Friedrichshafen AG
Original Assignee
ZF Friedrichshafen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZF Friedrichshafen AG filed Critical ZF Friedrichshafen AG
Publication of EP4189673A1 publication Critical patent/EP4189673A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Definitions

  • the invention relates to a computer-implemented method and a computer program for machine learning of a robustness of an acoustic classifier, an acoustic classification system for driving systems that can be operated in an automated manner, and a driving system that can be operated in an automated manner.
  • DE 10 2020 205 825.3 generally discloses a system for detecting, avoiding and protecting against fraud by ADAS functions.
  • the control system disclosed there is set up and intended for use in a motor vehicle, based on environmental data obtained from at least one environmental sensor and/or signal receiver assigned to the motor vehicle: lanes, roadway boundaries, roadway markings, other motor vehicles, traffic signs, light signals (systems) and/or other objects in an area in front of, to the side of and/or behind the motor vehicle.
  • the environment sensor and/or signal receiver is set up to provide the control system with the environment data reflecting the area in front of, to the side of and/or behind the motor vehicle.
  • the control system is at least set up and intended to assign the environmental data provided to at least one traffic category using a machine learning classifier, each of the at least one traffic category being one of several categories of potential driving situations, and the machine learning system being previously known environmental data has been trained with already assigned traffic categories. If the at least one traffic category was assigned incorrectly to the provided environment data, a correction signal is received which correctively indicates which at least one traffic category the provided environment data is correctly assigned to, the correction signal preferably originating from a user input.
  • the machine learning classifier is based on the provided environmental data and the corrected at least one traffic category trained. The motor vehicle is controlled accordingly to the corrected at least one traffic category.
  • DE 10 2020 205 825.3 discloses a front camera, rear camera, side camera, a radar sensor, a lidar sensor, an ultrasonic sensor and/or an inertial sensor as surroundings sensors.
  • driving systems with AD/ADAS functions should also be able to record, analyze and evaluate acoustic signals outside the driving system.
  • a human driver also uses this sense of hearing to a not inconsiderable extent, for example to determine the arrival and location of an emergency vehicle.
  • the acoustic assessment of a human driver about the road condition for example wetness due to a changed background noise, should be taken over by an automated driving system.
  • noise is recorded, analyzed and evaluated in the vehicle interior. Examples are voice commands from the driver, rattling noises from the driving system or noises that indicate the condition of the driver and the occupants.
  • the invention was based on the object, on the one hand, of making the acoustic sensors of the driving system robust against all types of attacks and, on the other hand, of improving the general ability of my generalization of the recognition performance and classification performance of the acoustic sensor.
  • the invention provides a computer-implemented method for machine learning a robustness of an acoustic classifier.
  • a driving system is automatically controlled depending on classifications and/or localizations of the acoustic classifier.
  • the procedure includes the steps:
  • the invention provides a computer program for machine learning a robustness of an acoustic classifier.
  • the program includes program instructions that cause a computer to execute a method according to the invention when the program is run on the computer.
  • the program instructions are written, for example, in an object-oriented programming language, such as C++.
  • the invention provides an acoustic classification system for driving systems that can be operated automatically, for classifying and/or localizing acoustic events in the exterior and/or interior of the driving system.
  • the acoustic classification system includes an acoustic sensor and an acoustic classifier, wherein the acoustic classifier has learned, according to a method according to the invention, to classify and/or localize acoustic events in a robust manner against disturbances.
  • the invention provides a driving system that can be operated automatically, comprising an acoustic classification system according to the invention, a control unit for automated driving and actuators for longitudinal and/or lateral guidance of the driving system.
  • the control device determines regulation and/or control signals and provides these to the actuators. Disturbances are added to the first input data of the acoustic classifier in the form of signals from a loudspeaker arranged outside the driving system, a carrier signal from a loudspeaker arranged inside the driving system and/or from driving system parts that produce noise.
  • Sound-producing driving system parts include, for example, an infected water pump that produces sounds to perform a targeted attack.
  • Machine learning is a technology that teaches computers and other data processing devices to perform tasks by learning from data, rather than being programmed to do the tasks.
  • RASES can be used to increase the robustness against any interfering signals, including noise or attacks. Attacks include deception.
  • Increasing robustness against noise includes making an acoustic classifier robust against overfitting by RASES. RASES thus provides an improved, generalized acoustic recognition system that more reliably and correctly recognizes acoustic signals that have not been trained before, in particular noise signals.
  • An acoustic classifier is an artificial intelligence comprising software and/or hardware components that can be trained and/or trained to recognize, classify and/or localize sounds and/or speech.
  • the Acoustic signals are classified, for example, into the categories of rescue vehicle, falling branch, children playing, deer crossing, grinding noises.
  • the acoustic classifier evaluates a continuous data stream from the driving system acoustic sensor.
  • the acoustic classifier classifies overlapping time signals, for example the last 1s every 0.2ms.
  • the acoustic classifier represents a sense of hearing for a driving system. For example, the acoustic classifier determines the arrival and/or the position of an emergency vehicle depending on a siren signal. This determination is made available as a signal to a control unit of the driving system, for example an ADAS/AD domain ECU, ie an electronic control unit for assisted or automated/autonomous driving. Depending on the classification and/or localization of the acoustic classifier, the control device determines control and/or regulation signals for actuators for longitudinal and/or lateral guidance of the driving system in order to automatically control the driving system.
  • a control unit of the driving system for example an ADAS/AD domain ECU, ie an electronic control unit for assisted or automated/autonomous driving.
  • the control device determines control and/or regulation signals for actuators for longitudinal and/or lateral guidance of the driving system in order to automatically control the driving system.
  • the software components of the acoustic classifier are available, for example, as program commands in the programming language Python or TensorFlow.
  • the analysis of the first input data is carried out, for example, with the Python program package LibROSA, which includes routines for music and audio analysis.
  • the hardware components include GPUs and/or tensor processing units with a microarchitecture for parallelized processing of tasks and execution of matrix multiplications. This makes the training and use of a trained artificial intelligence more efficient.
  • the driving system includes cars, commercial vehicles, trucks, buses, people movers, robots such as industrial robots, drones, rail vehicles, ships and airplanes.
  • the driving system includes technical equipment for operating the driving system in accordance with SAE J3016 levels 1 to 5.
  • the driving system is a road vehicle with an automation level SAE J3016 levels 2+ to 5.
  • the first input data includes acoustic signals from the driving system acoustic sensor. Compared to other acoustic sensors, the driving system acoustic sensor is particularly suitable for automotive use.
  • the driving system acoustic sensor when used outside of the driving system, includes a protective grille to protect against the ingress of foreign bodies, an acoustically permeable, hydrophobic and/or lipophobic membrane to protect against splash water and grease, and a flow bypass to prevent fluids or to guide foreign bodies out of the sensor.
  • the driving system acoustic sensor is also used in the interior of the driving system.
  • the disturbances for deception detection, avoidance and/or protection correspond to signals that a disturber, ie an attacker, calculates and plays back in order to deceive the acoustic classifier. Sound and speech recognition are vulnerable.
  • the basic idea for deceiving an acoustic classifier is that a loudspeaker is used through which interference signals are played back.
  • the classifier is supposed to be deceived by these interference signals, so that the original/actual event is not recognized or another desired event is recognized, although in reality no such acoustic event has occurred.
  • Existing loudspeakers in the vehicle can be used for this purpose, for example infotainment or mobile phones, or loudspeakers can be set up in a targeted manner at the desired location, for example a residential area, the edge of a forest or a bus stop.
  • spurious signals are either integrated into carrier signals or exist as a separate signal.
  • An example of integration into carrier signals is introducing the interference into music.
  • the modified music signal is then uploaded to a popular platform, such as YouTube or Spotify, and played back via the driving system's infotainment system.
  • a large number of attacks are carried out in which the acoustic classifiers are fooled into recognizing an event when in reality there is no event. This can cause significant damage to a mass of users/customers.
  • Another case is that of an inconspicuous interfering signal, which for humans is only a faint noise is recognizable, is played, whereby the acoustic classifier events are given before or the detection of actually happening events is prevented ver.
  • Such an attack is dangerous because the human ear cannot detect the interference signals. As a result, the occupants would not notice the ongoing attack or only after the driving system had already initiated reactionary measures, such as braking if a branch fell or children were playing.
  • the human ear cannot detect the present attack because either the volume of the interference signal is too low or the interference is only applied to certain frequencies which are masked by neighboring louder frequencies for the human ear.
  • the invention includes untargeted and targeted attacks.
  • an untargeted attack the attacker's goal is to introduce a perturbation to get the acoustic classifier to predict a class other than the correct one. It does not matter which class is predicted instead of the correct class, in contrast to a targeted attack, where the attacker wants to ensure that a specific target class is predicted instead of the correct class.
  • RASES prevents this attack in that the acoustic classifier learns, through the method according to the invention, to be robust against targeted or naturally occurring disturbances and to carry out the classification of the actual, real acoustic event correctly.
  • the acoustic classifier learns, through the method according to the invention, to be robust against targeted or naturally occurring disturbances and to carry out the classification of the actual, real acoustic event correctly.
  • the attacker has to calculate the interference depending on the other acoustic signals in the target environment, for example residential area, edge of the forest, interior or busy street.
  • exemplary signals can be accepted, which reflect the real situation as best as possible, and the generation of the interference signal can be carried out for several of these signals, for example 1000 to 100,000 exemplary signals. This allows the attacker to ensure that the calculated Noise actually deceives the acoustic classifier, regardless of any other acoustic signals.
  • gradient-based methods can be used to optimize the jamming signal depending on the classification of the system.
  • One method is, for example, the projected gradient descent method, abbreviated PGDM, in which a step in the positive direction of the gradient of a loss function of the acoustic classifier, also called loss function, is repeatedly carried out as a function of the input data.
  • PGDM projected gradient descent method
  • Corresponding attack methods are disclosed in Section 2.2 of https://arxiv.org/pdf/1611.01236.pdf.
  • the attacker has no information about the acoustic classifier used, it is initially not possible to use gradient-based methods because the necessary gradients cannot be calculated. In order to still be able to use these methods, the attacker can try to obtain information about the acoustic classifier used.
  • an attacker can train a system that is as identical as possible, preferably on similar training data. Then this system can be used to calculate an interfering signal.
  • this interference signal can also be used to deceive the acoustic classifier that is actually being attacked.
  • Techniques also exist to ensure that a transmittable jamming signal is found. For example, several substitute models can be trained on different data, which are incorporated by the loss function used in order to calculate a uniform interference signal for all models.
  • model stealing attacks which have the purpose of obtaining information about an artificial intelligence.
  • an attacker In order to be able to carry this out, an attacker only needs the input data of the acoustic can change the classifier, for example play a test signal, and then be able to observe the output values of the acoustic classifier.
  • queries By cleverly combining different input values and testing, also called queries, how the acoustic classifier reacts to them, such attacks can collect information about how the acoustic classifier works and how it can be deceived.
  • model stealing is disclosed in https://arxiv.org/pdf/1802.05351.pdf.
  • Types of attack are also known as pure black-box attacks without gradient information, which also do not replicate/retrain the system locally. Instead, clever decisions are made based on the current value of the loess function as to how the current disturbance must be changed in order to fool the artificial intelligence, see https://arxiv.org/pdf/1712.04248.pdf.
  • the method according to the invention also achieves and/or increases robustness against this type of attack.
  • RASES prevents any of these attacks and ensures the correct functionality of the acoustic classifier even though such interference signals are present and an attack is attempted.
  • this is achieved in that, during the training, disturbances are obtained as a function of the first input signals for deception detection, avoidance and/or protection and/or for improving a recognition and/or classification performance of the acoustic classifier, and these disturbances are also trained, wherein an audibility of the disturbances is reduced iteratively or successively.
  • certain hyper parameters of the acoustic classifier are determined as best as possible, for example the initial maximum strength of the interference signal or target sequence. Depending on these parameters, there are various changes in the robustness and accuracy of the resulting acoustic classifier after training is complete.
  • Deception and/or attacks with the aim of attacking the outward-facing acoustic sensors have the following effect, for example: • Non-recognition and/or incorrect localization of noise sources to be recognized,
  • Sources of noise related to the exterior include:
  • Deception and/or attacks with the attack target of the inward-facing acoustic sensors have the following effect, for example:
  • RASES makes the acoustic classifier robust against these illusions by expanding the training of the acoustic classifier with these disturbances. RASES thus makes an acoustic classifier for the exterior and interior robust.
  • Interior noise sources include:
  • the attacks also include a target other than the ego driving system, for example a system that is connected to the driving system in some way, for example cloud storage, similar to the introduction of computer viruses, trojans, worms.
  • a target other than the ego driving system for example a system that is connected to the driving system in some way, for example cloud storage, similar to the introduction of computer viruses, trojans, worms.
  • Augmenting the training of the acoustic classifier with these perturbations further increases the fundamental ability of the acoustic classifier's ability to generalize, since "accidental manipulation" and deliberate attacks correspond in some ways exactly to the ability to generalize. This increases the recognition and/or classification performance.
  • the acoustic classifier learns to defend itself against the attacks described above defend.
  • the resulting combinations represent extended or augmented training data for the acoustic classifier.
  • the machine learning of these combinations is a so-called adversarial training, i.e. the augmentation of the first input data with interference signals, which an attacker would use to fool the acoustic classifier.
  • the disturbances are recalculated during the training for each input signal and are always adapted to the current parameters of the acoustic classifier.
  • the interference signals are added to the original data, but the ground truth class is not changed.
  • Adversarial training is disclosed in https://arxiv.org/pdf/1706.06083.pdf.
  • Batches are groups of input data of equal size.
  • the training can be carried out per batch. When all batches have gone through the artificial intelligence once, an epoch is complete. An epoch denotes a complete run through of all input data.
  • the number of training epochs and batches is a parameter for training the artificial intelligence. For example, each batch consists of 50% original and 50% corrupted data. However, other distributions are also conceivable, e.g.: 20% original, 40% attack method 1, for example gradient-based, 40% attack method 2, for example model stealing.
  • the adversarial training is used conceptually with further augmentation strategies, for example with spectrogram augmentation, see https://arxiv.org/pdf/1904.08779.pdf.
  • the original signal can also be overlaid with further realistic noise signals in order to be able to reflect a real scenario even better and thus further increase the accuracy of the acoustic classifier under non-optimal conditions.
  • a loss function is minimized while complying with the condition that the interference is smaller than a predetermined interference.
  • the loss function also called the combined loss function, includes as first part the disturbances and as a second part a loss function of the acoustic classifier extended with the disturbances.
  • the extended loss function is minimized by an interferer's intended classification of the acoustic classifier.
  • PGDM can also be used for an attack in the audio sector.
  • this method does not work well with the increased non-linearities that are caused by pre-processing and the possible massive use of recurrent layers in the acoustic classifier. It is therefore often not possible, particularly in the case of long sequences, for example speech recognition, to find a suitable disturbance which is inaudible to a human being.
  • x means: vector with raw, first input data, d: generic disturbance,
  • a y class predicted by the acoustic classifier
  • t target class of the attacker
  • the target class is the class that the attacker will ensure to be predicted by the acoustic classifier instead of the correct class.
  • the main goal is to minimize the difference between the magnitude of the interference and the magnitude of the first input data, so that the interference is not audible to a human when it is added to the input data.
  • the acoustic classifier must be successfully deceived and the targeted class, or sequence of acoustic units, is predicted.
  • this optimization problem is very difficult to solve with methods based on normal gradients, since according to one aspect of the invention the classification function f(-) is represented by an artificial neural network which is very strongly non-linear.
  • L loss function
  • cc tradeoff parameters e: maximum allowed disturbance.
  • the first part of the combined loss function causes a disturbance d with the lowest possible strength to be found and the second part causes the disturbance found to also successfully disturb the acoustic classifier.
  • Successful disruption is ensured by minimizing the value of the acoustic classifier's loss function L(•), thereby ensuring that it tends to zero.
  • the parameter a acts as an opportunity to set the tradeoff between successful disruption and imperceptibility and can therefore be adapted to the given circumstances and to the objective.
  • the presence of the necessary condition provides an additional constraint to ensure that the interference is evenly distributed across the input signal and does not have a very high outlier in some regions that would be heard by humans, even though the first term of the loess function , which is the squared ⁇ 2 -norm of the perturbation, is small.
  • further terms are added, which say, for example, that the interference should be added mainly on frequencies that are not audible to a human.
  • this optimization problem is solved with gradient descent. Therefore, the combined loss function is minimized until a perturbation d is found that successfully perturbs the acoustic classifier and causes it to predict the target class t.
  • a higher value is initially used for the maximum strength e with which the disturbance can be heard by a human.
  • the attacker's maximum allowed strength e is reduced and the optimization continued. This process continues iteratively until a predetermined number of iterations has been completed. Consequently, during the optimization, the audibility is reduced more and more, but the deceptive character of the disturbance remains, so that the acoustic classifier is still correctly deceived.
  • the first input data includes raw data from the driving system acoustic sensor, filtered raw data and/or a representation of the raw data in a time-frequency range.
  • raw acoustic signals can be used as input data for the acoustic classifier without pre-processing, but this currently results in lower classification accuracies.
  • the raw data are filtered with low-pass or band-pass filters in order to specifically blind or amplify noises depending on the situation.
  • the representation of the raw data in the time-frequency domain is based, for example, on pre-processing the raw data with a short-time Fourier transformation, whereby different window types (Hann, Blackman) with different parameters (window width, hop distance) are used.
  • Window types Hann, Blackman
  • window width window width
  • hop distance a short-time Fourier transformation
  • the result is a time-frequency picture in which the energy is displayed in different frequencies over time. If more than one driving system acoustic sensor is evaluated, there is a signal for each sensor which is transformed independently. In this case, therefore, there are several time-frequency images, analogous to an RGB image in which three color channels are then present).
  • the pre-processing can contain noise reduction in order to improve the signal quality of the acoustic signals.
  • noise reduction in order to improve the signal quality of the acoustic signals.
  • mechanisms can be used which exploit the different propagation times of acoustic waves to the individual sensors, for example beamforming or source separation. These methods can themselves be based on artificial intelligence.
  • It is also possible to remove noise from the time signals for example using a denoising autoencoder or Wiener filter, before these signals are transformed into the time-frequency domain.
  • algorithmic, statistical methods that weight the time-frequency features and try to assign a low weight to features with low speech energy.
  • Raw acoustic signals can differ significantly even though they reflect the same context, such as noise or speech. For example, the current emotional state of a speaker leads to differently emphasized signals.
  • the pre-processing generates features first, which have a higher Have invariance to such different signals of the same basic event.
  • the method according to the invention is extended such that the attacker no longer adds the interference signal to the original input data. Instead, the interference signal is added to a representation in the time-frequency domain. It is also possible to add the interference signal to any other representation after the individual steps in the pre-processing.
  • the first input data includes a representation of raw data from the driving system acoustic sensor in a time-frequency range. Masking adds the interference at low-energy frequencies.
  • the masking restricts the features that the used attacker is allowed to attack during training. As a result, the attacker can only add the interference signal to a subset of all available features during training. According to the invention, the masking is used to prevent attacks on relevant features with high speech energy during training. As a result, during training, the attacker can only add the interference signal to features that receive little information about the existing speech energy.
  • the jamming signal must be added on low-energy frequencies.
  • the acoustic classifier can be improved more efficiently and effectively against general real-world attacks compared to the case of normal adversarial training attacking the raw speech signal.
  • the acoustic classifier is thus specifically trained to utilize frequencies with high energy and to be more robust against interference from less important frequencies.
  • the masking can be transferred analogously to noise detection, in that only features that are not relevant to the respective acoustic event may be disturbed by the attacker.
  • the acoustic classifier will learn during training not to use the disturbed features and rely on the remaining features. Since these are particularly relevant and meaningful with regard to the existing acoustic events, the existing language, the robustness increases further because the acoustic classifier learns to make its decision mainly on the basis of these features.
  • the acoustic sensor is arranged in the interior of the driving system when used, and the acoustic classifier is robust against disturbing noises from
  • Noise from damage to your own driving system including rattling, squeaking, grinding, fire noise,
  • the acoustic sensor is arranged outside of the driving system when it is used, and the acoustic classifier is robust against disturbing noises from
  • Control commands to the driving system including opening of trunk, doors, identification of the driver.
  • the acoustic classifier includes an artificial neural network for noise/speech recognition.
  • the artificial neural network includes layers of convolutional networks, recurrent layers, fully connected layers and/or an encoder-decoder structure.
  • Convolutional networks include filter layers, also called kernels, to minimize dimensions of respective input data, and discretization layers, for example maxpooling kernels, to further reduce dimensions of respective input data. Using these layers, new features are extracted from the input data. Contextual sequence information is evaluated by means of recurrent layers, comprising GRU, BGRU, LSTM and BLSTM. Finally, fully connected layers can be used to output the final probabilities per event class.
  • An encoder-decoder structure defines an encoded context/summary vector. An encoder-decoder structure is advantageous for speech recognition. Batch normalization or sequence normalization layers are used as additional components to speed up training and increase generalization.
  • RASES is independent of the specific network architecture and the existing hyper parameters, such as regularization, batch size, number of epochs, activations, classes, further data augmentation and/or dropout, and optimization settings, such as loss function, optimizer, LR schedule.
  • an attack on an acoustic classifier is prevented or at least made more difficult by the invention.
  • the acoustic classifier can therefore not be deceived by an attacker and also works correctly when there is an interference signal which is actually intended to deceive the acoustic classifier.
  • the invention increases the generalizability and thus the recognition rates under any interference. This improves the robustness against natural disturbances, such as street noise or conversations. This is particularly relevant as acoustic classifiers operate under widely varying environments and high robustness against unknown noise types/sounds is required.
  • the improvements are made possible by the fact that RASES teaches the acoustic classifier to rely on features that are representative of the relevant acoustic energy in the input data.
  • the acoustic classifier focuses on features that are meaningful and extracts information from important features. noisysy features are used less, making the acoustic classifier less sensitive to various perturbations, natural and adversarial.
  • a further advantage of the invention is that the increase in robustness is carried out by a synthetic augmentation of the training data. It is not necessary to record new data in reality, which depict all possible interference signals. On the one hand, this is hardly possible and, on the other hand, it requires greater effort to record as representative a quantity of noise signals as possible.
  • RASES can be extended to include regression models, which are used, for example, for localization/distance estimation. It is possible that an attacker can also fool such artificial intelligences. A simple increase in robustness is possible with the help of RASES, since in this case the original data set can also be augmented with specially generated interference signals. The RASES concept can therefore be transferred to all acoustic artificial intelligences that are learned using training data.
  • FIG. 1 shows a schematic representation of a normal training course of an artificial intelligence
  • 4 shows an exemplary embodiment of a mask
  • 5 shows an embodiment of an acoustic classifier for speech recognition
  • FIG. 6 shows a schematic representation of exemplary access points of an attacker.
  • the existing training data is shown to an artificial intelligence, for example an artificial neural network, and the loss function is minimized. This process is performed iteratively over multiple epochs of the training data. As a result, the artificial intelligence learns to correctly classify the existing data.
  • an artificial intelligence for example an artificial neural network
  • the original training data are augmented. This is done by an attacker who specifically calculates an interference signal S, which leads to the current acoustic classifier AK being deceived. An iterative attack is used for this.
  • the optimization-based method according to the invention is used to attack the acoustic classifier AK.
  • This introduces a combined loss function, which expresses how well the current interference signal S deceives the acoustic classifier and how audible this interference signal S is for humans.
  • This combined loss function is then solved using Gradient Descent. Typically, the focus is first on finding a valid interference signal S, even if this is clearly audible to a human.
  • the strength of this interference signal S is then reduced, resulting in a valid interference signal that is not recognizable to humans.
  • the original data is expanded with the resulting interference signals.
  • the resulting augmented training data is any combination of original and challenged/perturbed data. on this data a normal training iteration is then performed to minimize the loss function and thereby robustly train the acoustic classifier.
  • V1 Provision of first input signals by means of a driving system acoustic sensor for the acoustic classifier AK,
  • V2 Obtaining disturbances S as a function of the first input signals for deception detection, avoidance and/or protection and/or for improving a recognition and/or classification performance of the acoustic classifier AK, the audibility of the disturbances being reduced,
  • V3 obtaining second input data from an addition of the first input data and the disturbances
  • FIG. 3 shows an exemplary transformation in the time-frequency domain of the sentence: "The seven units to be offered for sale have a work force of about twenty thousand.”
  • FIG. 3 shows an exemplary representation of FBank features. With Fourier transformation, a signal in the time domain is broken down into its frequencies. The acoustic events are separated into time frames and a Fourier transform is applied to each time frame. The frequency axis is then displayed logarithmically and the amplitudes in decibels. A spectrogram results. In order to obtain a Mel spectrogram as shown in Fig. 3, the frequency scale f of the spectrogram is transformed to Mel scale m according to, for example,
  • FIG. 4 shows a masking according to the invention of the mel spectrogram from FIG. 3, the data from FIG. 3 having been compared with a noise image.
  • 5 shows the structure of a system for speech recognition.
  • the time signal x is pre-processed so that a time-frequency representation F results.
  • This is used as input data for an acoustic model.
  • This model is trained data-driven and represented by deep artificial neural networks, called DNN, or a mix of DNN and Hidden Markov Models. It outputs a sequence of probabilities of acoustic units comprising letters, phonemes, parts of words, which is combined to form the resulting total words and the word sequence being searched for.
  • the network architecture of the acoustic model includes layers of a convolutional network, fully connected layers and recurrent layers. Only the number of output classes is typically significantly larger in order to cover all relevant acoustic units, for example 80-2000. Special loess functions, such as Connectionist Temporal Classification, see https://www.cs.toronto.edu/ ⁇ graves/icml_2006.pdf, are also used.
  • the composition is performed using a decoder, which searches for the most probable sequence through the sequence of probability vectors of the acoustic units.
  • a beam search decoder is often used with various options, for example with regard to beam width and/or weighting.
  • additional a priori information about the formalisms of the processed language can be used. This includes a lexicon that contains legal words and a language model that expresses grammatical dependencies, including probabilities of the next word depending on the previous one.
  • the language model can be represented by its own artificial intelligence or by simple probability tables and manually formed decision rules.
  • the invention can be applied not only to systems that use this structure, but to all speech recognizers/noise recognizers that are learned from data. Consequently, RASES also applies in this case independently of various hyperparameters of the learned artificial intelligence.
  • RASES also applies in this case independently of various hyperparameters of the learned artificial intelligence.
  • the attacker attacks before pre-processing the raw data. According to the invention, this is simulated in that the interference signal S is added to the original input data.
  • the attacker attacks after preprocessing for example the interference signal is added to a representation in the time-frequency domain.
  • the attacker can also add the disruption to each point in the preprocessing, ie between Abs and FBANK, for example, during training.
  • V1 -V5 method steps AK acoustic classifier S disturbance x time signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

A computer-implemented method for machine-learning a robustness of an acoustic classifier (AK), wherein a driving system is controlled automatically on the basis of classifications and/or locations of the acoustic classifier (AK), the method comprising the steps of providing first input signals by way of a driving system acoustic sensor for the acoustic classifier (AK) (V1), receiving interference (S) on the basis of the first input signals for fraud identification, fraud avoidance and/or fraud protection purposes and/or for improving a recognition and/or classification performance of the acoustic classifier (AK), wherein an audibility of the interference is reduced (V2), receiving second input data from an addition of the first input data and the interference (V3), inputting combinations of the first and second input data into the acoustic classifier (AK) (V4) and machine-learning the combinations (V5), wherein the acoustic classifier (AK) learns to classify and/or locate acoustic events and in the process becomes robust to interference.

Description

Computerimplementiertes Verfahren und Computerproqramm zum maschinellen Ler nen einer Robustheit eines akustischen Klassifikators, akustisches Klassifikations- svstem für automatisiert betreibbare Fahrsvsteme und automatisiert betreibbaresComputer-implemented method and computer program for machine learning of a robustness of an acoustic classifier, acoustic classification system for automated operable driving systems and automated operable
Fahrsvstem driving system
Die Erfindung betrifft ein computerimplementiertes Verfahren und ein Computerpro gramm zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators, ein akustisches Klassifikationssystem für automatisiert betreibbare Fahrsysteme und ein automatisiert betreibbares Fahrsystem. The invention relates to a computer-implemented method and a computer program for machine learning of a robustness of an acoustic classifier, an acoustic classification system for driving systems that can be operated in an automated manner, and a driving system that can be operated in an automated manner.
Die DE 10 2020 205 825.3 offenbart allgemein ein System zur Täuschungserken nung, -Vermeidung und -schütz von ADAS Funktionen. Das dort offenbarte Steue rungssystem ist zum Einsatz in einem Kraftfahrzeug eingerichtet und bestimmt, ba sierend auf aus mindestens einem, dem Kraftfahrzeug zugeordneten Umfeldsensor und/oder Signalempfänger gewonnenen Umfelddaten Fahrspuren, Fahrbahnbegren zungen, Fahrbahnmarkierungen, weitere Kraftfahrzeuge, Verkehrsschilder, Lichtzei- chen(anlagen) und/oder andere Objekte in einem Bereich vor, seitlich neben und/o der hinter dem Kraftfahrzeug zu erkennen. Der Umfeldsensor und/oder Signalemp fänger ist dazu eingerichtet, dem Steuerungssystem die den Bereich vor, seitlich ne ben und/oder hinter dem Kraftfahrzeug wiedergebenden Umfelddaten bereitzustel len. Das Steuerungssystem ist wenigstens dazu eingerichtet und bestimmt, die be reitgestellten Umfelddaten mittels eines maschinellen-Lern-Klassifizierers mindestens einer Verkehrskategorie zuzuordnen, wobei jede der mindestens einen Verkehrskate gorie eine von mehreren Kategorien potentieller Fahrsituationen ist, und wobei das maschinelle-Lern-System durch vorher bekannte Umfelddaten mit jeweils bereits zu geordneten Verkehrskategorien trainiert worden ist. Wenn die mindestens eine Ver kehrskategorie den bereitgestellten Umfelddaten falsch zugeordnet wurde, wird ein Korrektursignal empfangen, welches korrigierend angibt, welcher mindestens einen Verkehrskategorie die bereitgestellten Umfelddaten richtigerweise zuzuordnen sind, wobei das Korrektursignal vorzugsweise von einer Nutzereingabe stammt. Der ma- schinelle-Lern-Klassifizierer wird auf die bereitgestellten Umfelddaten und die korrigierte mindestens eine Verkehrskategorie trainiert. Das Kraftfahrzeug wird ent sprechend zu der korrigierten mindestens einen Verkehrskategorie gesteuert. DE 10 2020 205 825.3 generally discloses a system for detecting, avoiding and protecting against fraud by ADAS functions. The control system disclosed there is set up and intended for use in a motor vehicle, based on environmental data obtained from at least one environmental sensor and/or signal receiver assigned to the motor vehicle: lanes, roadway boundaries, roadway markings, other motor vehicles, traffic signs, light signals (systems) and/or other objects in an area in front of, to the side of and/or behind the motor vehicle. The environment sensor and/or signal receiver is set up to provide the control system with the environment data reflecting the area in front of, to the side of and/or behind the motor vehicle. The control system is at least set up and intended to assign the environmental data provided to at least one traffic category using a machine learning classifier, each of the at least one traffic category being one of several categories of potential driving situations, and the machine learning system being previously known environmental data has been trained with already assigned traffic categories. If the at least one traffic category was assigned incorrectly to the provided environment data, a correction signal is received which correctively indicates which at least one traffic category the provided environment data is correctly assigned to, the correction signal preferably originating from a user input. The machine learning classifier is based on the provided environmental data and the corrected at least one traffic category trained. The motor vehicle is controlled accordingly to the corrected at least one traffic category.
Als Umfeldsensoren offenbart die DE 10 2020 205 825.3 Frontkamera, Heckkamera, Seitenkamera, einen Radar-Sensor, einen Lidar-Sensor, einen Ultraschall-Sensor und/oder einen Inertialsensor. DE 10 2020 205 825.3 discloses a front camera, rear camera, side camera, a radar sensor, a lidar sensor, an ultrasonic sensor and/or an inertial sensor as surroundings sensors.
Fahrsysteme mit AD/ADAS-Funktionen sollten neben optischen Signalen, Radarsig nalen und Ultraschallsignalen auch akustische Signale außerhalb des Fahrsystems erfassen, analysieren und auswerten können. Dieser Hörsinn wird von einem menschlichen Fahrer auch zu einem nicht unerheblichen Anteil genutzt um, zum Bei spiel das Ankommen und die Lage eines Einsatzfahrzeugs zu bestimmen. Aber auch die akustische Einschätzung eines menschlichen Fahrers über den Straßenzustan des, zum Beispiel Nässe aufgrund einer veränderten Geräuschkulisse, sollte von ei nem automatisierten Fahrsystem übernommen werden. Gleichzeitig wird im Fahr zeuginnenraum Schall aufgenommen, analysiert und ausgewertet. Beispiele sind Sprachbefehle des Fahrers, Klappergeräusche des Fahrsystems oder Geräusche, die auf den Zustand des Fahrers und der Insassen schließen lassen. In addition to optical signals, radar signals and ultrasonic signals, driving systems with AD/ADAS functions should also be able to record, analyze and evaluate acoustic signals outside the driving system. A human driver also uses this sense of hearing to a not inconsiderable extent, for example to determine the arrival and location of an emergency vehicle. But the acoustic assessment of a human driver about the road condition, for example wetness due to a changed background noise, should be taken over by an automated driving system. At the same time, noise is recorded, analyzed and evaluated in the vehicle interior. Examples are voice commands from the driver, rattling noises from the driving system or noises that indicate the condition of the driver and the occupants.
Die Auswertung dieser Akustiksignale wird zunehmend von Algorithmus-Modulen ba sierend auf künstlicher Intelligenz und hier speziell des maschinellen Lernens über nommen. Derartige Sensorsysteme lassen sich jedoch gezielt täuschen und/oder an greifen. The evaluation of these acoustic signals is increasingly being taken over by algorithm modules based on artificial intelligence and, here, machine learning in particular. However, such sensor systems can be deliberately deceived and/or attacked.
Der Erfindung lag die Aufgabe zugrunde, zum einen Akustiksensoren des Fahrsys tems robust gegen alle Arten von Angriffen zu machen und zum anderen die allge meine Generalisierungsfähigkeit der Erkennungsleistung und Klassifikationsleistung des Akustiksensors zu verbessern. The invention was based on the object, on the one hand, of making the acoustic sensors of the driving system robust against all types of attacks and, on the other hand, of improving the general ability of my generalization of the recognition performance and classification performance of the acoustic sensor.
Die Gegenstände der Ansprüche 1, 5, 6 und 10 lösen diese Aufgabe durch ein Ro bustheitstraining für Akustik-Sensor-Erkennungssysteme, abgekürzt RASES. Nach einem Aspekt stellt die Erfindung ein computerimplementiertes Verfahren zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators bereit. Ein Fahrsystem wird in Abhängigkeit von Klassifizierungen und/oder Lokalisierungen des akustischen Klassifikators automatisiert gesteuert wird. Das Verfahren umfasst die Schritte: The objects of claims 1, 5, 6 and 10 solve this problem by robustness training for acoustic sensor detection systems, RASES for short. In one aspect, the invention provides a computer-implemented method for machine learning a robustness of an acoustic classifier. A driving system is automatically controlled depending on classifications and/or localizations of the acoustic classifier. The procedure includes the steps:
• Bereitstellen von ersten Eingangssignalen mittels eines Fahrsystems-Akus- tiksensors für den akustischen Klassifikator, • Provision of first input signals by means of a driving system acoustic sensor for the acoustic classifier,
• Erhalten von Störungen in Abhängigkeit der ersten Eingangssignale zur Täu schungserkennung, -Vermeidung und/oder -schütz und/oder zur Verbesserung einer Erkennungs- und/oder Klassifikationsleistung des akustischen Klassifika tors, wobei eine Hörbarkeit der Störungen reduziert wird, Obtaining interference as a function of the first input signals for deceptive detection, avoidance and/or protection and/or for improving a detection and/or classification performance of the acoustic classifier, the audibility of the interference being reduced,
• Erhalten von zweiten Eingangsdaten aus einer Addition der ersten Eingangs daten und der Störungen, • obtaining second input data from an addition of the first input data and the disturbances,
• Eingeben von Kombinationen aus den ersten und den zweiten Eingangsdaten in den akustischen Klassifikator und • inputting combinations of the first and the second input data into the acoustic classifier and
• maschinelles Lernen der Kombinationen, wobei der akustische Klassifikator lernt, akustische Ereignisse zu klassifizieren und/oder lokalisieren und dabei robust gegen die Störungen wird. • machine learning of the combinations, whereby the acoustic classifier learns to classify and/or localize acoustic events and thereby becomes robust against the disturbances.
Nach einem weiteren Aspekt stellt die Erfindung ein Computerprogramm bereit zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators. Das Pro gramm umfasst Programmbefehle, die bewirken, dass ein Computer ein erfindungs gemäßes Verfahren ausführt, wenn das Programm auf dem Computer läuft. Die Pro grammbefehle sind beispielsweise in einer objektorientierten Programmiersprache, beispielsweise C++, geschrieben. In another aspect, the invention provides a computer program for machine learning a robustness of an acoustic classifier. The program includes program instructions that cause a computer to execute a method according to the invention when the program is run on the computer. The program instructions are written, for example, in an object-oriented programming language, such as C++.
Nach einem weiteren Aspekt stellt die Erfindung ein akustisches Klassifikationssys tem für automatisiert betreibbare Fahrsysteme bereit zum Klassifizieren und/oder Lo kalisieren von akustischen Ereignissen im Außen- und/oder Innenraum des Fahrsys tems. Das akustische Klassifikationssystem umfasst einen Akustiksensor und einen akustischen Klassifikator, wobei der akustische Klassifikator nach einem erfindungs gemäßen Verfahren gelernt hat, akustische Ereignisse robust gegen Störungen zu klassifizieren und/oder lokalisieren. Nach einem weiteren Aspekt stellt die Erfindung ein automatisiert betreibbares Fahr system bereit umfassend ein erfindungsgemäßes akustisches Klassifikationssystem, ein Steuergerät für automatisiertes Fahren und Aktuatoren für Längs- und/oder Quer führung des Fahrsystems. Das Steuergerät bestimmt in Abhängigkeit von Klassifizie rungen und/oder Lokalisierungen von akustischen Ereignissen des akustischen Klas sifikationssystems Regelungs- und/oder Steuerungssignale und stellt diese den Aktu atoren bereit. Störungen werden in Form von Signalen eines im Außenraum des Fahrsystems angeordneten Lautsprechers, eines Trägersignals durch einen im In nenraum des Fahrsystems angeordneten Lautsprecher und/oder von Geräusch er zeugenden Fahrsystemteilen auf erste Eingangsdaten des akustischen Klassifikators addiert werden. According to a further aspect, the invention provides an acoustic classification system for driving systems that can be operated automatically, for classifying and/or localizing acoustic events in the exterior and/or interior of the driving system. The acoustic classification system includes an acoustic sensor and an acoustic classifier, wherein the acoustic classifier has learned, according to a method according to the invention, to classify and/or localize acoustic events in a robust manner against disturbances. According to a further aspect, the invention provides a driving system that can be operated automatically, comprising an acoustic classification system according to the invention, a control unit for automated driving and actuators for longitudinal and/or lateral guidance of the driving system. Depending on classifications and/or localizations of acoustic events of the acoustic classification system, the control device determines regulation and/or control signals and provides these to the actuators. Disturbances are added to the first input data of the acoustic classifier in the form of signals from a loudspeaker arranged outside the driving system, a carrier signal from a loudspeaker arranged inside the driving system and/or from driving system parts that produce noise.
Geräusch erzeugende Fahrsystemteile umfassen beispielsweise eine infizierte Was serpumpe, die Geräusche erzeugt, um einen gezielten Angriff durchzuführen. Sound-producing driving system parts include, for example, an infected water pump that produces sounds to perform a targeted attack.
Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen, der Zeichnung und der Beschreibung bevorzugter Ausführungsbeispiele. Advantageous refinements of the invention result from the dependent claims, the drawing and the description of preferred exemplary embodiments.
Maschinelles Lernen ist eine Technologie, die Computern und anderen Datenverar beitungsvorrichtungen die Ausführung von Aufgaben durch Lernen aus Daten lehrt, anstatt für die Aufgaben programmiert zu werden. Solange eine künstliche Intelligenz auf Basis von Daten gelernt wird, kann RASES benutzt werden, um die Robustheit gegen jegliche Störsignale, umfassend Rauschen oder Angriffe, zu steigern. Angriffe umfassen Täuschungen. Die Robustheit gegen Rauschen zu steigern umfasst, dass durch RASES ein akustischer Klassifikator robust gegenüber Überanpassung wird. Damit wird durch RASES ein verbessertes generalisierendes akustisches Erken nungssystem bereitgestellt, das zuvor nicht eintrainierte akustische Signale, insbe sondere Rauschsignale, zuverlässiger korrekt erkennt. Machine learning is a technology that teaches computers and other data processing devices to perform tasks by learning from data, rather than being programmed to do the tasks. As long as an artificial intelligence is learned based on data, RASES can be used to increase the robustness against any interfering signals, including noise or attacks. Attacks include deception. Increasing robustness against noise includes making an acoustic classifier robust against overfitting by RASES. RASES thus provides an improved, generalized acoustic recognition system that more reliably and correctly recognizes acoustic signals that have not been trained before, in particular noise signals.
Ein akustischer Klassifikator ist eine künstliche Intelligenz umfassend Software- und/oder Hardwarekomponenten, die trainierbar und/oder trainiert ist, Geräusche und/oder Sprache zu erkennen, klassifizieren und/oder lokalisieren. Die Klassifizierung von akustischen Signale erfolgt beispielsweise in die Klassen Ret tungswagen, fallender Ast, spielende Kinder, Wildwechsel, Schleifgeräusche. Nach einem Aspekt der Erfindung wertet der akustische Klassifikator einen kontinuierlichen Datenstrom des Fahrsystem-Akustiksensors aus. Nach einem Aspekt der Erfindung klassifiziert der akustische Klassifikator überlappende Zeitsignale, zum Beispiel alle 0.2ms die letzte 1s. An acoustic classifier is an artificial intelligence comprising software and/or hardware components that can be trained and/or trained to recognize, classify and/or localize sounds and/or speech. the Acoustic signals are classified, for example, into the categories of rescue vehicle, falling branch, children playing, deer crossing, grinding noises. According to one aspect of the invention, the acoustic classifier evaluates a continuous data stream from the driving system acoustic sensor. According to one aspect of the invention, the acoustic classifier classifies overlapping time signals, for example the last 1s every 0.2ms.
Der akustische Klassifikator stellt für ein Fahrsystem einen Hörsinn dar. Beispiels weise bestimmt der akustische Klassifikator das Ankommen und/oder die Lage eines Einsatzfahrzeuges in Abhängigkeit eines Sirenensignals. Diese Bestimmung wird als Signal einem Steuergerät des Fahrsystems, beispielsweise einer ADAS/AD Domain ECU, das heißt einem elektronischen Steuergerät für assistiertes oder automatisier tes/autonomes Fahren, bereitgestellt. Das Steuergerät bestimmt in Abhängigkeit der Klassifizierung und/oder Lokalisierung des akustischen Klassifikators Steuer- und/o der Regelsignale für Aktuatoren für Längs- und/oder Querführung des Fahrsystems, um das Fahrsystem automatisiert zu steuern. The acoustic classifier represents a sense of hearing for a driving system. For example, the acoustic classifier determines the arrival and/or the position of an emergency vehicle depending on a siren signal. This determination is made available as a signal to a control unit of the driving system, for example an ADAS/AD domain ECU, ie an electronic control unit for assisted or automated/autonomous driving. Depending on the classification and/or localization of the acoustic classifier, the control device determines control and/or regulation signals for actuators for longitudinal and/or lateral guidance of the driving system in order to automatically control the driving system.
Die Softwarekomponenten des akustischen Klassifikators liegen beispielsweise als Programmbefehle in der Programmiersprache Python oder TensorFlow vor. Die Ana lyse von ersten Eingangsdaten erfolgt beispielsweise mit dem Python Programmpa ket LibROSA, das Routinen für Musik- und Audioanalysen umfasst. Die Hardware komponenten umfassen GPUs und/oder Tensor Processing Units mit einer Mikroar chitektur zum parallelisierten Prozessieren von Aufgaben und Ausführen von Mat rixmultiplikationen. Damit wird das Trainieren und der Einsatz einer trainierten künstli chen Intelligenz effizienter. The software components of the acoustic classifier are available, for example, as program commands in the programming language Python or TensorFlow. The analysis of the first input data is carried out, for example, with the Python program package LibROSA, which includes routines for music and audio analysis. The hardware components include GPUs and/or tensor processing units with a microarchitecture for parallelized processing of tasks and execution of matrix multiplications. This makes the training and use of a trained artificial intelligence more efficient.
Das Fahrsystem umfasst PKWs, NKWs, LKWs, Busse, People Mover, Roboter, bei spielsweise Industrieroboter, Drohnen, Schienenfahrzeuge, Schiffe und Flugzeuge. Das Fahrsystem umfasst eine technische Ausrüstung für einen Betrieb des Fahrsys tems gemäß SAE J3016 Stufe 1 bis 5. Nach einem Aspekt der Erfindung ist das Fahrsystem ein Straßenfahrzeug mit einer Automatisierungsstufe SAE J3016 Stufe 2+ bis 5. Die ersten Eingangsdaten umfassen akustische Signale des Fahrsystem-Akus tiksensors. Der Fahrsystem-Akustiksensor ist im Vergleich zu anderen Akustiksenso ren insbesondere für einen Automotive-Einsatz geeignet. Beispielsweise umfasst der Fahrsystem-Akustiksensor, wenn er im Außenraum des Fahrsystems eingesetzt wird, ein Schutzgitter zum Schutz gegen Eindringen von Fremdkörpern, eine akus tisch permeable, hydrophobe und/oder lipophobe Membran zum Schutz gegen Spritzwasser und Fette und einen Strömungsbypass, um eingetretene Fluide oder Fremdkörper aus dem Sensor herauszuleiten. Erfindungsgemäß wird der Fahrsys tem-Akustiksensors auch im Innenraum des Fahrsystems eingesetzt. The driving system includes cars, commercial vehicles, trucks, buses, people movers, robots such as industrial robots, drones, rail vehicles, ships and airplanes. The driving system includes technical equipment for operating the driving system in accordance with SAE J3016 levels 1 to 5. According to one aspect of the invention, the driving system is a road vehicle with an automation level SAE J3016 levels 2+ to 5. The first input data includes acoustic signals from the driving system acoustic sensor. Compared to other acoustic sensors, the driving system acoustic sensor is particularly suitable for automotive use. For example, the driving system acoustic sensor, when used outside of the driving system, includes a protective grille to protect against the ingress of foreign bodies, an acoustically permeable, hydrophobic and/or lipophobic membrane to protect against splash water and grease, and a flow bypass to prevent fluids or to guide foreign bodies out of the sensor. According to the invention, the driving system acoustic sensor is also used in the interior of the driving system.
Die Störungen zur Täuschungserkennung, -Vermeidung und/oder -schütz entspre chen Signalen, die ein Störer, das heißt ein Angreifer, berechnet und abspielt, um den akustischen Klassifikator zu täuschen. Angreifbar sind Geräusch- und Spracher kennung. The disturbances for deception detection, avoidance and/or protection correspond to signals that a disturber, ie an attacker, calculates and plays back in order to deceive the acoustic classifier. Sound and speech recognition are vulnerable.
Die grundsätzliche Idee zur Täuschung eines akustischen Klassifikators ist, dass ein Lautsprecher benutzt wird, über welchen Störsignale abgespielt werden. Durch diese Störsignale soll der Klassifikator getäuscht werden, sodass das ursprüngliche/tat sächliche Ereignis nicht erkannt wird oder ein anderes gewünschtes Ereignis erkannt wird, obwohl in der Realität kein solches akustisches Ereignis aufgetreten ist. Dazu können existierende Lautsprecher im Fahrzeug genutzt werden, beispielsweise Info tainment oder Handy, oder gezielt Lautsprecher an dem gewünschten Standort auf gestellt werden, beispielsweise Wohngebiet, Waldrand, oder Bushaltestelle. The basic idea for deceiving an acoustic classifier is that a loudspeaker is used through which interference signals are played back. The classifier is supposed to be deceived by these interference signals, so that the original/actual event is not recognized or another desired event is recognized, although in reality no such acoustic event has occurred. Existing loudspeakers in the vehicle can be used for this purpose, for example infotainment or mobile phones, or loudspeakers can be set up in a targeted manner at the desired location, for example a residential area, the edge of a forest or a bus stop.
Diese Störsignale werden entweder in Trägersignale integriert oder existieren als ei genständiges Signal. Ein Beispiel für die Integration in Trägersignale ist das Einbrin gen der Störung in Musik. Das veränderte Musiksignal wird dann auf einer beliebten Plattform hochgeladen, beispielsweise Youtube oder Spotify, und über das Infotain mentsystem des Fahrsystems abgespielt. Dadurch wird eine große Zahl an Angriffen durchgeführt, bei denen die akustischen Klassifikatoren getäuscht werden, ein Ereig nis zu erkennen, obwohl in der Realität kein Ereignis vorliegt. Dies kann erheblichen Schaden bei einer Masse von Nutzern/Kunden verursachen. Ein anderer Fall ist, dass ein unscheinbares Störsignal, das für den Menschen nur als leises Rauschen erkennbar ist, abgespielt wird, wodurch dem akustischen Klassifikator Ereignisse vor gegeben werden oder die Erkennung von tatsächlich passierenden Ereignissen ver hindert wird. These spurious signals are either integrated into carrier signals or exist as a separate signal. An example of integration into carrier signals is introducing the interference into music. The modified music signal is then uploaded to a popular platform, such as YouTube or Spotify, and played back via the driving system's infotainment system. As a result, a large number of attacks are carried out in which the acoustic classifiers are fooled into recognizing an event when in reality there is no event. This can cause significant damage to a mass of users/customers. Another case is that of an inconspicuous interfering signal, which for humans is only a faint noise is recognizable, is played, whereby the acoustic classifier events are given before or the detection of actually happening events is prevented ver.
Ein derartiger Angriff ist gefährlich, da die Störsignale für das menschliche Ohr nicht erkennbar sind. Folglich würde den Insassen der laufende Angriff nicht auffallen oder erst nachdem das Fahrsystem bereits reaktionäre Maßnahmen eingeleitet hat, zum Beispiel Bremsen bei fallendem Ast/spielenden Kinder. Das menschliche Ohr kann den vorliegenden Angriff nicht erkennen, da entweder die Lautstärke des Störsignals zu gering ist oder die Störung nur auf gewissen Frequenzen aufgebracht wird, wel che für das menschliche Gehör von benachbarten lauteren Frequenzen überdeckt werden. Such an attack is dangerous because the human ear cannot detect the interference signals. As a result, the occupants would not notice the ongoing attack or only after the driving system had already initiated reactionary measures, such as braking if a branch fell or children were playing. The human ear cannot detect the present attack because either the volume of the interference signal is too low or the interference is only applied to certain frequencies which are masked by neighboring louder frequencies for the human ear.
Die Erfindung umfasst ungezielte und gezielte Angriffe. Bei einem ungezielten Angriff hat der Angreifer das Ziel, den akustischen Klassifikator durch Einbringung einer Stö rung dazu zu bringen, eine andere als die korrekte Klasse vorherzusagen. Dabei ist es egal, welche Klasse statt der korrekten Klasse vorhergesagt wird, im Unterschied zum gezielten Angriff, bei dem der Angreifer sicherstellen will, dass statt der korrek ten Klasse eine spezielle andere Zielklasse vorhergesagt wird. The invention includes untargeted and targeted attacks. In an untargeted attack, the attacker's goal is to introduce a perturbation to get the acoustic classifier to predict a class other than the correct one. It does not matter which class is predicted instead of the correct class, in contrast to a targeted attack, where the attacker wants to ensure that a specific target class is predicted instead of the correct class.
RASES verhindert diesen Angriff, indem der akustische Klassifikator durch das erfin dungsgemäßen Verfahren lernt, robust gegen gezielte oder natürliche vorkommende Störungen zu sein und dabei die Klassifikation des tatsächlich, realen akustischen Ereignis korrekt durchzuführen. Durch das Reduzieren der Hörbarkeit der Störungen wird ein unscheinbares Störsignal, das für den Menschen nur als leises Rauschen er kennbar ist, simuliert. RASES prevents this attack in that the acoustic classifier learns, through the method according to the invention, to be robust against targeted or naturally occurring disturbances and to carry out the classification of the actual, real acoustic event correctly. By reducing the audibility of the interference, an inconspicuous interference signal that is only recognizable to humans as a faint noise is simulated.
Der Angreifer muss die Störung in Abhängigkeit der sonstigen akustischen Signale in der Zielumgebung, beispielsweise Wohngebiet, Waldrand, Innenraum oder viel be fahrene Straße, berechnen. Dazu können exemplarische Signale angenommen wer den, welche die reale Situation bestmöglich wiederspiegeln, und die Generierung des Störsignals für mehrere dieser Signale durchgeführt werden, beispielsweise 1000 bis 100 000 Beispielsignale. Dadurch stellt der Angreifer sicher, dass das berechnete Störsignal den akustischen Klassifikator tatsächlich täuscht, unabhängig von etwai gen weiteren akustischen Signalen. The attacker has to calculate the interference depending on the other acoustic signals in the target environment, for example residential area, edge of the forest, interior or busy street. For this purpose, exemplary signals can be accepted, which reflect the real situation as best as possible, and the generation of the interference signal can be carried out for several of these signals, for example 1000 to 100,000 exemplary signals. This allows the attacker to ensure that the calculated Noise actually deceives the acoustic classifier, regardless of any other acoustic signals.
Wenn der Angreifer Wissen über das anzugreifende System besitzt, können Gradien ten basierte Verfahren verwendet werden, um das Störsignal in Abhängigkeit der Klassifikation des Systems zu optimieren. Eine Methode ist beispielsweise die Pro- jected Gradient Descent Methode, abgekürzt PGDM, bei welcher wiederholt ein Schritt in die positive Richtung des Gradienten einer Verlustfunktion des akustischen Klassifikators, auch Loss-Function genannt, in Abhängigkeit der Eingangsdaten durchgeführt wird. Entsprechende Angriffsmethoden sind unter Ziffer 2.2 von https://arxiv.org/pdf/1611 .01236.pdf offenbart. If the attacker has knowledge about the system to be attacked, gradient-based methods can be used to optimize the jamming signal depending on the classification of the system. One method is, for example, the projected gradient descent method, abbreviated PGDM, in which a step in the positive direction of the gradient of a loss function of the acoustic classifier, also called loss function, is repeatedly carried out as a function of the input data. Corresponding attack methods are disclosed in Section 2.2 of https://arxiv.org/pdf/1611.01236.pdf.
Sind dem Angreifer keine Informationen über den verwendeten akustischen Klassifi kator bekannt, ist es erst einmal nicht möglich Gradienten basierte Verfahren zu be nutzen, da die erforderlichen Gradienten nicht berechnet werden können. Um diese Methoden dennoch benutzen zu können, kann der Angreifer versuchen, Informatio nen über den verwendeten akustischen Klassifikator zu erhalten. Dazu besteht einer seits die Möglichkeit, die Verschlüsselung der lokal gespeicherten Parameter, bei spielsweise Checkpoints eines künstlichen neuronalen Netzwerks umfassend Ge wichte, Struktur, zu brechen und dadurch die benötigten Informationen zu gewinnen. Alternativ kann ein Angreifer ein möglichst identisches System selbst trainieren, mög lichst auf ähnlichen Trainingsdaten. Dann kann dieses System benutzt werden, um ein Störsignal zu berechnen. Da es sich herausgestellt hat, dass solche Störsignale größtenteils zwischen künstlichen Intelligenzen übertragbar sind, kann mit diesem Störsignal auch der eigentlich anzugreifende akustische Klassifikator getäuscht wer den. Dabei existieren außerdem Techniken, um sicherzustellen, dass ein übertragba res Störsignal gefunden wird. Beispielsweise können mehrere Ersatzmodell auf un terschiedlichen Daten trainiert werden, welche von der genutzten Loss-Function in korporiert werden, um ein einheitliches Störsignal für alle Modelle zu berechnen. If the attacker has no information about the acoustic classifier used, it is initially not possible to use gradient-based methods because the necessary gradients cannot be calculated. In order to still be able to use these methods, the attacker can try to obtain information about the acoustic classifier used. On the one hand, there is the possibility of breaking the encryption of the locally stored parameters, for example checkpoints of an artificial neural network, including weights and structure, and thereby gaining the required information. Alternatively, an attacker can train a system that is as identical as possible, preferably on similar training data. Then this system can be used to calculate an interfering signal. Since it has been found that such interference signals can largely be transmitted between artificial intelligences, this interference signal can also be used to deceive the acoustic classifier that is actually being attacked. Techniques also exist to ensure that a transmittable jamming signal is found. For example, several substitute models can be trained on different data, which are incorporated by the loss function used in order to calculate a uniform interference signal for all models.
Eine weitere Möglichkeit sind Model Stealing Angriffe, welche den Zweck haben, In formationen über eine künstliche Intelligenz zu erhalten. Um diese durchführen zu können, muss ein Angreifer lediglich die Eingangsdaten des akustischen Klassifikators verändern können, beispielsweise ein Testsignale abspielen, und an schließend die Ausgabewerte des akustischen Klassifikators beobachten können. Durch geschicktes Kombinieren verschiedener Eingabewerte und testen, auch Query genannt, wie der akustische Klassifikator darauf reagiert, kann durch solche Angriffe Informationen gesammelt werden, wie der akustische Klassifikator funktioniert und wie er getäuscht werden kann. Model Stealing ist beispielsweise in https://ar- xiv.org/pdf/1802.05351 .pdf offenbart. Another possibility are model stealing attacks, which have the purpose of obtaining information about an artificial intelligence. In order to be able to carry this out, an attacker only needs the input data of the acoustic can change the classifier, for example play a test signal, and then be able to observe the output values of the acoustic classifier. By cleverly combining different input values and testing, also called queries, how the acoustic classifier reacts to them, such attacks can collect information about how the acoustic classifier works and how it can be deceived. For example, model stealing is disclosed in https://arxiv.org/pdf/1802.05351.pdf.
Bekannt sind auch Angriffsarten als reine black-box Angriffe ohne Gradienteninfor mationen, welche auch nicht das System lokal replizieren/neu trainieren. Stattdessen werden geschickt Entscheidungen getroffen anhand des aktuellen Wertes der Löss Function, wie die aktuelle Störung verändert werden muss, um die künstliche Intelli genz zu täuschen, siehe https://arxiv.org/pdf/1712.04248.pdf. Auch gegen diese Art von Angriffen wird mit dem erfindungsgemäßen Verfahren eine Robustheit erreicht und/oder gesteigert. Types of attack are also known as pure black-box attacks without gradient information, which also do not replicate/retrain the system locally. Instead, clever decisions are made based on the current value of the loess function as to how the current disturbance must be changed in order to fool the artificial intelligence, see https://arxiv.org/pdf/1712.04248.pdf. The method according to the invention also achieves and/or increases robustness against this type of attack.
Durch RASES werden jegliche dieser Angriffe verhindert und die korrekte Funktiona lität des akustischen Klassifikators gewährleistet, obwohl solche Störsignale vorlie gen und ein Angriff versucht wird. Dies erfolgt erfindungsgemäß dadurch, dass wäh rend dem Training Störungen in Abhängigkeit der ersten Eingangssignale zur Täu schungserkennung, -Vermeidung und/oder -schütz und/oder zur Verbesserung einer Erkennungs- und/oder Klassifikationsleistung des akustischen Klassifikators erhalten werden und diese Störungen mittrainiert werden, wobei eine Hörbarkeit der Störun gen iterativ oder sukzessiv reduziert wird. RASES prevents any of these attacks and ensures the correct functionality of the acoustic classifier even though such interference signals are present and an attack is attempted. According to the invention, this is achieved in that, during the training, disturbances are obtained as a function of the first input signals for deception detection, avoidance and/or protection and/or for improving a recognition and/or classification performance of the acoustic classifier, and these disturbances are also trained, wherein an audibility of the disturbances is reduced iteratively or successively.
Um die gewählte Angriffsmethode umsetzen zu können, werden bestimmte Hyperpa rameter des akustischen Klassifikators bestmöglich bestimmt, beispielsweise initiale maximale Stärke des Störsignals oder Zielsequenz. Abhängig von diesen Parame tern ergeben sich verschiedene Änderungen in der Robustheit und Genauigkeit des resultierenden akustischen Klassifikators, nachdem das Training abgeschlossen ist. In order to be able to implement the selected attack method, certain hyper parameters of the acoustic classifier are determined as best as possible, for example the initial maximum strength of the interference signal or target sequence. Depending on these parameters, there are various changes in the robustness and accuracy of the resulting acoustic classifier after training is complete.
Täuschungen und/oder Angriffe mit dem Angriffsziel der nach außen gerichteten Akustik-Sensorik wirken sich beispielsweise wie folgt aus: • Nichterkennung und/oder Fehllokalisation von zu erkennenden Geräuschquel len, Deception and/or attacks with the aim of attacking the outward-facing acoustic sensors have the following effect, for example: • Non-recognition and/or incorrect localization of noise sources to be recognized,
• Vorgeben von zu erkennenden Geräuschquellen, die in der Realität nicht vor handen sind; • specification of noise sources to be recognized that do not exist in reality;
• die Sensorik zur Verwechslung von zu erkennenden Geräuschquellen bringen. Diese Auswirkungen wirken einem sicheren Betrieb des Fahrsystems entgegen. Durch RASES wird der akustische Klassifikator robust gegen diese Täuschungen, in dem ein Training des akustischen Klassifikators mit diesen Störungen erweitert wird. • cause the sensors to confuse the sources of noise to be recognized. These effects counteract safe operation of the driving system. RASES makes the acoustic classifier robust against these illusions by expanding the training of the acoustic classifier with these disturbances.
Geräuschquellen bezüglich des Außenraums umfassen: Sources of noise related to the exterior include:
• anderer Verkehrsteilnehmer, wie z. B. o andere Fahrzeuge, o Personen, o spielende Kinder, o Rettungswagen im Einsatz, o Tiere/Wildwechsel, • other road users, e.g. B. o other vehicles, o people, o children playing, o ambulances on duty, o animals/deer crossing,
• Situationen, o Unfall in Umgebung, o umstürzende Bäume, fallende Äste, • Situations, o accident in the surroundings, o falling trees, falling branches,
• Notruf/Warnrufe durch Personen, o „Hilfe“, • Emergency calls/warning calls by people, o "Help",
• Witterungsgeräusche, o nasse Straße, o Schnee auf Straße, o Hagel, o starker Wind, o Waldbrand, • Weather noise, o wet road, o snow on road, o hail, o strong wind, o forest fire,
• Schadensgeräusche am eigenen oder fremden Fahrzeugen, o Klappern am Auto, o Quietschen, o Schleifen, • Damage noises on your own or other vehicles, o rattling on the car, o squeaking, o grinding,
• Steuerungs-Kommandos an das Fahrzeug, o Öffnen von Kofferraum, Türen, o Identifikation des Fahrers. • Control commands to the vehicle, o Opening of trunk, doors, o Identification of the driver.
Täuschungen und/oder Angriffe mit dem Angriffsziel der nach innen gerichteten Akustik-Sensorik wirken sich beispielsweise wie folgt aus: Deception and/or attacks with the attack target of the inward-facing acoustic sensors have the following effect, for example:
• Nichterkennung und/oder Fehllokalisation von zu erkennenden Geräuschquel len • Non-detection and/or incorrect localization of noise sources to be detected
• Vorgeben von zu erkennenden Geräuschquellen, die in der Realität nicht vor handen sind, • specification of noise sources to be recognized that do not exist in reality,
• die Sensorik zur Verwechslung von zu erkennenden Geräuschquellen bringen. Auch diese Auswirkungen wirken einem sicheren Betrieb des Fahrsystems entgegen. Durch RASES wird der akustische Klassifikator robust gegen diese Täuschungen, in dem ein Training des akustischen Klassifikators mit diesen Störungen erweitert wird. Damit wird durch RASES ein akustischer Klassifikator für den Außenraum und den Innenraum robust. • cause the sensors to confuse the sources of noise to be recognized. These effects also counteract safe operation of the driving system. RASES makes the acoustic classifier robust against these illusions by expanding the training of the acoustic classifier with these disturbances. RASES thus makes an acoustic classifier for the exterior and interior robust.
Geräuschquellen bezüglich des Innenraums umfassen: Interior noise sources include:
• Insassen mit folgenden Attributen o Gemüts-, Belastungs-, Gesundheitszustand, Alkohol, Drogen, o Position, Orientierung, o Identifikation, • Inmates with the following attributes o state of mind, stress, health, alcohol, drugs, o position, orientation, o identification,
• Situationen, o Interaktion der Insassen, beispielsweise Streit, Feier • Situations, o Interaction of inmates, eg argument, party
• Schadensgeräusche am eigenen Fahrzeugen, o Klappern am Auto, o Quietschen, o Schleifen, o Brandgeräusche, • Damage noises on one's own vehicles, o rattling on the car, o squeaking, o grinding, o fire noises,
• Interaktion mit Funktionen des Fahrzeugs, o Steuerungs-Kommandos an das Fahrzeug, • Interaction with vehicle functions, o control commands to the vehicle,
Ein- und Ausschalten von Systemen, switching systems on and off,
Routenwahl, route selection,
Musikwahl, music choice,
Anrufwahl, Anfragen, o Hilfeanforderung, o Warnruf, o Zu-/Unzufriedenheit mit einer Funktion • Beeinflussung von akustisch angebunden Systemen wie Handys im Innen raum oder solche die angerufen werden. call dialing, Inquiries, o Request for help, o Warning call, o Satisfaction/dissatisfaction with a function • Influencing acoustically connected systems such as cell phones in the interior or those that are being called.
Die Angriffe umfassen auch ein anderes Ziel als das Ego-Fahrsystem, beispielsweise ein System, das mit dem Fahrsystem in irgendeiner Weise verbunden ist, beispiels weise ein Cloud-Speicher, ähnlich wie bei der Einbringung von Computer-Viren, Tro janern, Würmern. The attacks also include a target other than the ego driving system, for example a system that is connected to the driving system in some way, for example cloud storage, similar to the introduction of computer viruses, trojans, worms.
Durch das Erweitern des Trainings des akustischen Klassifikators mit diesen Störun gen wird ferner die fundamentale Fähigkeit der Generalisierungsfähigkeit des akusti schen Klassifikators gesteigert, denn eine „zufällige Beeinflussung“ und bewusste Angriffe entsprechen in gewisser Weise genau der Fähigkeit zur Generalisierung. Damit wird die Erkennungs- und/oder Klassifikationsleistung gesteigert. Augmenting the training of the acoustic classifier with these perturbations further increases the fundamental ability of the acoustic classifier's ability to generalize, since "accidental manipulation" and deliberate attacks correspond in some ways exactly to the ability to generalize. This increases the recognition and/or classification performance.
Durch das Eingeben von Kombinationen aus den ersten und den zweiten Eingangs daten, die aus einer Addition der ersten Eingangsdaten und den Störungen resultie ren, in den akustischen Klassifikator und das maschinelle Lernen der Kombinationen lernt der akustische Klassifikator, sich gegen die oben beschriebenen Angriffe zu ver teidigen. Die resultierenden Kombinationen stellen erweiterte oder augmentierte Trai ningsdaten für den akustischen Klassifikator dar. By inputting combinations of the first and second input data, which result from an addition of the first input data and the disturbances, into the acoustic classifier and machine learning the combinations, the acoustic classifier learns to defend itself against the attacks described above defend. The resulting combinations represent extended or augmented training data for the acoustic classifier.
Das maschinelle Lernen dieser Kombinationen ist ein sogenanntes Adversarial Trai ning, das heißt die Augmentation der ersten Eingangsdaten mit Störsignalen, welche ein Angreifer benutzen würde, um den akustischen Klassifikator zu täuschen. Die Störungen werden während des Trainings für jedes Eingangssignal neu berechnet und immer an die aktuellen Parameter des akustischen Klassifikators angepasst. Die Störsignale werden auf die originalen Daten aufaddiert, aber die Ground Truth Klasse wird nicht geändert. Dadurch lernt der akustische Klassifikator, robust gegen die gezeigten Störungen zu sein und diese Daten immer noch korrekt zu klassifizie ren. Adversarial Training ist in https://arxiv.org/pdf/1706.06083.pdf offenbart. The machine learning of these combinations is a so-called adversarial training, i.e. the augmentation of the first input data with interference signals, which an attacker would use to fool the acoustic classifier. The disturbances are recalculated during the training for each input signal and are always adapted to the current parameters of the acoustic classifier. The interference signals are added to the original data, but the ground truth class is not changed. As a result, the acoustic classifier learns, robust against to be the disorders shown and still correctly classify this data. Adversarial training is disclosed in https://arxiv.org/pdf/1706.06083.pdf.
Wie die Störsignale konkret berechnet werden ist dabei unerheblich und es kann eine, mehrere, verschiedenste Kombinationen von Angriffsmethoden benutzt wer den. Außerdem müssen nicht ausschließlich gestörte Daten verwendet werden. Eine beliebige Kombination von originalen und gestörten Signalen kann in jedem Batch während des Trainings genutzt werden. Dies kann erforderlich sein, um den Tradeoff zwischen allgemeiner Genauigkeit und Robustheit gegen Störungen zu optimieren. Typischerweise führt eine deutliche Verbesserung des einen zur Verschlechterung des anderen. How the interference signals are actually calculated is irrelevant and one, several, very different combinations of attack methods can be used. In addition, noisy data does not have to be used exclusively. Any combination of original and perturbed signals can be used in each batch during training. This may be necessary to optimize the tradeoff between general accuracy and robustness to disturbances. Typically, a significant improvement in one leads to a deterioration in the other.
Batches sind gleich große Gruppen von Eingangsdaten. Das Training kann jeweils pro Batch durchgeführt werden. Wenn alle Batches die künstliche Intelligenz einmal durchlaufen haben, ist eine Epoche vollendet. Eine Epoche bezeichnet einen kom pletten Durchlauf aller Eingangsdaten. Die Anzahl der Trainingsepochen und Bat ches ist jeweils ein Parameter für das Training der künstlichen Intelligenz. Beispiels weise besteht jeder Batch aus 50% originalen und 50% gestörten Daten. Es sind aber auch andere Verteilungen denkbar, z.B.: 20% Original, 40% Angriffsmethode 1, beispielsweise Gradienten basiert, 40% Angriffsmethode 2, beispielsweise Model Stealing. Batches are groups of input data of equal size. The training can be carried out per batch. When all batches have gone through the artificial intelligence once, an epoch is complete. An epoch denotes a complete run through of all input data. The number of training epochs and batches is a parameter for training the artificial intelligence. For example, each batch consists of 50% original and 50% corrupted data. However, other distributions are also conceivable, e.g.: 20% original, 40% attack method 1, for example gradient-based, 40% attack method 2, for example model stealing.
Nach einem Aspekt der Erfindung wird das Adversarial Training konzeptuell mit wei teren Augmentationsstrategien verwendet, beispielsweise mit Spektogramm-Aug- mentation, siehe https://arxiv.org/pdf/1904.08779.pdf. Weiterhin kann zusätzlich das originale Signal mit weiteren realistischen Rauschsignalen überlagert werden, um ein reales Szenario noch besser wiederspiegeln zu können und damit die Genauigkeit des akustischen Klassifikators unter nicht optimalen Bedingungen weiter zu erhöhen. According to one aspect of the invention, the adversarial training is used conceptually with further augmentation strategies, for example with spectrogram augmentation, see https://arxiv.org/pdf/1904.08779.pdf. Furthermore, the original signal can also be overlaid with further realistic noise signals in order to be able to reflect a real scenario even better and thus further increase the accuracy of the acoustic classifier under non-optimal conditions.
In einer Ausführungsform des Verfahrens wird zum Erhalten der Störungen und/oder der Reduzierung der Hörbarkeit der Störungen eine Verlustfunktion unter Einhaltung der Bedingung, dass die Störungen kleiner als eine vorgegebene Störung sind, mini miert. Die Verlustfunktion, auch kombinierte Verlustfunktion genannt, umfasst als ersten Teil die Störungen und als zweiten Teil eine mit den Störungen erweiterte Ver lustfunktion des akustischen Klassifikators. Die erweiterte Verlustfunktion wird von ei ner von einem Störer beabsichtigten Klassifizierung des akustischen Klassifikators minimiert. In one embodiment of the method, in order to obtain the interference and/or to reduce the audibility of the interference, a loss function is minimized while complying with the condition that the interference is smaller than a predetermined interference. The loss function, also called the combined loss function, includes as first part the disturbances and as a second part a loss function of the acoustic classifier extended with the disturbances. The extended loss function is minimized by an interferer's intended classification of the acoustic classifier.
Prinzipiell lässt sich auch für einen Angriff im Audiobereich die PGDM einsetzen. Je doch zeigt sich, dass diese Methode mit den erhöhten Nichtlinearitäten, welche durch eine Vorverarbeitung und die mögliche massive Nutzung von rekurrenten Schichten im akustischen Klassifikator hervorgerufen werden, nicht gut funktioniert. Daher ist es oftmals, insbesondere bei langen Sequenzen, beispielsweise Spracherkennung, nicht möglich, eine geeignete Störung zu finden, welche für einen Menschen nicht hörbar ist. In principle, PGDM can also be used for an attack in the audio sector. However, it turns out that this method does not work well with the increased non-linearities that are caused by pre-processing and the possible massive use of recurrent layers in the acoustic classifier. It is therefore often not possible, particularly in the case of long sequences, for example speech recognition, to find a suitable disturbance which is inaudible to a human being.
Ein alternativer, aber komplexerer, Ansatz basiert auf einem eigenständigen Optimie rungsansatz, um sicherzustellen, dass eine Störung gefunden wird, welche für einen Menschen nicht hörbar ist und den akustischen Klassifikator dennoch täuscht. For mal lässt sich dies ausdrücken als: minimize dBx(6) = dB(6) — dB(x) d subject to y = /(x + d; Q) = t An alternative, but more complex, approach relies on a proprietary optimization approach to ensure that a perturbation is found that is inaudible to a human and still fools the acoustic classifier. Formally, this can be expressed as: minimize dB x (6) = dB(6) — dB(x) d subject to y = /(x + d; Q) = t
In diesen Formeln bedeuten x: Vektor mit rohen, ersten Eingangsdaten, d: generische Störung, In these formulas, x means: vector with raw, first input data, d: generic disturbance,
Ay: von dem akustischen Klassifikator vorhergesagte Klasse, t: Zielklasse des Angreifers, A y: class predicted by the acoustic classifier, t: target class of the attacker,
Q: Parameter. Q: parameters.
Die Zielklasse ist die Klasse, die der Angreifer sicherstellen wird, von dem akusti schen Klassifikator anstatt der korrekten Klasse vorhergesagt zu werden. The target class is the class that the attacker will ensure to be predicted by the acoustic classifier instead of the correct class.
In dieser Formulierung ist das Hauptziel, den Unterschied zwischen der Stärke der Störung und der Stärke der ersten Eingangsdaten zu minimieren, sodass die Störung für einen Menschen nicht hörbar ist, wenn sie auf die Eingangsdaten aufaddiert wird. Als notwendige Bedingung wird eingeführt, dass der akustische Klassifikator erfolgreich getäuscht werden muss und die gezielte Klasse, oder Sequenz von akus tischen Einheiten, vorhersagt wird. Jedoch ist dieses Optimierungsproblem mit nor malen Gradienten basierten Methoden nur sehr schwer zu lösen, da die Klassifikati onsfunktion f (-) nach einem Aspekt der Erfindung durch ein künstliches neuronales Netzwerk dargestellt wird, welches sehr stark nichtlinear ist. In this formulation, the main goal is to minimize the difference between the magnitude of the interference and the magnitude of the first input data, so that the interference is not audible to a human when it is added to the input data. As a necessary condition, it is introduced that the acoustic classifier must be successfully deceived and the targeted class, or sequence of acoustic units, is predicted. However, this optimization problem is very difficult to solve with methods based on normal gradients, since according to one aspect of the invention the classification function f(-) is represented by an artificial neural network which is very strongly non-linear.
Um dieses Problem zu umgehen, wird erfindungsgemäß das Optimierungsproblem umformuliert und eine kombinierte Loss-Function eingeführt: minimize + a · L (x + d, t; Q) d imperceptible adversarial subject to άBc(d) < e In order to circumvent this problem, the optimization problem is reformulated according to the invention and a combined loss function is introduced: minimize+a*L(x+d, t; Q) d imperceptible adversarial subject to άB c (d) < e
In diesen Formeln bedeuten L: Loss-Function, cc Tradeoff-Parameter, e: maximal erlaubte Störung. In these formulas, L: loss function, cc tradeoff parameters, e: maximum allowed disturbance.
Diese konkrete Variante, Störungen für akustische Signale zu berechnen, wird in https://arxiv.Org/abs/1801 .01944 offenbart. This concrete variant of calculating disturbances for acoustic signals is disclosed in https://arxiv.org/abs/1801.01944.
Der erste Teil der kombinierten Loss-Function bewirkt, dass eine Störung d mit mög lichst geringer Stärke gefunden wird und der zweite Teil bewirkt, dass die gefundene Störung auch den akustischen Klassifikator erfolgreich stört. Die erfolgreiche Störung wird gewährleistet, indem der Wert der Loss-Funktion L (·) des akustischen Klassifi kators minimiert wird, wodurch sichergestellt ist, dass dieser gegen null tendiert. Der Parameter a fungiert als Möglichkeit, den Tradeoff zwischen erfolgreicher Störung und nicht Wahrnehmbarkeit einzustellen und kann daher an die vorliegenden Gege benheiten und an die Zielsetzung angepasst werden. Die vorhandene notwendige Bedingung stellt eine zusätzliche Einschränkung dar, um zu gewährleisten, dass die Störung gleichmäßig über das Eingangssignal verteilt wird und nicht in manchen Re gionen einen sehr hohen Ausreißer hat, welcher von Menschen gehört werden würde, obwohl der erste Term der Löss -Funktion, das ist die quadrierte ^2-Norm der Störung, gering ist. Nach einem Aspekt der Erfindung werden weitere Terme hinzugefügt, welche zum Beispiel ausdrücken, dass die Störung hauptsächlich auf Frequenzen addiert werden soll, welche für einen Menschen nicht hörbar sind. The first part of the combined loss function causes a disturbance d with the lowest possible strength to be found and the second part causes the disturbance found to also successfully disturb the acoustic classifier. Successful disruption is ensured by minimizing the value of the acoustic classifier's loss function L(•), thereby ensuring that it tends to zero. The parameter a acts as an opportunity to set the tradeoff between successful disruption and imperceptibility and can therefore be adapted to the given circumstances and to the objective. The presence of the necessary condition provides an additional constraint to ensure that the interference is evenly distributed across the input signal and does not have a very high outlier in some regions that would be heard by humans, even though the first term of the loess function , which is the squared ^ 2 -norm of the perturbation, is small. According to one aspect of the invention, further terms are added, which say, for example, that the interference should be added mainly on frequencies that are not audible to a human.
Dieses Optimierungsproblem wird erfindungsgemäß mit Gradient Descent gelöst. Daher wird die kombinierte Verlustfunktion minimiert, bis eine Störung d gefunden wurde, welche den akustischen Klassifikator erfolgreich stört und dazu bringt, die Zielklasse t vorherzusagen. Dazu wird initial ein höherer Wert für die maximale Stärke e benutzt, mit welchen die Störung für einen Menschen hörbar ist. Sobald diese initiale Störung gefunden wurde, wird die maximale erlaubte Stärke e des An greifers reduziert und die Optimierung fortgesetzt. Dieses Verfahren wird iterativ fort gesetzt, bis eine vorher festgelegte Anzahl an Iterationen absolviert wurde. Folglich wird während der Optimierung die Hörbarkeit immer weiter reduziert, aber der täu schende Charakter der Störung bleibt bestehen, sodass der akustische Klassifikator weiterhin korrekt getäuscht wird. According to the invention, this optimization problem is solved with gradient descent. Therefore, the combined loss function is minimized until a perturbation d is found that successfully perturbs the acoustic classifier and causes it to predict the target class t. For this purpose, a higher value is initially used for the maximum strength e with which the disturbance can be heard by a human. As soon as this initial disturbance has been found, the attacker's maximum allowed strength e is reduced and the optimization continued. This process continues iteratively until a predetermined number of iterations has been completed. Consequently, during the optimization, the audibility is reduced more and more, but the deceptive character of the disturbance remains, so that the acoustic classifier is still correctly deceived.
Damit werden die Störungen während des Adversarial Trainings mit dem Verfahren gemäß dieser Ausführungsform, und verschiedenen Hyperparametereinstellungen, berechnet. With this, the disturbances during the adversarial training are calculated with the method according to this embodiment and different hyperparameter settings.
In einerweiteren Ausgestaltung des Verfahrens umfassen die ersten Eingangsdaten Rohdaten des Fahrsystem-Akustiksensors, gefilterte Rohdaten und/oder eine Reprä sentation der Rohdaten in einem Zeit-Frequenz-Bereich. In a further embodiment of the method, the first input data includes raw data from the driving system acoustic sensor, filtered raw data and/or a representation of the raw data in a time-frequency range.
Prinzipiell können rohe akustische Signale ohne Vorverarbeitung als Eingangsdaten für den akustischen Klassifikator verwendet werden, jedoch resultiert dies aktuell in geringeren Klassifikationsgenauigkeiten . In principle, raw acoustic signals can be used as input data for the acoustic classifier without pre-processing, but this currently results in lower classification accuracies.
Nach einem Aspekt der Erfindung werden die Rohdaten mit Tiefpass- oder Band passfiltern gefiltert, um situationsbedingt Geräusche gezielt zu blenden oder zu ver stärken. According to one aspect of the invention, the raw data are filtered with low-pass or band-pass filters in order to specifically blind or amplify noises depending on the situation.
Die Repräsentation der Rohdaten im Zeit-Frequenz-Bereich basiert beispielsweise auf einer Vorverarbeitung der Rohdaten mit einer Short-Time-Fourier-Transformation, wobei unterschiedliche Fenstertypen (Hann, Blackman,) mit unterschiedlichen Para metern (Fensterbreite, Hop-Distanz) genutzt werden. Als Resultat ergibt sich ein Zeit- Frequenz Bild, in welchen die Energie in verschiedenen Frequenzen über die Zeit abgebildet wird. Wenn mehr als ein Fahrsystem-Akustiksensor ausgewertet wird, liegt pro Sensor ein Signal vor, welches unabhängig transformiert wird. Daher liegen in diesem Fall mehrere der Zeit-Frequenz-Bilder vor, analog zu einem RGB-Bild, in dem dann drei Farbkanäle vorhanden sind). Aus dieser Darstellung werden weitere gewichtete, in Frequenzbehälter unterteilte Merkmale oder Features extrahiert, wel che typischerweise die Mel Frequency Scale benutzen, sodass am Ende Mel Fre- quency Cepstral Coefficients (MFCC) oder Mel Frequency Filter Banks (FBank) ge nutzt werden, siehe https://towardsdatascience.com/getting-to-know-the-mel- spectrogram-31bca3e2d9d0. Dazu können jeweils unterschiedliche Einstellungen verwendet werden, beispielsweise min/max Frequenz, Anzahl der Frequenzbehälter. The representation of the raw data in the time-frequency domain is based, for example, on pre-processing the raw data with a short-time Fourier transformation, whereby different window types (Hann, Blackman) with different parameters (window width, hop distance) are used. The result is a time-frequency picture in which the energy is displayed in different frequencies over time. If more than one driving system acoustic sensor is evaluated, there is a signal for each sensor which is transformed independently. In this case, therefore, there are several time-frequency images, analogous to an RGB image in which three color channels are then present). From this representation, further weighted characteristics or features, divided into frequency bins, are extracted, which typically use the Mel Frequency Scale, so that at the end Mel Frequency Cepstral Coefficients (MFCC) or Mel Frequency Filter Banks (FBank) are used, see https ://towardsdatascience.com/getting-to-know-the-mel-spectrogram-31bca3e2d9d0. Different settings can be used for this, for example min/max frequency, number of frequency bins.
Zusätzlich kann die Vorverarbeitung eine Entrauschung enthalten, um die Signalqua lität der akustischen Signale zu verbessern. Beispielsweise ist es im Fall von Sprach erkennung wünschenswert, unwichtige Hintergrundgeräusche herauszufiltern, bei spielsweise Motorengeräusche oder Reifenreibung. Wenn mehrere Sensoren benutzt werden, können Mechanismen benutzt werden, welche die unterschiedliche Laufzeit von akustischen Wellen zu den einzelnen Sensoren ausnutzen, beispielsweise Beamforming oder Source Seperation. Diese Verfahren können dabei selbst wieder auf künstlicher Intelligenz basieren. Es ist auch möglich, die Entrauschung in den Zeitsignalen vorzunehmen, beispielsweise mittels Denoising Autoencoder oder Wie ner Filter, bevor diese Signale in den Zeit-Frequenz-Bereich transformiert werden. Weiterhin existieren algorithmische, statistische Verfahren, welche die Zeit-Frequenz Features gewichten und dabei versuchen, Features mit geringer Sprachenergie eine niedrige Gewichtung zuzuweisen. In addition, the pre-processing can contain noise reduction in order to improve the signal quality of the acoustic signals. For example, in the case of speech recognition, it is desirable to filter out unimportant background noise, such as engine noise or tire friction. If several sensors are used, mechanisms can be used which exploit the different propagation times of acoustic waves to the individual sensors, for example beamforming or source separation. These methods can themselves be based on artificial intelligence. It is also possible to remove noise from the time signals, for example using a denoising autoencoder or Wiener filter, before these signals are transformed into the time-frequency domain. There are also algorithmic, statistical methods that weight the time-frequency features and try to assign a low weight to features with low speech energy.
Rohe akustische Signale können sich deutlich unterscheiden, obwohl sie denselben Kontext, beispielsweise Geräusch oder Sprache, widerspiegeln. Beispielsweise führt die aktuelle emotionale Lage eines Sprechers zu unterschiedlich betonten Signalen. Durch die Vorverarbeitung werden zuerst Features generiert, welche eine höhere Invarianz gegenüber solchen unterschiedlichen Signalen des gleichen Grundereignis aufweisen. Raw acoustic signals can differ significantly even though they reflect the same context, such as noise or speech. For example, the current emotional state of a speaker leads to differently emphasized signals. The pre-processing generates features first, which have a higher Have invariance to such different signals of the same basic event.
Nach einem Aspekt der Erfindung ist das erfindungsgemäße Verfahren dahingehend erweitert, dass der Angreifer das Störsignal nicht mehr auf die originalen Eingangs daten aufaddiert. Stattdessen wird das Störsignal auf eine Repräsentation im Zeit- Frequenz Bereich aufaddiert. Es ist genauso möglich, das Störsignal auf jede andere Repräsentation nach den einzelnen Schritten in der Vorverarbeitung aufzuaddieren.According to one aspect of the invention, the method according to the invention is extended such that the attacker no longer adds the interference signal to the original input data. Instead, the interference signal is added to a representation in the time-frequency domain. It is also possible to add the interference signal to any other representation after the individual steps in the pre-processing.
In der Realität ist es einem Angreifer nicht möglich diese Features anzugreifen, da er keinen Zugriff innerhalb des akustischen Klassifikators zur akustischen Klassifikation hat. Als Verteidiger ist dies jedoch eine gute Möglichkeit, die Robustheit des Systems weiter zu verbessern, indem Einflüsse eines realen Angriffs auf ein akustisches Sig nal effektiver simuliert werden können und daher das Training effizienter wird. In reality, it is not possible for an attacker to attack these features because he has no access within the acoustic classifier for acoustic classification. As a defender, however, this is a good way to further improve the robustness of the system by simulating the effects of a real attack on an acoustic signal more effectively, making training more efficient.
In einerweiteren Ausgestaltung des Verfahrens umfassen die ersten Eingangsdaten eine Repräsentation von Rohdaten des Fahrsystem-Akustiksensors in einem Zeit- Frequenz-Bereich. Durch Maskierung werden die Störungen auf Frequenzen mit ge ringer Energie addiert. In a further embodiment of the method, the first input data includes a representation of raw data from the driving system acoustic sensor in a time-frequency range. Masking adds the interference at low-energy frequencies.
Die Maskierung beschränkt die Features, die der genutzte Angreifer während des Trainings angreifen darf. Dadurch kann der Angreifer während des Trainings das Störsignal nur auf eine Teilmenge aller vorhandenen Features aufaddieren. Erfin dungsgemäß wird die Maskierung genutzt, um während des Trainings den Angriff auf relevante Features mit hoher Sprachenergie zu verhindern. Dadurch kann der An greifer während des Trainings das Störsignal nur auf Features aufaddieren, welche nur wenige Informationen erhalten bezüglich der vorhandenen Sprachenergie. The masking restricts the features that the used attacker is allowed to attack during training. As a result, the attacker can only add the interference signal to a subset of all available features during training. According to the invention, the masking is used to prevent attacks on relevant features with high speech energy during training. As a result, during training, the attacker can only add the interference signal to features that receive little information about the existing speech energy.
Damit wird ein realer Angriff besser widergespiegelt. Da das Ziel ein für Menschen nicht hörbarer Angriff ist, wird ein realer Angreifer das Störsignal so berechnen, dass hauptsächlich Frequenzen beeinflusst werden, welche bisher keine hohe Energie aufweisen. Dies ist erforderlich, da so erreicht werden kann, dass ein Mensch keinen Unterschied hört, da auf diesen Frequenzen eine verhältnismäßig geringe Störung bereits ausreicht, den Einfluss des originalen Signals zu überdecken. Wenn der Angreifer die Störung stattdessen auf Frequenzen addiert, welche bereits eine hohe Energie haben, muss die vorhandene Energie übertönt werden. Dafür ist eine deut lich stärkere Störung erforderlich, sodass das resultierende Störsignal deutlich hörbar ist und unter Umständen sogar stärker ist als das originale Signal. Es kann passie ren, dass gewisse Teile des originalen Signals nicht mehr verständlich sind. Dies ist für einen realen Angreifer kein gewünschtes Verhalten, sodass das Störsignal auf Frequenzen mit geringer Energie addiert werden muss. Indem ein solcher Angriff, der nur Frequenzen mit geringer Energie angreift, während des Trainings simuliert wird, kann der akustische Klassifikator effizienter und effektiver gegen allgemeine, reale Angriffe verbessert werden, im Vergleich zu dem Fall des normalen Adversarial Trai nings mit dem Angriff auf das rohe Sprachsignal. Der akustische Klassifikator wird damit gezielt trainiert, Frequenzen mit hoher Energie auszunutzen und robuster ge gen Störungen weniger wichtiger Frequenzen zu sein. This better reflects a real attack. Since the target is an attack that is inaudible to humans, a real attacker will calculate the interference signal in such a way that frequencies are mainly affected that previously did not have high energy. This is necessary because in this way it can be achieved that a human hears no difference, since at these frequencies a relatively small amount of interference is already sufficient to mask the influence of the original signal. If the Instead, if the attacker adds the interference to frequencies that already have high energy, the existing energy must be drowned out. This requires significantly stronger interference so that the resulting interference signal is clearly audible and may even be stronger than the original signal. It can happen that certain parts of the original signal are no longer understandable. This is not a desired behavior for a real attacker, so the jamming signal must be added on low-energy frequencies. By simulating such an attack attacking only low-energy frequencies during training, the acoustic classifier can be improved more efficiently and effectively against general real-world attacks compared to the case of normal adversarial training attacking the raw speech signal. The acoustic classifier is thus specifically trained to utilize frequencies with high energy and to be more robust against interference from less important frequencies.
Die Maskierung ist analog auf die Geräuscherkennung übertragbar, indem nur Fea tures, welche nicht relevant für das jeweilige akustische Ereignis sind, vom Angreifer gestört werden dürfen. Dadurch wird der akustische Klassifikator während des Trai nings lernen, die gestörten Features nicht zu benutzen und sich auf die restlichen Features verlassen. Da diese besonders relevant und aussagekräftig sind bezüglich der vorhandenen akustischen Ereignisse, der vorhandenen Sprache, steigt die Ro bustheit weiter an, weil der akustische Klassifikator lernt, seine Entscheidung haupt sächlich anhand dieser Features durchzuführen. The masking can be transferred analogously to noise detection, in that only features that are not relevant to the respective acoustic event may be disturbed by the attacker. As a result, the acoustic classifier will learn during training not to use the disturbed features and rely on the remaining features. Since these are particularly relevant and meaningful with regard to the existing acoustic events, the existing language, the robustness increases further because the acoustic classifier learns to make its decision mainly on the basis of these features.
Um die Masken zu generieren, welche die Relevanz der Features ausdrücken, sind verschiedene Verfahren möglich. Beispielsweise wird eine Maske generiert, indem zuerst ein Bild mit der identischen Größe wie die Features generiert wird, wobei wei ßes Rauschen mit einem SNR=0dB genutzt wird, um die Werte zufällig zu ziehen. Anschließend wird der absolute Wert jedes Feature einzeln mit dem absoluten Wert des Rauschbildes an der Stelle verglichen. Wenn der Wert des Features größer ist als der des zufälligen Rauschens wird dieses Feature als relevant angesehen. Mit diesem einfachen Verfahren lassen sich schnell plausible Relevanzmasken bestim men, mit welchen der Angreifer dann während des T rainings limitiert wird. In einer weiteren Ausgestaltung des Klassifikationssystems ist bei Verwendung der Akustiksensor im Innenraum des Fahrsystems angeordnet und der akustische Klassi fikator ist robust gegen gestörte Geräusche von Various methods are possible to generate the masks that express the relevance of the features. For example, a mask is generated by first generating an image of the same size as the features, using white noise with an SNR=0dB to randomize the values. The absolute value of each feature is then individually compared to the absolute value of the noise image at the location. If the feature's value is greater than that of the random noise, that feature is considered relevant. With this simple method, plausible relevance masks can be determined quickly, with which the attacker is then limited during the training. In a further refinement of the classification system, the acoustic sensor is arranged in the interior of the driving system when used, and the acoustic classifier is robust against disturbing noises from
• Insassen umfassend Gemüts-, Belastungs-, Gesundheitszustand, Alkohol, Drogen, Position, Orientierung, Identifikation, • Inmates including state of mind, stress, health, alcohol, drugs, position, orientation, identification,
• Situationen umfassend Interaktion der Insassen, • situations involving occupant interaction,
• Schadensgeräuschen am eigenen Fahrsystem umfassend Klappern, Quiet schen, Schleifen, Brandgeräusche, • Noise from damage to your own driving system, including rattling, squeaking, grinding, fire noise,
• Interaktion mit Funktionen des Fahrsystems umfassend Steuerungs-Komman dos an das Fahrsystem umfassend Ein- und Ausschalten von Systemen, Rou tenwahl, Musikwahl, Anrufwahl, Anfragen und • Interaction with functions of the driving system including control commands to the driving system including switching systems on and off, route selection, music selection, dialing calls, inquiries and
• Beeinflussung von akustisch angebunden Systemen umfassend Mobiltelefone im Innenraum. • Influencing of acoustically connected systems including mobile phones in the interior.
In einer weiteren Ausgestaltung des Klassifikationssystems ist bei Verwendung der Akustiksensor im Außenraum des Fahrsystems angeordnet und der akustische Klas sifikator ist robust gegen gestörte Geräusche von In a further refinement of the classification system, the acoustic sensor is arranged outside of the driving system when it is used, and the acoustic classifier is robust against disturbing noises from
• anderen Verkehrsteilnehmer umfassend andere Fahrsysteme, Personen, spielende Kinder, Rettungswagen im Einsatz, Tiere/Wildwechsel, • Other road users, including other driving systems, people, children playing, emergency vehicles in action, animals/wild animals,
• Situationen umfassend Unfall in Umgebung, umstürzende Bäume, fallende Äste, • Situations including accident in the surroundings, falling trees, falling branches,
• Notruf/Warnrufe durch Personen, • Emergency calls/warning calls by people,
• Witterungsgeräuschen umfassend nasse Straße, Schnee auf Straße, Hagel, starker Wind, Waldbrand, • weather noises including wet road, snow on road, hail, strong wind, forest fire,
• Schadensgeräuschen am eigenen oder fremden Fahrsystem umfassend Klap pern, Quietschen, Schleifen, • Damage noises on your own or someone else's driving system, including rattling, squeaking, grinding,
• Steuerungs-Kommandos an das Fahrsystem umfassend Öffnen von Koffer raum, Türen, Identifikation des Fahrers. • Control commands to the driving system including opening of trunk, doors, identification of the driver.
In einer Ausgestaltung des erfindungsgemäßen Klassifikationssystems umfasst der akustische Klassifikator ein künstliches neuronales Netzwerk für Geräusch-/Sprach- erkennung. Das künstliche neuronale Netzwerk umfasst Schichten von Faltungsnetzwerken, rekurrente Schichten, vollständig verbundene Schichten und/o der eine Encoder-Decoder Struktur. In one embodiment of the classification system according to the invention, the acoustic classifier includes an artificial neural network for noise/speech recognition. The artificial neural network includes layers of convolutional networks, recurrent layers, fully connected layers and/or an encoder-decoder structure.
Faltungsnetzwerke umfassen Filterschichten, auch Kernels genannt, um Dimensio nen von jeweiligen Eingangsdaten zu minimieren, und Diskretisierungsschichten, bei spielsweise Maxpooling-Kernels, um Dimensionen von jeweiligen Eingangsdaten weiter zu reduzieren. Mittels diesen Schichten werden neue Features aus den Ein gangsdaten extrahiert. Mittels rekurrenten Schichten, umfassend GRU, BGRU, LSTM und BLSTM, werden kontextuale Sequenzinformationen ausgewertet. Zuletzt können vollständig verbundene Schichten genutzt werden, um die finalen Wahrscheinlichkei ten per Ereignisklasse auszugeben. Eine Encoder-Decoder Struktur bestimmt einen encodierten Kontext/Zusammenfassung Vektor. Eine Encoder-Decoder Struktur ist für Spracherkennung vorteilhaft. Als weitere Bestandteile werden Batch-Normalisie- rungs oder Sequenz-Normalisierungs Schichten benutzt, um das Training zu be schleunigen und die Generalisierung zu erhöhen. Convolutional networks include filter layers, also called kernels, to minimize dimensions of respective input data, and discretization layers, for example maxpooling kernels, to further reduce dimensions of respective input data. Using these layers, new features are extracted from the input data. Contextual sequence information is evaluated by means of recurrent layers, comprising GRU, BGRU, LSTM and BLSTM. Finally, fully connected layers can be used to output the final probabilities per event class. An encoder-decoder structure defines an encoded context/summary vector. An encoder-decoder structure is advantageous for speech recognition. Batch normalization or sequence normalization layers are used as additional components to speed up training and increase generalization.
RASES ist unabhängig von der konkreten Netzarchitektur und den vorhandenen Hy perparametern, beispielsweise Regularisierung, Batchgröße, Anzahl Epochen, Akti vierungen, Klassen, weitere Datenaugmentation und/oder Dropout, und Optimie rungseinstellungen, beispielsweise Loss-Function, Optimierer, LR-Schedule. RASES is independent of the specific network architecture and the existing hyper parameters, such as regularization, batch size, number of epochs, activations, classes, further data augmentation and/or dropout, and optimization settings, such as loss function, optimizer, LR schedule.
Zusammenfassend wird durch die Erfindung ein Angriff auf einen akustischen Klassi fikator verhindert oder zumindest erschwert. Der akustische Klassifikator lässt sich daher nicht von einem Angreifer täuschen und funktioniert auch korrekt, wenn ein Störsignal vorliegt, welches den akustischen Klassifikator eigentlich täuschen soll. In summary, an attack on an acoustic classifier is prevented or at least made more difficult by the invention. The acoustic classifier can therefore not be deceived by an attacker and also works correctly when there is an interference signal which is actually intended to deceive the acoustic classifier.
Außerdem erhöht die Erfindung die Generalisierbarkeit und dadurch die Erkennungs raten unter jeglichen Störeinflüssen. Dadurch ist die Robustheit gegen natürliche Stö rungen, beispielsweise Straßenlärm oder Gespräche, verbessert. Dieses ist beson ders relevant, da akustische Klassifikatoren unter stark variierenden Umgebungen betrieben werden und eine hohe Robustheit gegen unbekannte Rauschtypen/Geräu sche erforderlich ist. Ermöglicht werden die Verbesserungen dadurch, dass durch RASES der akustische Klassifikator lernt, sich auf Features zu verlassen, welche repräsentativ für die rele vante akustische Energie in den Eingangsdaten sind. Dadurch fokussiert sich der akustische Klassifikator auf Features, welche aussagekräftig sind und gewinnt Infor mationen aus wichtigen Features. Verrauschte Features werden weniger benutzt, wodurch der akustische Klassifikator weniger sensitiv gegenüber verschiedenen Stö reinflüssen, natürlich und gegnerisch, ist. In addition, the invention increases the generalizability and thus the recognition rates under any interference. This improves the robustness against natural disturbances, such as street noise or conversations. This is particularly relevant as acoustic classifiers operate under widely varying environments and high robustness against unknown noise types/sounds is required. The improvements are made possible by the fact that RASES teaches the acoustic classifier to rely on features that are representative of the relevant acoustic energy in the input data. As a result, the acoustic classifier focuses on features that are meaningful and extracts information from important features. Noisy features are used less, making the acoustic classifier less sensitive to various perturbations, natural and adversarial.
Ein weiterer Vorteil der Erfindung ist, dass die Robustheitssteigerung durch eine syn thetische Augmentation der Trainingsdaten vorgenommen wird. Es ist nicht erforder lich, neue Daten in der Realität aufzunehmen, welche alle möglichen Störsignale ab bilden. Dies ist einerseits kaum möglich und andererseits erfordert es größeren Auf wand überhaupt eine möglichst repräsentative Menge an Rauschsignalen aufzuneh men. A further advantage of the invention is that the increase in robustness is carried out by a synthetic augmentation of the training data. It is not necessary to record new data in reality, which depict all possible interference signals. On the one hand, this is hardly possible and, on the other hand, it requires greater effort to record as representative a quantity of noise signals as possible.
Weiterhin kann eine Erweiterung von RASES auf Regressionsmodelle durchgeführt werden, welche beispielsweise zur Ortung/Distanzschätzung genutzt werden. Es ist möglich, dass ein Angreifer auch solche künstliche Intelligenzen täuschen kann. Mit hilfe von RASES ist eine einfache Robustheitssteigerung möglich, da auch in diesem Fall der originale Datensatz mit speziell generierten Störsignalen augmentiert werden kann. Das Konzept von RASES lässt sich daher auf alle akustischen künstlichen In telligenzen übertragen, welche an Hand von Trainingsdaten gelernt werden. Furthermore, RASES can be extended to include regression models, which are used, for example, for localization/distance estimation. It is possible that an attacker can also fool such artificial intelligences. A simple increase in robustness is possible with the help of RASES, since in this case the original data set can also be augmented with specially generated interference signals. The RASES concept can therefore be transferred to all acoustic artificial intelligences that are learned using training data.
Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen: The invention is illustrated in the following exemplary embodiments. Show it:
Fig. 1 eine schematische Darstellung eines normalen Trainingsverlaufs einer künstli chen Intelligenz, 1 shows a schematic representation of a normal training course of an artificial intelligence,
Fig. 2 ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens, 2 shows an exemplary embodiment of the method according to the invention,
Fig. 3 ein Ausführungsbeispiel von vorverarbeiteten Rohdaten, 3 shows an exemplary embodiment of preprocessed raw data,
Fig. 4 ein Ausführungsbeispiel einer Maskierung, Fig. 5 ein Ausführungsbeispiel eines akustischen Klassifikators zur Spracherkennung und 4 shows an exemplary embodiment of a mask, 5 shows an embodiment of an acoustic classifier for speech recognition and
Fig. 6 eine schematische Darstellung von beispielshaften Zugriffspunkten eines An greifers. 6 shows a schematic representation of exemplary access points of an attacker.
In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils rele vanten Bezugsteile hervorgehoben. In the figures, the same reference symbols denote the same or functionally similar reference parts. For the sake of clarity, only the relevant reference parts are highlighted in the individual figures.
Fig. 1 visualisiert einen normalen Trainingsverlaufs. Die vorhandenen Trainingsdaten werden einer künstlichen Intelligenz, beispielsweise einem künstlichen neuronalen Netzwerk, gezeigt und die Loss-Function wird minimiert. Dieser Prozess wird iterativ über mehrere Epochen der Trainingsdaten durchgeführt. Dadurch lernt die künstliche Intelligenz, die vorhandenen Daten korrekt zu klassifizieren. 1 visualizes a normal course of training. The existing training data is shown to an artificial intelligence, for example an artificial neural network, and the loss function is minimized. This process is performed iteratively over multiple epochs of the training data. As a result, the artificial intelligence learns to correctly classify the existing data.
Bei dem in Fig. 2 gezeigten Adversarial Training werden die originalen Trainingsda ten augmentiert. Dies geschieht durch einen Angreifer, welcher gezielt ein Störsignal S berechnet, welches dazu führt, dass der aktuelle akustische Klassifikator AK ge täuscht wird. Dazu wird ein iterativer Angriff benutzt. Zum Angriff des akustischen Klassifikators AK wird das erfindungsgemäße optimierungsbasierte Verfahren einge setzt. Dieses führt eine kombinierte Loss-Function ein, welche ausdrückt, wie gut das aktuelle Störsignal S den akustischen Klassifikator täuscht und wie hörbar dieses Störsignal S für den Menschen ist. Diese kombinierte Loss-Function wird dann mit Gradient Descent gelöst. Typischerweise wird zuerst der Fokus daraufgelegt, ein va lides Störsignal S zu finden, auch wenn dieses für einen Menschen deutlich hörbar ist. Im weiteren Verlauf des Optimierungsvorgangs wird dann die Stärke dieses Stör signals S reduziert, sodass am Ende ein valides und für den Menschen nicht erkenn bares Störsignal resultiert. Mit den resultierenden Störsignalen werden die originalen Daten erweitert. Die resultierenden augmentierten Trainingsdaten sind eine beliebige Kombination von originalen und angegriffenen/gestörten Daten. Auf diesen Daten wird dann eine normale Trainingsiteration durchgeführt, um die Loss-Function zu mi nimieren und dadurch den akustischen Klassifikator robust zu trainieren. In the case of the adversarial training shown in FIG. 2, the original training data are augmented. This is done by an attacker who specifically calculates an interference signal S, which leads to the current acoustic classifier AK being deceived. An iterative attack is used for this. The optimization-based method according to the invention is used to attack the acoustic classifier AK. This introduces a combined loss function, which expresses how well the current interference signal S deceives the acoustic classifier and how audible this interference signal S is for humans. This combined loss function is then solved using Gradient Descent. Typically, the focus is first on finding a valid interference signal S, even if this is clearly audible to a human. In the further course of the optimization process, the strength of this interference signal S is then reduced, resulting in a valid interference signal that is not recognizable to humans. The original data is expanded with the resulting interference signals. The resulting augmented training data is any combination of original and challenged/perturbed data. on this data a normal training iteration is then performed to minimize the loss function and thereby robustly train the acoustic classifier.
Auch andere Verfahren zur Generierung des Störsignals liegen im Rahmen der Erfin dung. Other methods for generating the interference signal are also within the scope of the inventions.
Die einzelnen Verfahrensschritte lauten: The individual process steps are as follows:
• V1 : Bereitstellen von ersten Eingangssignalen mittels eines Fahrsystems- Akustiksensors für den akustischen Klassifikator AK, • V1: Provision of first input signals by means of a driving system acoustic sensor for the acoustic classifier AK,
• V2: Erhalten von Störungen S in Abhängigkeit der ersten Eingangssignale zur Täuschungserkennung, -Vermeidung und/oder -schütz und/oder zur Verbesse rung einer Erkennungs- und/oder Klassifikationsleistung des akustischen Klas sifikators AK, wobei eine Hörbarkeit der Störungen reduziert wird, • V2: Obtaining disturbances S as a function of the first input signals for deception detection, avoidance and/or protection and/or for improving a recognition and/or classification performance of the acoustic classifier AK, the audibility of the disturbances being reduced,
• V3: Erhalten von zweiten Eingangsdaten aus einer Addition der ersten Ein gangsdaten und der Störungen , • V3: obtaining second input data from an addition of the first input data and the disturbances,
• V4: Eingeben von Kombinationen aus den ersten und den zweiten Eingangs daten in den akustischen Klassifikator AK und • V4: Entering combinations of the first and the second input data into the acoustic classifier AK and
• V5: maschinelles Lernen der Kombinationen. • V5: machine learning of the combinations.
Fig. 3 zeigt eine beispielhafte Transformation im Zeit-Frequenz-Bereich des Satzes: „The seven units to be offered for sale have a work force of about twenty thousand.“ Fig. 3 zeigt beispielhaft eine Darstellung von FBank Features. Mit Fourier Transfor mation wird ein Signal im Zeitbereich in seine Frequenzen zerlegt. Die akustischen Ereignisse werden in Zeitrahmen separiert und auf jeden Zeitrahmen wird eine Fou rier Transformation angewendet. Anschließend wird die Frequenzachse logarith- misch und die Amplituden in Dezibel dargestellt. Es resultiert ein Spektrogramm. Um ein wie in Fig. 3 gezeigtes Mel Spektrogramm zu erhalten, wird die Frequenz Skala f des Spektrogramms auf Mel Skala m transformiert beispielsweise gemäß FIG. 3 shows an exemplary transformation in the time-frequency domain of the sentence: "The seven units to be offered for sale have a work force of about twenty thousand." FIG. 3 shows an exemplary representation of FBank features. With Fourier transformation, a signal in the time domain is broken down into its frequencies. The acoustic events are separated into time frames and a Fourier transform is applied to each time frame. The frequency axis is then displayed logarithmically and the amplitudes in decibels. A spectrogram results. In order to obtain a Mel spectrogram as shown in Fig. 3, the frequency scale f of the spectrogram is transformed to Mel scale m according to, for example,
Fig. 4 zeigt eine erfindungsgemäße Maskierung des Mel Spektrogramms aus Fig. 3, wobei die Daten aus Fig. 3 mit einem Rauschbild verglichen wurden. Fig. 5 zeigt den Aufbau eines Systems zur Spracherkennung. Das Zeitsignal x wird vorverarbeitet, sodass eine Zeit-Frequenz Darstellung F resultiert. Diese wird als Ein gangsdaten für ein akustisches Modell benutzt. Dieses Modell wird datengetrieben trainiert und durch tiefe künstliche neuronale Netzwerke, DNN genannt, oder einen Mix aus DNN und Hidden Markov Modellen repräsentiert. Es gibt eine Sequenz von Wahrscheinlichkeiten von akustischen Einheiten umfassend Buchstaben, Phoneme, Wortteile aus, welche zu den resultierenden Gesamtwörtern und der gesuchten Wort sequenz zusammengesetzt wird. Die Netzarchitektur des akustischen Modells um fasst Schichten eines Faltungsnetzwerks, vollständig verbundene Schichten und re kurrente Schichten. Lediglich die Anzahl der Ausgangsklassen ist typischerweise er heblich größer, um alle relevanten akustischen Einheiten abzudecken, beispielsweise 80-2000. Auch werden spezielle Löss Functions, beispielsweise Connectionist Tem poral Classification, siehe https://www.cs.toronto.edu/~graves/icml_2006.pdf, be nutzt. FIG. 4 shows a masking according to the invention of the mel spectrogram from FIG. 3, the data from FIG. 3 having been compared with a noise image. 5 shows the structure of a system for speech recognition. The time signal x is pre-processed so that a time-frequency representation F results. This is used as input data for an acoustic model. This model is trained data-driven and represented by deep artificial neural networks, called DNN, or a mix of DNN and Hidden Markov Models. It outputs a sequence of probabilities of acoustic units comprising letters, phonemes, parts of words, which is combined to form the resulting total words and the word sequence being searched for. The network architecture of the acoustic model includes layers of a convolutional network, fully connected layers and recurrent layers. Only the number of output classes is typically significantly larger in order to cover all relevant acoustic units, for example 80-2000. Special loess functions, such as Connectionist Temporal Classification, see https://www.cs.toronto.edu/~graves/icml_2006.pdf, are also used.
Die Zusammensetzung wird mithilfe eines Dekoders durchgeführt, welcher die wahr scheinlichste Folge durch die Sequenz der Wahrscheinlichkeitsvektoren der akusti schen Einheiten sucht. Häufig wird ein Beam Search Decoder benutzt mit verschie denen Optionen, beispielsweise hinsichtlich Beam Breite und/oder Gewichtung. Wei terhin können zusätzliche a priori Informationen über die Formalismen der bearbeite ten Sprache benutzt werden. Dazu gehört ein Lexikon, welches legale Wörter bein haltet und ein Sprachmodell, welches grammatikalische Abhängigkeiten, umfassend Auftrittswahrscheinlichkeiten des nächsten Wortes in Abhängigkeit der vergangenen, ausdrückt. Das Sprachmodell kann dabei wieder durch eine eigene künstliche Intelli genz dargestellt werden oder durch einfache Wahrscheinlichkeitstabellen und manu ell gebildeten Entscheidungsregeln. The composition is performed using a decoder, which searches for the most probable sequence through the sequence of probability vectors of the acoustic units. A beam search decoder is often used with various options, for example with regard to beam width and/or weighting. Furthermore, additional a priori information about the formalisms of the processed language can be used. This includes a lexicon that contains legal words and a language model that expresses grammatical dependencies, including probabilities of the next word depending on the previous one. The language model can be represented by its own artificial intelligence or by simple probability tables and manually formed decision rules.
Die Erfindung lässt sich nicht nur auf Systeme anwenden, welche diese Struktur be nutzen, sondern auf alle Spracherkenner/Geräuscherkenner, welche aus Daten ge lernt werden. Folglich gilt RASES auch in diesem Fall unabhängig von verschiedenen Hyperparametern der erlernten künstlichen Intelligenz. Im Zugriffspunkt A in Fig. 6 greift der Angreifer vor einer Vorverarbeitung der Rohda ten an. Dies wird erfindungsgemäß dadurch simuliert, dass das Störsignal S auf die originalen Eingangsdaten aufaddiert wird. Im Zugriffspunkt B greift der Angreifer nach der Vorverarbeitung an, beispielsweise wird das Störsignal auf eine Repräsentation im Zeit-Frequenz-Bereich aufaddiert. The invention can be applied not only to systems that use this structure, but to all speech recognizers/noise recognizers that are learned from data. Consequently, RASES also applies in this case independently of various hyperparameters of the learned artificial intelligence. In access point A in FIG. 6, the attacker attacks before pre-processing the raw data. According to the invention, this is simulated in that the interference signal S is added to the original input data. At access point B, the attacker attacks after preprocessing, for example the interference signal is added to a representation in the time-frequency domain.
Erfindungsgemäß kann der Angreifer während des Trainings die Störung auch auf je den Punkt in der Vorverarbeitung, also zum Beispiel zwischen Abs und FBANK, ad dieren. According to the invention, the attacker can also add the disruption to each point in the preprocessing, ie between Abs and FBANK, for example, during training.
Bezuaszeichen Reference sign
V1 -V5 Verfahrensschritte AK akustischer Klassifikator S Störung x Zeitsignal V1 -V5 method steps AK acoustic classifier S disturbance x time signal
F Zeit-Frequenz Darstellung F time-frequency representation
A,B Zugriffspunkte eines Angreifers A,B Access points of an attacker

Claims

Patentansprüche patent claims
1. Computerimplementiertes Verfahren zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators (AK), wobei ein Fahrsystem in Abhängigkeit von Klassifizierungen und/oder Lokalisierungen des akustischen Klassifikators (AK) auto matisiert gesteuert wird, das Verfahren umfassend die Schritte 1. Computer-implemented method for machine learning of a robustness of an acoustic classifier (AK), a driving system depending on classifications and/or localizations of the acoustic classifier (AK) being automatically controlled, the method comprising the steps
• Bereitstellen von ersten Eingangssignalen mittels eines Fahrsystems-Akus- tiksensors für den akustischen Klassifikator (AK) (V1 ), • Provision of first input signals by means of a driving system acoustic sensor for the acoustic classifier (AK) (V1),
• Erhalten von Störungen (S) in Abhängigkeit der ersten Eingangssignale zur Täuschungserkennung, -Vermeidung und/oder -schütz und/oder zur Verbesse rung einer Erkennungs- und/oder Klassifikationsleistung des akustischen Klas sifikators (AK), wobei eine Hörbarkeit der Störungen reduziert wird (V2),• Obtaining disturbances (S) as a function of the first input signals for deception detection, avoidance and/or protection and/or for improving a recognition and/or classification performance of the acoustic classifier (AK), the audibility of the disturbances being reduced (V2),
• Erhalten von zweiten Eingangsdaten aus einer Addition der ersten Eingangs daten und der Störungen (V3), • obtaining second input data from an addition of the first input data and the disturbances (V3),
• Eingeben von Kombinationen aus den ersten und den zweiten Eingangsdaten in den akustischen Klassifikator (AK) (V4) und • inputting combinations of the first and the second input data into the acoustic classifier (AK) (V4) and
• maschinelles Lernen der Kombinationen (V5), wobei der akustische Klassifikator (AK) lernt, akustische Ereignisse zu klassifizieren und/oder lokalisieren und dabei robust gegen die Störungen wird. • machine learning of the combinations (V5), whereby the acoustic classifier (AK) learns to classify and/or localize acoustic events and thereby becomes robust against the disturbances.
2. Verfahren nach Anspruch 1 , wobei zum Erhalten der Störungen und/oder der Re duzierung der Hörbarkeit der Störungen eine Verlustfunktion unter Einhaltung der Bedingung, dass die Störungen kleiner als eine vorgegebene Störung sind, minimiert wird, wobei die Verlustfunktion als ersten Teil die Störungen und als zweiten Teil eine mit den Störungen erweiterte Verlustfunktion des akustischen Klassifikators (AK) um fasst, wobei die erweiterte Verlustfunktion von einer von einem Störer beabsichtigten Klassifizierung des akustischen Klassifikators (AK) minimiert wird. 2. The method as claimed in claim 1, wherein, in order to obtain the interference and/or reduce the audibility of the interference, a loss function is minimized in compliance with the condition that the interference is smaller than a specified interference, the loss function being the interference as the first part and as a second part, a loss function of the acoustic classifier (AK) expanded with the disturbances, wherein the expanded loss function is minimized by a classification of the acoustic classifier (AK) intended by a disturber.
3. Verfahren nach Anspruch 1 oder 2, wobei die ersten Eingangsdaten Rohdaten des Fahrsystem-Akustiksensors, gefilterte Rohdaten und/oder eine Repräsentation der Rohdaten in einem Zeit-Frequenz-Bereich umfassen. 3. The method according to claim 1 or 2, wherein the first input data comprises raw data from the driving system acoustic sensor, filtered raw data and/or a representation of the raw data in a time-frequency range.
4. Verfahren nach einem der vorangehenden Ansprüche, wobei die ersten Eingangs daten eine Repräsentation von Rohdaten des Fahrsystem-Akustiksensors in einem Zeit-Frequenz-Bereich umfassen und durch Maskierung die Störungen auf Frequen zen mit geringer Energie addiert werden. 4. The method according to any one of the preceding claims, wherein the first input data include a representation of raw data of the driving system acoustic sensor in a time-frequency range and the disturbances are added to Frequ zen with low energy by masking.
5. Computerprogramm zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators (AK) umfassend Programmbefehle, die bewirken, dass ein Computer ein Verfahren nach einem der Ansprüche 1 bis 4 ausführt, wenn das Programm auf dem Computer läuft. 5. Computer program for machine learning of a robustness of an acoustic classifier (AK) comprising program instructions that cause a computer to execute a method according to any one of claims 1 to 4 when the program runs on the computer.
6. Akustisches Klassifikationssystem für automatisiert betreibbare Fahrsysteme zum Klassifizieren und/oder Lokalisieren von akustischen Ereignissen im Außen- und/oder Innenraum des Fahrsystems umfassend einen Akustiksensor und einen akustischen Klassifikator (AK), wobei der akustische Klassifikator (AK) nach einem Verfahren der vorangehenden Ansprüche gelernt hat, akustische Ereignisse robust gegen Störun gen zu klassifizieren und/oder lokalisieren. 6. Acoustic classification system for automated driving systems for classifying and / or localizing acoustic events in the exterior and / or interior of the driving system comprising an acoustic sensor and an acoustic classifier (AK), wherein the acoustic classifier (AK) according to a method of the preceding claims has learned to classify and/or localize acoustic events robustly against disturbances.
7. Klassifikationssystem nach Anspruch 6, wobei bei Verwendung der Akustiksensor im Innenraum des Fahrsystems angeordnet ist und der akustische Klassifikator ro bust gegen gestörte Geräusche von 7. Classification system according to claim 6, wherein when using the acoustic sensor is arranged in the interior of the driving system and the acoustic classifier ro bust against disturbed noises
• Insassen umfassend Gemüts-, Belastungs-, Gesundheitszustand, Alkohol, Drogen, Position, Orientierung, Identifikation, • Inmates including state of mind, stress, health, alcohol, drugs, position, orientation, identification,
• Situationen umfassend Interaktion der Insassen, • situations involving occupant interaction,
• Schadensgeräuschen am eigenen Fahrsystem umfassend Klappern, Quiet schen, Schleifen, Brandgeräusche, • Noise from damage to your own driving system, including rattling, squeaking, grinding, fire noise,
• Interaktion mit Funktionen des Fahrsystems umfassend Steuerungs-Komman dos an das Fahrsystem umfassend Ein- und Ausschalten von Systemen, Rou tenwahl, Musikwahl, Anrufwahl, Anfragen und • Interaction with functions of the driving system including control commands to the driving system including switching systems on and off, route selection, music selection, dialing calls, inquiries and
• Beeinflussung von akustisch angebunden Systemen umfassend Mobiltelefone im Innenraum ist. • Influencing of acoustically connected systems including mobile phones in the interior.
8. Klassifikationssystem nach Anspruch 6, wobei bei Verwendung der Akustiksensor im Außenraum des Fahrsystems angeordnet ist und der akustische Klassifikator ro bust gegen gestörte Geräusche von 8. Classification system according to claim 6, wherein when using the acoustic sensor is arranged in the exterior of the driving system and the acoustic classifier ro bust against disturbing noises
• anderen Verkehrsteilnehmer umfassend andere Fahrsysteme, Personen, spielende Kinder, Rettungswagen im Einsatz, Tiere/Wildwechsel, • Other road users, including other driving systems, people, children playing, emergency vehicles in action, animals/wild animals,
• Situationen umfassend Unfall in Umgebung, umstürzende Bäume, fallende Äste, • Situations including accident in the surroundings, falling trees, falling branches,
• Notruf/Warnrufe durch Personen, • Emergency calls/warning calls by people,
• Witterungsgeräuschen umfassend nasse Straße, Schnee auf Straße, Hagel, starker Wind, Waldbrand, • weather noises including wet road, snow on road, hail, strong wind, forest fire,
• Schadensgeräuschen am eigenen oder fremden Fahrsystem umfassend Klap pern, Quietschen, Schleifen, • Damage noises on your own or someone else's driving system, including rattling, squeaking, grinding,
• Steuerungs-Kommandos an das Fahrsystem umfassend Öffnen von Koffer raum, Türen, Identifikation des Fahrers ist. • Control commands to the driving system including opening of trunk, doors, identification of the driver.
9. Klassifikationssystem nach einem der Ansprüche 6 bis 8, wobei der akustische Klassifikator (AK) ein künstliches neuronales Netzwerk für Geräusch-/Spracherken- nung umfasst und das künstliche neuronale Netzwerk Schichten von Faltungsnetz werken, rekurrente Schichten, vollständig verbundene Schichten und/oder eine En coder-Decoder Struktur umfasst. 9. Classification system according to one of claims 6 to 8, wherein the acoustic classifier (AK) comprises an artificial neural network for noise/speech recognition and the artificial neural network comprises layers of convolutional networks, recurrent layers, fully connected layers and/or a En coder-decoder structure includes.
10. Automatisiert betreibbares Fahrsystem umfassend ein akustisches Klassifikati onssystem nach einem der Ansprüche 6 bis 9, ein Steuergerät für automatisiertes Fahren und Aktuatoren für Längs- und/oder Querführung des Fahrsystems, wobei das Steuergerät in Abhängigkeit von Klassifizierungen und/oder Lokalisierungen von akustischen Ereignissen des akustischen Klassifikationssystems Regelungs- und/o der Steuerungssignale bestimmt und diese den Aktuatoren bereitstellt, wobei Störun gen in Form von Signalen eines im Außenraum des Fahrsystems angeordneten Laut sprechers, eines Trägersignals durch einen im Innenraum des Fahrsystems angeord neten Lautsprecher und/oder von Geräusch erzeugenden Fahrsystemteilen auf erste Eingangsdaten des akustischen Klassifikators (AK) addiert werden. 10. Driving system that can be operated automatically, comprising an acoustic classification system according to one of Claims 6 to 9, a control unit for automated driving and actuators for longitudinal and/or lateral guidance of the driving system, the control unit depending on classifications and/or localizations of acoustic events of the acoustic classification system determines regulation and/or control signals and makes these available to the actuators, with disturbances in the form of signals from a loudspeaker arranged outside the driving system, a carrier signal from a loudspeaker arranged inside the driving system and/or from driving system parts that produce noise are added to the first input data of the acoustic classifier (AK).
EP21742385.4A 2020-07-27 2021-07-12 Computer-implemented method and computer program for machine-learning a robustness of an acoustic classifier, acoustic classification system for automatically operable driving systems, and automatically operable driving system Pending EP4189673A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020209446.2A DE102020209446A1 (en) 2020-07-27 2020-07-27 Computer-implemented method and computer program for machine learning of a robustness of an acoustic classifier, acoustic classification system for driving systems that can be operated in an automated manner and driving system that can be operated in an automated manner
PCT/EP2021/069321 WO2022023008A1 (en) 2020-07-27 2021-07-12 Computer-implemented method and computer program for machine-learning a robustness of an acoustic classifier, acoustic classification system for automatically operable driving systems, and automatically operable driving system

Publications (1)

Publication Number Publication Date
EP4189673A1 true EP4189673A1 (en) 2023-06-07

Family

ID=76943009

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21742385.4A Pending EP4189673A1 (en) 2020-07-27 2021-07-12 Computer-implemented method and computer program for machine-learning a robustness of an acoustic classifier, acoustic classification system for automatically operable driving systems, and automatically operable driving system

Country Status (3)

Country Link
EP (1) EP4189673A1 (en)
DE (1) DE102020209446A1 (en)
WO (1) WO2022023008A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT525938B1 (en) * 2022-02-24 2024-08-15 Avl List Gmbh Test bench system for testing a driver assistance system with an audible sound sensor
CN117993307B (en) * 2024-04-07 2024-06-14 中国海洋大学 Earth system simulation result consistency assessment method based on deep learning
CN118366472A (en) * 2024-04-26 2024-07-19 东莞野松电子工业有限公司 Audio multi-mode classification method, system and computer equipment

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018210489B4 (en) * 2018-06-27 2022-02-24 Zf Friedrichshafen Ag Method for mounting a housing for acoustic sensors of a vehicle for detecting sound waves of an acoustic signal outside the vehicle on a vehicle roof at a position of a roof antenna
US11231905B2 (en) * 2019-03-27 2022-01-25 Intel Corporation Vehicle with external audio speaker and microphone
DE102020205825A1 (en) 2020-05-08 2021-11-11 Zf Friedrichshafen Ag System for deception detection, prevention and protection of ADAS functions

Also Published As

Publication number Publication date
WO2022023008A1 (en) 2022-02-03
DE102020209446A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
EP4189673A1 (en) Computer-implemented method and computer program for machine-learning a robustness of an acoustic classifier, acoustic classification system for automatically operable driving systems, and automatically operable driving system
DE102020205786B4 (en) SPEECH RECOGNITION USING NLU (NATURAL LANGUAGE UNDERSTANDING) RELATED KNOWLEDGE OF DEEP FORWARD NEURAL NETWORKS
DE112015004785B4 (en) Method for converting a noisy signal into an enhanced audio signal
DE60123161T2 (en) Method and apparatus for speech recognition in a variable noise environment
EP4067937A1 (en) Method for detecting obstacle objects and for predicting the change in position of known obstacle objects on the basis of signals from several sensors and for compression and decompression of sensor signals used for the above purposes
DE112017004397T5 (en) System and method for classifying hybrid speech recognition results with neural networks
DE102014217681B4 (en) Siren signal source detection, detection and localization
DE102017103374A1 (en) COLLISION PREVENTION USING ACOUSTIC DATA
DE102015109832A1 (en) Object classification for vehicle radar systems
DE102019218259A1 (en) Ultrasonic attack detection using deep learning
DE112019000340T5 (en) EPISTEMIC AND ALLEATORY DEEP PLASTICITY BASED ON SOUND FEEDBACK
DE102005050577A1 (en) Neuronal network testing method for person motor vehicle, involves outputting positive overall-test signal after each test signal-combination is created, where no partial-signal is stored for given set of test signal-combinations
DE102020116965A1 (en) HIERARCHICAL CODER FOR LANGUAGE CONVERSION SYSTEM
DE102019106190B4 (en) Decompression of ultrasonic signals compressed using signal object class based approximation
DE60133537T2 (en) AUTOMATIC UMTRAINING OF A LANGUAGE RECOGNITION SYSTEM
DE102017209585A1 (en) SYSTEM AND METHOD FOR SELECTIVELY GAINING AN ACOUSTIC SIGNAL
DE102020131657A1 (en) Diagnosing a perceptual system based on scene continuity
DE102020128978A1 (en) TRAINING DEEP NEURAL NETWORKS WITH SYNTHETIC IMAGES
DE102019205543A1 (en) Method for classifying digital audio data that follow one another in time
DE102014207437A1 (en) Speech recognition with a plurality of microphones
CN107368840A (en) A kind of underwater manoeuvre Small object recognition methods based on MFCC and SVMs
DE102019218058A1 (en) Device and method for recognizing reversing maneuvers
DE102021203815A1 (en) Sound processing apparatus, system and method
DE102018117205A1 (en) Method for informing an occupant of a motor vehicle about a traffic situation using voice information; Control means; Driver assistance system; as well as computer program product
Denton et al. Handling background noise in neural speech generation

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230127

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)