EP3945729A1 - System and method for headphone equalization and space adaptation for binaural reproduction in augmented reality - Google Patents

System and method for headphone equalization and space adaptation for binaural reproduction in augmented reality Download PDF

Info

Publication number
EP3945729A1
EP3945729A1 EP20188945.8A EP20188945A EP3945729A1 EP 3945729 A1 EP3945729 A1 EP 3945729A1 EP 20188945 A EP20188945 A EP 20188945A EP 3945729 A1 EP3945729 A1 EP 3945729A1
Authority
EP
European Patent Office
Prior art keywords
audio
room
binaural
sound
impulse responses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP20188945.8A
Other languages
German (de)
French (fr)
Inventor
Thomas Sporer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to EP20188945.8A priority Critical patent/EP3945729A1/en
Priority to EP21751796.0A priority patent/EP4189974A2/en
Priority to PCT/EP2021/071151 priority patent/WO2022023417A2/en
Priority to JP2023506248A priority patent/JP2023536270A/en
Publication of EP3945729A1 publication Critical patent/EP3945729A1/en
Priority to US18/158,724 priority patent/US20230164509A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/41Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • H04R25/507Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Definitions

  • the present invention relates to headphone equalization and spatial adaptation of binaural playback in augmented reality (AR).
  • AR augmented reality
  • SH Selective Hearing
  • Time and level differences alone are not sufficient to determine the exact position of a sound source:
  • the locations with the same time and level difference are on a hyperboloid.
  • the resulting ambiguity in localization is called cone-of-confusion.
  • every sound source is reflected by the boundary surfaces.
  • Each of these so-called mirror sources lies on another hyperboloid.
  • the human sense of hearing combines the information about the direct sound and the associated reflections into one auditory event and thus resolves the ambiguity of the cone-of-confusion.
  • the reflections associated with a sound source increase the perceived loudness of the sound source.
  • Assisted hearing is an umbrella term that includes virtual, augmented, and SH applications.
  • Modern, so-called binaural hearing aids couple the correction factors of the two hearing aids. They often have several microphones, but usually only the microphone with the "most speech-like" signal is selected, but no explicit beamforming is calculated. In complex listening situations, desired and undesired sound signals are amplified in the same way, and concentration on desired sound components is therefore not encouraged.
  • Audio analysis has a number of specific challenges that need to be addressed. Due to their complexity, deep learning models are very data-hungry. Compared to the research areas of image processing and speech processing, only relatively small data sets are currently available for audio processing. The largest data set is the AudioSet data set from Google [83] with around 2 million sound samples and 632 different sound event classes, although most of the data sets used in research are much smaller. This small amount of training data can be addressed, for example, with transfer learning (transfer learning), in which a model pre-trained on a large data set is then fine-tuned to a smaller data set with new classes intended for the application (fine tuning) [77 ]. Furthermore, methods from partially supervised learning (semi-supervised learning) are used in order to include the generally available large amount of non-annotated audio data in the training.
  • transfer learning transfer learning
  • fine tuning new classes intended for the application
  • Real-time capability of the sound source detection algorithms is of elementary importance in the scenario of use planned in this project within a headphone.
  • a trade-off between the complexity of the neural network and the maximum possible number of arithmetic operations on the underlying computing platform must be carried out. Even if a sound event has a longer duration, it still has to be recognized as quickly as possible in order to start an appropriate source separation.
  • Source separation algorithms usually leave behind artifacts such as distortion and crosstalk between the sources [5], which are generally perceived as annoying by the listener. However, such artefacts can be partially masked and thus reduced by mixing the tracks again (re-mixing) [10].
  • Headphones have a significant influence on the acoustic perception of the environment. Depending on the design of the headphones, the sound incidence on the way to the ears is attenuated to different degrees. In-ear headphones completely block the ear canals [85]. The closed headphones enclosing the auricle also acoustically cut the listener off from the outside environment. Open and semi-open headphones, on the other hand, still let sound through completely or partially [84]. In many everyday applications, it is desirable for headphones to seal off unwanted ambient noise more than their design allows.
  • ANC Active Noise Control
  • the first products allow the microphone signals to also be passed through to the headphones in order to reduce passive isolation.
  • Sennheiser offers the function with the AMBEO headset [88] and Bragi in the product "The Dash Pro".
  • this option is just the beginning.
  • this function is to be greatly expanded so that not only can the full ambient noise be switched on or off, but individual signal components (such as only speech or alarm signals) can be made exclusively audible if required.
  • the French company Orosound allows the wearer of the "Tilde Earphones" [89] headset to adjust the strength of the ANC with a slider.
  • the voice of a conversation partner can also be passed through during activated ANCs. However, this only works if the interlocutor is in a 60° cone in front of you. A direction-independent adjustment is not possible.
  • a method which is designed to generate a listening environment for a user.
  • the method includes receiving a signal representing an ambient listening environment of the user, further processing the signal using a microprocessor to identify at least one of a plurality of sound types in the ambient listening environment.
  • the method further includes receiving user preferences for each of the plurality of sound types, modifying the signal for each sound type in the ambient listening environment, and outputting the modified signal to at least one speaker to create a listening environment for the user.
  • a major problem is headphone equalization and room adaptation of binaural playback in augmented reality (AR):
  • AR augmented reality
  • a human listener wears acoustically (partially) transparent headphones and hears his surroundings through them.
  • additional sound sources are played back via the headphones, which are embedded in the real environment in such a way that it is not possible for the listener to distinguish between the real sound scene and the additional sound.
  • tracking is used to determine in which direction the head is turned and where the listener is in the room (six degrees of freedom (6DoF)). It is known from research that good results (i.e. externalization and correct localization) are achieved when the room acoustics of the recording and playback rooms match or when the recording is adapted to the playback room.
  • 6DoF six degrees of freedom
  • An exemplary solution can be implemented as follows: In a first step, the BRIR is measured without headphones, either individually or with an artificial head using a probe microphone.
  • the spatial properties of the recording room are analyzed based on the measured BRIR.
  • the headphone transfer function is then measured individually or with an artificial head using a probe microphone at the same location. This determines an equalization function.
  • the room properties of the playback room can be measured, the acoustic properties of the playback room can be analyzed and the BRIR can be adapted to the playback room.
  • a source to be augmented is convolved with the position-correct, optionally adjusted, BRIR in order to obtain two raw channels. Convolve the raw channels with the equalization function to get the headphone signals.
  • the headphone signals are reproduced via headphones.
  • a system comprises an analyzer for determining a plurality of binaural room impulse responses and a loudspeaker signal generator for generating at least two loudspeaker signals dependent on the plurality of binaural room impulse responses and dependent on the audio source signal from at least one audio source.
  • the analyzer is designed to determine the plurality of binaural spatial impulse responses in such a way that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from the wearing of headphones by a user.
  • the plurality of binaural spatial impulse responses are determined such that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from a user wearing a headphone.
  • a computer program according to an embodiment of the invention is provided with a program code for carrying out the method described above.
  • Figure 1 shows a system according to one embodiment.
  • the system includes an analyzer 152 for determining a plurality of binaural spatial impulse responses.
  • the system comprises a loudspeaker signal generator 154 for generating at least two loudspeaker signals depending on the plurality of binaural room impulse responses and depending on the audio source signal from at least one audio source.
  • the analyzer 152 is configured to determine the plurality of binaural spatial impulse responses such that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from a user wearing headphones.
  • the system can include the headphones, for example, it being possible for the headphones to be designed, for example, to output the at least two loudspeaker signals.
  • the headphone can comprise e.g. two headphone capsules and e.g. at least one microphone for measuring sound in each of the two headphone capsules, wherein in each of the two headphone capsules e.g.
  • the analyzer 152 can be designed, for example, to carry out the determination of the plurality of binaural room impulse responses using the measurement of the at least one microphone in each of the two headphone capsules.
  • Headphones intended for binaural playback always have at least two headphone capsules (one each for the left and right ear), although more than two capsules (e.g. for different frequency ranges) can also be provided.
  • the at least one microphone in each of the two headphone capsules can be configured, for example, to generate one or more recordings of a sound situation in a playback room before the start of playback of the at least two loudspeaker signals through the headphones, from the one or more recordings an estimate of a To determine the raw audio signal of at least one audio source and to determine a binaural room impulse response of the plurality of binaural room impulse responses for the audio source in the playback room.
  • the at least one microphone in each of the two headphone capsules can be designed, for example, to generate one or more additional recordings of the sound situation in the reproduction room during the playback of the at least two loudspeaker signals through the headphones, of which one or more additional recordings an augmented one subtract signal and determine the estimate of the raw audio signal from one or more audio sources and determine the binaural room impulse response of the plurality of binaural room impulse responses for the audio source in the playback room.
  • the analyzer 152 may be configured to determine acoustic space properties of the playback room and to adjust the plurality of binaural room impulse responses depending on the acoustic space properties.
  • the at least one microphone can be arranged, for example, in each of the two headphone capsules for measuring the sound close to the entrance of the ear canal.
  • the system can include, for example, one or more further microphones outside the two headphone capsules for measuring the sound situation in the reproduction room.
  • the headphone can, for example, comprise a bracket, with at least one of the one or more further microphones being arranged, for example, on the bracket.
  • the speaker signal generator 154 may be configured to generate the at least two speaker signals by convolving each of the plurality of binaural room impulse responses with an audio source signal of a plurality of one or more audio source signals.
  • the analyzer 152 can be configured, for example, to determine at least one of the plurality of binaural spatial impulse responses (or several or all binaural spatial impulse responses) as a function of a movement of the headphones.
  • the system can include a sensor in order to determine a movement of the headphones.
  • the sensor may be a sensor, such as an accelerometer, having at least 3 DoF (three degrees of freedom) to detect head rotations.
  • a 6 DoF sensor (English: six degrees of freedom sensor) can be used.
  • Certain embodiments of the invention address the technical challenge that it is often too loud in a listening environment, certain noises are annoying in the listening environment, and selective listening is desired.
  • the human brain itself is capable of selective hearing, but intelligent technical aids can significantly improve selective hearing. Just as glasses help many people in today's life to perceive their surroundings better, there are hearing aids for hearing, but in many situations people with normal hearing can also benefit from the support of intelligent systems.
  • hearing aids the (acoustic) environment must be analyzed by the technical system, individual sound sources must be identified in order to be able to treat them separately.
  • the BRIR is measured with headphones either individually or with headphones using a probe microphone.
  • the spatial properties of the recording room are analyzed based on the measured BRIR.
  • At least one built-in microphone in each shell records the real sound situation in the playback room before playback begins. From these recordings, an estimate of the raw audio signal from one or more sources is determined and the respective BRIR of the sound source/audio source in the playback room is determined. The acoustic room properties of the playback room are determined from this estimate and the BRIR of the recording room is thus adjusted.
  • At least one built-in microphone in each shell records the real sound situation in the playback room during playback.
  • the augmented signal is first subtracted from these recordings, then an estimate of the raw audio signal from one or more sources is determined and the respective BRIR of the sound source/audio source in the playback room is determined.
  • the acoustic room properties of the playback room are determined from this estimate and the BRIR of the recording room is thus adjusted.
  • a source to be augmented is convolved with the position-correct, optionally adjusted, BRIR in order to obtain the headphone signals.
  • the headphone signals are reproduced via headphones.
  • At least one microphone is placed in each headphone capsule to measure sound near the entrance of the ear canal.
  • additional microphones are optionally arranged on the outside of the headphones, possibly also on top of the bracket, for measuring and analyzing the sound situation in the playback room.
  • sound from natural and augmented sources is realized to be the same.
  • Embodiments realize that no measurement of headphone characteristics is required.
  • Embodiments thus provide concepts for measuring the spatial properties of the rendering space.
  • Some embodiments provide a seed and (post) optimization of the spatial adaptation.
  • the concepts provided also work if the room acoustics of the playback room change, e.g. if the listener changes to another room.
  • embodiments are based on installing different techniques for hearing assistance in technical systems and combining them in such a way that an improvement in the quality of sound and quality of life (e.g. desired sound is louder, undesired sound is quieter, better speech intelligibility) both for people with normal hearing and for people with damage to the hearing is achieved.
  • quality of sound and quality of life e.g. desired sound is louder, undesired sound is quieter, better speech intelligibility
  • FIG. 12 shows a system for supporting selective hearing according to an embodiment.
  • the system includes a detector 110 for detecting an audio source signal portion of one or more audio sources using at least two received microphone signals of a listening environment.
  • the system also includes a position determiner 120 for assigning position information to each of the one or more audio sources.
  • the system also includes an audio type classifier 130 for assigning an audio signal type to the audio source signal portion of each of the one or more audio sources.
  • the system also includes a signal component modifier 140 for changing the audio source signal component of at least one audio source of the one or more audio sources depending on the audio signal type of the audio source signal component of the at least one audio source in order to obtain a modified audio signal component of the at least one audio source.
  • a signal component modifier 140 for changing the audio source signal component of at least one audio source of the one or more audio sources depending on the audio signal type of the audio source signal component of the at least one audio source in order to obtain a modified audio signal component of the at least one audio source.
  • the analyzer 152 and the speaker signal generator 154 of 1 together form a signal generator 150.
  • the analyzer 152 of the signal generator 150 is designed to generate the plurality of binaural spatial impulse responses, the plurality of binaural spatial impulse responses being a plurality of binaural spatial impulse responses for each audio source of the one or more audio sources which, depending on the position information of this audio source and one Orientation of a user's head.
  • the loudspeaker signal generator 154 of the signal generator 150 is designed to generate the at least two loudspeaker signals as a function of the plurality of binaural room impulse responses and as a function of the modified audio signal component of the at least one audio source.
  • the detector 110 may be configured to detect the audio source signal portion of the one or more audio sources using deep learning models.
  • the position determiner 120 can be designed, for example, to determine the position information for each of the one or more audio sources depending on a recorded image or on a recorded video.
  • the position determiner 120 can be designed, for example, to determine the position information for each of the one or more audio sources as a function of the video by detecting a lip movement of a person in the video and depending on the lip movement, the audio source signal component is assigned to one of the one or more audio sources.
  • the detector 110 may be configured to determine one or more acoustic properties of the listening environment as a function of the at least two received microphone signals.
  • the signal generator 150 can be configured, for example, to determine the plurality of binaural room impulse responses depending on the one or more acoustic properties of the listening environment.
  • the signal component modifier 140 can be configured, for example, to select the at least one audio source whose audio source signal component is modified depending on a previously learned user scenario and to modify it depending on the previously learned user scenario.
  • the system may include a user interface 160 for selecting the previously learned user scenario from a set of two or more previously learned user scenarios.
  • 3 16 shows such a system according to an embodiment, which additionally comprises such a user interface 160.
  • the detector 110 and/or the position determiner 120 and/or the audio type classifier 130 and/or the signal component modifier 140 and/or the signal generator 150 can be implemented, for example, using a Hough transform or using parallel signal processing a plurality of VLSI chips or using a plurality of memristors.
  • the system can include a hearing aid 170, for example, which serves as a hearing aid for users with limited hearing ability and/or hearing impairment, the hearing aid including at least two loudspeakers 171, 172 for outputting the at least two loudspeaker signals.
  • 4 12 shows such a system according to an embodiment, comprising such a hearing aid 170 with two corresponding loudspeakers 171,172.
  • the system may include, for example, at least two speakers 181, 182 for outputting the at least two speaker signals and a housing structure 183 accommodating the at least two speakers, the at least one housing structure 183 being adapted to be attached to a head 185 of a user or another to be attached to any part of the user's body.
  • Figure 5a shows a corresponding system, which includes such a housing structure 183 and two loudspeakers 181, 182.
  • the system can include a headphone 180, for example, which includes at least two loudspeakers 181, 182 for outputting the at least two loudspeaker signals.
  • Figure 5b 18 shows a corresponding headphone 180 with two loudspeakers 181, 182 according to an embodiment.
  • the detector 110 and the position determiner 120 and the audio type classifier 130 and the signal component modifier 140 and the signal generator 150 can be integrated into the headset 180 .
  • the system may include a remote device 190 that includes detector 110 and position determiner 120 and audio type classifier 130 and signal component modifier 140 and signal generator 150 .
  • the remote device 190 can be spatially separated from the headphones 180, for example.
  • remote device 190 may be a smartphone.
  • Embodiments do not necessarily use a microprocessor, but use parallel signal processing steps, such as Hough transformation, VLSI chips or memristors for the power-saving implementation, including artificial neural networks.
  • the auditory environment is spatially recorded and reproduced, which on the one hand uses more than one signal to represent the input signal and on the other hand also uses a spatial reproduction.
  • the signal separation is performed using Deep Learning (DL) models (e.g. CNN, RCNN, LSTM, Siamese Network) and simultaneously processes the information from at least two microphone channels, with at least one microphone being in each hearable.
  • DL Deep Learning
  • a number of output signals (corresponding to the individual sound sources) together with their respective spatial position are determined by the joint analysis. If the recording device (microphones) is connected to the head, then the positions of the objects change when the head moves. This enables a natural focusing on important/unimportant sound, eg by turning the listener towards the sound object.
  • the signal analysis algorithms are based on a deep learning architecture, for example.
  • Alternative variants with an analysis unit or variants with separate networks are used for the aspects of localization, detection and source separation.
  • the alternative use of generalized cross-correlation takes account of the frequency-dependent shadowing by the head and improves localization, detection and source separation.
  • different source categories e.g. speech, vehicles, male/female/child's voice, warning tones, etc.
  • the source separation networks are also trained for high signal quality, as well as the localization networks with targeted stimuli for high localization accuracy.
  • the training steps mentioned above use, for example, multi-channel audio data, with a first training run usually being carried out in the laboratory using simulated or recorded audio data. This is followed by a training session in different natural environments (e.g. living room, classroom, train station, (industrial) production environment, etc.), i.e. transfer learning and domain adaptation takes place.
  • natural environments e.g. living room, classroom, train station, (industrial) production environment, etc.
  • the position detector could be coupled to one or more cameras to also determine the visual position of sound/audio sources.
  • the position detector could be coupled to one or more cameras to also determine the visual position of sound/audio sources.
  • lip movement and the audio signals coming from the source separator are correlated and thus a more precise localization is achieved.
  • the auralization is performed using binaural synthesis.
  • the binaural synthesis offers the further advantage that it is possible not to delete unwanted components completely, but only to reduce them to the extent that they are perceptible but not disturbing. This has the further advantage of receiving unexpected additional sources (warning signals, calls,...) which would be ignored if the system was switched off completely.
  • the analysis of the auditory environment is not only used to separate the objects, but also to analyze the acoustic properties (e.g. reverberation time, initial time gap). These properties are then used in the binaural synthesis to adapt the pre-stored (possibly also individualized) binaural room impulse responses (BRIR) to the actual room. Due to the reduction in room divergence, the listener has a significantly reduced listening effort when understanding the optimized signals. Minimizing room divergence affects the externalization of auditory events and thus the plausibility of spatial audio reproduction in the listening room. There are no known solutions in the prior art for speech understanding or for the general understanding of optimized signals.
  • acoustic properties e.g. reverberation time, initial time gap
  • a user interface is used to determine which sound sources are selected. According to the invention, this is done here by prior learning of different user scenarios, such as “amplify speech right from the front” (conversation with one person), “amplify speech in the range of +-60 degrees” (conversation in a group), “suppress music and amplify music “ (I don't want to hear concert goers), “make everything quiet” (I want my peace), “suppress all calls and warning tones”, etc.
  • Some embodiments are independent of the hardware used, i.e. both open and closed headphones can be used.
  • the signal processing can be integrated in the headphones, in an external device, or integrated in a smartphone.
  • signals from the smartphone e.g. music, telephony
  • an ecosystem for "selective listening with AI support” is provided.
  • Exemplary embodiments relate to "Personalized Auditory Reality” (PARty).
  • PARty Personalized Auditory Reality
  • the listener is able to amplify, attenuate, or modify defined acoustic objects.
  • the work of the envisaged implementation phase forms an essential building block for this.
  • Some embodiments implement the analysis of the real sound environment and the detection of the individual acoustic objects, the separation, tracking and editability of the existing objects and the reconstruction and playback of the modified acoustic scene.
  • a detection of sound events, a separation of the sound events, and a suppression of some of the sound events is implemented.
  • AI methods meaning in particular deep learning-based methods.
  • Embodiments of the invention contribute to the technological development for recording, signal processing and reproduction of spatial audio.
  • Embodiments create, for example, spatiality and three-dimensionality in multimedia systems when the user interacts
  • Exemplary embodiments are based on researched knowledge of perceptual and cognitive processes of spatial hearing.
  • Scene decomposition This includes a room-acoustic recording of the real environment and parameter estimation and/or a position-dependent sound field analysis.
  • Scene Representation This includes representation and identification of the objects and the environment and/or efficient representation and storage.
  • Scene composition and rendering This includes object and environment adjustment and manipulation and/or rendering and auralization.
  • Quality evaluation This includes technical and/or auditory quality measurement.
  • Signal processing This includes feature extraction and dataset generation for ML (machine learning).
  • Estimation of room and environment acoustics This includes in-situ measurement and estimation of room acoustic parameters and/or provision of room acoustic characteristics for source separation and ML.
  • Auralization This includes a spatial audio reproduction with an auditory fit to the environment and/or a validation and evaluation and/or a proof of function and a quality assessment.
  • Embodiments combine concepts for detecting, classifying, separating, locating, and enhancing sound sources, highlighting recent advances in each area and showing relationships between them.
  • Unified concepts are provided that can combine detect/classify/locate and separate/enhance sound sources to provide both the flexibility and robustness required for real-life SH.
  • embodiments for real-time performance provide appropriate low-latency concepts when dealing with the dynamics of real-life auditory scenes.
  • Some of the embodiments utilize concepts of deep learning, machine hearing, and smart hearables that allow listeners to selectively modify their auditory scene.
  • Embodiments provide the possibility for a listener to selectively improve, dampen, suppress or modify sound sources in the auditory scene using a hearing device such as headphones, earphones, etc.
  • the user represents the center of the auditory scene.
  • four external sound sources (S1-S4) are active around the user.
  • a user interface allows the listener to influence the auditory scene.
  • Sources S1-S4 can be attenuated, enhanced or suppressed with their respective sliders.
  • the listener can define sound sources or events to be retained or suppressed in the auditory scene.
  • In 2 is designed to suppress the background noise of the city while preserving alarms or the ringing of phones.
  • the user always has the option of playing an additional audio stream such as music or radio via the hearing device.
  • the user is usually the center of the system and controls the auditory scene via a control unit.
  • the user can control the auditory scene with a user interface like the one in 9 displayed or modified with any kind of interaction such as voice control, gestures, direction of gaze, etc.
  • the next step is a capture/classification/localization stage. In some cases only the acquisition is necessary, e.g. B. when the user wants to keep every speech utterance occurring in the auditory scene. In other cases classification might be necessary, e.g. B. if the user wants to keep fire alarms in the auditory scene, but not phone rings or office noise. In some cases only the location of the source is relevant to the system. This is the case, for example, with the four springs in 9 the case: the user can choose to remove or attenuate the sound source coming from a certain direction, regardless of the type or characteristics of the source.
  • Figure 12 illustrates a processing workflow of an SH application according to one embodiment.
  • the auditory scene is first in the stage of separation / improvement in 10 modified. This is done either by suppressing, dampening, or enhancing one specific sound source (or from specific sound sources). As in 10 As shown, an additional processing alternative in the SH is noise control, where the goal is to remove or minimize background noise from the auditory scene. Perhaps the most popular and widely used noise control technology today is Active Noise Control (ANC) [11].
  • ANC Active Noise Control
  • a source location usually refers to the direction of arrival (DOA) of a given source, which can be given either as a 2D coordinate (azimuth) or, if it includes an elevation, as a 3D coordinate .
  • DOA direction of arrival
  • Some systems also estimate the distance from the source to the microphone as location information [3].
  • location often refers to the panning of the source in the final mix and is usually specified as an angle in degrees [4].
  • embodiments utilize sound source detection, which refers to the ability to determine whether any instance of a given type of sound source is present in the auditory scene.
  • An example of a detection process is to determine if any speaker is present in the scene. In this context, determining the number of speakers in the scene or the identity of the speakers goes beyond the scope of sound source detection. Detection can be thought of as a binary classification process where the classes correspond to source present and source absent.
  • Sound Source Classification which assigns a class designation from a group of predefined classes to a given sound source or sound event.
  • An example of a classification process is to determine whether a given sound source corresponds to speech, music, or ambient noise.
  • Sound source classification and detection are closely related concepts.
  • classification systems include a level of coverage by considering "no class" as one of the possible designations. In these cases, the system implicitly learns to detect the presence or absence of a sound source and is not forced to assign a class designation if there is insufficient evidence that any of the sources is active.
  • embodiments utilize sound source separation, which refers to the extraction of a given sound source from an audio mix or an auditory scene.
  • sound source separation is the extraction of a singing voice from an audio mix in which other musical instruments are played simultaneously in addition to the singer [5].
  • Sound source separation becomes relevant in a selective listening scenario, as it allows for the suppression of sound sources that are of no interest to the listener.
  • Some sound separation systems implicitly perform a detection process before extracting the sound source from the mix. However, this is not necessarily the rule and so we emphasize the distinction between these operations.
  • the separation often serves as a pre-processing stage for other types of analysis such as source enhancement [6] or classification [7].
  • embodiments use Sound Source Identification, which goes one step further and aims to identify specific instances of a sound source in an audio signal. Speaker identification is perhaps the most common use of source identification today. The goal of this process is to identify whether a specific speaker is present in the scene. In the example in 1 the user has selected "speaker X" as one of the sources to keep in the auditory scene. This requires technologies that go beyond speech capture and classification, and requires speaker-specific models that enable this precise identification.
  • embodiments utilize sound source enhancement, which refers to the process of increasing the prominence of a given sound source in the auditory scene [8].
  • speech signals the goal is often to increase their perception of quality and intelligibility.
  • a common scenario for speech enhancement is denoising noise-tainted speech utterances [9].
  • source enhancement refers to the concept of making remixes and is often done to make a musical instrument (sound source) stand out more in the mix.
  • Remixing applications often use sound separation front-ends to gain access to the individual sound sources and to change the characteristics of the mix [10].
  • sound enhancement may be preceded by a sound source separation stage, this is not always the case and so we also emphasize the distinction between these two terms.
  • some of the embodiments use, for example, one of the following concepts, such as the detection and classification of acoustic scenes and events [18].
  • AED audio event detection
  • 10 sound event classes were considered, including cat, dog, speech, alarm, and running water.
  • Methods for detecting polyphonic sound events have also been proposed in the literature [21], [22].
  • a method for the detection of polyphonic sound events is proposed, in which a total of 61 sound events from real-life situations are detected using binary activity detectors based on a recurrent neural network (RNN). using bidirectional long short-term memory (BLSTM).
  • RNN recurrent neural network
  • BLSTM bidirectional long short-term memory
  • noise labels in classification is particularly relevant for applications to selective listening, where the class designations can be so different that high quality designations are very costly [24].
  • Noise labels in sound event classification processes have been addressed in [25], where noise-robust loss functions based on categorical cross-entropy are presented, as well as ways to evaluate data with noise labels as well as manually labeled data.
  • [26] presents a system for audio event classification based on a convolutional neural network (CNN) that includes a verification step for sound labels based on a CNN prediction consensus on several segments of the test example.
  • CNN convolutional neural network
  • some embodiments implement simultaneous detection and localization of sound events.
  • some embodiments, as in [27], perform the detection as a multi-label classification process and the location is given as the 3D coordinates of the direction of arrival (DOA) for each sound event.
  • DOA direction of arrival
  • Some embodiments use concepts of voice activity detection and speaker recognition/identification for SH.
  • Voice activity detection has been addressed in noisy environments using denoising autoencoders [28], recurrent neural networks [29] or as an end-to-end system using raw waveforms [30].
  • denoising autoencoders [28]
  • recurrent neural networks [29]
  • end-to-end system using raw waveforms [30].
  • many schemes have been proposed in the literature [31], with the vast majority focusing on increasing robustness to different conditions, for example with data augmentation or with improved embeddings that facilitate recognition [32]-[34]. So some of the embodiments make use of these concepts.
  • sound source localization is closely related to the problem of source counting, since the number of sound sources in the auditory scene is usually not known in real-life applications.
  • Some systems operate on the assumption that the number of sources in the scene is known. This is the case, for example, with the model presented in [39], which uses histograms of active intensity vectors to locate the sources.
  • [40] proposes, from a controlled perspective, a CNN-based algorithm to estimate the DOA of multiple speakers in the auditory scene using phase maps as input representations. In contrast, several works in the literature collectively estimate the number of sources in the scene and their location information.
  • Sound source localization algorithms can be computationally demanding as they often involve scanning a large space around the auditory scene [42].
  • some of the embodiments use concepts that expand the search space by using clustering algorithms [43] or by performing multi-resolution searches [42] relative to best practices such as those based on the steered-response phase transform (steered response power phase transform, SRP-PHAT).
  • Other methods place requirements on the sparsity of the matrix and assume that only one sound source is dominant in a given time-frequency range [44].
  • [45] proposed an end-to-end system for azimuth detection directly from the raw waveforms.
  • SSS Sound Source Separation
  • some embodiments employ concepts of speaker independent separation. There, a separation occurs without any prior information about the speakers in the scene [46]. Some embodiments also evaluate the speaker's spatial location to perform a separation [47].
  • Some embodiments employ music sound separation (MSS) concepts to extract a music source from an audio mix [5], such as main instrument and accompaniment separation concepts [52]. These algorithms take the most prominent sound source in the mix, regardless of its class designation, and attempt to separate it from the rest of the accompaniment.
  • Some embodiments use concepts for singing voice separation [53]. In most cases, either specific source models [54] or data-driven models [55] are used to capture the characteristics of the singing voice.
  • systems like the one proposed in [55] do not explicitly include a classification or a detection stage to achieve separation, the data-driven nature of these approaches allows these systems to implicitly learn to detect the singing voice with some accuracy before separation .
  • ANC anti-noise
  • ANC systems mainly aim to reduce background noise for headphone users by using an anti-noise signal to cancel it [11].
  • ANC can be viewed as a special case of SH and faces an equally stringent requirement [14].
  • Some work has focused on antinoise in specific environments such as automotive interiors [56] or operational scenarios [57].
  • the work in [56] analyzes the cancellation of different types of noise, such as road noise and engine noise, and requires unified systems capable of dealing with different types of noise.
  • Some work has focused on developing ANC systems for canceling noise over specific spatial regions.
  • ANC is discussed over a spatial region using spherical harmonics as basis functions to represent the noise field.
  • Some of the embodiments use sound source enhancement concepts.
  • Source enhancement in the context of music mostly refers to applications for making music remixes.
  • speech enhancement where the assumption is often that speech is affected only by noise sources
  • music applications mostly assume that other sound sources (musical instruments) are playing simultaneously with the source to be enhanced. Therefore, music remix applications are always provided preceded by a source separation application.
  • music remix applications are always provided preceded by a source separation application.
  • early jazz recordings were remixed using techniques to separate lead and accompaniment, harmonic and percussion instruments to achieve better tonal balance in the mix.
  • [63] investigated the use of different vocal separation algorithms to change the relative loudness of the vocal and backing track, showing that an increase of 6 dB is possible by introducing slight but audible distortions into the final mix.
  • the authors explore ways to improve music perception for cochlear implant users by applying sound source separation techniques to achieve new mixes. The concepts described there are used by some of the embodiments.
  • Some embodiments employ concepts to improve the robustness of current machine hearing methods as described in [25], [26], [32], [34], new emerging directions range adaptation [67] and learning based on datasets recorded with multiple devices [68].
  • Some of the embodiments employ concepts for improving the computational efficiency of machine hearing as described in [48], or concepts described in [30], [45], [50], [61] that are able to deal with unprocessed waveforms.
  • Some embodiments implement a unified optimization scheme that combines detection/classification/location and separation/enhancement to selectively modify sound sources in the scene, with independent detection, separation, localization, classification, and enhancement methods being reliable and applicable to SH provide the required robustness and flexibility.
  • Some embodiments are suitable for real-time processing, with a good trade-off between algorithmic complexity and performance.
  • Some embodiments combine ANC and machine hearing. For example, the auditory scene is first classified and then ANC is selectively applied.
  • the transfer functions map the properties of the sound sources, as well as the direct sound between the objects and the user, as well as all reflections that occur in the room. In order to ensure correct spatial audio reproductions for the room acoustics of a real room in which the listener is currently located, the transfer functions must also represent the room acoustic properties of the listening room with sufficient accuracy.
  • the challenge lies in the appropriate recognition and separation of the individual audio objects when a large number of audio objects are present. Furthermore, the audio signals of the objects in the recording position or in the listening position of the room overlap. Both the room acoustics and the superimposition of the audio signals change when the objects and/or the listening positions in the room change.
  • Room acoustics parameters must be estimated quickly enough in the case of relative movement. A low latency of the estimation is more important than a high accuracy. On the other hand, if the position of the source and receiver do not change (static case), a high degree of accuracy is required.
  • room acoustics parameters, as well as room geometry and listener position are estimated or extracted from a stream of audio signals. The audio signals are recorded in a real environment in which the source(s) and receiver(s) can move in any direction, and in which the source(s) and/or receiver(s) change their orientation in any way be able.
  • the audio signal stream can be the result of any microphone setup that includes one or more microphones.
  • the streams are fed to a signal processing stage for pre-processing and/or further analysis. Thereafter, the output is fed to a feature extraction stage. This stage estimates the room acoustics parameters, eg T60 (Reverberation Time), DRR (Direct to Reverberation Ratio) and others.
  • a second data stream is generated by a 6DoF ("six degrees of freedom" - degrees of freedom: three dimensions each for position in space and line of sight) sensor that records the orientation and position of the microphone setup.
  • the position data stream is fed into a 6DoF signal processing stage for pre-processing or further analysis.
  • the output of the 6DoF signal processing, the audio feature extraction stage and the pre-processed microphone streams is fed into a machine learning block by estimating the listening room (size, geometry, reflective surfaces) and the position of the microphone field in the room.
  • a user behavior model is applied to enable a more robust estimation. This model takes into account limitations of human movements (e.g. continuous movement, speed, etc.), as well as the probability distribution of different types of movements.
  • Some of the embodiments realize a blind estimation of room acoustics parameters by using arbitrary microphone arrays and by adding position and pose information of the user, and by analyzing the data with machine learning methods.
  • Systems according to embodiments may be used for acoustic augmented reality (AAR), for example.
  • AAR acoustic augmented reality
  • Some embodiments involve removing reverberations from the recorded signals.
  • Examples of such embodiments are hearing aids for people with normal hearing and those who are hard of hearing.
  • the reverberation can be removed from the input signal of the microphone setup with the help of the estimated parameters.
  • Another application is the spatial synthesis of audio scenes created in a room other than the current listening room.
  • the room-acoustic parameters which are part of the audio scenes, are adapted to the room-acoustic parameters of the listening room.
  • the available BRIRs are adapted to the acoustic parameters of the listening room.
  • an apparatus for determining one or more room acoustics parameters is provided.
  • the device is designed to receive microphone data that includes one or more microphone signals.
  • the device is designed to receive tracking data relating to a position and/or an orientation of a user.
  • the device is designed to determine the one or more room acoustics parameters as a function of the microphone data and as a function of the tracking data.
  • the device may be configured to use machine learning to determine the one or more room acoustic parameters based on the microphone data and based on the tracking data.
  • the device may be configured to employ machine learning in that the device may be configured to employ a neural network.
  • the device may be configured to use cloud-based processing for machine learning.
  • the one or more room acoustic parameters may include reverberation time.
  • the one or more room acoustic parameters may include a direct-to-reverberation ratio.
  • the tracking data to indicate the user's location may include, for example, an x-coordinate, a y-coordinate, and a z-coordinate.
  • the tracking data to indicate the user's orientation may include, for example, a pitch coordinate, a yaw coordinate, and a roll coordinate.
  • the device can be designed, for example, to transform the one or more microphone signals from a time domain into a frequency domain, wherein the device can be designed, for example, to extract one or more features of the one or more microphone signals in the frequency domain, and wherein the Device can be designed, for example, to determine the one or more room acoustics parameters depending on the one or more features.
  • the device may be configured to use cloud-based processing to extract the one or more features.
  • the device may include a microphone array of multiple microphones to pick up the multiple microphone signals.
  • the microphone arrangement can be designed, for example, to be worn on the body by a user.
  • system described above may further comprise, for example, a device as described above for determining one or more room acoustic parameters.
  • the signal portion modifier 140 can be configured, for example, to change the audio source signal portion of the at least one audio source of the one or more audio sources as a function of at least one of the one or more room acoustics parameters; and/or the signal generator 150 can be designed, for example, to generate at least one of the plurality of binaural room impulse responses for each audio source of the one or more audio sources depending on the at least one of the one or more room acoustics parameters.
  • Figure 12 shows a system according to an embodiment comprising five sub-systems (sub-systems 1-5).
  • Sub-system 1 includes a microphone setup of one, two or more individual microphones that can be combined into a microphone array if more than one microphone is available.
  • the positioning and relative arrangement of the microphone(s) to one another can be arbitrary.
  • the microphone assembly can be part of a device worn by the user or may be a separate device positioned in the space of interest.
  • sub-system 1 comprises a tracking device to measure the user's translational positions and the user's head pose in space. Up to 6-DOF (x-coordinate, y-coordinate, z-coordinate, pitch angle, yaw angle, roll angle) can be measured.
  • the tracking device can be positioned on a user's head, or it can be split into different sub-devices to measure the required DOFs and placed on the user or not on the user.
  • Subsystem 1 thus represents an input interface that includes a microphone signal input interface 101 and a position information input interface 102 .
  • Sub-system 2 includes signal processing for the captured microphone signal(s). This includes frequency transformations and/or time domain based processing. Furthermore, this includes methods for combining different microphone signals in order to realize field processing. It is possible to feed back from subsystem 4 in order to adapt parameters of the signal processing in subsystem 2.
  • the signal processing block of the microphone signal(s) can be part of the device in which the microphone(s) are built or it can be part of a separate device. It can also be part of cloud-based processing.
  • sub-system 2 includes signal processing for the recorded tracking data. This includes frequency transforms and/or time domain based processing. It also includes methods to improve the technical quality of the signals using noise reduction, smoothing, interpolation and extrapolation. It also includes procedures to derive information from higher levels. This includes speeds, accelerations, travel directions, rest times, movement areas, movement paths. Further, this includes predicting a near-future trajectory and a near-future velocity.
  • the signal processing block of the tracking signals can be part of the tracking device or it can be part of a separate device. It can also be part of cloud-based processing.
  • Sub-system 3 involves the extraction of features of the processed microphone(s).
  • the feature extraction block can be part of the user's handheld device, or it can be part of a separate device. It can also be part of cloud-based processing.
  • sub-system 3 module 121 can be the result of an audio type classification on sub-system 2, pass module 111 (feedback).
  • Sub-system 2, module 112 implements a position determiner 120, for example.
  • sub-systems 2 and 3 can also implement the signal generator 150, for example by sub-system 2, module 111 generating the binaural room impulse responses and generating the loudspeaker signals.
  • Sub-system 4 includes methods and algorithms to estimate room acoustic parameters using the processed microphone signal(s), the extracted features of the microphone signal(s), and the processed tracking data.
  • the output of this block is the room acoustic parameters as rest data and a control and modification of the parameters of the microphone signal processing in subsystem 2.
  • the machine learning block 131 can be part of the user's device or it can be part of a separate device. It can also be part of cloud-based processing.
  • sub-system 4 includes post-processing of the room-acoustic resting data parameters (e.g. in block 132). This includes a detection of outliers, a combination of single parameters to a new parameter, smoothing, extrapolation, interpolation and plausibility check. This block also gets information from subsystem 2. This includes near-future positions of the user in the room to estimate near-future acoustic parameters. This block can be part of the user's device or it can be part of a separate device. It can also be part of cloud-based processing.
  • Sub-system 5 includes the storage and allocation of the room acoustic parameters for downstream systems (e.g. in memory 141).
  • the allocation of the parameters can be done just-intime can be realized and/or the time course can be stored.
  • Storage can be done on the device that is on or near the user, or can be done on a cloud-based system.
  • One use case of an embodiment is home entertainment and relates to users in a home environment.
  • a user would like to concentrate on certain playback devices such as TV, radio, PC, tablet and block out other sources of interference (from other users' devices or children, construction noise, street noise).
  • the user is in the vicinity of the preferred playback device and selects the device or its position. Regardless of the user's position, the selected device or sound source positions are acoustically highlighted until the user cancels their selection.
  • the user goes near the target sound source.
  • the user selects the target sound source via a suitable interface, and the hearable adjusts the audio playback based on the user's position, user's line of sight and the target sound source, so that the target sound source can be clearly understood even in the presence of background noise.
  • the user moves close to a particularly disruptive sound source.
  • the user selects this noise source via a suitable interface, and the hearable (hearing aid) adjusts the audio playback based on the user's position, user's line of sight and the source of the noise in order to explicitly suppress the source of the noise.
  • Another use case of another embodiment is a cocktail party where a user is between multiple speakers. For example, when many speakers are present, a user would like to concentrate on one (or more) speakers and block out or attenuate other sources of interference. In this application, the control of the hearable may only require little active interaction from the user. Optional would be to control the strength of the selectivity using Biosignals or recognizable indicators of conversational difficulties (frequent inquiries, foreign languages, strong dialects).
  • the speakers are randomly distributed and move relative to the listener.
  • there are regular pauses in speaking new speakers join, other speakers move away.
  • Noise such as music can be comparatively loud under certain circumstances.
  • the selected speaker is highlighted acoustically and recognized again even after pauses in speaking, changes in position or pose.
  • a hearable recognizes a speaker in the user's environment.
  • the user can use a suitable control option (e.g. line of sight, attention control) to select preferred speakers.
  • the hearable adapts the audio playback according to the user's line of sight and the selected target sound source in order to be able to understand the target sound source even with background noise.
  • the user is addressed directly by a (previously) non-preferred speaker, who must at least be audible to ensure natural communication.
  • Another use case of another embodiment is in the automobile, where a user is in his (or in) a car. While driving, the user would like to actively direct their acoustic attention to certain playback devices such as navigation devices, radio or conversation partners in order to be able to better understand them in addition to the background noise (wind, engine, passengers).
  • certain playback devices such as navigation devices, radio or conversation partners in order to be able to better understand them in addition to the background noise (wind, engine, passengers).
  • the user and the target sound sources are in fixed positions inside the vehicle.
  • the user is static in relation to the reference system, but the vehicle itself moves.
  • An adapted tracking solution is therefore necessary.
  • the selected sound source position is acoustically highlighted until the user cancels the selection or until warning signals stop the device from functioning.
  • a user gets into the car and the device recognizes the surroundings.
  • the user can switch between the target sound sources using a suitable control option (e.g. speech recognition), and the hearable adjusts the audio playback according to the user's viewing direction and the selected target sound source in order to be able to understand the target sound source well even with background noise.
  • a suitable control option e.g. speech recognition
  • traffic-related warning signals interrupt the normal process and cancel the user's selection. The normal process is then restarted.
  • Another application of a further exemplary embodiment is live music and relates to a visitor to a live music event.
  • the visitor to a concert or live music performance would like to use the hearable to increase the focus on the performance and block out distracting listeners.
  • the audio signal itself can be optimized, for example to compensate for an unfavorable listening position or room acoustics.
  • the visitor is between many sources of interference, but the performances are usually relatively loud.
  • the target sound sources are in fixed positions or at least in a defined area, but the user can be very mobile (e.g. dancing).
  • the selected sound source position is acoustically highlighted until the user cancels the selection or until warning signals stop the device from functioning.
  • the user selects the stage area or the musician(s) as the target sound source(s).
  • the user can use a suitable control option to define the position of the stage/musicians, and the hearable adapts the audio playback to the target sound source according to the user's viewing direction and the selected target sound source to be able to understand well even with background noise.
  • warning information e.g. evacuation, imminent thunderstorm at outdoor events
  • warning signals can interrupt the normal process and cancel the user's selection. The normal process then restarts.
  • a further application of another exemplary embodiment is for large events and concerns visitors at large events.
  • major events e.g. football stadium, ice hockey stadium, large concert hall, etc.
  • a hearable can be used to emphasize the voices of family members and friends who would otherwise be lost in the noise of the crowds.
  • a major event takes place in a stadium or a large concert hall where a large number of visitors go.
  • a group family, friends, school class visits the event and is in front of or in the event area, where a large crowd of visitors is walking around.
  • One or more children lose eye contact with the group and, despite the high noise level, call out to the group due to the surrounding noise.
  • Hearable no longer amplifies the voice(s). For example, one person from the group on the hearable selects the voice of the missing child. The hearable localizes the voice. Then the hearable amplifies the voice and the user can find the missing item again (quicker) using the amplified voice.
  • the missing child also wears a hearable, for example, and selects the voice of their parents.
  • the hearable amplifies the parents' voice(s). The reinforcement then allows the child to locate its parents. So the child can walk back to his parents.
  • the missing child also wears a hearable and selects the voice of their parents. The hearable locates the parent's voice(s) and the hearable announces the distance to the voices. The child can find its parents more easily. An optional playback of an artificial voice from the hearable for the distance announcement is provided.
  • the hearables are coupled for a targeted amplification of the voice(s) and voice profiles are stored.
  • a further application of a further exemplary embodiment is leisure sports and relates to leisure athletes. Listening to music while exercising is popular, but it also poses risks. Warning signals or other road users may not be heard. In addition to music playback, the hearable can react to warning signals or shouts and temporarily interrupt music playback.
  • Another use case in this context is sport in small groups. The sports group's hearables can be connected to ensure good communication with each other during sports while other noise is suppressed.
  • the user is mobile and any warning signals are overlaid by numerous sources of interference.
  • the problem is that not all warning signals may affect the user (far away sirens in the city, horns on the street).
  • the Hearable automatically suspends music playback and acoustically highlights the warning signal or the communication partner until the user cancels his selection. The music will then continue to play normally.
  • a user does sports and listens to music through Hearable. Warning signals or shouts affecting the user are automatically recognized and the hearable interrupts the music playback. The hearable adjusts the audio playback in order to be able to clearly understand the target sound source ⁇ the acoustic environment. The hearable then continues playing music automatically (e.g. after the end of the warning signal) or at the request of the user.
  • athletes in a group can connect their hearables, for example.
  • the speech intelligibility between the group members is optimized and at the same time other disturbing noises are suppressed.
  • Another application of another embodiment is snoring suppression and affects all sleep seekers disturbed by snoring. People whose partners snore, for example, are disturbed in their nightly rest and have problems sleeping. The Hearable provides relief by suppressing the snoring noises, thus ensuring night-time rest and domestic peace. At the same time, the hearable allows other noises (crying babies, alarm sirens, etc.) to pass through so that the user is not completely acoustically isolated from the outside world.
  • a snoring detection is provided, for example.
  • the user has trouble sleeping due to snoring noises.
  • the hearable the user can then sleep better again, which has a stress-reducing effect.
  • the user wears the hearable while sleeping. He switches the hearable to sleep mode, which suppresses all snoring noises. After sleeping, he turns the hearable off again.
  • noises such as construction noise, lawn mower noise, etc. can be suppressed while sleeping.
  • Another application of a further exemplary embodiment is a diagnostic device for users in everyday life.
  • the hearable records the preferences (e.g. which sound sources, which amplification/damping are selected) and creates them over the period of use a profile with tendencies. This data can be used to draw conclusions about changes in hearing ability.
  • the goal is the early detection of hearing loss.
  • the user wears the device in everyday life or in the use cases mentioned for several months or years.
  • the hearable creates analyzes based on the selected setting and gives warnings and recommendations to the user.
  • the user wears the hearable over a long period of time (months to years).
  • the device automatically creates analyzes based on hearing preferences, and the device provides recommendations and warnings when hearing loss begins.
  • a further application of another exemplary embodiment is a therapy device and affects users with hearing impairments in everyday life.
  • a therapy device In its role as a transitional device to the hearing aid, potential patients are treated at an early stage and dementia is thus treated preventively.
  • Other possibilities are use as a concentration trainer (e.g. for ADHD), treatment of tinnitus and stress reduction.
  • the user has hearing or attention problems and uses the hearable temporarily/transitionally as a hearing aid.
  • this is reduced by the hearable, for example by: amplification of all signals (hearing impairment), high selectivity for preferred sound sources (attention deficits), reproduction of therapy noises (tinnitus treatment).
  • the user selects a form of therapy independently or on the advice of a doctor and makes the preferred settings, and the hearable carries out the selected therapy.
  • the Hearable detects hearing problems from UC-PRO1, and the Hearable automatically adjusts playback based on the problems detected and notifies the user.
  • Another use case of another embodiment is public sector work and relates to public sector workers.
  • Employees in the public sector hospitals, paediatricians, airport counters, educators, gastronomy, service counters, etc.
  • who are exposed to a high level of noise during work wear a hearable to improve the speech of one or just a few people communication and for better occupational safety by e.g. stress reduction.
  • a person switches on the attached hearable.
  • the user sets the hearable to select nearby voices, and the hearable amplifies the closest voice or a few nearby voices while suppressing background noise.
  • the user understands the relevant voice(s) better.
  • a person puts the hearable on permanent noise suppression.
  • the user turns on the function of recognizing occurring voices and then amplifying them. This allows the user to continue working with less noise.
  • the hearable When addressed directly from a radius of x meters, the hearable then amplifies the voice/s. The user can thus converse with the other person(s) at low noise levels. After the conversation, the hearable switches back to noise-cancelling mode alone, and after work, the user turns the hearable back off.
  • Another application of another exemplary embodiment is passenger transport and relates to users in a motor vehicle for passenger transport.
  • a user and driver of a passenger transporter would like to be distracted as little as possible by the people being transported while driving.
  • the passengers are the main source of interference, communication with them is also necessary at times.
  • the Hearable suppresses background noise from the occupants by default.
  • the user can manually override the suppression using a suitable control option (e.g. voice recognition, button in the vehicle).
  • the Hearable adjusts the audio playback according to the selection.
  • the hearable detects that a passenger is actively addressing the driver and temporarily disables noise cancellation.
  • Another application of a further embodiment is school and training and relates to teachers and students in the classroom.
  • the hearable has two roles, with the functions of the devices being partially coupled.
  • the teacher's/presenter's device suppresses background noise and amplifies speech/questions from the ranks of the students.
  • the hearables of the listeners can be controlled via the teacher's device. In this way, particularly important content can be highlighted without having to speak louder. Students can adjust their Hearable to better understand the teacher and block out disruptive classmates.
  • a teacher or lecturer presents content and the device suppresses background noise.
  • the teacher wants to hear a student's question and changes the focus of the hearable to the questioner (automatically or through a suitable control option). After communication, all noises are suppressed again.
  • it can be provided that, for example, a student who feels disturbed by classmates hides them acoustically.
  • a student sitting far away from the teacher can amplify his voice.
  • teacher and student devices can be paired, for example.
  • the selectivity of the student devices can be temporarily controlled by the teacher device.
  • the teacher changes the selectivity of the student devices to amplify their voice.
  • Another use case of another embodiment is in the military and pertains to soldiers.
  • Verbal communication between soldiers on deployment takes place on the one hand via radios and on the other hand via shouts and direct addressing.
  • Radio is mostly used when greater distances have to be bridged and when communication between different units and subgroups is to be carried out.
  • a fixed radio etiquette is often applied.
  • Shouting and direct addressing is mostly used for communication within a squad or group. Difficult acoustic conditions can arise during the deployment of soldiers (e.g. screaming people, noise from weapons, storms), which can impair both communication channels.
  • a soldier's equipment often includes a radio set with earphones. In addition to the purpose of audio reproduction, these also protect against excessive sound pressure levels.
  • shouting out and direct addressing between soldiers in action can be made more difficult by background noise.
  • This problem is currently being addressed by radio solutions in the short range and for longer distances.
  • the new system enables calling out and direct addressing at close range through an intelligent and Spatial emphasis of the respective speaker with simultaneous attenuation of ambient noise.
  • the soldier is on duty. Shouts and speech are automatically recognized and the system amplifies them while simultaneously dampening background noise.
  • the system adjusts the spatial audio reproduction in order to be able to clearly understand the target sound source.
  • the soldiers in a group can be known to the system. Only audio from those group members will pass through.
  • the hearable can be used at confusing large events (celebrations, protests) for preventive crime detection.
  • the selectivity of the hearable is controlled by keywords, e.g. calls for help or calls for violence. This requires an analysis of the content of the audio signal (e.g. speech recognition).
  • the security officer is surrounded by many loud sound sources, and the officer and all of the sound sources may be in motion.
  • a caller for help is not audible or only faintly audible under normal hearing conditions (poor SNR).
  • the manually or automatically selected sound source is acoustically highlighted until the user cancels the selection.
  • a virtual sound object is placed at the position/direction of the interesting sound source in order to be able to easily find the location (e.g. in the event of a one-time call for help).
  • the hearable recognizes sound sources with potential sources of danger.
  • a security officer chooses which sound source or event he would like to investigate (e.g. by selecting it on a tablet).
  • the hearable then adjusts the audio playback in order to be able to understand and locate the target sound source even with background noise.
  • a locating signal can be placed in the direction/distance of the source.
  • stage communication Another use case of another embodiment is stage communication and relates to musicians.
  • stages at rehearsals or concerts e.g. band, orchestra, choir, musical
  • individual instruments groups that could still be heard in other surroundings cannot be heard.
  • the hearable can emphasize these voices and make them audible again and thus improve or ensure the interaction of the individual musicians.
  • the use of this could also reduce the noise exposure of individual musicians and thus prevent hearing loss, for example by muting the drums, and at the same time the musicians could still hear everything important.
  • a musician without Hearable can no longer hear at least one other voice on stage.
  • the hearable can then be used here.
  • the user puts the hearable back down after switching it off.
  • the user turns on the hearable. He selects one or more desired musical instruments to be amplified. When playing music together, the Hearable now amplifies the selected musical instrument and thus makes it audible again. After making music, the user switches the hearable off again. In an alternate example, the user turns on the hearable. He selects the desired musical instrument whose volume is to be reduced. 7. When making music together, the Hearable now reduces the volume of the selected musical instrument so that the user only hears it at a moderate volume.
  • Another application of a further exemplary embodiment is source separation as a software module for hearing aids in terms of the ecosystem and relates to hearing aid manufacturers and hearing aid users.
  • Hearing aid manufacturers can use source separation as an additional tool for their hearing aids and offer it to customers.
  • Hearing aids could also benefit from the development.
  • a license model for other markets/devices (headphones, mobile phones, etc.) is also conceivable.
  • hearing aid users find it difficult to separate different sources from each other in a complex auditory situation, for example to focus on to assign a specific speaker.
  • additional systems e.g. transmission of signals from mobile phone systems via Bluetooth, targeted signal transmission in classrooms via an FM system or inductive hearing systems
  • the user uses a hearing aid with the additional function for selective hearing.
  • the user turns off the additional function and continues to hear normally with the hearing aid.
  • a hearing device user buys a new hearing device with an integrated additional function for selective hearing.
  • the user sets the selective hearing function on the hearing aid.
  • the user selects a profile (e.g. amplify loudest/nearest source, amplify voice recognition of specific voices from the personal environment (as with the UC-CE5 at major events).
  • the hearing aid amplifies the respective source/s according to the set profile and at the same time suppresses background noise if necessary , and the hearing aid user hears individual sources from the complex auditory scene instead of just a "noise mush"/muddle of acoustic sources.
  • the hearing device user buys the additional function for selective listening as software or the like for his own hearing device.
  • the user installs the add-on feature for their hearing aid.
  • the user sets the selective listening function on the hearing aid.
  • the user selects a profile (amplify loudest/closest source, amplify voice recognition of specific voices from their personal environment (like the UC-CE5 at major events), and the hearing aid amplifies the source(s) according to the set profile, while suppressing background noise if necessary.
  • the hearing aid user hears individual sources from the complex auditory scene instead of just a "noise mush"/muddle from acoustic sources.
  • the hearable can provide voice profiles that can be stored.
  • Another use case of another embodiment is professional sports and relates to athletes in competition.
  • sports such as biathlon, triathlon, cycling, marathon, etc.
  • professional athletes rely on information from their coaches or communication with teammates.
  • you want to protect yourself from loud noises shooting at a biathlon, loud cheering, party horns, etc.
  • the hearable could be for the respective sport/athlete be adjusted to enable a fully automatic selection of relevant sound sources (recognition of specific voices, loudness limitation for typical background noise).
  • the user may be very mobile and the nature of the noise depends on the sport. Due to the intense sporting activity, the athlete is not able to control the device actively or only to a limited extent. However, in most sports there is a fixed procedure (biathlon: running, shooting) and the important discussion partners (coaches, team members) can be defined in advance. Noise is suppressed in general or in certain phases of the sport. Communication between athletes and team members and coaches is always emphasized.
  • the athlete uses a hearable specially adapted to the sport.
  • the Hearable suppresses background noise fully automatically (preset), especially in situations where a high degree of attention is required for the sport in question.
  • the Hearable automatically highlights coaches and team members when they are within hearing range.
  • a further application of a further exemplary embodiment is ear training and relates to music students, professional musicians, amateur musicians.
  • a hearable is used in a targeted manner in order to be able to follow individual voices filtered out.
  • the voices in the background can't be clearly heard because you only hear the voices in the foreground. With the hearable you could then emphasize a voice of your choice using the instrument or similar in order to be able to practice it more specifically.
  • karaoke for example if there is no singing star or similar in the vicinity. Then you can suppress the vocal part(s) from a piece of music at will in order to only hear the instrumental version for karaoke singing.
  • a musician begins to relearn a voice from a piece of music. He listens to the recording of the piece of music on a CD system or another playback medium. When the user is done practicing, they turn the hearable back off. In one example, the user turns on the hearable. He selects the desired musical instrument to be amplified. When listening to the piece of music, the hearable amplifies the voice(s) of the musical instrument and turns down the volume of the other musical instruments, allowing the user to hear their own voice better
  • the user turns on the hearable. He selects the desired musical instrument to be suppressed. When listening to the song, the voice(s) of the selected song will be muted so that only the remaining voices can be heard. The user can then practice the voice on their own instrument with the other voices without being distracted by the voice from the recording.
  • the hearable may provide stored musical instrument profiles.
  • Another use case of another embodiment is occupational safety and concerns workers in noisy environments. Workers in noisy environments, for example in machine halls or on construction sites, must protect themselves from noise, but also be able to perceive warning signals and communicate with employees.
  • the user is in a very noisy environment and the target sound sources (warning signals, employees) may be significantly quieter than the interfering signals.
  • the user may be mobile, but the noise interference is mostly stationary.
  • noise is permanently reduced and the hearable automatically highlights a warning signal.
  • Communication with employees is ensured by amplification of speaker sources
  • the user goes about his work and uses Hearable as hearing protection.
  • Warning signals eg fire alarm
  • the user goes about his work, for example, and uses Hearable as hearing protection.
  • the communication partner is selected with the help of suitable interfaces (here, for example: gaze control) and highlighted acoustically
  • suitable interfaces here, for example: gaze control
  • Another use case of another embodiment is source separation as a software module for live translators and concerns users of a live translator. Live translators translate spoken foreign languages in real time and can benefit from an upstream source separation software module. Especially when multiple speakers are present, the software module can extract the target speaker and potentially improve the translation.
  • the software module is part of a live translator (dedicated device or smartphone app).
  • the user can select the target speaker via the device display. It is advantageous that the translator and the target sound source usually do not move or move very little during the translation. The selected sound source position is acoustically emphasized and thus potentially improves the translation.
  • a user wants to have a conversation in a foreign language or listen to a foreign speaker.
  • the user selects the target speaker through a suitable interface (e.g. GUI on the display) and the software module optimizes the audio recording for further use in the translator.
  • a suitable interface e.g. GUI on the display
  • a further application of another exemplary embodiment is occupational safety for emergency services and relates to the fire brigade, THW, possibly the police, rescue services.
  • emergency services good communication is essential for successful operation management. It is often not possible for the emergency services to wear hearing protection despite loud ambient noise, since then no communication with each other is possible. For example, firefighters must be able to communicate and understand commands precisely despite the loud engine noise, some of which is happening over radios. For this reason, emergency services are exposed to a high level of noise pollution, where the Hearing Protection Ordinance cannot be implemented. On the one hand, a hearable would offer hearing protection for the emergency services and, on the other hand, would continue to enable communication between the emergency services.
  • the user is exposed to high ambient noise and therefore cannot wear hearing protection and still needs to be able to communicate with others. He uses the hearable. After the operation or the dangerous situation is over, the user can put the hearable back down.
  • the user wears the hearable during an operation. He turns on the hearable.
  • the hearable suppresses ambient noise and amplifies the speech of colleagues and other nearby speakers (e.g. fire victims).
  • the user wears the hearable during an operation. He turns on the Hearable, and the Hearable blocks out ambient noise and amplifies co-workers' speech over the radio.
  • the hearable is specially designed to meet a structural suitability for use in accordance with a use regulation.
  • the hearable may have an interface to a radio device.
  • aspects have been described in the context of a device or a system, it is understood that these aspects also represent a description of the corresponding method, so that a block or a component of a device or a system can also be used as a corresponding method step or as a Feature of a process step is to be understood.
  • aspects described in connection with or as a method step also constitute a description of a corresponding block or detail or feature of a corresponding apparatus or system.
  • Some or all of the method steps may be performed by hardware apparatus (or using a hardware apparatus) such as a microprocessor, a programmable computer or an electronic circuit. In some embodiments, some or more of the essential process steps can be performed by such an apparatus.
  • embodiments of the invention may be in hardware or in software, or at least partially in hardware or be at least partially implemented in software.
  • Implementation can be performed using a digital storage medium such as a floppy disk, a DVD, a BluRay disk, a CD, a ROM, a PROM, an EPROM, an EEPROM or a FLASH memory, a hard disk or other magnetic or optical Memory are carried out on which electronically readable control signals are stored, which can interact with a programmable computer system in such a way or interact that the respective method is carried out. Therefore, the digital storage medium can be computer-readable.
  • some embodiments according to the invention comprise a data carrier having electronically readable control signals capable of interacting with a programmable computer system in such a way that one of the methods described herein is carried out.
  • embodiments of the present invention can be implemented as a computer program product with a program code, wherein the program code is effective to perform one of the methods when the computer program product runs on a computer.
  • the program code can also be stored on a machine-readable carrier, for example.
  • exemplary embodiments include the computer program for performing one of the methods described herein, the computer program being stored on a machine-readable carrier.
  • an exemplary embodiment of the method according to the invention is therefore a computer program that has a program code for performing one of the methods described herein when the computer program runs on a computer.
  • a further exemplary embodiment of the method according to the invention is therefore a data carrier (or a digital storage medium or a computer-readable medium) on which the computer program for carrying out one of the methods described herein is recorded.
  • the data carrier or digital storage medium or computer-readable medium is typically tangible and/or non-transitory.
  • a further exemplary embodiment of the method according to the invention is therefore a data stream or a sequence of signals which represents the computer program for carrying out one of the methods described herein.
  • the data stream or the sequence of signals can, for example, be configured to be transferred over a data communication link, for example over the Internet.
  • Another embodiment includes a processing device, such as a computer or programmable logic device, configured or adapted to perform any of the methods described herein.
  • a processing device such as a computer or programmable logic device, configured or adapted to perform any of the methods described herein.
  • Another embodiment includes a computer on which the computer program for performing one of the methods described herein is installed.
  • a further exemplary embodiment according to the invention comprises a device or a system which is designed to transmit a computer program for carrying out at least one of the methods described herein to a recipient.
  • the transmission can take place electronically or optically, for example.
  • the recipient may be a computer, mobile device, storage device, or similar device.
  • the device or the system can, for example, comprise a file server for transmission of the computer program to the recipient.
  • a programmable logic device e.g., a field programmable gate array, an FPGA
  • a field programmable gate array may cooperate with a microprocessor to perform any of the methods described herein.
  • the methods are performed on the part of any hardware device. This can be hardware that can be used universally, such as a computer processor (CPU), or hardware that is specific to the method, such as an ASIC.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Headphones And Earphones (AREA)
  • Stereophonic Arrangements (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Ein System wird bereitgestellt. Das System umfasst einen Analysator (152) zur Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten und einen Lautsprechersignal-Erzeuger (154) zur Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle. Der Analysator (152) ist ausgebildet, die Mehrzahl der binauralen Raumimpulsantworten so zu bestimmen, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert.A system is provided. The system includes an analyzer (152) for determining a plurality of binaural room impulse responses and a loudspeaker signal generator (154) for generating at least two loudspeaker signals dependent on the plurality of binaural room impulse responses and dependent on the audio source signal from at least one audio source. The analyzer (152) is designed to determine the plurality of binaural spatial impulse responses such that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from the wearing of headphones by a user.

Description

Die vorliegenden Erfindung beziehen sich auf Kopfhörerentzerrung und Raumanpassung von binauraler Wiedergabe bei Augmented Reality (AR).The present invention relates to headphone equalization and spatial adaptation of binaural playback in augmented reality (AR).

Selektives Hören (engl.: Selective Hearing, SH) bezieht sich auf die Fähigkeit der Hörer, ihre Aufmerksamkeit auf eine bestimmte Schallquelle oder auf eine Mehrzahl von Schallquellen in ihrer auditiven Szene zu richten. Dies wiederum impliziert, dass der Fokus der Hörer für uninteressante Quellen vermindert wird.Selective Hearing (SH) refers to the listener's ability to focus their attention on a particular sound source or on a plurality of sound sources in their auditory scene. This in turn implies that the listener's focus on uninteresting sources is reduced.

So sind menschliche Hörer in der Lage, sich auch in lauten Umgebungen zu verständigen. Dabei werden in der Regel verschiedene Aspekte ausgenutzt: So gibt es beim Hören mit zwei Ohren richtungsabhängige Zeit- und Pegelunterschiede und eine richtungsabhängige unterschiedliche spektrale Färbung des Schalls. Durch letzteres ist das Gehör bereits beim einohrigem Hören in der Lage die Richtung einer Schalquelle zu bestimmen und damit verschiedene Klangquellen zu trennen.In this way, human listeners are able to communicate even in noisy environments. As a rule, various aspects are exploited: When listening with two ears, there are direction-dependent time and level differences and a direction-dependent different spectral coloring of the sound. With the latter, the ear is already able to determine the direction of a sound source when listening with one ear and thus separate different sound sources.

Zeit- und Pegelunterschiede sind alleine nicht ausreichend die genaue Position einer Schallquelle fest zustellen: Die Orte mit gleichen Zeit- und Pegelunterschied befinden sich auf einem Hyperboloiden. Die so entstehende Mehrdeutigkeit der Ortsbestimmung nennt sich Cone-of-Confusion. In Räumen wird jede Schallquelle von den Begrenzungsflächen reflektiert. Jede dieser sogenannten Spiegelquellen liegt auf einem weiteren Hyperboloiden. Der menschliche Hörsinn kombiniert die Information über den Direktschall und die zugehörigen Reflexionen zu einem Hörereignis und löst damit die Mehrdeutigkeit des Cone-of-Confusion auf. Gleichzeitig vergrößern die zu einer Schallquelle gehörenden Reflexionen die empfundene Lautheit der Schallquelle.Time and level differences alone are not sufficient to determine the exact position of a sound source: The locations with the same time and level difference are on a hyperboloid. The resulting ambiguity in localization is called cone-of-confusion. In rooms, every sound source is reflected by the boundary surfaces. Each of these so-called mirror sources lies on another hyperboloid. The human sense of hearing combines the information about the direct sound and the associated reflections into one auditory event and thus resolves the ambiguity of the cone-of-confusion. At the same time, the reflections associated with a sound source increase the perceived loudness of the sound source.

Des Weiteren sind bei natürlichen Schallquellen, wie insbesondere Sprache, die Signalanteile unterschiedlicher Frequenz zeitlich gekoppelt. Beim binauralen Hören werden alle diese Aspekte zusammen eingesetzt. Ferner können laute, gut zu lokalisierende Störquellen quasi aktiv ignoriert werden.Furthermore, in the case of natural sound sources, such as speech in particular, the signal components of different frequencies are coupled in time. Binaural hearing uses all of these aspects together. Furthermore, loud sources of interference that are easy to localize can be actively ignored.

Das Konzept des selektiven Hörens ist in der Literatur mit anderen Begriffen wie unterstütztem Hören (engl.: assisted listening) [1], virtuellen und verstärkten auditiven Umgebungen [2] verwandt. Unterstütztes Hören ist ein Oberbegriff, der virtuelle, verstärkte und SH-Anwendungen umfasst.The concept of selective listening is related in the literature to other terms such as assisted listening [1], virtual and amplified auditory environments [2]. Assisted hearing is an umbrella term that includes virtual, augmented, and SH applications.

Gemäß dem Stand der Technik arbeiten klassische Hörgeräte meist monaural, d.h. die Signalverarbeitung für rechtes und linkes Ohr ist bezüglich Frequenzgang und Dynamikkompression komplett unabhängig. Dadurch gehen Zeit-, Pegel- und Frequenzunterschiede zwischen den Ohrsignalen verloren.According to the state of the art, classic hearing aids usually work monaurally, i.e. the signal processing for the right and left ear is completely independent in terms of frequency response and dynamic compression. As a result, time, level and frequency differences between the ear signals are lost.

Moderne, sogenannte binaurale Hörgeräte koppeln die Korrekturfaktoren der beiden Hörgeräte. Oft haben sie mehrere Mikrofone, aber i.d.R. wird oft nur das Mikrofon mit dem "sprachähnlichsten" Signal ausgewählt, aber kein explizites Beamforming gerechnet. In komplexen Hörsituationen werden gewünschte und unerwünschte Schallsignale in gleicher Weise verstärkt und damit eine Konzentration auf erwünschte Schallkomponenten nicht unterstützt.Modern, so-called binaural hearing aids couple the correction factors of the two hearing aids. They often have several microphones, but usually only the microphone with the "most speech-like" signal is selected, but no explicit beamforming is calculated. In complex listening situations, desired and undesired sound signals are amplified in the same way, and concentration on desired sound components is therefore not encouraged.

Im Bereich der Freisprechanlagen, z.B. für Telefone, werden bereits heute mehrere Mikrofone verwendet und aus den einzelnen Mikrofonsignalen sogenannte Beams berechnet: Schall der aus der Richtung des Beams kommt wird verstärkt, Schall aus anderen Richtungen reduziert. Heutige Verfahren lernen das konstante Hintergrundgeräusch (z.B. Motor- und Windgeräusche im Auto), lernen laute, durch einen weiteren Beam gut lokalisierbare Störungen und subtrahieren diese vom Nutzsignal (Beispiel: Generalized Sidelobe Canceler). Teilweise werden in Telefoniesysteme Erkenner eingesetzt, die die statischen Eigenschaften von Sprache erkennen und alles, was nicht wie Sprache strukturiert ist, wird unterdrückt. Bei Freisprecheinrichtungen wird aber am Ende nur ein Monosignal übertragen, die räumliche Information, welche zur Erfassung der Situation und insbesondere zur Schaffung der Illusion als "wäre man da" durchaus interessant ist, insbesondere wenn mehrere Sprecher gemeinsam telefonieren, geht auf dem Übertragungsweg verloren. Durch die Unterdrückung von Nichtsprachsignalen gehen wichtige Informationen über die akustische Umgebung des Gesprächspartners verloren was die Kommunikation behindern kann.In the area of hands-free systems, e.g. for telephones, several microphones are already used today and so-called beams are calculated from the individual microphone signals: Sound coming from the direction of the beam is amplified, sound from other directions is reduced. Today's methods learn the constant background noise (e.g. engine and wind noise in a car), learn loud disturbances that can be easily localized by another beam and subtract them from the useful signal (example: Generalized Sidelobe Canceler). Recognizers are sometimes used in telephony systems that recognize the static properties of speech and everything that is not structured like speech is suppressed. In the case of hands-free devices, however, only a mono signal is transmitted at the end, the spatial information, which is quite interesting for capturing the situation and in particular for creating the illusion that "one is there", especially when several speakers are on the phone together, is lost on the transmission path. By suppressing non-speech signals, important information about the acoustic environment of the interlocutor is lost, which can impede communication.

Der Mensch kann von Natur aus "selektiv hören" und sich bewusst auf einzelne Klangquellen in seinem Umfeld fokussieren. Ein automatisches System zum selektiven Hören mittels künstlicher Intelligenz (KI) muss die dahinter liegenden Konzepte zuerst erlernen. Die automatische Zerlegung akustischer Szenen (Scene Decomposition) benötigt zuerst eine Erkennung und Klassifikation aller aktiven Klangquellen gefolgt von einer Trennung um sie als separate Audioobjekte weiter verarbeiten, verstärken oder abschwächen zu können.Humans are naturally able to "hear selectively" and consciously focus on individual sound sources in their environment. An automatic system for selective listening using artificial intelligence (AI) must understand the concepts behind it first learn. The automatic decomposition of acoustic scenes (Scene Decomposition) first requires a detection and classification of all active sound sources, followed by a separation in order to be able to further process, amplify or attenuate them as separate audio objects.

Im Forschungsfeld Auditory Scene Analysis wird versucht, anhand eines aufgenommenen Audiosignals sowohl zeitlokalisierte Klangereignisse wie Schritte, Klatschen oder Schreie als auch globalere akustische Szenen wie Konzert, Restaurant oder Supermarkt zu detektieren und zu klassifizieren. Aktuelle Verfahren nutzen hierbei ausschließlich Verfahren aus dem Bereich Künstliche Intelligenz (KI) und Deep Learning. Hierbei erfolgt ein datengetriebenes Lernen von tiefen neuronalen Netzen (Deep Neural Networks), die auf Basis von großen Trainingsmengen lernen, charakteristische Muster im Audiosignal zu erkennen [70]. Vor allem inspiriert durch Fortschritte in den Forschungsbereichen Bildverarbeitung (Computer Vision) und Sprachverarbeitung (Natural Language Processing) werden hier i.d.R. Mischungen aus Faltungsnetzwerken (Convolutional Neural Networks) zur zweidimensionalen Mustererkennung in Spektrogramm-Darstellungen sowie rekurrierende Schichten (Recurrent Neural Networks) zur zeitlichen Modellierung von Klängen verwendet.In the Auditory Scene Analysis research field, an attempt is made to use a recorded audio signal to detect and classify both time-localized sound events such as footsteps, clapping or screams and more global acoustic scenes such as concerts, restaurants or supermarkets. Current methods only use methods from the field of artificial intelligence (AI) and deep learning. This involves data-driven learning of deep neural networks, which learn to recognize characteristic patterns in the audio signal on the basis of large amounts of training [70]. Primarily inspired by advances in the research areas of image processing (computer vision) and language processing (natural language processing), mixtures of convolutional networks (convolutional neural networks) for two-dimensional pattern recognition in spectrogram representations and recurrent layers (recurrent neural networks) for temporal modeling of sounds used.

Für die Audioanalyse gibt es eine Reihe von spezifischen Herausforderungen, die es zu bewältigen gilt. Deep Learning Modelle sind aufgrund ihrer Komplexität sehr datenhungrig. Im Vergleich zu den Forschungsgebieten Bildverarbeitung und Sprachverarbeitung stehen aktuell für Audioverarbeitung nur verhältnismäßig kleine Datensätze zur Verfügung. Als größter Datensatz ist der AudioSet Datensatz von Google [83] mit ca. 2 Millionen Klangbeispielen und 632 verschiedenen Klangereignisklassen zu nennen, wobei die meisten in der Forschung verwendeten Datensätze wesentlich kleiner sind. Diese geringe Menge an Trainingsdaten kann z.B. mit Transfer-Lernen (Transfer Learning) adressiert werden, in dem ein auf einem großen Datensatz vortrainiertes Modell anschließend auf einen für den An-wendungsfall bestimmten kleineren Datensatz mit neuen Klassen feinabgestimmt wird (Fine-Tuning) [77]. Weiterhin werden Verfahren aus dem teilüberwachten Lernen (Semi-Supervised Learning) ein-gesetzt, um auch die im Allgemeinen in großer Menge verfügbaren nicht annotierten Audiodaten mit in das Training einzubeziehen.Audio analysis has a number of specific challenges that need to be addressed. Due to their complexity, deep learning models are very data-hungry. Compared to the research areas of image processing and speech processing, only relatively small data sets are currently available for audio processing. The largest data set is the AudioSet data set from Google [83] with around 2 million sound samples and 632 different sound event classes, although most of the data sets used in research are much smaller. This small amount of training data can be addressed, for example, with transfer learning (transfer learning), in which a model pre-trained on a large data set is then fine-tuned to a smaller data set with new classes intended for the application (fine tuning) [77 ]. Furthermore, methods from partially supervised learning (semi-supervised learning) are used in order to include the generally available large amount of non-annotated audio data in the training.

Ein weiterer wesentlicher Unterschied zur Bildverarbeitung ist, dass es bei gleichzeitig hörbaren akustischen Ereignissen nicht zu einer Verdeckung von Klangobjekten (wie bei Bildern) sondern zu einer komplexen phasenabhängigen Überlagerung kommt. Aktuelle Algorithmen im Deep Learning nutzen sogenannte "Attention" Mechanismen, die den Modellen beispielsweise ermöglichen, sich bei der Klassifikation auf bestimmte Zeitsegmente oder Frequenzbereiche zu fokussieren [23]. Die Erkennung von Klangereignissen wird weiterhin durch die hohe Varianz bezüglich ihrer Dauer erschwert. Algo-rithmen sollen sowohl sehr kurze Ereignisse wie z.B. einen Pistolenschuss als auch lange Ereignisse wie einen vorbeifahrenden Zug robust erkennen.Another essential difference to image processing is that when acoustic events are audible at the same time, there is no masking of sound objects (as in the case of images) but to a complex phase-dependent superimposition. Current algorithms in deep learning use so-called "attention" mechanisms that enable the models, for example, to focus on certain time segments or frequency ranges during classification [23]. The recognition of sound events is further complicated by the high variance in their duration. Algorithms should robustly recognize both very short events such as a pistol shot and long events such as a passing train.

Durch die starke Abhängigkeit der Modelle von den akustischen Bedingungen bei der Aufnahme der Trainingsdaten zeigen sie in neuen akustischen Umgebungen, welche sich z.B. im Raumhall oder der Mikrofonierung unterscheiden, oftmals ein unerwartetes Verhalten. Verschiedene Lösungsansätze wurden entwickelt um dieses Problem abzumildern. Durch Datenanreicherungsverfahren (engl. Data Augmentation) wird z.B. versucht, mittels Simulation verschiedener akustischer Bedingung [68] und auch künstlicher Überlagerung verschiedener Klangquellen eine höhere Robustheit & Invarianz der Modelle zu erreichen. Weiterhin können die Parameter in komplexen neuronalen Netzwerken unterschiedlich regularisiert werden, so dass ein Übertrainieren & Spezialisieren auf die Trainingsdaten verhindert wird und gleichzeitig eine bessere Generalisierung auf ungesehene Daten erreicht wird. In den letzten Jahren wurden verschiedene Algorithmen zur "Domain Adaptation" [67] vorgeschlagen, um bereits trainierte Modelle auf neue Anwendungsbedingungen anzupassen. In dem in diesem Projekt geplanten Einsatzszenario innerhalb eines Kopfhörers ist eine Echtzeitfähigkeit der Klangquellenerkennungsalgorithmen von elementarer Bedeutung. Hierbei muss zwangsläufig eine Abwägung zwischen Komplexität des neuronalen Netzes und der maximal möglichen Anzahl von Rechenoperationen auf der zugrundeliegenden Rechenplattform durchgeführt werden. Auch wenn ein Klangereignis eine längere Dauer hat, muss es trotzdem möglichst schnell erkannt werden, um eine entsprechende Quellentrennung zu starten.Due to the strong dependency of the models on the acoustic conditions when recording the training data, they often show unexpected behavior in new acoustic environments that differ, for example, in room reverberation or miking. Various approaches have been developed to alleviate this problem. Using data augmentation methods, attempts are made, for example, to achieve greater robustness and invariance of the models by simulating various acoustic conditions [68] and also artificially superimposing various sound sources. Furthermore, the parameters in complex neural networks can be regularized differently, so that overtraining and specialization on the training data is prevented and at the same time a better generalization on unseen data is achieved. In recent years, various algorithms for "domain adaptation" [67] have been proposed in order to adapt models that have already been trained to new application conditions. Real-time capability of the sound source detection algorithms is of elementary importance in the scenario of use planned in this project within a headphone. In this case, a trade-off between the complexity of the neural network and the maximum possible number of arithmetic operations on the underlying computing platform must be carried out. Even if a sound event has a longer duration, it still has to be recognized as quickly as possible in order to start an appropriate source separation.

Am Fraunhofer IDMT erfolgte in den letzten Jahren eine Vielzahl an Forschungsarbeiten im Bereich der automatischen Klangquellenerkennung. Im Forschungsprojekt "StadtLärm" wurde ein verteiltes Sensornetzwerk entwickelt, welches anhand von aufgenommenen Audiosignalen an verschiedenen Standorten innerhalb einer Stadt sowohl Lärmpegel messen kann als auch zwischen 14 verschiedenen akustischen Szenen- und Ereignisklassen klassifizieren kann [69]. Die Verarbeitung in den Sensoren auf der Embedded-Plattform Raspberry Pi 3 erfolgt dabei in Echtzeit. In einer Vorarbeit wurden neuartige Ansätze zur Datenkompression von Spektrogrammen basierend auf Autoencoder-Netzwerken untersucht [71]. Die Anwendung von Verfahren aus dem Deep Learning im Bereich Musiksignalverarbeitung (Music Information Retrieval) konnten zuletzt in Anwendungen wie Musiktranskription [76], [77], Akkorderkennung [78] und Instrumentenerkennung [79] große Fortschritte erzielt werden. Im Bereich der industriellen Audioverarbeitung wurden neue Datensätze etabliert und Verfahren des Deep Learning z.B. zur akustischen Zustandsüberwachung von elektrischen Motoren genutzt [75].In recent years, a large number of research projects have been carried out at the Fraunhofer IDMT in the field of automatic sound source detection. In the "StadtLärm" research project, a distributed sensor network was developed that can use recorded audio signals to measure noise levels at various locations within a city and to classify between 14 different acoustic scene and event classes [69]. The processing in the sensors on the embedded platform Raspberry Pi 3 takes place in real time. In a preparatory work investigated novel approaches for data compression of spectrograms based on autoencoder networks [71]. The application of methods from deep learning in the field of music signal processing (music information retrieval) has recently been made in applications such as music transcription [76], [77], chord recognition [78] and instrument recognition [79]. In the field of industrial audio processing, new data sets were established and deep learning methods were used, e.g. for acoustic condition monitoring of electric motors [75].

In dem in diesem Ausführungsbeispiel adressierten Szenario muss von mehreren Klangquellen ausgegangen werden, deren Anzahl und Typ zunächst unbekannt ist und sich ständig ändern kann. Für die Klangquellen-trennung sind besonders mehrere Quellen mit ähnlichen Charakteristika wie z.B. mehrere Sprecher eine große Herausforderung [80].In the scenario addressed in this exemplary embodiment, several sound sources must be assumed, the number and type of which is initially unknown and can change constantly. For sound source separation, multiple sources with similar characteristics, such as multiple speakers, pose a major challenge [80].

Um eine hohe räumliche Auflösung zu erreichen, müssen mehrere Mikrofone in Form eines Arrays verwendet werden [72]. Im Gegensatz zu üblichen Audioaufnahmen in mono (1 Kanal) oder stereo (2 Kanäle) erlaubt solch ein Aufnahmeszenario eine genaue Lokalisation der Schallquellen um den Hörer.In order to achieve high spatial resolution, multiple microphones must be used in the form of an array [72]. In contrast to the usual audio recordings in mono (1 channel) or stereo (2 channels), such a recording scenario allows an exact localization of the sound sources around the listener.

Quellentrennungsalgorithmen hinterlassen üblicherweise Artefakte wie Verzerrungen und Übersprechen zwischen den Quellen [5], welche vom Hörer im Allgemeinen als störend empfunden werden. Durch ein erneutes Mischen der Spuren (Re-Mixing) können solche Artefakte aber zum Teil maskiert und damit reduziert werden [10].Source separation algorithms usually leave behind artifacts such as distortion and crosstalk between the sources [5], which are generally perceived as annoying by the listener. However, such artefacts can be partially masked and thus reduced by mixing the tracks again (re-mixing) [10].

Zur Verbesserung der "blinden" Quellentrennung (Blind Source Separation) werden oftmals Zusatzinformationen wie z.B. erkannte Anzahl und Art der Quellen oder ihre geschätzte räumliche Position genutzt (Informed Source Separation [74]). Für Meetings, in dem mehrere Sprecher aktiv sind, können aktuelle Analysesysteme gleichzeitig die Anzahl der Sprecher schätzen, ihre jeweilige zeitliche Aktivität bestimmen und sie anschließend per Quellentrennung isolieren [66].To improve the "blind" source separation (Blind Source Separation), additional information such as the detected number and type of sources or their estimated spatial position is often used (Informed Source Separation [74]). For meetings in which several speakers are active, current analysis systems can simultaneously estimate the number of speakers, determine their respective temporal activity and then isolate them via source separation [66].

Am Fraunhofer IDMT wurden in den letzten Jahren viele Untersuchungen zur perzeptionsbasierten Evaluation von Klangquellentrennungsalgorithmen durchgeführt. [73]
Im Bereich der Musiksignalverarbeitung wurde ein echtzeitfähiger Algorithmus zur Trennung des Soloinstruments sowie der Begleitinstrumente entwickelt, welcher eine Grundfrequenzschätzung des Soloinstruments als Zusatzinformation ausnutzt [81]. Ein alternativer Ansatz zur Gesangsseparation aus komplexen Musikstücken, der auf Deep Learning Methoden basiert, wurde in [82] vorgestellt. Für die Anwendung im Rahmen der industriellen Audioanalyse wurden ebenfalls spezialisierte Quellentrennungsalgorithmen entwickelt [7].
In recent years, many studies on the perception-based evaluation of sound source separation algorithms have been carried out at Fraunhofer IDMT. [73]
In the field of music signal processing, a real-time capable algorithm for separating the solo instrument and the accompanying instruments was developed, which uses an estimate of the fundamental frequency of the solo instrument as additional information [81]. A An alternative approach to separating vocals from complex pieces of music based on deep learning methods was presented in [82]. Specialized source separation algorithms have also been developed for use in industrial audio analysis [7].

Kopfhörer beeinflussen die akustische Wahrnehmung der Umgebung maßgeblich. Je nach Bauart des Kopfhörers wird der Schalleinfall auf den Weg zu den Ohren unterschiedlich stark gedämpft. In-Ear-Kopfhörer blockieren die Ohrkanäle vollständig [85]. Die Ohrmuschel umschließende, geschlossene Kopfhörer schneiden den Hörer akustisch ebenfalls stark von der äußeren Umgebung ab. Offene und halboffene Kopfhörer lassen dagegen Schall noch ganz bzw. teilweise durch [84]. In vielen Anwendungen des täglichen Lebens ist es gewünscht, dass Kopfhörer den ungewünschten Umgebungsschall stärker abschotten, als sie es durch ihre Bauart ermöglichen.Headphones have a significant influence on the acoustic perception of the environment. Depending on the design of the headphones, the sound incidence on the way to the ears is attenuated to different degrees. In-ear headphones completely block the ear canals [85]. The closed headphones enclosing the auricle also acoustically cut the listener off from the outside environment. Open and semi-open headphones, on the other hand, still let sound through completely or partially [84]. In many everyday applications, it is desirable for headphones to seal off unwanted ambient noise more than their design allows.

Mit Active-Noise-Control (ANC) können störende Einflüsse von außen zusätzlich abgedämpft werden. Dies wird realisiert, in dem eintreffende Schallsignale von Mikrofonen des Kopfhörers aufgenommen und von den Lautsprechern so wiedergegeben werden, dass sich diese Schallanteile mit den Kopfhörer-durchdringenden Schallanteilen durch eine Interferenz auslöschen. Insgesamt kann so eine starke akustische Abschottung von der Umgebung erreicht werden. Dies birgt jedoch in zahlreichen Alltags-situationen Gefahren, weshalb der Wunsch besteht, auf Bedarf diese Funktion intelligent zu schalten.With Active Noise Control (ANC), disturbing external influences can also be dampened. This is achieved by recording incoming sound signals from the microphones in the headphones and reproducing them from the loudspeakers in such a way that these sound components are canceled out by interference with the sound components penetrating the headphones. Overall, a strong acoustic insulation from the environment can be achieved in this way. However, this harbors dangers in numerous everyday situations, which is why there is a desire to switch this function intelligently if required.

Erste Produkte erlauben, dass die Mikrofonsignale auch in den Kopfhörer durchgeleitet werden, um die passive Abschottung zu verringern. So gibt es neben Prototypen [86] bereits Produkte, die mit der Funktion "transparentes Hören" werben. Beispielsweise bietet Sennheiser mit dem AMBEO-Headset [88] und Bragi im Produkt "The Dash Pro" die Funktion an. Diese Möglichkeit stellt jedoch erst den Anfang dar. Zukünftig soll diese Funktion stark erweitert werden, so dass nicht nur die vollen Umgebungsgeräusche anoder ausgeschaltet werden können, sondern einzelne Signalanteile (wie etwa nur Sprache oder Alarmsignale) bei Bedarf ausschließlich hörbar gemacht werden können. Die französische Firma Orosound ermöglicht es dem Träger des Headsets "Tilde Earphones" [89] die Stärke des ANC mit einem Slider anzupassen. Zusätzlich kann die Stimme eines Gesprächspartners auch während aktivierten ANCs durchgeleitet werden. Dies funktioniert jedoch nur, wenn sich der Gesprächspartner in einem 60°-Kegel frontal gegenüber befindet. Eine richtungsunabhängige Anpassung ist nicht möglich.The first products allow the microphone signals to also be passed through to the headphones in order to reduce passive isolation. In addition to prototypes [86], there are already products that advertise the "transparent hearing" function. For example, Sennheiser offers the function with the AMBEO headset [88] and Bragi in the product "The Dash Pro". However, this option is just the beginning. In the future, this function is to be greatly expanded so that not only can the full ambient noise be switched on or off, but individual signal components (such as only speech or alarm signals) can be made exclusively audible if required. The French company Orosound allows the wearer of the "Tilde Earphones" [89] headset to adjust the strength of the ANC with a slider. In addition, the voice of a conversation partner can also be passed through during activated ANCs. However, this only works if the interlocutor is in a 60° cone in front of you. A direction-independent adjustment is not possible.

In der Offenlegungsschrift US 2015 195641 A1 (siehe [91]) wurde ein Verfahren offenbart, welches zur Erzeugung einer Hörumgebung für einen Nutzer ausgelegt ist. Dabei umfasst das Verfahren ein Empfangen eines Signals, das eine ambiente Hörumgebung des Nutzers darstellt, ferner eine Verarbeitung des Signals unter Verwendung eines Mikroprozessors, um zumindest einen Klangtyp einer Mehrzahl von Klangtypen in der ambienten Hörumgebung zu identifizieren. Des Weiteren umfasst das Verfahren einen Empfang von Nutzerpräferenzen für jeden der Mehrzahl von Klangtypen, ein Modifizieren des Signals für jeden Klangtyp in der ambienten Hörumgebung und eine Ausgabe des modifizierten Signals auf wenigstens einem Lautsprecher um eine Hörumgebung für den Nutzer zu erzeugen.In the disclosure document U.S. 2015 195641 A1 (see [91]) a method was disclosed which is designed to generate a listening environment for a user. The method includes receiving a signal representing an ambient listening environment of the user, further processing the signal using a microprocessor to identify at least one of a plurality of sound types in the ambient listening environment. The method further includes receiving user preferences for each of the plurality of sound types, modifying the signal for each sound type in the ambient listening environment, and outputting the modified signal to at least one speaker to create a listening environment for the user.

Ein wesentliches Problem stellt die Kopfhörerentzerrung und die Raumanpassung von binauraler Wiedergabe bei Augmented Reality (AR) dar:
In einem typischen Szenario trägt ein menschlicher Hörer einen akustisch (teilweise) transparenten Kopfhörer und hört durch diesen hindurch seine Umgebung. Zusätzlich werden über den Kopfhörer zusätzliche Schallquellen wiedergegeben die sich in die reale Umgebung so einbetten, dass es für den Hörer nicht möglich ist zwischen der realen Schall-Szene und der zusätzlichen Schall zu unterscheiden.
A major problem is headphone equalization and room adaptation of binaural playback in augmented reality (AR):
In a typical scenario, a human listener wears acoustically (partially) transparent headphones and hears his surroundings through them. In addition, additional sound sources are played back via the headphones, which are embedded in the real environment in such a way that it is not possible for the listener to distinguish between the real sound scene and the additional sound.

In der Regel wird mittels Tracking bestimmt, in welche Richtung der Kopf gedreht wird und wo im Raum sich der Hörer befindet (six degrees of freedom (6DoF)). Aus der Forschung ist bekannt, dass gute Ergebnisse (d.h. Externalisierung und korrekte Lokalisation) erzielt werden, wenn die Raumakustik von Aufnahme- und Wiedergaberaum übereinstimmten oder wenn die Aufnahme an den Wiedergaberaum angepasst wird.As a rule, tracking is used to determine in which direction the head is turned and where the listener is in the room (six degrees of freedom (6DoF)). It is known from research that good results (i.e. externalization and correct localization) are achieved when the room acoustics of the recording and playback rooms match or when the recording is adapted to the playback room.

Eine beispielhafte Lösung kann dabei wie folgt realisiert sein:
In einem ersten Schritt erfolgt eine Messung der BRIR ohne Kopfhörer entweder individualisiert oder mit Kunstkopf mittels Sondenmikrofon.
An exemplary solution can be implemented as follows:
In a first step, the BRIR is measured without headphones, either individually or with an artificial head using a probe microphone.

In einem zweiten Schritt erfolgt dann eine Analyse der Raumeigenschaften des Aufnahmeraumes anhand der gemessenen BRIR.In a second step, the spatial properties of the recording room are analyzed based on the measured BRIR.

In einem dritten Schritt erfolgt dann eine Messung der Kopfhörer-Übertragungsfunktion individualisiert oder mit Kunstkopf mittels Sondenmikrofon am selben Ort. Dadurch wird eine Entzerrungsfunktion bestimmt.In a third step, the headphone transfer function is then measured individually or with an artificial head using a probe microphone at the same location. This determines an equalization function.

Optional kann dann in einem vierten Schritt eine Messung der Raumeigenschaften des Wiedergaberaumes, Analyse der akustischen Eigenschaften des Wiedergaberaumes und Adaption der BRIR an den Wiedergaberaum erfolgen.Optionally, in a fourth step, the room properties of the playback room can be measured, the acoustic properties of the playback room can be analyzed and the BRIR can be adapted to the playback room.

Dann erfolgt in einem weiteren Schritt eine Faltung einer zu augmentierenden Quelle mit der positions-richtigen, optional angepassten, BRIR um zwei Roh-Kanäle zu erhalten. Faltung der Roh-Kanäle mit der Entzerrungsfunktion um die Kopfhörersignale zu erhalten.Then, in a further step, a source to be augmented is convolved with the position-correct, optionally adjusted, BRIR in order to obtain two raw channels. Convolve the raw channels with the equalization function to get the headphone signals.

Schließlich erfolgt in einem weiteren Schritt eine Wiedergabe der Kopfhörersignale über Kopfhörer.Finally, in a further step, the headphone signals are reproduced via headphones.

Es ergibt sich jedoch das Problem, dass, wenn der Kopfhörer aufgesetzt wird, der Einfluss der Ohrmuschel auf die BRIR verschwindet. D.h. die BRIRs sind anders als ohne Kopfhörer. Dadurch klingen natürliche Schallquellen anders als ohne Kopfhörer, die virtuellen augmentierten Schallquellen werden aber so wiedergegeben als wäre kein Kopfhörer vorhanden.However, there is a problem that when the headphone is put on, the influence of the pinna on the BRIR disappears. I.e. the BRIRs are different than without headphones. As a result, natural sound sources sound different than without headphones, but the virtual augmented sound sources are reproduced as if no headphones were present.

Es wäre wünschenswert, dass Konzepte bereitgestellt werden, die eine einfache, schnelle und effiziente Bestimmung der Raumeigenschaften des Wiedergaberaumes ermöglichen.It would be desirable for concepts to be provided that enable the room properties of the reproduction room to be determined simply, quickly and efficiently.

Im Folgenden werden Ausführungsformen der Erfindung bereitgestellt.Embodiments of the invention are provided below.

So stellt Anspruch 1 ein System, Anspruch 19 ein Verfahren und Anspruch 20 ein Computerprogramm gemäß Ausführungsformen der Erfindung bereit
Ein System gemäß einer Ausführungsform der Erfindung umfasst einen Analysator zur Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten und einen Lautsprechersignal-Erzeuger zur Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle. Der Analysator ist ausgebildet, die Mehrzahl der binauralen Raumimpulsantworten so zu bestimmen, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert.
Thus, claim 1 provides a system, claim 19 a method and claim 20 a computer program according to embodiments of the invention
A system according to an embodiment of the invention comprises an analyzer for determining a plurality of binaural room impulse responses and a loudspeaker signal generator for generating at least two loudspeaker signals dependent on the plurality of binaural room impulse responses and dependent on the audio source signal from at least one audio source. The analyzer is designed to determine the plurality of binaural spatial impulse responses in such a way that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from the wearing of headphones by a user.

Des Weiteren wird ein Verfahren gemäß einer Ausführungsform der Erfindung bereitgestellt, wobei das Verfahren umfasst:

  • Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten. Und:
  • Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle.
There is also provided a method according to an embodiment of the invention, the method comprising:
  • Determination of a plurality of binaural spatial impulse responses. And:
  • generating at least two speaker signals dependent on the plurality of binaural room impulse responses and dependent on the audio source signal from at least one audio source.

Die Mehrzahl der binauralen Raumimpulsantworten werden so bestimmt, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert.The plurality of binaural spatial impulse responses are determined such that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from a user wearing a headphone.

Ferner wird ein Computerprogramm gemäß einer Ausführungsform der Erfindung mit einem Programmcode zur Durchführung des oben beschriebenen Verfahrens bereitgestellt.Furthermore, a computer program according to an embodiment of the invention is provided with a program code for carrying out the method described above.

Nachfolgend werden bevorzugte Ausführungsformen der Erfindung unter Bezugnahme auf die Zeichnungen beschrieben.Preferred embodiments of the invention are described below with reference to the drawings.

In den Zeichnungen ist dargestellt:

Fig. 1
zeigt ein System gemäß einer Ausführungsform.
Fig. 2
zeigt ein weiteres System zur Unterstützung von selektivem Hören gemäß einer weiteren Ausführungsform.
Fig. 3
zeigt ein System zur Unterstützung von selektivem Hören, das zusätzlich eine Benutzeroberfläche umfasst.
Fig. 4
zeigt ein System zur Unterstützung von selektivem Hören, dass ein Hörgerät mit zwei entsprechenden Lautsprechern umfasst.
Fig. 5a
zeigt ein System zur Unterstützung von selektivem Hören, das eine Gehäusestruktur und zwei Lausprecher umfasst.
Fig. 5b
zeigt ein System zur Unterstützung von selektivem Hören, das einen Kopfhörer mit zwei Lautsprechern umfasst.
Fig. 6
zeigt ein System gemäß einer Ausführungsform, das ein entferntes Gerät 190 umfasst, das den Detektor und den Positionsbestimmer und den Audiotyp-Klassifikator und den Signalanteil-Modifizierer und den Signalgenerator umfasst.
Fig. 7
zeigt ein System gemäß einer Ausführungsform, das fünf Sub-Systeme umfasst.
Fig. 8
stellt ein entsprechendes Szenario gemäß einem Ausführungsbeispiel dar.
Fig. 9
stellt ein Szenario gemäß einer Ausführungsform mit vier externen Schallquellen dar.
Fig. 10
stellt einen Verarbeitungsworkflow einer SH-Anwendung gemäß einer Ausführungsform dar.
In the drawings is shown:
1
Figure 1 shows a system according to one embodiment.
2
FIG. 12 shows another system for supporting selective hearing according to another embodiment.
3
shows a system for supporting selective hearing, which additionally includes a user interface.
4
shows a system for supporting selective hearing that includes a hearing aid with two corresponding loudspeakers.
Figure 5a
shows a selective hearing support system that includes a housing structure and two speakers.
Figure 5b
shows a selective listening support system that includes a headset with two speakers.
6
12 shows a system according to an embodiment, including a remote device 190, which includes the detector and the position locator and the audio type classifier and the signal component modifier and the signal generator.
7
Figure 12 shows a system according to an embodiment comprising five sub-systems.
8
represents a corresponding scenario according to an exemplary embodiment.
9
12 illustrates a scenario according to an embodiment with four external sound sources.
10
Figure 12 illustrates a processing workflow of an SH application according to one embodiment.

Fig. 1 zeigt ein System gemäß einer Ausführungsform. 1 Figure 1 shows a system according to one embodiment.

Das System umfasst einen Analysator 152 zur Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten.The system includes an analyzer 152 for determining a plurality of binaural spatial impulse responses.

Des Weiteren umfasst das System einen Lautsprechersignal-Erzeuger 154 zur Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle.Furthermore, the system comprises a loudspeaker signal generator 154 for generating at least two loudspeaker signals depending on the plurality of binaural room impulse responses and depending on the audio source signal from at least one audio source.

Der Analysator 152 ist ausgebildet, die Mehrzahl der binauralen Raumimpulsantworten so zu bestimmen, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert.The analyzer 152 is configured to determine the plurality of binaural spatial impulse responses such that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from a user wearing headphones.

In einer Ausführungsform kann das System z.B. den Kopfhörer umfassen, wobei der Kopfhörer z.B. ausgebildet sein kann, die wenigstens zwei Lautsprechersignale auszugeben.In one embodiment, the system can include the headphones, for example, it being possible for the headphones to be designed, for example, to output the at least two loudspeaker signals.

Gemäß einer Ausführungsform kann der Kopfhörer z.B. zwei Kopfhörerkapseln und z.B. mindestens ein Mikrofon zur Messung von Schall in jeder der zwei Kopfhörerkapseln umfassen, wobei in jeder der zwei Kopfhörerkapseln z.B. das mindestens eine Mikrofon zur Messung des Schalls angeordnet sein kann. Der Analysator 152 kann dabei z.B. ausgebildet sein, die Bestimmung der Mehrzahl der binauralen Raumimpulsantworten unter Verwendung der Messung des mindestens einen Mikrofons in jeder der zwei Kopfhörerkapseln durchzuführen. Ein Kopfhörer, welcher für die binaurale Wiedergabe gedacht ist, hat dabei immer mindestens zwei Kopfhörerkapseln (je eine für linkes und rechtes Ohr), wobei auch mehr als zwei Kapseln (z.B. für unterschiedliche Frequenzbereiche) vorgesehen sein können.According to one embodiment, the headphone can comprise e.g. two headphone capsules and e.g. at least one microphone for measuring sound in each of the two headphone capsules, wherein in each of the two headphone capsules e.g. The analyzer 152 can be designed, for example, to carry out the determination of the plurality of binaural room impulse responses using the measurement of the at least one microphone in each of the two headphone capsules. Headphones intended for binaural playback always have at least two headphone capsules (one each for the left and right ear), although more than two capsules (e.g. for different frequency ranges) can also be provided.

In einer Ausführungsform kann das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln z.B. ausgebildet sein, vor Beginn einer Wiedergabe der wenigstens zwei Lautsprechersignale durch den Kopfhörer, ein oder mehrere Aufnahmen einer Schallsituation in einem Wiedergaberaum zu erzeugen, aus den ein oder mehreren Aufnahmen eine Schätzung eines Roh-Audiosignals wenigstens einer Audioquelle zu bestimmen und eine binaurale Raumimpulsantwort der Mehrzahl der binauralen Raumimpulsantworten für die Audioquelle in dem Wiedergaberaum zu bestimmen.In one embodiment, the at least one microphone in each of the two headphone capsules can be configured, for example, to generate one or more recordings of a sound situation in a playback room before the start of playback of the at least two loudspeaker signals through the headphones, from the one or more recordings an estimate of a To determine the raw audio signal of at least one audio source and to determine a binaural room impulse response of the plurality of binaural room impulse responses for the audio source in the playback room.

Gemäß einer Ausführungsform kann das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln z.B. ausgebildet sein, während der Wiedergabe der wenigstens zwei Lautsprechersignale durch den Kopfhörer, ein oder mehrere weitere Aufnahmen der Schallsituation in dem Wiedergaberaum zu erzeugen, von diesen ein oder mehreren weiteren Aufnahmen ein augmentiertes Signal abzuziehen und die Schätzung des Roh-Audiosignals von einer oder mehreren Audioquellen zu bestimmen und die binaurale Raumimpulsantwort der Mehrzahl der binauralen Raumimpulsantworten für die Audioquelle in dem Wiedergaberaum zu bestimmen.According to one embodiment, the at least one microphone in each of the two headphone capsules can be designed, for example, to generate one or more additional recordings of the sound situation in the reproduction room during the playback of the at least two loudspeaker signals through the headphones, of which one or more additional recordings an augmented one subtract signal and determine the estimate of the raw audio signal from one or more audio sources and determine the binaural room impulse response of the plurality of binaural room impulse responses for the audio source in the playback room.

In einer Ausführungsform kann der Analysator 152 z.B. ausgebildet sein, akustische Raumeigenschaften des Wiedergaberaumes zu bestimmen und die Mehrzahl der binauralen Raumimpulsantworten abhängig von den akustischen Raumeigenschaften anzupassen.For example, in one embodiment, the analyzer 152 may be configured to determine acoustic space properties of the playback room and to adjust the plurality of binaural room impulse responses depending on the acoustic space properties.

Gemäß einer Ausführungsform kann das mindestens eine Mikrofon z.B. in jeder der zwei Kopfhörerkapseln zur Messung des Schalls nahe am Eingang des Ohrkanals angeordnet sein.According to one embodiment, the at least one microphone can be arranged, for example, in each of the two headphone capsules for measuring the sound close to the entrance of the ear canal.

In einer Ausführungsform kann das System z.B. ein oder mehrere weitere Mikrofone außerhalb der zwei Kopfhörerkapseln zur Messung der Schallsituation in dem Wiedergaberaum umfassen.In one embodiment, the system can include, for example, one or more further microphones outside the two headphone capsules for measuring the sound situation in the reproduction room.

Gemäß einer Ausführungsform kann der Kopfhörer z.B. einen Bügel umfassen, wobei wenigstens eines der ein oder mehreren weiteren Mikrofone z.B. an dem Bügel angeordnet ist.According to one embodiment, the headphone can, for example, comprise a bracket, with at least one of the one or more further microphones being arranged, for example, on the bracket.

In einer Ausführungsform kann der Lautsprechersignal-Erzeuger 154 z.B. ausgebildet sein, die wenigstens zwei Lautsprechersignale zu erzeugen, indem jede der Mehrzahl der binauralen Raumimpulsantworten mit einem Audioquellsignal einer Mehrzahl von ein oder mehreren Audioquellsignalen gefaltet wird.For example, in one embodiment, the speaker signal generator 154 may be configured to generate the at least two speaker signals by convolving each of the plurality of binaural room impulse responses with an audio source signal of a plurality of one or more audio source signals.

Gemäß einer Ausführungsform kann der Analysator 152 z.B. ausgebildet sein, wenigstens eine der Mehrzahl der binauralen Raumimpulsantworten (oder mehrere oder alle binauralen Raumimpulsantworten) in Abhängigkeit von einer Bewegung des Kopfhörers zu bestimmen.According to one embodiment, the analyzer 152 can be configured, for example, to determine at least one of the plurality of binaural spatial impulse responses (or several or all binaural spatial impulse responses) as a function of a movement of the headphones.

In einer Ausführungsform kann dabei das System einen Sensor umfassen, um eine Bewegung des Kopfhörers zu bestimmen. Der Sensor kann z.B. ein Sensor, beispielsweise ein Beschleunigungsaufnehmer, sein, der mindestens 3 DoF (englisch: three degrees of freedom; deutsch: drei Freiheitsgrade) aufweist, um Kopfdrehungen zu erfassen. Beispielsweise kann z.B. ein 6 DoF Sensor (englisch: six degrees of freedom sensor; deutsch: Sechs-Freiheitsgrade-Sensor) eingesetzt werden.In one embodiment, the system can include a sensor in order to determine a movement of the headphones. For example, the sensor may be a sensor, such as an accelerometer, having at least 3 DoF (three degrees of freedom) to detect head rotations. For example, a 6 DoF sensor (English: six degrees of freedom sensor) can be used.

Bestimmte Ausführungsformen der Erfindung adressieren die technische Herausforderung, dass es oft in einer Hörumgebung zu laut ist, bestimmte Geräusche in der Hörumgebung störend sind, und selektives Hören gewünscht ist. Das menschliche Gehirn selbst ist zwar gut zu selektivem Hören imstande, aber intelligente technische Hilfen können selektives Hören deutlich verbessern. So wie Brillen im heutigen Leben sehr vielen Menschen helfen, ihre Umgebung besser wahrzunehmen, gibt es für das Hören Hörgeräte, aber in vielen Situationen können auch normal Hörende von der Unterstützung durch intelligente Systeme profitieren. Um "intelligenten Hearables" (Hörgeräte) zu realisieren, ist durch das technische System die (akustische) Umgebung zu analysieren, einzelne Klangquellen sind zu identifizieren, um diese getrennt voneinander behandeln zu können. Zu diesen Themen gibt es Vorarbeiten, aber eine in Echtzeit (transparent für unsere Ohren) und mit hoher Tonqualität (damit das Gehörte von einer normalen akustischen Umgebung nicht unterscheidbar ist) arbeitende Analyse und Verarbeitung der gesamten akustischen Umgebung wurde im Stand der Technik noch nicht realisiert.Certain embodiments of the invention address the technical challenge that it is often too loud in a listening environment, certain noises are annoying in the listening environment, and selective listening is desired. The human brain itself is capable of selective hearing, but intelligent technical aids can significantly improve selective hearing. Just as glasses help many people in today's life to perceive their surroundings better, there are hearing aids for hearing, but in many situations people with normal hearing can also benefit from the support of intelligent systems. In order to realize "intelligent hearables" (hearing aids), the (acoustic) environment must be analyzed by the technical system, individual sound sources must be identified in order to be able to treat them separately. On these issues there There is preliminary work, but real-time (transparent to our ears) and high sound quality (so that what is heard is indistinguishable from a normal acoustic environment) analysis and processing of the entire acoustic environment has not yet been realized in the prior art.

Nachfolgend werden verbesserte Konzepte für maschinelles Hören (engl.: Machine Listening) bereitgestellt.Improved machine listening concepts are provided below.

In einem ersten Schritt erfolgt eine Messung der BRIR mit Kopfhörer entweder individualisiert oder mit Kopfhörer mittels Sondenmikrofon.In a first step, the BRIR is measured with headphones either individually or with headphones using a probe microphone.

In einem zweiten Schritt erfolgt eine Analyse der Raumeigenschaften des Aufnahmeraumes anhand der gemessenen BRIR.In a second step, the spatial properties of the recording room are analyzed based on the measured BRIR.

Optional nimmt z.B. in einem dritten Schritt mindestens ein eingebautes Mikrofon in jeder Muschel vor Beginn der Wiedergabe die reale Schallsituation im Wiedergaberaum auf. Aus diesen Aufnahmen wird eine Schätzung des Roh-Audiosignals von einer oder mehreren Quellen bestimmt und die jeweilige BRIR der Schallquelle/Audioquelle im Wiedergaberaum bestimmt. Aus dieser Schätzung werden die akustischen Raumeigenschaften des Wiedergaberaumes bestimmt und damit die BRIR des Aufnahmeraumes angepasst.Optionally, in a third step, for example, at least one built-in microphone in each shell records the real sound situation in the playback room before playback begins. From these recordings, an estimate of the raw audio signal from one or more sources is determined and the respective BRIR of the sound source/audio source in the playback room is determined. The acoustic room properties of the playback room are determined from this estimate and the BRIR of the recording room is thus adjusted.

Weiter optional nimmt z.B. in einem weiteren Schritt mindestens ein eingebautes Mikrofon in jeder Muschel während der Wiedergabe die reale Schallsituation im Wiedergaberaum auf. Aus diesen Aufnahmen wird zunächst das augmentierte Signal abgezogen, dann eine Schätzung des Roh-Audiosignals von einer oder mehreren Quellen bestimmt und die jeweilige BRIR der Schallquelle/Audioquelle im Wiedergaberaum bestimmt. Aus dieser Schätzung werden die akustischen Raumeigenschaften des Wiedergaberaumes bestimmt und damit die BRIR des Aufnahmeraumes angepasst.Also optionally, in a further step, at least one built-in microphone in each shell records the real sound situation in the playback room during playback. The augmented signal is first subtracted from these recordings, then an estimate of the raw audio signal from one or more sources is determined and the respective BRIR of the sound source/audio source in the playback room is determined. The acoustic room properties of the playback room are determined from this estimate and the BRIR of the recording room is thus adjusted.

In einem weiteren Schritt wird eine Faltung einer zu augmentierenden Quelle mit der positions-richtigen, optional angepassten, BRIR durchgeführt, um die Kopfhörersignale zu erhalten.In a further step, a source to be augmented is convolved with the position-correct, optionally adjusted, BRIR in order to obtain the headphone signals.

Schließlich erfolgt in einem weiteren Schritt eine Wiedergabe der Kopfhörersignale über Kopfhörer.Finally, in a further step, the headphone signals are reproduced via headphones.

In einer Ausführungsform ist beispielsweise mindestens ein Mikrofon in jeder Kopfhörerkapsel zur Messung des Schalls nahe am Eingang des Ohrkanals angeordnet.For example, in one embodiment, at least one microphone is placed in each headphone capsule to measure sound near the entrance of the ear canal.

Gemäß einer Ausführungsform werden optional zusätzliche Mikrofone außen am Kopfhörer, u.U. auch oben am Bügel, zur Messung und Analyse der Schallsituation im Wiedergaberaum angeordnet.According to one embodiment, additional microphones are optionally arranged on the outside of the headphones, possibly also on top of the bracket, for measuring and analyzing the sound situation in the playback room.

In Ausführungsformen wird ein Klang von natürlichen und augmentierten Quellen realisiert, der gleich ist.In embodiments, sound from natural and augmented sources is realized to be the same.

Ausführungsformen realisieren, dass keine Messung der Eigenschaften des Kopfhörers erforderlich sind.Embodiments realize that no measurement of headphone characteristics is required.

Ausführungsformen stellen so Konzepte zur Messung der Raumeigenschaften des Wiedergaberaumes bereit.Embodiments thus provide concepts for measuring the spatial properties of the rendering space.

Manche Ausführungsformen stellen einen Startwert und (Nach-)Optimierung der Raumadaption bereit. Die bereitgestellten Konzepte funktionieren auch, wenn sich die Raumakustik des Wiedergaberaumes ändert, wenn der Hörer z.B. in einen anderen Raum wechselt.Some embodiments provide a seed and (post) optimization of the spatial adaptation. The concepts provided also work if the room acoustics of the playback room change, e.g. if the listener changes to another room.

Ausführungsformen basieren unter anderem darauf, unterschiedliche Techniken zur Hörunterstützung in technischen Systemen einzubauen und so zu kombinieren, dass eine Verbesserung der Klang- und Lebensqualität (z.B. erwünschter Schall lauter, unerwünschter Schall leiser, bessere Sprachverständlichkeit) sowohl für normalhörende als auch für Menschen mit Schädigungen des Gehörs erzielt wird.Among other things, embodiments are based on installing different techniques for hearing assistance in technical systems and combining them in such a way that an improvement in the quality of sound and quality of life (e.g. desired sound is louder, undesired sound is quieter, better speech intelligibility) both for people with normal hearing and for people with damage to the hearing is achieved.

Fig. 2 zeigt ein System zur Unterstützung von selektivem Hören gemäß einem Ausführungsbeispiel. 2 FIG. 12 shows a system for supporting selective hearing according to an embodiment.

Das System umfasst einen Detektor 110 zur Detektion eines Audioquellen-Signalanteils von ein oder mehreren Audioquellen unter Verwendung von wenigstens zwei empfangenen Mikrofonsignalen einer Hörumgebung.The system includes a detector 110 for detecting an audio source signal portion of one or more audio sources using at least two received microphone signals of a listening environment.

Des Weiteren umfasst das System einen .Positionsbestimmer 120 zur Zuweisung von Positionsinformation zu jeder der ein oder mehreren Audioquellen.The system also includes a position determiner 120 for assigning position information to each of the one or more audio sources.

Ferner umfasst das System einen Audiotyp-Klassifikator 130 zur Zuordnung eines Audiosignaltyps zu dem Audioquellen-Signalanteil jeder der ein oder mehreren Audioquellen.The system also includes an audio type classifier 130 for assigning an audio signal type to the audio source signal portion of each of the one or more audio sources.

Des Weiteren umfasst das System einen Signalanteil-Modifizierer 140 zur Veränderung des Audioquellen-Signalanteils von wenigstens einer Audioquelle der ein oder mehreren Audioquellen abhängig von dem Audiosignaltyp des Audioquellen-Signalanteils der wenigstens einen Audioquelle, um einen modifizierten Audiosignalanteil der wenigstens einen Audioquelle zu erhalten.The system also includes a signal component modifier 140 for changing the audio source signal component of at least one audio source of the one or more audio sources depending on the audio signal type of the audio source signal component of the at least one audio source in order to obtain a modified audio signal component of the at least one audio source.

Der Analysator 152 und der Lautsprechersignal-Erzeuger 154 der Fig. 1 bilden zusammen einen Signalgenerator 150.The analyzer 152 and the speaker signal generator 154 of 1 together form a signal generator 150.

Der Analysator 152 des Signalgenerators 150 ist zur Erzeugung der Mehrzahl von binauralen Raumimpulsantworten ausgebildet, wobei es sich bei der Mehrzahl von binauralen Raumimpulsantworten um eine Mehrzahl von binauralen Raumimpulsantworten für jede Audioquelle der ein oder mehreren Audioquellen handelt, die abhängig von der Positionsinformation dieser Audioquelle und einer Orientierung eines Kopfes eines Nutzers sind.The analyzer 152 of the signal generator 150 is designed to generate the plurality of binaural spatial impulse responses, the plurality of binaural spatial impulse responses being a plurality of binaural spatial impulse responses for each audio source of the one or more audio sources which, depending on the position information of this audio source and one Orientation of a user's head.

Der Lautsprechersignal-Erzeuger 154 des Signalgenerators 150 ist ausgebildet, die von wenigstens zwei Lautsprechersignale abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem modifizierten Audiosignalanteil der wenigstens einen Audioquelle zu erzeugen.The loudspeaker signal generator 154 of the signal generator 150 is designed to generate the at least two loudspeaker signals as a function of the plurality of binaural room impulse responses and as a function of the modified audio signal component of the at least one audio source.

Gemäß einer Ausführungsform kann der Detektor 110 z.B. ausgebildet sein, den Audioquellen-Signalanteil der ein oder mehreren Audioquellen unter Verwendung von Deep Learning Modellen zu detektieren.For example, according to one embodiment, the detector 110 may be configured to detect the audio source signal portion of the one or more audio sources using deep learning models.

In einer Ausführungsform kann die Positionsbestimmer 120 z.B. ausgebildet sein, die zu jedem der ein oder mehreren Audioquellen die Positionsinformation abhängig von einem aufgenommenen Bild oder von einem aufgenommenen Video zu bestimmen.In one embodiment, the position determiner 120 can be designed, for example, to determine the position information for each of the one or more audio sources depending on a recorded image or on a recorded video.

Gemäß einer Ausführungsform kann der Positionsbestimmer 120 z.B. ausgebildet sein, die zu jedem der ein oder mehreren Audioquellen die Positionsinformation abhängig von dem Video zu bestimmen, indem eine Lippenbewegung einer Person in dem Video detektiert wird und abhängig von der Lippenbewegung dem Audioquellen-Signalanteil eines der ein oder mehreren Audioquellen zugeordnet wird.According to one embodiment, the position determiner 120 can be designed, for example, to determine the position information for each of the one or more audio sources as a function of the video by detecting a lip movement of a person in the video and depending on the lip movement, the audio source signal component is assigned to one of the one or more audio sources.

In einer Ausführungsform kann der Detektor 110 z.B. ausgebildet sein, ein oder mehrere akustische Eigenschaften der Hörumgebung abhängig von den wenigstens zwei empfangenen Mikrofonsignalen zu bestimmen.For example, in one embodiment, the detector 110 may be configured to determine one or more acoustic properties of the listening environment as a function of the at least two received microphone signals.

Gemäß einer Ausführungsform kann der Signalgenerator 150 z.B. ausgebildet sein, die Mehrzahl der binauralen Raumimpulsantworten abhängig von den ein oder mehreren akustischen Eigenschaften der Hörumgebung zu bestimmen.According to one embodiment, the signal generator 150 can be configured, for example, to determine the plurality of binaural room impulse responses depending on the one or more acoustic properties of the listening environment.

In einer Ausführungsform kann der Signalanteil-Modifizierer 140 z.B. ausgebildet sein, die wenigstens eine Audioquelle, deren Audioquellen-Signalanteil modifiziert wird, abhängig von einem zuvor erlernten Benutzerszenario auszuwählen und abhängig von dem zuvor erlernten Benutzerszenario zu modifizieren.In one embodiment, the signal component modifier 140 can be configured, for example, to select the at least one audio source whose audio source signal component is modified depending on a previously learned user scenario and to modify it depending on the previously learned user scenario.

Gemäß einer Ausführungsform kann das System z.B. eine Benutzeroberfläche 160 zur Auswahl des zuvor erlernten Benutzerszenarios aus einer Gruppe von zwei oder mehreren zuvor erlernten Benutzerszenarien umfassen. Fig. 3 zeigt ein solches System gemäß einer Ausführungsform, das zusätzlich eine derartige Benutzeroberfläche 160 umfasst.For example, according to one embodiment, the system may include a user interface 160 for selecting the previously learned user scenario from a set of two or more previously learned user scenarios. 3 16 shows such a system according to an embodiment, which additionally comprises such a user interface 160. FIG.

In einer Ausführungsform kann der Detektor 110 und/oder der Positionsbestimmer 120 und/oder der Audiotyp-Klassifikator 130 und/oder der Signalanteil-Modifizierer 140 und/oder der Signalgenerator 150 z.B. ausgebildet sein, parallele Signalverarbeitung unter Verwendung einer Hough-Transformation oder unter Einsatz einer Mehrzahl von VLSI-Chips oder unter Einsatz einer Mehrzahl von Memristoren durchzuführen.In one embodiment, the detector 110 and/or the position determiner 120 and/or the audio type classifier 130 and/or the signal component modifier 140 and/or the signal generator 150 can be implemented, for example, using a Hough transform or using parallel signal processing a plurality of VLSI chips or using a plurality of memristors.

Gemäß einer Ausführungsform kann das System z.B. ein Hörgerät 170 umfassen, das als Hörhilfe für in ihrer Hörfähigkeit eingeschränkte und/oder hörgeschädigte Nutzer dient, wobei das Hörgerät wenigstens zwei Lautsprecher 171, 172 zur Ausgabe der wenigstens zwei Lautsprechersignale umfasst. Fig. 4 zeigt ein solches System gemäß einer Ausführungsform, dass ein derartiges Hörgerät 170 mit zwei entsprechenden Lautsprechern 171, 172 umfasst.According to one embodiment, the system can include a hearing aid 170, for example, which serves as a hearing aid for users with limited hearing ability and/or hearing impairment, the hearing aid including at least two loudspeakers 171, 172 for outputting the at least two loudspeaker signals. 4 12 shows such a system according to an embodiment, comprising such a hearing aid 170 with two corresponding loudspeakers 171,172.

In einer Ausführungsform kann das System z.B. wenigstens zwei Lautsprecher 181, 182 zur Ausgabe der wenigstens zwei Lautsprechersignale und eine Gehäusestruktur 183 umfassen, die die wenigstens zwei Lautsprecher aufnimmt, wobei die mindestens eine Gehäusestruktur 183 geeignet ist, an einem Kopf 185 eines Nutzers oder einem anderen Körperteil des Nutzers befestigt zu werden. Fig. 5a zeigt ein entsprechendes System, das eine derartige Gehäusestruktur 183 und zwei Lausprecher 181, 182 umfasst.In one embodiment, the system may include, for example, at least two speakers 181, 182 for outputting the at least two speaker signals and a housing structure 183 accommodating the at least two speakers, the at least one housing structure 183 being adapted to be attached to a head 185 of a user or another to be attached to any part of the user's body. Figure 5a shows a corresponding system, which includes such a housing structure 183 and two loudspeakers 181, 182.

Gemäß einer Ausführungsform kann das System z.B. einen Kopfhörer 180 umfassen, der wenigstens zwei Lautsprecher 181, 182 zur Ausgabe der wenigstens zwei Lautsprechersignale umfasst. Fig. 5b zeigt einen entsprechenden Kopfhörer 180 mit zwei Lautsprechern 181, 182 gemäß einer Ausführungsform.According to one embodiment, the system can include a headphone 180, for example, which includes at least two loudspeakers 181, 182 for outputting the at least two loudspeaker signals. Figure 5b 18 shows a corresponding headphone 180 with two loudspeakers 181, 182 according to an embodiment.

In einer Ausführungsform kann z.B. der Detektor 110 und der Positionsbestimmer 120 und der Audiotyp-Klassifikator 130 und der Signalanteil-Modifizierer 140 und der Signalgenerator 150 in den Kopfhörer 180 integriert sein.For example, in one embodiment, the detector 110 and the position determiner 120 and the audio type classifier 130 and the signal component modifier 140 and the signal generator 150 can be integrated into the headset 180 .

Gemäß einer Ausführungsform, dargestellt in Fig. 6 kann das System z.B. ein entferntes Gerät 190 umfassen, das den Detektor 110 und den Positionsbestimmer 120 und den Audiotyp-Klassifikator 130 und den Signalanteil-Modifizierer 140 und den Signalgenerator 150 umfasst. Das entfernte Gerät 190 kann dabei z.B. von dem Kopfhörer 180 räumlich getrennt sein.According to an embodiment shown in 6 For example, the system may include a remote device 190 that includes detector 110 and position determiner 120 and audio type classifier 130 and signal component modifier 140 and signal generator 150 . The remote device 190 can be spatially separated from the headphones 180, for example.

In einer Ausführungsform kann das entfernte Gerät 190 z.B. ein Smartphone sein.For example, in one embodiment, remote device 190 may be a smartphone.

Ausführungsformen nutzen nicht zwanghaft einen Mikroprozessor, sondern verwenden parallele Signalverarbeitungsschritte, wie z.B. Hough-Transformation, VLSI-Chips oder Memristoren zur stromsparenden Realisierung, u.a. auch von künstlichen neuronalen Netzen.Embodiments do not necessarily use a microprocessor, but use parallel signal processing steps, such as Hough transformation, VLSI chips or memristors for the power-saving implementation, including artificial neural networks.

In Ausführungsformen wird die auditorische Umgebung räumlich erfasst und wiedergegeben, was einerseits mehr als ein Signal zur Repräsentation des Eingangssignals, andererseits auch eine räumliche Wiedergabe nutzt.In embodiments, the auditory environment is spatially recorded and reproduced, which on the one hand uses more than one signal to represent the input signal and on the other hand also uses a spatial reproduction.

In Ausführungsformen erfolgt die Signaltrennung mittels Deep Learning (DL) Modellen (z.B. CNN, RCNN, LSTM, Siamese Network) und bearbeitet simultan die Informationen von mindestens zwei Mikrofonkanälen, wobei mindestens ein Mikrofon in jedem Hearable ist. Erfindungsgemäß werden durch die gemeinsame Analyse mehrere Ausgangssignale (entsprechend den einzelnen Klangquellen) zusammen mit ihrer jeweiligen räumlichen Position bestimmt. Ist die Aufnahmeeinrichtung (Mikrofone) mit dem Kopf verbunden, dann verändern sich die Positionen der Objekte bei Kopfbewegungen. Dies ermöglicht eine natürliche Fokussierung auf wichtigen/unwichtigen Schall, z.B. durch Hinwendung zum Schallobjekt durch den Hörer.In embodiments, the signal separation is performed using Deep Learning (DL) models (e.g. CNN, RCNN, LSTM, Siamese Network) and simultaneously processes the information from at least two microphone channels, with at least one microphone being in each hearable. According to the invention, a number of output signals (corresponding to the individual sound sources) together with their respective spatial position are determined by the joint analysis. If the recording device (microphones) is connected to the head, then the positions of the objects change when the head moves. This enables a natural focusing on important/unimportant sound, eg by turning the listener towards the sound object.

In manchen Ausführungsformen beruhen die Algorithmen zur Signalanalyse beispielsweise auf einer Deep Learning Architektur. Dabei werden alternativ Varianten mit einer Analyse-Einheit oder Varianten mit getrennten Netzen für die Aspekte Lokalisierung, Erkennung und Quellentrennung verwendet. Durch die alternative Verwendung von generalized crosscorrelation (Korrelation versus Zeitversatz) wird der Frequenzabhängigen Abschattung durch den Kopf Rechnung getragen und die Lokalisierung, Erkennung und Quellentrennung verbessert.In some embodiments, the signal analysis algorithms are based on a deep learning architecture, for example. Alternative variants with an analysis unit or variants with separate networks are used for the aspects of localization, detection and source separation. The alternative use of generalized cross-correlation (correlation versus time offset) takes account of the frequency-dependent shadowing by the head and improves localization, detection and source separation.

Gemäß einer Ausführungsform werden in einer Trainingsphase durch den Erkenner verschiedene Quellenkategorien (z.B. Sprache, Fahrzeuge, männlich/weiblich/Kinderstimme, Warntöne, etc.) gelernt. Hierbei werden auch die Quelltrennungsnetze auf hohe Signalqualität trainiert, sowie die Lokalisationsnetze mit gezielten Stimuli auf eine hohe Genauigkeit der Lokalisation.According to one embodiment, different source categories (e.g. speech, vehicles, male/female/child's voice, warning tones, etc.) are learned by the recognizer in a training phase. Here, the source separation networks are also trained for high signal quality, as well as the localization networks with targeted stimuli for high localization accuracy.

Die oben genannte Trainingsschritte benutzen beispielsweise mehrkanalige Audiodaten, wobei in der Regel ein erster Trainingsdurchgang im Labor mit simulierten oder aufgezeichneten Audiodaten erfolgt. Dies ist gefolgt von einem Trainingsdurchgang in unterschiedlichen natürlichen Umgebungen (z.B. Wohnzimmer, Klassenzimmer, Bahnhof, (industrielle) Produktionsumgebungen, etc.), d.h. es erfolgt ein Transfer Learning und eine Domain Adaptation.The training steps mentioned above use, for example, multi-channel audio data, with a first training run usually being carried out in the laboratory using simulated or recorded audio data. This is followed by a training session in different natural environments (e.g. living room, classroom, train station, (industrial) production environment, etc.), i.e. transfer learning and domain adaptation takes place.

Alternativ oder zusätzlich könnte der Erkenner für die Position mit einer oder mehreren Kameras gekoppelt werden um auch die visuelle Position von Schallquellen/Audioquellen zu bestimmen. Bei Sprache werden hierbei Lippenbewegung und die aus dem Quellentrenner kommenden Audiosignale korreliert und damit eine genauere Lokalisation erzielt.Alternatively or additionally, the position detector could be coupled to one or more cameras to also determine the visual position of sound/audio sources. In the case of speech, lip movement and the audio signals coming from the source separator are correlated and thus a more precise localization is achieved.

Nach dem Training existiert ein DL-Modell mit Netzarchitektur und den dazugehörigen Parametern.After training, a DL model with network architecture and the associated parameters exists.

In manchen Ausführungsformen erfolgt die Auralisierung mittels Binauralsynthese. Die Binauralsynthese bietet den weiteren Vorteil, dass es möglich ist unerwünschte Komponenten nicht vollständig zu löschen, sondern nur soweit zu reduzieren, dass sie wahrnehmbar aber nicht störend sind. Dies hat den weiteren Vorteil das unerwartete weitere Quellen (Warnsignale, Rufe,...) wahrgenommen, welche bei einem kompletten Abschalten überhört würden.In some embodiments, the auralization is performed using binaural synthesis. The binaural synthesis offers the further advantage that it is possible not to delete unwanted components completely, but only to reduce them to the extent that they are perceptible but not disturbing. This has the further advantage of receiving unexpected additional sources (warning signals, calls,...) which would be ignored if the system was switched off completely.

Gemäß mancher Ausführungsformen wird die Analyse der auditorischen Umgebung nicht nur zur Trennung der Objekte verwendet sondern auch zur Analyse der akustischen Eigenschaften (z.B. Nachhallzeit, Initital Time Gap) verwendet. Diese Eigenschaften werden dann in der Binauralsynthese eingesetzt um die vorgespeicherten (evtl. auch individualisierten) binauralen Raumimpulsantworten (BRIR) an den tatsächlichen Raum anzupassen. Durch die Reduktion der Raumdivergenz hat der Hörer eine deutlich reduzierte Höranstrengung beim Verstehen der optimierten Signale. Eine Minimierung der Raumdivergenz hat Auswirkung auf die Externalisierung der Hörereignisse und somit auf die Plausibilität der räumlichen Audiowiedergabe im Abhörraum. Zum Sprachverstehen oder zum allgemeinem Verstehen von optimierten Signalen existieren im Stand der Technik keine bekannten Lösungen.According to some embodiments, the analysis of the auditory environment is not only used to separate the objects, but also to analyze the acoustic properties (e.g. reverberation time, initial time gap). These properties are then used in the binaural synthesis to adapt the pre-stored (possibly also individualized) binaural room impulse responses (BRIR) to the actual room. Due to the reduction in room divergence, the listener has a significantly reduced listening effort when understanding the optimized signals. Minimizing room divergence affects the externalization of auditory events and thus the plausibility of spatial audio reproduction in the listening room. There are no known solutions in the prior art for speech understanding or for the general understanding of optimized signals.

In Ausführungsformen wird mittels einer Benutzeroberfläche bestimmt, welche Schallquellen ausgewählt werden. Erfindungsgemäß erfolgt dies hier durch das vorherige Lernen unterschiedlicher Benutzerszenarien, wie z.B. "verstärke Sprache genau von vorne" (Gespräch mit einer Person), "verstärke Sprache im Bereich +-60 Grad" (Gespräch in der Gruppe), "unterdrücke Musik und verstärke Musik" (Konzertbesucher will ich nicht hören), "mach alles Leise" (ich will meine Ruhe), "unterdrücke alles Rufe und Warntöne", etc.In embodiments, a user interface is used to determine which sound sources are selected. According to the invention, this is done here by prior learning of different user scenarios, such as "amplify speech right from the front" (conversation with one person), "amplify speech in the range of +-60 degrees" (conversation in a group), "suppress music and amplify music " (I don't want to hear concert goers), "make everything quiet" (I want my peace), "suppress all calls and warning tones", etc.

Manche Ausführungsformen sind unabhängig von der verwendeten Hardware, d.h. sowohl offene als auch geschlossene Kopfhörer können verwendet werden. Die Signalverarbeitung kann in den Kopfhörer integriert sein, in einem externen Gerät sein, oder auch in einem Smartphone integriert sein. Optional können zusätzlich zur Wiedergabe von akustisch aufgenommenen und verarbeiteten Signalen auch Signale aus dem Smartphone (z.B. Musik, Telefonie) direkt wiedergegeben werden.Some embodiments are independent of the hardware used, i.e. both open and closed headphones can be used. The signal processing can be integrated in the headphones, in an external device, or integrated in a smartphone. Optionally, in addition to the playback of acoustically recorded and processed signals, signals from the smartphone (e.g. music, telephony) can also be played back directly.

In anderen Ausführungsformen wird ein Ökosystem für "selektives Hören mit KI-Unterstützung" bereitgestellt. Ausführungsbeispiele beziehen sich auf die "personalisierte auditorische Realität" (Personalized Auditory Reality - PARty). In einer solchen personalisierten Umgebung ist der Hörer in der Lage, definierte akustische Objekte zu verstärken, zu mindern oder zu modifizieren. Zur Erschaffung eines an die individuellen Bedürfnisse angepassten Klangerlebnisses sind eine Reihe von Analyse- und Synthesevorgängen durchzuführen. Die Arbeiten der anvisierten Umsetzungsphase bilden hierfür einen essentiellen Baustein.In other embodiments, an ecosystem for "selective listening with AI support" is provided. Exemplary embodiments relate to "Personalized Auditory Reality" (PARty). In such a personalized environment, the listener is able to amplify, attenuate, or modify defined acoustic objects. To create a sound experience tailored to individual needs, a number of analysis and to carry out synthesis processes. The work of the envisaged implementation phase forms an essential building block for this.

Manche Ausführungsformen realisieren die Analyse der realen Schallumgebung und Erfassung der einzelnen akustischen Objekte, die Separation, Verfolgung und Editierbarkeit der vorhandenen Objekte und die Rekonstruktion und die Wiedergabe der modifizierten akustischen Szene.Some embodiments implement the analysis of the real sound environment and the detection of the individual acoustic objects, the separation, tracking and editability of the existing objects and the reconstruction and playback of the modified acoustic scene.

In Ausführungsbeispielen wird eine Erkennung von Klangereignissen, eine Trennung der Klangereignisse, und eine Unterdrückung mancher der Klangereignisse realisiert.In exemplary embodiments, a detection of sound events, a separation of the sound events, and a suppression of some of the sound events is implemented.

In Ausführungsformen kommen KI-Verfahren (insbesondere Deep-Learning-basierte Verfahren gemeint) zum Einsatz.In embodiments, AI methods (meaning in particular deep learning-based methods) are used.

Ausführungsformen der Erfindung tragen zur technologischen Entwicklung für Aufnahme, Signalverarbeitung und Wiedergabe von räumlichem Audio bei.Embodiments of the invention contribute to the technological development for recording, signal processing and reproduction of spatial audio.

Ausführungsformen erzeugen z.B. Räumlichkeit und Dreidimensionalität in multimedialen Systemen bei interagierendem Nutzer
Ausführungsbeispiele basieren dabei auf erforschtem Wissen von perzeptiven und kognitiven Vorgängen des räumlichen Hörens.
Embodiments create, for example, spatiality and three-dimensionality in multimedia systems when the user interacts
Exemplary embodiments are based on researched knowledge of perceptual and cognitive processes of spatial hearing.

Manche Ausführungsformen nutzen zwei oder mehrere der nachfolgenden Konzepte:
Szenenzerlegung: Dies umfasst eine raumakustische Erfassung der realen Umgebung und Parameterschätzung und/oder eine positionsabhängige Schallfeldanalyse.
Some embodiments use two or more of the following concepts:
Scene decomposition: This includes a room-acoustic recording of the real environment and parameter estimation and/or a position-dependent sound field analysis.

Szenenrepräsentation: Dies umfasst eine Repräsentation und Identifikation der Objekte und der Umgebung und/oder eine effiziente Darstellung und Speicherung.Scene Representation: This includes representation and identification of the objects and the environment and/or efficient representation and storage.

Szenenzusammensetzung und Wiedergabe: Dies umfasst eine Anpassung und Veränderung der Objekte und der Umgebung und/oder ein Rendering und eine Auralisierung.Scene composition and rendering: This includes object and environment adjustment and manipulation and/or rendering and auralization.

Qualitätsevaluierung: Dies umfasst technische und/oder auditive Qualitätsmessung.Quality evaluation: This includes technical and/or auditory quality measurement.

Mikrofonierung: Dies umfasst eine Anwendung von Mikrofonarrays und passender Audiosignalverarbeitung.Miking: This involves an application of microphone arrays and appropriate audio signal processing.

Signalaufbereitung: Dies umfasst eine Merkmalsextraktion sowie Datensatzerzeugung für ML (Maschinelles Lernen).Signal processing: This includes feature extraction and dataset generation for ML (machine learning).

Schätzung Raum- und Umgebungsakustik: Dies umfasst eine in-situ Messung und Schätzung raumakustischer Parameter und/oder eine Bereitstellung von Raumakustikmerkmalen für Quellentrennung und ML.Estimation of room and environment acoustics: This includes in-situ measurement and estimation of room acoustic parameters and/or provision of room acoustic characteristics for source separation and ML.

Auralisierung: Dies umfasst eine räumliche Audiowiedergabe mit auditiver Passung zur Umgebung und /oder eine Validierung und Evaluierung und/oder einen Funktionsnachweis und eine Qualitätsabschätzung.Auralization: This includes a spatial audio reproduction with an auditory fit to the environment and/or a validation and evaluation and/or a proof of function and a quality assessment.

Fig. 8 stellt ein entsprechendes Szenario gemäß einem Ausführungsbeispiel dar. 8 represents a corresponding scenario according to an exemplary embodiment.

Ausführungsformen kombinieren Konzepte für die Erfassung, Klassifikation, Trennung, Lokalisation und Verbesserung von Schallquellen, wobei jüngste Fortschritte in jedem Bereich hervorgehoben und Zusammenhänge zwischen ihnen aufgezeigt werden.Embodiments combine concepts for detecting, classifying, separating, locating, and enhancing sound sources, highlighting recent advances in each area and showing relationships between them.

Es werden einheitliche Konzepte bereitgestellt, die Schallquellen kombinieren erfassen/klassifizieren/lokalisieren und trennen/verbessern können, um sowohl die für SH im echten Leben erforderliche Flexibilität als auch Robustheit bereitzustellen.Unified concepts are provided that can combine detect/classify/locate and separate/enhance sound sources to provide both the flexibility and robustness required for real-life SH.

Ferner stellen Ausführungsformen für Echtzeitleistung geeignete Konzepte mit einer geringen Latenz sind im Umgang mit der Dynamik auditiver Szenen im echten Leben bereit.Furthermore, embodiments for real-time performance provide appropriate low-latency concepts when dealing with the dynamics of real-life auditory scenes.

Manche der Ausführungsformen nutzen Konzepte für tiefes Lernen (engl.: Deep Learning), maschinelles Hören und smarte Kopfhörer (engl.: smart hearables), die es Hörern ermöglichen, ihre auditive Szene selektiv zu modifizieren.Some of the embodiments utilize concepts of deep learning, machine hearing, and smart hearables that allow listeners to selectively modify their auditory scene.

Ausführungsformen stellen dabei die Möglichkeit für einen Hörer bereit, Schallquellen in der auditiven Szene mittels einer Hörvorrichtung wie Kopfhörern, Ohrhörern etc. selektiv zu verbessern, zu dämpfen, zu unterdrücken oder zu modifizieren.Embodiments provide the possibility for a listener to selectively improve, dampen, suppress or modify sound sources in the auditory scene using a hearing device such as headphones, earphones, etc.

Fig. 9 stellt ein Szenario gemäß einer Ausführungsform mit vier externen Schallquellen dar. (In Fig. 9 bedeuten: Keep - Beibehalten; Suppress - Unterdrücken; Alarm - Alarm; Cellphone - Handy; Speaker X - Sprecher X; City Noise - Stadtgeräusche; Source Control - Quellensteuerung). 9 represents a scenario according to an embodiment with four external sound sources. (In 9 mean: Keep - Maintain; Suppress - Suppress; alarm - alarm; cellphone - mobile phone; Speaker X - Speaker X; City Noise - city sounds; Source Control - source control).

In Fig. 9 stellt der Benutzer den Mittelpunkt der auditiven Szene dar. In diesem Fall sind vier externe Schallquellen (S1-S4) um den Benutzer herum aktiv. Eine Benutzerschnittstelle ermöglicht es dem Hörer, die auditive Szene zu beeinflussen. Die Quellen S1-S4 können mit ihren entsprechenden Schiebern gedämpft, verbessert oder unterdrückt werden. Wie in Fig. 2 zu sehen ist, kann der Hörer Schallquellen oder - ereignisse definieren, die beibehalten werden sollen oder in der auditiven Szene unterdrückt werden sollen. In Fig. 2 sollen die Hintergrundgeräusche der Stadt unterdrückt werden, während Alarme oder das Klingeln von Telefonen beibehalten werden sollen. Der Benutzer hat jederzeit die Möglichkeit, einen zusätzlichen Audiostream wie Musik oder Radio über die Hörvorrichtung abzuspielen.In 9 the user represents the center of the auditory scene. In this case, four external sound sources (S1-S4) are active around the user. A user interface allows the listener to influence the auditory scene. Sources S1-S4 can be attenuated, enhanced or suppressed with their respective sliders. As in 2 can be seen, the listener can define sound sources or events to be retained or suppressed in the auditory scene. In 2 is designed to suppress the background noise of the city while preserving alarms or the ringing of phones. The user always has the option of playing an additional audio stream such as music or radio via the hearing device.

Der Benutzer ist in der Regel der Mittelpunkt des Systems und steuert die auditive Szene mittels einer Steuereinheit. Der Benutzer kann die auditive Szene mit einer Benutzerschnittstelle wie der in Fig. 9 dargestellten oder mit jeder beliebigen Art von Interaktion wie Sprachsteuerung, Gesten, Blickrichtung etc. modifizieren. Sobald der Benutzer Feedback an das System gegeben hat, besteht der nächste Schritt in einer Erfassungs-/Klassifikations-/Lokalisationsstufe. In einigen Fällen ist nur die Erfassung notwendig, z. B. wenn der Benutzer jede in der auditiven Szene auftretende Sprachäußerung beibehalten möchte. In anderen Fällen könnte Klassifikation notwendig sein, z. B. wenn der Benutzer Feueralarme in der auditiven Szene beibehalten möchte, jedoch nicht Telefonklingeln oder Bürolärm. In einigen Fällen ist nur der Standort der Quelle für das System relevant. Dies ist zum Beispiel bei den vier Quellen in Fig. 9 der Fall: Der Benutzer kann sich dazu entscheiden, die aus einer bestimmten Richtung kommende Schallquelle zu entfernen oder zu dämpfen, unabhängig von der Art oder den Charakteristika der Quelle.The user is usually the center of the system and controls the auditory scene via a control unit. The user can control the auditory scene with a user interface like the one in 9 displayed or modified with any kind of interaction such as voice control, gestures, direction of gaze, etc. Once the user has provided feedback to the system, the next step is a capture/classification/localization stage. In some cases only the acquisition is necessary, e.g. B. when the user wants to keep every speech utterance occurring in the auditory scene. In other cases classification might be necessary, e.g. B. if the user wants to keep fire alarms in the auditory scene, but not phone rings or office noise. In some cases only the location of the source is relevant to the system. This is the case, for example, with the four springs in 9 the case: the user can choose to remove or attenuate the sound source coming from a certain direction, regardless of the type or characteristics of the source.

Fig. 10 stellt einen Verarbeitungsworkflow einer SH-Anwendung gemäß einer Ausführungsform dar. 10 Figure 12 illustrates a processing workflow of an SH application according to one embodiment.

Die auditive Szene wird zuerst in der Stufe der Trennung/Verbesserung in Fig. 10 modifiziert. Dies geschieht entweder durch Unterdrücken, Dämpfen oder Verbessern einer bestimmten Schallquelle (bzw. von bestimmten Schallquellen). Wie in Fig. 10 gezeigt ist, besteht eine zusätzliche Verarbeitungsalternative bei dem SH in der Rauschsteuerung, bei der es das Ziel ist, das Hintergrundrauschen aus der auditiven Szene zu entfernen oder es darin zu minimieren. Die vielleicht beliebteste und am weitesten verbreitete Technologie zur Rauschsteuerung ist heute Antischall (engl.: Active Noise Control, ANC) [11].The auditory scene is first in the stage of separation / improvement in 10 modified. This is done either by suppressing, dampening, or enhancing one specific sound source (or from specific sound sources). As in 10 As shown, an additional processing alternative in the SH is noise control, where the goal is to remove or minimize background noise from the auditory scene. Perhaps the most popular and widely used noise control technology today is Active Noise Control (ANC) [11].

Man unterscheidet selektives Hören von virtuellen und verstärkten auditiven Umgebungen, indem wir selektives Hören auf diejenigen Anwendungen beschränken, bei denen nur echte Audioquellen in der auditiven Szene modifiziert werden, ohne zu versuchen, der Szene irgendwelche virtuellen Quellen hinzuzufügen.One distinguishes selective listening from virtual and amplified auditory environments by restricting selective listening to those applications where only real audio sources are modified in the auditory scene without attempting to add any virtual sources to the scene.

Aus einer Perspektive des maschinellen Hörens erfordern es Anwendungen für selektives Hören, dass Technologien Schallquellen automatisch erfassen, lokalisieren, klassifizieren, trennen und verbessern. Um die Terminologie bezüglich selektivem Hören weiter zu verdeutlichen, definieren wir die folgenden Begriffe, wobei wir deren Unterschiede und Zusammenhänge hervorheben:
In Ausführungsformen wird z.B. Schallquellenlokalisation (engl.: Sound Source Localization) genutzt, die sich auf die Fähigkeit bezieht, die Position einer Schallquelle in der auditiven Szene zu erfassen. Im Zusammenhang mit Audioverarbeitung bezieht sich ein Quellenstandort üblicherweise auf die Ankunftsrichtung (engl.: direction of arrival, DOA) einer gegebenen Quelle, die entweder als 2D-Koordinate (Azimut) oder, wenn sie eine Erhöhung umfasst, als 3D-Koordinate gegeben sein kann. Einige Systeme schätzen auch die Entfernung von der Quelle zu dem Mikrofon als Standortinformation [3]. Im Zusammenhang mit Musikverarbeitung bezieht sich der Standort oft auf das Panning der Quelle in der finalen Abmischung und ist üblicherweise als Winkel in Grad angegeben [4].
From a machine hearing perspective, selective hearing applications require technologies to automatically detect, locate, classify, separate, and enhance sound sources. To further clarify the terminology related to selective hearing, we define the following terms, emphasizing their differences and interrelationships:
For example, embodiments utilize sound source localization, which refers to the ability to detect the position of a sound source in the auditory scene. In the context of audio processing, a source location usually refers to the direction of arrival (DOA) of a given source, which can be given either as a 2D coordinate (azimuth) or, if it includes an elevation, as a 3D coordinate . Some systems also estimate the distance from the source to the microphone as location information [3]. In the context of music processing, location often refers to the panning of the source in the final mix and is usually specified as an angle in degrees [4].

Gemäß Ausführungsformen wird z.B. Schallquellenerfassung (engl.: Sound Source Detection) genutzt, die sich auf die Fähigkeit bezieht, zu bestimmen, ob irgendeine Instanz eines gegebenen Schallquellentyps in der auditiven Szene vorliegt. Ein Beispiel für einen Erfassungsvorgang besteht darin, zu bestimmen, ob irgendein Sprecher in der Szene anwesend ist. In diesem Zusammenhang geht das Bestimmen der Anzahl von Sprechern in der Szene oder der Identität der Sprecher über den Umfang der Schallquellenerfassung hinaus. Erfassung kann als binärer Klassifikationsvorgang verstanden werden, bei der die Klassen den Angaben "Quelle anwesend" und "Quelle abwesend" entsprechen.For example, embodiments utilize sound source detection, which refers to the ability to determine whether any instance of a given type of sound source is present in the auditory scene. An example of a detection process is to determine if any speaker is present in the scene. In this context, determining the number of speakers in the scene or the identity of the speakers goes beyond the scope of sound source detection. Detection can be thought of as a binary classification process where the classes correspond to source present and source absent.

In Ausführungsformen wird z.B. Schallquellenklassifikation (engl.: Sound Source Classification) genutzt, die einer gegebenen Schallquelle oder einem gegebenen Schallereignis eine Klassenbezeichnung aus einer Gruppe vordefinierter Klassen zuordnet. Ein Beispiel für einen Klassifikationsvorgang besteht darin, zu bestimmen, ob eine gegebene Schallquelle Sprache, Musik oder Umgebungsgeräuschen entspricht. Schallquellenklassifikation und -erfassung sind eng zusammenhängende Konzepte. In einigen Fällen enthalten Klassifikationssysteme eine Erfassungsstufe, indem "keine Klasse" als eine der möglichen Bezeichnungen betrachtet wird. In diesen Fällen lernt das System implizit, die Anwesenheit oder Abwesenheit einer Schallquelle zu erfassen, und ist nicht dazu gezwungen, eine Klassenbezeichnung zuzuordnen, wenn keine hinreichenden Hinweise darauf vorliegen, dass irgendeine der Quellen aktiv ist.For example, embodiments use Sound Source Classification, which assigns a class designation from a group of predefined classes to a given sound source or sound event. An example of a classification process is to determine whether a given sound source corresponds to speech, music, or ambient noise. Sound source classification and detection are closely related concepts. In some cases, classification systems include a level of coverage by considering "no class" as one of the possible designations. In these cases, the system implicitly learns to detect the presence or absence of a sound source and is not forced to assign a class designation if there is insufficient evidence that any of the sources is active.

Gemäß Ausführungsformen wird z.B. Schallquellentrennung (engl.: Sound Source Separation) genutzt, die sich auf die Extraktion einer gegebenen Schallquelle aus einer Audioabmischung oder einer auditiven Szene bezieht. Ein Beispiel für Schallquellentrennung ist die Extraktion einer Singstimme aus einer Audioabmischung, bei der neben dem Sänger weitere Musikinstrumente simultan gespielt werden [5]. Schallquellentrennung wird in einem selektiven Hörszenario relevant, da es das Unterdrücken von für den Hörer nicht interessanten Schallquellen ermöglicht. Einige Schalltrennungssysteme führen implizit einen Erfassungsvorgang durch, bevor sie die Schallquelle aus der Abmischung extrahieren. Dies ist jedoch nicht zwangsläufig die Regel, und daher heben wir die Unterscheidung zwischen diesen Vorgängen hervor. Zusätzlich dient die Trennung oft als Vorverarbeitungsstufe für andere Analysearten wie Quellenverbesserung [6] oder -klassifikation [7].For example, embodiments utilize sound source separation, which refers to the extraction of a given sound source from an audio mix or an auditory scene. An example of sound source separation is the extraction of a singing voice from an audio mix in which other musical instruments are played simultaneously in addition to the singer [5]. Sound source separation becomes relevant in a selective listening scenario, as it allows for the suppression of sound sources that are of no interest to the listener. Some sound separation systems implicitly perform a detection process before extracting the sound source from the mix. However, this is not necessarily the rule and so we emphasize the distinction between these operations. In addition, the separation often serves as a pre-processing stage for other types of analysis such as source enhancement [6] or classification [7].

In Ausführungsformen wird z.B. Schallquellenidentifizierung (engl.: Sound Source Identification) genutzt, die einen Schritt weiter geht und darauf abzielt, spezifische Instanzen einer Schallquelle in einem Audiosignal zu identifizieren. Sprecheridentifizierung ist heute die vielleicht häufigste Verwendung von Quellenidentifizierung. Das Ziel besteht bei diesem Vorgang darin, zu identifizieren, ob ein spezifischer Sprecher in der Szene anwesend ist. Bei dem Beispiel in Fig. 1 hat der Benutzer "Sprecher X" als eine der in der auditiven Szene beizubehaltenden Quellen ausgewählt. Dies erfordert Technologien, die über die Erfassung und Klassifikation von Sprache hinausgehen, und verlangt sprecherspezifische Modelle, die diese präzise Identifizierung ermöglichen.For example, embodiments use Sound Source Identification, which goes one step further and aims to identify specific instances of a sound source in an audio signal. Speaker identification is perhaps the most common use of source identification today. The goal of this process is to identify whether a specific speaker is present in the scene. In the example in 1 the user has selected "speaker X" as one of the sources to keep in the auditory scene. This requires technologies that go beyond speech capture and classification, and requires speaker-specific models that enable this precise identification.

Gemäß Ausführungsformen wird z.B. Schallquellenverbesserung (engl.: Sound Source Enhancement) genutzt, die sich auf den Prozess bezieht, das Herausstechen einer gegebenen Schallquelle in der auditiven Szene zu erhöhen [8]. Im Fall von Sprachsignalen besteht das Ziel oft darin, deren Qualitäts- und Verständlichkeitswahrnehmung zu erhöhen. Ein übliches Szenario für Sprachverbesserung ist das Entrauschen von Sprachäußerungen, die durch Rauschen beeinträchtigt sind [9]. Im Zusammenhang von Musikverarbeitung bezieht sich Quellenverbesserung auf das Konzept des Herstellens von Remixen und wird oft durchgeführt, um ein Musikinstrument (eine Schallquelle) in der Abmischung mehr herausstechen zu lassen. Anwendungen zum Herstellen von Remixen verwenden oft Schalltrennungsvorstufen (sound separation front-ends), um Zugriff auf die einzelnen Schallquellen zu erhalten und die Charakteristika der Abmischung zu verändern [10]. Obwohl der Schallverbesserung eine Schallquellentrennungsstufe vorausgehen kann, ist dies nicht immer der Fall, und daher heben wir auch die Unterscheidung zwischen diesen beiden Begriffen hervor.For example, embodiments utilize sound source enhancement, which refers to the process of increasing the prominence of a given sound source in the auditory scene [8]. In the case of speech signals, the goal is often to increase their perception of quality and intelligibility. A common scenario for speech enhancement is denoising noise-tainted speech utterances [9]. In the context of music processing, source enhancement refers to the concept of making remixes and is often done to make a musical instrument (sound source) stand out more in the mix. Remixing applications often use sound separation front-ends to gain access to the individual sound sources and to change the characteristics of the mix [10]. Although sound enhancement may be preceded by a sound source separation stage, this is not always the case and so we also emphasize the distinction between these two terms.

Im Bereich der Schallquellenerfassung, -klassifikation und -identifizierung (engl.: Sound Source Detection, Classification and Identification) setzen manche der Ausführungsformen z.B. eines des nachfolgenden Konzepte ein, wie z.B. die Erfassung und Klassifikation akustischer Szenen und Ereignisse [18]. In diesem Zusammenhang wurden Methoden für Audioereigniserfassung (engl.: audio event detection, AED) in häuslichen Umgebungen vorgeschlagen, bei denen das Ziel darin besteht, die Zeitgrenzen eines gegebenen Schallereignisses innerhalb von 10-sekündigen Aufnahmen zu erfassen [19], [20]. In diesem besonderen Fall wurden 10 Schallereignisklassen berücksichtigt, darunter Katze, Hund, Sprachäußerung, Alarm und laufendes Wasser. Methoden für die Erfassung polyphoner Schallereignisse (mehrerer simultaner Ereignisse) wurden in der Literatur auch vorgeschlagen [21], [22]. In [21] wird eine Methode für die Erfassung polyphoner Schallereignisse vorgeschlagen, bei der insgesamt 61 Schallereignisse aus Situationen aus dem echten Leben unter Verwendung von Binäre-Aktivität-Detektoren auf der Basis eines rekurrenten neuronalen Netzes (engl.: recurrent neural network, RNN) mittels bidirektionalem langem Kurzzeitgedächtnis (engl.: bidirectional long short-term memory, BLSTM) erfasst werden.In the field of sound source detection, classification and identification, some of the embodiments use, for example, one of the following concepts, such as the detection and classification of acoustic scenes and events [18]. In this context, methods for audio event detection (AED) in home settings have been proposed, where the goal is to capture the time boundaries of a given sound event within 10-second recordings [19], [20]. In this particular case, 10 sound event classes were considered, including cat, dog, speech, alarm, and running water. Methods for detecting polyphonic sound events (several simultaneous events) have also been proposed in the literature [21], [22]. In [21] a method for the detection of polyphonic sound events is proposed, in which a total of 61 sound events from real-life situations are detected using binary activity detectors based on a recurrent neural network (RNN). using bidirectional long short-term memory (BLSTM).

Manche Ausführungsformen integrieren z.B., um mit spärlich bezeichneten Daten umzugehen, vorübergehende Aufmerksamkeitsmechanismen, um sich zur Klassifikation auf bestimmte Regionen des Signals zu konzentrieren [23]. Das Problem von Rauschbezeichnungen bei der Klassifikation ist besonders relevant für Anwendungen für selektives Hören, bei denen die Klassenbezeichnungen so verschieden sein können, dass qualitativ hochwertige Bezeichnungen sehr kostspielig sind [24]. Geräuschbezeichnungen bei Vorgängen zur Schallereignisklassifikation wurden in [25] thematisiert, wo geräuschrobuste Verlustfunktionen auf der Basis der kategorischen Kreuzentropie sowie Möglichkeiten, sowohl Daten mit Geräuschbezeichnungen als auch manuell bezeichnete Daten auszuwerten, präsentiert werden. Gleichermaßen präsentiert [26] ein System für Audioereignisklassifikation auf der Basis eines faltenden neuronalen Netzes (engl.: convolutional neural network, CNN), das einen Verifizierungsschritt für Geräuschbezeichnungen auf der Basis eines Vorhersagekonsenses des CNN bei mehreren Segmenten des Testbeispiels einschließt.For example, to deal with sparsely labeled data, some embodiments integrate transient attention mechanisms to focus on particular regions of the signal for classification [23]. The problem of noise labels in classification is particularly relevant for applications to selective listening, where the class designations can be so different that high quality designations are very costly [24]. Noise labels in sound event classification processes have been addressed in [25], where noise-robust loss functions based on categorical cross-entropy are presented, as well as ways to evaluate data with noise labels as well as manually labeled data. Likewise, [26] presents a system for audio event classification based on a convolutional neural network (CNN) that includes a verification step for sound labels based on a CNN prediction consensus on several segments of the test example.

Einige Ausführungsformen realisieren beispielsweise, Schallereignisse simultan zu erfassen und zu verorten. So führen manche Ausführungsformen, wie in [27] die Erfassung als einen Klassifikationsvorgang mit mehreren Bezeichnungen durch, und der Standort wird als die 3D-Koordinaten der Ankunftsrichtung (DOA) für jedes Schallereignis gegeben.For example, some embodiments implement simultaneous detection and localization of sound events. Thus, some embodiments, as in [27], perform the detection as a multi-label classification process and the location is given as the 3D coordinates of the direction of arrival (DOA) for each sound event.

Manche Ausführungsformen nutzen Konzepte der Stimmaktivitätserfassung und an Sprechererkennung/-identifizierung für SH. Stimmaktivitätserfassung wurde in geräuschvollen Umgebungen unter Verwendung von entrauschenden Autoencodern [28], rekurrenten neuronalen Netzen [29] oder als Ende-zu-Ende-System unter Verwendung unverarbeiteter Signalverläufe (raw waveforms) [30] thematisiert. Für Sprechererkennungsanwendungen wurden viele Systeme in der Literatur vorgeschlagen [31], wobei sich die überwiegende Mehrheit darauf konzentriert, die Robustheit gegenüber verschiedenen Bedingungen zu erhöhen, beispielsweise mit Datenvergrößerung oder mit verbesserten Einbettungen, die die Erkennung erleichtern [32]-[34]. So nutzen einige der Ausführungsformen diese Konzepte.Some embodiments use concepts of voice activity detection and speaker recognition/identification for SH. Voice activity detection has been addressed in noisy environments using denoising autoencoders [28], recurrent neural networks [29] or as an end-to-end system using raw waveforms [30]. For speaker recognition applications, many schemes have been proposed in the literature [31], with the vast majority focusing on increasing robustness to different conditions, for example with data augmentation or with improved embeddings that facilitate recognition [32]-[34]. So some of the embodiments make use of these concepts.

Weitere Ausführungsformen nutzen Konzepte zur Klassifikation von Musikinstrumenten für die Schallereigniserfassung. Die Klassifikation von Musikinstrumenten sowohl in monophonen als auch polyphonen Umgebungen wurde in der Literatur behandelt [35], [36]. In [35] wird das vorherrschende Instrument in 3-sekündigen Audiosegmenten unter 11 Instrumentenklassen klassifiziert, wobei einige Aggregationsverfahren vorgeschlagen werden. Gleichermaßen schlägt [37] eine Methode für die Erfassung der Aktivität von Musikinstrumenten vor, die in der Lage ist, Instrumente in einer feineren zeitlichen Auflösung von 1 Sek zu erfassen. Ein beträchtliches Maß an Forschung wurde in dem Bereich der Singstimmenanalyse betrieben. Insbesondere wurden Methoden wie [38] für den Vorgang des Erfassens von Segmenten in einer Audioaufnahme vorgeschlagen, bei denen die Singstimme aktiv ist. Manche Ausführungsformen nutzen diese Konzepte.Further embodiments use concepts for the classification of musical instruments for sound event detection. The classification of musical instruments in both monophonic and polyphonic environments has been discussed in the literature [35], [36]. In [35], the predominant instrument in 3-second audio segments is classified under 11 instrument classes, with some aggregation methods proposed. Similarly, [37] proposes a method for detecting musical instrument activity that is capable of detecting instruments at a finer temporal resolution of 1 s. A considerable amount of research has been done in the area of singing voice analysis. In particular, methods such as [38] for proposed the process of capturing segments in an audio recording where the singing voice is active. Some embodiments make use of these concepts.

Manche der Ausführungsformen nutzen zur Schallquellenlokalisation (engl.: Sound Source Localization) eines der nachfolgend diskutieren Konzepte. So hängt Schallquellenlokalisation eng mit dem Problem des Quellenzählens zusammen, da die Anzahl von Schallquellen in der auditiven Szene üblicherweise in Anwendungen aus dem echten Leben nicht bekannt ist. Einige Systeme arbeiten unter der Annahme, dass die Anzahl von Quellen in der Szene bekannt ist. Dies ist beispielsweise bei dem in [39] präsentierten Modell der Fall, das Histogramme aktiver Intensitätsvektoren verwendet, um die Quellen zu verorten. [40] schlägt aus einer kontrollierten Perspektive einen CNNbasierten Algorithmus vor, um die DOA mehrerer Sprecher in der auditiven Szene unter Verwendung von Phasenkarten als Eingabedarstellungen zu schätzen. Im Gegensatz dazu schätzen mehrere Arbeiten in der Literatur gemeinsam die Anzahl von Quellen in der Szene und deren Standortinformationen. Dies ist bei [41] der Fall, wo ein System für eine Lokalisation mehrerer Sprecher in geräuschvollen und hallenden Umgebungen vorgeschlagen wird. Das System verwendet ein komplexwertiges Gaußsches Mischmodell (engl.: Gaussian Mixture Model, GMM), um sowohl die Anzahl von Quellen als auch deren Standortinformationen zu schätzen. Die dort beschriebenen Konzepte werden von manchen der Ausführungsformen eingesetzt.Some of the embodiments use one of the concepts discussed below for sound source localization. Thus, sound source localization is closely related to the problem of source counting, since the number of sound sources in the auditory scene is usually not known in real-life applications. Some systems operate on the assumption that the number of sources in the scene is known. This is the case, for example, with the model presented in [39], which uses histograms of active intensity vectors to locate the sources. [40] proposes, from a controlled perspective, a CNN-based algorithm to estimate the DOA of multiple speakers in the auditory scene using phase maps as input representations. In contrast, several works in the literature collectively estimate the number of sources in the scene and their location information. This is the case in [41], where a system for multi-speaker localization in noisy and reverberant environments is proposed. The system uses a complex-valued Gaussian Mixture Model (GMM) to estimate both the number of sources and their location information. The concepts described there are employed by some of the embodiments.

Algorithmen zur Schallquellenlokalisation können rechentechnisch anspruchsvoll sein, da sie oft ein Abtasten eines großen Raums um die auditive Szene herum umfassen [42]. Um rechentechnische Anforderungen hinsichtlich der Lokalisationsalgorithmen zu reduzieren, nutzen einige der Ausführungsformen Konzepte, die den Suchraum durch den Einsatz von Clustering-Algorithmen [43] oder durch Durchführen von Mehrfachauflösungssuchen [42] bezüglich bewährter Verfahren wie diejenigen auf der Basis der Steered-Response-Phasentransformation (steered response power phase transform, SRP-PHAT) reduzieren. Andere Verfahren stellen Anforderungen an die Dünnbesetztheit der Matrix und setzen voraus, dass nur eine Schallquelle in einem gegebenen Zeit-Frequenz-Bereich vorherrschend ist [44]. Unlängst wurde in [45] ein Ende-zu-Ende-System für Azimuterfassung direkt aus den unverarbeiteten Signalverläufen vorgeschlagen. Einige der Ausführungsformen nutzen diese Konzepte.Sound source localization algorithms can be computationally demanding as they often involve scanning a large space around the auditory scene [42]. In order to reduce computational demands on the location algorithms, some of the embodiments use concepts that expand the search space by using clustering algorithms [43] or by performing multi-resolution searches [42] relative to best practices such as those based on the steered-response phase transform (steered response power phase transform, SRP-PHAT). Other methods place requirements on the sparsity of the matrix and assume that only one sound source is dominant in a given time-frequency range [44]. Recently, [45] proposed an end-to-end system for azimuth detection directly from the raw waveforms. Some of the embodiments utilize these concepts.

Einige der Ausführungsformen nutzen Konzepte zur Schallquellentrennung (engl.: Sound Source Separation, SSS), die nachfolgend beschrieben werden, insbesondere aus den Bereichen Sprachtrennung und Musiktrennung.Some of the embodiments utilize Sound Source Separation (SSS) concepts described below, particularly in the areas of speech separation and music separation.

Insbesondere setzen einige Ausführungsformen Konzepte der sprecherunabhängigen Trennung ein. Dort erfolgt eine Trennung ohne jegliche Vorabinformationen über die Sprecher in der Szene [46]. Einige Ausführungsformen werten auch den räumlichen Standort des Sprechers aus, um eine Trennung durchzuführen [47].In particular, some embodiments employ concepts of speaker independent separation. There, a separation occurs without any prior information about the speakers in the scene [46]. Some embodiments also evaluate the speaker's spatial location to perform a separation [47].

In Anbetracht der Wichtigkeit rechentechnischer Leistung bei Anwendungen für selektives Hören ist die Forschung mit dem konkreten Ziel, geringe Latenz zu erzielen, besonders relevant. Es wurden einige Arbeiten vorgeschlagen, um Sprachtrennung mit geringer Latenz (< 10 ms) mit geringfügigen verfügbaren Lerndaten durchzuführen [48]. Um durch Framing-Analyse im Frequenzbereich verursachte Verzögerungen zu vermeiden, gehen einige Systeme das Trennungsproblem dahin gehend an, dass sie vorsichtig im Zeitbereich anzuwendende Filter entwerfen [49]. Andere Systeme erzielen eine Trennung mit geringer Latenz durch direktes Modellieren des Zeitbereichssignals unter Verwendung eines Codierer-Decodierer-Rahmens [50]. Im Gegensatz dazu versuchten einige Systeme, die Framing-Verzögerung bei Ansätzen der Frequenzbereichstrennung zu reduzieren [51]. Diese Konzepte werden von manchen der Ausführungsformen eingesetzt.Given the importance of computational performance in selective listening applications, research with the specific goal of achieving low latency is particularly relevant. Some work has been proposed to perform low-latency (<10 ms) speech separation with small available learning data [48]. To avoid delays caused by framing analysis in the frequency domain, some systems approach the separation problem by carefully designing filters to be applied in the time domain [49]. Other systems achieve low latency separation by modeling the time domain signal directly using a coder-decoder frame [50]. In contrast, some systems attempted to reduce framing delay in frequency domain separation approaches [51]. These concepts are employed by some of the embodiments.

Manche Ausführungsformen setzen Konzepte zur Trennung von Musiktönen (engl.: music sound separation, MSS) ein, die eine Musikquelle aus einer Audioabmischung zu extrahieren [5], etwa Konzepte zur Trennung von Hauptinstrument und Begleitung [52]. Diese Algorithmen nehmen die herausstechenste Schallquelle in der Abmischung, unabhängig von ihrer Klassenbezeichnung, und versuchen, sie von der restlichen Begleitung zu trennen. Manchen Ausführungsformen nutzen Konzepte zur Singstimmentrennung [53]. In den meisten Fällen werden entweder bestimmte Quellenmodelle [54] oder datengesteuerte Modelle [55] dazu verwendet, die Charakteristika der Singstimme einzufangen. Obwohl Systeme wie das in [55] vorgeschlagene nicht explizit eine Klassifikations- oder eine Erfassungsstufe einschließen, um eine Trennung zu erzielen, ermöglicht es das datengesteuerte Wesen dieser Ansätze diesen Systemen, implizit zu lernen, die Singstimme mit einer gewissen Genauigkeit vor der Trennung zu erfassen. Eine andere Klasse von Algorithmen im Musikbereich versucht, eine Trennung durchzuführen, indem lediglich der Standort der Quellen verwendet wird [4], ohne zu versuchen, die Quelle vor der Trennung zu klassifizieren oder zu erfassen. Einige der Ausführungsformen setzen Antischall (ANC)-Konzepte ein, z.B. die Aktive Lärmkompensation (ANC). ANC-Systeme zielen hauptsächlich darauf ab, Hintergrundrauschen für Benutzer von Kopfhörern zu reduzieren, indem ein Antischallsignal eingesetzt wird, um sie aufzuheben [11]. ANC kann als Sonderfall von SH betrachtet werden und steht vor einer gleichermaßen strengen Anforderung [14]. Einige Arbeiten konzentrierten sich auf Antischall in spezifischen Umgebungen wie Automobilinnenräume [56] oder betriebliche Szenarios [57]. Die Arbeit in [56] analysiert die Aufhebung verschiedener Arten von Geräuschen wie Straßenlärm und Motorengeräusche und erfordert einheitliche Systeme, die in der Lage sind, mit verschiedenen Arten von Geräuschen umzugehen. Einige Arbeiten konzentrierten sich auf das Entwickeln von ANC-Systemen zur Aufhebung von Geräuschen über spezifischen räumlichen Regionen. In [58] wird ANC über einer räumlichen Region unter Verwendung von Kugelflächenfunktionen als Basisfunktionen zur Darstellung des Geräuschfelds thematisiert. Einige der Ausführungsformen setzen die hier beschriebenen Konzepte ein.Some embodiments employ music sound separation (MSS) concepts to extract a music source from an audio mix [5], such as main instrument and accompaniment separation concepts [52]. These algorithms take the most prominent sound source in the mix, regardless of its class designation, and attempt to separate it from the rest of the accompaniment. Some embodiments use concepts for singing voice separation [53]. In most cases, either specific source models [54] or data-driven models [55] are used to capture the characteristics of the singing voice. Although systems like the one proposed in [55] do not explicitly include a classification or a detection stage to achieve separation, the data-driven nature of these approaches allows these systems to implicitly learn to detect the singing voice with some accuracy before separation . Another class of algorithms in music attempts to perform a separation using only the location of the sources [4] without attempting to classify or detect the source prior to separation. Some of the embodiments employ anti-noise (ANC) concepts, such as Active Noise Cancellation (ANC). ANC systems mainly aim to reduce background noise for headphone users by using an anti-noise signal to cancel it [11]. ANC can be viewed as a special case of SH and faces an equally stringent requirement [14]. Some work has focused on antinoise in specific environments such as automotive interiors [56] or operational scenarios [57]. The work in [56] analyzes the cancellation of different types of noise, such as road noise and engine noise, and requires unified systems capable of dealing with different types of noise. Some work has focused on developing ANC systems for canceling noise over specific spatial regions. In [58], ANC is discussed over a spatial region using spherical harmonics as basis functions to represent the noise field. Some of the embodiments employ the concepts described herein.

Manche der Ausführungsformen nutzen Konzepte zur Schallquellenverbesserung (engl.: Sound Source Enhancement).Some of the embodiments use sound source enhancement concepts.

Im Zusammenhang mit Sprachverbesserung ist eine der häufigsten Anwendungen die Sprachverbesserung, die durch Rauschen beeinträchtigt sind. Viele Arbeiten konzentrierten auf Phasenverarbeitung der Einkanalsprachverbesserung [8]. Aus der Perspektive des Bereichs der tiefen neuronalen Netze wurde das Problem des Entrauschens von Sprachäußerungen in [59] mit entrauschenden Decodierern (engl.: denoising decoders) thematisiert, in [60] als ein nicht lineares Regressionsproblem zwischen sauberen und verrauschten Sprachäußerungen unter Verwendung eines tiefen neuronales Netzes (engl.: deep neural network, DNN) und in [61] als ein Ende-zu-Ende-System unter Verwendung erzeugender gegnerischer Netzwerke (engl.: Generative Adversarial Networks, GAN). In vielen Fällen wird die Sprachverbesserung als eine Vorstufe für Systeme zur automatischen Spracherkennung (engl.: automatic speech recognition, ASR) verwendet, wie es in [62] der Fall ist, wo Sprachverbesserung mit einem LSTM RNN angegangen wird. Sprachverbesserung wird oft zusammen mit Ansätzen der Schallquellentrennung ausgeführt, bei der der Grundgedanke darin besteht, zunächst die Sprachäußerung zu extrahieren, um anschließend Verbesserungstechniken auf das isolierte Sprachsignal anzuwenden [6]. Die hier beschriebenen Konzepte werden von manchen der Ausführungsformen eingesetzt.In the context of speech enhancement, one of the most common applications is to improve speech affected by noise. Many works focused on phase processing of single-channel speech enhancement [8]. From the perspective of the deep neural network domain, the problem of denoising speech utterances was addressed in [59] using denoising decoders, in [60] as a non-linear regression problem between clean and noisy speech utterances using a deep deep neural network (DNN) and in [61] as an end-to-end system using generative adversarial networks (GAN). In many cases, speech enhancement is used as a precursor to automatic speech recognition (ASR) systems, as is the case in [62] where speech enhancement is addressed with an LSTM RNN. Speech enhancement is often performed in conjunction with sound source separation approaches, where the basic idea is to first extract the speech utterance and then apply enhancement techniques to the isolated speech signal [6]. The concepts described herein are employed by some of the embodiments.

Quellenverbesserung im Zusammenhang mit Musik bezieht sich meist auf Anwendungen zum Herstellen von Musikremixen. Im Gegensatz zu Sprachverbesserung, bei der die Annahme oft darin besteht, dass die Sprachäußerung nur durch Rauschquellen beeinträchtigt wird, nehmen Musikanwendungen meistens an, dass andere Schallquellen (Musikinstrumente) simultan mit der zu verbessernden Quelle spielen. Daher sind Musik-Remix-Anwendungen immer so bereitgestellt, dass ihnen eine Quellentrennungsanwendung vorausgeht. Beispielsweise wurden in [10] frühe Jazz-Aufnahmen geremixt, indem Techniken zur Trennung von Hauptinstrument und Begleitung sowie von harmonischen Instrumenten und Schlaginstrumenten angewandt wurden, um eine bessere Klangbalance in der Abmischung zu erzielen. Gleichermaßen untersuchte [63] die Verwendung verschiedener Algorithmen zur Singstimmentrennung, um die relative Lautstärke der Singstimme und der Begleitspur zu verändern, wodurch gezeigt wurde, dass eine Erhöhung von 6 dB durch Einführen geringfügiger, jedoch hörbarer Verzerrungen in die finale Abmischung möglich ist. In [64] untersuchen die Autoren Möglichkeiten, die Musikwahrnehmung für Benutzer von Cochlea-Implantaten zu verbessern, indem Techniken zur Schallquellentrennung angewandt werden, um neue Abmischungen zu erzielen. Die dort beschriebenen Konzepte werden von einigen der Ausführungsformen genutzt.Source enhancement in the context of music mostly refers to applications for making music remixes. In contrast to speech enhancement, where the assumption is often that speech is affected only by noise sources, music applications mostly assume that other sound sources (musical instruments) are playing simultaneously with the source to be enhanced. Therefore, music remix applications are always provided preceded by a source separation application. For example, in [10] early jazz recordings were remixed using techniques to separate lead and accompaniment, harmonic and percussion instruments to achieve better tonal balance in the mix. Similarly, [63] investigated the use of different vocal separation algorithms to change the relative loudness of the vocal and backing track, showing that an increase of 6 dB is possible by introducing slight but audible distortions into the final mix. In [64] the authors explore ways to improve music perception for cochlear implant users by applying sound source separation techniques to achieve new mixes. The concepts described there are used by some of the embodiments.

Eine der größten Herausforderungen bei Anwendungen für selektives Hören bezieht sich auf die strengen Anforderungen in Bezug auf die Verarbeitungszeit. Der komplette Verarbeitungsworkflow muss mit minimaler Verzögerung ausgeführt werden, um die Natürlichkeit und Qualitätswahrnehmung für den Benutzer zu erhalten. Die maximale akzeptable Latenz eines Systems hängt stark von der Anwendung und von der Komplexität der auditiven Szene ab. Zum Beispiel schlagen McPherson et al. 10 ms als akzeptablen Latenzbezug für interaktive Musikschnittstellen vor [12]. Für Musikaufführungen über ein Netzwerk berichten die Autoren in [13], dass Verzögerungen in dem Bereich zwischen 20-25 und 50-60 ms wahrnehmbar werden. Jedoch erfordern Antischall-Technologien/Technologien der Aktiven Lärmkompensation (active noise cancellation, ANC) für bessere Leistung ultrageringe Latenzverarbeitung. Bei diesen Systemen ist der Umfang akzeptabler Latenz sowohl frequenz- als auch dämpfungsabhängig, kann jedoch für eine etwa 5-dB-Dämpfung von Frequenzen unter 200 Hz bis zu 1 ms gering sein [14]. Eine abschließende Betrachtung hinsichtlich SH-Anwendungen bezieht sich auf die Qualitätswahrnehmung der modifizierten auditiven Szene. Ein erheblicher Arbeitsaufwand wurde bezüglich der Methodiken für eine zuverlässige Bewertung der Audioqualität bei verschiedenen Anwendungen betrieben [15], [16], [17]. Jedoch besteht die Herausforderung bei SH darin, das klare Abwägen zwischen Verarbeitungskomplexität und Qualitätswahrnehmung zu handhaben. Manche der Ausführungsformen nutzen die dort beschriebenen Konzepte.One of the major challenges in selective listening applications relates to the stringent processing time requirements. The complete processing workflow must be executed with minimal delay to preserve the naturalness and quality perception for the user. The maximum acceptable latency of a system depends heavily on the application and the complexity of the auditory scene. For example, McPherson et al. 10 ms as an acceptable latency reference for interactive music interfaces [12]. For music performances over a network, the authors in [13] report that delays become noticeable in the range between 20-25 and 50-60 ms. However, anti-noise/active noise cancellation (ANC) technologies require ultra-low latency processing for better performance. In these systems, the amount of acceptable latency is both frequency and attenuation dependent, but can be as low as 1 ms for around 5 dB attenuation from frequencies below 200 Hz [14]. A final consideration regarding SH applications relates to the quality perception of the modified auditory scene. A significant amount of work has been done on methodologies for reliable audio quality assessment various applications [15], [16], [17]. However, the challenge with SH is to manage the clear trade-off between processing complexity and quality perception. Some of the embodiments use the concepts described there.

In manchen Ausführungsformen werden Konzepte für Zählen und Lokalisation in [41], für Lokalisation und Erfassung in [27], für Trennung und Klassifikation in [65] und für Trennung und Zählen in [66], wie dort beschrieben, eingesetzt.In some embodiments concepts for counting and localization in [41], for localization and detection in [27], for separation and classification in [65] and for separation and counting in [66] are used as described there.

Manche Ausführungsformen setzen Konzepte zur Verbesserung der Robustheit derzeitiger Verfahren für maschinelles Hören ein, wie in [25], [26], [32], [34] beschrieben, die neue aufstrebende Richtungen die Bereichsanpassung [67] und das Lernen auf der Basis von mit mehreren Geräten aufgenommenen Datensätzen umfassen [68].Some embodiments employ concepts to improve the robustness of current machine hearing methods as described in [25], [26], [32], [34], new emerging directions range adaptation [67] and learning based on datasets recorded with multiple devices [68].

Einige der Ausführungsformen setzen Konzepte zur Verbesserung der rechentechnischen Effizienz des maschinellen Hörens, wie in [48] beschrieben, ein, oder in [30], [45], [50], [61] beschriebene Konzepte, die in der Lage sind, mit unverarbeiteten Signalverläufen umzugehen.Some of the embodiments employ concepts for improving the computational efficiency of machine hearing as described in [48], or concepts described in [30], [45], [50], [61] that are able to deal with unprocessed waveforms.

Manche Ausführungsformen realisieren ein einheitliches Optimierungsschema, das kombiniert erfasst/klassifiziert/lokalisiert und trennt/verbessert, um Schallquellen in der Szene selektiv modifizieren zu können, wobei voneinander unabhängige Erfassungs-, Trennungs-, Lokalisations-, Klassifikations- und Verbesserungsverfahren zuverlässig sind und die für SH erforderliche Robustheit und Flexibilität bereitstellen.Some embodiments implement a unified optimization scheme that combines detection/classification/location and separation/enhancement to selectively modify sound sources in the scene, with independent detection, separation, localization, classification, and enhancement methods being reliable and applicable to SH provide the required robustness and flexibility.

Einige Ausführungsformen sind für Echtzeitverarbeitung geeignet, wobei eine gute Abwägung zwischen algorithmischer Komplexität und Leistung erfolgt.Some embodiments are suitable for real-time processing, with a good trade-off between algorithmic complexity and performance.

Manche Ausführungsformen kombinieren ANC und maschinelles Hören. Es wird beispielsweise zunächst die auditive Szene klassifiziert und dann selektiv ANC angewendet.Some embodiments combine ANC and machine hearing. For example, the auditory scene is first classified and then ANC is selectively applied.

Nachfolgend werden weitere Ausführungsformen bereitgestellt.Further embodiments are provided below.

Um eine reale Hörumgebung mit virtuellen Audioobjekten anzureichern, müssen die Transferfunktionen von jeder der Positionen der Audioobjekte zu jeder der Positionen der Zuhörer in einem Raum hinreichend genau bekannt sein.In order to enrich a real listening environment with virtual audio objects, the transfer functions from each of the positions of the audio objects to each of the listener's positions in a room must be known with sufficient accuracy.

Die Transferfunktionen bilden die Eigenschaften der Soundquellen ab, sowie den Direktschall zwischen den Objekten und dem Nutzer, sowie aller Reflektionen, die in dem Raum auftreten. Um korrekte räumliche Audioreproduktionen für die Raumakustik eines realen Raums sicherzustellen, in dem sich der Zuhörer gegenwärtig befindet, müssen die Transferfunktionen zudem die raumakustischen Eigenschaften des Zuhörraums hinreichend genau abbilden.The transfer functions map the properties of the sound sources, as well as the direct sound between the objects and the user, as well as all reflections that occur in the room. In order to ensure correct spatial audio reproductions for the room acoustics of a real room in which the listener is currently located, the transfer functions must also represent the room acoustic properties of the listening room with sufficient accuracy.

In Audiosystemen, die für die Darstellung von individuellen Audioobjekten an unterschiedlichen Positionen in dem Raum geeignet sind, liegt, bei Vorhandensein einer großen Anzahl von Audioobjekten, die Herausforderung in der geeigneten Erkennung und Separierung der individuellen Audioobjekte. Des Weiteren überlappen die Audiosignale der Objekte in der Aufnahmeposition oder in der Hörposition des Raums. Sowohl die Raumakustiken als auch die Überlagerung der Audiosignale ändern sich, wenn sich die Objekte und/oder die Hörpositionen im Raum ändern.In audio systems that are suitable for the presentation of individual audio objects at different positions in the room, the challenge lies in the appropriate recognition and separation of the individual audio objects when a large number of audio objects are present. Furthermore, the audio signals of the objects in the recording position or in the listening position of the room overlap. Both the room acoustics and the superimposition of the audio signals change when the objects and/or the listening positions in the room change.

Die Schätzung von Raumakustik-Parametern muss bei relativer Bewegung hinreichend schnell erfolgen. Dabei ist eine geringe Latenz der Schätzung wichtiger als eine hohe Genauigkeit. Ändern sich Position von Quelle und Empfänger nicht (statischer Fall) ist dagegen eine hohe Genauigkeit nötig. Im vorgeschlagenen System werden Raumakustik-Parameter, sowie die Raumgeometrie und die Hörerposition aus einem Strom von Audiosignalen geschätzt bzw. extrahiert. Dabei werden die Audiosignale in einer realen Umgebung aufgenommen, in der die Quelle(n) und der/die Empfänger sich in beliebige Richtungen bewegen können, und in der die Quelle(n) und/oder der/die Empfänger ihre Orientierung auf beliebige Weise ändern können.Room acoustics parameters must be estimated quickly enough in the case of relative movement. A low latency of the estimation is more important than a high accuracy. On the other hand, if the position of the source and receiver do not change (static case), a high degree of accuracy is required. In the proposed system, room acoustics parameters, as well as room geometry and listener position are estimated or extracted from a stream of audio signals. The audio signals are recorded in a real environment in which the source(s) and receiver(s) can move in any direction, and in which the source(s) and/or receiver(s) change their orientation in any way be able.

Der Audiosignalstrom kann das Ergebnis eines beliebigen Mikrofon-Setups sein, das ein oder mehrere Mikrofone umfasst. Die Ströme werden in eine Signalverarbeitungsstufe zur Vorverarbeitung und/oder weiteren Analyse eingespeist. Danach wird die Ausgabe in eine Merkmalsextraktionsstufe eingespeist. Diese Stufe schätzt die Raumakustik-Parameter, z.B. T60 (Nachhallzeit), DRR (Direkt-zu-Nachhall Verhältnis) und andere.The audio signal stream can be the result of any microphone setup that includes one or more microphones. The streams are fed to a signal processing stage for pre-processing and/or further analysis. Thereafter, the output is fed to a feature extraction stage. This stage estimates the room acoustics parameters, eg T60 (Reverberation Time), DRR (Direct to Reverberation Ratio) and others.

Ein zweiter Datenstrom wird von einem 6DoF ("six degrees of freedom" - Freiheitsgrade: je drei Dimensionen für Position im Raum und Blickrichtung) Sensor erzeugt, der die Orientierung und Position des Mikrofon-Setups aufzeichnet. Der Positions-Datenstrom wird in eine 6DoF Signalverarbeitungsstufe zur Vorverarbeitung oder weiteren Analyse eingespeist.A second data stream is generated by a 6DoF ("six degrees of freedom" - degrees of freedom: three dimensions each for position in space and line of sight) sensor that records the orientation and position of the microphone setup. The position data stream is fed into a 6DoF signal processing stage for pre-processing or further analysis.

Die Ausgabe der 6DoF Signalverarbeitung, der Audio-Merkmalsextraktionsstufe und der vorverarbeiteten Mikrofonströme wird in einen Maschinen-Lern-Block eingespeist, indem der Hörraum (Größe, Geometrie, reflektierende Oberflächen) und die Position des Mikrofonfeldes in dem Raum geschätzt werden. Zusätzlich wird ein Nutzer-Verhaltens-Modell angewandt, um eine robustere Schätzung zu ermöglichen. Dieses Modell berücksichtigt Einschränkungen der menschlichen Bewegungen (z.B. kontinuierliche Bewegung, Geschwindigkeit, u.a.), sowie die Wahrscheinlichkeitsverteilung von unterschiedlichen Arten von Bewegungen.The output of the 6DoF signal processing, the audio feature extraction stage and the pre-processed microphone streams is fed into a machine learning block by estimating the listening room (size, geometry, reflective surfaces) and the position of the microphone field in the room. In addition, a user behavior model is applied to enable a more robust estimation. This model takes into account limitations of human movements (e.g. continuous movement, speed, etc.), as well as the probability distribution of different types of movements.

Manche der Ausführungsformen realisieren eine blinde Schätzung von Raumakustik-Parametern durch Verwendung beliebiger Mikrofonanordnungen und durch Hinzufügen von Positions- und Posen-Information des Nutzers, sowie durch Analyse der Daten mit Verfahren des maschinellen Lernens.Some of the embodiments realize a blind estimation of room acoustics parameters by using arbitrary microphone arrays and by adding position and pose information of the user, and by analyzing the data with machine learning methods.

Systeme gemäß Ausführungsformen können beispielsweise für akustische angereicherte Realität (AAR) verwendet werden. Dort muss eine virtuelle Raumimpulsantwort aus den geschätzten Parametern synthetisiert werden.Systems according to embodiments may be used for acoustic augmented reality (AAR), for example. There a virtual room impulse response has to be synthesized from the estimated parameters.

Manche Ausführungsformen beinhalten die Entfernung des Nachhalls aus den aufgenommenen Signalen. Beispiele für solche Ausführungsformen sind Hörhilfen für Normal- und Schwerhörige. Dabei kann dem Eingangssignal des Mikrofon-Setups der Nachhall durch die Hilfe der geschätzten Parameter entfernt werden.Some embodiments involve removing reverberations from the recorded signals. Examples of such embodiments are hearing aids for people with normal hearing and those who are hard of hearing. The reverberation can be removed from the input signal of the microphone setup with the help of the estimated parameters.

Eine weitere Anwendung liegt in der räumlichen Synthese von Audioszenen, die in einem anderen Raum als dem aktuellen Hörraum erzeugt wurden. Zu diesem Zweck erfolgt eine Anpassung der raumakustischen Parametern, welche Bestandteil in der Audioszenen sind, an die raumakustischen Parameter des Hörraums.Another application is the spatial synthesis of audio scenes created in a room other than the current listening room. For this purpose, the room-acoustic parameters, which are part of the audio scenes, are adapted to the room-acoustic parameters of the listening room.

In den Fällen einer binauralen Synthese werden hierzu die verfügbaren BRIRs an die raumakustischen Parameter des Hörraums angepasst.In the case of binaural synthesis, the available BRIRs are adapted to the acoustic parameters of the listening room.

In einer Ausführungsform wird eine Vorrichtung zur Bestimmung von ein oder mehreren Raumakustik-Parametern bereitgestellt.In one embodiment, an apparatus for determining one or more room acoustics parameters is provided.

Die Vorrichtung ist ausgebildet, Mikrofon-Daten zu erhalten, die ein oder mehrere Mikrofonsignale umfassen.The device is designed to receive microphone data that includes one or more microphone signals.

Ferner ist die Vorrichtung ausgebildet, Nachverfolgungsdaten betreffend eine Position und/oder eine Orientierung eines Nutzers zu erhalten.Furthermore, the device is designed to receive tracking data relating to a position and/or an orientation of a user.

Darüber hinaus ist die Vorrichtung ausgebildet, die ein oder mehreren Raumakustik-Parameter abhängig von den Mikrofon-Daten und abhängig von den Nachverfolgungsdaten zu bestimmen.In addition, the device is designed to determine the one or more room acoustics parameters as a function of the microphone data and as a function of the tracking data.

Gemäß einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, maschinelles Lernen einzusetzen, um abhängig von den Mikrofon-Daten und abhängig von den Nachverfolgungsdaten die ein oder mehreren Raumakustik-Parameter zu bestimmen.For example, according to one embodiment, the device may be configured to use machine learning to determine the one or more room acoustic parameters based on the microphone data and based on the tracking data.

In einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, maschinelles Lernen dadurch einzusetzen, dass die Vorrichtung ausgebildet sein kann, ein neuronales Netz einzusetzen.For example, in one embodiment, the device may be configured to employ machine learning in that the device may be configured to employ a neural network.

Gemäß einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, zum maschinellen Lernen, Cloud-basierte Verarbeitung einzusetzen.For example, according to one embodiment, the device may be configured to use cloud-based processing for machine learning.

In einer Ausführungsform können die ein oder mehreren Raumakustik-Parameter z.B. eine Nachhallzeit umfassen.For example, in one embodiment, the one or more room acoustic parameters may include reverberation time.

Gemäß einer Ausführungsform können die ein oder mehreren Raumakustik-Parameter z.B. ein Direkt-zu-Nachhall Verhältnis umfassen.For example, according to one embodiment, the one or more room acoustic parameters may include a direct-to-reverberation ratio.

In einer Ausführungsform können die Nachverfolgungsdaten, um die Position des Nutzers zu bezeichnen, z.B. eine x-Koordinate, eine y-Koordinate und eine z-Koordinate umfassen.In one embodiment, the tracking data to indicate the user's location may include, for example, an x-coordinate, a y-coordinate, and a z-coordinate.

Gemäß einer Ausführungsform können die Nachverfolgungsdaten, um die Orientierung des Nutzers zu bezeichnen, z.B. eine Pitch-Koordinate, eine Yaw-Koordinate und eine Roll-Koordinate umfassen.According to one embodiment, the tracking data to indicate the user's orientation may include, for example, a pitch coordinate, a yaw coordinate, and a roll coordinate.

In einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, die ein oder mehreren Mikrofonsignale aus einer Zeitdomäne in eine Frequenzdomäne zu transformieren, wobei die Vorrichtung z.B. ausgebildet sein kann, ein oder mehrere Merkmale der ein oder mehreren Mikrofonsignale in der Frequenzdomäne zu extrahieren, und wobei die Vorrichtung z.B. ausgebildet sein kann, die ein oder mehreren Raumakustik-Parameter abhängig von den ein oder mehreren Merkmalen zu bestimmen.In one embodiment, the device can be designed, for example, to transform the one or more microphone signals from a time domain into a frequency domain, wherein the device can be designed, for example, to extract one or more features of the one or more microphone signals in the frequency domain, and wherein the Device can be designed, for example, to determine the one or more room acoustics parameters depending on the one or more features.

Gemäß einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, zum Extrahieren der ein oder mehreren Merkmale Cloud-basierte Verarbeitung einzusetzen.For example, according to one embodiment, the device may be configured to use cloud-based processing to extract the one or more features.

In einer Ausführungsform kann die Vorrichtung z.B. eine Mikrofonanordnung von mehreren Mikrofonen umfassen, um die mehreren Mikrofonsignale aufzunehmen.For example, in one embodiment, the device may include a microphone array of multiple microphones to pick up the multiple microphone signals.

Gemäß einer Ausführungsform kann die Mikrofonanordnung z.B. ausgebildet sein, von einem Nutzer am Körper getragen zu werden.According to one embodiment, the microphone arrangement can be designed, for example, to be worn on the body by a user.

In einer Ausführungsform kann das oben beschriebene System des Weiteren z.B. eine oben beschriebene Vorrichtung zur Bestimmung von ein oder mehreren Raumakustik-Parametern umfassen.In one embodiment, the system described above may further comprise, for example, a device as described above for determining one or more room acoustic parameters.

Gemäß einer Ausführungsform kann der Signalanteil-Modifizierer 140 z.B. ausgebildet sein, die Veränderung des Audioquellen-Signalanteils der wenigstens einen Audioquelle der ein oder mehreren Audioquellen abhängig von wenigstens einem der ein oder mehreren Raumakustik-Parametern durchzuführen; und/oder der Signalgenerator 150 kann z.B. ausgebildet sein, die Erzeugung von wenigstens einer der Mehrzahl von binauralen Raumimpulsantworten für jede Audioquelle der ein oder mehreren Audioquellen abhängig von der wenigstens einem der ein oder mehreren Raumakustik-Parametern durchzuführen.According to one embodiment, the signal portion modifier 140 can be configured, for example, to change the audio source signal portion of the at least one audio source of the one or more audio sources as a function of at least one of the one or more room acoustics parameters; and/or the signal generator 150 can be designed, for example, to generate at least one of the plurality of binaural room impulse responses for each audio source of the one or more audio sources depending on the at least one of the one or more room acoustics parameters.

Fig. 7 zeigt ein System gemäß einer Ausführungsform, das fünf Sub-Systeme (Sub-System 1 - 5) umfasst. 7 Figure 12 shows a system according to an embodiment comprising five sub-systems (sub-systems 1-5).

Sub-System 1 umfasst ein Mikrofon-Setup von einem, zwei oder mehreren einzelnen Mikrofonen, die zu einem Mikrofonfeld kombiniert werden können, falls mehr als ein Mikrofon verfügbar ist. Die Positionierung und die relative Anordnung des Mikrofons/der Mikrofone zueinander können beliebig sein. Die Mikrofonanordnung kann Teil eines Geräts sein, das von dem Benutzer getragen wird, oder kann ein separates Gerät sein, das in dem interessierenden Raum positioniert wird.Sub-system 1 includes a microphone setup of one, two or more individual microphones that can be combined into a microphone array if more than one microphone is available. The positioning and relative arrangement of the microphone(s) to one another can be arbitrary. The microphone assembly can be part of a device worn by the user or may be a separate device positioned in the space of interest.

Des Weiteren umfasst Sub-System 1 ein Nachverfolgungs-Gerät, um die translatorischen Positionen des Nutzers und der Kopf-Pose des Nutzers in dem Raum zu messen. Bis zu 6-DOF (x-Koordinate, y-Koordinate, z-Koordinate, Pitch-Winkel, Yaw-Winkel, Roll-Winkel) können gemessen werden. Das Nachverfolgungs-Gerät kann an dem Kopf eines Benutzers positioniert werden, oder es kann in verschiedene Unter-Geräte aufgeteilt werden, um die benötigten DOFs zu messen, und es kann an dem Benutzer oder nicht am Benutzer platziert werden.Furthermore, sub-system 1 comprises a tracking device to measure the user's translational positions and the user's head pose in space. Up to 6-DOF (x-coordinate, y-coordinate, z-coordinate, pitch angle, yaw angle, roll angle) can be measured. The tracking device can be positioned on a user's head, or it can be split into different sub-devices to measure the required DOFs and placed on the user or not on the user.

Sub-System 1 stellt also eine Eingangsschnittstelle dar, die eine Mikrofonsignal-Eingangsschnittstelle 101 und eine Positionsinformations-Eingangsschnittstelle 102 umfasst.Subsystem 1 thus represents an input interface that includes a microphone signal input interface 101 and a position information input interface 102 .

Sub-System 2 umfasst Signalverarbeitung für das aufgenommene Mikrofonsignal/die aufgenommenen Mikrofonsignale. Dies umfasst Frequenztransformationen und/oder Zeit-Domänen-basierte Verarbeitung. Des Weiteren umfasst dies Verfahren zum Kombinieren verschiedener Mikrofonsignale, um Feldverarbeitung zu realisieren. Ein Zurückführen von dem Subsystem 4 ist möglich, um Parameter der Signalverarbeitung im Subsystem 2 anzupassen. Der Signalverarbeitungsblock des Mikrofonsignals/der Mikrofonsignale kann Teil des Geräts sein, in dem das Mikrofon/die Mikrofone eingebaut sind, oder er kann Teil eines getrennten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.Sub-system 2 includes signal processing for the captured microphone signal(s). This includes frequency transformations and/or time domain based processing. Furthermore, this includes methods for combining different microphone signals in order to realize field processing. It is possible to feed back from subsystem 4 in order to adapt parameters of the signal processing in subsystem 2. The signal processing block of the microphone signal(s) can be part of the device in which the microphone(s) are built or it can be part of a separate device. It can also be part of cloud-based processing.

Des Weiteren umfasst Sub-System 2 Signalverarbeitung für die aufgezeichneten Nachverfolgungs-Daten. Dies umfasst Frequenztransformationen und/oder Zeit-Domänenbasiertes Verarbeiten. Des Weiteren umfasst sie Verfahren, um die technische Qualität der Signale zu verbessern, indem Rauschunterdrückung, Glättung, Interpolation und Extrapolation eingesetzt werden. Sie umfasst zudem Verfahren, um Informationen höherer Ebenen abzuleiten. Dies umfasst Geschwindigkeiten, Beschleunigungen, Weg-Richtungen, Ruhezeiten, Bewegungs-Bereiche, Bewegungspfade. Des Weiteren umfasst dies die Vorhersage eines Bewegungspfads der nahen Zukunft und einer Geschwindigkeit der nahen Zukunft. Der Signalverarbeitungs-Block der Nachverfolgungs-Signale kann Teil des Nachverfolgungs-Geräts sein, oder er kann Teil eines separaten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.Furthermore, sub-system 2 includes signal processing for the recorded tracking data. This includes frequency transforms and/or time domain based processing. It also includes methods to improve the technical quality of the signals using noise reduction, smoothing, interpolation and extrapolation. It also includes procedures to derive information from higher levels. This includes speeds, accelerations, travel directions, rest times, movement areas, movement paths. Further, this includes predicting a near-future trajectory and a near-future velocity. The signal processing block of the tracking signals can be part of the tracking device or it can be part of a separate device. It can also be part of cloud-based processing.

Sub-System 3 umfasst die Extraktion von Merkmalen des verarbeiteten Mikrofons/der verarbeiteten Mikrofone.Sub-system 3 involves the extraction of features of the processed microphone(s).

Der Merkmalsextraktions-Block kann Teil des tragbaren Geräts des Nutzers sein, oder er kann Teil eines separaten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.The feature extraction block can be part of the user's handheld device, or it can be part of a separate device. It can also be part of cloud-based processing.

Sub-Systeme 2 und 3 realisieren mit ihren Modulen 111 und 121 zusammen beispielsweise den Detektor 110, den Audiotyp-Klassifikator 130 und den Signalanteil-Modifizierer 140. Beispielsweise kann Sub-System 3, Modul 121 das Ergebnis einer Audiotyp-Klassifikation an Sub-System 2, Modul 111 übergeben (zurückkoppeln). Sub-System 2, Modul 112 realisiert beispielsweise einen Positionsbestimmer 120. Ferner können einer Ausführungsform die Sub-Systeme 2 und 3 auch den Signalgenerator 150 realisieren, indem z.B. Sub-System 2, Modul 111 die binauralen Raumimpulsantworten erzeugt und die Lautsprechersignale generiert.Sub-systems 2 and 3 with their modules 111 and 121 together implement, for example, the detector 110, the audio type classifier 130 and the signal component modifier 140. For example, sub-system 3, module 121 can be the result of an audio type classification on sub-system 2, pass module 111 (feedback). Sub-system 2, module 112 implements a position determiner 120, for example. Furthermore, in one embodiment, sub-systems 2 and 3 can also implement the signal generator 150, for example by sub-system 2, module 111 generating the binaural room impulse responses and generating the loudspeaker signals.

Sub-System 4 umfasst Verfahren und Algorithmen, um raumakustische Parameter unter Verwendung des verarbeiteten Mikrofonsignals/der verarbeiteten Mikrofonsignale, der extrahierten Merkmale des Mikrofonsignals/der Mikrofonsignale und die verarbeiteten Nachverfolgungs-Daten zu schätzen. Die Ausgabe dieses Blocks sind die raumakustischen Parameter als Ruhedaten und eine Steuerung und Änderung der Parameter der Mikrofon-Signalverarbeitung im Subsystem 2. Der Maschinen-Lern-Block 131 kann Teil des Geräts des Nutzers sein oder er kann Teil eines separaten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.Sub-system 4 includes methods and algorithms to estimate room acoustic parameters using the processed microphone signal(s), the extracted features of the microphone signal(s), and the processed tracking data. The output of this block is the room acoustic parameters as rest data and a control and modification of the parameters of the microphone signal processing in subsystem 2. The machine learning block 131 can be part of the user's device or it can be part of a separate device. It can also be part of cloud-based processing.

Des Weiteren umfasst Sub-System 4 eine Nachverarbeitung der raumakustischen Ruhedaten-Parameter (z.B. in Block 132). Dies umfasst eine Detektion von Ausreißern, eine Kombination von einzelnen Parametern zu einem neuen Parameter, Glättung, Extrapolation, Interpolation und Plausibilitätsprüfung. Dieser Block bekommt auch Informationen vom Subsystem 2. Dies umfasst Positionen der nahen Zukunft des Nutzers in dem Raum, um akustische Parameter der nahen Zukunft zu schätzen. Dieser Block kann Teil des Geräts des Nutzers sein oder er kann Teil eines separaten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.Furthermore, sub-system 4 includes post-processing of the room-acoustic resting data parameters (e.g. in block 132). This includes a detection of outliers, a combination of single parameters to a new parameter, smoothing, extrapolation, interpolation and plausibility check. This block also gets information from subsystem 2. This includes near-future positions of the user in the room to estimate near-future acoustic parameters. This block can be part of the user's device or it can be part of a separate device. It can also be part of cloud-based processing.

Sub-System 5 umfasst die Speicherung und Allokation der raumakustischen Parameter für Downstream-Systeme (z.B. in Speicher 141). Die Allokation der Parameter kann just-intime realisiert werden, und/oder der Zeitverlauf kann gespeichert werden. Die Speicherung kann in dem Gerät, das sich am Nutzer oder nahe dem Nutzer befindet, vorgenommen werden, oder in einem Cloud-basierten System vorgenommen werden.Sub-system 5 includes the storage and allocation of the room acoustic parameters for downstream systems (e.g. in memory 141). The allocation of the parameters can be done just-intime can be realized and/or the time course can be stored. Storage can be done on the device that is on or near the user, or can be done on a cloud-based system.

Im Folgenden werden Anwendungsfälle für Ausführungsbeispiele der Erfindung beschrieben.Use cases for exemplary embodiments of the invention are described below.

Ein Anwendungsfall eines Ausführungsbeispiels ist Home Entertainment und betrifft Nutzer in heimischer Umgebung.One use case of an embodiment is home entertainment and relates to users in a home environment.

Beispielsweise möchte sich ein Benutzer auf bestimmte Wiedergabegräte wie zum Beispiel TV, Radio, PC, Tablet konzentrieren und andere Störquellen (von Geräten anderer Nutzer oder Kindern, Baulärm, Straßenlärm) ausblenden. Der Benutzer befindet sich dabei in der Nähe des bevorzugten Wiedergabegeräts und wählt das Gerät bzw. dessen Position aus. Unabhängig von der Position des Benutzers wir das ausgewählte Gerät bzw. die Schallquellenpositionen akustisch hervorgehoben bis der Nutzer seine Auswahl aufhebt.For example, a user would like to concentrate on certain playback devices such as TV, radio, PC, tablet and block out other sources of interference (from other users' devices or children, construction noise, street noise). The user is in the vicinity of the preferred playback device and selects the device or its position. Regardless of the user's position, the selected device or sound source positions are acoustically highlighted until the user cancels their selection.

Z. B. begibt sich der Nutzer begibt sich in Nähe der Zielschallquelle. Der Nutzer wählt über ein geeigntes Interface Zielschallquelle aus, und das Hearable passt auf Basis der Nutzerposition, Nutzerblickrichtung sowie der Zielschalquelle die Audiowiedergabe entsprechend an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen zu können.For example, the user goes near the target sound source. The user selects the target sound source via a suitable interface, and the hearable adjusts the audio playback based on the user's position, user's line of sight and the target sound source, so that the target sound source can be clearly understood even in the presence of background noise.

Alternativ begibt sich der Nutzer in die Nähe einer besonders störenden Schallquelle. Der Nutzer wählt über ein geeigntes Interface diese Störschallquelle aus, und das Hearable (Hörgerät) passt auf Basis der Nutzerposition, Nutzerblickrichtung sowie der Störschallquelle die Audiowiedergabe entsprechend an, um die Störschallquelle explizit auszublenden.Alternatively, the user moves close to a particularly disruptive sound source. The user selects this noise source via a suitable interface, and the hearable (hearing aid) adjusts the audio playback based on the user's position, user's line of sight and the source of the noise in order to explicitly suppress the source of the noise.

Ein weiterer Anwendungsfall eines weiteren Ausführungsbeispiels ist eine Cocktailparty, bei der sich ein Nutzer zwischen mehreren Sprechern befindet.
Ein Benutzer möchte sich beispielsweise bei Anwesenheit vieler Sprecher auf einen (oder mehrere) konzentrieren sowie andere Störquellen ausblenden bzw. dämpfen. Die Steuerung des Hearables darf in diesem Andwendungsfall nur wenig aktive Interaktion vom Nutzer verlangen. Optional wäre eine Steuerung der Stärke der Selektivität anhand von Biosignalen oder erkennbaren Indikatoren für Konversationsschwierigkeiten (Häufige Nachfragen, Fremdsprachen, starke Dialekte).
Another use case of another embodiment is a cocktail party where a user is between multiple speakers.
For example, when many speakers are present, a user would like to concentrate on one (or more) speakers and block out or attenuate other sources of interference. In this application, the control of the hearable may only require little active interaction from the user. Optional would be to control the strength of the selectivity using Biosignals or recognizable indicators of conversational difficulties (frequent inquiries, foreign languages, strong dialects).

Beispielsweise sind die Sprecher zufällig verteilt und bewegen sich relativ zum Hörer. Außerdem gibt es regelmäßige Sprechpausen, neue Sprecher kommen hinzu, andere Sprecher entfernen sich. Störgeräusche wie zum Beispiel Musik sind unter Umständen vergleichsweise laut. Der ausgewählte Sprecher wird akustisch hervorgehoben und auch nach Sprechpausen, Änderung seiner Position oder Pose wieder erkannt.For example, the speakers are randomly distributed and move relative to the listener. In addition, there are regular pauses in speaking, new speakers join, other speakers move away. Noise such as music can be comparatively loud under certain circumstances. The selected speaker is highlighted acoustically and recognized again even after pauses in speaking, changes in position or pose.

Z.B. erkennt ein Hearable einen Sprecher im Umfeld des Nutzer. Der Benutzer kann durch eine geeignete Steuerrungsmöglichkeit (z.B. Blickrichtung, Aufmerksamkeitssteuerung) bevorzugte Sprecher auswählen. Das Hearable passt entsprechend der Nutzerblickrichtung sowie der gewählten Zielschalquelle die Audiowiedergabe an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen zu können.For example, a hearable recognizes a speaker in the user's environment. The user can use a suitable control option (e.g. line of sight, attention control) to select preferred speakers. The hearable adapts the audio playback according to the user's line of sight and the selected target sound source in order to be able to understand the target sound source even with background noise.

Alternativ wird der Nutzer von einem (bisher) nicht bevorzugten Sprecher direkt angesprochen muss dieser zumindest hörbar sein um eine natürliche Kommunikation zu gewährleisten.Alternatively, the user is addressed directly by a (previously) non-preferred speaker, who must at least be audible to ensure natural communication.

Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist im Automobil, bei dem sich ein Nutzer in seinem (oder in einem) KFZ befindet. Der Benutzer möchte während der Fahrt seine akustische Aufmerksamkeit aktiv auf bestimmte Wiedergabegeräte wie zum Beispiel Navigationsgeräte, Radio oder Gesprächspartner richten um diese neben den Störgeräuschen (Wind, Motor, Mitfahrer) besser verstehen zu können.Another use case of another embodiment is in the automobile, where a user is in his (or in) a car. While driving, the user would like to actively direct their acoustic attention to certain playback devices such as navigation devices, radio or conversation partners in order to be able to better understand them in addition to the background noise (wind, engine, passengers).

Beispielsweise befinden sich der Benutzer und die Zielschallquellen auf festen Positionen innerhalb des KFZs. Der Nutzer ist zum Bezugssystem zwar statisch, aber das KFZ selber bewegt sich. Ein angepasste Tracking Lösung ist daher notwendig. Die ausgewählte Schallquellenpositionen wird akustisch hervorgehoben bis der Nutzer seine Auswahl aufhebt oder bis Warnsignale die Funktion des Geräts aussetzen.For example, the user and the target sound sources are in fixed positions inside the vehicle. The user is static in relation to the reference system, but the vehicle itself moves. An adapted tracking solution is therefore necessary. The selected sound source position is acoustically highlighted until the user cancels the selection or until warning signals stop the device from functioning.

Z.B. begibt ein Nutzer sich ins KFZ und Umgebung wird von Gerät erkannt. Der Benutzer kann durch eine geeignete Steuerrungsmöglichkeit (z.B. Spracherkennung) zwischen den Zielschallquellen wechseln, und das Hearable passt entsprechend der Nutzerblickrichtung sowie der gewählten Zielschalquelle die Audiowiedergabe an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen zu können.For example, a user gets into the car and the device recognizes the surroundings. The user can switch between the target sound sources using a suitable control option (e.g. speech recognition), and the hearable adjusts the audio playback according to the user's viewing direction and the selected target sound source in order to be able to understand the target sound source well even with background noise.

Alternativ unterbrechen z.B. verkehrsrelevante Warnsignale den normalen Ablauf und heben Auswahl des Nutzers auf. Dann wird ein Neustart des normalen Ablaufs durchgeführt.Alternatively, e.g. traffic-related warning signals interrupt the normal process and cancel the user's selection. The normal process is then restarted.

Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist Live-Musik und betrifft einen Besucher einer Live-Musik Veranstaltung. Beispielsweise möchte der Besucher eines Konzerts oder Live-Musikdarbietungen mit Hilfe des Hearables den Fokus auf die Darbietung erhöhen und störende Mithörer auszublenden. Zusätzlich kann das Audiosignal selber optimiert werden um Beispielsweise eine ungünstige Hörposition oder Raumaakustik auszugleichen.Another application of a further exemplary embodiment is live music and relates to a visitor to a live music event. For example, the visitor to a concert or live music performance would like to use the hearable to increase the focus on the performance and block out distracting listeners. In addition, the audio signal itself can be optimized, for example to compensate for an unfavorable listening position or room acoustics.

Z.B. befindet sich der Besucher zwischen vielen Störquellen, aber die Darbietungen sind meist verhältnismäßig laut. Die Zielschallquellen befinden sich auf festen Positionen oder zumindest in einem definiertem Bereich, jedoch kann der Benutzer sehr mobil sein (z.B. Tanz). Die ausgewählte Schallquellenpositionen wird akustisch hervorgehoben bis der Nutzer seine Auswahl aufhebt oder bis Warnsignale die Funktion des Geräts aussetzen.For example, the visitor is between many sources of interference, but the performances are usually relatively loud. The target sound sources are in fixed positions or at least in a defined area, but the user can be very mobile (e.g. dancing). The selected sound source position is acoustically highlighted until the user cancels the selection or until warning signals stop the device from functioning.

Beispielsweise wählt der Benutzer den Bühnenbereich oder den/die Musiker als Zielschallquelle(n) aus Benutzer kann durch eine geeignete Steuerrungsmöglichkeit die Position der Bühne/der Musiker definieren, und das Hearable passt entsprechend der Nutzerblickrichtung sowie der gewählten Zielschalquelle die Audiowiedergabe an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen zu können.For example, the user selects the stage area or the musician(s) as the target sound source(s). The user can use a suitable control option to define the position of the stage/musicians, and the hearable adapts the audio playback to the target sound source according to the user's viewing direction and the selected target sound source to be able to understand well even with background noise.

Alternativ können z.B. Warninformationen (z.B. Evakuierung, Drohendes Gewitter bei Freiluftveranstaltungen) und Warnsignale den normalen Ablauf unterbrechen und heben Auswahl des Nutzers auf. Danach kommt es zum Neustart des normalen Ablaufs.Alternatively, e.g. warning information (e.g. evacuation, imminent thunderstorm at outdoor events) and warning signals can interrupt the normal process and cancel the user's selection. The normal process then restarts.

Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist sind Großveranstaltungen und betreffen Besucher bei Großveranstaltungen. So kann bei Großveranstaltungen (z.B. Fußball-, Eishockeystadion, große Konzerthalle etc.) ein Hearable genutzt werden, um die Stimme von Familienangehörigen und Freunden hervorzuheben, die andernfalls im Lärm der Menschenmassen untergehen würden.A further application of another exemplary embodiment is for large events and concerns visitors at large events. For example, at major events (e.g. football stadium, ice hockey stadium, large concert hall, etc.), a hearable can be used to emphasize the voices of family members and friends who would otherwise be lost in the noise of the crowds.

Beispielsweise findet eine Großveranstaltung in einem Stadion oder einer großen Konzerthalle statt, wo sehr viele Besucher hingehen. Eine Gruppe (Familie, Freunde, Schulklasse) besucht die Veranstaltung und befindet sich vor oder im Veranstaltungsgelände, wo eine große Menschenmasse an Besuchern herumläuft. Ein oder mehrere Kinder verlieren den Blickkontakt zur Gruppe und rufen trotz großem Lärmpegel durch die Umgebungsgeräusche nach der Gruppe. Dann stellt der Benutzer die Stimmenerkennung ab, das und Hearable verstärkt die Stimme(n) nicht mehr.
Z.B. wählt eine Person aus der Gruppe am Hearable die Stimme des vermissten Kindes aus. Das Hearable lokalisiert die Stimme. Dann verstärkt das Hearable die Stimme, und der Benutzer kann das vermisste anhand der verstärkten Stimme (schneller) wiederfinden.
For example, a major event takes place in a stadium or a large concert hall where a large number of visitors go. A group (family, friends, school class) visits the event and is in front of or in the event area, where a large crowd of visitors is walking around. One or more children lose eye contact with the group and, despite the high noise level, call out to the group due to the surrounding noise. Then the user turns off voice recognition, and Hearable no longer amplifies the voice(s).
For example, one person from the group on the hearable selects the voice of the missing child. The hearable localizes the voice. Then the hearable amplifies the voice and the user can find the missing item again (quicker) using the amplified voice.

Alternative trägt das vermisste Kind z.B. auch ein Hearable und wählt die Stimme seiner Eltern aus. Das Hearable verstärkt die Stimme(n) der Eltern. Durch die Verstärkung kann das Kind dann seine Eltern lokalisieren. So kann das Kind zurück zu seinen Eltern laufen. Oder, alternativ trägt das vermisste Kind z.B. auch ein Hearable und wählt die Stimme seiner Eltern aus. Das Hearable lokalisiert die Stimme(n) der Eltern, und das Hearable sagt die Entfernung zu den Stimmen durch. Das Kind kann seine Eltern so leichter wiederfinden. Optional ist eine Wiedergabe einer künstlichen Stimme aus dem Hearable für die Entfernungsdurchsage vorgesehen.Alternatively, the missing child also wears a hearable, for example, and selects the voice of their parents. The hearable amplifies the parents' voice(s). The reinforcement then allows the child to locate its parents. So the child can walk back to his parents. Or, alternatively, the missing child also wears a hearable and selects the voice of their parents. The hearable locates the parent's voice(s) and the hearable announces the distance to the voices. The child can find its parents more easily. An optional playback of an artificial voice from the hearable for the distance announcement is provided.

Beispielsweise ist eine Kopplung der Hearables für eine zielgerichtete Verstärkung der Stimme(n) vorgesehen und Stimmenprofile sind eingespeichert.For example, the hearables are coupled for a targeted amplification of the voice(s) and voice profiles are stored.

Ein weiterer Anwendungsfall eines weiteren Ausführungsbeispiels ist Freizeitsport und betrifft Freizeitsportler. So ist das Hören von Musik während dem Sport beliebt, aber birgt auch Gefahren. Warnsignale oder andere Verkehrsteilnehmer werden eventuell nicht gehört. Das Hearable kann neben der Musikwiedergabe, auf Warnsignale oder Zurufe reagieren und die Musikwiedergabe zeitweise unterbrechen. Ein weiterer Anwendungsfall in diesem Kontext ist der Sport in Kleingruppen. Die Hearables der Sportgruppe können verbunden werden um während des Sports eine gute Kommunikation untereinander zu gewährleisten während andere Störgeräusche unterdrückt werden.A further application of a further exemplary embodiment is leisure sports and relates to leisure athletes. Listening to music while exercising is popular, but it also poses risks. Warning signals or other road users may not be heard. In addition to music playback, the hearable can react to warning signals or shouts and temporarily interrupt music playback. Another use case in this context is sport in small groups. The sports group's hearables can be connected to ensure good communication with each other during sports while other noise is suppressed.

Beispielsweise ist der Benutzer mobil und eventuelle Warnsignale sind überlagert von zahlreichreichen Störquellen. Problematisch ist, dass eventuell nicht alle Warnsignale den Benutzer betreffen (Weit entfernte Sirenen in der Stadt, Hupen auf der Straße) So setzt das Hearable die Musikwiedergabe automatisch aus und hebt das Warnsignal oder den Kommunikationspartner akustisch hervor bis der Nutzer seine Auswahl aufhebt. Anschließend wird die Musik normal weiter abgespielt.For example, the user is mobile and any warning signals are overlaid by numerous sources of interference. The problem is that not all warning signals may affect the user (far away sirens in the city, horns on the street). The Hearable automatically suspends music playback and acoustically highlights the warning signal or the communication partner until the user cancels his selection. The music will then continue to play normally.

Z.B. betreibt ein Nutzer Sport und hört Musik über Hearable. Den Nutzer betreffende Warnsignale oder Zurufe werden automatisch erkannt und das Hearable unterbricht die Musikwiedergabe. Dabei passt das Hearable die Audiowiedergabe an, um die Zielschallquelle\die akustische Umgebung gut verstehen zu können. Dann fährt das Hearable automatisch (z.B. nach Ende des Warnsignals) oder nach Wunsch des Nutzer mit der Musikwiedergabe fort.For example, a user does sports and listens to music through Hearable. Warning signals or shouts affecting the user are automatically recognized and the hearable interrupts the music playback. The hearable adjusts the audio playback in order to be able to clearly understand the target sound source\the acoustic environment. The hearable then continues playing music automatically (e.g. after the end of the warning signal) or at the request of the user.

Alternativ können Sportler einer Gruppe beispielsweise ihre Hearables verbinden. Die Spracheverständlichkeit zwischen den Gruppenmitgliedern wird optimiert und gleichzeitig werden andere Störgeräusche unterdrückt.Alternatively, athletes in a group can connect their hearables, for example. The speech intelligibility between the group members is optimized and at the same time other disturbing noises are suppressed.

Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist Schnarchunterdrückung und betrifft alle vom Schnarchen gestörte Schlafsuchende. Personen, deren Partner beispielsweise schnarchen, werden in ihrer nächtlichen Ruhe gestört und haben Probleme beim Schlafen. Das Hearable verschafft Abhilfe, indem es die Schnarchgeräusche unterdrückt und so die nächtliche Ruhe sichert und für häuslichen Frieden sorgt. Gleichzeitig lässt das Hearable andere Geräusche (Babygeschrei, Alarmsirene etc.) durch, damit der Benutzer akustisch nicht völlig von der Außenwelt abgeschottet ist. Eine Schnarcherkennung ist z.B. vorgesehen.Another application of another embodiment is snoring suppression and affects all sleep seekers disturbed by snoring. People whose partners snore, for example, are disturbed in their nightly rest and have problems sleeping. The Hearable provides relief by suppressing the snoring noises, thus ensuring night-time rest and domestic peace. At the same time, the hearable allows other noises (crying babies, alarm sirens, etc.) to pass through so that the user is not completely acoustically isolated from the outside world. A snoring detection is provided, for example.

Beispielsweise hat der Benutzer hat Schlafprobleme durch Schnarchgeräusche. Durch Nutzung des Hearables kann der Benutzer dann wieder besser schlafen, was stressmindernd wirkt.For example, the user has trouble sleeping due to snoring noises. By using the hearable, the user can then sleep better again, which has a stress-reducing effect.

Z.B. trägt der Benutzer trägt das Hearable während des Schlafens. Er schaltet das Hearable auf Schlafmodus, der alle Schnarchgeräusche unterdrückt. Nach dem Schlafen schaltet er das Hearable wieder aus.For example, the user wears the hearable while sleeping. He switches the hearable to sleep mode, which suppresses all snoring noises. After sleeping, he turns the hearable off again.

Alternativ lassen sich andere Geräusche wie Baulärm, Rasenmäherlärm o.ä. während des Schlafens unterdrücken.Alternatively, other noises such as construction noise, lawn mower noise, etc. can be suppressed while sleeping.

Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist ein Diagnosegrät für Nutzer im Alltag. Das Hearable zeichnet die Präferenzen (z.B.: welche Schallquellen, welche Verstärkung/Dämpfung werden gewählt) auf und erstellt über die Nutzungsdauer ein Profil mit Tendenzen. Aus diesen Daten können Rückschlüsse auf Veränderungen bzgl. des Hörvermögens geschlossen werden. Ziel ist die frühzeitige Erkennung von Hörverlust.Another application of a further exemplary embodiment is a diagnostic device for users in everyday life. The hearable records the preferences (e.g. which sound sources, which amplification/damping are selected) and creates them over the period of use a profile with tendencies. This data can be used to draw conclusions about changes in hearing ability. The goal is the early detection of hearing loss.

Beispielsweise trägt der Benutzer das Gerät im Alltag bzw. bei den genannten Use-Cases über mehrere Monate oder Jahre. Das Hearable erstellt Analysen auf Basis der gewählten Einstellung und gibt Warnungen und Empfehlungen an den Nutzer.For example, the user wears the device in everyday life or in the use cases mentioned for several months or years. The hearable creates analyzes based on the selected setting and gives warnings and recommendations to the user.

Z.B. trägt der Nutzer das Hearable über einen langen Zeitraum (Monate bis Jahre). Das Gerät erstellt selbständlich Analysen auf Basis der Hörpräferenzen, und das Gerät gibt Empfehlung und Warnungen bei einsetzendem Hörverlust.For example, the user wears the hearable over a long period of time (months to years). The device automatically creates analyzes based on hearing preferences, and the device provides recommendations and warnings when hearing loss begins.

Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist ein Therapiegerät und betrifft Nutzer mit Hörschaden im Alltag. In der Rolle als Übergangsgerät zum Hörgerät werden potentielle Patienten frühzeitig versorgt und somit Demenz präventiv behandelt. Andere Möglichkeiten sind Einsatz als Konzentrationstrainer (z.B. Für ADHS), Behandlung von Tinnitus und Stressminderung.A further application of another exemplary embodiment is a therapy device and affects users with hearing impairments in everyday life. In its role as a transitional device to the hearing aid, potential patients are treated at an early stage and dementia is thus treated preventively. Other possibilities are use as a concentration trainer (e.g. for ADHD), treatment of tinnitus and stress reduction.

Beispielsweise hat der Benutzer Hör-, oder Aufmerksamkeitsprobleme und nutzt das Hearable zeitweise/übergangsweise als Hörgerät. Je nach Hörproblem wird dieses durch das Hearable gemindert beispielsweise durch: Verstärkung aller Signale (Schwerhörigkeit), Hohe Selektivität für bevorzugte Schallquellen (Aufmerksamkeitsdefizite), Wiedergabe von Thereapiegeräuschen (Tinitusbehandlung).For example, the user has hearing or attention problems and uses the hearable temporarily/transitionally as a hearing aid. Depending on the hearing problem, this is reduced by the hearable, for example by: amplification of all signals (hearing impairment), high selectivity for preferred sound sources (attention deficits), reproduction of therapy noises (tinnitus treatment).

Nutzer wählt selbständig, oder auf Rat eines Arztes, eine Therapieform aus und trifft die bevorzugten Einstellungen, und das Hearable führt die gewählte Therapie aus.The user selects a form of therapy independently or on the advice of a doctor and makes the preferred settings, and the hearable carries out the selected therapy.

Alternativ erkennt das Hearable erkennt Hörprobleme aus UC-PRO1, und das Hearable passt Wiedergabe auf Basis der erkannten Probleme automatisch an und informiert den Nutzer.Alternatively, the Hearable detects hearing problems from UC-PRO1, and the Hearable automatically adjusts playback based on the problems detected and notifies the user.

Ein weiterer Anwendungsfall eines weiteren Ausführungsbeispiels ist Arbeit im öffentlichen Bereich und betrifft Arbeitnehmer im öffentlichen Bereich. Arbeitnehmer im öffentlichen Bereich (Krankenhäuser, Kinderärzte, Flughafenschalter, Erzieher, Gastronomie, Serviceschalter etc.), die während der Arbeit einem hohen Lärmpegel ausgesetzt sind, tragen ein Hearable, um die Sprache einer oder nur weniger Personen zur besseren Kommunikation und zum besseren Arbeitsschutz durch z.B. Stressminderung hervorzuheben.Another use case of another embodiment is public sector work and relates to public sector workers. Employees in the public sector (hospitals, paediatricians, airport counters, educators, gastronomy, service counters, etc.) who are exposed to a high level of noise during work wear a hearable to improve the speech of one or just a few people communication and for better occupational safety by e.g. stress reduction.

Beispielsweise sind Arbeitnehmer in ihrem Arbeitsumfeld einem hohen Lärmpegel ausgesetzt und müssen sich trotz des Hintergrundlärms mit Kunden, Patienten oder Arbeitskollegen unterhalten ohne, dass sie in ruhigere Umgebungen ausweichen können. Krankenhauspersonal ist einem hohen Lärmpegel durch Geräusche und dem Piepen medizinischer Geräte (oder anderem Arbeitslärm) ausgesetzt und muss sich trotzdem mit Patienten oder Kollegen verständigen können. Kinderärzte sowie Erzieher arbeiten inmitten von Kinderlärm ggf. -geschrei und müssen mit den Eltern reden können. Am Flughafenschalter hat das Personal Schwierigkeiten die Fluggäste bei einem hohen Lärmpegel in der Flughafenhalle zu verstehen. In der Gastronomie haben es die Keller schwer im Lärmpegel bei gut besuchten Gaststätten die Bestellwünsche ihrer Gäste zu hören. Dann stellt der Benutzer z.B. die Stimmenselektion ab, und das Hearable verstärkt die Stimme(n) nicht mehr.For example, employees are exposed to a high level of noise in their work environment and, despite the background noise, have to talk to customers, patients or work colleagues without being able to move to quieter surroundings. Hospital staff are exposed to high levels of noise from the noise and beeping of medical equipment (or other work noise) and still need to be able to communicate with patients or colleagues. Paediatricians and educators work in the midst of children's noise, if necessary screaming, and need to be able to talk to the parents. At the airport counter, staff have difficulty understanding passengers due to the high level of noise in the airport hall. In gastronomy, the cellars have a hard time hearing their guests' orders in the noise level of busy restaurants. Then the user turns off voice selection, for example, and the hearable no longer amplifies the voice(s).

Z.B. schaltet eine Person das aufgesetzte Hearable ein. Der Benutzer stellt das Hearable auf Stimmenselektion nahgelegener Stimmen ein, und das Hearable verstärkt die nächstgelegene Stimme bzw. wenige Stimmen im näheren Umfeld und unterdrückt gleichzeitig Hintergrundgeräusche. Der Benutzer versteht die relevante/n Stimme/n besser.For example, a person switches on the attached hearable. The user sets the hearable to select nearby voices, and the hearable amplifies the closest voice or a few nearby voices while suppressing background noise. The user understands the relevant voice(s) better.

Alternativ stellt eine Person das Hearable auf Dauergeräuschunterdrückung. Der Benutzer schaltet die Funktion ein, auftretende Stimmen zu erkennen und dann zu verstärken. So kann der Benutzer bei geringerem Lärmpegel weiterarbeiten. Bei direkter Ansprache aus einem Umkreis von x Metern verstärkt das Hearable dann die Stimme/n. Der Benutzer kann sich so bei geringem Lärmpegel mit der anderen Person/den anderen Personen unterhalten. Nach der Unterhaltung schaltet das Hearable zurück in den alleinigen Lärmminderungsmodus, und nach der Arbeit schaltet der Benutzer das Hearable wieder aus.Alternatively, a person puts the hearable on permanent noise suppression. The user turns on the function of recognizing occurring voices and then amplifying them. This allows the user to continue working with less noise. When addressed directly from a radius of x meters, the hearable then amplifies the voice/s. The user can thus converse with the other person(s) at low noise levels. After the conversation, the hearable switches back to noise-cancelling mode alone, and after work, the user turns the hearable back off.

Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist Personentransport und betrifft Nutzer in einem KFZ zum Personentransport. Beispielsweise möchte ein Benutzer und Fahrer eines Personentransporters während der Fahrt möglichst wenig durch die beförderten Personen abgelenkt werden. Die Mitfahrer sind zwar die Hauptstörquelle, aber es ist zeitweise auch eine Kommunkation mit Ihnen notwendig.Another application of another exemplary embodiment is passenger transport and relates to users in a motor vehicle for passenger transport. For example, a user and driver of a passenger transporter would like to be distracted as little as possible by the people being transported while driving. Although the passengers are the main source of interference, communication with them is also necessary at times.

Z.B. befinden sich ein Benutzer bzw. Fahrer und die Störquellen sich auf festen Positionen innerhalb des KFZs. Der Nutzer ist zum Bezugssytem zwar statisch, aber das KFZ selber bewegt sich. Ein angepasset Tracking Lösung ist daher notwendig. So werden im Normalfall Geräusche und Gespräche der Mitfahrer akustisch unterdrückt, außer es soll eine Kommunikation stattfinden.For example, there is a user or driver and the sources of interference are in fixed positions inside the vehicle. The user is static to the reference system, but the car itself moves. An adapted tracking solution is therefore necessary. Normally, noises and conversations between passengers are acoustically suppressed, unless communication is to take place.

Beispielsweise unterdrückt das Hearable standardmäßig Störgeräusche der Insassen. Der Benutzer kann durch eine geeignete Steuerrungsmöglichkeit (z.B. Spracherkennung, Taste im KFZ) die Unterdrückung manuell aufheben. Dabei passt das Hearable die Audiowiedergabe entsprechend der Auswahl an.For example, the Hearable suppresses background noise from the occupants by default. The user can manually override the suppression using a suitable control option (e.g. voice recognition, button in the vehicle). The Hearable adjusts the audio playback according to the selection.

Alternativ erkennt das Hearable, dass ein Mitfahrer den Fahrer aktiv anspricht und deaktiviert die Geräuschunterdrückung zeitweise.Alternatively, the hearable detects that a passenger is actively addressing the driver and temporarily disables noise cancellation.

Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist Schule und Ausbildung und betrifft Lehrer und Schüler im Unterricht. In einem Beispiel hat das Hearable zwei Rollen wobei die Funktionen der Geräte teilweise gekoppelt sind. Das Gerät des Lehrers/Vortagenden unterdrückt Störgeräusche und verstärkt Sprache/Fragen aus den Reihen der Schüler. Weiterhin kann über das Lehrergerät die Hearables der Zuhörer gesteuert werden. So können besonders wichtige Inhalte hervorgehoben werden ohne lauter sprechen zu müssen. Die Schüler können ihr Hearable einstellen um die Lehrer besser verstehen zu können und störende Mitschüler auszublenden.Another application of a further embodiment is school and training and relates to teachers and students in the classroom. In one example, the hearable has two roles, with the functions of the devices being partially coupled. The teacher's/presenter's device suppresses background noise and amplifies speech/questions from the ranks of the students. Furthermore, the hearables of the listeners can be controlled via the teacher's device. In this way, particularly important content can be highlighted without having to speak louder. Students can adjust their Hearable to better understand the teacher and block out disruptive classmates.

Beispielsweise befinden Lehrer und Schüler sich in definierten Bereichen in geschlossenen Räumen (dies ist der Regelfall). Sind alle Geräte miteinander gekoppelt, dann sind die relativen Positionen austauschbar was wiederum die Quellentrennung vereinfacht. Die ausgewählte Schallquelle wird akustisch hervorgehoben bis der Nutzer (Lehrer/Schüler) seine Auswahl aufhebt oder bis Warnsignale die Funktion des Geräts aussetzen.For example, teachers and students are in defined areas in closed rooms (this is the norm). When all devices are paired together, the relative positions are interchangeable, which in turn simplifies source separation. The selected sound source is acoustically highlighted until the user (teacher/student) cancels their selection or until warning signals stop the device from functioning.

Z.B. präsentiert ein Lehrer bzw. Vortragender einen Inhalt und das Gerät unterdrückt Störgeräusche. Der Lehrer möchte eine Frage eines Schülers hören und ändert Fokus des Hearables auf den Fragenden (automatisch oder durch geeignte Steuerungsmöglichkeit) Nach der Kommunikation werden wieder alle Geräusche unterdrückt. Zudem kann vorgesehen sein, dass z.B. ein Schüler, der sich von Mitschülern gestört fühlt, diese akustisch ausblendet. Ferner kann z.B. ein Schüler, der weit weg vom Lehrer sitzt, dessen Stimme verstärken.For example, a teacher or lecturer presents content and the device suppresses background noise. The teacher wants to hear a student's question and changes the focus of the hearable to the questioner (automatically or through a suitable control option). After communication, all noises are suppressed again. In addition, it can be provided that, for example, a student who feels disturbed by classmates hides them acoustically. Furthermore, for example, a student sitting far away from the teacher can amplify his voice.

Alternativ können Lehrer- und Schülergerät z.B. gekoppelt sein. Durch das Lehrergerät kann die Selektivität der Schülergeräte zeitweise gesteuert werden. Bei besonders wichtigen Inhalten ändert der Lehrer die Selektivität der Schülergeräte um seine Stimme zu verstärken.Alternatively, teacher and student devices can be paired, for example. The selectivity of the student devices can be temporarily controlled by the teacher device. For particularly important content, the teacher changes the selectivity of the student devices to amplify their voice.

Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist das Militär und betrifft Soldaten. Die verbale Kommunikation zwischen Soldaten im Einsatz erfolgt zum Einen über Funkgeräte und zum Anderen über Zurufe und direktes Ansprechen. Funk wird meistens verwendet, wenn größere Distanzen überbrückt werden müssen und wenn zwischen verschieden Einheiten und Teilgruppen kommuniziert werden soll. Es kommt oft eine festgelegte Funk-Etiquette zur Anwendung. Zurufe und direktes Ansprechen erfolgt meistens zur Kommunikation innerhalb eines Trupps oder Gruppe.Während des Einsatzes von Soldaten kann es zu erschwerten akustischen Bedingungen kommen (bspw. schreiende Menschen, Waffenlärm, Unwetter), welche beide Kommunikationswege beeinträchtigen können. Zur Ausrüstung eines Soldaten gehört oft eine Funkgarnitur mit Ohrhörer. Diese erfüllen neben dem Zweck der Audiowiedergabe auch Schutzfunktionen vor zu hohen Schalldruckpegeln. Diese Geräte sind oft mit Mikrofonen ausgestattet, um Umweltsignale an die Ohren des Trägers zu bringen. Eine aktive Geräuschunterdrückung ist ebenfalls Bestandteil derartiger Systeme.Eine Erweiterung des Funktionsumfanges ermöglicht ein Zurufen und direktes Ansprechen von Soldaten in einer geräuschbehafteten Umgebung durch intelligente Dämpfung der Störgeräusche und eine selektive Hervorhebung von Sprache mit einer richtungsgetreuen Wiedergabe. Hierzu müssen die relativen Positionen der Soldaten im Raum/Gelände bekannt sein. Weiterhin müssen Sprachsignale und Störgeräusche räumlich und inhaltlich voneinander getrennt werden. Das System muss auch mit hohen SNR-Pegeln von leisem Flüstern bis hin zu Schreien und Explosionsgeräuschen zurechtkommen. Die Vorteile eines derartiges Systems sind: verbale Kommunikation zwischen Soldaten in störgeräuschbehafteter Umgebung, Beibehaltung eines Gehörschutzes, Verzichtbarkeit auf Funk-Etiquette, Abhörsicherheit (da keine Funklösung).Another use case of another embodiment is in the military and pertains to soldiers. Verbal communication between soldiers on deployment takes place on the one hand via radios and on the other hand via shouts and direct addressing. Radio is mostly used when greater distances have to be bridged and when communication between different units and subgroups is to be carried out. A fixed radio etiquette is often applied. Shouting and direct addressing is mostly used for communication within a squad or group. Difficult acoustic conditions can arise during the deployment of soldiers (e.g. screaming people, noise from weapons, storms), which can impair both communication channels. A soldier's equipment often includes a radio set with earphones. In addition to the purpose of audio reproduction, these also protect against excessive sound pressure levels. These devices are often equipped with microphones to bring environmental signals to the wearer's ears. Active noise suppression is also part of such systems. An expansion of the range of functions enables soldiers to be called out and spoken to directly in a noisy environment through intelligent damping of background noise and selective emphasis of speech with a directional reproduction. To do this, the relative positions of the soldiers in space/terrain must be known. Furthermore, speech signals and background noise must be separated from one another spatially and in terms of content. The system must also be able to cope with high SNR levels from soft whispers to screams and explosion sounds. The advantages of such a system are: verbal communication between soldiers in a noisy environment, retention of hearing protection, no need for radio etiquette, security against eavesdropping (since there is no radio solution).

Beispielsweise kann das Zurufen und direkte Ansprechen zwischen Soldaten im Einsatz durch Störgeräusche erschwert werden. Diese Problematik wird aktuell durch Funklösungen im Nahbereich und für größere Distanzen adressiert. Das neue System ermöglicht das Zurufen und direkte Ansprechen im Nahbereich durch eine intelligent und räumliche Hervorhebung des jeweiligen Sprechers bei gleichzeitiger Dämpfung der Umgebungsgeräusche.For example, shouting out and direct addressing between soldiers in action can be made more difficult by background noise. This problem is currently being addressed by radio solutions in the short range and for longer distances. The new system enables calling out and direct addressing at close range through an intelligent and Spatial emphasis of the respective speaker with simultaneous attenuation of ambient noise.

Z.B. befindet sich der Soldat im Einsatz. Zurufe und Sprache wird automatisch erkannt und das System verstärkt diese bei gleichzeitiger Dämpfung der Nebengeräusche. Das System passt die räumliche Audiowiedergabe an, um die Zielschallquelle gut verstehen zu können.For example, the soldier is on duty. Shouts and speech are automatically recognized and the system amplifies them while simultaneously dampening background noise. The system adjusts the spatial audio reproduction in order to be able to clearly understand the target sound source.

Alternativ können dem System z.B. die sich in einer Gruppe befindlichen Soldaten bekannt sein. Nur Audiosignals von diesen Gruppenmitgliedern werden durchgelassen.Alternatively, for example, the soldiers in a group can be known to the system. Only audio from those group members will pass through.

Ein weiterer Anwendungsfall eines weiteren Ausführungsbeispiels betrifft Sicherheitspersonal und Sicherheitsbeamte. So kann z.B. das Hearable bei unübersichtlichen Großveranstaltungen (Feiern, Proteste) zur präventiven Verbrechungserkennung eingesetzt werden. Die Selektivität des Hearables wird durch Stichworte gesteuert z.B. durch Hilfe-Rufe oder Aufrufe zur Gewalt. Das setzt eine inhaltliche Analyse des Audiosignals (z.B: Spracherkennung) voraus.Another use case of another embodiment relates to security personnel and security officers. For example, the hearable can be used at confusing large events (celebrations, protests) for preventive crime detection. The selectivity of the hearable is controlled by keywords, e.g. calls for help or calls for violence. This requires an analysis of the content of the audio signal (e.g. speech recognition).

Beispielsweise ist der Sicherheitsbeamte von vielen lauten Schallquellen umgeben, wobei der Beamte und alle Schallquellen in Bewegung sein können. Ein Hilfe-Rufender ist unter normalen Hörbedingungen nicht oder nur leise hörbar (schlechter SNR). Die manuell oder automatische ausgewählte Schallquelle wird akustisch hervorgehoben bis der Nutzer die Auswahl aufhebt. Optional wird an der Position/Richtung der interessanten Schallquelle ein virtuelles Schallobjekt platziert um den Ort leicht finden zu können (z.B. für den Fall eines einmaligen Hilferufs).For example, the security officer is surrounded by many loud sound sources, and the officer and all of the sound sources may be in motion. A caller for help is not audible or only faintly audible under normal hearing conditions (poor SNR). The manually or automatically selected sound source is acoustically highlighted until the user cancels the selection. Optionally, a virtual sound object is placed at the position/direction of the interesting sound source in order to be able to easily find the location (e.g. in the event of a one-time call for help).

Z.B. erkennt das Hearable Schallquellen mit potentiellen Gefahrenquellen. Ein Sicherheitsbeamter wählt welcher Schallquelle bzw. welchem Ereignis er nachgehen möchte (z.B. durch Auswahl auf einem Tablett). Das Hearable passt daraufhin die Audiowiedergabe an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen und orten zu können.For example, the hearable recognizes sound sources with potential sources of danger. A security officer chooses which sound source or event he would like to investigate (e.g. by selecting it on a tablet). The hearable then adjusts the audio playback in order to be able to understand and locate the target sound source even with background noise.

Alternativ kann beispielsweise, wenn die Zielschallquelle verstummt ist, ein Ortungssignal in Richtung/Distanz der Quelle platziert werden.Alternatively, for example if the target sound source has stopped, a locating signal can be placed in the direction/distance of the source.

Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist Bühnenkommunikation und betrifft Musiker. Auf Bühnen können bei Proben oder Konzerten (z.B. Band, Orchester, Chor, Musical) auf Grund schwieriger akustischer Verhältnisse einzelne Instrumente(ngruppe) nicht gehört werden, die in anderen Umgebungen noch zu hören waren. Dadurch wird das Zusammenspiel beeinträchtigt, da wichtige (Begleit-)Stimmen nicht mehr wahrnehmbar sind. Das Hearable kann diese Stimme/n hervorheben und wieder hörbar machen und somit das Zusammenspiel der einzelnen Musiker verbessern bzw. sichern. Mit dem Einsatz könnte auch die Lärmbelastung einzelner Musiker verringert werden und damit Hörverluste vorbeugen, indem z.B. das Schlagzeug gedämpft wird, und gleichzeitig könnten die Musiker noch alles Wichtige hören.Another use case of another embodiment is stage communication and relates to musicians. On stages at rehearsals or concerts (e.g. band, orchestra, choir, musical) due to difficult acoustic conditions, individual instruments (groups) that could still be heard in other surroundings cannot be heard. This affects the interaction, since important (accompanying) voices are no longer perceptible. The hearable can emphasize these voices and make them audible again and thus improve or ensure the interaction of the individual musicians. The use of this could also reduce the noise exposure of individual musicians and thus prevent hearing loss, for example by muting the drums, and at the same time the musicians could still hear everything important.

Beispielsweise hört ein Musiker ohne Hearable auf der Bühne mindestens eine andere Stimme nicht mehr. Hier kann das Hearable dann eingesetzt werden. Wenn die Probe bzw. das Konzert zu Ende ist, setzt der Benutzer das Hearable nach dem Ausschalten wieder ab.For example, a musician without Hearable can no longer hear at least one other voice on stage. The hearable can then be used here. When the rehearsal or the concert is over, the user puts the hearable back down after switching it off.

In einem Beispiel schaltet der Benutzer das Hearable ein. Er wählt ein oder mehrere gewünschte Musikinstrumente, die verstärkt werden soll, aus. Beim gemeinsamen Musizieren wird nun vom Hearable das ausgewählte Musikinstrument verstärkt und somit wieder hörbar gemacht. Nach dem Musizieren schaltet der Benutzer das Hearable wieder aus.
In einem alternativen Beispiel schaltet der Benutzer schaltet das Hearable ein. Er wählt das gewünschte Musikinstrument, dessen Lautstärke verringert werden soll, aus. 7. Beim gemeinsamen Musizieren wird nun vom Hearable das ausgewählte Musikinstrument in der Lautstärke verringert, sodass der Benutzer dieses nur noch auf gemäßigter Lautstärke hört.
In one example, the user turns on the hearable. He selects one or more desired musical instruments to be amplified. When playing music together, the Hearable now amplifies the selected musical instrument and thus makes it audible again. After making music, the user switches the hearable off again.
In an alternate example, the user turns on the hearable. He selects the desired musical instrument whose volume is to be reduced. 7. When making music together, the Hearable now reduces the volume of the selected musical instrument so that the user only hears it at a moderate volume.

In dem Hearable können beispielsweise Musikinstrumentprofile eingespeichert sein.Musical instrument profiles, for example, can be stored in the hearable.

Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist Quellentrennung als Softwaremodul für Hörgeräte im Sinne des Ökosystems und betrifft Hörgerätehersteller bzw. Hörgerätenutzer. Hörgerätehersteller können Quellentrennung als Zusatztool für ihre Hörgeräte nutzen und den Kunden anbieten. So könnten auch Hörgeräte von der Entwicklung profitieren. Denkbar ist auch ein Lizenzmodell für andere Märkte/Geräte (Kopfhörer, Handys, etc.).Another application of a further exemplary embodiment is source separation as a software module for hearing aids in terms of the ecosystem and relates to hearing aid manufacturers and hearing aid users. Hearing aid manufacturers can use source separation as an additional tool for their hearing aids and offer it to customers. Hearing aids could also benefit from the development. A license model for other markets/devices (headphones, mobile phones, etc.) is also conceivable.

Beispielsweise haben es Hörgerätenutzer schwierig, bei einer komplexen auditiven Situation verschiedene Quellen voneinander zu trennen, um beispielsweise den Fokus auf einen bestimmten Sprecher zu legen. Um auch ohne externe Zusatzsysteme (z.B. Übertragung von Signalen von Mobilfunkanalagen über Bluetooth, gezielte Signalübertragung in Klassenräumen über eine FM-Anlage oder induktive Höranlagen) selektiv hören zu können, verwendet der Nutzer ein Hörgerät mit der Zusatzfunktion zum selektiven Hören. So kann er auch ohne Fremdzutun durch Quellentrennung einzelne Quellen fokussieren. Am Ende stellt der Benutzer die Zusatzfunktion aus und hört normal mit dem Hörgerät weiter.For example, hearing aid users find it difficult to separate different sources from each other in a complex auditory situation, for example to focus on to assign a specific speaker. In order to be able to hear selectively without external additional systems (e.g. transmission of signals from mobile phone systems via Bluetooth, targeted signal transmission in classrooms via an FM system or inductive hearing systems), the user uses a hearing aid with the additional function for selective hearing. In this way, he can also focus on individual sources by separating the sources without having to do anything else. In the end, the user turns off the additional function and continues to hear normally with the hearing aid.

Beispielsweise kauft sich ein Hörgerätenutzer ein neues Hörgerät mit integrierter Zusatzfunktion zum selektiven Hören. Der Benutzer stellt die Funktion zum selektiven Hören am Hörgerät ein. Dann wählt der Benutzer ein Profil aus (z.B. lauteste/nächstgelegene Quelle verstärken, Stimmenerkennung bestimmter Stimmen aus dem persönlichen Umfeld verstärken (wie beim UC-CE5 Großveranstaltungen). Das Hörgerät verstärkt entsprechend des eingestellten Profils die jeweilige Quelle/n und unterdrückt gleichzeitig bei Bedarf Hintergrundlärm, und der Hörgerätenutzer hört einzelne Quellen aus der komplexen auditiven Szene anstatt nur einen "Lärmbrei"/Wirrwarr aus akustischen Quellen.For example, a hearing device user buys a new hearing device with an integrated additional function for selective hearing. The user sets the selective hearing function on the hearing aid. Then the user selects a profile (e.g. amplify loudest/nearest source, amplify voice recognition of specific voices from the personal environment (as with the UC-CE5 at major events). The hearing aid amplifies the respective source/s according to the set profile and at the same time suppresses background noise if necessary , and the hearing aid user hears individual sources from the complex auditory scene instead of just a "noise mush"/muddle of acoustic sources.

Alternativ kauft sich der Hörgerätenutzer beispielsweise die Zusatzfunktion zum selektiven Hören als Software o.ä. für sein eigenes Hörgerät. Der Benutzer installiert die Zusatzfunktion für sein Hörgerät. Dann stellt der Benutzer stellt die Funktion zum selektiven Hören am Hörgerät ein. Der Benutzer wählt ein Profil aus (lauteste/nächstgelegene Quelle verstärken, Stimmenerkennung bestimmter Stimmen aus dem persönlichen Umfeld verstärken (wie beim UC-CE5 Großveranstaltungen), und das Hörgerät verstärkt entsprechend des eingestellten Profils die jeweilige Quelle/n und unterdrückt gleichzeitig bei Bedarf Hintergrundlärm. Dabei hört der Hörgerätenutzer einzelne Quellen aus der komplexen auditiven Szene anstatt nur einen "Lärmbrei"/Wirrwarr aus akustischen Quellen.Alternatively, the hearing device user buys the additional function for selective listening as software or the like for his own hearing device. The user installs the add-on feature for their hearing aid. Then the user sets the selective listening function on the hearing aid. The user selects a profile (amplify loudest/closest source, amplify voice recognition of specific voices from their personal environment (like the UC-CE5 at major events), and the hearing aid amplifies the source(s) according to the set profile, while suppressing background noise if necessary. The hearing aid user hears individual sources from the complex auditory scene instead of just a "noise mush"/muddle from acoustic sources.

Das Hearable kann beispielsweise einspeicherbare Stimmenprofile vorsehen.For example, the hearable can provide voice profiles that can be stored.

Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist Profisport und betrifft Sportler im Wettkampf. In Sportarten wie Biathlon, Triathlon, Radrennen, Marathon usw. sind Profisportler auf die Informationen ihrer Trainer oder die Kommunikation mit Teamkollegen angewiesen. Allerdings gibt es auch Situationen in denen Sie sich vor lauten Geräuschen (Schießen beim Biathlon, lautes Jubeln, Partytröten usw.) schützen wollen, um sich konzentrieren zu können. Das Hearable könnte für die jeweilige Sportart/Sportler angepasst werden, um eine vollautomatische Selektion relevanter Schallquellen (Erkennen bestimmter Stimmen, Lautheitslimitierung für typische Störgeräusche) zu ermöglichen.Another use case of another embodiment is professional sports and relates to athletes in competition. In sports such as biathlon, triathlon, cycling, marathon, etc., professional athletes rely on information from their coaches or communication with teammates. However, there are also situations in which you want to protect yourself from loud noises (shooting at a biathlon, loud cheering, party horns, etc.) in order to be able to concentrate. The hearable could be for the respective sport/athlete be adjusted to enable a fully automatic selection of relevant sound sources (recognition of specific voices, loudness limitation for typical background noise).

Beispielsweise kann der Benutzer sehr mobil sein, und die Art der Störgeräusche ist abhängig von der Sportart. Aufgrund der intensiven sportlichen Belastung ist keine oder nur wenig aktive Steuerung des Geräts durch den Sportler möglich. Allerdings gibt es in den meisten Sportarten einen festgelegten Ablauf (Biathlon: Laufen, Schießen) und die wichtigen Gesprächspartner (Trainer, Teammitglieder) können vorher definiert werden Lärm wird dabei generell oder in bestimmten Phasen des Sports unterdrückt. Die Kommunikations zwischen Sportler und Teammitgliedern sowie Trainer wird stets hervorgehoben.For example, the user may be very mobile and the nature of the noise depends on the sport. Due to the intense sporting activity, the athlete is not able to control the device actively or only to a limited extent. However, in most sports there is a fixed procedure (biathlon: running, shooting) and the important discussion partners (coaches, team members) can be defined in advance. Noise is suppressed in general or in certain phases of the sport. Communication between athletes and team members and coaches is always emphasized.

Z.B. nutzt der Sportler ein speziell auf die Sportart eingestelltes Hearable. Das Hearable unterdrückt vollautomatisch (voreingestellt) Störgeräusche, besonders in Situation wo bei der jeweiligen Sportart ein hohes Maß an Aufmerksamkeit gefordert ist. Der Weiteren hebt das Hearable vollautomatisch (voreingestellt) Trainer und Teammitglieder hervor, wenn diese in Hörreichweite sind.For example, the athlete uses a hearable specially adapted to the sport. The Hearable suppresses background noise fully automatically (preset), especially in situations where a high degree of attention is required for the sport in question. Furthermore, the Hearable automatically (default) highlights coaches and team members when they are within hearing range.

Ein weiterer Anwendungsfall eines weiteren Ausführungsbeispiels ist Gehörbildung und betrifft Musikschüler- und Studenten, professionelle Musiker, Amateurmusiker. Für Musikproben (z.B. im Orchester, in einer Band, im Ensemble, im Musikunterricht) wird ein Hearable gezielt genutzt, um einzelne Stimmen herausgefiltert mitverfolgen zu können. Vor allem zu Beginn von Proben ist es hilfreich sich fertige Aufnahmen der Stücke anzuhören und die eigene Stimme mitzuverfolgen. Je nach Komposition sind die Stimmen im Hintergrund nicht gut herauszuhören, da man nur die vordergründigen Stimmen hört. Mit dem Hearable könnte man dann eine Stimme seiner Wahl anhand des Instrumentes o.ä. hervorheben, um sie gezielter üben zu können.A further application of a further exemplary embodiment is ear training and relates to music students, professional musicians, amateur musicians. For music rehearsals (e.g. in an orchestra, in a band, in an ensemble, in music lessons), a hearable is used in a targeted manner in order to be able to follow individual voices filtered out. Especially at the beginning of rehearsals it is helpful to listen to finished recordings of the pieces and to follow your own voice. Depending on the composition, the voices in the background can't be clearly heard because you only hear the voices in the foreground. With the hearable you could then emphasize a voice of your choice using the instrument or similar in order to be able to practice it more specifically.

(Angehende) Musikstudenten können das Hearable auch nutzen ihre Fähigkeit zur Gehörbildung zu trainieren, um sich gezielt auf Aufnahmeprüfungen vorzubereiten, indem Schritt für Schritt einzelne Hervorhebungen minimiert werden, bis sie am Ende ohne Hilfe die einzelnen Stimmen aus komplexen Stücken zu extrahieren.(Aspiring) music students can also use the Hearable to train their ear training skills in order to prepare for entrance exams by minimizing individual highlights step by step until they finally extract the individual voices from complex pieces without help.

Eine weitere mögliche Anwendung stellt Karaoke da, wenn z.B. kein Singstar o.ä. in der Nähe ist. Dann kann man nach Belieben aus einem Musikstück die Gesangsstimme(n) unterdrücken, um für das Karaokesingen nur die Instrumentalversion zu hören.Another possible application is karaoke, for example if there is no singing star or similar in the vicinity. Then you can suppress the vocal part(s) from a piece of music at will in order to only hear the instrumental version for karaoke singing.

Beispielsweise fängt ein Musiker an, eine Stimme aus einem Musikstück neu zu lernen. Er hört sich die Aufnahme zu dem Musikstück über eine CD-Anlage oder einem anderen Wiedergabemedium an. Ist der Benutzer fertig mit Üben, schaltet er das Hearable dann wieder aus.
In einem Beispiel schaltet der Benutzer das Hearable ein. Er wählt das gewünschte Musikinstrument, das verstärkt werden soll, aus. Beim Anhören des Musikstücks verstärkt das Hearable die Stimme/n des Musikinstruments, regelt die Lautstärke der restlichen Musikinstrumente herunter und der Benutzer kann so die eigene Stimme besser mitverfolgen
For example, a musician begins to relearn a voice from a piece of music. He listens to the recording of the piece of music on a CD system or another playback medium. When the user is done practicing, they turn the hearable back off.
In one example, the user turns on the hearable. He selects the desired musical instrument to be amplified. When listening to the piece of music, the hearable amplifies the voice(s) of the musical instrument and turns down the volume of the other musical instruments, allowing the user to hear their own voice better

In einem alternativen Beispiel schaltet der Benutzer das Hearable ein. Er wählt das gewünschte Musikinstrument, das unterdrückt werden soll, aus. Beim Anhören des Musikstücks werden die Stimme/n des ausgewählten Musikstücks unterdrückt, sodass nur die restlichen Stimmen zu hören sind. Der Benutzer kann dann die Stimme auf dem eigenen Instrument mit den anderen Stimmen üben, ohne von der Stimme aus der Aufnahme abgelenkt zu werden.In an alternate example, the user turns on the hearable. He selects the desired musical instrument to be suppressed. When listening to the song, the voice(s) of the selected song will be muted so that only the remaining voices can be heard. The user can then practice the voice on their own instrument with the other voices without being distracted by the voice from the recording.

In den Beispielen kann das Hearable eingespeicherte Musikinstrumentprofile vorsehen.In the examples, the hearable may provide stored musical instrument profiles.

Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist Arbeitssicherheit und betrifft Arbeiter in lauter Umgebung. Arbeiter in lauter Umgebung zum Beispiel in Maschinenhallen oder auf Baustellen müssen sich vor Lärm schützen, aber auch Warnsignale wahrnehmen können sowie mit Mitarbeiter kommunizieren können.Another use case of another embodiment is occupational safety and concerns workers in noisy environments. Workers in noisy environments, for example in machine halls or on construction sites, must protect themselves from noise, but also be able to perceive warning signals and communicate with employees.

Beispielsweise befindet sich der Benutzer in einer sehr lauten Umgebung und die Zielschallquellen (Warnsignale, Mitarbeiter) sind unter Umständen deutlich leiser als die Störsignale. Der Benutzer kann mobil sein, aber die Störgeräusche ist meist ortsstabil. Lärm wird wie bei einem Gehörschutz dauerhaft gesenkt und das Hearable hebt vollautomisch Warnsignal hervor. Kommunikation mit Mitarbeiter wird durch Verstärkung von Sprecherquellen gewährleistet
Z. B. geht der Benutzer seiner Arbeit nach und nutzt Hearable als Gehörschutz. Warnsignale (z.B. Feueralarm) werden akustisch hervorgehoben, und der Benutzer unterbricht ggf. seine Arbeit.
For example, the user is in a very noisy environment and the target sound sources (warning signals, employees) may be significantly quieter than the interfering signals. The user may be mobile, but the noise interference is mostly stationary. As with hearing protection, noise is permanently reduced and the hearable automatically highlights a warning signal. Communication with employees is ensured by amplification of speaker sources
For example, the user goes about his work and uses Hearable as hearing protection. Warning signals (eg fire alarm) are acoustically emphasized and the user interrupts his work if necessary.

Alternativ geht der Benutzer z.B. seiner Arbeit nach und nutzt Hearable als Gehörschutz. Wenn der Bedarf noch Kommunikation mit Mitarbeiter besteht, wird mit Hilfe geeigner Schnittstellen (hier z.B.: Blicksteuerung) der Kommunukationspartner gewählt und akustisch hervorgehoben
Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist Quellentrennung als Softwaremodul für Live-Übersetzer und betrifft Nutzer eines Live-Übersetzers. Live-Übersetzer übersetzen gesprochene Fremdsprachen in Echtzeit und können von einem vorgeschalteten Softwaremodul zur Quellentrennung profitieren. Vor allem für den Fall, dass mehrere Sprecher anwesend sind, kann das Softwaremodul den Zielsprecher extrahieren und die Übersetzung damit potentiell verbessern.
Alternatively, the user goes about his work, for example, and uses Hearable as hearing protection. If there is still a need for communication with employees, the communication partner is selected with the help of suitable interfaces (here, for example: gaze control) and highlighted acoustically
Another use case of another embodiment is source separation as a software module for live translators and concerns users of a live translator. Live translators translate spoken foreign languages in real time and can benefit from an upstream source separation software module. Especially when multiple speakers are present, the software module can extract the target speaker and potentially improve the translation.

Beispielsweise ist das Softwaremodul Bestandteil eines Live-Übersetzers (dediziertes Gerät oder Smartphone App). Nutzer kann Zielsprecher beispielsweise über Display des Geräts auswählen. Vorteilhaft ist, dass sich der Übersetzer und die Zielschallquelle für die Zeit der Übersetzung in der Regel nicht oder wenig bewegen. Die ausgewählte Schallquellenpositionen wird akustisch hervorgehoben und verbessert somit potentiell die Übersetzung.For example, the software module is part of a live translator (dedicated device or smartphone app). For example, the user can select the target speaker via the device display. It is advantageous that the translator and the target sound source usually do not move or move very little during the translation. The selected sound source position is acoustically emphasized and thus potentially improves the translation.

Z.B. möchte ein Nutzer ein Gespräch in Fremdsprache führen oder einem Fremsprachler zuhören. Der Nutzer wählt Zielsprecher durch geeignetes Interface (z.B: GUI auf Display) und das Softwaremodul optimiert die Audioaufnahme für die weitere Verwendung im Übersetzer.For example, a user wants to have a conversation in a foreign language or listen to a foreign speaker. The user selects the target speaker through a suitable interface (e.g. GUI on the display) and the software module optimizes the audio recording for further use in the translator.

Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist Arbeitsschutz von Einsatzkräften und betrifft Feuerwehr, THW, ggf. Polizei, Rettungskräfte. Bei Einsatzkräften ist eine gute Kommunikation für eine erfolgreiche Einsatzbewältigung essentiell. Häufig ist es nicht möglich für die Einsatzkräfte einen Gehörschutz zu tragen trotz lautem Umgebungslärm, da dann keine Kommunikation untereinander möglich ist. Feuerwehrleute müssen beispielsweise trotz lauter Motorengeräusche Befehle exakt mitteilen und verstehen können, was zum Teil über Funkgeräte geschieht. Daher sind Einsatzkräfte einer hohen Lärmbelastung ausgesetzt, bei der die Gehörschutzverordnung nicht umsetzbar ist. Ein Hearable würde zum einen Gehörschutz für die Einsatzkräfte bieten und zum anderen die Kommunikation zwischen den Einsatzkräften weiterhin ermöglichen. Weitere Punkte sind, dass die Einsatzkräfte mit Hilfe des Hearables beim Tragen von Helmen/Schutzausrüstung akustisch nicht von der Umwelt abgekoppelt sind und somit besser helfen können. Sie können dann besser kommunizieren und auch Gefahren für sich selber besser einschätzen (z.B. hören, was für eine Art von Feuer vorliegt).A further application of another exemplary embodiment is occupational safety for emergency services and relates to the fire brigade, THW, possibly the police, rescue services. For emergency services, good communication is essential for successful operation management. It is often not possible for the emergency services to wear hearing protection despite loud ambient noise, since then no communication with each other is possible. For example, firefighters must be able to communicate and understand commands precisely despite the loud engine noise, some of which is happening over radios. For this reason, emergency services are exposed to a high level of noise pollution, where the Hearing Protection Ordinance cannot be implemented. On the one hand, a hearable would offer hearing protection for the emergency services and, on the other hand, would continue to enable communication between the emergency services. Other points are that the emergency services are not acoustically isolated from the environment with the help of the hearable when wearing helmets/protective equipment and thus can help better. You can then communicate better and also better assess dangers for yourself (e.g. hear what kind of fire there is).

Beispielsweise ist der Benutzer hohem Umgebungslärm ausgesetzt und kann daher keinen Gehörschutz tragen und muss sich trotzdem mit anderen noch verständigen können. Er setzt das Hearable ein. Nachdem der Einsatz bzw. die Gefahrensituation vorbei ist, setzt der Benutzer kann das Hearable wieder ab.For example, the user is exposed to high ambient noise and therefore cannot wear hearing protection and still needs to be able to communicate with others. He uses the hearable. After the operation or the dangerous situation is over, the user can put the hearable back down.

Z.B. trägt der Benutzer das Hearable während eines Einsatzes. Er schaltet das Hearable ein. Das Hearable unterdrückt Umgebungslärm und verstärkt die Sprache von Kollegen und anderen nahegelegenen Sprechern (z.B. Brandopfern).For example, the user wears the hearable during an operation. He turns on the hearable. The hearable suppresses ambient noise and amplifies the speech of colleagues and other nearby speakers (e.g. fire victims).

Alternativ trägt der Benutzer trägt das Hearable während eines Einsatzes. Er schaltet das Hearable ein, und das Hearable unterdrückt Umgebungslärm und verstärkt die Sprache von Kollegen übers Funkgerät.Alternatively, the user wears the hearable during an operation. He turns on the Hearable, and the Hearable blocks out ambient noise and amplifies co-workers' speech over the radio.

Gegebenenfalls ist das Hearable besonders dafür ausgelegt, eine bauliche Eignung für Einsätze entsprechend einer Einsatzvorschrift zu erfüllen. Eventuelle weist das Hearable eine Schnittstelle zu einem Funkgerät auf.If necessary, the hearable is specially designed to meet a structural suitability for use in accordance with a use regulation. The hearable may have an interface to a radio device.

Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung bzw. einem System beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung bzw. eines Systems auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung bzw. Systems dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder einer elektronischen Schaltung durchgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.Although some aspects have been described in the context of a device or a system, it is understood that these aspects also represent a description of the corresponding method, so that a block or a component of a device or a system can also be used as a corresponding method step or as a Feature of a process step is to be understood. Similarly, aspects described in connection with or as a method step also constitute a description of a corresponding block or detail or feature of a corresponding apparatus or system. Some or all of the method steps may be performed by hardware apparatus (or using a hardware apparatus) such as a microprocessor, a programmable computer or an electronic circuit. In some embodiments, some or more of the essential process steps can be performed by such an apparatus.

Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software oder zumindest teilweise in Hardware oder zumindest teilweise in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer BluRay Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.Depending on particular implementation requirements, embodiments of the invention may be in hardware or in software, or at least partially in hardware or be at least partially implemented in software. Implementation can be performed using a digital storage medium such as a floppy disk, a DVD, a BluRay disk, a CD, a ROM, a PROM, an EPROM, an EEPROM or a FLASH memory, a hard disk or other magnetic or optical Memory are carried out on which electronically readable control signals are stored, which can interact with a programmable computer system in such a way or interact that the respective method is carried out. Therefore, the digital storage medium can be computer-readable.

Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.Thus, some embodiments according to the invention comprise a data carrier having electronically readable control signals capable of interacting with a programmable computer system in such a way that one of the methods described herein is carried out.

Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.In general, embodiments of the present invention can be implemented as a computer program product with a program code, wherein the program code is effective to perform one of the methods when the computer program product runs on a computer.

Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.The program code can also be stored on a machine-readable carrier, for example.

Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist. Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft.Other exemplary embodiments include the computer program for performing one of the methods described herein, the computer program being stored on a machine-readable carrier. In other words, an exemplary embodiment of the method according to the invention is therefore a computer program that has a program code for performing one of the methods described herein when the computer program runs on a computer.

Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist. Der Datenträger oder das digitale Speichermedium oder das computerlesbare Medium sind typischerweise greifbar und/oder nicht flüchtig.A further exemplary embodiment of the method according to the invention is therefore a data carrier (or a digital storage medium or a computer-readable medium) on which the computer program for carrying out one of the methods described herein is recorded. The data carrier or digital storage medium or computer-readable medium is typically tangible and/or non-transitory.

Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.A further exemplary embodiment of the method according to the invention is therefore a data stream or a sequence of signals which represents the computer program for carrying out one of the methods described herein. the The data stream or the sequence of signals can, for example, be configured to be transferred over a data communication link, for example over the Internet.

Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.Another embodiment includes a processing device, such as a computer or programmable logic device, configured or adapted to perform any of the methods described herein.

Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.Another embodiment includes a computer on which the computer program for performing one of the methods described herein is installed.

Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.A further exemplary embodiment according to the invention comprises a device or a system which is designed to transmit a computer program for carrying out at least one of the methods described herein to a recipient. The transmission can take place electronically or optically, for example. For example, the recipient may be a computer, mobile device, storage device, or similar device. The device or the system can, for example, comprise a file server for transmission of the computer program to the recipient.

Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.In some embodiments, a programmable logic device (e.g., a field programmable gate array, an FPGA) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a field programmable gate array may cooperate with a microprocessor to perform any of the methods described herein. In general, in some embodiments, the methods are performed on the part of any hardware device. This can be hardware that can be used universally, such as a computer processor (CPU), or hardware that is specific to the method, such as an ASIC.

Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.The embodiments described above are merely illustrative of the principles of the present invention. It is understood that modifications and variations to the arrangements and details described herein will occur to those skilled in the art. Therefore, it is intended that the invention be limited only by the scope of the following claims and not by the specific details presented in the description and explanation of the embodiments herein.

Referenzen:References:

  1. [1] V. Valimaki, A. Franck, J. Ramo, H. Gamper, and L. Savioja, "Assisted listening using a headset: Enhancing audio perception in real, augmented, and virtual environments," IEEE Signal Processing Magazine, Bd. 32, Nr. 2, S. 92-99, März 2015 .[1] V Valimaki, A Franck, J Ramo, H Gamper, and L Savioja, "Assisted listening using a headset: Enhancing audio perception in real, augmented, and virtual environments," IEEE Signal Processing Magazine, Vol. 32, No. 2, pp. 92-99, March 2015 .
  2. [2] K. Brandenburg, E. Cano, F. Klein, T. Köllmer, H. Lukashevich, A. Neidhardt, U. Sloma, and S. Werner, "Plausible augmentation of auditory scenes using dynamic binaural synthesis for personalized auditory realities," in Proc. of AES International Conference on Audio for Virtual and Augmented Reality, Aug 2018 .[2] Brandenburg K, Cano E, Klein F, Köllmer T, Lukashevich H, Neidhardt A, Sloma U, and Werner S, "Plausible augmentation of auditory scenes using dynamic binaural synthesis for personalized auditory realities," in proc. of AES International Conference on Audio for Virtual and Augmented Reality, Aug 2018 .
  3. [3] S. Argentieri, P. Dans, and P. Soures, "A survey on sound source localization in robotics: From binaural to array processing methods," Computer Speech Language, Bd. 34, Nr. 1, S. 87-112, 2015 .[3] S Argentieri, P Dans, and P Soures, "A survey on sound source localization in robotics: From binaural to array processing methods," Computer Speech Language, Vol. 34, No. 1, pp. 87-112, 2015 .
  4. [4] D. FitzGerald, A. Liutkus, and R. Badeau, "Projection-based demixing of spatial audio," IEEE/ACM Trans. on Audio, Speech, and Language Processing, Bd. 24, Nr. 9, S. 1560-1572, 2016 .[4] D FitzGerald, A Liutkus, and R Badeau, "Projection-based demixing of spatial audio," IEEE/ACM Trans. on Audio, Speech, and Language Processing, Vol. 24, No. 9, pp. 1560-1572 , 2016 .
  5. [5] E. Cano, D. FitzGerald, A. Liutkus, M. D. Plumbley, and F. Stöter, "Musical source separation: An introduction," IEEE Signal Processing Magazine, Bd. 36, Nr. 1, S. 31-40, Jan 2019 .[5] Cano E, FitzGerald D, Liutkus A, Plumbley MD, and Stöter F, "Musical source separation: An introduction," IEEE Signal Processing Magazine, Vol 36, No 1, pp 31-40, Jan 2019 .
  6. [6] S. Gannot, E. Vincent, S. Markovich-Golan, and A. Ozerov, "A consolidated perspective on multimicrophone speech enhancement and source separation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 25, Nr. 4, S. 692-730, April 2017 .[6] S Gannot, E Vincent, S Markovich-Golan, and A Ozerov, "A consolidated perspective on multimicrophone speech enhancement and source separation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no 4, pp. 692-730, April 2017 .
  7. [7] E. Cano, J. Nowak, and S. Grollmisch, "Exploring sound source separation for acoustic condition monitoring in industrial scenarios," in Proc. of 25th European Signal Processing Conference (EUSIPCO), Aug 2017, S. 2264-2268 .[7] E Cano, J Nowak, and S Grollmisch, "Exploring sound source separation for acoustic condition monitoring in industrial scenarios," in Proc. of 25th European Signal Processing Conference (EUSIPCO), Aug 2017, pp. 2264-2268 .
  8. [8] T. Gerkmann, M. Krawczyk-Becker, and J. Le Roux, "Phase processing for single-channel speech enhancement: History and recent advances," IEEE Signal Processing Magazine, Bd. 32, Nr. 2, S. 55-66, März 2015 .[8th] T Gerkmann, M Krawczyk-Becker, and J Le Roux, "Phase processing for single-channel speech enhancement: History and recent advances," IEEE Signal Processing Magazine, Vol. 32, No. 2, pp. 55-66 , March 2015 .
  9. [9] E. Vincent, T. Virtanen, and S. Gannot, Audio Source Separation and Speech Enhancement. Wiley, 2018 .[9] Vincent E, Virtanen T, and Gannot S, Audio Source Separation and Speech Enhancement. Wiley, 2018 .
  10. [10] D. Matz, E. Cano, and J. Abeßer, "New sonorities for early jazz recordings using sound source separation and automatic mixing tools," in Proc. of the 16th International Society for Music Information Retrieval Conference. Malaga, Spain: ISMIR, Okt. 2015, S. 749-755 .[10] D Matz, E Cano, and J Abeßer, "New sonorities for early jazz recordings using sound source separation and automatic mixing tools," in Proc. of the 16th International Society for Music Information Retrieval Conference. Malaga, Spain: ISMIR, Oct. 2015, pp. 749-755 .
  11. [11] S. M. Kuo and D. R. Morgan, "Active noise control: a tutorial review," Proceedings of the IEEE, Bd. 87, Nr. 6, S. 943-973, Juni 1999 .[11] SM Kuo and DR Morgan, "Active noise control: a tutorial review," Proceedings of the IEEE, Vol. 87, No. 6, pp. 943-973, June 1999 .
  12. [12] A. McPherson, R. Jack, and G. Moro, "Action-sound latency: Are our tools fast enough?" in Proceedings of the International Conference on New Interfaces for Musical Expression, Juli 2016 .[12] A McPherson, R Jack, and G Moro, "Action-sound latency: Are our tools fast enough?" in Proceedings of the International Conference on New Interfaces for Musical Expression, July 2016 .
  13. [13] C. Rottondi, C. Chafe, C. Allocchio, and A. Sarti, "An overview on networked music performance technologies," IEEE Access, Bd. 4, S. 8823-8843, 2016 .[13] C Rottondi, C Chafe, C Allocchio, and A Sarti, "An overview on networked music performance technologies," IEEE Access, Vol. 4, pp. 8823-8843, 2016 .
  14. [14] S. Liebich, J. Fabry, P. Jax, and P. Vary, "Signal processing challenges for active noise cancellation headphones," in Speech Communication; 13th ITG-Symposium, Okt 2018, S. 1-5 .[14] S Liebich, J Fabry, P Jax, and P Vary, "Signal processing challenges for active noise cancellation headphones," in Speech Communication; 13th ITG Symposium, Oct 2018, pp. 1-5 .
  15. [15] E. Cano, J. Liebetrau, D. Fitzgerald, and K. Brandenburg, "The dimensions of perceptual quality of sound source separation," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, S. 601-605 .[15] E Cano, J Liebetrau, D Fitzgerald, and K Brandenburg, "The dimensions of perceptual quality of sound source separation," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 601-605 .
  16. [16] P. M. Delgado and J. Herre, "Objective assessment of spatial audio quality using directional loudness maps," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Mai 2019, S. 621-625 .[16] PM Delgado and J. Herre, "Objective assessment of spatial audio quality using directional loudness maps," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp. 621-625 .
  17. [17] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, "An algorithm for intelligibility prediction of time-frequency weighted noisy speech," IEEE Transactions on Audio, Speech, and Language Processing, Bd. 19, Nr. 7, S. 2125-2136, Sep. 2011 .[17] CH Taal, RC Hendriks, R Heusdens, and J Jensen, "An algorithm for intelligibility prediction of time-frequency weighted noisy speech," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 19, No. 7, p 2125-2136, Sep. 2011 .
  18. [18] M. D. Plumbley, C. Kroos, J. P. Bello, G. Richard, D. P. Ellis, and A. Mesaros, Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop (DCASE2018). Tampere University of Technology. Laboratory of Signal Processing, 2018 .[18] Plumbley, MD, Kroos, C, Bello, JP, Richard, G, Ellis, DP, and Mesaros, A, Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop (DCASE2018). Tampere University of Technology. Laboratory of Signal Processing, 2018 .
  19. [19] R. Serizel, N. Turpault, H. Eghbal-Zadeh, and A. Parag Shah, "Large- Scale Weakly Labeled Semi-Supervised Sound Event Detection in Domestic Environments," Juli 2018, submitted to DCASE2018 Workshop .[19] R Serizel, N Turpault, H Eghbal-Zadeh, and A Parag Shah, "Large-Scale Weakly Labeled Semi-Supervised Sound Event Detection in Domestic Environments," July 2018, submitted to DCASE2018 Workshop .
  20. [20] L. JiaKai, "Mean teacher convolution system for dcase 2018 task 4," DCASE2018 Challenge, Tech. Rep., September 2018 .[20] L. JiaKai, "Mean teacher convolution system for dcase 2018 task 4," DCASE2018 Challenge, Tech. Republic, September 2018 .
  21. [21] G. Parascandolo, H. Huttunen, and T. Virtanen, "Recurrent neural networks for polyphonic sound event detection in real life recordings," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), März 2016, S. 6440-6444 .[21] G Parascandolo, H Huttunen, and T Virtanen, "Recurrent neural networks for polyphonic sound event detection in real life recordings," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March 2016, pp. 6440-6444 .
  22. [22] E. C, Çakir and T. Virtanen, "End-to-end polyphonic sound event detection using convolutional recurrent neural networks with learned time-frequency representation input," in Proc. of International Joint Conference on Neural Networks (IJCNN), Juli 2018, S. 1-7 .[22] E C, Çakir and T Virtanen, "End-to-end polyphonic sound event detection using convolutional recurrent neural networks with learned time-frequency representation input," in Proc. of International Joint Conference on Neural Networks (IJCNN), July 2018, pp. 1-7 .
  23. [23] Y. Xu, Q. Kong, W. Wang, and M. D. Plumbley, "Large-Scale Weakly Supervised Audio Classification Using Gated Convolutional Neural Network," in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, Canada, 2018, S. 121-125 .[23] Xu Y, Kong Q, Wang W, and Plumbley MD, "Large-Scale Weakly Supervised Audio Classification Using Gated Convolutional Neural Network," in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary , AB, Canada, 2018, pp. 121-125 .
  24. [24] B. Frenay and M. Verleysen, "Classification in the presence of label noise: A survey," IEEE Transactions on Neural Networks and Learning Systems, Bd. 25, Nr. 5, S. 845-869, Mai 2014 .[24] B. Frenay and M. Verleysen, "Classification in the presence of label noise: A survey," IEEE Transactions on Neural Networks and Learning Systems, Vol. 25, No. 5, pp. 845-869, May 2014 .
  25. [25] E. Fonseca, M. Plakal, D. P. W. Ellis, F. Font, X. Favory, and X. Serra, "Learning sound event classifiers from web audio with noisy labels," in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 2019 .[25] E Fonseca, M Plakal, DPW Ellis, F Font, X Favory, and X Serra, "Learning sound event classifiers from web audio with noisy labels," in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 2019 .
  26. [26] M. Dorfer and G. Widmer, "Training general-purpose audio tagging networks with noisy labels and iterative self-verification," in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop (DCASE2018), Surrey, UK, 2018 .[26] M Dorfer and G Widmer, "Training general-purpose audio tagging networks with noisy labels and iterative self-verification," in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop (DCASE2018), Surrey, UK, 2018 .
  27. [27] S. Adavanne, A. Politis, J. Nikunen, and T. Virtanen, "Sound event localization and detection of overlapping sources using convolutional recurrent neural networks," IEEE Journal of Selected Topics in Signal Processing, S. 1-1, 2018 .[27] Adavanne S, Politis A, Nikunen J, and Virtanen T, "Sound event localization and detection of overlapping sources using convolutional recurrent neural networks," IEEE Journal of Selected Topics in Signal Processing, pp 1-1, 2018 .
  28. [28] Y. Jung, Y. Kim, Y. Choi, and H. Kim, "Joint learning using denoising variational autoencoders for voice activity detection," in Proc. of Interspeech, September 2018, S. 1210-1214 .[28] Y Jung, Y Kim, Y Choi, and H Kim, "Joint learning using denoising variational autoencoders for voice activity detection," in Proc. of Interspeech, September 2018, pp. 1210-1214 .
  29. [29] F. Eyben, F. Weninger, S. Squartini, and B. Schuller, "Real-life voice activity detection with LSTM recurrent neural networks and an application to hollywood movies," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, Mai 2013, S. 483-487 .[29] Eyben F, Weninger F, Squartini S, and Schuller B, "Real-life voice activity detection with LSTM recurrent neural networks and an application to hollywood movies," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, May 2013, pp. 483-487 .
  30. [30] R. Zazo-Candil, T. N. Sainath, G. Simko, and C. Parada, "Feature learning with rawwaveform CLDNNs for voice activity detection," in Proc. of INTERSPEECH, 2016 .[30] R Zazo-Candil, TN Sainath, G Simko, and C Parada, "Feature learning with rawwaveform CLDNNs for voice activity detection," in Proc. of INTERSPEECH, 2016 .
  31. [31] M. McLaren, Y. Lei, and L. Ferrer, "Advances in deep neural network approaches to speaker recognition," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2015, S. 4814-4818 .[31] M McLaren, Y Lei, and L Ferrer, "Advances in deep neural network approaches to speaker recognition," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2015, pp. 4814-4818 .
  32. [32] D. Snyder, D. Garcia-Romero, G. Seil, D. Povey, and S. Khudanpur, "X-vectors: Robust DNN embeddings for speaker recognition," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, S. 5329-5333 .[32] Snyder, D, Garcia-Romero, D, Seil, G, Povey, D, and Khudanpur, S, "X-vectors: Robust DNN embeddings for speaker recognition," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 5329-5333 .
  33. [33] M. McLaren, D. Castán, M. K. Nandwana, L. Ferrer, and E. Yilmaz, "How to train your speaker embeddings extractor," in Odyssey, 2018 .[33] M McLaren, D Castán, MK Nandwana, L Ferrer, and E Yilmaz, "How to train your speaker embeddings extractor," in Odyssey, 2018 .
  34. [34] S. O. Sadjadi, J. W. Pelecanos, and S. Ganapathy, "The IBM speaker recognition system: Recent advances and error analysis," in Proc. of Interspeech, 2016, S. 3633-3637 .[34] SO Sadjadi, JW Pelecanos, and S. Ganapathy, "The IBM speaker recognition system: Recent advances and error analysis," in Proc. of Interspeech, 2016, pp. 3633-3637 .
  35. [35] Y. Han, J. Kim, and K. Lee, "Deep convolutional neural networks for predominant instrument recognition in polyphonic music," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 25, Nr. 1, S. 208-221, Jan 2017 .[35] Han Y, Kim J, and Lee K, "Deep convolutional neural networks for predominant instrument recognition in polyphonic music," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 25, No. 1, p. 208-221, Jan 2017 .
  36. [36] V. Lonstanlen and C.-E. Cella, "Deep convolutional networks on the pitch spiral for musical instrument recognition," in Proceedings of the 17th International Society for Music Information Retrieval Conference. New York, USA: ISMIR, 2016, S. 612-618 .[36] V. Lonstanlen and C.-E. Cella, "Deep convolutional networks on the pitch spiral for musical instrument recognition," in Proceedings of the 17th International Society for Music Information Retrieval Conference. New York, USA: ISMIR, 2016, pp. 612-618 .
  37. [37] S. Gururani, C. Summers, and A. Lerch, "Instrument activity detection in polyphonic music using deep neural networks," in Proceedings of the 19th International Society for Music Information Retrieval Conference. Paris, France: ISMIR, Sep. 2018, S. 569-576 .[37] S Gururani, C Summers, and A Lerch, "Instrument activity detection in polyphonic music using deep neural networks," in Proceedings of the 19th International Society for Music Information Retrieval Conference. Paris, France: ISMIR, Sep. 2018, pp. 569-576 .
  38. [38] J. Schlütter and B. Lehner, "Zero mean convolutions for level-invariant singing voice detection," in Proceedings of the 19th International Society for Music Information Retrieval Conference. Paris, France: ISMIR, Sep. 2018, S. 321-326 .[38] J Schlütter and B Lehner, "Zero mean convolutions for level-invariant singing voice detection," in Proceedings of the 19th International Society for Music Information Retrieval Conference. Paris, France: ISMIR, Sep. 2018, pp. 321-326 .
  39. [39] S. Delikaris-Manias, D. Pavlidi, A. Mouchtaris, and V. Pulkki, "DOA estimation with histogram analysis of spatially constrained active intensity vectors," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), März 2017, S. 526-530 .[39] S. Delikaris-Manias, D. Pavlidi, A. Mouchtaris, and V. Pulkki, "DOA estimation with histogram analysis of spatially constrained active intensity vectors," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 526-530 .
  40. [40] S. Chakrabarty and E. A. P. Habets, "Multi-speaker DOA estimation using deep convolutional networks trained with noise signals," IEEE Journal of Selected Topics in Signal Processing, Bd. 13, Nr. 1, S. 8-21, März 2019 .[40] S. Chakrabarty and EAP Habets, "Multi-speaker DOA estimation using deep convolutional networks trained with noise signals," IEEE Journal of Selected Topics in Signal Processing, Vol. 13, No. 1, pp. 8-21, March 2019 .
  41. [41] X. Li, L. Girin, R. Horaud, and S. Gannot, "Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 25, Nr. 10, S. 1997-2012, Okt 2017 .[41] X Li, L Girin, R Horaud, and S Gannot, "Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 25, No. 10, pp. 1997-2012, Oct 2017 .
  42. [42] F. Grondin and F. Michaud, "Lightweight and optimized sound source localization and tracking methods for open and closed microphone array configurations," Robotics and Autonomous Systems, Bd. 113, S. 63 - 80, 2019 .[42] F Grondin and F Michaud, "Lightweight and optimized sound source localization and tracking methods for open and closed microphone array configurations," Robotics and Autonomous Systems, Vol. 113, pp. 63 - 80, 2019 .
  43. [43] D. Yook, T. Lee, and Y. Cho, "Fast sound source localization using two-level search space clustering," IEEE Transactions on Cybernetics, Bd. 46, Nr. 1, S. 20-26, Jan 2016 .[43] D Yook, T Lee, and Y Cho, "Fast sound source localization using two-level search space clustering," IEEE Transactions on Cybernetics, Vol 46, No 1, pp 20-26, Jan 2016 .
  44. [44] D. Pavlidi, A. Griffin, M. Puigt, and A. Mouchtaris, "Real-time multiple sound source localization and counting using a circular microphone array," IEEE Transactions on Audio, Speech, and Language Processing, Bd. 21, Nr. 10, S. 2193-2206, Okt 2013 .[44] D Pavlidi, A Griffin, M Puigt, and A Mouchtaris, "Real-time multiple sound source localization and counting using a circular microphone array," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 21, No 10, pp. 2193-2206, Oct 2013 .
  45. [45] P. Vecchiotti, N. Ma, S. Squartini, and G. J. Brown, "End-to-end binaural sound localisation from the raw waveform," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Mai 2019, S. 451-455 .[45] P Vecchiotti, N Ma, S Squartini, and GJ Brown, "End-to-end binaural sound localization from the raw waveform," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp. 451-455 .
  46. [46] Y. Luo, Z. Chen, and N. Mesgarani, "Speaker-independent speech separation with deep attractor network," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 26, Nr. 4, S. 787-796, April 2018 .[46] Luo Y, Chen Z, and Mesgarani N, "Speaker-independent speech separation with deep attractor network," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 26, No. 4, p. 787- 796, April 2018 .
  47. [47] Z. Wang, J. Le Roux, and J. R. Hershey, "Multi-channel deep clustering: Discriminative spectral and spatial embeddings for speaker-independent speech separation," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, S. 1-5 .[47] Z Wang, J Le Roux, and JR Hershey, "Multi-channel deep clustering: Discriminative spectral and spatial embeddings for speaker-independent speech separation," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 1-5 .
  48. [48] G. Naithani, T. Barker, G. Parascandolo, L. Bramsl
    Figure imgb0001
    w, N. H. Pontoppidan, and T. Virtanen, "Low latency sound source separation using convolutional recurrent neural networks," in Proc. of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Okt 2017, S. 71-75.
    [48] G. Naithani, T. Barker, G. Parascandolo, L. Bramsl
    Figure imgb0001
    w, NH Pontoppidan, and T Virtanen, "Low latency sound source separation using convolutional recurrent neural networks," in Proc. of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Oct 2017, pp. 71-75.
  49. [49] M. Sunohara, C. Haruta, and N. Ono, "Low-latency real-time blind source separation for hearing aids based on time-domain implementation of online independent vector analysis with truncation of non-causal components," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), März 2017, S. 216-220 .[49] M Sunohara, C Haruta, and N Ono, "Low-latency real-time blind source separation for hearing aids based on time-domain implementation of online independent vector analysis with truncation of non-causal components," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 216-220 .
  50. [50] Y. Luo and N. Mesgarani, "TaSNet: Time-domain audio separation network for real-time, single-channel speech separation," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, S. 696-700 .[50] Y Luo and N Mesgarani, "TaSNet: Time-domain audio separation network for real-time, single-channel speech separation," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 696-700 .
  51. [51] J. Chua, G. Wang, and W. B. Kleijn, "Convolutive blind source separation with low latency," in Proc. of IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), Sep. 2016, S. 1-5 .[51] J Chua, G Wang, and WB Kleijn, "Convolutive blind source separation with low latency," in Proc. of IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), Sep. 2016, pp. 1-5 .
  52. [52] Z. Rafii, A. Liutkus, F. Stöter, S. I. Mimilakis, D. FitzGerald, and B. Pardo, "An overview of lead and accompaniment separation in music," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 26, Nr. 8, S. 1307-1335, Aug 2018 .[52] Z Rafii, A Liutkus, F Stöter, SI Mimilakis, D FitzGerald, and B Pardo, "An overview of lead and accompaniment separation in music," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol 26, No. 8, pp. 1307-1335, Aug 2018 .
  53. [53] F.-R. Stöter, A. Liutkus, and N. Ito, "The 2018 signal separation evaluation campaign," in Latent Variable Analysis and Signal Separation, Y. Deville, S. Gannot, R. Mason, M. D. Plumbley, and D. Ward, Eds. Cham: Springer International Publishing, 2018, S. 293-305 .[53] F.-R. Stöter, A Liutkus, and N Ito, "The 2018 signal separation evaluation campaign," in Latent Variable Analysis and Signal Separation, Y Deville, S Gannot, R Mason, MD Plumbley, and D Ward, Eds. Cham: Springer International Publishing, 2018, pp. 293-305 .
  54. [54] J.-L. Durrieu, B. David, and G. Richard, "A musically motivated midlevel representation for pitch estimation and musical audio source separation," Selected Topics in Signal Processing, IEEE Journal of, Bd. 5, Nr. 6, S. 1180-1191, Okt. 2011 .[54] J.-L. Durrieu, B David, and G Richard, "A musically motivated midlevel representation for pitch estimation and musical audio source separation," Selected Topics in Signal Processing, IEEE Journal of, Vol. 5, No. 6, pp. 1180-1191 , Oct 2011 .
  55. [55] S. Uhlich, M. Porcu, F. Giron, M. Enenkl, T. Kemp, N. Takahashi, and Y. Mitsufuji, "Improving music source separation based on deep neural networks through data augmentation and network blending," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017 .[55] S Uhlich, M Porcu, F Giron, M Enenkl, T Kemp, N Takahashi, and Y Mitsufuji, "Improving music source separation based on deep neural networks through data augmentation and network blending," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017 .
  56. [56] P. N. Samarasinghe, W. Zhang, and T. D. Abhayapala, "Recent advances in active noise control inside automobile cabins: Toward quieter cars," IEEE Signal Processing Magazine, Bd. 33, Nr. 6, S. 61-73, Nov 2016 .[56] PN Samarasinghe, W. Zhang, and TD Abhayapala, "Recent advances in active noise control inside automobile cabins: Toward quieter cars," IEEE Signal Processing Magazine, Vol. 33, No. 6, pp. 61-73, Nov 2016 .
  57. [57] G. S. Papini, R. L. Pinto, E. B. Medeiros, and F. B. Coelho, "Hybrid approach to noise control of industrial exhaust systems," Applied Acoustics, Bd. 125, S. 102 - 112, 2017 .[57] GS Papini, RL Pinto, EB Medeiros, and FB Coelho, "Hybrid approach to noise control of industrial exhaust systems," Applied Acoustics, Vol. 125, pp. 102 - 112, 2017 .
  58. [58] J. Zhang, T. D. Abhayapala, W. Zhang, P. N. Samarasinghe, and S. Jiang, "Active noise control over space: A wave domain approach," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 26, Nr. 4, S. 774-786, April 2018 .[58] Zhang J, Abhayapala TD, Zhang W, Samarasinghe PN, and Jiang S, "Active noise control over space: A wave domain approach," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 26, No 4, pp. 774-786, April 2018 .
  59. [59] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, "Speech enhancement based on deep denoising autoencoder," in Proc. of Interspeech, 2013 .[59] X Lu, Y Tsao, S Matsuda, and C Hori, "Speech enhancement based on deep denoising autoencoder," in Proc. of Interspeech, 2013 .
  60. [60] Y. Xu, J. Du, L. Dai, and C. Lee, "A regression approach to speech enhancement based on deep neural networks," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 23, Nr. 1, S. 7-19, Jan 2015 .[60] Xu Y, Du J, Dai L, and Lee C, "A regression approach to speech enhancement based on deep neural networks," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 23, No. 1, pp. 7-19, Jan 2015 .
  61. [61] S. Pascual, A. Bonafonte, and J. Serrä, "SEGAN: speech enhancement generative adversarial network," in Proc. of Interspeech, August 2017, S. 3642-3646 .[61] S. Pascual, A. Bonafonte, and J. Serra, "SEGAN: speech enhancement generative adversarial network," in Proc. of Interspeech, August 2017, pp. 3642-3646 .
  62. [62] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Le Roux, J. R. Hershey, and B. Schuller, "Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR," in Latent Variable Analysis and Signal Separation, E. Vincent, A. Yeredor, Z. Koldovsk
    Figure imgb0002
    , and P. Tichavsk
    Figure imgb0003
    , Eds. Cham: Springer International Publishing, 2015, S. 91-99.
    [62] F Weninger, H Erdogan, S Watanabe, E Vincent, J Le Roux, J R Hershey, and B Schuller, "Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR," in Latent Variable Analysis and Signal Separation, E Vincent, A Yeredor, Z Koldovsk
    Figure imgb0002
    , and P. Tichavsk
    Figure imgb0003
    , Eds. Cham: Springer International Publishing, 2015, pp. 91-99.
  63. [63] H. Wierstorf, D. Ward, R. Mason, E. M. Grais, C. Hummersone, and M. D. Plumbley, "Perceptual evaluation of source separation for remixing music," in Proc. of Audio Engineering Society Convention 143, Okt 2017 .[63] H Wierstorf, D Ward, R Mason, EM Grais, C Hummersone, and MD Plumbley, "Perceptual evaluation of source separation for remixing music," in Proc. of Audio Engineering Society Convention 143, Oct 2017 .
  64. [64] J. Pons, J. Janer, T. Rode, and W. Nogueira, "Remixing music using source separation algorithms to improve the musical experience of cochlear implant users," The Journal of the Acoustical Society of America, Bd. 140, Nr. 6, S. 4338-4349, 2016 .[64] J Pons, J Janer, T Rode, and W Nogueira, "Remixing music using source separation algorithms to improve the musical experience of cochlear implant users," The Journal of the Acoustical Society of America, Vol. 140, No. 6, pp. 4338-4349, 2016 .
  65. [65] Q. Kong, Y. Xu, W. Wang, and M. D. Plumbley, "A joint separation-classification model for sound event detection of weakly labelled data," in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), März 2018 .[65] Q Kong, Y Xu, W Wang, and MD Plumbley, "A joint separation-classification model for sound event detection of weakly labeled data," in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March 2018 .
  66. [66] T. v. Neumann, K. Kinoshita, M. Delcroix, S. Araki, T. Nakatani, and R. Haeb-Umbach, "All-neural online source separation, counting, and diarization for meeting analysis," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Mai 2019, S. 91-95 .[66] tv Neumann, K. Kinoshita, M. Delcroix, S. Araki, T. Nakatani, and R. Haeb-Umbach, "All-neural online source separation, counting, and diarization for meeting analysis," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp. 91-95 .
  67. [67] S. Gharib, K. Drossos, E. Cakir, D. Serdyuk, and T. Virtanen, "Unsupervised adversarial domain adaptation for acoustic scene classification," in Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), November 2018, S. 138-142 .[67] Gharib, S, Drossos, K, Cakir, E, Serdyuk, D, and Virtanen, T, "Unsupervised adversarial domain adaptation for acoustic scene classification," in Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), November 2018, pp. 138-142 .
  68. [68] A. Mesaros, T. Heittola, and T. Virtanen, "A multi-device dataset for urban acoustic scene classification," in Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop, Surrey, UK, 2018 .[68] A Mesaros, T Heittola, and T Virtanen, "A multi-device dataset for urban acoustic scene classification," in Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop, Surrey, UK, 2018 .
  69. [69] J. Abeßer, M. Götze, S. Kühnlenz, R. Gräfe, C. Kühn, T. Clauß, H. Lukashevich, "A Distributed Sensor Network for Monitoring Noise Level and Noise Sources in Urban Environments," in Proceedings of the 6th IEEE International Conference on Future Internet of Things and Cloud (FiCloud), Barcelona, Spain, pp. 318-324., 2018 .[69] Abeßer J, Götze M, Kühnlenz S, Graefe R, Kühn C, Clauß T, Lukashevich H, "A Distributed Sensor Network for Monitoring Noise Level and Noise Sources in Urban Environments," in Proceedings of the 6th IEEE International Conference on Future Internet of Things and Cloud (FiCloud), Barcelona, Spain, pp. 318-324., 2018 .
  70. [70] T. Virtanen, M. D. Plumbley, D. Ellis (Eds.), "Computational Analysis of Sound Scenes and Events," Springer, 2018 .[70] Virtanen T, Plumbley MD, Ellis D (Eds.), "Computational Analysis of Sound Scenes and Events," Springer, 2018 .
  71. [71] J. Abeßer, S. loannis Mimilakis, R. Gräfe, H. Lukashevich, "Acoustic scene classification by combining autoencoder-based dimensionality reduction and convolutional neural net-works," in Proceedings of the 2nd DCASE Workshop on Detection and Classification of Acoustic Scenes and Events, Munich, Germany, 2017 .[71] J Abeßer, S Loannis Mimilakis, R Gräfe, H Lukashevich, "Acoustic scene classification by combining autoencoder-based dimensionality reduction and convolutional neural net-works," in Proceedings of the 2nd DCASE Workshop on Detection and Classification of Acoustic Scenes and Events, Munich, Germany, 2017 .
  72. [72] A. Avni, J. Ahrens, M. Geierc, S. Spors, H. Wierstorf, B. Rafaely, "Spatial perception of sound fields recorded by spherical microphone arrays with varying spatial resolution," Journal of the Acoustic Society of America, 133(5), pp. 2711-2721, 2013 .[72] A Avni, J Ahrens, M Geierc, S Spors, H Wierstorf, B Rafaely, "Spatial perception of sound fields recorded by spherical microphone arrays with varying spatial resolution," Journal of the Acoustic Society of America, 133 (5), pp. 2711-2721, 2013 .
  73. [73] E. Cano, D. FitzGerald, K. Brandenburg, "Evaluation of quality of sound source separation algorithms: Human perception vs quantitative metrics," in Proceedings of the 24th European Signal Processing Conference (EUSIPCO), pp. 1758-1762, 2016 .[73] E Cano, D FitzGerald, K Brandenburg, "Evaluation of quality of sound source separation algorithms: Human perception vs quantitative metrics," in Proceedings of the 24th European Signal Processing Conference (EUSIPCO), pp. 1758-1762, 2016 .
  74. [74] S. Marchand, "Audio scene transformation using informed source separation," The Journal of the Acoustical Society of America, 140(4), p. 3091, 2016 .[74] S. Marchand, "Audio scene transformation using informed source separation," The Journal of the Acoustical Society of America, 140(4), p. 3091, 2016 .
  75. [75] S. Grollmisch, J. Abeßer, J. Liebetrau, H. Lukashevich, "Sounding industry: Challenges and datasets for industrial sound analysis (ISA)," in Proceedings of the 27th European Signal Processing Conference (EUSIPCO) (eingereicht), A Coruna, Spain, 2019 .[75] S. Grollmisch, J. Abeßer, J. Liebetrau, H. Lukashevich, "Sounding industry: Challenges and datasets for industrial sound analysis (ISA)," in Proceedings of the 27th European Signal Processing Conference (EUSIPCO) (submitted), A Coruna , Spain, 2019 .
  76. [76] J. Abeßer, M. Müller, "Fundamental frequency contour classification: A comparison between hand-crafted and CNN-based features, " in Proceedings of the 44th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019 .[76] J. Abeßer, M. Müller, "Fundamental frequency contour classification: A comparison between hand-crafted and CNN-based features, " in Proceedings of the 44th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019 .
  77. [77] J. Abeßer, S. Balke, M. Müller, "Improving bass saliency estimation using label propagation and transfer learning," in Proceedings of the 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, pp. 306-312, 2018 .[77] J Abeßer, S Balke, M Müller, "Improving bass saliency estimation using label propagation and transfer learning," in Proceedings of the 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, pp. 306-312 , 2018 .
  78. [78] C.-R. Nagar, J. Abeßer, S. Grollmisch, "Towards CNN-based acoustic modeling of seventh chords for recognition chord recognition," in Proceedings of the 16th Sound & Music Computing Conference (SMC) (eingereicht), Malaga, Spain, 2019 .[78] C.-R. Nagar, J. Abeßer, S. Grollmisch, "Towards CNN-based acoustic modeling of seventh chords for recognition chord recognition," in Proceedings of the 16th Sound & Music Computing Conference (SMC) (submitted), Malaga, Spain, 2019 .
  79. [79] J. S. Gómez, J. Abeßer, E. Cano, "Jazz solo instrument classification with convolutional neural networks, source separation, and transfer learning", in Proceedings of the 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, pp. 577- 584, 2018 .[79] JS Gómez, J. Abeßer, E. Cano, "Jazz solo instrument classification with convolutional neural networks, source separation, and transfer learning", in Proceedings of the 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, pp 577-584, 2018 .
  80. [80] J. R. Hershey, Z. Chen, J. Le Roux, S. Watanabe, "Deep clustering: Discriminative embeddings for segmentation and separation," in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 31-35, 2016 .[80] JR Hershey, Z Chen, J Le Roux, S Watanabe, "Deep clustering: Discriminative embeddings for segmentation and separation," in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 31- 35, 2016 .
  81. [81] E. Cano, G. Schuller, C. Dittmar, "Pitch-informed solo and accompaniment separation towards its use in music education applications", EURASIP Journal on Advances in Signal Processing, 2014:23, S. 1-19 .[81] Cano E, Schuller G, Dittmar C, "Pitch-informed solo and accompaniment separation towards its use in music education applications", EURASIP Journal on Advances in Signal Processing, 2014:23, pp. 1-19 .
  82. [82] S. I. Mimilakis, K. Drossos, J. F. Santos, G. Schuller, T. Virtanen, Y. Bengio, "Monaural Singing Voice Separation with Skip-Filtering Connections and Recurrent Inference of Time-Frequency Mask," in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Calgary, Canada, S.721-725, 2018 .[82] Mimilakis SI, Drossos K, Santos JF, Schuller G, Virtanen T, Bengio Y, "Monaural Singing Voice Separation with Skip-Filtering Connections and Recurrent Inference of Time-Frequency Mask," in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Calgary, Canada, pp.721-725, 2018 .
  83. [83] J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, M. Ritter, "Audio Set: An ontology and human-labeled dataset for audio events," in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, USA, 2017 .[83] Gemmeke JF, Ellis DPW, Freedman D, Jansen A, Lawrence W, Moore RC, Plakal M, Ritter M. "Audio Set: An ontology and human-labeled dataset for audio events," in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, USA, 2017 .
  84. [84] Kleiner, M. "Acoustics and Audio Technology,". 3rd ed. USA: J. Ross Publishing, 2012 .[84] Kleiner, M. "Acoustics and Audio Technology," . 3rd ed. USA: J Ross Publishing, 2012 .
  85. [85] M. Dickreiter, V. Dittel, W. Hoeg, M. Wöhr, M. "Handbuch der Tonstudiotechnik," A. medienakademie (Eds). 7th ed. Vol. 1. München: K.G. Saur Verlag, 2008 .[85] M. Dickreiter, V. Dittel, W. Hoeg, M. Wöhr, M. "Handbuch der Tonstudiotechnik," A. Medienakademie (Eds). 7th ed. Vol. 1. Munich: KG Saur Verlag, 2008 .
  86. [86] F. Müller, M. Karau. "Transparant hearing," in: CHI ,02 Extended Abstracts on Human Factors in Computing Systems (CHI EA '02), Minneapolis, USA, pp. 730-731, April 2002 .[86] F. Müller, M. Karau. "Transparent hearing," in: CHI ,02 Extended Abstracts on Human Factors in Computing Systems (CHI EA '02), Minneapolis, USA, pp. 730-731, April 2002 .
  87. [87] L. Vieira. "Super hearing: a study on virtual prototyping for hearables and hearing aids," Master Thesis, Aalborg University, 2018. Verfügbar unter: https://projekter.aau.dk/projekter/files/287515943/MasterThesis_Luis.pdf .[87] L.Vieira. "Super hearing: a study on virtual prototyping for hearables and hearing aids," Master Thesis, Aalborg University, 2018. Available at: https://projekter.aau.dk/projekter/files/287515943/MasterThesis_Luis.pdf .
  88. [88] Sennheiser, "AMBEO Smart Headset," [Online]. Available: https://de-de.sennheiser.com/finalstop [Accessed: March 1, 2019 ].[88] Sennheiser, "AMBEO Smart Headset," [Online]. Available: https://de-de.sennheiser.com/finalstop [Accessed: March 1, 2019 ].
  89. [89] Orosound "Tilde Earphones" [Online]. Available: https://www.orosound.com/tilde-earphones/ [Accessed; March 1, 2019 ].[89] Orosound "Tilde Earphones" [Online]. Available: https://www.orosound.com/tilde-earphones/ [Accessed; March 1, 2019 ].
  90. [90] Brandenburg, K., Cano Ceron, E., Klein, F., Köllmer, T., Lukashevich, H., Neidhardt, A., Nowak, J., Sloma, U., und Werner, S., "Personalized auditory reality," in 44. Jahrestagung für Akustik (DAGA), Garching bei München, Deutsche Gesellschaft für Akustik (DEGA), 2018 .[90] K Brandenburg, E Cano Ceron, F Klein, T Köllmer, H Lukashevich, A Neidhardt, J Nowak, U Sloma, and S Werner, "Personalized auditory reality," in 44th Annual Conference for Acoustics (DAGA), Garching near Munich, German Society for Acoustics (DEGA), 2018 .
  91. [91] US 2015 195641 A1 , Anmeldetag: 6. Januar 2014; veröffentlicht 9. Juli 2015.[91] U.S. 2015 195641 A1 , filing date: January 6, 2014; published July 9, 2015.

Claims (20)

System, umfassend: ein Analysator (152) zur Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten, einen Lautsprechersignal-Erzeuger (154) zur Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle, wobei der Analysator (152) ausgebildet ist, die Mehrzahl der binauralen Raumimpulsantworten so zu bestimmen, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert. System comprising: an analyzer (152) for determining a plurality of binaural spatial impulse responses, a loudspeaker signal generator (154) for generating at least two loudspeaker signals depending on the plurality of binaural room impulse responses and depending on the audio source signal from at least one audio source, wherein the analyzer (152) is configured to determine the plurality of binaural spatial impulse responses such that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from a user wearing headphones. System nach Anspruch 1,
wobei das System den Kopfhörer umfasst,
wobei der Kopfhörer ausgebildet ist, die wenigstens zwei Lautsprechersignale auszugeben.
System according to claim 1,
the system comprising the headset,
wherein the headphones are designed to output the at least two loudspeaker signals.
System nach Anspruch 1 oder 2,
wobei der Kopfhörer zwei Kopfhörerkapseln und mindestens ein Mikrofon zur Messung von Schall in jeder der zwei Kopfhörerkapseln umfasst,
wobei in jeder der zwei Kopfhörerkapseln das mindestens eine Mikrofon zur Messung des Schalls angeordnet ist,
wobei der Analysator (152) ausgebildet ist, die Bestimmung der Mehrzahl der binauralen Raumimpulsantworten unter Verwendung der Messung des mindestens einen Mikrofons in jeder der zwei Kopfhörerkapseln durchzuführen.
System according to claim 1 or 2,
wherein the headphone comprises two headphone capsules and at least one microphone for measuring sound in each of the two headphone capsules,
wherein the at least one microphone for measuring the sound is arranged in each of the two headphone capsules,
wherein the analyzer (152) is designed to carry out the determination of the plurality of binaural room impulse responses using the measurement of the at least one microphone in each of the two headphone capsules.
System nach Anspruch 3,
wobei das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln ausgebildet ist, vor Beginn einer Wiedergabe der wenigstens zwei Lautsprechersignale durch den Kopfhörer, ein oder mehrere Aufnahmen einer Schallsituation in einem Wiedergaberaum zu erzeugen, aus den ein oder mehreren Aufnahmen eine Schätzung eines Roh-Audiosignals wenigstens einer Audioquelle zu bestimmen und eine binaurale Raumimpulsantwort der Mehrzahl der binauralen Raumimpulsantworten für die Audioquelle in dem Wiedergaberaum zu bestimmen.
System according to claim 3,
wherein the at least one microphone in each of the two headphone capsules is designed to generate one or more recordings of a sound situation in a reproduction room before the start of playback of the at least two loudspeaker signals through the headphones, from the one or more recordings an estimate of a raw audio signal at least to determine an audio source and to determine a binaural room impulse response of the plurality of binaural room impulse responses for the audio source in the playback room.
System nach Anspruch 4,
wobei das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln ausgebildet ist, während der Wiedergabe der wenigstens zwei Lautsprechersignale durch den Kopfhörer, ein oder mehrere weitere Aufnahmen der Schallsituation in dem Wiedergaberaum zu erzeugen, von diesen ein oder mehreren weiteren Aufnahmen ein augmentiertes Signal abzuziehen und die Schätzung des Roh-Audiosignals von einer oder mehreren Audioquellen zu bestimmen und die binaurale Raumimpulsantwort der Mehrzahl der binauralen Raumimpulsantworten für die Audioquelle in dem Wiedergaberaum zu bestimmen.
System according to claim 4,
wherein the at least one microphone in each of the two headphone capsules is designed to produce one or more additional recordings of the sound situation in the reproduction room during the playback of the at least two loudspeaker signals through the headphones, to subtract an augmented signal from these one or more additional recordings and to estimate the raw audio signal from one or more audio sources and determine the binaural spatial impulse response of the plurality of binaural spatial impulse responses for the audio source in the playback room.
System nach Anspruch 4 oder 5,
wobei der Analysator (152) ausgebildet ist, akustische Raumeigenschaften des Wiedergaberaumes zu bestimmen und die Mehrzahl der binauralen Raumimpulsantworten abhängig von den akustischen Raumeigenschaften anzupassen.
System according to claim 4 or 5,
wherein the analyzer (152) is designed to determine acoustic room properties of the reproduction room and to adapt the plurality of binaural room impulse responses depending on the acoustic room properties.
System nach einem der Ansprüche 4 bis 6,
wobei das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln zur Messung des Schalls nahe am Eingang des Ohrkanals angeordnet ist.
System according to one of claims 4 to 6,
wherein the at least one microphone is located in each of the two earphone capsules for measuring the sound close to the entrance of the ear canal.
System nach einem der Ansprüche 4 bis 7,
wobei das System ein oder mehrere weitere Mikrofone außerhalb der zwei Kopfhörerkapseln zur Messung der Schallsituation in dem Wiedergaberaum umfasst.
System according to one of claims 4 to 7,
the system comprising one or more further microphones outside the two headphone capsules for measuring the sound situation in the reproduction room.
System nach Anspruch 8,
wobei der Kopfhörer einen Bügel umfasst, wobei wenigstens eines der ein oder mehreren weiteren Mikrofone an dem Bügel angeordnet ist.
System according to claim 8,
wherein the headset comprises a headband, at least one of the one or more further microphones being arranged on the headband.
System nach einem der vorherigen Ansprüche,
wobei der Lautsprechersignal-Erzeuger (154) ausgebildet ist, die wenigstens zwei Lautsprechersignale zu erzeugen, indem jede der Mehrzahl der binauralen Raumimpulsantworten mit einem Audioquellsignal einer Mehrzahl von ein oder mehreren Audioquellsignalen gefaltet wird.
System according to one of the preceding claims,
wherein the speaker signal generator (154) is configured to generate the at least two speaker signals by convolving each of the plurality of binaural room impulse responses with an audio source signal of a plurality of one or more audio source signals.
System nach einem der vorherigen Ansprüche,
wobei der Analysator (152) ausgebildet ist, wenigstens eine der Mehrzahl der binauralen Raumimpulsantworten in Abhängigkeit von einer Bewegung des Kopfhörers zu bestimmen.
System according to one of the preceding claims,
wherein the analyzer (152) is designed to determine at least one of the plurality of binaural spatial impulse responses as a function of a movement of the headphones.
System nach Anspruch 11,
wobei das System einen Sensor umfasst, um eine Bewegung des Kopfhörers zu bestimmen.
System according to claim 11,
wherein the system includes a sensor to determine movement of the headset.
System nach einem der vorherigen Ansprüche, wobei das System des Weiteren umfasst: einen Detektor (110) zur Detektion eines Audioquellen-Signalanteils von ein oder mehreren Audioquellen unter Verwendung von wenigstens zwei empfangenen Mikrofonsignalen einer Hörumgebung, einen Positionsbestimmer (120) zur Zuweisung von Positionsinformation zu jeder der ein oder mehreren Audioquellen, einen Audiotyp-Klassifikator (130) zur Zuordnung eines Audiosignaltyps zu dem Audioquellen-Signalanteil jeder der ein oder mehreren Audioquellen, und einen Signalanteil-Modifizierer (140) zur Veränderung des Audioquellen-Signalanteils von wenigstens einer Audioquelle der ein oder mehreren Audioquellen abhängig von dem Audiosignaltyp des Audioquellen-Signalanteils der wenigstens einen Audioquelle, um einen modifizierten Audiosignalanteil der wenigstens einen Audioquelle zu erhalten, und wobei der Analysator (152) und der Lautsprechersignal-Erzeuger (154) zusammen einen Signalgenerator (150) bilden, wobei der Analysator (152) des Signalgenerators (150) zur Erzeugung der Mehrzahl von binauralen Raumimpulsantworten ausgebildet ist, wobei es sich bei der Mehrzahl von binauralen Raumimpulsantworten um eine Mehrzahl von binauralen Raumimpulsantworten für jede Audioquelle der ein oder mehreren Audioquellen handelt, die abhängig von der Positionsinformation dieser Audioquelle und einer Orientierung eines Kopfes eines Nutzers sind, und wobei der Lautsprechersignal-Erzeuger (154) des Signalgenerators (150) ausgebildet ist die von wenigstens zwei Lautsprechersignale abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem modifizierten Audiosignalanteil der wenigstens einen Audioquelle zu erzeugen. A system as claimed in any preceding claim, the system further comprising: a detector (110) for detecting an audio source signal portion of one or more audio sources using at least two received microphone signals of a listening environment, a position determiner (120) for assigning position information to each of the one or more audio sources, an audio type classifier (130) for assigning an audio signal type to the audio source signal portion of each of the one or more audio sources, and a signal component modifier (140) for changing the audio source signal component of at least one audio source of the one or more audio sources depending on the audio signal type of the audio source signal component of the at least one audio source in order to obtain a modified audio signal component of the at least one audio source, and wherein the analyzer (152) and the loudspeaker signal generator (154) together form a signal generator (150), wherein the analyzer (152) of the signal generator (150) is designed to generate the plurality of binaural spatial impulse responses, the plurality of binaural spatial impulse responses being a plurality of binaural spatial impulse responses for each audio source of the one or more audio sources, which are dependent on the Position information of this audio source and an orientation of a user's head, and wherein the loudspeaker signal generator (154) of the signal generator (150) is designed to generate the at least two loudspeaker signals depending on the plurality of binaural room impulse responses and depending on the modified audio signal component of the at least one audio source. System nach Anspruch 13,
wobei der Detektor (110) ausgebildet ist, den Audioquellen-Signalanteil der ein oder mehreren Audioquellen unter Verwendung von Deep Learning Modellen zu detektieren.
System according to claim 13,
wherein the detector (110) is designed to detect the audio source signal portion of the one or more audio sources using deep learning models.
System nach Anspruch 13 oder 14,
wobei die Positionsbestimmer (120) ausgebildet ist, die zu jedem der ein oder mehreren Audioquellen die Positionsinformation abhängig von einem aufgenommenen Bild oder von einem aufgenommenen Video zu bestimmen.
System according to claim 13 or 14,
wherein the position determiner (120) is designed to determine the position information for each of the one or more audio sources as a function of a recorded image or of a recorded video.
System nach einem der Ansprüche 13 bis 15,
wobei der Signalanteil-Modifizierer (140) ausgebildet ist, die wenigstens eine Audioquelle, deren Audioquellen-Signalanteil modifiziert wird, abhängig von einem zuvor erlernten Benutzerszenario auszuwählen und abhängig von dem zuvor erlernten Benutzerszenario zu modifizieren.
System according to one of claims 13 to 15,
wherein the signal component modifier (140) is designed to select the at least one audio source whose audio source signal component is modified depending on a previously learned user scenario and to modify it depending on the previously learned user scenario.
System nach einem der Ansprüche 13 bis 16,
wobei das System ein entferntes Gerät (190) umfasst, das den Detektor (110) und den Positionsbestimmer (120) und den Audiotyp-Klassifikator (130) und den Signalanteil-Modifizierer (140) und den Signalgenerator (150) umfasst,
wobei das entfernte Gerät von dem Kopfhörer räumlich getrennt sind.
System according to one of claims 13 to 16,
the system comprising a remote device (190) comprising the detector (110) and the position determiner (120) and the audio type classifier (130) and the signal component modifier (140) and the signal generator (150),
wherein the remote device is physically separated from the headset.
System nach Anspruch 17, wobei das entfernte Gerät (190) ein Smartphone ist.The system of claim 17, wherein the remote device (190) is a smartphone. Verfahren, umfassend: Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten, Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle, wobei die Mehrzahl der binauralen Raumimpulsantworten so bestimmt werden, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert. Method comprising: Determination of a plurality of binaural room impulse responses, Generation of at least two loudspeaker signals depending on the plurality of binaural room impulse responses and depending on the audio source signal from at least one audio source, wherein the plurality of binaural spatial impulse responses are determined such that each of the plurality of binaural spatial impulse responses accounts for an effect resulting from a user wearing headphones. Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch 19.Computer program with a program code for carrying out the method according to Claim 19.
EP20188945.8A 2020-07-31 2020-07-31 System and method for headphone equalization and space adaptation for binaural reproduction in augmented reality Withdrawn EP3945729A1 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP20188945.8A EP3945729A1 (en) 2020-07-31 2020-07-31 System and method for headphone equalization and space adaptation for binaural reproduction in augmented reality
EP21751796.0A EP4189974A2 (en) 2020-07-31 2021-07-28 System and method for headphone equalization and room adjustment for binaural playback in augmented reality
PCT/EP2021/071151 WO2022023417A2 (en) 2020-07-31 2021-07-28 System and method for headphone equalization and room adjustment for binaural playback in augmented reality
JP2023506248A JP2023536270A (en) 2020-07-31 2021-07-28 Systems and Methods for Headphone Equalization and Room Adaptation for Binaural Playback in Augmented Reality
US18/158,724 US20230164509A1 (en) 2020-07-31 2023-01-24 System and method for headphone equalization and room adjustment for binaural playback in augmented reality

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP20188945.8A EP3945729A1 (en) 2020-07-31 2020-07-31 System and method for headphone equalization and space adaptation for binaural reproduction in augmented reality

Publications (1)

Publication Number Publication Date
EP3945729A1 true EP3945729A1 (en) 2022-02-02

Family

ID=71899608

Family Applications (2)

Application Number Title Priority Date Filing Date
EP20188945.8A Withdrawn EP3945729A1 (en) 2020-07-31 2020-07-31 System and method for headphone equalization and space adaptation for binaural reproduction in augmented reality
EP21751796.0A Pending EP4189974A2 (en) 2020-07-31 2021-07-28 System and method for headphone equalization and room adjustment for binaural playback in augmented reality

Family Applications After (1)

Application Number Title Priority Date Filing Date
EP21751796.0A Pending EP4189974A2 (en) 2020-07-31 2021-07-28 System and method for headphone equalization and room adjustment for binaural playback in augmented reality

Country Status (4)

Country Link
US (1) US20230164509A1 (en)
EP (2) EP3945729A1 (en)
JP (1) JP2023536270A (en)
WO (1) WO2022023417A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023208333A1 (en) * 2022-04-27 2023-11-02 Huawei Technologies Co., Ltd. Devices and methods for binaural audio rendering

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115938376A (en) * 2021-08-06 2023-04-07 Jvc建伍株式会社 Processing apparatus and processing method
US20230199420A1 (en) * 2021-12-20 2023-06-22 Sony Interactive Entertainment Inc. Real-world room acoustics, and rendering virtual objects into a room that produce virtual acoustics based on real world objects in the room

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150195641A1 (en) 2014-01-06 2015-07-09 Harman International Industries, Inc. System and method for user controllable auditory environment customization
DE102014210215A1 (en) * 2014-05-28 2015-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Identification and use of hearing room optimized transfer functions
US20190354343A1 (en) * 2016-09-27 2019-11-21 Grabango Co. System and method for differentially locating and modifying audio sources

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150195641A1 (en) 2014-01-06 2015-07-09 Harman International Industries, Inc. System and method for user controllable auditory environment customization
DE102014210215A1 (en) * 2014-05-28 2015-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Identification and use of hearing room optimized transfer functions
US20190354343A1 (en) * 2016-09-27 2019-11-21 Grabango Co. System and method for differentially locating and modifying audio sources

Non-Patent Citations (88)

* Cited by examiner, † Cited by third party
Title
A. AVNIJ. AHRENSM. GEIERCS. SPORSH. WIERSTORFB. RAFAELY: "Spatial perception of sound fields recorded by spherical microphone arrays with varying spatial resolution", JOURNAL OF THE ACOUSTIC SOCIETY OF AMERICA, vol. 133, no. 5, 2013, pages 2711 - 2721, XP012173358, DOI: 10.1121/1.4795780
A. MCPHERSONR. JACKG. MORO: "Action-sound latency: Are our tools fast enough?", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON NEW INTERFACES FOR MUSICAL EXPRESSION, July 2016 (2016-07-01)
A. MESAROST. HEITTOLAT. VIRTANEN: "A multi-device dataset for urban acoustic scene classification", PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS WORKSHOP, 2018
B. FRENAYM. VERLEYSEN: "Classification in the presence of label noise: A survey", IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, vol. 25, no. 5, May 2014 (2014-05-01), pages 845 - 869, XP011545535, DOI: 10.1109/TNNLS.2013.2292894
BRANDENBURG, K.CANO CERON, E.KLEIN, F.KÖLLMER, T.LUKASHEVICH, H.NEIDHARDT, A.NOWAK, J.SLOMA, U.WERNER, S.: "Personalized auditory reality", JAHRESTAGUNG FÜR AKUSTIK (DAGA), GARCHING BEI MÜNCHEN, DEUTSCHE GESELLSCHAFT FÜR AKUSTIK (DEGA, vol. 44, 2018
C. H. TAALR. C. HENDRIKSR. HEUSDENSJ. JENSEN: "An algorithm for intelligibility prediction of time-frequency weighted noisy speech", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 19, no. 7, September 2011 (2011-09-01), pages 2125 - 2136, XP011335558, DOI: 10.1109/TASL.2011.2114881
C. ROTTONDIC. CHAFEC. ALLOCCHIOA. SARTI: "An overview on networked music performance technologies", IEEE ACCESS, vol. 4, 2016, pages 8823 - 8843
C.-R. NAGARJ. ABESSERS. GROLLMISCH: "Towards CNN-based acoustic modeling of seventh chords for recognition chord recognition", PROCEEDINGS OF THE 16TH SOUND & MUSIC COMPUTING CONFERENCE (SMC) (EINGEREICHT, 2019
CANO ESTEFANIA ET AL: "Selective Hearing: A Machine Listening Perspective", 2019 IEEE 21ST INTERNATIONAL WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING (MMSP), IEEE, 27 September 2019 (2019-09-27), pages 1 - 6, XP033660032, DOI: 10.1109/MMSP.2019.8901720 *
D. FITZGERALDA. LIUTKUSR. BADEAU: "Projection-based demixing of spatial audio", IEEE/ACM TRANS. ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 24, no. 9, 2016, pages 1560 - 1572
D. MATZE. CANOJ. ABESSER: "Proc. of the 16th International Society for Music Information Retrieval Conference", October 2015, ISMIR, article "New sonorities for early jazz recordings using sound source separation and automatic mixing tools", pages: 749 - 755
D. PAVLIDIA. GRIFFINM. PUIGTA. MOUCHTARIS: "Real-time multiple sound source localization and counting using a circular microphone array", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 21, no. 10, October 2013 (2013-10-01), pages 2193 - 2206, XP011521588, DOI: 10.1109/TASL.2013.2272524
D. SNYDERD. GARCIA-ROMEROG. SEILD. POVEYS. KHUDANPUR: "X-vectors: Robust DNN embeddings for speaker recognition", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01), pages 5329 - 5333, XP033403941, DOI: 10.1109/ICASSP.2018.8461375
D. YOOKT. LEEY. CHO: "Fast sound source localization using two-level search space clustering", IEEE TRANSACTIONS ON CYBERNETICS, vol. 46, no. 1, January 2016 (2016-01-01), pages 20 - 26, XP011594358, DOI: 10.1109/TCYB.2015.2391252
E. C, CAKIRT. VIRTANEN: "End-to-end polyphonic sound event detection using convolutional recurrent neural networks with learned time-frequency representation input", PROC. OF INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN, July 2018 (2018-07-01), pages 1 - 7
E. CANOD. FITZGERALDA. LIUTKUSM. D. PLUMBLEYF. STÖTER: "Musical source separation: An introduction", IEEE SIGNAL PROCESSING MAGAZINE, vol. 36, no. 1, January 2019 (2019-01-01), pages 31 - 40, XP011694891, DOI: 10.1109/MSP.2018.2874719
E. CANOD. FITZGERALDK. BRANDENBURG: "Evaluation of quality of sound source separation algorithms: Human perception vs quantitative metrics", PROCEEDINGS OF THE 24TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO, 2016, pages 1758 - 1762, XP033011238, DOI: 10.1109/EUSIPCO.2016.7760550
E. CANOG. SCHULLERC. DITTMAR: "Pitch-informed solo and accompaniment separation towards its use in music education applications", EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING, vol. 23, 2014, pages 1 - 19
E. CANOJ. LIEBETRAUD. FITZGERALDK. BRANDENBURG: "The dimensions of perceptual quality of sound source separation", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01), pages 601 - 605, XP033401636, DOI: 10.1109/ICASSP.2018.8462325
E. CANOJ. NOWAKS. GROLLMISCH: "Exploring sound source separation for acoustic condition monitoring in industrial scenarios", PROC. OF 25TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO, August 2017 (2017-08-01), pages 2264 - 2268, XP033236389, DOI: 10.23919/EUSIPCO.2017.8081613
E. FONSECAM. PLAKALD. P. W. ELLISF. FONTX. FAVORYX. SERRA: "Learning sound event classifiers from web audio with noisy labels", PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, 2019
F. EYBENF. WENINGERS. SQUARTINIB. SCHULLER: "Real-life voice activity detection with LSTM recurrent neural networks and an application to hollywood movies", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, May 2013 (2013-05-01), pages 483 - 487, XP032509188, DOI: 10.1109/ICASSP.2013.6637694
F. GRONDINF. MICHAUD: "Lightweight and optimized sound source localization and tracking methods for open and closed microphone array configurations", ROBOTICS AND AUTONOMOUS SYSTEMS, vol. 113, 2019, pages 63 - 80
F. MÜLLERM. KARAU: "Transparant hearing", CHI ,02 EXTENDED ABSTRACTS ON HUMAN FACTORS IN COMPUTING SYSTEMS (CHI EA '02, April 2002 (2002-04-01), pages 730 - 731
F. WENINGERH. ERDOGANS. WATANABEE. VINCENTJ. LE ROUXJ. R. HERSHEYB. SCHULLER: "Latent Variable Analysis and Signal Separation", 2015, SPRINGER INTERNATIONAL PUBLISHING, article "Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR", pages: 293 - 305
G. NAITHANIT. BARKERG. PARASCANDOLOL. BRAMSLTWN. H. PONTOPPIDANT. VIRTANEN: "Low latency sound source separation using convolutional recurrent neural networks", PROC. OF IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA, October 2017 (2017-10-01), pages 71 - 75, XP033264904, DOI: 10.1109/WASPAA.2017.8169997
G. PARASCANDOLOH. HUTTUNENT. VIRTANEN: "Recurrent neural networks for polyphonic sound event detection in real life recordings", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, March 2016 (2016-03-01), pages 6440 - 6444
G. S. PAPINIR. L. PINTOE. B. MEDEIROSF. B. COELHO: "Hybrid approach to noise control of industrial exhaust systems", APPLIED ACOUSTICS, vol. 125, 2017, pages 102 - 112, XP085026079, DOI: 10.1016/j.apacoust.2017.03.017
H. WIERSTORFD. WARDR. MASONE. M. GRAISC. HUMMERSONEM. D. PLUMBLEY: "Perceptual evaluation of source separation for remixing music", PROC. OF AUDIO ENGINEERING SOCIETY CONVENTION, vol. 143, October 2017 (2017-10-01)
J. ABESSERM. GÖTZES. KÜHNLENZR. GRÄFEC. KÜHNT. CLAUSSH. LUKASHEVICH: "A Distributed Sensor Network for Monitoring Noise Level and Noise Sources in Urban Environments", PROCEEDINGS OF THE 6TH IEEE INTERNATIONAL CONFERENCE ON FUTURE INTERNET OF THINGS AND CLOUD (FICLOUD), BARCELONA, SPAIN, 2018, pages 318 - 324, XP033399745, DOI: 10.1109/FiCloud.2018.00053
J. ABESSERM. MÜLLER: "Fundamental frequency contour classification: A comparison between hand-crafted and CNN-based features", PROCEEDINGS OF THE 44TH IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP, 2019
J. ABESSERS. BALKEM. MÜLLER: "Improving bass saliency estimation using label propagation and transfer learning", PROCEEDINGS OF THE 19TH INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL CONFERENCE (ISMIR, 2018, pages 306 - 312
J. ABESSERS. LOANNIS MIMILAKISR. GRÄFEH. LUKASHEVICH: "Acoustic scene classification by combining autoencoder-based dimensionality reduction and convolutional neural net-works", PROCEEDINGS OF THE 2ND DCASE WORKSHOP ON DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS, 2017
J. CHUAG. WANGW. B. KLEIJN: "Convolutive blind source separation with low latency", PROC. OF IEEE INTERNATIONAL WORKSHOP ON ACOUSTIC SIGNAL ENHANCEMENT (IWAENC, September 2016 (2016-09-01), pages 1 - 5, XP032983095, DOI: 10.1109/IWAENC.2016.7602895
J. F. GEMMEKED. P. W. ELLISD. FREEDMANA. JANSENW. LAWRENCER. C. MOOREM. PLAKALM. RITTER: "Audio Set: An ontology and human-Iabeled dataset for audio events", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, 2017
J. PONSJ. JANERT. RODEW. NOGUEIRA: "Remixing music using source separation algorithms to improve the musical experience of cochlear implant users", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 140, no. 6, 2016, pages 4338 - 4349, XP012214619, DOI: 10.1121/1.4971424
J. R. HERSHEYZ. CHENJ. LE ROUXS. WATANABE: "Deep clustering: Discriminative embeddings for segmentation and separation", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, 2016, pages 31 - 35, XP032900557, DOI: 10.1109/ICASSP.2016.7471631
J. S. GÖMEZJ. ABESSERE. CANO: "Jazz solo instrument classification with convolutional neural networks, source separation, and transfer learning", PROCEEDINGS OF THE 19TH INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL CONFERENCE (ISMIR, 2018, pages 577 - 584
J. ZHANGT. D. ABHAYAPALAW. ZHANGP. N. SAMARASINGHES. JIANG: "Active noise control over space: A wave domain approach", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 26, no. 4, April 2018 (2018-04-01), pages 774 - 786
J.-L. DURRIEUB. DAVIDG. RICHARD: "A musically motivated midlevel representation for pitch estimation and musical audio source separation", SELECTED TOPICS IN SIGNAL PROCESSING, IEEE JOURNAL OF, vol. 5, no. 6, October 2011 (2011-10-01), pages 1180 - 1191, XP011386718, DOI: 10.1109/JSTSP.2011.2158801
K. BRANDENBURGE. CANOF. KLEINT. KÖLLMERH. LUKASHEVICHA. NEIDHARDTU. SLOMAS. WERNER: "Plausible augmentation of auditory scenes using dynamic binaural synthesis for personalized auditory realities", PROC. OF AES INTERNATIONAL CONFERENCE ON AUDIO FOR VIRTUAL AND AUGMENTED REALITY, August 2018 (2018-08-01)
KAROLINA PRAWDA: "Augmented Reality: Hear-through", 31 December 2019 (2019-12-31), pages 1 - 20, XP055764823, Retrieved from the Internet <URL:https://mycourses.aalto.fi/pluginfile.php/666520/course/section/128564/Karolina%20Prawda_1930001_assignsubmission_file_Prawda_ARA_hear_through_revised.pdf> [retrieved on 20210113] *
KLEINER, M.: "Acoustics and Audio Technology", 2012, J. ROSS PUBLISHING
L. JIAKAI: "Mean teacher convolution system for dcase 2018 task 4", DCASE2018 CHALLENGE, TECH. REP., September 2018 (2018-09-01)
L. VIEIRA: "Master Thesis", 2018, AALBORG UNIVERSITY, article "Super hearing: a study on virtual prototyping for hearables and hearing aids"
M. DICKREITERV. DITTELW. HOEGM. WÖHRM.: "Handbuch der Tonstudiotechnik", vol. 1, 2008, K.G. SAUR VERLAG
M. DORFERG. WIDMER: "Training general-purpose audio tagging networks with noisy labels and iterative self-verification", PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2018 WORKSHOP (DCASE2018, 2018
M. MCLAREND. CASTÄNM. K. NANDWANAL. FERRERE. YILMAZ: "How to train your speaker embeddings extractor", ODYSSEY, 2018
M. MCLARENY. LEIL. FERRER: "Advances in deep neural network approaches to speaker recognition", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2015 (2015-04-01), pages 4814 - 4818
M. SUNOHARAC. HARUTAN. ONO: "Low-Iatency real-time blind source separation for hearing aids based on time-domain implementation of online independent vector analysis with truncation of non-causal components", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, March 2017 (2017-03-01), pages 216 - 220
OROSOUND, TILDE EARPHONES, 1 March 2019 (2019-03-01), Retrieved from the Internet <URL:https://www.orosound.com/tilde-earphones>
P. M. DELGADOJ. HERRE: "Objective assessment of spatial audio quality using directional loudness maps", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, May 2019 (2019-05-01), pages 621 - 625, XP033566358, DOI: 10.1109/ICASSP.2019.8683810
P. N. SAMARASINGHEW. ZHANGT. D. ABHAYAPALA: "Recent advances in active noise control inside automobile cabins: Toward quieter cars", IEEE SIGNAL PROCESSING MAGAZINE, vol. 33, no. 6, November 2016 (2016-11-01), pages 61 - 73, XP011633441, DOI: 10.1109/MSP.2016.2601942
P. VECCHIOTTIN. MAS. SQUARTINIG. J. BROWN: "End-to-end binaural sound localisation from the raw waveform", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, May 2019 (2019-05-01), pages 451 - 455
Q. KONGY. XUW. WANGM. D. PLUMBLEY: "A joint separation-classification model for sound event detection of weakly labelled data", PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, March 2018 (2018-03-01)
R. SERIZELN. TURPAULTH. EGHBAL-ZADEHA. PARAG SHAH: "Large- Scale Weakly Labeled Semi-Supervised Sound Event Detection in Domestic Environments", DCASE2018 WORKSHOP, July 2018 (2018-07-01)
R. ZAZO-CANDILT. N. SAINATHG. SIMKOC. PARADA: "Feature learning with rawwaveform CLDNNs for voice activity detection", PROC. OF INTERSPEECH, 2016
RISHABH RANJAN ET AL: "Natural listening over headphones in augmented reality using adaptive filtering techniques", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, IEEE, USA, vol. 23, no. 11, 31 July 2015 (2015-07-31), pages 1988 - 2002, XP058072946, ISSN: 2329-9290, DOI: 10.1109/TASLP.2015.2460459 *
S. ADAVANNEA. POLITISJ. NIKUNENT. VIRTANEN: "Sound event localization and detection of overlapping sources using convolutional recurrent neural networks", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, 2018, pages 1 - 1
S. ARGENTIERIP. DANSP. SOURES: "A survey on sound source localization in robotics: From binaural to array processing methods", COMPUTER SPEECH LANGUAGE, vol. 34, no. 1, 2015, pages 87 - 112, XP029225205, DOI: 10.1016/j.csl.2015.03.003
S. CHAKRABARTYE. A. P. HABETS: "Multi-speaker DOA estimation using deep convolutional networks trained with noise signals", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, vol. 13, no. 1, March 2019 (2019-03-01), pages 8 - 21
S. DELIKARIS-MANIASD. PAVLIDIA. MOUCHTARISV. PULKKI: "DOA estimation with histogram analysis of spatially constrained active intensity vectors", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, March 2017 (2017-03-01), pages 526 - 530, XP033258473, DOI: 10.1109/ICASSP.2017.7952211
S. GANNOTE. VINCENTS. MARKOVICH-GOLANA. OZEROV: "A consolidated perspective on multimicrophone speech enhancement and source separation", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 25, no. 4, April 2017 (2017-04-01), pages 692 - 730, XP058372577, DOI: 10.1109/TASLP.2016.2647702
S. GHARIBK. DROSSOSE. CAKIRD. SERDYUKT. VIRTANEN: "Unsupervised adversarial domain adaptation for acoustic scene classification", PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS WORKSHOP (DCASE, November 2018 (2018-11-01), pages 138 - 142
S. GROLLMISCHJ. ABESSERJ. LIEBETRAUH. LUKASHEVICH: "Sounding industry: Challenges and datasets for industrial sound analysis (ISA", PROCEEDINGS OF THE 27TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO) (EINGEREICHT, 2019
S. GURURANIC. SUMMERSA. LERCH: "Proceedings of the 19th International Society for Music Information Retrieval Conference", September 2018, ISMIR, article "Instrument activity detection in polyphonic music using deep neural networks", pages: 321 - 326
S. I. MIMILAKISK. DROSSOSJ. F. SANTOSG. SCHULLERT. VIRTANENY. BENGIO: "Monaural Singing Voice Separation with Skip-Filtering Connections and Recurrent Inference of Time-Frequency Mask", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP, 2018, pages 721 - 725
S. LIEBICHJ. FABRYP. JAXP. VARY: "Signal processing challenges for active noise cancellation headphones", SPEECH COMMUNICATION; 13TH ITG-SYMPOSIUM, October 2018 (2018-10-01), pages 1 - 5
S. M. KUOD. R. MORGAN: "Active noise control: a tutorial review", PROCEEDINGS OF THE IEEE, vol. 87, no. 6, June 1999 (1999-06-01), pages 943 - 973
S. MARCHAND: "Audio scene transformation using informed source separation", THE JOURNAL OFTHE ACOUSTICAL SOCIETY OF AMERICA, vol. 140, no. 4, 2016, pages 3091
S. O. SADJADIJ. W. PELECANOSS. GANAPATHY: "The IBM speaker recognition system: Recent advances and error analysis", PROC. OF INTERSPEECH, 2016, pages 3633 - 3637
S. PASCUALA. BONAFONTEJ. SERRÄ: "SEGAN: speech enhancement generative adversarial network", PROC. OF INTERSPEECH, August 2017 (2017-08-01), pages 3642 - 3646
S. UHLICHM. PORCUF. GIRONM. ENENKLT. KEMPN. TAKAHASHIY. MITSUFUJI: "Improving music source separation based on deep neural networks through data augmentation and network blending", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, 2017
SENNHEISER, AMBEO SMART HEADSET, 1 March 2019 (2019-03-01), Retrieved from the Internet <URL:https://de-de.sennheiser.com/finalstop>
T. GERKMANNM. KRAWCZYK-BECKER: "J. Le Roux, ''Phase processing for single-channel speech enhancement: History and recent advances", IEEE SIGNAL PROCESSING MAGAZINE, vol. 32, no. 2, March 2015 (2015-03-01), pages 55 - 66, XP011573073, DOI: 10.1109/MSP.2014.2369251
T. V. NEUMANNK. KINOSHITAM. DELCROIXS. ARAKIT. NAKATANIR. HAEB-UMBACH: "All-neural online source separation, counting, and diarization for meeting analysis", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, May 2019 (2019-05-01), pages 91 - 95
V. LONSTANLENC.-E. CELLA: "Proceedings of the 17th International Society for Music Information Retrieval Conference", 2016, ISMIR, article "Deep convolutional networks on the pitch spiral for musical instrument recognition", pages: 612 - 618
V. VALIMAKIA. FRANCKJ. RAMOH. GAMPERL. SAVIOJA: "Assisted listening using a headset: Enhancing audio perception in real, augmented, and virtual environments", IEEE SIGNAL PROCESSING MAGAZINE, vol. 32, no. 2, March 2015 (2015-03-01), pages 92 - 99, XP011573083, DOI: 10.1109/MSP.2014.2369191
X. LIL. GIRINR. HORAUDS. GANNOT: "Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 25, no. 10, October 2017 (2017-10-01), pages 1997 - 2012
X. LUY. TSAOS. MATSUDAC. HORI: "Speech enhancement based on deep denoising autoencoder", PROC. OF INTERSPEECH, 2013
Y. HANJ. KIMK. LEE: "Deep convolutional neural networks for predominant instrument recognition in polyphonic music", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 25, no. 1, January 2017 (2017-01-01), pages 208 - 221
Y. JUNGY. KIMY. CHOIH. KIM: "Joint learning using denoising variational autoencoders for voice activity detection", PROC. OF INTERSPEECH, September 2018 (2018-09-01), pages 1210 - 1214
Y. LUON. MESGARANI: "TaSNet: Time-domain audio separation network for real-time, single-channel speech separation", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01), pages 696 - 700
Y. LUOZ. CHENN. MESGARANI: "Speaker-independent speech separation with deep attractor network", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 26, no. 4, April 2018 (2018-04-01), pages 787 - 796
Y. XUJ. DUL. DAIC. LEE: "A regression approach to speech enhancement based on deep neural networks", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 23, no. 1, January 2015 (2015-01-01), pages 7 - 19
Y. XUQ. KONGW. WANGM. D. PLUMBLEY: "Large-Scale Weakly Supervised Audio Classification Using Gated Convolutional Neural Network", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, 2018, pages 121 - 125
Z. RAFIIA. LIUTKUSF. STÖTERS. I. MIMILAKISD. FITZGERALDB. PARDO: "An overview of lead and accompaniment separation in music", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 26, no. 8, August 2018 (2018-08-01), pages 1307 - 1335
Z. WANGJ. LE ROUXJ. R. HERSHEY: "Multi-channel deep clustering: Discriminative spectral and spatial embeddings for speaker-independent speech separation", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01), pages 1 - 5, XP033400917, DOI: 10.1109/ICASSP.2018.8461639

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023208333A1 (en) * 2022-04-27 2023-11-02 Huawei Technologies Co., Ltd. Devices and methods for binaural audio rendering

Also Published As

Publication number Publication date
US20230164509A1 (en) 2023-05-25
EP4189974A2 (en) 2023-06-07
JP2023536270A (en) 2023-08-24
WO2022023417A3 (en) 2022-03-24
WO2022023417A2 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
EP4011099A1 (en) System and method for assisting selective hearing
Gabbay et al. Visual speech enhancement
Wang Time-frequency masking for speech separation and its potential for hearing aid design
Arons A review of the cocktail party effect
Darwin Listening to speech in the presence of other sounds
Blauert Communication acoustics
EP4189974A2 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
CN110517705B (en) Binaural sound source positioning method and system based on deep neural network and convolutional neural network
US10825353B2 (en) Device for enhancement of language processing in autism spectrum disorders through modifying the auditory stream including an acoustic stimulus to reduce an acoustic detail characteristic while preserving a lexicality of the acoustics stimulus
CN112352441B (en) Enhanced environmental awareness system
Marxer et al. The impact of the Lombard effect on audio and visual speech recognition systems
CN103325383A (en) Audio processing method and audio processing device
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
Kohlrausch et al. An introduction to binaural processing
EP3216235B1 (en) An audio signal processing apparatus and method
EP2405673A1 (en) Method for localising an audio source and multi-channel audio system
Gabbay et al. Seeing through noise: Speaker separation and enhancement using visually-derived speech
Keshavarzi et al. Use of a deep recurrent neural network to reduce wind noise: Effects on judged speech intelligibility and sound quality
Josupeit et al. Modeling speech localization, talker identification, and word recognition in a multi-talker setting
Abel et al. Novel two-stage audiovisual speech filtering in noisy environments
CN111009259A (en) Audio processing method and device
Luo et al. Audio-visual speech separation using i-vectors
CN113347551B (en) Method and device for processing single-sound-channel audio signal and readable storage medium
Gul et al. Preserving the beamforming effect for spatial cue-based pseudo-binaural dereverberation of a single source
US20230267942A1 (en) Audio-visual hearing aid

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWANDTEN FORSCHUNG E.V.

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20220803