EP4167228B1 - Audio-maskierung von sprechern - Google Patents

Audio-maskierung von sprechern

Info

Publication number
EP4167228B1
EP4167228B1 EP21203247.8A EP21203247A EP4167228B1 EP 4167228 B1 EP4167228 B1 EP 4167228B1 EP 21203247 A EP21203247 A EP 21203247A EP 4167228 B1 EP4167228 B1 EP 4167228B1
Authority
EP
European Patent Office
Prior art keywords
signal
speech
masking
spectral
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP21203247.8A
Other languages
English (en)
French (fr)
Other versions
EP4167228A1 (de
Inventor
Thomas Stottan
Thomas Hatheier
Alois Sontacchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audio Mobil Elektronik GmbH
Original Assignee
Audio Mobil Elektronik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audio Mobil Elektronik GmbH filed Critical Audio Mobil Elektronik GmbH
Priority to EP21203247.8A priority Critical patent/EP4167228B1/de
Priority to EP22201974.7A priority patent/EP4167229B1/de
Priority to ES22201974T priority patent/ES3013982T3/es
Priority to US18/702,209 priority patent/US20250239248A1/en
Priority to PCT/EP2022/078926 priority patent/WO2023066908A1/de
Priority to KR1020247014966A priority patent/KR20240089343A/ko
Priority to EP22803245.4A priority patent/EP4420115A1/de
Priority to JP2024524500A priority patent/JP2024542967A/ja
Publication of EP4167228A1 publication Critical patent/EP4167228A1/de
Application granted granted Critical
Publication of EP4167228B1 publication Critical patent/EP4167228B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • G10K11/1754Speech masking

Definitions

  • the present disclosure relates to the generation of a masking signal for speech in a zone-based audio system.
  • Modern communication technologies and their ever-increasing coverage enable communication to take place almost anywhere, for example, in the form of telephone conversations.
  • public spaces other people can often overhear such conversations and understand their content. This is particularly problematic when the conversations are confidential, private, or business-related.
  • Such a scenario exists on public transportation, such as trains or airplanes, but also in private vehicles, such as taxis or rented limousines.
  • other people are in fixed positions, for example, in assigned seats.
  • such seats have an associated audio system or at least components thereof.
  • speakers for individual audio playback may be provided in these seats, perhaps integrated into headrests, which is also known as a zone-based audio system.
  • the US 2012/016665 A1 Figure 1 shows a device for generating a masking signal, wherein a CPU analyzes the speech utterance rate of a received audio signal. The CPU then copies the received audio signal into a multitude of audio signals and performs the following processing on each of the audio signals. Specifically, the CPU divides each of the audio signals into frames based on a frame length determined by the speech utterance rate. A reversal process is performed on each of the frames to replace one waveform of the frame with an inverted waveform, and a windowing process is performed to achieve smooth transitions between the frames. Subsequently, the CPU randomly reorders the sequence of the frames and mixes the multiple audio signals to generate a masking audio signal.
  • a “Partial Loudness Model” is developed that predicts the loudness of a signal in the presence of a masking sound signal, taking into account masking across spectral bands and the effects of temporal masking of time-varying noise.
  • This document addresses the technical task of generating a masking signal in a zone-based audio system that reduces unwanted eavesdropping on a conversation without causing any unpleasant disturbance.
  • a method for masking a speech signal in a zone-based audio system comprises capturing a speech signal to be masked in an audio zone, e.g., by means of one or more conveniently placed microphones, which may, for example, be located in the headrest of a seat.
  • the speech signal may originate from the local speaker of a telephone conversation or belong to a conversation between people present.
  • the captured speech signal is then transformed into spectral bands, which can be done, for example, using an FFT and Mel filters.
  • the method involves swapping spectral values of at least two spectral bands, thereby altering the spectral structure of the speech signal without changing its overall energy content.
  • a (preferably broadband) noise signal is generated based on the swapped spectral values.
  • the generated noise signal exhibits While it exhibits a certain similarity to the spectrum of the speech signal, it does not perfectly match it, as the spectral structure of the speech signal is no longer fully preserved due to the band swapping.
  • Such a noise signal with a similar but not identical spectrum to the speech signal is well-suited as a masking signal for the speech signal.
  • any number of bands can be swapped (e.g., all of them), with more band swaps resulting in greater variation in the noise spectrum.
  • the noise signal is output as a masking signal in a different audio zone with minimal energy input to make it more difficult for a person located at that listening position to overhear the conversation by reducing speech intelligibility for them.
  • Generating a noise signal based on swapped spectral values can involve creating a broadband noise signal, for example, using a noise generator, and transforming the generated noise signal into the frequency domain. Furthermore, the frequency representation of the noise signal can be multiplied by a frequency representation of the speech signal, taking the swapped spectral values into account. This frequency-domain multiplication produces a noise spectrum that essentially corresponds to that of the speech signal after the spectral bands have been swapped—that is, it is similar to, but not identical to, the speech spectrum. A similar effect can also be achieved through convolution in the time domain.
  • the frequency representation of the speech signal can be generated by interpolating the spectral values of the bands (for example, in the mel range) after swapping the spectral values. This interpolation generates the necessary values at the frequency reference points for multiplication with the noise spectrum from the (relatively few) spectral values of the bands.
  • the method can further involve estimating a background noise spectrum (preferably at the listening position) and comparing spectral values of the speech signal with the background noise spectrum.
  • the comparison of spectral values preferably (but not necessarily) takes place within the spectral bands (e.g., mel bands), which means that the background noise spectrum must also be represented in these spectral bands.
  • spectral bands e.g., mel bands
  • Spectral components of the speech signal that are already masked by the background noise do not need to be considered for generating the masking signal and can be suppressed (e.g., by setting them to zero).
  • the consideration of the background noise can occur both before and after the interchange of spectral values.
  • the spectral bands being compared still match exactly, and the background noise is correctly accounted for.
  • the swapping of bands and the attenuation of low-energy bands in the speech signal introduces an additional variation into the A noise spectrum is introduced, which can lead to increased masking. This enables a masking signal adapted to the background or environment, which can be output to the listener's audio zone with minimal energy input.
  • the transformation of the captured speech signal into spectral bands can be performed for blocks of the speech signal and using a Mel filter bank.
  • the noise signal can be spatially represented during output by means of a multi-channel (i.e., at least two-channel) playback.
  • a multi-channel representation of the masking signal can be generated, enabling spatial reproduction of the masking signal.
  • this can preferably be achieved by multiplication with binaural spectra of an acoustic transfer function.
  • the spatial reproduction enhances the effect of the masking signal on concealing speech at the listening position, particularly when the noise signal is output spatially in the other audio zone in such a way that it appears to originate from the direction of the speaker of the speech signal to be masked.
  • a further component can be generated for the masking signal and output together to the listener in the second audio zone.
  • the method can involve determining a point in time relevant to speech intelligibility within the speech signal (e.g., the presence of consonants) and generating a suitable distraction signal for that specific point in time.
  • the distraction signal can then be output at that specific point in time as a further masking signal in the other audio zone, resulting in a localized additional obfuscation (masking) of the speech content during speech onsets. Since the distraction signal is only output at specific relevant points in time, it does not significantly increase the overall sound level and does not cause any significant impairment.
  • the relevant time for speech intelligibility can be determined based on extreme values (e.g., local maxima, onsets) of a spectral function of the speech signal.
  • This spectral function is determined by summing spectral values along the frequency axis.
  • the spectral values can be smoothed beforehand in the temporal and/or frequency direction. After summing the spectral values along the frequency axis, the sums can optionally be logarithmized. To generate local maxima for detecting relevant time points, the (optionally logarithmized) sums can be time-differentiated.
  • time points relevant for speech intelligibility can be determined based on parameters of the speech signal, such as zero-crossing rate, short-term energy and/or spectral center, They must be verified. It is also possible to consider time restrictions for extreme values, so that, for example, they must have a predetermined minimum time interval.
  • the distraction signal for a specific time can then be randomly selected from a set of predefined distraction signals. These can be stored in a memory for selection. It has proven advantageous to match the distraction signal to the speech signal with respect to its spectral characteristics and/or energy.
  • the spectral center of the distraction signal can be matched to the spectral center of the corresponding speech segment at the specific time, e.g., by means of single-sideband modulation.
  • a speech segment with a high spectral center can thus be masked with a distraction signal with a similarly high spectral center (possibly even the same spectral center), resulting in greater masking effectiveness.
  • the energy of the distraction signal can also be matched to the energy of the speech segment to avoid producing an excessively loud and disruptive masking signal.
  • the distraction signal can be represented during output by means of a multi-channel spatial reproduction, preferably by multiplication with binaural spectra of an acoustic transfer function, thereby generating a multi-channel (at least two-channel) representation of the distraction signal, which enables a spatial reproduction of the distraction signal.
  • This spatial reproduction enhances the effect of the distraction signal on masking speech at the listening position, particularly when the distraction signal is output spatially in the other audio zone in such a way that it appears to originate from a random direction and/or near the listener's head in that other audio zone.
  • This spatialization reduces the distinguishability of the speech and distraction signals, or makes it more difficult to overhear the speech signal due to the distraction signal, and thus reduces the energy required for the distraction signal.
  • the processing of the speech signal and the generation of a masking signal described above are preferably carried out in the digital domain. This requires steps not described in detail, such as an analog-to-digital conversion and a digital-to-analog conversion, which, however, will be self-evident to a person skilled in the art after studying the present disclosure. Furthermore, the above method can be implemented wholly or partially by means of a programmable device, which in particular includes a digital signal processor and the necessary analog-to-digital converters.
  • a device for generating a masking signal in a zone-based audio system which receives a speech signal to be masked and generates the masking signal based on the speech signal.
  • the device comprises means for transforming the captured speech signal into spectral bands; means for exchanging spectral values of at least two spectral bands; and means for Generating a noise signal as a masking signal based on the swapped spectral values.
  • the embodiments of the method described above can also be applied to this device.
  • the device can further comprise: means for determining a point in time relevant to speech intelligibility within the speech signal; means for generating a distraction signal for the relevant point in time; and means for adding the noise signal and the distraction signal and outputting the sum signal as a masking signal.
  • the device also includes means for generating a multi-channel representation of the masking signal, which enables a spatial reproduction of the masking signal.
  • a zone-based audio system with a plurality of audio zones wherein at least one audio zone has a microphone for capturing a speech signal and another audio zone has at least one loudspeaker.
  • the microphone and loudspeaker can be arranged in the headrests of seats for vehicle occupants. It is also possible for both audio zones to have a microphone and loudspeaker.
  • the audio system includes a device, as shown above, for generating a masking signal, which receives a speech signal from a microphone of one audio zone and sends the masking signal to the loudspeaker(s) of the other audio zone.
  • a corresponding method for masking a speech signal in a zone-based audio system comprises: capturing a speech signal to be masked in one audio zone; determining a point in time relevant to speech intelligibility within the speech signal; generating a distraction signal for that specific point in time; and outputting the distraction signal at that specific point in time as a masking signal in the other audio zone.
  • the possible embodiments of the method correspond to the embodiments described above in combination with the generated noise signal.
  • a corresponding device for generating a distraction signal as a masking signal in a zone-based audio system receives a speech signal to be masked and generates the masking signal based on the speech signal. It includes means for determining a point in time relevant to speech intelligibility within the speech signal; means for generating a distraction signal for the relevant point in time; and means for outputting the distraction signal as a masking signal.
  • means for generating a multi-channel representation of the masking signal, enabling spatial reproduction of the masking signal may be provided.
  • the following examples allow vehicle occupants in any seating position to conduct undisturbed private conversations, such as phone calls with other people outside the vehicle.
  • an audio masking signal is generated and transmitted to other vehicle occupants, disrupting their perception of the conversation and making it difficult, or ideally impossible, for them to overhear the private conversation.
  • the conversation could be, for example, a telephone call or a conversation between vehicle occupants. In the latter case, there are two speakers who alternately emit speech signals that other occupants should ideally not understand, while, of course, ensuring that the speech intelligibility between the two participants is not impaired.
  • acoustic zones can exist, for example, in means of transport such as cars, trains, buses, airplanes, ferries, etc., where passengers are seated in seats equipped with acoustic playback devices.
  • the proposed approach to creating private acoustic zones is not limited to these examples. It can be applied more generally to situations in which people are located in specific positions within a space (e.g., in theater or cinema seats) and can be amplified by individual acoustic playback devices and it is possible to capture the speech signals of a speaker whose speech is not to be understood by the other persons.
  • a zone-based audio system is provided to create private acoustic zones at each passenger seat in a vehicle, or more generally, an acoustic environment.
  • the individual components of the audio system are networked and can interact and exchange information/signals.
  • Figure 1 schematically shows an example of such a zone-based audio system.
  • a user or passenger is located in a seat 2 with a headrest 3, which has two loudspeakers 4 and two microphones 5.
  • Such a zone-based audio system has one, preferably at least two, loudspeakers 4 for the active acoustic reproduction of personal and individual audio signals, which should not be perceived, or only minimally perceived, by neighboring zones.
  • the loudspeaker(s) 4 can be installed in the headrest 3, the seat 2 itself, or in the vehicle's headliner.
  • the loudspeakers have a sufficiently optimized acoustic design and can be controlled via appropriate signal processing to minimize the acoustic impact on neighboring zones.
  • an audio zone has the capability to record the speech of the occupant in the primary acoustic zone independently of the neighboring zones and the signals actively reproduced therein.
  • one or more microphones 5 can be integrated into the seat 2 or the headrest 3, or placed in the immediate acoustic environment of the zone and the occupant, as shown in Figure 2 is shown schematically.
  • the microphones 5 are arranged so that they enable the best possible capture of the speech of the occupant making the phone call. If a microphone can be placed in the immediate vicinity of the speaker's mouth (like the middle microphone in Figure 2 Generally, a single microphone is sufficient to capture the speaker's audio signals with adequate quality.
  • the microphone of a telephone headset can be used to record speech signals. Otherwise, two or more microphones are advantageous for capturing speech in order to record it better and, above all, more precisely using digital signal processing, as explained below.
  • the speaker's audio zone can have appropriate signal processing to record the primary occupant's speech signals as undisturbed as possible and unaffected by neighboring zones and prevailing disturbances in the environment (wind, rolling noise, ventilation, etc.).
  • the voice signal of the vehicle occupant making a phone call is thus captured at the seating position (either directly by a suitably positioned microphone or indirectly by means of one or more remote microphones with appropriate signal processing) and separated from any interfering signals, such as background noise.
  • a masking signal also referred to as a speech obfuscation signal
  • a broadband masking signal adapted to the speech to be obfuscated is generated for this passenger.
  • distraction signals can also be generated at the individual speech onsets within the primary speaker's speech. These are short interference signals that are emitted at specific speech segments important for speech intelligibility and can also be adapted to the speech to be obfuscated. These distraction signals are emitted with temporal overlap with the speech segments relevant for speech intelligibility in order to reduce the information content for the listener and impair the intelligibility of the speech or its interpretation (informational masking) without significantly increasing the overall sound level.
  • these masking signals can be played back spatially (multi-channel), creating a spatial perception of the masking signals. In this way, eavesdropping from the seating positions of the listening individuals can be avoided as effectively as possible.
  • the proposed approach ensures that the overall sound pressure level at the seating positions of the listening passengers increases only minimally and that the annoyance or impairment (annoyance) of the passengers is not increased, or that local listening comfort is maintained as much as possible, in contrast to an approach in which a loud background noise is simply emitted to mask the speech (energetic masking).
  • Figure 3 illustrates the functionality and basic system structure of an embodiment for two audio zones.
  • the speech signals of the occupant in the primary acoustic zone I are captured by microphones 5 located in the speaker's headrest 3 of that zone and subjected to a first digital signal processing A to record the speech signals of the primary occupant as undisturbed as possible and unaffected by neighboring zones and ambient disturbances (wind, road noise, ventilation, etc.).
  • the microphone(s) 5 can also be located in front of the speaker, as shown in Figure 1.
  • Figure 2 This can be depicted, for example, in the rear part of the front passenger's headrest, or in the headliner, steering wheel, or dashboard.
  • the eavesdropper is in the seat directly in front of the speaker, but this is not mandatory, and the eavesdropper can be located anywhere else within the vehicle.
  • the speech signals processed in this way are then fed to a second signal processing unit B, which generates appropriate speech obfuscation signals, thus reducing the speech intelligibility of the listening occupant.
  • These speech obfuscation signals are then output via loudspeakers 4' in the second acoustic zone II.
  • loudspeakers 4' are located, for example, in the headrest 3' of the listening occupant to achieve the most direct and undisturbed reproduction of the speech obfuscation signals possible.
  • a speech obfuscation signal can be adapted to the speech signal of the primary occupant. They may feature a broadband masking signal and/or a distraction signal that activates at individual speech inflections. In this way, acoustic zones can be designed to be so private that unwanted eavesdropping across the boundary of an acoustic zone is significantly hindered.
  • An alternative solution similar to active noise cancellation—reduces the estimated speech signals at the respective listening and microphone locations by actively applying adaptive cancellation signals.
  • this approach can only actively reduce speech signal components up to approximately 1.5 kHz. Because speech intelligibility is primarily dominated by consonants and thus signal components with frequencies above 2 kHz, this approach alone is insufficient and, at best, problematic. Insufficient tuning (e.g., incorrect adjustment to head position) can cause the cancellation signals to carry and even amplify the relevant private information, thereby increasing rather than decreasing speech intelligibility.
  • the proposed approach is less sensitive to the precise head positions of the speaker and the listener and allows for the reduction of speech intelligibility even for higher-frequency speech components such as consonants.
  • Figure 4 This schematically illustrates such a multi-zone approach using a multi-row vehicle as an example, in which six acoustic zones are provided.
  • loudspeakers and microphones are integrated into the passengers' headrests, although the microphones can also be positioned in other locations in front of the respective speakers to optimize speech signal capture. Similar to in Figure 3 In this example, it is assumed that the speaker is sitting behind the unwanted eavesdropper (here, the driver).
  • the speaking occupant's voice signals can be used in the same way to generate masking or concealment signals for occupants other than the driver, and even for multiple unwanted eavesdroppers.
  • the speaker could also be located in a different place within the vehicle than the one described in the example.
  • Figure 4 The example shown illustrates this approach, which can be applied generally to all scenarios where a speaker's speech is captured and the generated speech obfuscation signals can be specifically output to the unwanted eavesdropper(s).
  • the speech signals could be a telephone conversation that the speaker is having with an external person outside the room containing the acoustic zones.
  • the conversation could also be taking place between people in the room, for example, between the person in Figure 4
  • the zone-based audio system must apply the same signal processing to the second speaker as to the speaker shown, so that his speech is also processed.
  • the signal is captured and processed to generate appropriate masking signals for the eavesdropper(s).
  • the two speakers alternate speaking only the current speaker needs to be identified, and the masking signals corresponding to that speaker need to be output. If both speakers speak simultaneously, both masking signals can be output at the same time.
  • a rear-left passenger is conducting a telephone conversation with a person outside the vehicle as the internal speaker.
  • the voice of the external speaker for-end speaker signal
  • the voice of the external speaker can also be captured as the voice to be masked.
  • This voice is then masked or obscured for the driver listening from the front left position.
  • this is only one possible scenario, and the proposed methods can be applied generally to all possible configurations of speaker and listener positions.
  • the signal sig est estimated by digital signal processing A for the speech signal to be masked, provides the basis for the subsequent generation of the masking or obfuscation signal.
  • the speech signal to be masked can be the active internal speaker in the vehicle compartment and/or the external speaker outside.
  • the obfuscation signal can be a broadband masking signal and/or distraction signals. These generated signals ( send to: out LS-Left & LS-Right ) are reproduced via the active headrest at the listening position. In exemplary embodiments, both obfuscation signals are generated, added, and reproduced together to have a stronger effect on the listener and impair their intelligibility.
  • the combination of the two obfuscation signals creates a synergistic effect in reducing speech intelligibility.
  • the continuous broadband masking signal generates background noise, whereby the volume (energy) of the signal can be reduced compared to outputting only a noise signal, thus achieving a less disruptive effect.
  • the intelligibility of these speech segments e.g., consonants
  • the intelligibility of these speech segments is selectively disrupted without significantly increasing the overall energy of the masking signal and causing additional unpleasantness to the listener. It has even been found that the distraction signals are perceived as less unpleasant when presented together with the noise signal.
  • Figure 5 This shows a schematic block diagram for generating a broadband speech-signal-dependent masking system.
  • the input signal is the speech signal to be masked, sig est .
  • the resulting two-channel output signals (out LS-Left & LS-Right) are sent to the active neck support at the listening position, optionally superimposed with distraction signals, and output to the listening person via loudspeakers attached to/in the neck support.
  • the speech signal sig est is transformed into the frequency domain and smoothed both temporally and in the frequency direction.
  • the filter bank can consist of overlapping bands with a triangular frequency response. The center frequencies of the bands are equidistantly distributed across the Mel scale. The lowest frequency band of the filter bank starts at 0 Hz, and the highest frequency band ends at half the sampling rate (fs).
  • a short-term energy value (RMS level or specific loudness response of the individual Mel bands) is calculated for each signal block in section 115 of the block diagram.
  • RMS level or specific loudness response of the individual Mel bands is calculated for each signal block in section 115 of the block diagram.
  • these dynamic loudness profiles in the immediate frequency environment are interchanged (scrambled).
  • the loudness values of the bands are swapped according to the following table, where the assignment of the band "in” is determined by the corresponding position in the row below, "out". For example, the loudness value of band number 2 is assigned to band number 4, and the value of band 4 is assigned to band 5, whose value is assigned to band 3, and so on.
  • the table shown is only one possible example of band swapping, and other implementations are possible.
  • the proposed band swapping technique scrambles the loudness values, creating a degree of disorder in the loudness distribution for a given speech segment. This alters the description of its spectral energy and loudness distribution without changing the overall energy or loudness of the speech segment. For example, a particularly high energy content in one band is shifted to another, or low energy (loudness) in one band is transformed into an adjacent band. It has been shown that redistributing energy to neighboring bands generates a particularly effective broadband noise signal, which reduces the intelligibility of the corresponding speech segment more significantly than without band swapping. By swapping/rotating the sequence of bins in the time-dynamic profiles of the masking bands, the transmission of speech information within the noise signal is avoided.
  • the potentially reversed dynamic loudness curves can be adjusted using the current background spectra (including all interference noise) in section 130 of the block diagram to assess background noise and the environmental situation.
  • the background noise is captured, for example, at the listening position, and the background spectra are determined using frequency transformation and temporal and frequency averaging, similar to the procedure for the speech signal.
  • a microphone positioned at the listening position is used for this purpose.
  • microphones located elsewhere can also be used to capture the background noise at the listening position. Only those bands of the speech signal that lie above the background spectrum need to be considered when generating the masking signal.
  • Speech bands whose energy is below that of the corresponding background noise band can be neglected, as they are irrelevant for speech intelligibility or are already masked by the background noise. This can be achieved, for example, by setting the loudness value of such speech bands to zero. In other words, if a frequency band is already masked by strong background noise, no additional masking signal is generated in that frequency band. This allows the system to determine, based on the situation, which components of the broadband masking noise are used to obscure the speech.
  • the frequency reference points (or a time-domain convolution) of the frequency values thus generated are multiplied point by point with a noise spectrum.
  • a noise generator (not shown), whose noise signal, analogous to the speech signal sig est, undergoes block segmentation 145 and Fourier transformation 150 with identical dimensions.
  • a broadband noise signal is generated as a masking signal with a similar frequency characteristic (apart from the interchange and zeroing of sections 125 and 130) to the speech signal.
  • the masking signal can also be generated in the time domain by convolution of the noise signal with the spectral values of the speech signal processed as described above (see sections 100 to 135), which have been transformed back into the time domain. By switching between the frequency and time domains, different frequency resolutions or time durations can be used in the various processing steps.
  • a broadband noise spectrum adapted to the speech section of the block is generated.
  • Section 160 describes a spatial processing procedure involving point-by-point multiplication of the frequency support points (or convolution in the time domain) with binaural spectra of an acoustic transfer function that corresponds to the source direction of the speaker (or the dominant direction of the energy center of the speech signal to be masked) from the perspective of the listening person.
  • the source direction of the speaker is known from the spatial arrangement of the acoustic zones. In the example in Figure 4 In the example shown, the speaker's source direction is directly behind the listener.
  • multi-channel playback e.g., using two loudspeakers
  • single-channel playback is sufficient, preferably also using two loudspeakers positioned in the headrest of the listener.
  • the broadband masking signal can thus be spatially reproduced and adapted to the target direction of the direct signal or the prominently perceived direction of the speaker. Due to the binaural loudness addition, this results in significantly improved masking with lower level excesses of the masking noise.
  • Section 165 the two spectra resulting from spatial playback (per block) undergo an inverse transformation (IFFT) into the time domain, followed by a superposition of the blocks using the overlap-add method (see Section 170). It is noted that this results in a multi-channel signal for spatial playback, which can be played back, for example, via stereo. If the previous steps have already been performed in the time domain, the inverse transformation and block superposition are, of course, unnecessary.
  • IFFT inverse transformation
  • the resulting time signals are sent to the respective active neck rest of the listener.
  • the masking signals can be summed with the distraction signals before being output via the neck rest's loudspeakers.
  • the signal processing can be performed partially in the frequency domain or in the time domain.
  • the specific values mentioned above are only examples of a possible configuration and can be modified in many ways.
  • a frequency resolution of the FFT transformation with fewer than 1024 points or a division of the Mel filters with more or fewer than 24 filters is possible.
  • the frequency transformation of the noise signal is performed with a different block size and/or FFT configuration than that of the speech signal.
  • the interpolation in Section 135 would have to be adjusted accordingly to generate suitable frequency values.
  • the block-wise calculated masking noises are first transformed back into the time domain after interpolation and then again into the frequency domain to take spatialization into account—possibly with a different spectral resolution.
  • short-duration deflection signals are used instead of masking noise. These signals are adapted, in terms of time and/or frequency, to sections of the speech signal that are particularly relevant for intelligibility. An example of generating such deflection signals is described below.
  • Figure 6 The diagram schematically shows an example of a block diagram for generating speech-signal-dependent distraction signals. The eavesdropper is distracted at signal-dependent, defined times. For this purpose, the critical times (t i,distract ) are determined based on three information parameters in the speech signal: spectral centroid "SC" (corresponding approximately to the pitch), short-term energy "RMS" (corresponding approximately to the loudness), and number of zero crossings "ZCR" (for distinguishing speech signal from background noise).
  • SC spectral centroid
  • RMS short-term energy
  • ZCR number of zero crossings
  • a digital memory contains a series of pre-selected distraction signals (e.g., bird calls, chirping, etc.) with their corresponding parameters (SC and RMS), determined through additional pre-analysis.
  • Suitable distraction signals preferably have the following characteristics: Firstly, they are natural signals familiar to the listener from other situations/daily life and therefore unrelated to the signal and context to be masked. Secondly, they are characterized by being acoustically distinctive signals of short duration and exhibiting a broad spectrum. Other examples of such signals include the sound of dripping water, the lapping of water waves, or brief gusts of wind. Typically, the distraction signals are longer than the relevant speech segments (e.g., consonants) and completely mask them. It is also possible to store distraction signals of varying lengths and select them according to the duration of the current critical moment.
  • a distraction signal is selected and adjusted to the current speech segment in terms of timing and frequency.
  • the adjusted distraction signal can then be reproduced from a virtual spatial position for the listener.
  • BRTF spatialization
  • short impulse responses 256 points
  • Spatial reproduction requires multi-channel playback (e.g., in stereo).
  • the short-term energy (RMS) and zero-crossing rate (ZCR) curves can be further filtered using signal-dependent thresholds, and areas that do not meet these thresholds can be hidden (e.g., set to zero).
  • the thresholds can be chosen, for example, so that a certain percentage of the signal values lie above or below them.
  • an onset detection function is first determined in Section 235. For this purpose, the spectrally and time-averaged spectra are added along the frequency axis. The resulting signal is logarithmically and time-differentiated, with negative values being set to zero. Prior to the logarithm, regularization (e.g., adding a small number at each frequency point) can be performed to avoid zero values.
  • This onset detection function is examined for local maxima, which must be at least a predetermined number of blocks apart.
  • the maxima found in this way can be further filtered using a signal-dependent threshold, so that only particularly pronounced maxima remain.
  • Local maxima of the onset detection function determined in this way are candidates for perception-relevant sections of the speech signal that are to be selectively disturbed by a distraction signal.
  • the maxima determined by the onset detection function in Section 240 are checked for plausibility using a logic unit based on the parameters ZCR, RMS, and SC. Only if these values lie within a defined range are these maxima designated as relevant, critical time points t ⁇ sub>i,distract ⁇ /sub> . This can be achieved, for example, by requiring that the values of RMS, SC, and/or ZCR must meet certain logical conditions at the times of the determined maxima of the onset detection function (e.g., RMS >X1; X2 ⁇ SC ⁇ X3; ZCR > X4 with predefined threshold values for X1 to X4).
  • one of each of the 250 digitally stored distraction signals in a Bouvier of N is randomly selected (using section 245). Additional metadata for these distraction signals is also stored in memory 250: SC and RMS values.
  • the parameters of this frequency transformation can vary. and independent of the above explanation for the speech signal to be masked. Alternatively, the frequency representation of a distraction signal could also be stored directly in the frequency domain.
  • the resulting spectra can be adjusted in Section 265, depending on the signal , by adjusting the SC parameter ratios in the frequency range (e.g., by single-sideband modulation) and/or the RMS parameter ratios in the gain.
  • SC parameter ratios in the frequency range
  • the ratio of the spectral centroids SC of the respective speech signal segment at an onset time t i,distract and the corresponding deflection signal is calculated, and the frequency range of the deflection signal is adjusted so that it matches that of the speech signal as closely as possible.
  • the energy (RMS) of the distraction signal is also adjusted to the energy of the speech signal segment, thus achieving a predetermined energy ratio between the distraction and speech signals. Due to its high effectiveness in reducing speech intelligibility, the distraction signals can be reproduced at a low volume, so that the overall sound pressure level at the seating positions of the listening passengers increases only minimally, thus preventing any increase in passenger annoyance or impairment and maintaining optimal local listening comfort.
  • the resulting modified spectra of the distraction signals are spatially variable at each time point t ⁇ sub>i,distract ⁇ /sub> in Section 270, depending on a random direction selection, by means of a binaural spatial transfer function (BRTF) through pointwise multiplication of the frequency reference points (or convolution in the time domain) of the corresponding spectra.
  • BRTF binaural spatial transfer function
  • a direction is randomly selected for a distraction signal in Section 275.
  • Binaural spatial transfer functions (BRTFs) matching the possible directions are stored in memory 280.
  • the spatialization can be performed in the frequency or time domain. In the time domain, a convolution with the impulse response of a selected outer ear transfer function is performed.
  • the spatialization of the distraction signals is preferably carried out so that the distraction signals are localized as close to and as present as possible at the listener's head, so that they achieve a strong distraction effect.
  • multi-channel (e.g., stereo) playback is required; otherwise, single-channel playback would suffice, preferably using two speakers integrated into the neck support.
  • the convolution results are transformed back into the time domain by an inverse Fourier transform (IFFT) with NFFT 2 points in Section 285.
  • IFFT inverse Fourier transform
  • the back-transformed time blocks are then analyzed in Section 290 using...
  • the overlap-and-add method is used to superimpose the blocks. If the previous steps have already been performed in the time domain, then the inverse transformation and superimposition of the blocks are obviously unnecessary.
  • the resulting time signals are sent to the respective active neck support of the listener.
  • the masking signals can be summed with the deflection signals before output via the neck support speakers.
  • the speech-signal-adapted distraction signal generates randomly spatially distributed excitation/trigger information and obscures the speech target signal improved, without significant permanently acting signal levels.
  • the signal processing can be performed partially in the frequency domain or in the time domain.
  • the specific values mentioned above are only examples of a possible configuration of the frequency transformation and can be modified in many ways.
  • the energy- and frequency-adapted spectra are first transformed back into the time domain and then again into the frequency domain to account for spatialization—possibly with a different spectral resolution.
  • Those skilled in the art will recognize such variations of the inventive procedure for generating speech-signal-dependent deflection signals after studying the present disclosure.
  • both masking signals are summed before output and played back together.
  • the masking noise which is preferably perceived from the direction of the speaker, generates a broadband noise signal adapted to the spectral characteristics of the respective speech segment.
  • Short distraction signals are superimposed on this noise at particularly relevant points (both temporally and frequency-wise). These distraction signals are perceived spatially near the head and lead to a particularly effective reduction in speech intelligibility, even when played back at low volume or energy.
  • the combination with the broadband masking noise makes the brief switching on and off of the distraction signals less noticeable.
  • the overall sound pressure level at the seating positions of the listening passengers increases only minimally, and the annoyance or impairment to the passengers is not increased; local listening comfort is maintained to the greatest extent possible.

Landscapes

  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)

Description

  • Die vorliegende Offenbarung betrifft die Erzeugung eines Maskierungssignals für Sprache in einem zonenbasierten Audiosystem.
  • Moderne Kommunikationsmittel und deren immer weiter gesteigerte Abdeckung ermöglichen eine nahezu überall stattfindende Kommunikation, zum Beispiel in Form von Telefongesprächen. Im öffentlichen Raum können andere Personen oftmals solche Gespräche mithören und ihren Inhalt verstehen. Dies ist insbesondere dann ein Problem, wenn es sich um vertrauliche private oder geschäftliche Gespräche handelt. Ein solches Szenario existiert in öffentlichen Beförderungsmitteln, wie Zug oder Flugzeug, aber auch in privaten Fahrzeugen, wie Taxis oder gemieteten Limousinen. In diesen Fällen befinden sich neben dem Sprecher weitere Personen an festen Plätzen, zum Beispiel an zugewiesenen Sitzplätzen. Oftmals haben derartige Sitzplätze ein zugehöriges Audiosystem oder zumindest Komponenten davon. Zum Beispiel können Lautsprecher zur individuellen Wiedergabe von Audioinhalten in diesen Sitzen vorgesehen sein, beispielsweise in Nackenstützen integriert, was auch als ein zonenbasiertes Audiosystem bezeichnet wird.
  • Neben Telefongesprächen kann das Problem eines unerwünschten Mithörens auch bei Gesprächen zwischen Personen auftreten. Zum Beispiel können sich zwei Passagiere im Fond eines Taxis über ein vertrauliches Thema unterhalten, bei dem das Mithören durch den Fahrer unerwünscht ist.
  • Aus dem Stand der Technik ist bekannt, dass ein unerwünschtes Mithören durch das Zuspielen von lautem Rauschen reduziert werden kann. Dies erhöht jedoch den Geräuschpegel für alle Beteiligten und wird als unangenehme Beeinträchtigung empfunden, die auch die Aufmerksamkeit und das Reaktionsvermögen beeinflussen kann, was besonders im Straßenverkehr unerwünscht ist.
  • Die US 2012/016665 A1 zeigt eine Vorrichtung zur Erzeugung eines Maskierungssignals, worin eine CPU die Sprachäußerungsgeschwindigkeit eines empfangenen Tonsignals analysiert. Die CPU kopiert dann das empfangene Tonsignal in eine Vielzahl von Tonsignalen und führt die folgende Verarbeitung für jedes der Tonsignale durch. Die CPU unterteilt nämlich jedes der Tonsignale auf der Grundlage einer Rahmenlänge, die auf der Grundlage der Sprachäußerungsgeschwindigkeit bestimmt wird, in Rahmen. An jedem der Frames wird ein Umkehrprozess durchgeführt, um eine Wellenform des Frames durch eine umgekehrte Wellenform zu ersetzen, und es wird ein Fensterprozess durchgeführt, um eine reibungslose Verbindung zwischen den Frames zu erreichen. Anschließend ordnet die CPU die Reihenfolge der Frames nach dem Zufallsprinzip neu und mischt die mehreren Tonsignale, um ein maskierendes Tonsignal zu erzeugen.
  • In "Aircraft noise and speech intelligibility in an outdoor living space" wird ein "Partial Loudness Model", das die Lautstärke eines Signals bei Vorhandensein eines Maskierungsschallsignals vorhersagt und dabei die Maskierung über Spektralbänder hinweg und die Auswirkungen der zeitlichen Maskierung von zeitlich variierendem Rauschen berücksichtigt.
  • Das vorliegende Dokument befasst sich mit der technischen Aufgabe, in einem zonenbasierten Audiosystem ein Maskierungssignal zu generieren, das ein unerwünschtes Mithören eines Gesprächs reduziert und gleichzeitig keine unangenehme Beeinträchtigung darstellt.
  • Die Aufgabe wird durch die Merkmale der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen werden in den abhängigen Ansprüchen beschrieben.
  • Die Erfindung ist im beigefügten Anspruchssatz beschrieben.
  • Gemäß einem ersten Aspekt wird ein Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten Audiosystem offenbart. Das Verfahren umfasst das Erfassen eines zu maskierenden Sprachsignals in einer Audiozone, z.B. mittels eines oder mehrerer günstig platzierter Mikrofone, die beispielsweise in einer Nackenstütze eines Sitzes angeordnet sein können. Das Sprachsignal kann von dem lokalen Sprecher eines Telefongesprächs stammen oder zu einem Gespräch zwischen anwesenden Personen gehören. Das erfasste Sprachsignal wird dann in spektrale Bänder transformiert, was beispielsweise mittels einer FFT und Mel-Filtern erfolgen kann. Weiter weist das Verfahren das Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern auf, wodurch die spektrale Struktur des Sprachsignals verändert wird, ohne dass dessen gesamter Energiegehalt verändert wird. Sodann erfolgt das Erzeugen eines (möglichst breitbandigen) Rauschsignals basierend auf den vertauschten Spektralwerten. Das erzeugte Rauschsignal weist zwar eine gewisse Ähnlichkeit mit dem Spektrum des Sprachsignals auf, stimmt jedoch nicht vollständig damit überein, da durch die Vertauschung der Bänder die spektrale Struktur des Sprachsignals nicht mehr vollständig erhalten ist. Ein solches Rauschsignal mit einem ähnlichen aber doch nicht gleichen Spektrum wie das Sprachsignal eignet sich gut als Maskierungssignal für das Sprachsignal. Es sei noch angemerkt, dass eine beliebige Anzahl von Bändern vertauscht werden kann (z.B. auch alle), wobei durch vermehrte Vertauschung von Bändern mehr Variation im Rauschspektrum entsteht. Schließlich wird das Rauschsignal als Maskierungssignal unter möglichst geringer Energieeinbringung in einer anderen Audiozone ausgegeben, um einer sich dort am Mithörort befindlichen Person das Mithören des Gesprächs zu erschweren, indem die Sprachverständlichkeit für diese Person reduziert wird.
  • Das Erzeugen eines Rauschsignals basierend auf den vertauschten Spektralwerten kann das Erzeugen eines breitbandigen Rauschsignals, z.B. durch einen Rauschgenerator, und das Transformieren des erzeugten Rauschsignals in den Frequenzbereich aufweisen. Weiter kann das Multiplizieren der Frequenzdarstellung des Rauschsignals mit einer Frequenzdarstellung des Sprachsignals unter Berücksichtigung der vertauschten Spektralwerte erfolgen. Durch die Multiplikation im Frequenzbereich wird ein Rauschspektrum erzeugt, das im Wesentlichen dem des Sprachsignals nach dem Vertauschen der spektralen Bänder entspricht, also ähnlich, aber doch nicht gleich zu dem Sprachspektrum ist. Ein ähnlicher Effekt kann auch durch eine Faltung im Zeitbereich erzielt werden.
  • Die Frequenzdarstellung des Sprachsignals kann durch eine Interpolation der Spektralwerte der Bänder (beispielsweise vorliegend im Mel-Bereich) nach dem Vertauschen der Spektralwerte erzeugt werden. Durch die Interpolation werden aus den (relativ wenigen) spektralen Werten der Bänder die erforderlichen Werte an den Frequenzstützwerten für die Multiplikation mit dem Rauschspektrum erzeugt.
  • Das Verfahren kann weiterhin ein Schätzen eines Hintergrundrauschspektrums (vorzugweise am Mithörort) und das Vergleichen von Spektralwerten des Sprachsignals mit dem Hintergrundrauschspektrum aufweisen. Das Vergleichen der Spektralwerte erfolgt vorzugsweise (aber nicht zwingend) in dem Bereich der spektralen Bänder (z.B. Mel-Bänder), was zur Folge hat, dass auch das Hintergrundrauschspektrum in den spektralen Bändern dargestellt werden muss. Weiterhin können nur Spektralwerte des Sprachsignals, die größer als die entsprechenden Spektralwerte des Hintergrundrauschspektrums sind (oder in einem vorbestimmten Verhältnis dazu stehen), für das weitere Vorgehen (z.B. die oben genannte Interpolation) berücksichtigt werden. Spektrale Anteile des Sprachsignals, die bereits von dem Hintergrundrauschen verdeckt werden, brauchen für die Generierung des Maskierungssignals nicht berücksichtigt werden und können ausgeblendet werden (z.B. indem sie auf null gesetzt werden). Die Berücksichtigung des Hintergrundrauschens kann sowohl vor als auch nach der Vertauschung von spektralen Werten erfolgen. Im ersteren Fall stimmen die zu vergleichenden spektralen Bänder noch genau überein und das Hintergrundrauschen wird korrekt berücksichtigt. Im letzteren Fall wird durch die Vertauschung von Bändern und das Ausblenden von Bändern mit niedriger Energie im Sprachsignal eine zusätzliche Variation in das Rauschspektrum eingeführt, die zu einer erhöhten Maskierung führen kann. Dies ermöglicht ein an den Hintergrund bzw. die Umgebung angepasstes Maskierungssignal, das unter möglichst geringer Energieeinbringung in der Audiozone des Mithörers ausgegeben werden kann.
  • Die Transformation des erfassten Sprachsignals in spektrale Bänder kann für Blöcke des Sprachsignals und mittels einer Mel-Filterbank erfolgen. Optional ist es möglich, eine zeitliche Glättung der Spektralwerte für die Mel-Bänder, z.B. in Form eines gleitenden Mittelwertes, auszuführen.
  • In einer weiteren Ausgestaltung der Erfindung kann das Rauschsignal bei der Ausgabe mittels einer mehrkanaligen (d.h. zumindest 2-kanaligen) Wiedergabe räumlich dargestellt werden. Hierzu kann eine mehrkanalige Darstellung des Maskierungssignals, die eine räumliche Wiedergabe des Maskierungssignals ermöglicht, erzeugt werden. Für 2-kanalige Systeme kann dies vorzugsweise durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion erfolgen. Durch die räumliche Wiedergabe wird der Effekt des Maskierungssignals zur Verschleierung der Sprache am Mithörort erhöht, insbesondere wenn das Rauschsignal in der anderen Audiozone derart räumlich ausgegeben wird, dass es aus der Richtung des Sprechers des zu maskierenden Sprachsignals zu stammen scheint.
  • Zusätzlich zu dem oben beschriebenen Maskierungssignal, das auf einem breitbandigen, an das Sprachsignal angepassten Rauschsignal basiert, kann noch eine weitere Komponente für das Maskierungssignal erzeugt werden, die zusammen an den Mithörer in der zweiten Audiozone ausgegeben werden. Hierzu kann das Verfahren das Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal (z.B. das Vorliegen von Konsonanten im Sprachsignal) und das Erzeugen eines geeigneten Ablenkungssignals für den bestimmten Zeitpunkt aufweisen. Dann kann das Ausgeben des Ablenkungssignals zu dem bestimmten Zeitpunkt als weiteres Maskierungssignal in der anderen Audiozone erfolgen, wodurch eine punktuelle zusätzliche Verschleierung (Maskierung) des Gesprächsinhalts bei Sprach-Onsets erfolgt. Da das Ablenkungssignal nur an bestimmten relevanten Zeitpunkten ausgegeben wird, erhöht es den Gesamtschallpegel nicht wesentlich und führt zu keiner signifikanten Beeinträchtigung.
  • Der für die Sprachverständlichkeit relevante Zeitpunkt kann anhand von Extremwerten (z.B. lokale Maxima, Onsets) einer spektralen Funktion des Sprachsignals bestimmt werden, wobei die spektrale Funktion basierend auf einer Addition von Spektralwerten über die Frequenzachse bestimmt wird. Die Spektralwerte können zuvor in zeitlicher und/oder in frequenzmäßiger Richtung geglättet werden. Nach der Addition der Spektralwerte über die Frequenzachse können die Summenwerte optional logarithmiert werden. Um lokale Maxima für die Detektion von relevanten Zeitpunkten zu erzeugen, können die (optional logarithmierten) Summenwerte zeitlich differenziert werden.
  • Weiterhin können die für die Sprachverständlichkeit relevanten Zeitpunkte anhand von Parametern des Sprachsignals, wie Nulldurchgangsrate, Kurzzeitenergie und/oder spektraler Schwerpunkt, verifiziert werden. Es ist auch möglich, zeitliche Beschränkungen für Extremwerte zu berücksichtigen, so dass diese zum Beispiel einen vorgegebenen zeitlichen Mindestabstand aufweisen müssen.
  • Das Ablenkungssignal für einen bestimmten Zeitpunkt kann dann zufällig aus einer Menge von vorgegebenen Ablenkungssignalen ausgewählt werden. Diese können in einem Speicher für die Auswahl bereitgehalten werden. Es hat sich als vorteilhaft herausgestellt, wenn das Ablenkungssignal hinsichtlich seiner spektralen Charakteristik und/oder seiner Energie an das Sprachsignal angepasst wird. So kann der spektrale Schwerpunkt des Ablenkungssignals an den spektralen Schwerpunkt des entsprechenden Sprachabschnitts zu dem bestimmten Zeitpunkt angepasst werden, z.B. mittels einer Einseitenbandmodulation. Ein Sprachabschnitt mit einem hohen spektralen Schwerpunkt kann so mit einem Ablenkungssignal mit einem ebenfalls hohen spektralen Schwerpunkt (ggf. sogar mit dem gleichen spektralen Schwerpunkt) maskiert werden, was zu einer höheren Wirksamkeit der Maskierung führt. Auch kann die Energie des Ablenkungssignals an die Energie des Sprachabschnitts angepasst werden, um kein zu lautes und übermäßig störendes Maskierungssignal zu erzeugen.
  • In einer weiteren Ausgestaltung der Erfindung kann das Ablenkungssignal bei der Ausgabe mittels einer mehrkanaligen räumlichen Wiedergabe dargestellt werden, vorzugsweise durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion, wodurch eine mehrkanalige (zumindest 2-kanalige) Darstellung des Ablenkungssignals erzeugt wird, die eine räumliche Wiedergabe des Ablenkungssignals ermöglicht. Durch die räumliche Wiedergabe wird der Effekt des Ablenkungssignals zur Verschleierung der Sprache am Mithörort erhöht, insbesondere, wenn das Ablenkungssignal in der anderen Audiozone derart räumlich ausgegeben wird, dass es aus einer zufälligen Richtung und/oder in Kopfnähe des Hörers in der anderen Audiozone zu stammen scheint. Durch diese Verräumlichung wird die Unterscheidbarkeit von Sprach- und Ablenksignal reduziert bzw. das Mithören des Sprachsignals bedingt durch das Ablenksignal erschwert und die Energie für das Ablenkungssignal kann so verringert werden.
  • Die oben dargestellte Verarbeitung des Sprachsignals und die Erzeugung eines Maskierungssignals werden bevorzugt in der digitalen Domäne durchgeführt. Hierzu sind nicht näher beschriebene Schritte, wie eine Analog-Digital-Wandlung und eine Digital-Analog-Wandlung, erforderlich, die sich für den Fachmann nach dem Studium der vorliegenden Offenbarung jedoch als selbstverständlich ergeben. Weiterhin kann das obige Verfahren ganz oder teilweise mittels einer programmierbaren Vorrichtung realisiert werden, die insbesondere einen digitalen Signalprozessor und erforderliche Analog-/Digital-Wandler aufweist.
  • Gemäß einem weiteren Aspekt der Erfindung wird eine Vorrichtung zur Erzeugung eines Maskierungssignals in einem zonenbasierten Audiosystem, die ein zu maskierendes Sprachsignal empfängt und das Maskierungssignal basierend auf dem Sprachsignal erzeugt, vorgeschlagen. Die Vorrichtung umfasst Mittel zum Transformieren des erfassten Sprachsignals in spektrale Bänder; Mittel zum Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern; und Mittel zum Erzeugen eines Rauschsignals als Maskierungssignal basierend auf den vertauschten Spektralwerten.
  • Die obigen Ausgestaltungen des dort beschriebenen Verfahrens können auch auf diese Vorrichtung angewendet werden. So kann die Vorrichtung weiter aufweisen: Mittel zum Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal; Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt; und Mittel zum Addieren des Rauschsignals und des Ablenkungssignals und zum Ausgeben des Summensignals als Maskierungssignal.
  • In einer weiteren Ausgestaltung der Vorrichtung umfasst diese auch Mittel zum Erzeugen einer mehrkanaligen Darstellung des Maskierungssignals, die eine räumliche Wiedergabe des Maskierungssignals ermöglicht.
  • Gemäß einem weiteren Aspekt der Erfindung ist ein zonenbasiertes Audiosystem mit einer Mehrzahl von Audiozonen offenbart, wobei mindestens eine Audiozone ein Mikrofon zum Erfassen eines Sprachsignals und eine andere Audiozone mindestens einen Lautsprecher aufweist. Mikrofon und Lautsprecher können in Nackenstützen von Sitzen für Insassen eines Fahrzeugs angeordnet sein. Es ist auch möglich, dass beide Audiozonen Mikrofon und Lautsprecher aufweisen. Das Audiosystem weist eine oben dargestellte Vorrichtung zur Erzeugung eines Maskierungssignals auf, die ein Sprachsignal von einem Mikrofon der einen Audiozone erhält und das Maskierungssignal an den oder die Lautsprecher der anderen Audiozone sendet.
  • Ein weiterer Aspekt der vorliegenden Offenbarung betrifft die oben dargestellte Erzeugung eines Ablenkungssignals als Maskierungssignal unabhängig von dem erwähnten Rauschsignal. Ein entsprechendes Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten Audiosystem umfasst: das Erfassen eines zu maskierenden Sprachsignals in einer Audiozone; das Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal; das Erzeugen eines Ablenkungssignals für den bestimmten Zeitpunkt; und das Ausgeben des Ablenkungssignals zum bestimmten Zeitpunkt als Maskierungssignal in der anderen Audiozone. Die möglichen Ausgestaltungen des Verfahrens entsprechen den oben dargestellten Ausgestaltungen in Kombination mit dem erzeugten Rauschsignal.
  • Auch eine entsprechende Vorrichtung zur Erzeugung eines Ablenkungssignals als Maskierungssignals in einem zonenbasierten Audiosystem, die ein zu maskierendes Sprachsignal empfängt und das Maskierungssignal basierend auf dem Sprachsignal erzeugt, ist offenbart. Diese weist Mittel zum Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal; Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt; und Mittel zum Ausgeben des Ablenkungssignals als Maskierungssignal auf. Optional können Mittel zum Erzeugen einer mehrkanaligen Darstellung des Maskierungssignals, die eine räumliche Wiedergabe des Maskierungssignals ermöglichen, vorgesehen sein.
  • Die oben beschriebenen Merkmale können in vielfacher Weise miteinander kombiniert werden, auch wenn eine solche Kombination nicht ausdrücklich erwähnt ist. Insbesondere können für ein Verfahren beschriebene Merkmale auch für eine entsprechende Vorrichtung herangezogen werden und umgekehrt.
  • Im Weiteren werden Ausführungsbeispiele der Erfindung anhand der schematischen Zeichnung näher beschrieben. Dabei zeigen:
    • Fig. 1 schematisch ein Beispiel für ein zonenbasiertes Audiosystem;
    • Fig. 2 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem;
    • Fig. 3 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem mit zwei Zonen;
    • Fig. 4 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem mit mehreren Zonen;
    • Fig. 5 ein Beispiel für ein Blockschaltbild zur Erzeugung eines breitbandigen Maskierungssignals zur Verschleierung von Sprache; und
    • Fig. 6 ein Beispiel für ein Blockschaltbild zur Erzeugung eines Ablenkungssignals zur Verschleierung von Sprache.
  • Die nachfolgend beschriebenen Ausführungsbeispiele sind nicht limitierend und rein illustrativ zu verstehen. Zur Veranschaulichung weisen sie zusätzliche Elemente auf, die für die Erfindung nicht wesentlich sind. Der Schutzbereich soll sich allein durch die beigefügten Ansprüche bestimmen.
  • Die folgenden Ausführungsbeispiele ermöglichen Fahrzeuginsassen an beliebigen Sitzpositionen das Führen von ungestörten privaten Gesprächen, wie Telefonaten mit anderen Personen außerhalb des Fahrzeugs. Hierzu wird ein Audio-Maskierungssignal erzeugt und anderen Fahrzeuginsassen zugespielt, so dass diese in ihrer Wahrnehmung des Gesprächs gestört werden, um das ungewollte Verständnis des privaten Gesprächs zu erschweren und bestenfalls unmöglich zu machen. Auf diese Weise entsteht ein privater Raum für den Sprecher, in dem er ungestört auch private Gespräche führen kann, ohne dass die Gefahr besteht, dass andere Fahrzeuginsassen vertrauliche Information aufnehmen können. Bei dem Gespräch kann es sich beispielsweise um ein Telefongespräch oder um ein Gespräch zwischen Fahrzeuginsassen handeln. Im letzteren Fall gibt es zwei Sprecher, die abwechselnd Sprachsignale abgeben, die andere Insassen möglichst nicht verstehen sollen, wobei selbstverständlich die Sprachverständlichkeit zwischen den beiden Gesprächsteilnehmern nicht beeinträchtigt werden soll.
  • Ähnliche Szenarien liegen ganz allgemein vor, wenn Personen sich in akustischen Zonen bzw. akustischen Umfeldern eines Raums befinden, die jeweils durch getrennte akustische Wiedergabegeräte beschallt werden. Solche akustischen Zonen können beispielsweise in Beförderungsmitteln, wie zum Beispiel Fahrzeugen, Zügen, Bussen, Flugzeugen, Fähren, etc., vorliegen, in denen sich Passagiere an Sitzplätzen aufhalten, die jeweils mit akustischen Wiedergabemitteln versehen sind. Der vorgeschlagene Ansatz zur Erzeugung von privaten akustischen Zonen ist jedoch nicht auf diese Beispiele beschränkt. Er kann ganz allgemein auf solche Situationen angewendet werden, in denen sich Personen an jeweiligen Standorten in einem Raum (z.B. in Theater- oder Kinosesseln) befinden und durch individuelle akustische Wiedergabemittel beschallt werden können und die Möglichkeit besteht, die Sprachsignale eines Sprechers, dessen Sprache von den anderen Personen nicht verstanden werden soll, zu erfassen.
  • In einem Ausführungsbeispiel ist zur Erzeugung von privaten akustischen Zonen an jedem Passagierplatz eines Fahrzeuges oder allgemeiner, eines akustischen Umfeldes, ein zonenbasiertes Audiosystem vorgesehen. Die einzelnen Komponenten des Audiosystems sind miteinander vernetzt und können wechselwirkend Informationen/Signale austauschen. Figur 1 zeigt schematisch ein Beispiel für ein derartiges zonenbasiertes Audiosystem 1. Ein Benutzer bzw. Passagier befindet sich an einem Sitzplatz 2 mit einer Nackenstütze 3, die zwei Lautsprecher 4 und zwei Mikrofone 5 aufweist.
  • Ein derartiges zonenbasiertes Audiosystem verfügt über einen, vorzugsweise über mindestens zwei Lautsprecher 4 für die aktive akustische Wiedergabe von persönlichen und individuellen Audiosignalen, welche durch die benachbarten Zonen nicht bzw. nur geringfügig wahrgenommen werden sollen. Der/die Lautsprecher 4 können dabei in der Nackenstütze 3, dem Sitz 2 selbst oder im Dachhimmel des Fahrzeugs angebracht sein. Die Lautsprecher verfügen über ein hinreichendes akustisches Design und können über eine entsprechende Signalverarbeitung angesteuert werden, um die akustische Beeinflussung von benachbarten Zonen so geringfügig wie möglich realisieren zu können.
  • Des Weiteren verfügt eine derartige Audiozone über eine Möglichkeit, unabhängig von den benachbarten Zonen und den darin aktiv wiedergegebenen Signalen, die Sprache des Insassen der primären akustischen Zone aufzuzeichnen. Dazu können ein oder mehrere Mikrofone 5 im Sitz 2 bzw. der Nackenstütze 3 integriert oder in der direkten akustischen Umgebung der Zone und des Insassen angebracht sein, wie in Figur 2 schematisch dargestellt ist. Bevorzugt sind die Mikrofone 5 so angeordnet, dass sie eine möglichst gute Erfassung der Sprache des telefonierenden Insassen ermöglichen. Kann ein Mikrofon in unmittelbarer Nähe des Mundes des Sprechenden platziert werden (wie das mittlere Mikrofon in Figur 2), so ist im Allgemeinen ein einzelnes Mikrofon ausreichend, um die Audiosignale des Sprechenden mit ausreichender Qualität zu erfassen. Beispielsweise kann das Mikrofon eines Telefon-Headsets zur Aufnahme der Sprachsignale herangezogen werden. Ansonsten sind zwei oder mehr Mikrofone zur Erfassung der Sprache von Vorteil, um diese mittels digitaler Signalverarbeitung besser und vor allem zielgerichteter aufzunehmen, wie nachfolgend erläutert wird.
  • Die Audiozone des Sprechers kann über eine entsprechende Signalverarbeitung verfügen, um die Sprachsignale des primären Insassen möglichst störungsfrei und unbeeinflusst von den benachbarten Zonen und den im Umfeld vorherrschenden Störungen (Wind, Rollgeräusch, Lüftung, etc.) aufzuzeichnen.
  • Das Sprachsignal des telefonierenden Fahrzeuginsassen wird somit an der Sitzposition erfasst (entweder direkt durch ein entsprechend angeordnetes Mikrofon oder indirekt mittels ein oder mehrerer entfernter Mikrofone mit entsprechender Signalverarbeitung) und von etwaigen Störsignalen getrennt, wie zum Beispiel Hintergrundgeräusche.
  • Aus diesem Sprachsignal kann ein Maskierungssignal, im Folgenden auch als Sprachverschleierungssignal bezeichnet, für einen mithörenden Passagier generiert werden. In Ausführungsbeispielen wird ein an die zu verschleiernde Sprache angepasstes breitbandiges Maskierungssignal für diesen Passagier erzeugt. Zusätzlich oder auch alternativ können auch Ablenkungssignale an den einzelnen Spracheinsätzen (Sprach-Onsets) innerhalb der Sprache des primären Sprechers generiert werden. Hierunter sind kurze Störsignale zu verstehen, die an bestimmten, für die Sprachverständlichkeit wichtigen Sprachabschnitten ausgegeben werden und ebenfalls an die zu verschleiernde Sprache angepasst sein können. Diese Ablenkungssignale werden zeitlich überlappend mit den für die Sprachverständlichkeit relevanten Sprachabschnitten ausgegeben, um den Informationsgehalt für den Zuhörer zu reduzieren und die Verständlichkeit der Sprache bzw. deren Interpretation zu beinträchtigen (informationelles maskieren), ohne den gesamten Schallpegel relevant zu erhöhen.
  • Angepasst an die jeweils lokalen akustischen Erfordernisse können diese Verschleierungssignale in einer räumlichen Weise (mehrkanalig) zugespielt werden, so dass eine räumliche Wahrnehmung der Verschleierungssignale entsteht. Auf diese Weise kann ein Mithören an den Sitzpositionen der mithörenden Personen bestmöglich vermieden werden.
  • Mit dem vorgeschlagenen Ansatz wird erreicht, dass der Gesamtschalldruckpegel an den Sitzpositionen der mithörenden Passagiere nur minimal steigt und die Belästigung bzw. Beeinträchtigung (Annoyance) der Passagiere nicht erhöht wird bzw. der lokale Hörkomfort bestmöglich erhalten bleibt, im Gegensatz zu einem Ansatz bei dem einfach ein lautes Störgeräusch zur Überdeckung der Sprache ausgegeben wird (energetische Maskierung).
  • Figur 3 stellt die Funktionalität und den grundlegenden Systemaufbau eines Ausführungsbeispiels für zwei Audiozonen exemplarisch dar. Die Sprachsignale des Insassen der primären akustischen Zone I werden mittels der in der Nackenstütze 3 des Sprechers angeordneten Mikrofone 5 dieser Zone erfasst und einer ersten digitalen Signalverarbeitung A unterzogen, um die Sprachsignale des primären Insassen möglichst störungsfrei und unbeeinflusst von den benachbarten Zonen und den im Umfeld vorherrschenden Störungen (Wind, Rollgeräusch, Lüftung, etc.) aufzuzeichnen. Alternativ kann/können der oder die Mikrofone 5 auch vor dem Sprecher angeordnet sein, wie in Figur 2 dargestellt, zum Beispiel im rückwärtigen Teil der Nackenstütze des vorderen Insassen oder im Dachhimmel, Lenkrad oder Armaturenbrett. Im gezeigten Beispiel befindet sich die mithörende Person im Sitz direkt vor dem Sprecher, dies muss jedoch nicht der Fall sein und die mithörende Person kann sich an einem beliebigen anderen Ort innerhalb des Fahrzeugs befinden.
  • Anschließend werden die auf diese Weise verarbeiteten Sprachsignale einer zweiten Signalverarbeitung B zugeführt, welche passende Sprachverschleierungssignale erzeugt, so dass die Sprachverständlichkeit des mithörenden Insassen reduziert wird. Die Sprachverschleierungssignale werden dann mittels der Lautsprecher 4' in der zweiten akustischen Zone II ausgegeben. Diese sind zum Beispiel in der Nackenstütze 3' des mithörenden Insassen angeordnet, um eine möglichst direkte und ungestörte Wiedergabe der Sprachverschleierungssignale zu erzielen. Wie bereits erwähnt, kann ein Sprachverschleierungssignal ein an das Sprachsignal des primären Insassen angepasstes breitbandiges Maskierungssignal und/oder ein an einzelnen Sprachansätzen einsetzendes Ablenkungssignal aufweisen. Auf diese Weise können akustische Zonen derart privat gestaltet werden, dass ein unerwünschtes Mithören über die Grenze einer akustischen Zone hinweg deutlich erschwert wird.
  • Bei einer alternativen Lösung werden - ähnlich wie bei einer aktiven Rauschunterdrückung - die geschätzten Sprachsignale am jeweiligen Hör- bzw. Mikrofonort durch eine aktive Zuspielung von adaptiven Löschsignalen reduziert. Da die Hörposition in der Praxis jedoch leicht variabel ist und gleichzeitig Hör- und Mikrofonort einige Zentimeter voneinander entfernt sind, können damit nur Sprachsignalanteile bis etwa 1.5 kHz aktiv reduziert werden. Da die Sprachverständlichkeit aber primär durch Konsonanten und damit Signalanteile mit Frequenzen über 2 kHz dominiert wird, ist dieser Ansatz alleine unzureichend bzw. allenfalls auch als kritisch zu bewerten, da bei einer unzureichenden Abstimmung (z.B. falschen Anpassung an die Kopfposition) die Löschsignale genau die relevanten privaten Informationen tragen und diese sogar verstärken können, so dass die Sprachverständlichkeit erhöht statt verringert wird. Im Gegensatz dazu ist der vorgeschlagene Ansatz weniger empfindlich gegenüber den genauen Kopfpositionen des Sprechers und der mithörenden Person und ermöglicht eine Reduzierung der Sprachverständlichkeit auch von höherfrequenten Sprachanteilen wie Konsonanten.
  • Auf Grund der Modularität des vorgeschlagenen Ansatzes sind auch Ausführungsbeispiele mit mehreren Audiozonen, wie beispielsweise im Massentransport (Bahn, Flugzeug, Zug) oder auch anderen Anwendungsfeldern (Entertainment, Kino, etc.) denkbar. Figur 4 stellt einen derartigen Multizonenansatz anhand eines mehrreihigen Fahrzeuges schematisch dar, in dem 6 akustische Zonen vorgesehen sind. Wie zuvor sind Lautsprecher und Mikrofone in die Nackenstützen der Passagiere integriert, wobei die Mikrofone auch in anderen Positionen vor den jeweiligen Sprechern angeordnet sein können, um eine günstige Anordnung zur Erfassung der Sprachsignale aufzuweisen. Ähnlich wie in Figur 3 wird in diesem Beispiel davon ausgegangen, dass der Sprecher hinter dem unerwünschten Mithörer (hier der Fahrer) sitzt. Die Sprachsignale des sprechenden Insassen können jedoch in gleicher Weise zur Erzeugung von Maskierungs- bzw. Verschleierungssignalen für andere Insassen als den Fahrer und auch für mehrere unerwünschte Mithörer herangezogen werden. Selbstverständlich kann sich auch der Sprecher an einem anderen Ort im Fahrzeug befinden als in dem in Figur 4 gezeigten Beispiel. Der hier offenbarte Ansatz kann ganz allgemein auf alle Szenarien angewendet werden, an denen die Sprache eines Sprechers erfasst und erzeugte Sprachverschleierungssignale gezielt an den oder die unerwünschten Mithörer ausgegeben werden können.
  • Wie eingangs erwähnt, kann es sich bei den Sprachsignalen um ein Telefongespräch handeln, das der Sprecher mit einer externen Person außerhalb des Raums führt, in dem sich die akustischen Zonen befinden. Alternativ kann das Gespräch auch zwischen Personen in dem Raum geführt werden, beispielsweise zwischen dem in Figur 4 gezeigten Sprecher und dem Insassen rechts neben ihm. In diesem Fall ist in dem zonenbasierten Audiosystem die gleiche Signalverarbeitung wie für den gezeigten Sprecher auch für den zweiten Sprecher vorzusehen, so dass auch dessen Sprache erfasst und verarbeitet wird, um passende Verschleierungssignale für den oder die Mithörer zu generieren. Bei einem abwechselnden Sprechen der beiden Sprecher muss lediglich der aktuelle Sprecher bestimmt und die diesem Sprecher zugehörigen Verschleierungssignale ausgegeben werden. Sprechen beide Sprecher gleichzeitig, so können auch beide Verschleierungssignale gleichzeitig ausgegeben werden.
  • Im Folgenden werden die erforderlichen Signalverarbeitungsschritte für einen beispielhaften Anwendungsfall beschrieben. In diesem Anwendungsfall führt ein "Hinten-Links"-sitzender Fahrzeugpassagier als interner Sprecher ein Telefonat mit einer Person außerhalb des Fahrzeugs. Zusätzlich zu der Sprache des internen Sprechers kann auch die, beispielsweise vom Lautsprecher der Kopfstütze des internen Sprechers ausgegebene Sprache des externen Sprechers (For End Sprechersignal) als zu verschleiernde Sprache erfasst werden. Diese wird für die Mithörposition "Vorne Links" für den mithören Fahrzeuglenker retuschiert bzw. verschleiert. Selbstverständlich handelt es sich hierbei nur um ein mögliches Szenario und die vorgeschlagenen Verfahren können allgemein für alle möglichen Konfigurationen der Anordnung von Sprecherposition und Mithörposition herangezogen werden.
  • Das mittels der digitalen Signalverarbeitung A geschätzte Signal sigest für das zu verschleiernde Sprachsignal liefert die Basisgröße für die nachfolgende Erzeugung des Maskierungs- bzw. Verschleierungssignals. Bei dem zu verschleiernden Sprachsignal kann es sich um den aktiven internen Sprecher im Fahrzeugraum und/oder um den externen Sprecher außerhalb handeln. Bei dem Verschleierungssignal kann es sich um ein breitbandiges Maskierungssignal und/oder um Ablenkungssignale handeln. Diese generierten Signale (send to: out LS-Left & LS-Right) werden über die aktive Nackenstütze an der Mithörposition wiedergegeben. In Ausführungsbeispielen werden beide Verschleierungssignale erzeugt, addiert und gemeinsam wiedergegeben, um eine verstärkte Wirkung auf den Mithörer zu haben und dessen Verständlichkeit zu beeinträchtigen. Durch die Kombination der beiden Verschleierungssignale entsteht eine synergetische Wirkung dieser Signale bei der Reduzierung der Sprachverständlichkeit. Das andauernde breitbandige Maskierungssignal erzeugt ein Hintergrundrauschen, wobei die Lautstärke (Energie) des Signals im Vergleich zu einer Ausgabe nur eines Rauschsignals reduziert werden kann, so dass eine weniger störende Wirkung erzielt wird. Durch die zeitlich punktuelle Ausgabe der Ablenkungssignale an geeigneten Positionen (Sprach-Onsets) wird zielgerichtet die Sprachverständlichkeit dieser Sprachabschnitte (z.B. für Konsonanten) gestört, ohne dass die Gesamtenergie des Verschleierungssignals signifikant erhöht wird und die Hörer zusätzlich unangenehm beeinträchtigt werden. Es hat sich sogar herausgestellt, dass die Ablenkungssignale als weniger unangenehm empfundenen werden, wenn diese zusammen mit dem Rauschsignal dargeboten werden.
  • Figur 5 zeigt ein schematisches Blockschaltbild für die Generierung einer breitbandigen sprachsignalabhängigen Maskierung. Das Eingangssignal ist das zu verschleiernde Sprachsignal sigest . Die resultierenden zweikanaligen Ausgangssignale (out LS-Left & LS-Right) werden an die aktive Nackenstütze an der Mithörposition geschickt, gegebenenfalls mit Ablenkungssignalen überlagert, und an die mithörende Person mittels an/in der Nackenstütze angebrachter Lautsprecher ausgegeben.
  • Im Folgenden werden die Signalverarbeitungsschritte für die Erzeugung eines breitbandigen Rauschsignals zur Sprachmaskierung gemäß einem Ausführungsbeispiel im Detail beschrieben. Es sei angemerkt, dass nicht alle Schritte immer erforderlich sind und einige Schritte in einer anderen Reihenfolge ausgeführt werden können, wie der Fachmann zu erkennen weiß. Auch können einige Berechnungen gleichwertig im Frequenzbereich oder im Zeitbereich durchgeführt werden.
  • Zunächst wird das Sprachsignal sigest in den Frequenzbereich transformiert und sowohl zeitlich wie auch in Frequenzrichtung geglättet. Hierzu wird zunächst in Abschnitt 100 das Sprachsignal sigest in Blöcke unterteilt (beispielsweise werden 512 Abtastwerte bei einer Abtastrate von fs =44.1kHz in Blöcke mit der Dauer von 11,6 ms und 50% Überlappung angeordnet). Anschließend wird jeder Signalblock in Abschnitt 105 mittels einer Fourier-Transformation mit NFFT1 = 1024 Punkten in den Frequenzbereich transformiert.
  • In einem weiteren Schritt 110 werden die Fourier-Spektren mit einer Mel-Filterbank mit M = 24 Bänder gefiltert -d.h. die Spektren werden durch die Mel-Filterbank spektral komprimiert. Die Filterbank kann aus überlappenden Bändern mit dreiecksförmigem Frequenzgang bestehen. Die Mittenfrequenzen der Bänder sind äquidistant über der Mel-Skala aufgeteilt. Das unterste Frequenzband der Filterbank startet bei 0 Hz und das oberste Frequenzband endet bei der Hälfte der Abtastrate (fs). Für alle Bänder der Filterbank wird in Abschnitt 115 des Blockdiagramms pro Signalblock jeweils ein Kurzzeitenergiewert (RMS-Pegel bzw. spezifische Lautheitsverläufe der einzelnen Mel-Bänder) berechnet. Diese Kurzzeitenergiewerte werden in Abschnitt 120 über MA = 120 Blöcke in Form eines gleitenden Mittelwertes zeitlich gemittelt (Moving Average, 120 Blöcke entsprechen ca. 700 ms).
  • In Ausführungsbeispielen werden in Abschnitt 125 diese dynamischen Lautheitsverläufe in der unmittelbaren Frequenzumgebung vertauscht (Scrambling). Hierzu werden die Lautheitswerte der Bänder gemäß nachfolgender Tabelle vertauscht, wobei sich die Zuordnung des Bandes "in" aus der entsprechenden Position in der darunterliegenden Zeile "out" ergibt. So wird beispielsweise der Lautheitswert von Band Nummer 2 dem Band Nummer 4 zugeordnet und der Wert von Band 4 wird dem Band 5 zugewiesen, dessen Wert wird Band 3 zugeordnet, usw. Hierbei werden Vertauschungen der Lautheitswerte mit benachbarten bzw. übernächsten Bändern erzielt, d.h. der Unterschied zwischen einem Mel-Band und einem vertauschten Band beträgt in diesem Beispiel maximal zwei Mel-Bänder. Selbstverständlich handelt es sich bei der gezeigten Tabelle nur um ein mögliches Beispiel zur Vertauschung von Bändern und andere Realsierungen sind möglich.
  • Mittels der vorgeschlagenen Bandvertauschung werden die Lautheitswerte "verwürfelt" (scrambled), so dass eine gewisse "Unordnung" in der Verteilung der Lautheitswerte für einen zugehörigen Sprachabschnitt entsteht, wodurch die Beschreibung dessen spektraler Energie bzw. dessen Lautheitsverteilung verändert wird, ohne dass die gesamte Energie bzw. Lautheit des Sprachabschnitts geändert wird. Zum Beispiel wird ein besonders ausgeprägter Energiegehalt in einem Band in ein anderes Band verschoben oder eine geringe Energie (Lautheit) in einem Band wird in ein benachbartes Band transformiert. Es hat sich gezeigt, dass durch die Umverteilung der Energie in benachbarte Bänder ein besonders effektives Breitbandrauschsignal erzeugt werden kann, welches die Verständlichkeit des zugehörigen Sprachabschnitts stärker reduziert als ohne Bandvertauschung. Durch die Vertauschung / Verdrehen der Abfolge der Bins der zeitlich dynamischen Verläufe der Maskierungsbänder wird die Übertragung von Sprachinformation in dem Rauschsignal vermieden. Würde man die Sprachenergie in Frequenzbänder (z.B. Mel-Bänder wie oben beschrieben) erfassen und diese zeitlichen Energieverläufe direkt auf ein Rauschsignal, ebenfalls in gleiche Frequenzbänder aufgeteilt, in der Amplitude aufmodulieren, dann würde der Sprachinhalt hörbar - umso verständlicher, wenn schmale Frequenzbänder verwendet werden. Dieser Effekt wird durch die Bandvertauschung der Lautheitswerte deutlich reduziert.
  • Die gegebenenfalls vertauschten dynamischen Lautheitsverläufe können anhand der aktuellen Hintergrundspektren (inkl. aller Störgeräusche) in Abschnitt 130 des Blockdiagramms angepasst werden, um Hintergrundgeräusche und Umgebungssituation zu bewerten. Hierzu wird das Hintergrundgeräusch z.B. an der Mithörposition erfasst und ähnlich wie für das Sprachsignal werden die Hintergrundspektren mittels Frequenztransformation und zeitlicher und frequenzmäßiger Mittelungen bestimmt. Vorzugsweise wird hierfür ein an der Mithörposition angeordnetes Mikrofon verwendet. Alternativ können auch anderenorts (aber möglichst in der Nähe der Mithörposition) angeordnete Mikrofone - verwendet werden, um das Hintergrundgeräusch an der Mithörposition zu erfassen. Nur jene Bänder des Sprachsignals, die über dem Hintergrundspektrum liegen, müssen bei der Erzeugung des Maskierungssignals berücksichtigt werden. Sprachbänder, deren Energie unterhalb der Energie des entsprechenden Hintergrundgeräuschbandes liegen, können vernachlässigt werden, da sie für die Sprachverständlichkeit keine Rolle spielen bzw. bereits vom Hintergrundrauschen verdeckt werden. Dies kann beispielsweise geschehen, in dem der Lautheitswert solcher Sprachbänder auf null gesetzt wird. Mit anderen Worten wird dann, wenn ein Frequenzband bereits durch ein starkes Hintergrundgeräusch maskiert wird, in diesem Frequenzband kein zusätzliches Maskierungssignal erzeugt. So wird situativ entschieden, welche Signalanteile des breitbandigen Maskierungsrauschens zur Verschleierung der Sprache eingespielt werden.
  • In Abschnitt 135 erfolgt eine Interpolation der resultierenden Mithörschwellen (Frequenzachse abgetastet an 24 Frequenzen, die den 24 Mittenfrequenzen der Mel-Filterbank entsprechen) an allen Frequenzstützstellen der Fourier-Transformation. Durch die Interpolation wird für den gesamten Frequenzbereich der Fourier-Transformation wieder ein Spektralwert für das Sprachsignal erzeugt, zum Beispiel 1024 Werte für die oben genannte Fourier-Transformation mit NFFT1 = 1024 Punkten.
  • Schließlich erfolgt in Abschnitt 155 eine punktweise Multiplikation der Frequenzstützstellen (bzw. eine Faltung im Zeitbereich) der so erzeugten Frequenzwerte mit einem Rauschspektrum. Dieses kann durch einen Rauschgenerator (nicht gezeigt) gewonnen werden, dessen Rauschsignal analog zum Sprachsignal sigest durch eine Block-Segmentierung 145 und Fourier-Transformation 150 mit gleichen Dimensionierungen läuft. Auf diese Weise wird ein breitbandiges Rauschsignal als Maskierungssignal mit einer ähnlichen Frequenzcharakteristik (vom Vertauschen und Null-Setzen der Abschnitte 125 und 130 abgesehen) wie das Sprachsignal erzeugt. Alternativ kann das Maskierungssignal auch im Zeitbereich durch Faltung des Rauschsignals mit dem wieder in den Zeitbereich transformierten Spektralwerten des wie oben beschriebenen verarbeiteten Sprachsignals (siehe Abschnitte 100 bis 135) erzeugt werden. Durch einen Wechsel zwischen Frequenz- und Zeitbereich können bei den verschiedenen Verarbeitungsschritten unterschiedliche Frequenzauflösungen bzw. Zeitdauern verwendet werden. Für jeden Block des Sprachsignals wird so ein breitbandiges an den Sprachabschnitt des Blocks angepasstes Rauschspektrum erzeugt.
  • In Ausführungsbeispielen schließt sich in Abschnitt 160 eine räumliche Aufbereitung durch punktweise Multiplikation der Frequenzstützstellen (bzw. Faltung im Zeitbereich s.o.) mit binauralen Spektren einer akustischen Übertragungsfunktion an, die der Quellrichtung des Sprechers (bzw. der dominanten Richtung des Energieschwerpunkts des zu maskierenden Sprachsignals) aus der Sicht der mithörenden Person entspricht. Die Quellrichtung des Sprechers ist aus der räumlichen Anordnung der akustischen Zonen bekannt. In dem in Figur 4 gezeigten Beispiel ist die Quellrichtung des Sprechers direkt hinter der mithörenden Person. In Ausführungsbeispielen mit räumlicher Ausrichtung des Maskierungssignals ist eine mehrkanalige Wiedergabe (z.B. mittels zweier Lautsprecher) erforderlich. Ansonsten ist eine einkanalige Wiedergabe ausreichend, die vorzugsweise auch mittels zwei in der Nackenstütze der mithörenden Person angeordneten Lautsprechern erfolgt.
  • Das Breiband-Maskierungssignal kann so räumlich wiedergegeben werden und auf die Zieleinfallsrichtung des Direktsignals bzw. die prominent wahrgenommene Richtung des Sprechers angepasst werden. Bedingt durch die binaurale Lautheitsaddition erfolgt dadurch eine erheblich verbesserte Verdeckung bei geringeren Pegelüberschüssen des Maskierungsgeräusches.
  • In Abschnitt 165 erfolgt eine Rücktransformation (IFFT) der beiden (bei räumlicher Wiedergabe) resultierenden Spektren (pro Block) in den Zeitbereich und eine Überlagerung der Blöcke nach der Overlap-Add-Methode (siehe Abschnitt 170). Es wird angemerkt, dass für die räumliche Wiedergabe ein mehrkanaliges Signal entsteht, das z.B. durch eine Stereo-Wiedergabe abgespielt werden kann. Falls die vorherigen Schritte bereits im Zeitbereich ausgeführt wurden, so erübrigen sich selbstverständlich die Rücktransformation und die Überlagerung der Blöcke.
  • Die resultierenden Zeitsignale werden zu der jeweiligen aktiven Nackenstütze des Mithörers gesendet. Dort können in Ausführungsbeispielen, in denen auch Ablenkungssignale erzeugt werden, die Maskierungssignale mit den Ablenkungssignalen vor der Ausgabe über die Lautsprecher der Nackenstütze summiert werden.
  • Wie bereits erwähnt, kann die Signalverarbeitung teilweise im Frequenzbereich oder im Zeitbereich ausgeführt werden. Die oben genannten speziellen Werte sind nur Beispiele für eine mögliche Konfiguration und können auf vielerlei Weise verändert werden. So ist eine Frequenzauflösung der FFT-Transformation mit weniger als 1024 Punkten bzw. eine Aufteilung der Mel-Filter mit mehr oder weniger als 24 Filter möglich. Es ist auch möglich, dass die Frequenztransformation des Rauschsignals mit anderer Konfiguration der Blockgröße und/oder der FFT erfolgt als die des Sprachsignals. In diesem Fall wäre die Interpolation in Abschnitt 135 entsprechend anzupassen, um geeignete Frequenzwerte zu erzeugen. In einer weiteren Variation werden die blockweise berechneten Maskierungsgeräusche nach der Interpolation zuerst in den Zeitbereich zurücktransformiert und anschließend noch einmal in den Frequenzbereich gebracht, um dort die Verräumlichung - ggf. mit einer anderen spektralen Auflösung - zu berücksichtigen. Der Fachmann erkennt solche Variationen des erfindungsgemäßen Vorgehens zur Erzeugung eines breitbandigen sprachsignalabhängigen Maskierungssignals nach dem Studium der vorliegenden Offenbarung.
  • In Ausführungsbeispielen werden statt des Maskierungsrauschens Ablenkungssignale mit kurzer zeitlicher Dauer verwendet, die in zeitlicher und/oder frequenzmäßiger Hinsicht an für die Verständlichkeit besonders relevante Abschnitte im Sprachsignal angepasst sind. Im Folgenden wird ein Beispiel für die Erzeugung solcher Ablenkungssignale beschrieben. Figur 6 zeigt schematisch ein Beispiel für ein Blockschaltbild zur Generierung von sprachsignalabhängigen Ablenkungssignalen. Die Ablenkung des Mithörers erfolgt an signalabhängigen definierten Zeitpunkten. Dazu werden die kritischen Zeitpunkte (ti,distract) anhand dreier Informationsparameter im Sprachsignal bestimmt: Spektraler Zentroid "SC" (entspricht etwa der Tonhöhe), Kurzzeitenergie "RMS" (entspricht ungefähr der Lautstärke) und Anzahl der Nulldurchgänge "ZCR" (zur Unterscheidung Sprachsignal / Hintergrundrauschen).
  • In einem digitalen Speicher sind eine Reihe von vorab gewählten Ablenkungssignale (z.B. Vogelrufe, Zirpen, ...) mit dazugehörigen Parametern (SC und RMS), erhoben durch zusätzliche Voranalysen, abgespeichert. Geeignete Ablenkungssignale weisen vorzugsweise folgende Eigenschaften auf: Sie sind zum einen natürlich Signale, welche den Hörer aus anderen Situationen / aus dem täglichen Leben bekannt sind und somit nicht mit dem zu verdeckenden Signal und Kontext in Verbindung stehen. Des Weiteren sind Sie dadurch charakterisiert, dass Sie akustisch markante Signale von kurzer Dauer darstellen und ein möglichst breitbandiges Spektrum aufweisen. Weitere Beispiele für solche Signale sind Wassertropfgeräusche bzw. Wasserwellenschläge oder kurzzeitige Windböen. Üblicherweise sind die Ablenkungssignale länger als die relevanten Sprachabschnitte (z.B. Konsonanten) und überdecken diese vollständig. Es ist auch möglich, Ablenkungssignale unterschiedlicher Länge zu speichern und passend zu der Dauer des aktuellen kritischen Zeitpunkts auszuwählen.
  • Ein Ablenkungssignal wird ausgewählt und an den aktuellen Sprachabschnitt zeitlich und frequenzmäßig angepasst. Das angepasste Ablenkungssignal kann dann aus einer virtuellen räumlichen Position an den Mithörer wiedergegeben werden. Für die Verräumlichung (BRTF) können kurze Impulsantworten (256 Punkte) für die Simulation der Außenohrübertragungsfunktion verwendet werden, damit diese Ablenkungssignale vom Mithörer möglichst nahe und präsent am Kopf lokalisiert werden und so eine starke Ablenkungswirkung erzielen. Für die räumliche Wiedergabe ist eine mehrkanalige (z.B. in Stereo) Wiedergabe erforderlich.
  • Im Folgenden werden die Signalverarbeitungsschritte für die Erzeugung von diskreten, räumlich verteilten, kurzen Ablenkungssignalen gemäß einem Ausführungsbeispiel im Detail beschrieben. Es sei angemerkt, dass nicht alle Schritte immer erforderlich sind und einige Schritte in einer anderen Reihenfolge ausgeführt werden können, wie der Fachmann zu erkennen weiß. Auch können einige Berechnungen gleichwertig im Frequenzbereich oder im Zeitbereich durchgeführt werden. Einige der Verarbeitungsschritte entsprechen denjenigen zur Erzeugung von breitbandigen Maskierungssignalen und müssen deshalb in Ausführungsbeispielen, die beide Signalarten zur Verschleierung von Sprache verwenden, nicht erneut ausgeführt werden.
  • In Abschnitt 200 wird das Sprachsignal sigest in Blöcke (BlockLength = 512 Samples, fs = 44.1kHz) mit der Dauer von 11.6 ms und 50% Überlappung (HopSize = 256) unterteilt (vgl. Abschnitt 100).
  • Aus diesen Blöcken XBuffern(m), mit n = Blockindex und m = Zeitsample, wird in Abschnitt 205 die Anzahl der Nulldurchgänge (zero-crossing-rate, ZCR) pro Signalblock ermittelt. Dies kann mittels folgender Formel erfolgen: ZCR n = 0.5 m = 1 m BlockLength 1 sgn XBuffer n m + 1 sgn XBuffer n m
  • In Abschnitt 210 wird jeder Signalblock einer Fourier-Transformation mit NFFT2 = 1024 Punkte (vgl. Abschnitt 105) unterzogen.
  • Aus diesen Spektren S(k,n) mit k = Frequenzindex und n = Blockindex werden in den Abschnitten 215 und 220 zwei weitere Parameter berechnet: die Kurzzeitenergie (RMS) und der Spektrale Schwerpunkt (Spectral Centroid, SC): RMS n = k S k n 2 SC n = k = 1 NFFT 2 + 1 2 k S k n k = 1 NFFT 2 + 1 2 S k n
  • Die Verläufe der Kurzzeitenergie RMS und der Nulldurchgangsrate ZCR können weiterhin mittels signalabhängiger Schwellwerte gefiltert und Bereiche, die diesen Schwellwerten nicht genügen, ausgeblendet werden (z.B. auf null gesetzt). Die Schwellwerte können zum Beispiel so gewählt werden, dass ein bestimmter Prozentsatz der Signalwerte darüber oder darunter liegen.
  • Jedes Spektrum wird in Abschnitt 225 mit einem rekursiven zeitdiskreten Filter 1. Ordnung: H(z) = Bs(z)/As(z), wobei Bs = 0.3 und As(z) = 1 - (Bs-1)*z-1 in beide Richtungen spektral geglättet (= akausales, null-phasiges Filter 2. Ordnung).
  • Die resultierenden Spektren werden in Abschnitt 230 mit einem rekursiven zeitdiskreten Filter 1. Ordnung: H(z) = Bt(z)/At(z), wobei Bt = 0.3 und At(z) = 1 - (Bs-1)*z-1 zeitlich geglättet.
  • Für die Detektion von für die Sprachverständlichkeit relevanten Abschnitten (Onsets) des Sprachsignals (Onset-Detektion) wird in Abschnitt 235 zuerst eine Onset-Detektionsfunktion ermittelt. Dazu werden die spektral und zeitlich gemittelten Spektren über die Frequenzachse addiert. Das resultierende Signal wird logarithmiert und zeitlich differenziert, wobei negative Werte Null gesetzt werden. Vor der Logarithmierung kann eine Regularisierung (z.B. die Addition einer kleinen Zahl an allen Frequenzstützstellen) stattfinden, um Nullwerte zu vermeiden.
  • Diese Onset-Detektionsfunktion wird nach lokalen Maxima untersucht, wobei diese mindestens eine vorgegebene Anzahl von Blöcken voneinander entfernt sein müssen. Die so gefundenen Maxima können weiter mittels eines signalabhängigen Schwellwerts gefiltert werden, so dass nur besonders ausgeprägte Maxima verbleiben Derart bestimmte lokale Maxima der Onset-Detektionsfunktion sind Kandidaten für wahrnehmungs-relevante Abschnitte des Sprachsignals, die selektiv mittels Ablenkungssignal gestört werden sollen.
  • In Ausführungsbeispielen werden die so ermittelten Maxima der Onset-Detektionsfunktion in Abschnitt 240 über eine Logikeinheit auf Plausibilität anhand der Parameter: ZCR, RMS und SC überprüft. Nur wenn diese Werte in einem definierten Bereich liegen, werden diese Maxima als relevante, kritische Zeitpunkte ti,distract festgelegt. Dies kann beispielsweise dadurch erfolgen, dass zu den Zeiten von ermittelten Maxima der Onset-Detektionsfunktion die Werte von RMS, SC und/oder ZCR bestimmte logische Bedingungen erfüllen müssen (z.B. RMS>X1; X2<SC<X3; ZCR>X4 mit X1 bis X4 vorgegebenen Schwellwerten). In Ausführungsbeispielen werden zum Beispiel nur solche Maxima berücksichtigt, die in Zeitabschnitten liegen, die den oben genannten Filterbedingungen für RMS und ZCR genügen (d.h. nicht in ausgeblendeten Bereichen liegen). Die Bedingung, dass ZCR und RMS gleichzeitig bestimmte Schwellwertbedingungen erfüllen müssen, kann auch dazu genutzt werden, den Verlauf von SC zu filtern, indem die Werte von SC bei Erfüllung der Schwellwertbedingungen beibehalten werden und dazwischenliegende Werte interpoliert bzw. extrapoliert werden, wodurch die Funktion SCint entsteht.
  • An den ermittelten Zeitpunkten ti,distract werden aus einem Bouvier von N in einem Speicher 250 digital abgelegten Ablenkungssignalen je eines zufällig ausgewählt (mittels Abschnitt 245). Zu diesen Ablenkungssignalen finden sich im Speicher 250 zusätzliche Metadaten: SC und RMS-Werte.
  • Das ausgewählte Ablenkungssignal wird in Abschnitt 255 in Blöcke unterteilt (vgl. oben mit BlockLength2 und Hopsize = BlockLength2 bzw. Overlap = 0) und anschließend in Abschnitt 260 mit NFFT2 Punkte Fourier-Transformiert. Die Parameter dieser Frequenztransformation können unterschiedlich und unabhängig von der obigen Ausführung für das zu maskierende Sprachsignal sein. Alternativ könnte die Frequenzdarstellung eines Ablenkungssignals auch direkt im Frequenzbereich abgelegt werden.
  • Die resultierenden Spektren können in Abschnitt 265 signalabhängig von sigest zum jeweiligen Zeitpunkt ti,distract anhand der SC Parameterverhältnisse in der Frequenzlage (z.B. durch Einseitenbandmodulation) und/oder anhand der RMS Parameterverhältnisse in der Verstärkung angepasst werden. Hierzu wird das Verhältnis der spektralen Schwerpunkte SC des jeweiligen Sprachsignalabschnitts an einem Onset-Zeitpunkt ti,distract und des zugehörigen Ablenkungssignals gebildet und die Frequenzlage des Ablenkungssignals wird so angepasst, dass sie mit der des Sprachsignals möglichst übereinstimmt. Dies kann dadurch erfolgen, dass der Wert der Funktion SCint des interpolierten spektralen Schwerpunkts an einem Onset-Zeitpunkt SCint(ti,distract ) mit dem SC-Wert des ausgewählten Ablenkungssignals verglichen und ein Verstimmungsparameter bestimmt wird, wobei positive Werte des Verstimmungsparameter ein Anheben in der Tonhöhe des Ablenkungssignals mittels Einseitenbandmodulation bedeuten und negative Werte zu einer Absenkung der Tonhöhe führen.
  • Auch die Energie (RMS) des Ablenkungssignals wird an die Energie des Sprachsignalabschnitts angepasst, so dass ein vorbestimmtes Energieverhältnis für das Ablenkungssignal zu Sprachsignal erzielt wird. Aufgrund der hohen Wirksamkeit bei der Reduzierung der Sprachverständlichkeit können die Ablenkungssignale mit einer geringen Lautstärke wiedergegeben werden, so dass der Gesamtschalldruckpegel an den Sitzpositionen der mithörenden Passagiere nur minimal steigt und die Belästigung bzw. Beeinträchtigung der Passagiere nicht erhöht wird bzw. der lokale Hörkomfort bestmöglich erhalten bleibt.
  • In Ausführungsbeispielen werden die resultierenden modifizierten Spektren der Ablenkungssignale abhängig von einer zufälligen Richtungsauswahl je ti,distract Zeitpunkt in Abschnitt 270 räumlich variabel durch eine binaurale Raum-Übertragungsfunktion (BRTF) mittels punktweiser Multiplikation der Frequenzstützstellen (bzw. Faltung im Zeitbereich) der entsprechenden Spektren abgebildet. Hierzu wird in Abschnitt 275 für ein Ablenkungssignal zufällig eine Richtung ausgewählt. Im Speicher 280 befinden sich zu den möglichen Richtungen passende binaurale Raum-Übertragungsfunktionen (BRTF). Wie bereits oben für das Maskierungsrauschen ausgeführt, kann die Verräumlichung im Frequenz- oder Zeitbereich ausgeführt werden. Im Zeitbereich wird hierzu eine Faltung mit der Impulsantwort einer ausgewählten Außenohrübertragungsfunktion durchgeführt. Die Verräumlichung der Ablenkungssignale erfolgt vorzugsmäßig so dass die Ablenkungssignale vom Mithörer möglichst nahe und präsent am Kopf lokalisiert werden, damit diese eine starke Ablenkungswirkung erzielen. Für die räumliche Wiedergabe ist eine mehrkanalige (z.B. in Stereo) Wiedergabe erforderlich, ansonsten wäre eine einkanalige Wiedergabe ausreichend, die jedoch vorzugsweise auch mittels zwei in der Nackenstütze integrierten Lautsprechern erfolgt.
  • Im Falle einer Verräumlichung des Ablenkungssignals im Frequenzbereich werden in Abschnitt 285 die Faltungsergebnisse durch eine inverse Fourier-Transformation (IFFT) mit NFFT2 Punkte zurück in den Zeitbereich transformiert. Die rücktransformierten Zeitblöcke werden in Abschnitt 290 mit Hilfe der Overlap-and-Add Methode miteinander überlagert. Falls die vorherigen Schritte bereits im Zeitbereich ausgeführt wurden, so erübrigt sich selbstverständlich die Rücktransformation und die Überlagerung der Blöcke.
  • Die resultierenden Zeitsignale werden zu der jeweiligen aktiven Nackenstütze des Mithörers gesendet. Dort können in Ausführungsbeispielen, in denen auch Maskierungsrauschsignale erzeugt werden, die Maskierungssignale mit den Ablenkungssignalen vor der Ausgabe über die Lautsprecher der Nackenstütze summiert werden.
  • Das sprachsignalangepasste Ablenkungssignal erzeugt zufällig räumlich verteilte Anreger / Trigger-Informationen und verschleiert das Sprach-Zielsignal verbessert, ohne erhebliche permanent einwirkende Signalpegel.
  • Wie bereits erwähnt, kann die Signalverarbeitung teilweise im Frequenzbereich oder im Zeitbereich ausgeführt werden. Die oben genannten speziellen Werte sind nur Beispiele für eine mögliche Konfiguration der Frequenztransformation und können auf vielerlei Weise verändert werden. In einer möglichen Variation werden die energie- und frequenzmäßig angepassten Spektren (siehe Abschnitt 265) zuerst in den Zeitbereich zurücktransformiert und anschließend noch einmal in den Frequenzbereich gebracht, um dort die Verräumlichung - ggf. mit einer anderen spektralen Auflösung - zu berücksichtigen. Der Fachmann erkennt solche Variationen des erfindungsgemäßen Vorgehens zur Erzeugung von sprachsignalabhängigen Ablenkungssignalen nach dem Studium der vorliegenden Offenbarung.
  • In Ausführungsbeispielen werden beide Verschleierungssignale - breitbandiges Maskierungsrauschen und Ablenkungssignale - vor der Ausgabe summiert und gemeinsam wiedergegeben. Durch das Maskierungsrauschen, das vorzugsweise aus der Richtung des Sprechers wahrgenommen wird, wird ein breitbandiges, an die spektralen Eigenschaften des jeweiligen Sprachabschnitts angepasstes Rauschsignal erzeugt, dem punktuell (in zeitlicher wie frequenzmäßiger Hinsicht) kurze Ablenkungssignale an besonders relevanten Stellen überlagert werden. Diese Ablenkungssignale werden räumlich in Kopfnähe wahrgenommen und führen zu einer besonders wirksamen Reduzierung des Sprachverständlichkeit, selbst wenn sie mit geringer Lautstärke bzw. Energie wiedergegeben werden. Durch die Kombination mit dem breitbandigen Maskierungsrauschen wird das kurzzeitige An- und Ausschalten der Ablenkungssignale jedoch weniger als störend bzw. beeinträchtigend wahrgenommen. Der Gesamtschalldruckpegel an den Sitzpositionen der mithörenden Passagiere steigt nur minimal und die Belästigung bzw. Beeinträchtigung der Passagiere wird nicht erhöht bzw. der lokale Hörkomfort bleibt bestmöglich erhalten.
  • Die obige Beschreibung von Ausführungsbeispielen weist eine Vielzahl von Details auf, die für die durch die Ansprüche definierte Erfindung nicht wesentlich sind. Die Beschreibung der Ausführungsbeispiele dient dem Verständnis der Erfindung und ist rein illustrativ und ohne beschränkende Wirkung auf den Schutzbereich zu verstehen. Der Fachmann erkennt, dass die beschriebenen Elemente und ihre technischen Effekte in unterschiedlicher Weise miteinander kombiniert werden können, so dass weitere durch die Ansprüche abgedeckte Ausführungsbeispiele entstehen können. Weiterhin können die beschriebenen technischen Merkmale in Vorrichtungen und Verfahren, beispielsweise durch programmierbare Vorrichtungen ausgeführt, verwendet werden. Sie können insbesondere durch Hardwareelemente oder durch Software implementiert werden. Bekanntermaßen erfolgt die Implementierung von digitaler Signalverarbeitung bevorzugt durch speziell ausgebildete Signalprozessoren. Die Kommunikation zwischen einzelnen Komponenten der beschriebenen Vorrichtung kann drahtgebunden (z.B. mittels eines Bussystems) oder drahtlos (z.B. mittels Bluetooth oder WiFi) erfolgen. Ein Ausführungsbeispiel nicht Teil der Erfindung betrifft eine computerimplementierte Realisierung und den zugehörigen Programm- oder Maschinencode in Form von Datenträgern oder in einer herunterladbaren Darstellung.

Claims (17)

  1. Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten Audiosystem, aufweisend:
    Erfassen eines zu maskierenden Sprachsignals in einer Audiozone;
    Transformieren des erfassten Sprachsignals in spektrale Bänder;
    Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern;
    Erzeugen eines breitbandigen Rauschsignals basierend auf den vertauschten Spektralwerten;
    Erzeugen eines an das Sprachsignal angepassten Maskierungssignals basierend auf den vertauschten Spektralwerten und dem breitbandigen Rauschsignal; und
    Ausgeben des Maskierungssignals für das Sprachsignal in einer anderen Audiozone.
  2. Verfahren nach Anspruch 1, wobei das Erzeugen eines Maskierungssignals aufweist:
    Transformieren des erzeugten breitbandigen Rauschsignals in den Frequenzbereich; und
    Multiplizieren der Frequenzdarstellung des Rauschsignals mit einer Frequenzdarstellung des Sprachsignals unter Berücksichtigung der vertauschten Spektralwerte.
  3. Verfahren nach Anspruch 2, wobei die Frequenzdarstellung des Sprachsignals durch eine Interpolation der Spektralwerte der Bänder nach dem Vertauschen von Spektralwerten erzeugt wird.
  4. Verfahren nach einem der vorherigen Ansprüche, weiter aufweisend:
    Schätzen eines Hintergrundrauschspektrums;
    Vergleichen von Spektralwerten des Sprachsignals mit dem Hintergrundrauschspektrum; und
    Berücksichtigen nur von Spektralwerten des Sprachsignals, die größer als die entsprechenden Spektralwerte des Hintergrundrauschspektrums sind.
  5. Verfahren nach einem der vorherigen Ansprüche, wobei die Transformation des erfassten Sprachsignals in spektrale Bänder für Blöcke des Sprachsignals und mittels einer Mel-Filterbank erfolgt und optional eine zeitliche Glättung der Spektralwerte für die Mel-Bänder erfolgt.
  6. Verfahren nach einem der vorherigen Ansprüche, wobei das Rauschsignal bei der Ausgabe in der anderen Audiozone mittels einer mehrkanaligen Wiedergabe räumlich dargestellt wird, vorzugsweise durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion.
  7. Verfahren nach Anspruch 6, wobei das Rauschsignal in der anderen Audiozone derart räumlich ausgegeben wird, dass es aus der dominanten Richtung des Sprechers des zu maskierenden Sprachsignals zu stammen scheint.
  8. Verfahren nach einem der vorherigen Ansprüche, weiter aufweisend:
    Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal;
    Erzeugen eines Ablenkungssignals für den bestimmten Zeitpunkt; und
    Ausgeben des Ablenkungssignals zu dem bestimmten Zeitpunkt als weiteres Maskierungssignal in der anderen Audiozone.
  9. Verfahren nach Anspruch 8, wobei der für die Sprachverständlichkeit relevante Zeitpunkt anhand von Extremwerten einer spektralen Funktion des Sprachsignals bestimmt wird, wobei die spektrale Funktion basierend auf einer Addition von, optional gemittelten, Spektralwerten über die Frequenzachse bestimmt wird.
  10. Verfahren nach Anspruch 8 oder 9, wobei der für die Sprachverständlichkeit relevante Zeitpunkt anhand von Parametern des Sprachsignals, wie Nulldurchgangsrate, Kurzzeitenergie und/oder spektraler Schwerpunkt, verifiziert wird.
  11. Verfahren nach einem der Ansprüche 8 bis 10, wobei das Ablenkungssignal für den bestimmten Zeitpunkt zufällig aus einer Menge von vorgegebenen Ablenkungssignalen ausgewählt und hinsichtlich einer spektralen Charakteristik und/oder seiner Energie an das Sprachsignal angepasst wird.
  12. Verfahren nach einem der Ansprüche 8 bis 11, wobei das Ablenkungssignal bei der Ausgabe mittels einer mehrkanaligen Wiedergabe räumlich dargestellt wird, vorzugsweise durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion.
  13. Verfahren nach Anspruch 12, wobei das Ablenkungssignal in der anderen Audiozone derart räumlich ausgegeben wird, dass es aus einer zufälligen Richtung und/oder in Kopfnähe eines Hörers in der anderen Audiozone zu stammen scheint.
  14. Vorrichtung zur Erzeugung eines Maskierungssignals in einem zonenbasierten Audiosystem, die ein zu maskierendes Sprachsignal empfängt und das Maskierungssignal basierend auf dem Sprachsignal erzeugt, aufweisend:
    Mittel zum Transformieren des erfassten Sprachsignals in spektrale Bänder;
    Mittel zum Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern;
    Mittel zum Erzeugen eines breitbandigen Rauschsignals basierend auf den vertauschten Spektralwerten;
    und
    Mittel zum Erzeugen eines an das Sprachsignal angepassten Maskierungssignals basierend auf den vertauschten Spektralwerten und dem breitbandigen Rauschsignal.
  15. Vorrichtung nach Anspruch 14, weiter aufweisend:
    Mittel zum Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal;
    Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt; und
    Mittel zum Addieren des Maskierungssignals und des Ablenkungssignals und zum Ausgeben des Summensignals als Maskierungssignal.
  16. Vorrichtung nach Anspruch 14 oder 15, weiter aufweisend:
    Mittel zum Erzeugen einer mehrkanaligen Darstellung des Maskierungssignals, die eine räumliche Wiedergabe des Maskierungssignals ermöglicht.
  17. Zonenbasiertes Audiosystem mit einer Mehrzahl von Audiozonen, wobei eine Audiozone zumindest ein Mikrofon zum Erfassen eines Sprachsignals und eine andere Audiozone mindestens einen Lautsprecher aufweist, wobei Mikrofon und Lautsprecher bevorzugt in Nackenstützen von Sitzen für Insassen eines Fahrzeugs angeordnet sind, wobei das Audiosystem eine Vorrichtung zur Erzeugung eines Maskierungssignals gemäß den Ansprüchen 14 bis 16 aufweist, die ein Sprachsignal von einem Mikrofon der einen Audiozone erhält und das Maskierungssignal an den oder die Lautsprecher der anderen Audiozone sendet.
EP21203247.8A 2021-10-18 2021-10-18 Audio-maskierung von sprechern Active EP4167228B1 (de)

Priority Applications (8)

Application Number Priority Date Filing Date Title
EP21203247.8A EP4167228B1 (de) 2021-10-18 2021-10-18 Audio-maskierung von sprechern
ES22201974T ES3013982T3 (en) 2021-10-18 2022-10-17 Audio masking of speakers
EP22201974.7A EP4167229B1 (de) 2021-10-18 2022-10-17 Audio-maskierung von sprechern
PCT/EP2022/078926 WO2023066908A1 (de) 2021-10-18 2022-10-18 Audio-maskierung von sprache
US18/702,209 US20250239248A1 (en) 2021-10-18 2022-10-18 Audio masking of language
KR1020247014966A KR20240089343A (ko) 2021-10-18 2022-10-18 음성의 오디오 마스킹
EP22803245.4A EP4420115A1 (de) 2021-10-18 2022-10-18 Audio-maskierung von sprache
JP2024524500A JP2024542967A (ja) 2021-10-18 2022-10-18 発話の音声マスキング

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP21203247.8A EP4167228B1 (de) 2021-10-18 2021-10-18 Audio-maskierung von sprechern

Publications (2)

Publication Number Publication Date
EP4167228A1 EP4167228A1 (de) 2023-04-19
EP4167228B1 true EP4167228B1 (de) 2025-12-10

Family

ID=78500398

Family Applications (2)

Application Number Title Priority Date Filing Date
EP21203247.8A Active EP4167228B1 (de) 2021-10-18 2021-10-18 Audio-maskierung von sprechern
EP22201974.7A Active EP4167229B1 (de) 2021-10-18 2022-10-17 Audio-maskierung von sprechern

Family Applications After (1)

Application Number Title Priority Date Filing Date
EP22201974.7A Active EP4167229B1 (de) 2021-10-18 2022-10-17 Audio-maskierung von sprechern

Country Status (2)

Country Link
EP (2) EP4167228B1 (de)
ES (1) ES3013982T3 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2877991B1 (de) * 2012-07-24 2022-02-23 Koninklijke Philips N.V. Direktionale geräuschmaskierung

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950013553B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 음성신호처리장치
JP4245060B2 (ja) * 2007-03-22 2009-03-25 ヤマハ株式会社 サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
DE102014214052A1 (de) * 2014-07-18 2016-01-21 Bayerische Motoren Werke Aktiengesellschaft Virtuelle Verdeckungsmethoden

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2877991B1 (de) * 2012-07-24 2022-02-23 Koninklijke Philips N.V. Direktionale geräuschmaskierung

Also Published As

Publication number Publication date
ES3013982T3 (en) 2025-04-16
EP4167229A1 (de) 2023-04-19
EP4167229B1 (de) 2025-01-01
EP4167229C0 (de) 2025-01-01
EP4167228A1 (de) 2023-04-19

Similar Documents

Publication Publication Date Title
DE10308414B4 (de) Verfahren zur Steuerung eines Akustiksystems im Fahrzeug
DE102014214052A1 (de) Virtuelle Verdeckungsmethoden
DE102014210105A1 (de) Zonenbasierte Tonwiedergabe in einem Fahrzeug
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
DE102010009888A1 (de) Kommunikationsverbesserung in Fahrzeugen
EP3375204B1 (de) Audiosignalverarbeitung in einem fahrzeug
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
EP4420115A1 (de) Audio-maskierung von sprache
DE112017004568B4 (de) Fahrzeuginternes Privatsphärensystem, Verfahren zum Maskieren von Sprache und Fahrzeug umfassend ein fahrzeuginternes Privatsphärensystem
EP4167228B1 (de) Audio-maskierung von sprechern
DE102014210760B4 (de) Betrieb einer Kommunikationsanlage
DE102015014916A1 (de) Verfahren zur Ausgabe von Audiosignalen
DE102014214053A1 (de) Autogenerative Maskierungssignale
DE102016007873A1 (de) Vorrichtung und Verfahren zur Erzeugung von akustischen Signalen
EP1808853B1 (de) Beschallungsanlage, Beschallungsverfahren und Computerprogramm zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen
EP3403260B1 (de) Verfahren und vorrichtung zur aufbereitung eines verlustbehaftet komprimierten audiosignals
DE102018207530A1 (de) Vorrichtung und Verfahren für Verbesserung der Privatsphäre
CN118140266A (zh) 语音的音频掩蔽
DE102016107799B3 (de) Verfahren zur Verarbeitung eines FM-Stereosignals
EP4460959B1 (de) Verfahren zur steuerung einer kommunikationswiedergabe zwischen einer freisprecheinrichtung in einem kraftwagen und einem nutzer sowie freisprecheinrichtung
WO2007036443A1 (de) Verfahren zur aktiven geräuschverminderung und eine vorrichtung zur durchführung des verfahrens
DE3737873A1 (de) Verfahren und vorrichtung zur verbesserung der sprachverstaendlichkeit bei kommunikationseinrichtungen
WO2007009505A1 (de) Sicherstellung der privatsphäre bei lautsprecherausgaben
DE19823007A1 (de) Verfahren und Einrichtung zum Betrieb einer Telefonanlage, insbesondere in Kraftfahrzeugen
DE102018211129A1 (de) Audioeinrichtung für ein Fahrzeug und Verfahren zum Betrieb einer Audioeinrichtung für ein Fahrzeug

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20231019

RBV Designated contracting states (corrected)

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20240702

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20250605

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: CH

Ref legal event code: F10

Free format text: ST27 STATUS EVENT CODE: U-0-0-F10-F00 (AS PROVIDED BY THE NATIONAL OFFICE)

Effective date: 20251210

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH