EP4134954A1 - Verfahren und vorrichtung zur audiosignalverbesserung - Google Patents

Verfahren und vorrichtung zur audiosignalverbesserung Download PDF

Info

Publication number
EP4134954A1
EP4134954A1 EP21190351.3A EP21190351A EP4134954A1 EP 4134954 A1 EP4134954 A1 EP 4134954A1 EP 21190351 A EP21190351 A EP 21190351A EP 4134954 A1 EP4134954 A1 EP 4134954A1
Authority
EP
European Patent Office
Prior art keywords
audio signal
values
spectral
level
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP21190351.3A
Other languages
English (en)
French (fr)
Other versions
EP4134954C0 (de
EP4134954B1 (de
Inventor
Markus Vieweg
Dr. Bernd Dominik Schäfer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Optimic GmbH
Original Assignee
Optimic GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Optimic GmbH filed Critical Optimic GmbH
Priority to EP21190351.3A priority Critical patent/EP4134954B1/de
Publication of EP4134954A1 publication Critical patent/EP4134954A1/de
Application granted granted Critical
Publication of EP4134954C0 publication Critical patent/EP4134954C0/de
Publication of EP4134954B1 publication Critical patent/EP4134954B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/007Electronic adaptation of audio signals to reverberation of the listening space for PA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Definitions

  • the present invention relates to a method for enhancing an audio signal.
  • the method is preferably carried out in real time, so that it is suitable for essentially simultaneous recording and playback of audio signals.
  • audio signals are often recorded under unfavorable acoustic conditions using microphones.
  • a desired speech signal component is overlaid by unwanted background noise during the recording, which impairs the quality of the audio signal, particularly with regard to speech intelligibility.
  • the audio signal can be reverberated due to the spatial conditions or as a result of a large distance between the speaker and the microphone, so that the speech component of the audio signal is difficult to understand when played back over loudspeakers despite amplification. For this reason, the actual advantage of acoustic amplification of the audio signal is often not sufficient to ensure satisfactory speech signal quality and speech intelligibility.
  • the problems mentioned above are particularly relevant in the field of mobile audio technology used, for example, for trade fairs, because it has to be compatible with a wide variety of acoustic environments and, as a rule, little time is available to optimally adjust the audio processing devices.
  • there is often no way at all to optimize the audio devices for a particular speaker for example with regard to the appropriate distance between the speaker and the microphone.
  • differences between different speakers cause problems. For example, different speakers, who have different voice characteristics (e.g. different speaker volume and frequency composition), in particular due to age and gender differences, cannot be treated with the same audio devices with a constant configuration in such a way that a high voice signal quality is reliably achieved.
  • the object is achieved by a method having the features of claim 1.
  • a method for improving an audio signal has at least the following steps: receiving an audio signal with a plurality of amplitude values, the audio signal having speech at least in sections; detecting speech portions of the audio signal; filtering the audio signal with at least one level filter to reduce signal level variations of the audio signal in the detected speech sections; and/or filtering the audio signal with at least one equalization filter in order to reduce spectral variations of the audio signal in the detected speech sections.
  • time sections of the audio signal are detected which contain speech and can be referred to as speech sections. Based on the detected sections, the audio signal is then processed with a level filter and/or an equalization filter to reduce certain variations in the audio signal.
  • variations can be treated both within an audio signal and between different audio signals.
  • the level filter is used to reduce signal level variations in order to standardize the level of the audio signal. For example, very loud and quiet speech signal components are attenuated or amplified in sections, so that a uniform signal level is established overall. In practice, different signal levels result, for example, from variable distances between a speaker and the recording microphone and from the acoustic properties of the surrounding room. However, the resulting level variations are compensated by the level filter, so that the subjective signal quality improves.
  • an equalization filter is used to reduce spectral variations in the audio signal.
  • spectral variations occur due to different speakers, who impress their own spectral characteristics on the audio signal with their voices.
  • there is a spectral coloring due to the acoustic environment during the recording and possibly due to the sound equipment used, in particular the microphone and its alignment relative to the speaker.
  • the spectral components in certain frequency ranges that are relevant for speech intelligibility are masked as little as possible by other spectral components, if at all possible.
  • the acoustic environmental conditions often lead to the speech-relevant parts being variably superimposed by other signal parts in the same or in neighboring frequency ranges, so that the speech-relevant parts cannot always be perceived equally well.
  • Such changes in the signal can be determined from the spectral variations over time and can therefore be treated by a suitable filter.
  • the equalization filter is used to reduce spectral variations in the detected speech sections. In this way, the audio signal can be standardized in spectral terms in order to increase the signal quality, particularly with regard to good speech intelligibility.
  • the method allows a fully automatic signal improvement to take place.
  • a previous or operational manual setting or readjustment of filter parameters is therefore not necessary, i.e. the parameters of the level and/or equalization filter can be permanently set if the method is carried out as intended or are set automatically by a computing unit.
  • the process ensures excellent signal improvement for a wide variety of audio signals, even in particularly difficult acoustic environments.
  • the method is particularly robust against acoustic variations of any kind and is therefore particularly suitable for professional use in practice.
  • the method can be used in real time, i.e. with a latency of less than 20 ms, preferably less than 10 ms, in particular 6 ms.
  • the filtering of the audio signal does not necessarily have to be restricted to the detected speech sections.
  • an equalization filter can also be effective outside of speech sections with regard to special spectral components that are caused, for example, by feedback.
  • the audio signal is filtered at least in the speech sections because these are particularly important for speech intelligibility.
  • certain aspects of the filtering can be restricted to the speech sections.
  • the method includes a step of determining a plurality of spectral values on the basis of the amplitude values, the amplitude values representing the audio signal in a time domain and the spectral values representing the audio signal in a frequency domain.
  • the detection of the speech sections, the filtering with the at least one level filter and/or the filtering with the at least one equalization filter takes place on the basis of the amplitude values and/or the spectral values.
  • the filtering is thus performed on the basis of two different representations of the audio signal, namely time domain and frequency domain values of the audio signal. The efficiency and reliability of the process is increased in this way.
  • the spectral values can be determined on the basis of the time-domain amplitude values using known frequency-space transforms, such as the Fast Fourier Transform (FFT).
  • FFT Fast Fourier Transform
  • the spectral values are preferably formed by the absolute value of the frequency coefficients (spectral amplitude values), which can be determined particularly efficiently by FFT on the basis of the time domain amplitude values.
  • the advantageous use of the amplitude values and the spectral values thus requires comparatively few computer resources.
  • the detection of the speech sections comprises at least the following steps: determining at least a first energy parameter value on the basis of the amplitude values, the first energy parameter value representing an average energy of a section of the speech signal; determining at least one first spectral parameter value based on spectral values of the audio signal, the at least one first spectral parameter value representing a harmonic spectral structure of the portion; and detecting the segment as a speech segment if the at least one first energy parameter value violates a first energy parameter threshold and/or the at least one spectral parameter value violates a spectral parameter threshold.
  • the detection of speech sections based on time domain and spectral parameters has proven particularly useful to reliably detect both noisy sections (e.g. in consonants) and tonal sections (e.g. in vowels) and by thresholding to distinguish speech sections and noise sections evaluate.
  • the threshold values mentioned can in principle be permanently set. However, the reliability of the detection of speech sections can be improved in a particular way by adapting the first energy parameter threshold value and/or the first spectral parameter threshold value as a function of time. For example, the signal level of the audio signal can be used to set the thresholds to ensure that the thresholds are aligned with the current energy level.
  • the filtering of the audio signal with the at least one level filter comprises at least the following: determining at least one level parameter value on the basis of the amplitude values, the level parameter value representing an average level of the audio signal for a detected speech section; determining at least one compensation weight based on the at least one level parameter value; and weighting the audio signal with the at least one compensation weight to reduce the signal level variations of the audio signal.
  • the at least one level parameter value can generally comprise a plurality of level parameter values which indicate the level for detected speech sections of different lengths.
  • first and second level parameter values can be determined, the first level parameter values representing the mean level of the audio signal with a first time resolution and the second level parameter values representing the mean level of the audio signal with a second time resolution.
  • the first and second time resolution differ from each other.
  • short-term and long-term effects of human auditory perception can be advantageously taken into account.
  • brief level peaks (clipping) can be detected by level parameter values with a short time resolution and used for filtering.
  • moderate level variations which only become perceptible after a minimum duration, can be recorded using level parameter values with greater time resolution.
  • the compensation weight for the level filter is then determined based on the first and second level parameter values.
  • the first level parameter values are preferably formed on the basis of a plurality of consecutive energy averages. These can be smoothed to obtain first loudness values that form the first level parameter values.
  • the second level parameter values are preferably formed by second volume values. These can in turn be formed on the basis of several consecutive energy averages, with a larger number of energy averages being smoothed than the first volume values, so that the second level parameter values indicate the level for a longer period of time than the first level parameter values.
  • the second time resolution is therefore preferably greater than the first time resolution.
  • At least some of the amplitude values are preferably grouped into time segments of the audio signal. Then the loudness values for at least some of the time periods are determined based on the grouped amplitude values, each of the loudness values representing the loudness of one of the time periods of the audio signal.
  • the terms “energy” and “level” each represent an intensity or magnitude of the amplitude values.
  • Level values can therefore basically be viewed as energy values of the audio signal and vice versa, with a different unit for both values being possible but not mandatory (eg the normalized logarithmic unit dB can be provided for the level in contrast to the energy).
  • the term “level” creates a functional reference to the level filter in particular.
  • the term “loudness” represents the intensity of the amplitude values considering the auditory perceptibility.
  • first compensation weights and second compensation weights are determined, the first compensation weights being determined in order to reduce signal level variations with at least one level which is greater than a predetermined level threshold value, the second compensation weights being determined in order to reduce the signal level of the audio signal set to a predetermined value.
  • the audio signal in the detected speech sections is set to a basic level so that moderate volume fluctuations from the listener's point of view can be compensated.
  • the first compensation weights are preferably determined on the basis of the first level parameter values and the second compensation weights are determined on the basis of the second level parameter values. In this way, the filtering can be carried out in a particularly hearing-friendly manner.
  • the filtering with the at least one equalization filter includes a step of determining coarse spectral values on the basis of fine spectral values of the audio signal, the coarse spectral values representing the fine spectral values with a lower spectral resolution than the fine spectral values. Furthermore, first equalization weights are determined, which represent a deviation of the coarse spectral values from predetermined reference spectral values. The audio signal is also weighted with the first equalization weights to bring the spectral values into agreement with the reference spectral values.
  • the fine spectral values are preferably formed by the spectral values mentioned above, which can be efficiently determined in particular by FFT.
  • the spectral resolution of these spectral values with a sampling rate of eg 48 kHz and a block length of 1024 is significantly higher than the resolution that can be resolved by human hearing.
  • the frequency resolution of the coarse spectral values preferably corresponds to the resolution of human hearing, so that on this basis an aurally appropriate equalization is made possible.
  • the reference spectral values used for this purpose represent a reference spectrum for achieving high voice quality from audio signals.
  • the coarse spectral values can be obtained, for example, by octave band filtering of the fine spectral values.
  • the filtering with the at least one equalization filter includes a weighting of the audio signal with second equalization weights, the second equalization weights being predetermined.
  • second equalization weights can be provided which, in contrast to the first equalization weights, are not determined dynamically but are fixed in advance.
  • the second equalization weights can be used to weaken spectral components, for example, which are always a hindrance to high speech quality and can therefore be assigned a negative amplification factor.
  • the method includes filtering the audio signal with at least one compressor in order to reduce a dynamic range of the audio signal.
  • a plurality of different sets of parameters can be provided, which are selected as a function of an amount of the audio signal and are used as a basis for filtering with the at least one compressor.
  • the multiple parameter sets can advantageously differ from one another in terms of a degree of compression.
  • the multiple parameter sets can include a first parameter set to reduce the dynamic range of the audio signal with a first degree of compression, wherein the plurality of parameter sets includes a second parameter set to reduce the dynamic range of the audio signal with a second compression level that is greater than the first compression level.
  • the multiple parameter sets preferably have a third parameter set in order to reduce the dynamic range of the audio signal with a third degree of compression, which is lower than the first degree of compression.
  • the compressor can be thought of as a special level filter because a reduction in dynamic range is accompanied by a reduction in level and level variations.
  • the method also includes the following steps: determining a feedback frequency, which represents a feedback of the audio signal; Filtering the audio signal with a feedback filter on the basis of the determined feedback frequency in order to reduce spectral components of the audio signal that represent feedback.
  • the spectral values already present are preferably used to determine the feedback frequency, so that they do not have to be determined again for this purpose.
  • Feedback occurs when reproduced signal components are recorded again by the microphone and amplified, resulting in an unstable system state that is acoustically perceptible as a strong resonance, eg as a hum or a shrill whistling sound.
  • the feedback filter counteracts such coupling effects so that the signal quality is not affected.
  • the feedback filter can be viewed as a special equalization filter.
  • Determining the feedback frequency preferably comprises the following steps: determining a subset of spectral values of the audio signal that violate a predetermined spectral threshold value; determining a plurality of second spectral parameter values on the basis of the subset, each of the second spectral parameter values representing a predetermined relation between an associated spectral value of the subset and at least one temporally and/or spectrally adjacent spectral value; and determining the feedback frequency based on the plurality of second spectral parameter values.
  • the computing effort for determining the feedback frequency can be greatly reduced by the threshold-based preselection of spectral values, so that the real-time capability of the method is enhanced.
  • a predetermined relation between spectral values can be formed, in particular, by mathematically linking the spectral values, e.g. by using mathematical operators such as division or addition. In this way, certain properties of the spectrum that are typical of a feedback frequency can be efficiently detected.
  • the step-by-step reduction of the feedback filter preferably takes place according to the scheme of a finite automaton.
  • a pause filter is provided for filtering the audio signal in order to reduce the audio signal in areas outside of the detected speech sections. In this way, e.g. temporal masking effects caused by background noise can be weakened.
  • the audio signal can be filtered with a noise filter in order to reduce the audio signal in areas with amplitude values that violate a predetermined noise threshold value.
  • a noise filter is preferably used.
  • the audio signal is filtered with a bandpass filter.
  • a lower limit frequency of the bandpass filter is preferably in a range from 50 to 100 Hz.
  • An upper limit frequency of the bandpass filter is preferably in a range from 8000 to 10000 Hz.
  • the method aspects described above can be stored as commands in a non-volatile memory. If the instructions are executed by an arithmetic unit, the arithmetic unit is prompted by the instructions to execute the method described according to one embodiment. In general, the method can thus be partially or fully implemented by a computer.
  • the object of the invention is achieved by a device having the features of the independent device claim.
  • a device for improving an audio signal that has speech comprises, on the one hand, at least one input interface for detecting an audio signal.
  • the input interface can in particular have a connection for a microphone in order to record the audio signal.
  • at least one output interface is provided for outputting the audio signal.
  • the output interface can have a connection for an audio playback device, e.g. a public address system with one or more sound transducers.
  • the device also has a computing unit for executing a method for improving the audio signal. In particular, the method can be designed according to one of the preceding embodiments.
  • the device is preferably designed as a compact audio device, so that it is particularly suitable for mobile use.
  • the device preferably has a non-volatile memory in which commands for executing the method are stored.
  • the memory can be coupled to the processing unit.
  • the computing unit preferably includes an analog-to-digital converter and a digital-to-analog converter.
  • the enhancement of the audio signal can thus be based at least in part on a digital version of the audio signal.
  • the method can thus be carried out particularly efficiently on the one hand. On the other hand, a high filtering quality can be guaranteed.
  • the input or output interface can be implemented as a wired interface in order to ensure compatibility with other professional audio devices and to minimize transmission losses.
  • Interfaces each train wirelessly, the interfaces for this can also be combined to form a common wireless interface.
  • the device also includes a preamplifier for the audio signal, which can be coupled to the input interface.
  • a preamplifier for the audio signal can be coupled to the input interface.
  • the audio signal can advantageously be amplified to a predetermined level range before sampling.
  • a plurality of predetermined amplification values can be provided for the preamplifier, with one of the amplification values preferably being selected automatically or by an operator of the device and the amplification being used as a basis.
  • the device preferably has an electrical supply for the input interface. This enables electrical supply of a connected sound transducer, e.g. a microphone, via the input interface in the sense of a so-called phantom power supply.
  • a connected sound transducer e.g. a microphone
  • the device also has a switching device which can be coupled to the input interface, the output interface and/or the computing unit in order to connect the input interface optionally via the computing unit to the to connect output interface.
  • the computing unit can be bypassed. In this way, an output of the audio signal can also be guaranteed in the event of a malfunction of the computing unit.
  • the device is preferably provided with a cooling device. All components of the device, including the processing unit, can thus be accommodated in a compact housing, with e.g.
  • the computing unit can advantageously have a single-board computer, so that the device can be made particularly compact overall.
  • the device can also have a housing, in which in particular all electrical components of the device can be accommodated in order to be protected from external influences in this way.
  • the computing unit can have one or more processors and a memory in which instructions for executing the method can be stored.
  • the device preferably has at least one external communication interface.
  • the device can be equipped with a network interface, eg an Ethernet interface, or a bus interface to be connected via a network or directly to a user terminal, for example a PC or a mobile terminal such as a laptop.
  • a connection to wireless end devices can also be established via the Internet in order to be able to connect to a central server (cloud). to allow.
  • the control interface can also be in the form of a wireless interface, so that the device can be connected directly to a mobile end device (eg via Bluetooth or a local wireless network). Communication with the device, for example for the purpose of configuration, can thus take place particularly conveniently.
  • control data for example filter parameters for executing the described method for improving an audio signal
  • the communication interface can be designed to transmit the audio signal to a mobile terminal device or a central server.
  • the audio signal can be stored in the end device or in a cloud, for example for documentation purposes.
  • the communication interface is preferably designed as an Ethernet interface, which also enables transmission of audio signals (eg using Dante, Milan, AES (Advanced Encryption Standard).
  • a firmware of the device can be updated via a communication interface of the device.
  • a communication interface is preferably provided in the form of a separate bus interface, which is used in particular to connect a storage medium, for example a mass storage device in the form of a USB stick or the like.
  • configuration and/or update data can be stored on the storage medium, which are transmitted to the device in order to update the locally stored data.
  • the audio signal can be output to the storage medium for recording purposes and stored in the storage medium.
  • the device is preferably provided with a Control interface equipped to control the recording of the audio signal directly on the device.
  • the disclosure further relates to a method for selectively enhancing a first audio signal using an audio processing means, wherein the first audio signal has at least portions of speech and the method comprises at least the following steps: determining whether the audio processing means has a predetermined health status; If the audio processing means has the predetermined fitness state, performing a method of enhancing the first audio signal using the audio processing means to provide a second audio signal; If the audio processing means does not have the predetermined health status, providing the first audio signal.
  • the method thus enables the audio processing means to be used selectively depending on its health status. Malfunctions of the audio processing means therefore do not lead to no audio signal being output and user satisfaction being impaired.
  • the method can be implemented in particular by a switching device, which can be implemented in a device, for example as a switchable relay.
  • the switching functionality can also be implemented by the computing unit itself.
  • a separate switching device has the advantage of protection against a complete failure of the processing unit, in which no transmission of the signal can take place.
  • the methods disclosed herein can preferably be carried out with the device described. However, it is also possible to carry out the method in whole or in part on any computer, in particular a central server.
  • the audio signal can be captured locally and transmitted to a server where signal enhancement is performed.
  • the enhanced signal can then be sent to a local receiver for playback with a sound transducer.
  • An analog audio signal is captured with a microphone (not shown) (step 10), the audio signal having a plurality of speech sections and a plurality of noise sections.
  • the speech sections have speech and form a speech signal component.
  • the noise sections are formed by all other sections that do not have speech, especially in pauses in speaking.
  • the audio signal is pre-amplified, ie electronically amplified as an analog signal with an amplification factor.
  • a preamplifier in 1 not shown, a fixed gain can be set.
  • a user can select one of a number of preset gain values as a function of a recording-related basic level in order to relieve a subsequent level filter for reducing level variations.
  • the pre-amplified audio signal is converted in step 14 from an analogue signal to a digital signal. This is preferably done using an analog-to-digital converter which samples the analog signal at a predetermined sampling rate, e.g., 48,000 Hz. Alternatively, step 14 can also take place after step 16, which is explained below.
  • the audio signal is processed with a level filter in step 16 in order to compensate for variations in the signal level.
  • the level filter is operated as a function of first filter data 44, which is based on of the audio signal at the output of the level filter can be determined in step 18. They include first volume values, detected speech sections and detected level peaks. Level peaks are detected signal levels that are greater than a predetermined level threshold value, in which the signal overdrives (clipping).
  • the volume values are determined for individual blocks of the audio signal, which preferably each have a length of 64 sample values.
  • a first loudness value is determined by summing the squared sample values of the block and then taking the square root of the sum. So-called RMS values (Root Mean Square) are formed in this way, each of which represents an average energy of the underlying block of sampled values.
  • the RMS values of several blocks are preferably used for the level filter.
  • the RMS values of the current block and the previous block are evaluated together, with a level peak being detected if at least one of the two RMS values exceeds a predetermined threshold value, for example ⁇ 3 dB. If a level peak is detected, this information is taken into account as part of the first filter data 44 in step 16 .
  • the gain of the level filter is reduced sharply and rapidly in step 16, for example at a rate of -3 dB within 200 ms. This effectively removes level peaks.
  • Level peaks are preferably filtered regardless of whether the relevant section of the audio signal is a speech section or not.
  • the level filter of step 16 is further configured to adjust the level of the audio signal to a predetermined value.
  • the RMS values of the current block and a large number of several previous blocks, for example 30 previous blocks, are used.
  • the RMS values are smoothed across the blocks considered, removing short-term fluctuations that are irrelevant to human perception (except for the level peaks, which are treated separately).
  • the median of the RMS values under consideration is preferably formed for smoothing in order to obtain second volume values which indicate the current signal level in an aurally correct manner.
  • a compensation weight is then determined, which represents the difference between a predetermined reference value and the current second volume value. For example, the current volume value can be subtracted from a reference volume of -20 dB to form a compensation weight.
  • the compensation weight is then weighted, e.g. multiplied, with the audio signal to bring the loudness in line with the reference loudness.
  • the maximum change in the compensation weight over time is preferably limited, for example to 5 dB per second. This avoids unnatural fluctuations in the volume of the audio signal.
  • the adjustment of the signal level with reference to the reference volume is preferably only carried out in those sections of the audio signal which have been detected as speech sections.
  • the information as to which sections have been detected as speech sections is made known to the level filter of step 16 as part of the filter data 44 .
  • the detection of speech segments takes place in step 18 and is explained below with reference to 2 explained.
  • Speech sections are detected on the basis of amplitude values 54 and spectral values 56, with the amplitude values 54 representing the audio signal in the time domain and the spectral values 56 representing the audio signal in the frequency domain.
  • the amplitude values 54 are formed by the sample values of the digital audio signal after step 14.
  • the spectral values 56 are determined block by block using fast Fourier transformations (FTP) on the basis of the amplitude values 54 . In principle, however, other frequency transformations can also be used.
  • FTP fast Fourier transformations
  • the block length for determining the spectral values 56 is preferably 1024 amplitude values (sampling values), with adjacent blocks preferably overlapping by half and the relevant amplitude values of each block being weighted with a Hann window before the transformation, in order to avoid unwanted spectral components caused by the block boundaries become to reduce. Furthermore, the spectral values 56 are weighted with a predetermined factor, so that the spectral values 56 are normalized to a range between 0 and 1. The factor depends in particular on the window used. In the case of the preferred Hann window, a factor of 0.00391 can advantageously be used.
  • a first parameter value is formed by the RMS value described above based on the amplitude values 54 .
  • the first parameter value may also be referred to as Short Time Energy (STE) because it represents the average energy over a block of relatively short length of 64 amplitude values. If the first parameter value exceeds an associated threshold (step 62), the first parameter value indicates a speech portion, otherwise a noise (non-speech) portion. High RMS values can be caused in particular by consonants and thus indicate speech.
  • a second parameter value is determined on the basis of the spectral values 56 and indicates the form of a harmonic overtone structure of the frequency spectrum.
  • the second parameter value represents a measure of the spectral flatness of the frequency spectrum represented by the spectral values 56 (Spectral Flatness, SF).
  • the second parameter value is preferably determined by dividing the geometric mean of the spectral values 56 and the arithmetic mean of the spectral values 56 .
  • the second parameter value is then compared to an associated threshold (step 62). If the threshold is exceeded, the second parameter value indicates a speech section, otherwise a noise section. High values of the second parameter indicate noise-like blocks that are atypical for speech.
  • the second parameter refers to a significantly longer block length of 1024 due to the spectral values, so that the usually significantly shorter consonants are not significant compared to an otherwise tonal characteristic.
  • a third parameter value is also determined, which indicates whether a maximum of the spectral values 56 lies in a predetermined frequency range. For this purpose, it is preferably determined whether the spectral value, the amount of which forms a maximum compared to the other spectral values 56 of a block (step 58), is in a frequency range between 70 and 250 Hz, ie it is checked whether the maximum spectral value represents a frequency that greater than a lower frequency threshold and is less than an upper frequency threshold (step 62). If true, the third parameter value indicates a speech portion, otherwise a noise portion.
  • the basic frequency of speech is usually in the range between 70 and 250 Hz, so that a maximum of the spectral values 56 in this range indicates speech.
  • Adaptive threshold values are preferably provided for the first and second parameter values in order to compensate for variable distances between a respective speaker and the recording microphone.
  • the threshold value is determined adaptively for a block of interest based on the parameter values of several previous blocks (step 60), the previous blocks preferably comprising detected speech sections and noise sections. For example, the first parameter values of 30 previous blocks classified as speech section and the first parameter values of thirty previous blocks classified as noise section are used to determine the threshold value for the first parameter value.
  • the first parameter values are summed up for each section type and the sums obtained are subtracted from each other.
  • the result is weighted with a weighting factor to get the associated threshold for the first parameter value of the current block. This ensures that the threshold value is adjusted to the current level of the first parameter value in order to avoid incorrect classifications.
  • the weighting factor is preferably set between 0 and 1 and controls the sensitivity of the detection.
  • the threshold value for the second parameter is preferably also determined according to the principle of the threshold value for the first parameter. In this case, however, the calculation rule is inverted, since the second parameter indicates language with a decreasing amount and is therefore im is inversely correlated with speech compared to the first parameter. Consequently, the sum of the second parameter values for speech sections is subtracted from the sum of the second parameter values for noise sections and given a weighting factor, preferably between 0 and 1, which controls the sensitivity of the detection.
  • step 64 the three parameters are evaluated together and it is determined whether or not the parameter values violate the associated threshold criterion. If two of the three parameter values indicate a section of speech, i.e. violate the associated threshold criterion, the block in question is provisionally detected as a section of speech.
  • a change between a speech section and a noise section and vice versa is only permitted if a predetermined number of consecutive blocks have been classified as speech section or noise section (step 66 and 68). For example, after a block detected as a noise section, five immediately consecutive blocks must be provisionally detected as a speech section in order to finally detect these blocks as a speech section (step 70). Otherwise, the blocks are still detected as noise sections (step 72). Conversely, after a block detected as a speech section, for example eight immediately consecutive blocks must be provisionally detected as a noise section in order to finally detect these blocks as noise sections (step 72). Otherwise, the blocks are still detected as sections of speech (step 70).
  • step 20 the audio signal is weighted with a fixed amplification factor in order to compensate in advance for level losses caused by subsequent filters.
  • the signal can be amplified by 3 to 6 dB.
  • step 22 the audio signal is filtered with a noise filter adapted to reduce very quiet portions of the audio signal.
  • a noise filter adapted to reduce very quiet portions of the audio signal.
  • very quiet signal sections do not contain any relevant information and in this respect can at most negatively affect the perceived voice quality.
  • the risk of feedback is reduced by reducing the signal level in very quiet signal sections.
  • a so-called noise gate can be used as a noise filter, which is adapted to suppress quiet signal sections.
  • a threshold value which is compared with the current signal level, is used as the criterion for recognizing quiet signal sections. If the current signal level falls below the threshold, the noise filter is activated.
  • the threshold value is preferably well below the reference volume set in step 16 .
  • the threshold can be -55 dB. If the threshold value is not reached, the audio signal is reduced with a ratio in the range of 5 to 10. Values in the range of 10 ms or 100 ms are preferably used as rise time (attack time) and decay time (release time).
  • second filter parameters 46 are determined, which are used for the subsequent steps 32, 34 and 36.
  • the second filter parameters 46 include, on the one hand, the speech sections 52 already detected in step 18.
  • Octave spectral values 48 are also determined, which in comparison to the spectral values 56 have a coarser Have spectral resolution that is modeled on human auditory perception.
  • the spectral values 56 determined, for example, by means of FFT are filtered with an octave filter bank.
  • the octave filter bank comprises a total of eight filters that overlap in the spectral range and are 3 are represented by way of example by magnitude frequency responses 37 over the frequency F and the magnitude G.
  • the frequency responses 37 have their respective maximum at a filter-specific mid-frequency fc and fall towards smaller and larger frequency values.
  • the center frequencies fc are preferably 63, 125, 250, 500, 1000, 2000, 4000 and 8000 Hz.
  • the cut-off frequencies (magnitude frequency response of -3 dB) can be calculated generically on the basis of the respective center frequency fc.
  • the lower cutoff frequency is 32fc/45 and the upper cutoff frequency is 45fc/32.
  • the weighted spectral values falling into a respective filter are summed up, with the weights each representing the absolute value frequency response at the frequency of the spectral value in question.
  • step 24 feedback frequencies 50 are also determined, which are used as part of the filter data 46 for a feedback filter, which is used in step 34.
  • the determination of the feedback frequencies is based on 4 explained in more detail.
  • a maximum value analysis is used to select a number of candidates from the spectral values 56, which represent possible feedback frequencies. For example, those spectral values can be sought out as candidates from the spectral values 56 which in each case have the highest absolute value of all spectral values of a block and are adjacent to spectral values with a similar absolute value. The candidates thus represent the maxima of pronounced extrema of the spectrum.
  • three parameter values are determined (step 74) and compared to a respective threshold (step 78).
  • the threshold values are preferably permanently set for each parameter because the parameters are generally insensitive to a voice signal volume that is low compared to the background noise.
  • a first parameter represents the ratio between the magnitude of the candidate and the associated harmonics (Peak-to-Harmonic Ratio, PHPR).
  • the first two harmonics are used, i.e. the spectral values that represent double and triple the frequency compared to the candidate.
  • High PHPR values indicate a feedback frequency (feedback frequency) because speech usually has a clear overtone structure with harmonics.
  • a second parameter represents the ratio between the magnitude of the candidate and the magnitude of immediately neighboring spectral values (Peak-to-Neighboring Ratio, PNPR).
  • the first three adjacent spectral values in each frequency direction are preferably used.
  • High PNPR values indicate a feedback frequency because speech tends to have less steep frequency maxima.
  • a third parameter represents the course of the absolute value of the candidate over time (Interframe Magnitude Slope Deviation, IMSD).
  • the mean increase in the absolute value of the candidate and a number of adjacent spectral values is preferably determined over five previous blocks.
  • Positive IMSD values of, for example, 0.5 dB typically indicate a feedback frequency, because the amount of the fundamental frequency of speech does not usually increase over several blocks.
  • the feedback frequency is preferably determined as a maximum of the spectrum in the region of the candidate in question.
  • the spectrum is interpolated on the basis of the candidate and the adjacent spectral values with an interpolation function (e.g. by parabolic interpolation) and then the maximum of the interpolation function is formed.
  • this maximum can lie between two spectral values, so that the interpolated maximum is more precise.
  • the feedback frequency determined in this way is used as part of the filter data 50 for the feedback filter (step 34).
  • the underlying candidate In order to relieve the computer resources, it is preferred not to subject the underlying candidate to the parameter analysis again for a predetermined period of time after a successfully determined feedback frequency if the candidate is identified as such again. For example, the same candidates are not checked again within a 1 second time window to determine whether or not they represent a feedback frequency. Instead, the feedback frequency determined for the temporally previous candidate is adopted for the subsequent, same candidate, because there is a high probability that the same feedback frequency will also be used for the subsequent candidate would be determined. Only after the predetermined time has elapsed is a relevant candidate checked again.
  • a so-called bell filter is provided in the feedback filter, the center frequency of which is set to the specific feedback frequency.
  • the Q value of the filters is preferably set to a fixed value.
  • the gain of the filter is preferably adjusted adaptively, as shown below with reference to FIG figure 5 is explained.
  • the algorithm illustrated implements a finite state machine (FSM) which is initially in an inactive state 90, ie the bell filter has a gain of 0 dB and does not affect the audio signal.
  • FSM finite state machine
  • an active state 92 is entered, in which the bell filter is operated with full (negative) gain.
  • a change is made to a first reduction state 94 if the feedback frequency has not been determined again by then and the active state is therefore retained (feedback 96).
  • the bell filter has a reduced gain, for example 2/3 of full gain.
  • the feedback filter is thus operated with reduced effectiveness.
  • a second predetermined time Y has elapsed
  • a change is made to a second reduction state 98 if the feedback frequency has not been determined again by then and the active state is retained (feedback 96).
  • the time-dependent adaptation of the feedback filter is advantageous for several reasons. On the one hand, it ensures that a specific feedback frequency is filtered for a sufficiently long time. Feedback typically lasts for at least a few 100 ms, so long enough filtering is required to effectively suppress the feedback. In addition, due to the gradual reduction of the feedback filter, audible distortion of the audio signal is reduced.
  • the audio signal is filtered with a two-stage compressor to remove peak levels that can lead to audible distortion.
  • a first compressor stage is activated at a signal level above a first threshold and filters the audio signal with a first filter that reduces moderate level peaks with a low degree of compression (e.g. ratio 20, rise time 10 ms, decay time 100 ms).
  • the second compressor stage is activated at a signal level above a second threshold, which is greater than the first threshold.
  • the audio signal is then filtered with a second filter in order to remove extreme level peaks particularly effectively. For this purpose, a stronger degree of compression is selected (e.g. ratio 1000, rise time 0.1 ms, decay time 5 ms).
  • the second compressor stage provides an emergency filter to ensure that all amplitude values are below a critical maximum value
  • the audio signal is bandpass filtered to remove potential spurious signals.
  • speech signal components are predominantly on the Frequency range between 70 and 8000 Hz is limited so that spectral components outside this frequency range can be filtered.
  • a double-cascaded second-order high-pass filter is preferably combined with a double-cascaded second-order low-pass filter as the band-pass filter.
  • the high-pass filter and the low-pass filter preferably each have an edge steepness of 24 dB per octave.
  • the limit frequencies are preferably in the range between 60 and 80 Hz (lower limit frequency) and between 8000 and 10000 Hz (upper limit frequency).
  • the Q values of the filters should extend over an octave and have values in the range of 1.4, for example.
  • step 30 the audio signal is filtered with a second compressor in order to reduce the dynamic range of the audio signal.
  • a second compressor in order to reduce the dynamic range of the audio signal.
  • a filter with a relatively mild degree of compression which is in particular lower than the degree of compression of the first compressor from step 28, is used as the compressor.
  • a low ratio can be selected, which should not exceed the value of three.
  • longer rise and decay times in the range of 0.5 and 1 second are preferably provided.
  • the audio signal is filtered with an equalizer to reduce spectral variations.
  • the equalizer is operated with eight bell filters whose center frequencies correspond to those of the octave band filters from 3 correspond, which are used to determine the octave spectral values.
  • the Q values of the bell filters are preferably set to cover about an octave each.
  • a separate amplification factor is provided for each bell filter, which is determined as a function of the octave spectral values 48 and predefined reference spectral values.
  • the reference spectral values correspond in their spectral resolution to the octave spectral values, so that each octave spectral value is assigned a reference spectral value.
  • the reference spectral values together form a reference spectral curve, the shape of which is correlated with a high level of speech intelligibility and can be determined, for example, by spectral evaluation of a large number of undisturbed speech signals, e.g. on the basis of a mean value of the octave-filtered spectrum.
  • Each octave spectral value is compared to an associated reference spectral value in order to determine an amplification factor which represents the deviation between the octave spectral value and the associated reference spectral value.
  • an amplification factor for the bell filter of this spectral range is determined such that weighting the octave spectral value with the weighting factor at least approximately results in the reference spectral value.
  • the gain factors are adjusted in this way to bring the frequency spectrum of the audio signal into agreement with the reference spectral curve and thus reduce spectral variations within the audio signal and between different audio signals. For example, characteristics of different speakers or spectral influences are compensated for by different microphone positions in favor of high speech intelligibility.
  • the amplification factors are preferably limited above and below.
  • the change in the amplification factors over time is also limited.
  • the bell filters for filtering the audio signal in step 32 are preferably used only for filtering blocks that are classified as Speech section have been detected. Thus, the fitting of the spectrum to the reference spectral curve is limited to speech sections. Any distortions and inefficient use of computing resources are thus avoided.
  • the filtering with the equalizer or bell filters in step 32 can cause undesired variations in the signal level.
  • the audio signal is preferably weighted with a correction factor which is determined as the mean value of the sign-inverted weighting factors.
  • step 36 the audio signal is filtered with a pause filter in order to reduce the signal level in areas outside the detected speech sections, i.e. in speech pauses, and in this way to reduce background noise.
  • the speech sections detected in step 18 or 24 are used as filter data 52 .
  • Those sections of the audio signal which have not been detected as speech sections form noise sections which are filtered by the pause filter.
  • the audio signal is preferably weighted in the detected noise sections with a fixed negative gain factor of, for example -3 dB.
  • step 38 the audio signal is filtered with a further equalizer in order to compensate for the effects of the different filtering.
  • a filter bank consisting of 23 bell filters between 50 Hz and 10 kHz is preferably used for this purpose.
  • the filters preferably each extend over a third of an octave, with the Q value being adjustable to 4.3.
  • a fixed negative gain factor is preferably provided for each bell filter.
  • step 40 the audio signal can be analyzed for test purposes during a development phase. This option is purely optional and not necessary for a later application of the method in practice.
  • step 42 the now improved audio signal is first transformed into an analog signal by means of a digital-to-analog converter and then made available via an output interface. From there, the audio signal can be picked up for playback via a sound reinforcement system. It is also conceivable for the digital audio signal to be output instead of an analogue version, provided the sound reinforcement system has a digital signal input for the audio signal.
  • the audio device 102 has a housing 104 indicated schematically.
  • the external dimensions of the housing 104 are preferably no greater than a few centimeters, for example a maximum of 10 centimeters, so that the housing 104 is compact overall and is also particularly suitable for mobile applications.
  • the audio device 102 has an input interface 112 for receiving an analog audio signal and an output interface for outputting the enhanced audio signal.
  • the device also has a USB-C interface 110 and an Ethernet interface 108 .
  • the USB-C interface 110 can generally be embodied as a power supply interface for connecting to an external power supply. It does not necessarily have to be designed according to the USB-C standard.
  • one or more wireless interfaces can be provided in order to wirelessly receive audio signals and/or control signals and/or electrical energy from outside and/or transmit them to a receiver (not shown).
  • the input interface 112 and the output interface 106 are preferably each designed as XLR interfaces, so that conventional sound transducers can be connected directly to the audio device 102 via XLR connectors.
  • the audio device 102 can thus be used in particular in an in 7 shown arrangement in which the input interface 112 is connected to a microphone 134 for detecting an audio signal from a speaker, not shown. Furthermore, the output interface 106 is connected via an amplifier 130 to a loudspeaker 132 or a public address system with multiple loudspeakers in order to reproduce the audio signal enhanced by the audio device 102 . Speaker 132 and microphone 134 are in the same room, such as a conference room or the like. The signal improvement takes place in real time, so that the audio signal recorded with the microphone 134 can be played back essentially simultaneously via the loudspeaker 132 and thus ensures an acoustically advantageous amplification of the audio signal.
  • the audio device 102 also includes a manual interface 128, which is 6 is indicated only schematically and is generally set up to receive control data for the audio device 102 directly at the audio device 102 by manual input from a user.
  • the audio signal is first recorded with the microphone 134 and fed to a preamplifier 116 via the input interface 112 .
  • the audio signal then reaches the output interface 106 either via a processing unit 114 or directly.
  • the processing unit 114 can receive a specification from the outside via the interfaces 108, 110 and/or 128 which specifies whether the audio signal is to be routed through the processing unit 114 and improved by it or not.
  • the arithmetic unit 114 can use a self-diagnosis to determine its functional capability for executing the method for improving the audio signal and set the switch position of the switching device 118 as a function of the test.
  • switching device 118 can connect input interface 112 directly to output interface 106 via preamplifier 116, with switching device 118 only being switched over if processing unit 114 is fully functional, including the necessary power supply, in order to connect input interface 112 to processing unit 114 connect to.
  • This ensures that the audio signal can be tapped from the output interface 106 independently of any malfunction of the computing unit 114 and a failure of the energy supply.
  • the audio device 102 is therefore particularly well suited for professional use.
  • the preamplifier 116 can be operated with variable gain.
  • a respective amplification value can be set by the arithmetic unit 114 . This can, for example, be selected directly on the device 102 by means of the interface 128 from a predetermined number of different amplification values, for example three amplification values.
  • the selection of the amplification value can be conveyed visually to the operator by means of an illuminated display, eg by means of a number of LED diodes, on the audio device 102 .
  • By setting the preamplification appropriately large level variations can preferably already be compensated for in the analog signal, so that digital noise due to high amplification of the digital signal can be avoided.
  • the interface 110 is provided for the energy supply of the audio device 102, which can be connected to a mains source by means of an associated supply cable in order to operate the audio device 102 in mains operation.
  • the audio device 102 can be supplied via an energy store integrated in the housing 104, for example an electric battery 126.
  • the rechargeable battery 126 is coupled to the interface 110 and can be charged via it.
  • another type of interface can also be provided for the power supply.
  • the device 102 is preferably equipped with an electrical protective device 120, which protects the electrical consumers of the audio device 102 from voltage damage.
  • electrical protective device 120 which protects the electrical consumers of the audio device 102 from voltage damage.
  • These include in particular the computing unit 114, a fan 124 for cooling the computing unit 114 and a phantom power supply device 122 which is coupled to the input interface 112.
  • the phantom power device 122 is used to supply the microphone 134 connected to the input interface 112 with electricity, for example with a microphone supply voltage of 48 volts.
  • the phantom power device 122 has a voltage converter, not shown in detail, in order to convert the supply voltage of the audio device 102, which is provided via the USB-C interface 110, for example 5 volts, into the microphone supply voltage.
  • the processing unit 114 is preferably in the form of a single-board computer, so that the audio device 102 can be made compact from this point of view and can also be produced inexpensively.
  • the computing unit 114 is configured in particular via a bus interface 107, which is preferably of the USB-A type.
  • the interface 107 is connected to a server or directly to a mobile terminal device connected (not shown) to access the computing unit 114 from the outside and optionally one or more configuration parameters for the method of 1 (e.g. threshold values, rise and decay times).
  • configuration via the USB-C interface 110 is also conceivable.
  • USB stick or the like it is possible to connect a USB stick or the like to the interface 107, with the desired configuration data or new firmware being stored on the USB stick.
  • the data are then transmitted to the processing unit 114 automatically or after initiation by an operator via the interface 107 in order to update the configuration parameters or the firmware accordingly. This process can be performed by an end user of the device.
  • a detailed configuration of filter parameters by the end user is preferably not required. All the necessary configuration parameter values are already stored in an internal memory of the computing unit (not shown), so that the method ensures good results fully automatically under almost all usual acoustic environmental conditions.
  • the configuration parameter set can be adjusted remotely or locally via the interface 107 by a trained specialist, for example. This means that there is no setup effort for the end user.
  • For commissioning in the application of 7 it is only necessary to connect the audio device 102 to the microphone 134 and the loudspeaker 132 via the interfaces 112 and 106 provided. Then the audio device 102 can be used directly in terms of a plug-and-play functionality. If battery operation is not desired, the audio device 102 is connected via the USB-C interface 110 connected to a power source (not shown) to power the audio device 102 electrically.
  • the audio device 102 also has a manual operating interface 113 (eg with a manually operable button) and a visual display device 109 (eg an LED).
  • a user of the audio device 102 can control a recording of the audio signal provided at the output interface 106 via the operating interface 113 .
  • the user first connects a USB stick or the like to the interface 107.
  • the USB stick is detected by the processing unit 114 and the user is shown on the display device 109 by activating a first display mode that the audio device 102 is ready to record.
  • the user interface 113 is then actuated in order to store the audio signal (in its digital form) in the USB stick.
  • the display device 109 indicates the successful start of the recording by activating a second display mode (eg flashing LED).
  • the audio signal is then stored continuously in a file on the USB stick.
  • the recording will stop automatically. This is indicated to the user by activating a third display mode on the display device 109 .
  • the recording can optionally be ended prematurely by operating the user interface 107 again.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Ein Verfahren zur Verbesserung eines Audiosignals, insbesondere in Echtzeit, umfasst zumindest folgende Schritte: Empfangen eines Audiosignals mit mehreren Amplitudenwerten, wobei das Audiosignal zumindest abschnittsweise Sprache aufweist; Detektieren von Sprachabschnitten des Audiosignals; Filtern des Audiosignals mit wenigstens einem Pegelfilter, um Signalpegelvariationen des Audiosignals in den detektierten Sprachabschnitten zu reduzieren; und Filtern des Audiosignals mit wenigstens einem Entzerrfilter, um spektrale Variationen des Audiosignals in den detektierten Sprachabschnitten zu reduzieren.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Verbesserung eines Audiosignals. Das Verfahren wird vorzugsweise in Echtzeit ausgeführt, sodass es sich für eine im Wesentlichen gleichzeitige Aufnahme und Wiedergabe von Audiosignalen eignet.
  • Audiosignale werden in der Praxis häufig unter ungünstigen akustischen Bedingungen mithilfe von Mikrofonen aufgezeichnet. Beispielsweise ist ein gewünschter Sprachsignalanteil während der Aufzeichnung von einem unerwünschten Störgeräusch überlagert, welches die Qualität des Audiosignals beeinträchtigt, insbesondere im Hinblick auf die Sprachverständlichkeit. Darüber hinaus kann das Audiosignal aufgrund der räumlichen Gegebenheiten oder in Folge eines großen Abstandes zwischen dem Sprecher und dem Mikrofon verhallt sein, sodass der Sprachanteil des Audiosignals bei einer gleichzeitigen Wiedergabe über Lautsprecher trotz einer Verstärkung schwer zu verstehen ist. Der eigentliche Vorteil einer akustischen Verstärkung des Audiosignals ist aus diesem Grunde häufig nicht ausreichend, um für eine befriedigende Sprachsignalqualität und Sprachverständlichkeit zu sorgen.
  • Zur Reduzierung der genannten Probleme ist es grundsätzlich möglich, das Audiosignal nach der Aufzeichnung mittels eines Audiofilters zu verarbeiten, um unerwünschte Signalanteile zu reduzieren. Dies ist jedoch mit Schwierigkeiten verbunden, weil das Audiofilter auf das jeweilige Audiosignal abgestimmt sein muss. In der Praxis bedeutet dies, dass ein Audiofilter für ein bestimmtes Audiosignal, welches in einer bestimmten akustischen Umgebung mit einem bestimmten Mikrofon aufgezeichnet worden ist, gute Ergebnisse erzielen kann, für ein anderes Audiosignal, welches unter anderen Bedingungen aufgezeichnet worden ist, jedoch nicht.
  • Die vorstehend genannten Probleme sind insbesondere im Bereich der z.B. für Messen eingesetzten mobilen Tontechnik relevant, weil diese mit unterschiedlichsten akustische Umgebungen kompatibel sein muss und in aller Regel wenig Zeit zur Verfügung steht, um die Audioverarbeitungsgeräte optimal einzustellen. Darüber hinaus besteht häufig überhaupt keine Möglichkeit, die Audiogeräte auf einen jeweiligen Sprecher zu optimieren, beispielsweise im Hinblick auf den geeigneten Abstand zwischen dem Sprecher und dem Mikrofon. Darüber hinaus bereiten Unterschiede zwischen verschiedenen Sprechern Probleme. Beispielsweise können unterschiedliche Sprecher, die insbesondere aufgrund von Alters- und Geschlechterunterschieden unterschiedliche Stimmeigenschaften aufweisen (z.B. unterschiedliche Sprecherlautstärke und Frequenzzusammensetzung), mit denselben Audiogeräten bei konstanter Konfiguration nicht in der Weise behandelt werden, dass zuverlässig eine hohe Sprachsignalqualität erzielt wird.
  • Zwar ist es möglich, mithilfe eines Mischpults das Audiosignal zu filtern und die akustischen Filterparameter während der Aufnahme manuell einzustellen. Dies ist jedoch aufwendig und erfordert besonders geschultes Personal. Zudem sind die auf diese Weise erzielbaren Verbesserungen variabel. Probleme bestehen insbesondere bei stark wechselnden akustischen Aufnahmesituationen, die nicht mit ausreichender Geschwindigkeit und Zuverlässigkeit kompensiert werden können.
  • Es ist eine Aufgabe der Erfindung, ein Verfahren zur Verbesserung von Audiosignalen bereitzustellen, welches für unterschiedliche Audiosignale geeignet ist und insbesondere eine zuverlässige automatische Verbesserung des Audiosignals in Echtzeit ermöglicht. Ferner ist es eine Aufgabe der Erfindung, eine Vorrichtung zur Verbesserung von Audiosignalen bereitzustellen, welches zur automatischen Verbesserung von unterschiedlichen Audiosignalen insbesondere in Echtzeit geeignet ist.
  • Die Aufgabe wird gemäß einem ersten Aspekt gelöst durch ein Verfahren mit den Merkmalen des Anspruchs 1.
  • Ein Verfahren zur Verbesserung eines Audiosignals weist zumindest folgende Schritte auf: Empfangen eines Audiosignals mit mehreren Amplitudenwerten, wobei das Audiosignal zumindest abschnittsweise Sprache aufweist; Detektieren von Sprachabschnitten des Audiosignals; Filtern des Audiosignals mit wenigstens einem Pegelfilter, um Signalpegelvariationen des Audiosignals in den detektierten Sprachabschnitten zu reduzieren; und/oder Filtern des Audiosignals mit wenigstens einem Entzerrfilter, um spektrale Variationen des Audiosignals in den detektierten Sprachabschnitten zu reduzieren.
  • Es hat sich gezeigt, dass die Qualität von Audiosignalen besonders unter einer unzureichenden Verständlichkeit der enthaltenen Sprachanteile leidet, also insbesondere jenen Abschnitten des Audiosignals, welche gesprochene Sprache aufweisen. Vor diesem Hintergrund werden erfindungsgemäß Zeitabschnitte des Audiosignals detektiert, welche Sprache aufweisen und als Sprachabschnitte bezeichnet werden können. Auf der Grundlage der detektierten Abschnitte wird das Audiosignal sodann mit einem Pegelfilter und/oder einem Entzerrfilter verarbeitet, um bestimmte Variationen des Audiosignals zu reduzieren. Hierbei können Variationen sowohl innerhalb eines Audiosignals, als auch zwischen verschiedenen Audiosignalen behandelt werden.
  • Das Pegelfilter dient zur Reduktion von Signalpegelvariationen, um den Pegel des Audiosignals zu vereinheitlichen. Beispielsweise werden abschnittsweise sehr laute und leise Sprachsignalanteile abgeschwächt bzw. verstärkt, sodass sich insgesamt ein einheitlicher Signalpegel einstellt. Unterschiedliche Signalpegel ergeben sich in der Praxis z.B. durch variable Abstände zwischen einem Sprecher und dem aufzeichnenden Mikrofon sowie durch die akustischen Eigenschaften des umgebenden Raums. Die hieraus resultierenden Pegelvariationen werden durch das Pegelfilter jedoch kompensiert, sodass sich die subjektive Signalqualität verbessert.
  • Zusätzlich oder alternativ kommt ein Entzerrfilter zum Einsatz, um spektrale Variationen des Audiosignals zu reduzieren. Spektrale Variationen treten einerseits durch unterschiedliche Sprecher auf, die mit ihren Stimmen dem Audiosignal eine jeweils eigene Spektralcharakteristik aufprägen. Hinzu kommt eine spektrale Färbung durch die akustische Umgebung während der Aufnahme sowie gegebenenfalls durch die verwendeten Tongeräte, insbesondere das Mikrofon und dessen Ausrichtung relativ zum Sprecher.
  • Für eine hohe Sprachverständlichkeit ist es von Bedeutung, dass die Spektralanteile in bestimmten Frequenzbereichen, die für die Sprachverständlichkeit relevant sind, möglichst nicht oder nur in geringem Umfang durch andere spektrale Anteile maskiert werden. Häufig führen die akustischen Umgebungsbedingungen jedoch dazu, dass die sprachrelevanten Anteile in denselben oder in benachbarten Frequenzbereichen von anderen Signalanteilen variabel überlagert werden, sodass die sprachrelevanten Anteile nicht immer gleich gut wahrgenommen werden können. Derartige Veränderungen des Signals sind anhand der spektralen Variationen über die Zeit feststellbar und können daher durch ein geeignetes Filter behandelt werden. Vor diesem Hintergrund wird das Entzerrfilter dazu eingesetzt, spektrale Variationen in den detektierten Sprachabschnitten zu reduzieren. Auf diese Weise kann das Audiosignal in spektraler Hinsicht vereinheitlicht werden, um die Signalqualität insbesondere im Hinblick auf eine gute Sprachverständlichkeit zu erhöhen.
  • Durch das Verfahren kann insbesondere eine vollautomatische Signalverbesserung erfolgen. Eine vorherige oder betriebsbegleitende manuelle Einstellung oder Nachregelung von Filterparametern ist somit nicht notwendig, d.h. die Parameter des Pegel- und/oder Entzerrfilters können bei bestimmungsgemäßer Ausführung des Verfahrens fest eingestellt sein oder werden durch eine Recheneinheit automatisch eingestellt. Darüber hinaus gewährleistet das Verfahren eine hervorragende Signalverbesserung für unterschiedlichste Audiosignale, auch in besonders schwierigen akustischen Umgebungen. Mit anderen Worten ist das Verfahren besonders robust gegenüber akustischen Variationen jeglicher Art und ist somit für den professionellen Einsatz in der Praxis besonders geeignet. Darüber hinaus kann das Verfahre in Echtzeit, d.h. mit einer Latenz von weniger als 20 ms, bevorzugt von weniger als 10 ms, insbesondere 6 ms.
  • Besonders vorteilhaft ist es, wenn sowohl das Pegelfilter, als auch das Entzerrfilter verwendet werden. Darüber hinaus können noch zusätzliche Filter vorgesehen sein, um das Audiosignal weiter zu verbessern, wie im Folgenden erläutert wird.
  • Es versteht sich, dass die Filterung des Audiosignals nicht notwendig auf die detektierten Sprachabschnitte beschränkt werden muss. Beispielsweise kann ein Entzerrfilter im Hinblick auf besondere Spektralanteile, die etwa durch Rückkopplungen verursacht werden, zusätzlich auch außerhalb von Sprachabschnitten wirksam sein. Das Audiosignal wird jedoch zumindest in den Sprachabschnitten gefiltert, weil diese für die Sprachverständlichkeit besonders bedeutsam sind. Zur Verbesserung der Effizienz des Verfahrens können bestimmte Aspekte der Filterung auf die Sprachabschnitte beschränkt werden.
  • Ausführungsformen sind in der Beschreibung, den Figuren und den abhängigen Ansprüchen offenbart.
  • Gemäß einer Ausführungsform umfasst das Verfahren einen Schritt des Bestimmens von mehreren Spektralwerten auf der Grundlage der Amplitudenwerte, wobei die Amplitudenwerte das Audiosignal in einem Zeitbereich repräsentieren und wobei die Spektralwerte das Audiosignal in einem Frequenzbereich repräsentieren. Das Detektieren der Sprachabschnitte, das Filtern mit dem wenigstens einen Pegelfilter und/oder das Filtern mit dem wenigstens einen Entzerrfilter erfolgt auf der Grundlage der Amplitudenwerte und/oder der Spektralwerte. Die Filterung erfolgt somit auf der Grundlage von zwei unterschiedlichen Repräsentationen des Audiosignals, nämlich Zeitbereichs- und Frequenzbereichswerten des Audiosignals. Die Effizienz und Zuverlässigkeit des Verfahrens wird auf diese Weise gesteigert.
  • Die Spektralwerte können mittels bekannter Frequenzraumtransformationen, wie beispielsweise der schnellen FourierTransformation (Fast Fourier Transformation, FFT) auf der Grundlage der Zeitbereichsamplitudenwerte ermittelt werden. Die Spektralwerte sind vorzugsweise durch den Betrag der Frequenzkoeffizienten (Spektralamplitudenwerte) gebildet, die durch FFT auf der Grundlage der Zeitbereichsamplitudenwerte besonders effizient ermittelt werden können. Der vorteilhafte Einsatz der Amplitudenwerte und der Spektralwerte erfordert somit vergleichsweise wenig Rechnerressourcen.
  • Gemäß einer weiteren Ausführungsform umfasst das Detektieren der Sprachabschnitte zumindest folgende Schritte: Bestimmen wenigstens eines ersten Energieparameterwerts auf der Grundlage der Amplitudenwerte, wobei der erste Energieparameterwert eine mittlere Energie eines Abschnitts des Sprachsignals repräsentiert; Bestimmen wenigstens eines ersten Spektralparameterwerts auf der Grundlage von Spektralwerten des Audiosignals, wobei der wenigstens eine erste Spektralparameterwert eine harmonische Spektralstruktur des Abschnitts repräsentiert; und Detektieren des Abschnitts als Sprachabschnitt, wenn der wenigstens eine erste Energieparameterwert einen ersten Energieparameterschwellenwert und/oder der wenigstens eine Spektralparameterwert einen Spektralparameterschwellenwert verletzt. Die Detektion von Sprachabschnitten auf der Grundlage von Zeitbereichs- und Spektralparametern hat sich als besonders nützlich erwiesen, um sowohl rauschartige Abschnitte (z.B. bei Konsonanten), als auch tonale Abschnitte (z.B. bei Vokalen) zuverlässig zu erfassen und durch Schwellenwertvergleich zur Unterscheidung von Sprachabschnitten und Rauschabschnitten auszuwerten.
  • Die genannten Schwellenwerte (Energieparameterschwellenwert und Spektralparameterschwellenwert) können grundsätzlich fest eingestellt sein. Die Zuverlässigkeit der Detektion von Sprachabschnitten kann jedoch in besonderer Weise verbessert werden, indem der erste Energieparameterschwellenwert und/oder der erste Spektralparameterschwellenwert in Abhängigkeit von der Zeit angepasst wird. Beispielsweise kann der Signalpegel des Audiosignals zur Einstellung der Schwellenwerte herangezogen werden, um sicherzustellen, dass die Schwellenwerte auf das jeweils aktuelle Energieniveau abgestimmt sind.
  • Nach einer weiteren Ausführungsform umfasst das Filtern des Audiosignals mit dem wenigstens einen Pegelfilter zumindest das Folgende: Bestimmen wenigstens eines Pegelparameterwerts auf der Grundlage der Amplitudenwerte, wobei der Pegelparameterwert einen mittleren Pegel des Audiosignals für einen detektierten Sprachabschnitt repräsentiert; Bestimmen von wenigstens einem Kompensationsgewicht auf der Grundlage des wenigstens einen Pegelparameterwerts; und Gewichten des Audiosignals mit dem wenigstens einen Kompensationsgewicht, um die Signalpegelvariationen des Audiosignals zu reduzieren.
  • Der wenigstens eine Pegelparameterwert kann allgemein mehrere Pegelparameterwerte umfassen, die den Pegel für detektierte Sprachabschnitte unterschiedlicher Länge angeben. Vorteilhaft können erste und zweite Pegelparameterwerte bestimmt werden, wobei die ersten Pegelparameterwerte den mittleren Pegel des Audiosignals mit einer ersten Zeitauflösung repräsentieren und wobei die zweiten Pegelparameterwerte den mittleren Pegel des Audiosignals mit einer zweiten Zeitauflösung repräsentieren. Die erste und zweite Zeitauflösung unterschieden sich voneinander. Auf diese Weise können kurzfristige und langfristige Effekte der auditorischen Wahrnehmung des Menschen vorteilhaft berücksichtigt werden. Insbesondere können kurzzeitige Pegelspitzen (Clipping) durch Pegelparameterwerte mit kurzer Zeitauflösung erfasst und zur Filterung herangezogen werden. Darüber hinaus können moderate Pegelvariationen, die erst ab einer Mindestdauer wahrnehmbar werden, durch Pegelparameterwerte mit größerer Zeitauflösung erfasst werden. Das Kompensationsgewicht für das Pegelfilter wird sodann auf der Grundlage der ersten und zweiten Pegelparameterwerte bestimmt.
  • Die ersten Pegelparameterwerte werden vorzugsweise auf der Grundlage von mehreren aufeinanderfolgenden Energiemittelwerten gebildet. Diese können geglättet werden, um erste Lautstärkewerte zu erhalten, die die ersten Pegelparameterwerte bilden. Die zweiten Pegelparameterwerte sind vorzugsweise durch zweite Lautstärkewerte gebildet. Diese können wiederum auf der Grundlage von mehreren aufeinanderfolgenden Energiemittelwerten gebildet werden, wobei abweichend von den ersten Lautstärkewerten eine größere Anzahl von Energiemittelwerten geglättet werden, sodass die zweiten Pegelparameterwerte den Pegel jeweils für eine größere Zeitdauer angeben als die ersten Pegelparameterwerte. Die zweite Zeitauflösung ist somit vorzugsweise größer als die erste Zeitauflösung.
  • Zur Bestimmung von Lautstärkewerten werden vorzugsweise zumindest einige der Amplitudenwerte in Zeitabschnitte des Audiosignals gruppiert. Sodann werden die Lautstärkewerte für zumindest einige der Zeitabschnitte auf der Grundlage der gruppierten Amplitudenwerte bestimmt, wobei jeder der Lautstärkewerte die Lautstärke eines der Zeitabschnitte des Audiosignals repräsentiert.
  • Die Begriffe "Energie" und "Pegel" repräsentieren jeweils eine Intensität oder Höhe der Amplitudenwerte. Pegelwerte können somit grundsätzlich als Energiewerte des Audiosignals angesehen werden und umgekehrt, wobei eine unterschiedliche Einheit für beide Werte möglich, jedoch nicht zwingend ist (z.B. kann für den Pegel im Gegensatz zur Energie die normierte logarithmische Einheit dB vorgesehen sein). Der Begriff "Pegel" stellt jedoch insbesondere einen funktionalen Bezug zum Pegelfilter her. Der Begriff "Lautstärke" repräsentiert die Intensität der Amplitudenwerte unter Berücksichtigung der auditorischen Wahrnehmbarkeit.
  • Gemäß einer weiteren vorteilhaften Ausführungsform werden erste Kompensationsgewichte und zweite Kompensationsgewichte bestimmt, wobei die ersten Kompensationsgewichte bestimmt werden, um Signalpegelvariationen mit wenigstens einem Pegel, der größer als ein vorbestimmter Pegelschwellenwert ist, zu reduzieren, wobei die zweiten Kompensationsgewichte bestimmt werden, um den Signalpegel des Audiosignals auf einen vorbestimmten Wert einzustellen. Auf diese Weise werden einerseits übermäßige Pegelwerte behandelt, die potentiell als qualitätsmindernde Verzerrung wahrnehmbar sind. Darüber hinaus wird das Audiosignal in den detektierten Sprachabschnitten auf einen Grundpegel eingestellt, sodass aus der Sicht des Hörers moderate Lautstärkeschwankungen kompensiert werden können. Vorzugsweise werden die ersten Kompensationsgewichte auf der Grundlage der ersten Pegelparameterwerte und die zweiten Kompensationsgewichte auf der Grundlage der zweiten Pegelparameterwerte ermittelt. Auf diese Weise kann die Filterung besonders gehörgerecht ausgeführt werden.
  • Nach einer weiteren Ausführungsform umfasst das Filtern mit dem wenigstens einen Entzerrfilter einen Schritt des Bestimmens von Grobspektralwerten auf der Grundlage von Feinspektralwerten des Audiosignals, wobei die Grobspektralwerte die Feinspektralwerte mit einer geringeren Spektralauflösung als die Feinspektralwerte repräsentieren. Ferner werden erste Entzerrgewichte bestimmt, die eine Abweichung der Grobspektralwerte von vorbestimmten Referenzspektralwerten repräsentieren. Das Audiosignal wird außerdem mit den ersten Entzerrgewichten gewichtet, um die Spektralwerte in Übereinstimmung mit den Referenzspektralwerten zu bringen. Die Feinspektralwerte sind vorzugsweise durch die oben genannten Spektralwerte gebildet, die insbesondere durch FFT effizient ermittelt werden können. Die Spektralauflösung dieser Spektralwerte ist bei einer Abtastrate von z.B. 48 kHz und einer Blocklänge von 1024 deutlich höher als die Auflösung, die durch das menschliche Gehör aufgelöst werden kann. Die Frequenzauflösung der Grobspektralwerte entspricht demgegenüber vorzugsweise der Auflösung des menschlichen Gehörs, sodass auf dieser Grundlage eine gehörgerechte Entzerrung ermöglicht wird. Die hierfür herangezogenen Referenzspektralwerte repräsentieren ein Referenzspektrum zur Erzielung einer hohen Sprachqualität von Audiosignalen. Die Grobspektralwerte können beispielsweise durch Oktavbandfilterung der Feinspektralwerte gewonnen werden.
  • Nach einer weiteren Ausführungsform umfasst das Filtern mit dem wenigstens einen Entzerrfilter ein Gewichten des Audiosignals mit zweiten Entzerrgewichten, wobei die zweiten Entzerrgewichte vorbestimmt sind. Es können somit zusätzlich oder alternativ zu den ersten Entzerrgewichten zweite Entzerrgewichte vorgesehen sein, die im Gegensatz zu den ersten Entzerrgewichten nicht dynamisch bestimmt werden, sondern im Vorfeld festgelegt sind. Durch die die zweiten Entzerrgewichte können beispielsweise Spektralanteile abgeschwächt werden, die für eine hohe Sprachqualität stets hinderlich sind und somit mit einem negativen Verstärkungsfaktor belegt werden können.
  • Nach einer weiteren Ausführungsform umfasst das Verfahren ein Filtern des Audiosignals mit wenigstens einem Kompressor, um einen Dynamikumfang des Audiosignals zu reduzieren. Für den wenigstens einen Kompressor können mehrere voneinander verschiedene Parametersätze vorgesehen sein, die in Abhängigkeit von einem Betrag des Audiosignals ausgewählt und der Filterung mit dem wenigstens einen Kompressor zugrunde gelegt werden. Vorteilhaft können sich die mehreren Parametersätze in einem Kompressionsgrad voneinander unterscheiden. Beispielsweise können die mehreren Parametersätze einen ersten Parametersatz umfassen, um den Dynamikumfang des Audiosignals mit einem ersten Kompressionsgrad zu reduzieren, wobei die mehreren Parametersätze einen zweiten Parametersatz umfassen, um den Dynamikumfang des Audiosignals mit einem zweiten Kompressionsgrad zu reduzieren, der stärker als der erste Kompressionsgrad ist. Für besonders gute Ergebnisse weisen die mehreren Parametersätze vorzugsweise einen dritten Parametersatz auf, um den Dynamikumfang des Audiosignals mit einem dritten Kompressionsgrad zu reduzieren, der geringer als der erste Kompressionsgrad ist. Auf diese Weise können qualitätsmindernde Verzerrungen, die durch eine starke Kompression hervorgerufen werden können, besonders effektiv vermieden werden. Der Kompressor kann als ein spezielles Pegelfilter angesehen werden, weil eine Reduktion des Dynamikumfangs mit einer Reduktion des Pegels und der Pegelvariationen einhergeht.
  • Gemäß einer weiteren Ausführungsform umfasst das Verfahren ferner folgende Schritte: Bestimmen einer Rückkopplungsfrequenz, welche eine Rückkopplung des Audiosignals repräsentiert; Filtern des Audiosignals mit einem Rückkopplungsfilter auf der Grundlage der bestimmten Rückkopplungsfrequenz, um Rückkopplungen repräsentierende Spektralanteile des Audiosignals zu reduzieren. Zum Bestimmen der Rückkopplungsfrequenz werden vorzugsweise die bereits vorliegenden Spektralwerte herangezogen, sodass diese hierfür nicht neu bestimmt werden müssen. Rückkopplungen entstehen, wenn wiedergegebene Signalanteile von dem Mikrofon nochmals aufgezeichnet und verstärkt werden, sodass sich ein instabiler Systemzustand einstellt, der akustisch durch eine starke Resonanz, z.B. durch Brummen oder einen schrillen Pfeifton, wahrnehmbar ist. Das Rückkopplungsfilter wirkt der Entstehung derartiger Kopplungseffekte entgegen, sodass die Signalqualität nicht beeinträchtigt wird. Das Rückkopplungsfilter kann als ein spezielles Entzerrfilter angesehen werden.
  • Das Bestimmen der Rückkopplungsfrequenz umfasst vorzugsweise folgende Schritte: Bestimmen einer Untermenge von Spektralwerten des Audiosignals, die einen vorbestimmten Spektralschwellenwert verletzen; Bestimmen von mehreren zweiten Spektralparameterwerten auf der Grundlage der Untermenge, wobei jeder der zweiten Spektralparameterwerte eine vorbestimmte Relation zwischen einem zugeordneten Spektralwert der Untermenge und wenigstens einem zeitlich und/oder spektral benachbarten Spektralwert repräsentiert; und Bestimmen der Rückkopplungsfrequenz auf der Grundlage der mehreren zweiten Spektralparameterwerte. Der Rechenaufwand zur Bestimmung der Rückkopplungsfrequenz kann durch die schwellenwertbasierte Vorselektion von Spektralwerten stark reduziert werden, sodass die Echtzeitfähigkeit des Verfahrens begünstigt wird. Eine vorbestimmte Relation zwischen Spektralwerten kann insbesondere durch eine mathematische Verknüpfung der Spektralwerte gebildet werden, z.B. durch Verwendung von mathematischen Operatoren, wie Division oder Addition. Auf diese Weise können bestimmte Eigenschaften des Spektrums, die für eine Rückkopplungsfrequenz typisch sind, effizient erfasst werden.
  • Von besonderem Vorteil ist es, dass wenn die bestimmte Rückkopplungsfrequenz zwischen aufeinanderfolgenden Zeitabschnitten des Audiosignals verschwindet, die Wirksamkeit des Rückkopplungsfilters über mehrere Zeitabschnitte schrittweise reduziert wird. Auf diese Weise wird besonders zuverlässig gewährleistet, dass eine etwaige Rückkopplungsfrequenz wirksam aus dem Signal entfernt wird. Darüber hinaus werden eventuell wahrnehmbare Filterfluktuationen vermieden. Die schrittweise Reduktion des Rückkopplungsfilters erfolgt vorzugsweise nach dem Schema eines endlichen Automaten.
  • Nach einer weiteren Ausführungsform ist zur Filterung des Audiosignals ein Pausenfilter vorgesehen, um das Audiosignal in Bereichen außerhalb der detektierten Sprachabschnitte zu reduzieren. Hierdurch können z.B. zeitliche Maskierungseffekte durch Hintergrundstörgeräusche abgeschwächt werden.
  • Ferner kann das Audiosignal mit einem Rauschfilter gefiltert werden, um das Audiosignal in Bereichen mit Amplitudenwerten, die einen vorbestimmten Rauschschwellenwert verletzen, zu reduzieren. Insbesondere können auf diese Weise sehr kleine Amplitudenwerte, die unterhalb eines Schwellenwerts liegen und für eine gute Signalqualität irrelevant sind, im Wesentlichen vollständig entfernt werden. Das Entstehen von Rückkopplungen wird hierdurch entgegengewirkt. Vorzugsweise wird ein Noisegate-filter eingesetzt.
  • Nach einer weiteren Ausführungsform wird das Audiosignal mit einem Bandpassfilter gefiltert. Eine untere Grenzfrequenz des Bandpassfilters liegt vorzugsweise in einem Bereich von 50 bis 100 Hz. Eine obere Grenzfrequenz des Bandpassfilters liegt vorzugsweise in einem Bereich von 8000 bis 10000 Hz.
  • Die vorstehend beschriebenen Verfahrensaspekte können als Befehle in einem nicht-flüchtigen Speicher hinterlegt sein. Wenn die Befehle von einer Recheneinheit ausgeführt werden, wird die Recheneinheit durch die Befehle veranlasst, das beschriebene Verfahren gemäß einer Ausführungsform auszuführen. Allgemein kann das Verfahren somit teilweise oder vollständig durch einen Computer implementiert sein.
  • Die Aufgabe der Erfindung wird gemäß einem zweiten Aspekt gelöst durch eine Vorrichtung mit den Merkmalen des unabhängigen Vorrichtungsanspruchs.
  • Eine Vorrichtung zur Verbesserung eines Audiosignals, welches Sprache aufweist, umfasst einerseits wenigstens eine Eingangsschnittstelle zum Erfassen eines Audiosignals. Die Eingangsschnittstelle kann insbesondere einen Anschluss für ein Mikrofon aufweisen, um das Audiosignal zu erfassen. Andererseits ist wenigstens eine Ausgangsschnittstelle zum Ausgeben des Audiosignals vorgesehen. Beispielsweise kann die Ausgangsschnittstelle einen Anschluss für ein Audiowiedergabegerät, z.B. eine Beschallungsanlage mit ein oder mehreren Schallwandlern aufweisen. Die Vorrichtung weist außerdem eine Recheneinheit zum Ausführen eines Verfahrens zur Verbesserung des Audiosignals auf. Das Verfahren kann insbesondere nach einem der vorhergehenden Ausführungsformen ausgebildet sein.
  • Die Vorrichtung ist vorzugsweise als ein kompaktes Audiogerät ausgebildet, sodass es sich insbesondere auch für den mobilen Einsatz besonders eignet.
  • Die Vorrichtung weist vorzugsweise einen nicht-flüchtigen Speicher auf, in dem Befehle zur Ausführung des Verfahrens hinterlegt sind. Der Speicher ist hierzu mit der Recheneinheit koppelbar.
  • Die Recheneinheit umfasst vorzugsweise einen Analog-zu-Digital-Umsetzer sowie einen Digital-zu-Analog-Umsetzer. Die Verbesserung des Audiosignals kann somit zumindest teilweise auf der Grundlage einer digitalen Version des Audiosignals erfolgen. Das Verfahren kann somit einerseits besonders effizient durchgeführt werden. Andererseits kann eine hohe Filterungsqualität gewährleistet werden.
  • Die Eingangs- oder Ausgangsschnittstelle kann jeweils als drahtgebundene Schnittstelle ausgeführt sein, um eine Kompatibilität mit anderen professionellen Tongeräten zu gewährleisten und Übertragungsverluste zu minimieren. Es ist jedoch auch denkbar, die Schnittstellen jeweils drahtlos auszubilden, wobei die Schnittstellen hierfür auch zu einer gemeinsamen Drahtlosschnittstelle zusammengefasst sein können.
  • Weitere Ausführungsformen der Vorrichtung sind in den abhängigen Ansprüchen, der nachfolgenden Beschreibung sowie den Zeichnungen beschrieben. Es versteht sich jedoch, dass auch beschriebene Verfahrensmerkmale in entsprechender Weise in der Vorrichtung verwirklicht sein können, insbesondere durch entsprechende Konfiguration der Recheneinheit. Umgekehrt können auch hier beschriebene Vorrichtungsmerkmale hinsichtlich ihrer Funktion als Verfahrensmerkmale einen Teil des Verfahrens bilden.
  • Gemäß einer Ausführungsform umfasst die Vorrichtung ferner einen Vorverstärker für das Audiosignal, der mit der Eingangsschnittstelle koppelbar ist. Auf diese Weise kann das Audiosignal vorteilhaft vor einer Abtastung auf einen vorbestimmten Pegelbereich verstärkt werden. Für den Vorverstärker können mehrere vorbestimmte Verstärkungswerte vorgesehen sein, wobei einer der Verstärkungswerte vorzugsweise automatisch oder durch einen Bediener der Vorrichtung ausgewählt und der Verstärkung zugrunde gelegt wird.
  • Die Vorrichtung verfügt vorzugsweise über eine elektrische Versorgung für die Eingangsschnittstelle. Somit wird im Sinne einer sogenannten Phantomspeisung eine elektrische Versorgung eines angeschlossenen Schallwandlers, z.B. eines Mikrofons, über die Eingangsschnittstelle ermöglicht.
  • Gemäß einer weiteren Ausführungsform weist die Vorrichtung ferner eine Schalteinrichtung auf, die mit der Eingangsschnittstelle, der Ausgangsschnittstelle und/oder der Recheneinheit koppelbar ist, um die Eingangsschnittstelle wahlweise über die Recheneinheit mit der Ausgangsschnittstelle zu verbinden. Mit anderen Worten kann die Recheneinheit überbrückt werden. Auf diese Weise kann eine Ausgabe des Audiosignals auch im Falle einer Fehlfunktion der Recheneinheit gewährleistet werden.
  • Um eine zuverlässige Funktion der Vorrichtung auch im Dauerbetrieb zu ermöglichen, ist die Vorrichtung vorzugsweise mit einer Kühleinrichtung versehen. Sämtliche Komponenten der Vorrichtung einschließlich der Recheneinheit können somit in einem kompakten Gehäuse aufgenommen sein, wobei z.B. Abwärme der Recheneinheit dennoch wirksam durch die Kühleinrichtung abgeführt werden kann, um die Funktion der Recheneinheit nicht zu beeinträchtigen und die Lebensdauer aller Komponenten nicht zu verkürzen.
  • Die Recheneinheit kann vorteilhaft einen Einplatinenrechner aufweisen, sodass die Vorrichtung insgesamt besonders kompakt ausgebildet werden kann. Die Vorrichtung kann außerdem ein Gehäuse aufweisen, in das insbesondere alle elektrischen Komponenten der Vorrichtung aufgenommen sein können, um auf diese Weise vor äußeren Einflüssen geschützt zu werden. Die Recheneinheit kann einen oder mehrere Prozessoren sowie einen Speicher aufweisen, in dem Befehle zur Ausführung des Verfahrens gespeichert werden können.
  • Zur Konfiguration der Vorrichtung weist die Vorrichtung vorzugsweise wenigstens eine externe Kommunikationsschnittstelle auf. Beispielsweise kann die Vorrichtung mit einer Netzwerkschnittstelle, z.B. einer Ethernet-Schnittstelle, oder einer Bus-Schnittstelle ausgestattet sein, um über ein Netzwerk oder direkt mit einem Benutzerendgerät, beispielsweise einem PC oder einem mobilen Endgerät, wie etwa einem Laptop verbunden zu werden. Es kann auch eine Anbindung an drahtlose Endgeräte über das Internet erfolgen, um eine Anbindung an einen zentralen Server (Cloud) zu ermöglichen. Die Steuerungsschnittstelle kann auch als Drahtlosschnittstelle ausgebildet sein, sodass die Vorrichtung unmittelbar mit einem mobilen Endgerät verbunden werden kann (z.B. über Bluetooth oder ein lokales Drahtlosnetzwerk). Die Kommunikation mit der Vorrichtung, z.B. zum Zwecke der Konfiguration, kann somit besonders komfortabel erfolgen. Über die Kommunikationsschnittstelle können insbesondere Steuerungsdaten, z.B. Filterparameter zur Ausführung des beschriebenen Verfahrens zur Verbesserung eines Audiosignals eingestellt werden. Dies kann insbesondere aus der Ferne erfolgen, sodass eine Konfiguration durch den Endnutzer der Vorrichtung vollständig vermieden werden kann. Zusätzlich oder alternativ kann die Kommunikationsschnittstelle zur Übertragung des Audiosignals an ein mobiles Endgerät oder einen zentralen Server ausgebildet sein. Auf diese Weise kann das Audiosignal z.B. zu Dokumentationszwecken in dem Endgerät oder in einer Cloud gespeichert werden. Zur Übertragung an einen zentralen Server ist die Kommunikationsschnittstelle vorzugsweise als Ethernet-Schnittstelle ausgebildet, die auch eine Übertragung von Audiosignalen ermöglicht (z.B. unter Verwendung von Dante, Milan, AES (Advanced Encryption Standard).
  • Außerdem kann über eine Kommunikationsschnittstelle der Vorrichtung eine Firmware der Vorrichtung aktualisiert werden. Vorzugsweise ist eine Kommunikationsschnittstelle in Form einer separaten Busschnittstelle vorgesehen, die insbesondere zum Anschließen eines Speichermediums, z.B. eines Massenspeichers in Form eines USB-Sticks oder dergleichen dient. Auf dem Speichermedium können einerseits Konfigurations- und/oder Aktualisierungsdaten gespeichert sein, die an die Vorrichtung übertragen werden, um die lokal gespeicherten Daten zu aktualisieren. Darüber hinaus kann das Audiosignal zu Aufnahmezwecken an das Speichermedium ausgegeben und in dem Speichermedium gespeichert werden. Hierzu ist die Vorrichtung vorzugsweise mit einer Bedienschnittstelle ausgestattet, um die Aufnahme des Audiosignals unmittelbar an der Vorrichtung steuern zu können.
  • Die Offenbarung bezieht sich ferner auf ein Verfahren zur selektiven Verbesserung eines ersten Audiosignals unter Verwendung eines Audioverarbeitungsmittels, wobei das erste Audiosignal zumindest abschnittsweise Sprache aufweist und das Verfahren zumindest folgende Schritte umfasst: Feststellen, ob das Audioverarbeitungsmittel einen vorbestimmten Tauglichkeitszustand aufweist; Wenn das Audioverarbeitungsmittel den vorbestimmten Tauglichkeitszustand aufweist, Ausführen eines Verfahrens zur Verbesserung des ersten Audiosignals unter Verwendung des Audioverarbeitungsmittels, um ein zweites Audiosignal bereitzustellen; Wenn das Audioverarbeitungsmittel den vorbestimmten Tauglichkeitszustand nicht aufweist, Bereitstellen des ersten Audiosignals. Das Verfahren ermöglicht somit eine selektive Verwendung des Audioverarbeitungsmittels in Abhängigkeit von seinem Tauglichkeitszustand. Fehlfunktionen des Audioverarbeitungsmittels führen somit nicht dazu, dass kein Audiosignal mehr ausgegeben wird und die Nutzerzufriedenheit beeinträchtigt wird. Im Falle einer Fehlfunktion wird zumindest das erste Audiosignal bereitgestellt, sodass z.B. für Beschallungsanlagen ein brauchbares Audiosignal zur Verfügung steht und auf diese Weise eine Basisfunktionalität erhalten bleibt. Das Verfahren kann insbesondere durch eine Schalteinrichtung verwirklicht werden, welche in einer Vorrichtung z.B. als schaltbares Relais ausgeführt sein kann. Alternativ kann die Schaltfunktionalität auch durch die Recheneinheit selbst verwirklicht werden. Eine separate Schalteinrichtung besitzt jedoch den Vorteil eines Schutzes gegenüber einem vollständigen Ausfall der Recheneinheit, in dem keinerlei Durchleitung des Signals erfolgen kann.
  • Die hierin offenbarten Verfahren sind vorzugsweise mit der beschriebenen Vorrichtung ausführbar. Es ist jedoch auch möglich, die Verfahren ganz oder teilweise auf einem beliebigen Computer, insbesondere einem zentralen Server auszuführen. Beispielsweise kann das Audiosignal lokal erfasst und auf einen Server übertragen werden, wo die Signalverbesserung ausgeführt wird. Sodann kann das verbesserte Signal an einen lokalen Empfänger übermittelt werden, um es mit einem Schallwandler wiederzugeben.
  • Die Erfindung wird nachfolgend rein beispielhaft anhand der Zeichnungen weiter erläutert. Die Zeichnungen zeigen im Einzelnen:
  • Fig. 1
    ein Blockdiagramm zur Illustration eines Verfahrens zur Verbesserung eines Audiosignals;
    Fig. 2
    ein Blockdiagramm zur Illustration eines Verfahrens zum Detektieren von Sprachabschnitten eines Audiosignals;
    Fig. 3
    Frequenzgänge von Oktavfiltern zur Bestimmung von Grobspektralwerten für ein Entzerrfilter für das Verfahren nach Fig. 1;
    Fig. 4
    ein Blockdiagramm zur Illustration eines Verfahrens zum Bestimmen einer Rückkopplungsfrequenz;
    Fig. 5
    ein Blockdiagramm zur Illustration eines schrittweisen Reduzierens eines Rückkopplungsfilters;
    Fig. 6
    eine schematische Darstellung eines Geräts zur Audiosignalverbesserung;
    Fig. 7
    eine Anordnung mit dem Gerät von Fig. 7.
  • In den Figuren sind gleiche oder sich entsprechende Elemente mit denselben Bezugszeichen gekennzeichnet.
  • Ein Verfahren zur Verbesserung eines Audiosignals wird nachfolgend mit Bezug auf Fig. 1 beschrieben.
  • Ein analoges Audiosignal wird mit einem nicht gezeigten Mikrofon erfasst (Schritt 10), wobei das Audiosignal mehrere Sprachabschnitte sowie mehrere Rauschabschnitte aufweist. Die Sprachabschnitte weisen Sprache auf und bilden einen Sprachsignalanteil. Die Rauschabschnitte sind durch alle übrigen Abschnitte gebildet, die keine Sprache aufweisen, insbesondere in Sprechpausen.
  • In Schritt 12 wird das Audiosignal vorverstärkt, d.h. als analoges Signal mit einem Verstärkungsfaktor elektronisch verstärkt. Für einen entsprechenden Vorverstärker (in Fig. 1 nicht gezeigt) kann eine feste Verstärkung eingestellt sein. Alternativ kann durch einen Benutzer einer von mehreren voreingestellten Verstärkungswerten in Abhängigkeit eines aufnahmebedingten Grundpegels ausgewählt werden, um ein nachfolgendes Pegelfilter zur Reduktion von Pegelvariationen zu entlasten.
  • Das vorverstärkte Audiosignal wird in Schritt 14 von einem analogen Signal zu einem digitalen Signal umgewandelt. Dies erfolgt vorzugsweise mittels eines Analog-zu-Digital-Umsetzer, welcher das Analogsignal mit einer vorbestimmten Abtastrate, z.B. 48.000 Hz abtastet. Der Schritt 14 kann alternativ auch nach dem Schritt 16 erfolgen, der im Folgenden erläutert wird.
  • Das Audiosignal wird in Schritt 16 mit einem Pegelfilter verarbeitet, um Variationen des Signalpegels auszugleichen. Das Pegelfilter wird hierzu in Abhängigkeit von ersten Filterdaten 44 betrieben, die auf der Grundlage des Audiosignals am Ausgang des Pegelfilters in Schritt 18 ermittelt werden. Sie umfassen erste Lautstärkewerte, detektierte Sprachabschnitte sowie detektierte Pegelspitzen. Pegelspitzen sind detektierte Signalpegel, die größer als ein vorbestimmter Pegelschwellenwert sind, in dem das Signal übersteuert (Clipping).
  • Die Lautstärkewerte werden für einzelne Blöcke des Audiosignals ermittelt, die vorzugsweise jeweils eine Länge von 64 Abtastwerten aufweisen. Für jeden Block wird ein erster Lautstärkewert ermittelt, indem die quadrierten Abtastwerte des Blocks aufsummiert werden und sodann die Quadratwurzel der Summe ermittelt wird. Es werden auf diese Weise sogenannte RMS-Werte (Root-Mean-Square) gebildet, die jeweils eine mittlere Energie des zugrundeliegenden Blocks von Abtastwerten repräsentieren.
  • Vorzugsweise werden für das Pegelfilter die RMS-Werte von mehreren Blöcken herangezogen. Zur Detektion von Pegelspitzen werden hierzu die RMS-Werte des aktuellen Blocks sowie des vorhergehenden Blocks gemeinsam ausgewertet, wobei eine Pegelspitze detektiert wird, wenn mindestens einer der beiden RMS-Werte einen vorbestimmten Schwellenwert überschreitet, zum Beispiel - 3 dB. Im Falle einer detektierten Pegelspitze wird diese Information als Teil der ersten Filterdaten 44 in Schritt 16 berücksichtigt. In Ansprechen auf eine detektierte Pegelspitze wird die Verstärkung des Pegelfilters in Schritt 16 stark und schnell vermindert, zum Beispiel mit einer Rate von - 3 dB innerhalb von 200 ms. Auf diese Weise werden Pegelspitzen effektiv entfernt. Vorzugsweise werden Pegelspitzen unabhängig davon gefiltert, ob der betreffende Abschnitt des Audiosignals ein Sprachabschnitt ist oder nicht.
  • Das Pegelfilter von Schritt 16 ist ferner so konfiguriert, dass der Pegel des Audiosignals auf einen vorbestimmten Wert eingestellt wird. Hierzu werden die RMS-Werte des aktuellen Blocks sowie einer Vielzahl von mehreren vorhergehenden Blöcken, zum Beispiel 30 vorhergehenden Blöcken, herangezogen. Die RMS-Werte werden über die betrachteten Blöcke geglättet, sodass kurzzeitige Schwankungen entfernt werden, die für die menschliche Wahrnehmung (mit Ausnahme der separat behandelten Pegelspitzen) irrelevant sind. Vorzugsweise wird zur Glättung der Median der betrachteten RMS-Werte gebildet, um zweite Lautstärkewerte zu erhalten, die den aktuellen Signalpegel gehörgerecht angeben. Sodann wird ein Kompensationsgewicht bestimmt, der die Differenz zwischen einem vorbestimmten Referenzwert und dem aktuellen zweiten Lautstärkewert repräsentiert. Beispielsweise kann der aktuelle Lautstärkewert von einer Referenzlautstärke von - 20 dB subtrahiert werden, um ein Kompensationsgewicht zu bilden. Das Kompensationsgewicht wird sodann mit dem Audiosignal gewichtet, z.B. multipliziert, um die Lautstärke mit der Referenzlautstärke in Übereinstimmung zu bringen.
  • Vorzugsweise wird die maximale zeitliche Änderung des Kompensationsgewichts begrenzt, zum Beispiel auf 5 dB pro Sekunde. Auf diese Weise werden unnatürliche Fluktuationen in der Lautstärke des Audiosignals vermieden.
  • Darüber hinaus wird die Einstellung des Signalpegels mit Bezug auf die Referenzlautstärke vorzugsweise nur in solchen Abschnitten des Audiosignals durchgeführt, die als Sprachabschnitte detektiert worden sind. Die Information, welche Abschnitte als Sprachabschnitte detektiert worden sind, wird als Teil der Filterdaten 44 dem Pegelfilter von Schritt 16 bekanntgemacht.
  • Die Detektion von Sprachabschnitten erfolgt in Schritt 18 und wird im Folgenden anhand von Fig. 2 erläutert.
  • Die Detektion von Sprachabschnitten erfolgt auf der Grundlage von Amplitudenwerten 54 und Spektralwerten 56, wobei die Amplitudenwerte 54 das Audiosignal im Zeitbereich und die Spektralwerte 56 das Audiosignal im Frequenzbereich repräsentieren. Die Amplitudenwerte 54 sind durch die Abtastwerte des digitalen Audiosignals nach Schritt 14 gebildet. Die Spektralwerte 56 werden blockweise durch schnelle Fouriertransformationen (FTP) auf der Grundlage der Amplitudenwerte 54 ermittelt. Es können grundsätzlich jedoch auch andere Frequenztransformationen eingesetzt werden. Die Blocklänge zur Ermittlung der Spektralwerte 56 beträgt vorzugsweise 1024 Amplitudenwerte (Abtastwerte), wobei sich benachbarte Blöcke vorzugsweise um die Hälfte überlappen und die betreffenden Amplitudenwerte jedes Blocks vor der Transformation mit einem Hann-Fenster gewichtet werden, um unerwünschte Spektralanteile, die durch die Blockgrenzen verursacht werden, zu reduzieren. Ferner werden die Spektralwerte 56 mit einem vorbestimmten Faktor gewichtet, sodass die Spektralwerte 56 auf einen Bereich zwischen 0 und 1 normalisiert werden. Der Faktor hängt insbesondere von dem verwendeten Fenster ab. Im Fall des bevorzugten Hann-Fensters kann vorteilhaft ein Faktor von 0,00391 verwendet werden.
  • In Schritt 58 von Fig. 2 werden drei Parameter bestimmt und jeweils daraufhin geprüft, ob ein zugeordnetes Schwellenwertkriterium verletzt wird. Ein erster Parameterwert wird durch den oben beschriebenen RMS-Wert auf der Grundlage der Amplitudenwerte 54 gebildet. Der erste Parameterwert kann auch als Kurzzeitenergie (STE = Short Time Energy) bezeichnet werden, weil er die mittlere Energie über einen Block mit einer relativ kurzen Länge von 64 Amplitudenwerten repräsentiert. Sofern der erste Parameterwert einen zugeordneten Schwellenwert überschreitet (Schritt 62), zeigt der erste Parameterwert einen Sprachabschnitt an, andernfalls einen Rauschabschnitt (kein Sprachabschnitt). Hohe RMS-Werte können insbesondere durch Konsonanten hervorgerufen werden und deuten somit auf Sprache hin.
  • Ein zweiter Parameterwert wird auf der Grundlage der Spektralwerte 56 ermittelt und gibt die Ausprägung einer harmonischen Obertonstruktur des Frequenzspektrums an. Insbesondere stellt der zweite Parameterwert ein Maß für die spektrale Flachheit des Frequenzspektrums dar, das durch die Spektralwerte 56 repräsentiert wird (Spectral Flatness, SF). Der zweite Parameterwert wird vorzugsweise durch Division des geometrischen Mittelwerts der Spektralwerte 56 und des arithmetischen Mittelwerts der Spektralwerte 56 bestimmt. Der zweite Parameterwert wird sodann mit einem zugeordneten Schwellenwert verglichen (Schritt 62). Wenn der Schwellenwert unterschritten wird, zeigt der zweite Parameterwert einen Sprachabschnitt an, andernfalls einen Rauschabschnitt. Hohe Werte des zweiten Parameters deuten auf rauschartigen Blöcke hin, die untypisch für Sprache sind. Im Gegensatz zu dem ersten Parameter bezieht sich der zweite Parameter aufgrund der Spektralwerte auf eine deutlich längere Blocklänge von 1024, sodass die üblicherweise deutlich kürzeren Konsonanten gegenüber einer ansonsten tonalen Charakteristik nicht ins Gewicht fallen.
  • Außerdem wird ein dritter Parameterwert bestimmt, der angibt, ob ein Maximum der Spektralwerte 56 in einem vorbestimmten Frequenzbereich liegt. Hierzu wird vorzugsweise ermittelt, ob der Spektralwert, dessen Betrag ein Maximum gegenüber den übrigen Spektralwerten 56 eines Blocks bildet (Schritt 58), in einem Frequenzbereich zwischen 70 und 250 Hz liegt, d.h. es wird geprüft, ob der maximale Spektralwert eine Frequenz repräsentiert, die größer als ein unterer Frequenzschwellenwert und kleiner als ein oberer Frequenzschwellenwert ist (Schritt 62). Zutreffendenfalls zeigt der dritte Parameterwert einen Sprachabschnitt an, andernfalls einen Rauschabschnitt. Die Grundfrequenz von Sprache liegt in der Regel im Bereich zwischen 70 und 250 Hz, sodass ein Maximum der Spektralwerte 56 in diesem Bereich auf Sprache hinweist.
  • Für die ersten und zweiten Parameterwerte sind vorzugsweise adaptive Schwellenwerte vorgesehen, um variable Distanzen zwischen einem jeweiligen Sprecher und dem aufzeichnenden Mikrofon zu kompensieren. Der Schwellenwert wird für einen betreffenden Block adaptiv auf der Grundlage der Parameterwerte von mehreren vorhergehenden Blöcken bestimmt (Schritt 60), wobei die vorhergehenden Blöcke vorzugsweise detektierte Sprachabschnitte und Rauschabschnitte umfassen. Beispielsweise werden zur Bestimmung des Schwellenwerts für den ersten Parameterwert die ersten Parameterwerte von 30 vorhergehenden als Sprachabschnitt klassifizierten Blöcken und die ersten Parameterwerte von dreißig vorhergehenden als Rauschabschnitt klassifizierten Blöcken herangezogen. Die ersten Parameterwerte werden für jeden Abschnittstyp aufsummiert und die erhaltenen Summen voneinander subtrahiert. Das Ergebnis wird mit einem Gewichtungsfaktor gewichtet, um den zugeordneten Schwellenwert für den ersten Parameterwert des aktuellen Blocks zu erhalten. Auf diese Weise wird gewährleistet, dass der Schwellenwert an das aktuelle Betragsniveau des ersten Parameterwerts angepasst wird, um Falschklassifikationen zu vermeiden. Der Gewichtungsfaktor wird vorzugsweise zwischen 0 und 1 eingestellt und steuert die Empfindlichkeit der Detektion.
  • Nach dem Prinzip des Schwellenwerts für den ersten Parameter wird vorzugsweise auch der Schwellenwert für den zweiten Parameter ermittelt. Hierbei wird die Berechnungsvorschrift jedoch invertiert, da der zweite Parameter mit abnehmendem Betrag Sprache indiziert und somit im Vergleich zum ersten Parameter umgekehrt mit Sprache korreliert ist. Folglich wird die Summe der zweiten Parameterwerte für Sprachabschnitte von der Summe der zweiten Parameterwerte für Rauschabschnitte subtrahiert und mit einem Gewichtungsfaktor beaufschlagt, der vorzugsweise zwischen 0 und 1 liegt und die Empfindlichkeit der Detektion steuert.
  • In Schritt 64 werden die drei Parameter gemeinsam ausgewertet und festgestellt, ob die Parameterwerte jeweils das zugeordnete Schwellenwertkriterium verletzen oder nicht. Wenn zwei der drei Parameterwerte einen Sprachabschnitt anzeigen, d.h. dass jeweils zugeordnete Schwellenwertkriterium verletzen, wird der betreffende Block vorläufig als Sprachabschnitt detektiert.
  • Um stark fluktuierende Detektionsergebnisse zu vermeiden, insbesondere nicht plausible alternierende Wechsel zwischen Sprachabschnitten und Rauschabschnitten, wird ein Wechsel zwischen einem Sprachabschnitt und einem Rauschabschnitt und umgekehrt nur dann zugelassen, wenn eine vorbestimmte Anzahl von aufeinanderfolgenden Blöcken als Sprachabschnitt oder Rauschabschnitt klassifiziert worden sind (Schritt 66 und 68). Beispielsweise müssen nach einem als Rauschabschnitt detektierten Block fünf unmittelbar aufeinanderfolgende Blöcke vorläufig als Sprachabschnitt detektiert werden, um diese Blöcke final als Sprachabschnitt zu detektieren (Schritt 70). Andernfalls werden die Blöcke weiterhin als Rauschabschnitte detektiert (Schritt 72). Umgekehrt müssen nach einem als Sprachabschnitt detektierten Block z.B. acht unmittelbar aufeinanderfolgende Blöcke vorläufig als Rauschabschnitt detektiert werden, um diese Blöcke final als Rauschabschnitte zu detektieren (Schritt 72). Andernfalls werden die Blöcke weiterhin als Sprachabschnitte detektiert (Schritt 70).
  • Im Folgenden werden weitere Schritte des Verfahrens von Fig. 1 erläutert. In Schritt 20 wird das Audiosignal mit einem festen Verstärkungsfaktor gewichtet, um Pegelverluste durch nachfolgende Filter vorab zu kompensieren. Beispielsweise kann das Signal um 3 bis 6 dB verstärkt werden.
  • In Schritt 22 wird das Audiosignal mit einem Rauschfilter gefiltert, welches dazu angepasst ist, sehr leise Abschnitte des Audiosignals zu reduzieren. Hierbei wird davon ausgegangen, dass sehr leise Signalabschnitte keine relevante Information beinhalten und die empfundene Sprachqualität insoweit allenfalls negativ beeinträchtigen können. Insbesondere wird durch eine Reduktion des Signalpegels in sehr leisen Signalabschnitten das Risiko von Rückkopplungen reduziert. Als Rauschfilter kann insbesondere ein sogenanntes Noise-Gate verwendet werden, welches dazu angepasst ist, leise Signalabschnitte zu unterdrücken. Als Kriterium zur Erkennung von leisen Signalabschnitten wird ein Schwellenwert zugrunde gelegt, der mit dem aktuellen Signalpegel verglichen wird. Sofern der aktuelle Signalpegel den Schwellenwert unterschreitet, wird das Rauschfilter aktiviert. Der Schwellenwert liegt vorzugsweise deutlich unterhalb der in Schritt 16 eingestellten Referenzlautstärke. Beispielsweise kann der Schwellenwert bei -55 dB liegen. Bei Unterschreiten des Schwellenwerts wird das Audiosignal mit einem Ratio im Bereich von 5 bis 10 abgesenkt. Als Anstiegszeit (attack time) und Ausklingzeit (release time) werden vorzugsweise Werte im Bereich von 10 ms bzw. 100 ms verwendet.
  • In Schritt 24 werden zweite Filterparameter 46 bestimmt, welche für die nachfolgenden Schritte 32, 34 und 36 herangezogen werden. Die zweiten Filterparameter 46 umfassen einerseits die bereits in Schritt 18 detektierten Sprachabschnitte 52. Außerdem werden Oktavspektralwerte 48 bestimmt, die im Vergleich zu den Spektralwerten 56 eine gröbere Spektralauflösung aufweisen, die der auditorischen Wahrnehmung des Menschen nachgebildet ist. Hierzu werden die z.B. mittels FFT bestimmten Spektralwerte 56 mit einer Oktavfilterbank gefiltert. Die Oktavfilterbank umfasst insgesamt acht sich im Spektralbereich überlappende Filter, die in Fig. 3 beispielhaft durch Betragsfrequenzgänge 37 über die Frequenz F und den Betrag G dargestellt sind. Die Frequenzgänge 37 weisen ihr jeweiliges Maximum bei einer filtereigenen Mittenfrequenz fc auf und fallen zu kleineren und größeren Frequenzwerten hin ab. Die Mittenfrequenzen fc betragen vorzugsweise 63, 125, 250, 500, 1000, 2000, 4000 und 8000 Hz. Die Grenzfrequenzen (Betragsfrequenzgang von - 3 dB) können auf der Grundlage der jeweiligen Mittenfrequenz fc generisch berechnet werden. Die untere Grenzfrequenz beträgt 32fc/45 und die obere Grenzfrequenz beträgt 45fc/32. Zur Filterung werden die in ein jeweiliges Filter fallenden Spektralwerte gewichtet aufsummiert, wobei die Gewichte jeweils den Betragsfrequenzgang bei der Frequenz des betreffenden Spektralwerts repräsentieren.
  • In Schritte 24 werden ferner Rückkopplungsfrequenzen 50 bestimmt, die als Teil der Filterdaten 46 für ein Rückkopplungsfilter verwendet werden, welches in Schritt 34 zum Einsatz kommt. Die Bestimmung der Rückkopplungsfrequenzen wird nachfolgend anhand von Fig. 4 näher erläutert.
  • Aus den Spektralwerten 56 werden mittels einer Maximalwertanalyse mehrere Kandidaten selektiert, die mögliche Rückkopplungsfrequenzen repräsentieren. Beispielsweise können als Kandidaten aus den Spektralwerten 56 diejenigen Spektralwerte herausgesucht werden, die jeweils den höchsten Betrag aller Spektralwerte eines Blocks aufweisen und von Spektralwerten mit ähnlichem Betrag benachbart sind. Die Kandidaten repräsentieren somit die Maxima von ausgeprägten Extrema des Spektrums. Für jeden Kandidaten werden drei Parameterwerte bestimmt (Schritt 74) und mit einem jeweiligen Schwellenwert verglichen (Schritt 78). Die Schwellenwerte sind für jeden Parameter vorzugsweise fest eingestellt, weil die Parameter in der Regel unempfindlich gegen eine im Vergleich zum Hintergrundrauschen geringe Sprachsignallautstärke sind.
  • Ein erster Parameter repräsentiert das Verhältnis zwischen dem Betrag des Kandidaten und den zugehörigen Harmonischen (Peak-to-Harmonic Ratio, PHPR). Vorzugsweise werden die ersten beiden Harmonischen herangezogen, d.h. die Spektralwerte, die im Vergleich zum Kandidaten die doppelte und dreifache Frequenz repräsentieren. Hohe PHPR-Werte deuten auf eine Rückkopplungsfrequenz (Feedbackfrequenz) hin, weil Sprache in der Regel eine klare Obertonstruktur mit Harmonischen aufweist.
  • Ein zweiter Parameter repräsentiert das Verhältnis zwischen dem Betrag des Kandidaten und dem Betrag von unmittelbar benachbarten Spektralwerten (Peak-to-Neighbouring Ratio, PNPR). Vorzugsweise werden die ersten drei benachbarten Spektralwerte in jeder Frequenzrichtung herangezogen. Hohe PNPR-Werte deuten auf eine Rückkopplungsfrequenz hin, weil Sprache in der Regel weniger steile Frequenzmaxima aufweist.
  • Ein dritter Parameter repräsentiert den zeitlichen Verlauf des Betrags des Kandidaten (Interframe Magnitude Slope Deviation, IMSD). Vorzugsweise wird der mittlere Anstieg des Betrags des Kandidaten sowie mehrerer benachbarter Spektralwerte über fünf vorhergehende Blöcke ermittelt. Positive IMSD-Werte von z.B. 0,5 dB deuten typischerweise auf eine Rückkopplungsfrequenz hin, weil der Betrag der Grundfrequenz von Sprache über mehrere Blöcke hinweg in der Regel nicht ansteigt.
  • Für weiteren Informationen zur Berechnung der Parameter wird auf die Veröffentlichung, T.V. Waterschoot, M. Moonen, "Comparative Evaluation of Howeling Detection Criteria in Notch-Filter-Based Howling Supression", Journal ofthe Audio Engineering Society, Vol. 58, pp. 923-940, 2010, verwiesen.
  • Wenn alle drei Parameter zur Bestimmung der Rückkopplungsfrequenz für einen betreffenden Kandidaten das zugeordnete Schwellenwertkriterium verletzen, wird die Rückkopplungsfrequenz vorzugsweise als ein Maximums des Spektrums im Bereich des betreffenden Kandidaten ermittelt. Hierzu wird das Spektrum auf der Grundlage des Kandidaten und der benachbarten Spektralwerte mit einer Interpolationsfunktion (z.B. durch parabolische Interpolation) interpoliert und sodann das Maximum der Interpolationsfunktion gebildet. Dieses Maximum kann insbesondere zwischen zwei Spektralwerten liegen, sodass das interpolierte Maximum genauer ist. Die auf diese Weise bestimmte Rückkopplungsfrequenz wird als Teil der Filterdaten 50 dem Rückkopplungsfilter zugrunde gelegt (Schritt 34).
  • Zur Entlastung der Rechnerressourcen ist es bevorzugt, für einen vorbestimmten Zeitraum nach einer erfolgreich bestimmten Rückkopplungsfrequenz den zugrundeliegenden Kandidaten nicht erneut der Parameteranalyse zu unterziehen, wenn der Kandidat erneut als solcher identifiziert wird. Beispielsweise werden dieselben Kandidaten innerhalb eines Zeitfensters von 1 Sekunde nicht erneut daraufhin überprüft, ob Sie eine Rückkopplungsfrequenz repräsentieren oder nicht. Stattdessen wird die für den zeitlich vorherigen Kandidaten bestimmte Rückkopplungsfrequenz für den nachfolgenden, selben Kandidaten übernommen, weil eine hohe Wahrscheinlichkeit dafür besteht, dass dieselbe Rückkopplungsfrequenz auch für den nachfolgenden Kandidaten bestimmt werden würde. Erst nach Ablauf der vorbestimmten Zeit wird ein betreffender Kandidat erneut überprüft.
  • Für jede bestimmte Rückkopplungsfrequenz ist in dem Rückkopplungsfilter ein sogenanntes Glocken-Filter (Peak-Filter) vorgesehen, dessen Mittenfrequenz auf die bestimmte Rückkopplungsfrequenz eingestellt wird. Der Q-Wert der Filter wird vorzugsweise auf einen festen Wert eingestellt. Außerdem wird die Verstärkung des Filters vorzugsweise adaptiv eingestellt, wie nachfolgend anhand von Fig. 5 erläutert wird.
  • Der in Fig. 5 dargestellte Algorithmus verwirklicht einen endlichen Automaten (Finite-State Machine, FSM), der sich zunächst in einem inaktiven Zustand 90 befindet, d.h. das Glockenfilter hat eine Verstärkung von 0 dB und beeinflusst das Audiosignal nicht. Bei einer neu bestimmten Rückkopplungsfrequenz wird in einen aktiven Zustand 92 gewechselt, in dem das Glockenfilter mit voller (negativer) Verstärkung betrieben wird. Nach Ablauf einer ersten vorbestimmten Zeit X wird in einen ersten Reduktionszustand 94 gewechselt, wenn bis dahin die Rückkopplungsfrequenz nicht erneut bestimmt worden ist und der aktive Zustand deswegen beibehalten wird (Rückführung 96). Im ersten Reduktionszustand hat das Glockenfilter eine reduzierte Verstärkung, beispielsweise 2/3 der vollen Verstärkung. Das Rückkopplungsfilter wird somit mit abgeschwächter Wirksamkeit betrieben. Nach Ablauf einer zweiten vorbestimmten Zeit Y wird in einen zweiten Reduktionszustand 98 gewechselt, wenn bis dahin die Rückkopplungsfrequenz nicht erneut bestimmt worden ist und der aktive Zustand beibehalten wird (Rückführung 96).
  • Nach erneutem Ablauf der zweiten vorbestimmten Zeit Y wird in dritten Reduktionszustand 100 gewechselt, in dem das Glockenfilter für den Wechsel in den inaktiven Zustand beim nächsten Filterdurchlauf vorgemerkt ist.
  • Die zeitabhängige Adaption des Rückkopplungsfilters ist aus mehreren Gründen vorteilhaft. Einerseits wird sichergestellt, dass eine bestimmte Rückkopplungsfrequenz ausreichend lange gefiltert wird. Rückkopplungen halten in der Regel für mindestens einige 100 ms an, sodass eine ausreichend lange Filterung erforderlich ist, um die Rückkopplung wirksam zu unterdrücken. Darüber hinaus werden aufgrund der stufenweisen Reduktion des Rückkopplungsfilters hörbare Verzerrungen des Audiosignals reduziert.
  • In Schritt 26 wird das Audiosignal mit einem zweistufigen Kompressor gefiltert, um Pegelspitzen zu entfernen, die zu hörbaren Verzerrungen führen können. Eine erste Kompressorstufe wird bei einem Signalpegel oberhalb eines ersten Schwellenwerts aktiviert und filtert das Audiosignal mit einem ersten Filter, welches moderate Pegelspitzen mit einem geringen Kompressionsgrad reduziert (z.B. Ratio 20, Anstiegszeit 10 ms, Ausklingzeit 100 ms). Die zweite Kompressorstufe wird bei einem Signalpegel oberhalb eines zweiten Schwellenwerts aktiviert, welcher größer als der erste Schwellenwert ist. Das Audiosignal wird dann mit einem zweiten Filter gefiltert, um extreme Pegelspitzen besonders wirksam zu beseitigen. Hierzu wird ein stärkerer Kompressionsgrad gewählt (z.B. Ratio 1000, Anstiegszeit 0,1 ms, Ausklingzeit 5 ms). Die zweite Kompressorstufe stellt ein Notfallfilter dar, um zu gewährleisten, dass alle Amplitudenwerte unterhalb eines kritischen Maximalwerts liegen
  • In Schritt 28 wird das Audiosignal mit einem Bandpass gefiltert, um potentielle Störsignale zu entfernen. Hierzu werden vorzugsweise alle Spektralanteile, die zumindest überwiegen keine Sprache repräsentieren aufweisen, reduziert. Sprachsignalanteile sind überwiegend auf den Frequenzbereich zwischen 70 und 8000 Hz begrenzt, sodass Spektralanteile außerhalb dieses Frequenzbereichs gefiltert werden können. Als Bandpassfilter wird vorzugsweise ein doppelt kaskadierter Hochpass zweiter Ordnung mit einem ebenfalls doppelt kaskadierten Tiefpass zweiter Ordnung kombiniert. Der Hochpass und der Tiefpass weisen vorzugsweise jeweils eine Flankensteilheit von 24 dB pro Oktave auf. Die Grenzfrequenzen liegen vorzugsweise im Bereich zwischen 60 und 80 Hz (untere Grenzfrequenz) und zwischen 8000 und 10000 Hz (obere Grenzfrequenz). Ferner sollten sich die Q-Werte der Filter über eine Oktave erstrecken und z.B. Werte im Bereich von 1,4 aufweisen.
  • In Schritt 30 wird das Audiosignal mit einem zweiten Kompressor gefiltert, um den Dynamikumfang des Audiosignals zu reduzieren. Hierdurch wird die subjektive Lautstärke einheitlicher und die Sprachverständlichkeit wird verbessert. Als Kompressor dient ein Filter mit relativ mildem Kompressionsgrad, der insbesondere geringer ist, als die Kompressionsgrade des ersten Kompressors von Schritt 28. Beispielsweise kann ein niedriges Ratio gewählt werden, welches den Wert von drei nicht übersteigen sollte. Außerdem sind vorzugsweise längere Anstiegs- bzw. Ausklingzeiten im Bereich von 0,5 und 1 Sekunden vorgesehen.
  • In Schritt 32 wird das Audiosignal mit einem Entzerrer gefiltert, um spektrale Variationen zu reduzieren. Der Entzerrer wird hierzu mit acht Glockenfiltern betrieben, deren Mittenfrequenzen denjenigen der Oktavbandfilter von Fig. 3 entsprechen, die zur Bestimmung der Oktavspektralwerte dienen. Die Q-Werte der Glockenfilter sind vorzugsweise so eingestellt, dass sie jeweils etwa eine Oktave abdecken. Für jedes Glockenfilter ist ein eigener Verstärkungsfaktor vorgesehen, der in Abhängigkeit von den Oktavspektralwerten 48 und vordefinierten Referenzspektralwerten bestimmt wird. Die Referenzspektralwerte korrespondieren in ihrer Spektralauflösung mit den Oktavspektralwerten, sodass jedem Oktavspektralwert ein Referenzspektralwert zugeordnet ist.
  • Die Referenzspektralwerte bilden zusammen eine Referenzspektralkurve, deren Form mit einer hohen Sprachverständlichkeit korreliert ist und beispielsweise durch spektrale Auswertung einer Vielzahl von ungestörten Sprachsignalen, z.B. auf der Grundlage eines Mittelwerts des oktavgefilterten Spektrums ermittelt werden kann. Jeder Oktavspektralwert wird mit einem zugeordneten Referenzspektralwert verglichen, um einen Verstärkungsfaktor zu ermitteln, welcher die Abweichung zwischen dem Oktavspektralwert und dem zugeordneten Referenzspektralwert repräsentiert. Wenn ein betreffender Oktavspektralwert beispielsweise einen Betrag unterhalb des zugeordneten Referenzspektralwerts aufweist, wird ein Verstärkungsfaktor für das Glockenfilter dieses Spektralbereichs derart bestimmt, dass eine Gewichtung des Oktavspektralwerts mit dem Gewichtungsfaktor den Referenzspektralwert zumindest näherungsweise ergibt. Die Verstärkungsfaktoren sind auf diese Weise dazu angepasst, das Frequenzspektrum des Audiosignals in Übereinstimmung mit der Referenzspektralkurve zu bringen und somit spektrale Variationen innerhalb des Audiosignals und zwischen verschiedenen Audiosignalen zu reduzieren. Beispielsweise werden Eigenschaften unterschiedlicher Sprecher oder spektrale Einflüsse durch unterschiedliche Mikrofonpositionen zugunsten einer hohen Sprachverständlichkeit ausgeglichen.
  • Zur Vermeidung von Verzerrungen werden die Verstärkungsfaktoren vorzugsweise nach oben und unten begrenzt. Darüber hinaus wird auch die zeitliche Änderung der Verstärkungsfaktoren begrenzt.
  • Die Glockenfilter zur Filterung des Audiosignals in Schritt 32 werden vorzugsweise nur zur Filterung von Blöcken verwendet, die als Sprachabschnitt detektiert worden sind. Somit wird die Anpassung des Spektrums an die Referenzspektralkurve auf Sprachabschnitte begrenzt. Etwaige Verzerrungen sowie eine ineffiziente Nutzung der Rechenressourcen werden somit vermieden.
  • Die Filterung mit dem Entzerrer bzw. den Glockenfiltern in Schritt 32 kann unerwünschte Variationen des Signalpegels verursachen. Um derartige Variationen zu kompensieren, wird das Audiosignal vorzugsweise mit einem Korrekturfaktor gewichtet, welcher als Mittelwert der vorzeicheninvertierten Gewichtungsfaktoren bestimmt wird.
  • In Schritt 36 wird das Audiosignal mit einem Pausenfilter gefiltert, um den Signalpegel in Bereichen außerhalb der detektierten Sprachabschnitte, d.h. in Sprachpausen, zu reduzieren und auf diese Weise Störgeräusche zu reduzieren. Hierzu werden die in Schritt 18 bzw. 24 detektierten Sprachabschnitte als Filterdaten 52 herangezogen. Diejenigen Abschnitte des Audiosignals, die nicht als Sprachabschnitte detektiert worden sind, bilden Rauschabschnitte, die durch das Pausenfilter gefiltert werden. Das Audiosignal wird in den detektierten Rauschabschnitten vorzugsweise mit einem festen negativen Verstärkungsfaktor von z.B. -3 dB gewichtet.
  • In Schritt 38 wird das Audiosignal mit einem weiteren Entzerrer gefiltert, um die Effekte der verschiedenen Filterungen auszugleichen. Hierzu wird vorzugsweise eine Filterbank bestehend aus 23 Glockenfiltern zwischen 50 Hz und 10 kHz eingesetzt. Die Filter erstrecken sich vorzugsweise jeweils über eine Dritteloktave, wobei der Q-Wert auf 4,3 eingestellt werden kann. Für jedes Glockenfilter ist vorzugsweise ein fester negativer Verstärkungsfaktor vorgesehen.
  • In Schritt 40 kann das Audiosignal zu Testzwecken während einer Entwicklungsphase analysiert werden. Diese Möglichkeit ist rein optional und für eine spätere Anwendung des Verfahrens im Praxisbetrieb nicht notwendig.
  • In Schritt 42 wird das nunmehr verbesserte Audiosignal zunächst mittels eines Digital-Analog-Wandlers in ein analoges Signal transformiert und sodann über eine Ausgabeschnittstelle bereitgestellt. Von dort kann das Audiosignal für eine Wiedergabe über ein Beschallungssystem abgegriffen werden. Denkbar ist auch die Ausgabe des digitalen Audiosignals anstelle einer analogen Fassung, sofern das Beschallungssystem einen digitalen Signaleingang für das Audiosignal aufweist.
  • Mit Bezug auf Fig. 6 wird nachfolgend ein Audiogerät 102 beschrieben, welches dazu eingerichtet ist, das Verfahren von Fig. 1 auszuführen. Das Audiogerät 102 weist ein schematisch angedeutetes Gehäuse 104 auf. Die Außenmaße des Gehäuses 104 sind vorzugsweise nicht größer als wenige Zentimeter, beispielsweise maximal 10 Zentimeter, sodass das Gehäuse 104 insgesamt kompakt und insbesondere auch für mobile Anwendungen geeignet ist.
  • Das Audiogerät 102 weist eine Eingangsschnittstelle 112 zum Empfangen eines analogen Audiosignals sowie eine Ausgangsschnittstelle zum Ausgeben des verbesserten Audiosignals aus. Ferner weist die Vorrichtung eine USB-C-Schnittstelle 110 sowie eine Ethernetschnittstelle 108 auf. Die USB-C-Schnittstelle 110 kann allgemein als eine Energieversorgungsschnittstelle zum Anschließen an eine externe Energieversorgung ausgebildet sein. Sie muss nicht zwingend gemäß dem USB-C-Standard ausgebildet sein.
  • Zusätzlich oder alternativ können ein oder mehrere Drahtlosschnittstellen vorgesehen sein, um Audiosignale und/oder Steuerungssignale und/oder elektrische Energie auf drahtlosem Wege von außen zu empfangen und/oder zu einem nicht gezeigten Empfänger zu übertragen.
  • Die Eingangsschnittstelle 112 und die Ausgangsschnittstelle 106 sind vorzugsweise jeweils als XLR-Schnittstellen ausgebildet, sodass herkömmliche Schallwandler über XLR-Steckverbinder direkt mit dem Audiogerät 102 verbunden werden können.
  • Das Audiogerät 102 kann somit insbesondere in einer in Fig. 7 gezeigten Anordnung betrieben werden, in der die Eingangsschnittstelle 112 mit einem Mikrofon 134 zum Erfassen eines Audiosignals von einem nicht gezeigten Sprecher verbunden ist. Ferner ist die Ausgangsschnittstelle 106 über einen Verstärker 130 mit einem Lautsprecher 132 oder einem Beschallungssystem mit mehreren Lautsprechern verbunden, um das mittels des Audiogeräts 102 verbesserte Audiosignal wiederzugeben. Der Lautsprecher 132 und das Mikrofon 134 befinden sich in demselben Raum, beispielsweise einem Konferenzraum oder dergleichen. Die Signalverbesserung erfolgt in Echtzeit, sodass das mit dem Mikrofon 134 aufgenommene Audiosignal im Wesentlichen gleichzeitig über den Lautsprecher 132 wiedergegeben werden kann und somit für eine akustisch vorteilhafte Verstärkung des Audiosignals sorgt.
  • Das Audiogerät 102 weist ferner eine manuelle Schnittstelle 128 auf, die in Fig. 6 lediglich schematisch angedeutet ist und allgemein dazu eingerichtet ist, Steuerungsdaten für das Audiogerät 102 durch manuelle Eingabe eines Benutzers unmittelbar an dem Audiogerät 102 zu empfangen.
  • Das Audiosignal wird zunächst mit dem Mikrofon 134 erfasst und über die Eingangsschnittstelle 112 einem Vorverstärker 116 zugeführt. Sodann gelangt das Audiosignal in Abhängigkeit von einer Stellung einer Schalteinrichtung 118 entweder über eine Recheneinheit 114 oder direkt zu der Ausgangsschnittstelle 106. Die Schalterstellung der Schalteinrichtung 118 wird über die Recheneinheit 114 gesteuert. Hierzu kann die Recheneinheit 114 von extern über die Schnittstellen 108, 110 und/oder 128 eine Vorgabe empfangen, die festlegt, ob das Audiosignal durch die Recheneinheit 114 geführt und durch diese verbessert werden soll oder nicht. Alternativ oder zusätzlich kann die Recheneinheit 114 im Wege einer Selbstdiagnose ihre Funktionstüchtigkeit zur Ausführung des Verfahrens zu Verbesserung des Audiosignals feststellen und in Abhängigkeit von der Prüfung die Schalterstellung der Schalteinrichtung 118 einstellen. Beispielsweise kann die Schalteinrichtung 118 in einer Grundeinstellung die Eingangsschnittstelle 112 über den Vorverstärker 116 direkt mit der Ausgangsschnittstelle 106 verbinden, wobei die Schalteinrichtung 118 lediglich im Falle der vollen Funktionstüchtigkeit der Recheneinheit 114 einschließlich der notwendigen Energieversorgung umgeschaltet wird, um die Eingangsschnittstelle 112 mit der Recheneinheit 114 zu verbinden. Auf diese Weise wird gewährleistet, dass das Audiosignal von der Ausgangsschnittstelle 106 unabhängig von einer etwaigen Fehlfunktion der Recheneinheit 114 und eines Ausfalls der Energieversorgung abgegriffen werden kann. Das Audiogerät 102 ist somit für den professionellen Einsatz besonders gut geeignet.
  • Der Vorverstärker 116 kann mit variabler Verstärkung betrieben werden. Hierzu kann von der Recheneinheit 114 ein jeweiliger Verstärkungswert eingestellt werden. Dieser kann beispielsweise mittels der Schnittstelle 128 aus einer vorbestimmten Menge an unterschiedlichen Verstärkungswerten, z.B. drei Verstärkungswerten, unmittelbar an der Vorrichtung 102 ausgewählt werden. Die Auswahl des Verstärkungswerts kann dem Bediener durch eine Leuchtanzeige, z.B. durch mehrere LED-Dioden, am Audiogerät 102 visuell vermittelt werden. Durch geeignete Einstellung der Vorverstärkung können große Pegelvariationen vorzugsweise bereits im analogen Signal kompensiert werden, sodass digitales Rauschen aufgrund hoher Verstärkungen des Digitalsignals vermieden werden kann.
  • Zur Energieversorgung des Audiogeräts 102 ist einerseits die Schnittstelle 110 vorgesehen, die mittels zugeordnetem Versorgungskabel mit einer Netzquelle verbunden werden kann, um das Audiogerät 102 im Netzbetrieb zu betreiben. Alternativ kann das Audiogerät 102 über einen in dem Gehäuse 104 integrierten Energiespeicher, beispielsweise einen elektrischen Akku 126, versorgt werden. Der Akku 126 ist mit der Schnittstelle 110 gekoppelt und kann über diese geladen werden. Anstelle der USB-C-Schnittstelle 110 kann auch ein anderer Schnittstellentyp zur Energieversorgung vorgesehen sein.
  • Zum Schutz vor Überspannung oder Falschpolung ist die Vorrichtung 102 vorzugsweise mit einer elektrischen Schutzeinrichtung 120 ausgestattet, welche die elektrischen Verbraucher des Audiogeräts 102 vor Spannungsschäden schützt. Hierzu zählen insbesondere die Recheneinheit 114, ein Lüfter 124 zum Kühlen der Recheneinheit 114 und eine Phantomspeisungseinrichtung 122, die mit der Eingangsschnittstelle 112 gekoppelt ist. Die Phantomspeisungseinrichtung 122 dient zur elektrischen Versorgung des an die Eingangsschnittstelle 112 angeschlossenen Mikrofons 134, beispielsweise mit einer Mikrofonversorgungsspannung von 48 Volt. Die Phantomspeisungseinrichtung 122 weist einen nicht näher gezeigten Spannungswandler auf, um die Versorgungsspannung des Audiogeräts 102, die über die USB-C-Schnittstelle 110 bereitgestellt wird, beispielsweise 5 Volt, in die Mikrofonversorgungsspannung zu wandeln.
  • Die Recheneinheit 114 ist vorzugsweise als ein Einplatinenrechner ausgebildet, sodass das Audiogerät 102 unter diesem Aspekt kompakt ausgebildet und außerdem kostengünstig hergestellt werden kann. Die Recheneinheit 114 wird insbesondere über eine Busschnittstelle 107 konfiguriert, die vorzugsweise vom Typ USB-A ist. Die Schnittstelle 107 wird hierzu mit einem Server oder direkt mit einem mobilen Endgerät verbunden (nicht gezeigt), um von außen auf die Recheneinheit 114 zugreifen und wahlweise ein oder mehrere Konfigurationsparameter für das Verfahren von Fig. 1 (z.B. Schwellenwerte, Anstiegs- und Ausklingzeiten) einstellen zu können. Denkbar ist auch eine Konfiguration über die USB-C-Schnittstelle 110.
  • Alternativ ist es möglich, einen USB-Stick oder dergleichen an die Schnittstelle 107 anzuschließen, wobei die gewünschten Konfigurationsdaten oder eine neue Firmware in dem USB-Stick gespeichert sind. Die Daten werden sodann automatisch oder nach Initiierung durch einen Bediener über die Schnittstelle 107 an die Recheneinheit 114 übertragen, um die Konfigurationsparameter oder die Firmware entsprechend zu aktualisieren. Dieser Vorgang kann durch einen Endbenutzer der Vorrichtung durchgeführt werden.
  • Vorzugsweise ist eine detaillierte Konfiguration von Filterparametern durch den Endbenutzer jedoch nicht erforderlich. In einem internen Speicher der Recheneinheit (nicht gezeigt) sind bereits alle notwendigen Konfigurationsparameterwerte hinterlegt, sodass das Verfahren bei nahezu allen üblichen akustischen Umgebungsbedingungen vollautomatisch gute Ergebnisse gewährleistet. Für besondere akustische Umgebungen kann der Konfigurationsparametersatz beispielsweise durch einen geschulten Fachmann aus der Ferne oder lokal über die Schnittstelle 107 angepasst werden. Für den Endbenutzer fällt somit kein Einrichtungsaufwand an. Zur Inbetriebnahme im Anwendungsfall von Fig. 7 ist es lediglich erforderlich, das Audiogerät 102 über die vorgesehenen Schnittstellen 112 und 106 mit dem Mikrofon 134 und dem Lautsprecher 132 zu verbinden. Sodann kann das Audiogerät 102 direkt im Sinne einer plug-and-play-Funktionalität verwendet werden. Sofern kein Akkubetrieb gewünscht ist, wird das Audiogerät 102 über die USB-C-Schnittstelle 110 mit einer Netzquelle (nicht gezeigt) verbunden, um das Audiogerät 102 elektrisch zu versorgen.
  • Das Audiogerät 102 weist ferner eine manuelle Bedienschnittstelle 113 (z.B. mit einer manuell betätigbaren Taste) sowie eine optische Anzeigeeinrichtung 109 auf (z.B. eine LED). Über die Bedienschnittstelle 113 kann ein Benutzer des Audiogeräts 102 eine Aufzeichnung des an der Ausgangsschnittstelle 106 bereitgestellten Audiosignals steuern. Beispielsweise schließt der Benutzer zunächst einen USB-Stick oder dergleichen an die Schnittstelle 107. Dwe USB-Stick wird durch die Recheneinheit 114 detektiert und es wird dem Benutzer an der Anzeigeeinrichtung 109 durch Aktivierung eines ersten Anzeigemodus angezeigt, dass das Audiogerät 102 aufnahmebereit ist. Um das Audiosignal (in seiner digitalen Form) in dem USB-Stick abzuspeichern, wird sodann die Bedienschnittstelle 113 betätigt. Die Anzeigeeinrichtung 109 zeigt den erfolgreichen Start der Aufnahme durch Aktivierung eines zweiten Anzeigemodus an (z.B. blinkende LED). Das Audiosignal wird sodann fortlaufend in einer Datei auf dem USB-Stick abgelegt. Wenn die Speicherkapazität erschöpft ist, wird die Aufnahme automatisch beendet. Dem Benutzer wird dies durch Aktivierung eines dritten Anzeigemodus an der Anzeigeeinrichtung 109 angezeigt. Die Aufnahme kann wahlweise vorzeitig durch nochmalige Betätigung der Bedienschnittstelle 107 beendet werden.
  • BEZUGSZEICHENLISTE
  • 10
    Erfassen eines Audiosignals mit einem Mikrofon
    12
    Vorverstärkung
    14
    Erfassen des Audiosignals an einer Eingangsschnittstelle
    16
    Elektronischer Verstärker (Erstes Pegelfilter)
    18
    Eingangsanalyse
    20
    Softwareverstärker (Zweites Pegelfilter)
    22
    Rauschfilter
    24
    Zwischenanalyse
    26
    Bandpass
    28
    Erster Kompressor
    30
    Zweiter Kompressor
    32
    Erstes Entzerrfilter und drittes Pegelfilter
    34
    Rückkopplungsfilter
    36
    Pausenfilter
    37
    Betragsfrequenzgang
    38
    Zweites Entzerrfilter
    40
    Ausgangsanalyse
    42
    Bereitstellen des Audiosignals an einer Ausgabeschnittstelle
    44
    Erste Filterdaten
    46
    Zweite Filterdaten
    48
    Oktavlautstärken
    50
    Rückkopplungsfrequenzen
    52
    Detektierte Sprachabschnitte
    54
    Amplitudenwerte
    56
    Spektralwerte
    58
    Parameterberechnung
    60
    Schwellenwertberechnung
    62
    Vergleichen mit Schwellenwerten
    64
    Bestimmen ob Schwellenwerte verletzt
    66
    Bestimmen Anzahl aufeinanderfolgender Abschnitte
    68
    Vergleichen mit Mindestanzahl
    70
    Detektion als Sprachabschnitt
    72
    Detektion als Rauschabschnitt
    74
    Suche Frequenzkandidaten
    76
    Parameterberechnung
    78
    Vergleich mit Schwellenwerten
    80
    Verzweigung
    82
    Interpolation
    84
    Speicherung Rückkopplungsfrequenz
    86
    Löschen der Rückkopplungsfrequenz
    88
    Ende
    90
    Inaktiver Zustand
    92
    Aktiver Zustand
    94
    Erster Reduktionszustand
    96
    Rückführung
    98
    Zweiter Reduktionszustand
    100
    Dritter Reduktionszustand
    102
    Audiogerät
    104
    Gehäuse
    106
    Ausgangsschnittstelle
    107
    USB-A-Schnittstelle
    108
    Ethernetschnittstelle
    109
    Anzeigeeinrichtung
    110
    USB-C-Schnittstelle
    112
    Eingangsschnittstelle
    113
    Manuelle Bedienschnittstelle
    114
    Recheneinheit
    116
    Vorverstärker
    118
    Schalteinrichtung
    120
    Schutzeinrichtung
    122
    Phantomspeisung
    124
    Lüfter
    126
    Energiespeicher
    128
    Manuelle Bedienschnittstelle
    130
    Verstärker
    132
    Lautsprecher
    134
    Mikrofon
    F
    Frequenz
    G
    Betrag
    fc
    Mittenfrequenz

Claims (15)

  1. Verfahren zur Verbesserung eines Audiosignals, insbesondere in Echtzeit, wobei das Verfahren zumindest folgende Schritte umfasst:
    - Empfangen eines Audiosignals mit mehreren Amplitudenwerten, wobei das Audiosignal zumindest abschnittsweise Sprache aufweist;
    - Detektieren von Sprachabschnitten des Audiosignals (18, 24);
    - Filtern des Audiosignals mit wenigstens einem Pegelfilter (16), um Signalpegelvariationen des Audiosignals in den detektierten Sprachabschnitten zu reduzieren; und
    - Filtern des Audiosignals mit wenigstens einem Entzerrfilter (32), um spektrale Variationen des Audiosignals in den detektierten Sprachabschnitten zu reduzieren.
  2. Verfahren nach Anspruch 1,
    ferner umfassend Bestimmen von mehreren Spektralwerten (56) auf der Grundlage der Amplitudenwerte (54), wobei die Amplitudenwerte (54) das Audiosignal in einem Zeitbereich repräsentieren und wobei die Spektralwerte (56) das Audiosignal in einem Frequenzbereich repräsentieren, und wobei das Detektieren der Sprachabschnitte (18, 24), das Filtern mit dem wenigstens einen Pegelfilter (16) und/oder das Filtern mit dem wenigstens einen Entzerrfilter (32) auf der Grundlage der Amplitudenwerte (54) und/oder der Spektralwerte (56) erfolgt.
  3. Verfahren nach Anspruch 1 oder 2,
    wobei das Detektieren der Sprachabschnitte (18, 24) umfasst:
    - Bestimmen wenigstens eines ersten Energieparameterwerts auf der Grundlage der Amplitudenwerte (54), wobei der erste Energieparameterwert eine mittlere Energie des Audiosignals für mehrere der Amplitudenwerte (54) repräsentiert;
    - Bestimmen wenigstens eines ersten Spektralparameterwerts auf der Grundlage von Spektralwerten (56) des Audiosignals, wobei der wenigstens eine erste Spektralparameterwert eine harmonische Spektralstruktur des Audiosignals für mehrere der Spektralwerte (56) repräsentiert; und
    - Detektieren eines Abschnitts des Audiosignals als Sprachabschnitt, wenn der wenigstens eine erste Energieparameterwert einen ersten Energieparameterschwellenwert und/oder der wenigstens eine Spektralparameterwert einen Spektralparameterschwellenwert verletzt (62, 64),
    insbesondere wobei der Energieparameterschwellenwert und/oder der Spektralparameterschwellenwert in Abhängigkeit von der Zeit angepasst wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Filtern des Audiosignals mit dem wenigstens einen Pegelfilter (16) umfasst:
    - Bestimmen wenigstens eines Pegelparameterwerts auf der Grundlage der Amplitudenwerte (54), wobei der Pegelparameterwert einen mittleren Pegel des Audiosignals für einen detektierten Sprachabschnitt repräsentiert;
    - Bestimmen von wenigstens einem Kompensationsgewicht auf der Grundlage des wenigstens einen Pegelparameterwerts;
    - Gewichten des Audiosignals mit dem wenigstens einen Kompensationsgewicht, um die Signalpegelvariationen des Audiosignals zu reduzieren.
  5. Verfahren nach Anspruch 4,
    wobei der wenigstens eine Pegelparameterwert erste und zweite Pegelparameterwerte für mehrere detektierten Sprachabschnitte umfasst, wobei die ersten Pegelparameterwerte den mittleren Pegel des Audiosignals mit einer ersten Zeitauflösung repräsentieren, wobei die zweiten Pegelparameterwerte den mittleren Pegel des Audiosignals mit einer zweiten Zeitauflösung repräsentieren, wobei die zweite Zeitauflösung größer als die erste Zeitauflösung ist, und wobei das wenigstens eine Kompensationsgewicht auf der Grundlage der ersten und zweiten Pegelparameterwerte ermittelt wird,
    insbesondere wobei die ersten Pegelparameterwerte durch Energiemittelwerte und/oder erste Lautstärkewerte und die zweiten Pegelparameterwerte durch zweite Lautstärkewerte gebildet sind.
  6. Verfahren nach Anspruch 4 oder 5,
    wobei das wenigstens eine Kompensationsgewicht erste Kompensationsgewichte und zweite Kompensationsgewichte umfasst, wobei die ersten Kompensationsgewichte bestimmt werden, um Signalpegelvariationen mit wenigstens einem Pegel, der größer als ein vorbestimmter Pegelschwellenwert ist, zu reduzieren,
    wobei die zweiten Kompensationsgewichte bestimmt werden, um den Signalpegel des Audiosignals auf einen vorbestimmten Wert einzustellen.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Filtern mit dem wenigstens einen Entzerrfilter (32) umfasst:
    - Bestimmen von Grobspektralwerten (48) auf der Grundlage von Feinspektralwerten (56) des Audiosignals, wobei die Grobspektralwerte (48) die Feinspektralwerte (56) mit einer geringeren Spektralauflösung als die Feinspektralwerte (56) repräsentieren;
    - Bestimmen von ersten Entzerrgewichten, die eine Abweichung der Grobspektralwerte (48) von vorbestimmten Referenzspektralwerten repräsentieren;
    - Gewichten des Audiosignals mit den ersten Entzerrgewichten, um die Spektralwerte in Übereinstimmung mit den Referenzspektralwerten zu bringen.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Filtern mit dem wenigstens einen Entzerrfilter (32) umfasst:
    Gewichten des Audiosignals mit zweiten Entzerrgewichten (38), wobei die zweiten Entzerrgewichte vorbestimmt sind.
  9. Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend:
    Filtern des Audiosignals mit wenigstens einem Kompressor (28, 30), um einen Dynamikumfang des Audiosignals zu reduzieren, insbesondere wobei für den wenigstens einen Kompressor (28, 30) mehrere voneinander verschiedene Parametersätze vorgesehen sind, die in Abhängigkeit von einem Betrag des Audiosignals ausgewählt und der Filterung mit dem wenigstens einen Kompressor zugrunde gelegt werden, wobei sich die mehreren Parametersätze in einem Kompressionsgrad voneinander unterscheiden.
  10. Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend:
    - Bestimmen einer Rückkopplungsfrequenz (50), welche eine Rückkopplung des Audiosignals repräsentiert;
    - Filtern des Audiosignals mit einem Rückkopplungsfilter (34) auf der Grundlage der bestimmten Rückkopplungsfrequenz (50), um Rückkopplungen repräsentierende Spektralanteile des Audiosignals zu reduzieren;
    insbesondere wobei das Bestimmen der Rückkopplungsfrequenz (50) umfasst:
    - Bestimmen einer Untermenge von Spektralwerten des Audiosignals, die einen vorbestimmten Spektralschwellenwert verletzen (74);
    - Bestimmen von mehreren zweiten Spektralparameterwerten auf der Grundlage der Untermenge, wobei jeder der zweiten Spektralparameterwerte eine vorbestimmte Relation zwischen einem zugeordneten Spektralwert der Untermenge und wenigstens einem zeitlich und/oder spektral benachbarten Spektralwert repräsentiert (76); und
    - Bestimmen der Rückkopplungsfrequenz (50) auf der Grundlage der mehreren zweiten Spektralparameterwerte (78, 80, 82, 84).
  11. Verfahren nach Anspruch 10,
    wobei, wenn die bestimmte Rückkopplungsfrequenz (50) zwischen aufeinanderfolgenden Zeitabschnitten des Audiosignals verschwindet, die Wirksamkeit des Rückkopplungsfilters (34) über mehrere Zeitabschnitte schrittweise reduziert wird (94, 98, 100).
  12. Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend:
    - Filtern des Audiosignals mit einem Pausenfilter (36), um das Audiosignal in Bereichen außerhalb der detektierten Sprachabschnitte zu reduzieren; und/oder
    - Filtern des Audiosignals mit einem Rauschfilter (22), um das Audiosignal in Bereichen mit Amplitudenwerten, die einen vorbestimmten Rauschschwellenwert verletzen, zu reduzieren und/oder
    - Filtern des Audiosignals mit einem Bandpassfilter (26), wobei eine untere Grenzfrequenz des Bandpassfilters vorzugsweise in einem Bereich von 50 bis 100 Hz liegt, und wobei eine obere Grenzfrequenz des Bandpassfilters vorzugsweise in einem Bereich von 8000 bis 10000 Hz liegt.
  13. Vorrichtung zur Verbesserung eines Audiosignals, insbesondere in Echtzeit, wobei das Audiosignal Sprache aufweist,
    wobei die Vorrichtung (102) umfasst:
    - wenigstens eine Eingangsschnittstelle (112) zum Erfassen eines Audiosignals, insbesondere wobei die Eingangsschnittstelle (112) einen Anschluss für ein Mikrofon (134) aufweist;
    - wenigstens eine Ausgangsschnittstelle (106) zum Ausgeben des Audiosignals, insbesondere wobei die Ausgangsschnittstelle (106) einen Anschluss für ein Audiowiedergabegerät (130, 132) aufweist; und
    - eine Recheneinheit (114) zum Ausführen eines Verfahrens zur Verbesserung des Audiosignals, insbesondere nach einem der vorhergehenden Ansprüche.
  14. Vorrichtung nach Anspruch 13,
    ferner umfassend:
    - einen Vorverstärker (116) für das Audiosignal, wobei der Vorverstärker (116) mit der Eingangsschnittstelle (112) koppelbar ist; und/oder
    - eine elektrische Versorgung (122) für die Eingangsschnittstelle (112); und/oder
    - eine Schalteinrichtung (118), die mit der Eingangsschnittstelle (112), der Ausgangsschnittstelle (106) und der Recheneinheit (114) koppelbar ist; und/oder
    - eine Kühleinrichtung (124);
    und/oder wobei die Recheneinheit (114) einen Einplatinenrechner aufweist; und/oder
    wobei die Vorrichtung (102) ein Gehäuse (104) und/oder wenigstens eine externe Kommunikationsschnittstelle (108, 110) aufweist.
  15. Verfahren zur selektiven Verbesserung eines ersten Audiosignals unter Verwendung eines Audioverarbeitungsmittels (114), insbesondere in Echtzeit, wobei das erste Audiosignal zumindest abschnittsweise Sprache aufweist und das Verfahren zumindest folgende Schritte umfasst:
    - Feststellen, ob das Audioverarbeitungsmittel (114) einen vorbestimmten Tauglichkeitszustand aufweist;
    - Wenn das Audioverarbeitungsmittel (114) den vorbestimmten Tauglichkeitszustand aufweist, Ausführen eines Verfahrens zur Verbesserung des ersten Audiosignals unter Verwendung des Audioverarbeitungsmittels (114), um ein zweites Audiosignal bereitzustellen;
    - Wenn das Audioverarbeitungsmittel (114) den vorbestimmten Tauglichkeitszustand nicht aufweist, Bereitstellen des ersten Audiosignals.
EP21190351.3A 2021-08-09 2021-08-09 Verfahren und vorrichtung zur audiosignalverbesserung Active EP4134954B1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP21190351.3A EP4134954B1 (de) 2021-08-09 2021-08-09 Verfahren und vorrichtung zur audiosignalverbesserung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP21190351.3A EP4134954B1 (de) 2021-08-09 2021-08-09 Verfahren und vorrichtung zur audiosignalverbesserung

Publications (3)

Publication Number Publication Date
EP4134954A1 true EP4134954A1 (de) 2023-02-15
EP4134954C0 EP4134954C0 (de) 2023-08-02
EP4134954B1 EP4134954B1 (de) 2023-08-02

Family

ID=77264991

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21190351.3A Active EP4134954B1 (de) 2021-08-09 2021-08-09 Verfahren und vorrichtung zur audiosignalverbesserung

Country Status (1)

Country Link
EP (1) EP4134954B1 (de)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295364B1 (en) * 1998-03-30 2001-09-25 Digisonix, Llc Simplified communication system
US20060247922A1 (en) * 2005-04-20 2006-11-02 Phillip Hetherington System for improving speech quality and intelligibility
EP1777988A2 (de) * 2005-10-20 2007-04-25 Protec Fire Detection Plc Verbesserungen an einem Beschallungssystem mit Gebietsisolatorsschaltungen
US20100121634A1 (en) * 2007-02-26 2010-05-13 Dolby Laboratories Licensing Corporation Speech Enhancement in Entertainment Audio
US20160019905A1 (en) * 2013-11-07 2016-01-21 Kabushiki Kaisha Toshiba Speech processing system
US20170047080A1 (en) * 2014-02-28 2017-02-16 Naitonal Institute of Information and Communications Technology Speech intelligibility improving apparatus and computer program therefor

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295364B1 (en) * 1998-03-30 2001-09-25 Digisonix, Llc Simplified communication system
US20060247922A1 (en) * 2005-04-20 2006-11-02 Phillip Hetherington System for improving speech quality and intelligibility
EP1777988A2 (de) * 2005-10-20 2007-04-25 Protec Fire Detection Plc Verbesserungen an einem Beschallungssystem mit Gebietsisolatorsschaltungen
US20100121634A1 (en) * 2007-02-26 2010-05-13 Dolby Laboratories Licensing Corporation Speech Enhancement in Entertainment Audio
US20160019905A1 (en) * 2013-11-07 2016-01-21 Kabushiki Kaisha Toshiba Speech processing system
US20170047080A1 (en) * 2014-02-28 2017-02-16 Naitonal Institute of Information and Communications Technology Speech intelligibility improving apparatus and computer program therefor

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SCHEPKER H ET AL: "Improving speech intelligibility in noise by SII-dependent preprocessing using frequency-dependent amplification and dynamic range compression", SPEECH IN LIFE SCIENCES AND HUMAN SOCIETIES : 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013) ; LYON, FRANCE, 25 - 29 AUGUST 2013, CURRAN, RED HOOK, NY, 25 August 2013 (2013-08-25), pages 3577 - 3581, XP002734731, ISBN: 978-1-62993-443-3 *
T.V. WATERSCHOOTM. MOONEN: "Comparative Evaluation of Howeling Detection Criteria in Notch-Filter-Based Howling Supression", JOURNAL OFTHE AUDIO ENGINEERING SOCIETY, vol. 58, 2010, pages 923 - 940

Also Published As

Publication number Publication date
EP4134954C0 (de) 2023-08-02
EP4134954B1 (de) 2023-08-02

Similar Documents

Publication Publication Date Title
DE69933141T2 (de) Tonprozessor zur adaptiven dynamikbereichsverbesserung
DE60120949T2 (de) Eine hörprothese mit automatischer hörumgebungsklassifizierung
DE60222813T2 (de) Hörgerät und methode für das erhöhen von redeverständlichkeit
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE102006051071B4 (de) Pegelabhängige Geräuschreduktion
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
DE69903334T2 (de) Vorrichtung zur signal-rauschverhältnismessung in einem sprachsignal
DE102006047965A1 (de) Hörhilfsgerät mit einer Okklusionsreduktionseinrichtung und Verfahren zur Okklusionsreduktion
EP3068146B1 (de) Verfahren zum betrieb eines hörgeräts sowie hörgerät
DE112011105908B4 (de) Verfahren und Gerät zur adaptiven Regelung des Toneffekts
EP2595414B1 (de) Hörvorrichtung mit einer Einrichtung zum Verringern eines Mikrofonrauschens und Verfahren zum Verringern eines Mikrofonrauschens
EP1369994A2 (de) Verfahren zur zugehörrichtigen Basspegelanhebung und zugeordnetes Wiedergabesystem
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
EP3373599B1 (de) Verfahren zur frequenzverzerrung eines audiosignals und nach diesem verfahren arbeitende hörvorrichtung
EP1850634A2 (de) Verfahren zum Einstellen eines Hörgeräts mit Hochfrequenzverstärkung
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
WO2001047335A2 (de) Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät
EP4134954B1 (de) Verfahren und vorrichtung zur audiosignalverbesserung
DE60303278T2 (de) Vorrichtung zur Verbesserung der Spracherkennung
EP2394271B1 (de) Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx
EP1351550A1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät
DE10142347C1 (de) Automatische Adaption von Hörgeräten an unterschiedliche Hörsituationen
EP1416764A2 (de) Verfahren zur Einstellung eines Hörgerätes sowie Vorrichtung zur Durchführung des Verfahrens
DE102012204193B4 (de) Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals
EP3961624B1 (de) Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 502021001146

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0021031600

Ipc: H04R0027000000

Ref country code: DE

Ref legal event code: R079

Free format text: PREVIOUS MAIN CLASS: G10L0021031600

Ipc: H04R0027000000

17P Request for examination filed

Effective date: 20220719

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 25/78 20130101ALI20230210BHEP

Ipc: G10L 21/0364 20130101ALI20230210BHEP

Ipc: H04R 27/00 20060101AFI20230210BHEP

INTG Intention to grant announced

Effective date: 20230313

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502021001146

Country of ref document: DE

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

RAP4 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: OPTIMIC GMBH

U01 Request for unitary effect filed

Effective date: 20230901

U07 Unitary effect registered

Designated state(s): AT BE BG DE DK EE FI FR IT LT LU LV MT NL PT SE SI

Effective date: 20230907

U20 Renewal fee paid [unitary effect]

Year of fee payment: 3

Effective date: 20231005

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231103

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231102

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231202

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231103

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

U1N Appointed representative for the unitary patent procedure changed [after the registration of the unitary effect]

Representative=s name: PAVANT PATENTANWAELTE PARTGMBB; DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502021001146

Country of ref document: DE

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230802

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20230809

26N No opposition filed

Effective date: 20240503

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20230809

U20 Renewal fee paid [unitary effect]

Year of fee payment: 4

Effective date: 20240802