EP2380171A2 - Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen - Google Patents

Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen

Info

Publication number
EP2380171A2
EP2380171A2 EP09808931A EP09808931A EP2380171A2 EP 2380171 A2 EP2380171 A2 EP 2380171A2 EP 09808931 A EP09808931 A EP 09808931A EP 09808931 A EP09808931 A EP 09808931A EP 2380171 A2 EP2380171 A2 EP 2380171A2
Authority
EP
European Patent Office
Prior art keywords
frequency
speech
signal
signals
sounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP09808931A
Other languages
English (en)
French (fr)
Inventor
Hans-Dieter Bauer
Axel Plinge
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BAUER, HANS-DIETER
PLINGE, AXEL
Original Assignee
Forschungsgesellschaft fuer Arbeitsphysiologie und Arbeitsschutz eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE102009018470A external-priority patent/DE102009018470A1/de
Priority claimed from DE102009018469A external-priority patent/DE102009018469A1/de
Priority claimed from DE102009032238A external-priority patent/DE102009032238A1/de
Priority claimed from DE102009032236A external-priority patent/DE102009032236A1/de
Application filed by Forschungsgesellschaft fuer Arbeitsphysiologie und Arbeitsschutz eV filed Critical Forschungsgesellschaft fuer Arbeitsphysiologie und Arbeitsschutz eV
Publication of EP2380171A2 publication Critical patent/EP2380171A2/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking

Definitions

  • the present invention relates to a method for processing acoustic speech signals and a device suitable for this purpose.
  • Corresponding methods and devices are used, for example, in hearing aid technology in order to improve the intelligibility of human speech for persons with hearing damage.
  • Such conventional electro-acoustic systems usually have arrangements of linearly reinforcing assemblies.
  • Such an assembly may be for example a microphone input, a filter bank, a compressor or an output amplifier.
  • the acoustic speech signals are first converted via a microphone into electrical speech signals, which are input to the microphone input.
  • the filter bank which usually has a plurality of bandpass filters, there is a division of the electrical speech signal into a plurality of frequency bands, which are individually compressed by the compressor, for which purpose it has a plurality of compressor subunits. Subsequently, the compressed frequency bands are combined into a compressed speech signal which is amplified by the output amplifier.
  • the available level-controlled compressor significantly degrades the speech signal when the available dynamic range becomes narrower than the pitch of the levels of weak and strong sounds. Then, when the articulately weak sounds are made well over-threshold, this causes the articulatory strong sounds to be driven into the compressor's limiting characteristic branch, resulting in distortion of the rhythm and co-modulation of those sounds.
  • the object of the invention to provide an improved method and an improved apparatus for processing acoustic speech signals.
  • This object is achieved in a method of the type mentioned in that a class-specific processing of the speech signals is carried out, with weakly articulated sounds are extended in time. This can be done by strengthening the energy of weak sounds by time-delayed repetition of a feature-carrying part of the sound waveform.
  • a sound class comprises all sound variations of a sound which can be distinguished from another sound. For example, an "i" can be pronounced high, low or long without leaving the boundaries of the "i" sound class.
  • the speech signals are divided into several frequency bands.
  • this enables a further possibility for the individual processing of the speech signals, so that the processing can also be adapted very precisely to the respectively present hearing deficit.
  • the speech signals are split into high-frequency frequency bands which are above an upper limit frequency and frequency bands which are below the upper limit frequency.
  • the cut-off frequency preferably corresponds to the upper edge of the audible range and can be adjusted individually to the extent of the particular high-frequency loss present.
  • the invention further proposes that the high-frequency frequency bands are shifted to lower frequencies below the upper limit frequency and above a lower limit frequency.
  • sounds that are at the upper edge of the listening area or beyond the limit of audibility be spectrally shifted into a more usable low-frequency listening area, so that the effectiveness of these sounds is increased.
  • the shift of the high-frequency frequency bands to lower frequencies below the upper limit frequency must leave the physiological class formation of the speech sounds completely in tact. The shift may therefore only be done as far or only in such a way that the natural class boundaries, which are naturally to be found in the physiological classification space, are not exceeded.
  • inter-sound transformations are to be excluded. For example, the frequency shift does not allow an "i" to become a "ü".
  • the frequency shift may only take place in the form of intra-sound transformations in which no conversion of sounds takes place and in which, for example, a high and acute perceptible "i" becomes a dull perceptible "i".
  • a high and acute perceptible "i" becomes a dull perceptible "i”.
  • the shift of the high-frequency frequency bands to lower frequencies takes place above a lower limit frequency.
  • a further advantageous embodiment of the invention provides that the displacement of the high-frequency frequency bands takes place individually as a function of the respective frequency position of the high-frequency frequency band.
  • the lying below the upper frequency limit frequency bands are provided with different pre-emphasis.
  • This embodiment of the invention serves in particular to improve the signal-to-noise ratio. Since the individual frequency bands lying below the upper limit frequency are arranged in different frequency ranges, it makes sense to modulate each of these frequency bands with a different pre-emphasis. This procedure also benefits the individual adaptability of the method to the respective hearing deficit.
  • the frequency bands lying below the upper limit frequency are expediently compressed differently. This also allows the respective requirements for the processing of the acoustic speech signals are satisfied by these are processed very individually.
  • the speech signals are each assigned a specific sound class.
  • a sound class selector can be used, with which an adjustment of the speech signals with predetermined characteristics of the individual sound classes can be made, so that it can be determined to which sound class the sound received with the respective speech signal belongs.
  • an individual control of the individual processing measures of the speech signals according to the invention takes place.
  • the high-frequency frequency bands shifted to low frequencies are combined to form an intermediate voice signal as a function of the sound class respectively associated with the voice signals. Whether and in what form this combination is carried out can also be individually adapted to the respective requirements. It is further considered advantageous to combine the low frequency frequency shifted high frequency frequency bands having an upper frequency band located below the upper limit frequency closest thereto to a high pitch intermediate speech signal.
  • the intermediate speech signal or the tweeter intermediate speech signal are stored as a function of the speech signals assigned to the speech signals, retrieved at predetermined time intervals, individually compressed and combined to generate an output speech signal with the other individually compressed frequency bands that are below the upper limit frequency becomes.
  • voiced speech the natural attenuation of the upper formant resonances is so strong that the envelopes have relatively narrow peaks and broad valleys.
  • the valleys can be filled smoothly by the repetition of the respective waveform according to this embodiment of the invention with a time delay, whereby the formant energy content of the overall vibration is substantially increased, for example up to 6 dB. If the energy of the ear is intact over segments of 10 ms, this can produce a considerable increase in physiological activity, for example with regard to loudness and clarity. A weakly articulated sound is prolonged by these processing measures.
  • the output speech signal is used to compensate for unwanted spectral characteristics of speech signals that can be connected to the processing device.
  • Signal output units modulated by means of an equalizer Preferably, the equalizer has a programmable FIR filter.
  • a preamplification of the frequency bands takes place before their compression as a function of the respective sound class assigned to the speech signals and / or the volume of ambient noise.
  • the gain per band is adaptively either reduced so that a medium level is created, which is either just barely perceptible or just barely perceptible.
  • the hearing impaired person can select the presetting of the just good, permanent perceptibility of the environmental noise if a control option is to remain, or the presetting "just no longer perceptible" if any environmental noise is to be considered disturbing.
  • the loudspeaker-specific processing of the speech signals for each sound class comprises its own or at least two inter-class processing measures.
  • at least two cross-class processing measures in particular those are to be selected which are equally applicable to a plurality of loudspeaker classes and produce a perceptual gain without interference.
  • the lowest frequency band shifted to low frequencies always delivers signals, whereas the frequency higher, low frequency shifted, high frequency frequency bands are switched on according to the class of the class.
  • the method according to the invention thus takes place a non-linear time domain modification and a non-linear frequency domain modification of the incoming acoustic speech signals, these frequency domain modifications are closely coordinated.
  • the signal modification in the time domain in the form of a temporal extension of a speech signal preferably takes place only in the case of a spectrally preselected part of the speech signal, especially where such a modification makes sense and does not cause interference.
  • the formant energy content of the overall vibration is substantially increased.
  • the explosive area with its peak can be extended up to 10 ms with the same frequency domain prefiltering, and even at these one-time events by the above-mentioned delay and Summation a significant increase in activity relative to the non-impulsive feature signals.
  • the second formant of the "i" is made much more robust by frequency shifting of the third formant by a factor of about 0.8 and superimposition, ie emphasized the second formant is found at 2.1 KHz, by limiting the frequency shift by the lower cutoff frequency, a fixed truncation of the low frequency energies at 2.3 KHz.
  • the feature energies of the other fricative sounds are compatibly concentrated and frequency limited. This causes above all in people with high-frequency hearing loss, a better effect of the characteristic energies in "ch” and also in "f.”
  • the lower frequency limit always ensures that an excitation of the physiological "sch" channels, ie an inter-loud class violation, is omitted.
  • the upper frequency range of 5 to 9 kHz contains feature energies of the "s” but also of the "t” and the "ch.”
  • a different middle frequency shift by an individual factor is required natural perception of sharpness in the high frequency range equivalent perception of sharpness in the shifted feature energy and thus for a physiological nature-sound-adequate perception.
  • the frequency shift factors of the individual frequency band shifting units are made programmable in hearing aid applications to allow adjustment to individual hearing loss
  • artifacts on vocal sounds, such as the vowels mentioned, including their formant transitions require synchronization of the computational processing windows with the real-time pitch periods, so a pitch synchronizer is required indispensable
  • the feature burst extension can not fill pauses, as there are none.
  • an overlay after delay is not harmful either. A special suppression of the delay is therefore not required.
  • speech signal transformations can be used to compensate for the hearing loss, wherein a transformed speech signal is derived more or less directly from the original signal by comparatively simple modifications in the spectral range or in the time domain.
  • this is only effective if transformation-limiting boundary conditions are adhered to, which are designed so that speech linguistic changes are prevented by inadequate superposition of the original spectrum with the transformed spectrum.
  • weakly articulated sounds in the speech signal to be processed are recognized in the shortest possible time and replaced by corresponding, synthetic sounds.
  • a selective replacement of speech signal elements which are weakly articulated.
  • This selectivity is generated by means of a speech signal recognition method specifically tailored for the purpose of sound classification.
  • individual sound classes are selected in a short time.
  • replacement sounds are synthesized from stored components and inserted in place of the sounds to be replaced in the original speech signal.
  • a classification must be made in a relatively short time at the sound level in order to avoid the perception of asynchronicity between the lips and the face
  • the permitted time offset which does not yet cause any perception of asynchrony, is about 30 ms in
  • the synthetic replacement sounds or their components are preferably largely pre-calculated and stored in a memory. In advance, it can be ensured that these new sounds are largely similar to the natural sounds in terms of perception.
  • the synthetic sounds before their insertion into the speech signal in terms of energy (volume) and / or the frequency center of gravity (pitch) adapted to be replaced, weakly articulated sounds. As a result, the synthetic sounds are largely similar in perception to the weakly articulated sounds to be replaced.
  • the speech signal is delayed in time prior to insertion of the synthetic sounds. This delay is used for the temporal synchronization of speech signal and synthetic sound. Since the processing of the speech signal, for example in the form of a compression, and the speech signal recognition and production of the synthetic sound take different times, the temporal synchronization is almost essential.
  • a further advantageous embodiment of the invention provides that the synthetic sounds are dynamically switched into and out of the received speech signal. This causes annoying and unnatural jumps in the sound image are avoided.
  • the speech signal is divided into a plurality of frequency bands, which can be compressed individually to allow an ideal adaptation of the speech signal processing to a specific hearing damage.
  • each of the weakly articulated sounds is assigned a predetermined sound prototype. This is done by voice signal detection.
  • speech signal features are extracted from the untreated speech signal, which were identified as being optimally suitable in preliminary tests for speech recognition.
  • the assignment of the sound prototypes to the weakly articulated sounds takes place taking into account at least one speech signal feature.
  • the spectral energy ratios of the speech signal can be used.
  • Another suitable speech signal feature may be the voicing of the speech signal.
  • the normalized cross-correlation is defined as the cross-correlation (CC) for the displacement t divided by the square root of the product of the autocorrelation (AK) at the points 0 and t.
  • the maximum of this function in the range between 1 and 10 ms is interpreted as an indicator of voicing.
  • NCC n ⁇ mz ⁇ ⁇ NCCF (t) / te 0 ... ⁇
  • the voice signal should be precleaned from DC offsets and low-pass filtered.
  • a Tschebycheff low-pass 4th order with a 3 kHz cutoff frequency is used for this purpose.
  • a pause may be used in the speech signal.
  • a peak-over-average pause detector can be used to detect lock pauses in plosives, whereby the local modulation of the speech signal can be determined by comparing the absolute signal values (0.1 ms) to a slower (10 ms) energy average
  • Both single-channel pause detectors and multi-channel pause detectors with "min-max-tracking" can be used. The latter are less susceptible to interference than the one-channel breakers.
  • the last pause value can be held for 20 ms.
  • Another suitable speech signal feature is the rate-of-rise (ROR) of the speech signal.
  • the slew rate may be used, for example, to detect the plosive burst, which is the timing of the increase in local relative energy of the speech signal short term averages at the times t ms and t + 1 ms.
  • the ratio of the time averages over 20 ms at time t ms and t-1 ms can be formed.
  • the maximum of this value can be kept, for example, at 50 ms.
  • the speech signal can be prefiltered by an FIR bandpass with a passband of 2 - 10 kHz.
  • a Gaussian classifier with stored sound prototypes for the sound classes “f”, “seh”, “ch”, “s”, “z”, “k” and “t” can be used as the speech signal recognizer
  • the classifier works preferably in three
  • the input value for each speech signal feature is first windowed with a valid range, and the distance to the normally distributed sound prototype can be calculated using a normal distribution-based distance measure d k (x) for the speech signal features remaining after this filtering. which is closest to the input vector, consisting of components of different speech signal features, is selected and assigned to the weakly articulated sound
  • the looped decision time series can still be smoothed with a stochastic filter.
  • the probability of the loudness class prototypes can be determined according to predetermined Gaussian densities. As usual, the decision is made by means of a distance measure. The sound class with the smallest corresponding distance is assumed to be detected. Without covariances, the distance of a sound k over all dimensions i is calculated
  • a temporal smoothing is preferably carried out.
  • the upper two steps can be carried out continuously, so that there is a decision for a sound prototype class per input sample. For example, all timing decisions can be written to a 20 ms ring buffer, of which the most common class value in the 20 ms interval is used as the final recognition result (MAXWINS operator).
  • the classifier should be trained with natural language before use. To determine valid parameters, the following method has proven itself.
  • the function "set ranges by agglomeration" is used, whereby a sufficiently variable sample is used, for example, speakers of different ages and sexes can each speak at least five different possible utterances per phoneme.
  • the ranges can be won with the "extended median" with the values at 30 and 70% of the sorted sequence as Values of a segment can be defined as limits.
  • the valid range per speech signal feature is determined from the union of the regions of all training words. For example, three limits can not be trained, but can be preselected according to empirical values:
  • the range of the NCC maximum is fixed for voiceless sounds by an upper bound of 0.45 and voiced by a lower bound of 0.55.
  • the pause length area is set to at least 30 ms for Plosive.
  • the invention further proposes that the synthetic sounds are generated by generating a noise signal component and a sinusoidal signal component for a synthetic sound and combining them together.
  • the multidimensional Gaussian distributions can be calculated directly from the training material.
  • a combination of band limited noise with limited level distribution and a variable frequency sinusoidal tone can be chosen.
  • controlled frequency shifts of the added sine tone can be introduced to make the shifts of the spectral center of the original sound perceptually transferable.
  • the shapes of the noise signals are preferably selected such that a maximum similarity to the original sound is achieved despite changed frequencies. This can be achieved by special synthesis measures, which generate at the replacement sound perception values of sharpness and roughness, which are as equivalent as possible to those of the original sound despite changed timbre.
  • the noise signal of all components can first be generated by FIR filtering of white noise (random number generator).
  • the feature-carrying frequency range of the replacement is usually positioned at 1.6 kHz, this position produces good perceptual distances to the natural" s "and” ch.
  • "Accordingly narrowband can be filtered between 1.4 and 1.8 kHz shaping the amplitude distribution for a most pleasurable perception of sharpness (little noise) can hard-limit the resulting signal, for example, replaced by its sign, and filtered again. This process is preferably repeated several times. As a result, one obtains a distribution of the amplitudes with strong asymmetry, ie there are only a few slight exceedances of the limitation level.
  • Such a signal maximizes the perception of sharpness. Even at high presentation levels, the generation of an unpleasant noise character is avoided. Furthermore, the sensory cells are protected from high loads by short peak levels.
  • the noise thus generated can be stored as a time signal.
  • randomly sized segments can be randomly selected from a sufficiently large buffer (about 500 ms). These can be linked by means of a sinusoidal transition to a longer pseudorandom noise signal.
  • a second broadband noise component can be generated for the "s.” This can be cut out of the white noise spectrum spectrum by FIR filtering with a passband of 800 Hz - 4 kHz. The amplitude distribution distribution described above is also used here This second component should not be omitted since it ensures that the binding of the replacement "to context sounds with features in this spectral range is improved and" stream-segregation "is avoided It can be added to the first noise component with a level that is lower by about -6 to -12 dB, and the exact level value should be adjusted to your individual hearing impairment.
  • the argument of the sine function can be obtained by integrating phase values.
  • the current frequency can be obtained from the count of zero crossings.
  • the interpolation positions for "middle s", "high s" and "low s” can be set individually by a simple hearing test.
  • the "ch” may for example be composed of two spectral-centered components.
  • the substitute “ch” can be formed by a low-frequency component of about 400 Hz and a higher-frequency component of about 2 kHz, which are preferably determined in preliminary experiments by means of listening experiments white noise can be generated.
  • a change in the amplitude distribution can be similar to the "s" done:
  • the signal can be modified here by two times limiting and filtering so that on the one hand high signal peaks are avoided, on the other hand, however, still noticeable fluctuations, as well as the natural "ch” occur.
  • the noise that can be generated in this way can in turn be stored as a time signal.
  • random segments of random length can be selected from a sufficiently large buffer (approximately 500 ms). These segments can be concatenated by means of a sinusoidal crossfade into a longer pseudorandom noise signal.
  • a peculiarity can be introduced: Preliminary tests have shown that the natural perception image of the "ch” is influenced by the fluctuations of the envelopes in the range of 5 to 20 ms This perception can be called, for example, single-element roughness "Repetition can be generated in accordance with single element roughness, for example, by introducing random short (5 to 10 ms) pauses between the sine windows of each of the aforementioned noise segments. In this way, maximum similarities are achieved from the natural "ch” and synthetic "ch". It is expected that this characteristic can also be evaluated well by the damaged ear.
  • a zero crossing counter can be used when generating the sine component of the replacement "ch". This time for the bandpass filtered input signal in the range of 5 to 10 kHz.
  • the thus obtained Value which is to be understood as an estimate of the mean frequency, can be transformed again with a linear mapping function and then added up to be usable as an argument of a sine function.
  • the “t” can be generated by inserting a complex consisting of a stored synthetic pulse burst and an additional wideband noise component which equals the high frequency portion of the synthetic "s" signal.
  • the stored plosion can be obtained from a bipolar triangular signal, which is filtered, for example, with an FIR bandpass filter with a passband between 100 Hz and 800 Hz and repeated twice every 10 ms.
  • the deployment time can be set to that of the maximum ROR.
  • a continuous, broadband, higher frequency noise signal 800 Hz to 4 kHz
  • the implementation is preferably carried out in the recognizer, which holds the pause and ROR signals for 50 ms.
  • the "t" processing is normally maintained for 50 ms, and the process is preferably interrupted only if the spectral shape changes greatly, such that the band energy values fall outside the range permitted for "t".
  • the soft-switch of the "t" is operated, for example, with 2 instead of 10 ms switch-on time.
  • the amplitudes of the synthetic sounds be compressed individually before insertion into the speech signal.
  • the levels of the synthesized sounds can be adapted to the individual recruitment characteristics of the injured ear.
  • the original signal bandpass filtered, the moving average of the amount formed and the resulting original energy is transformed by a compression characteristic according to the new spectral position.
  • a 4-segment compression characteristic curve can be provided: 1. Under thO, no compression is applied.
  • a limiting compression rate of r2 (about 10 to "infinity"): 1 or a negative slope is made adjustable.
  • the multiplication factor m is calculated as a function of the mean value x as follows:
  • the sum signal resulting from the addition of the noise and sine signals can be multiplied by the original compressed amplitude signal.
  • the addition of the replacement sounds by the Erkennersignal can be controlled by a soft-switch, ie on detection of a weakly articulated sound to be replaced whose synthesis signal with a over the duration of a switch-on t on (about 10 ms) linearly increasing amplitude is added.
  • the signal is blanked out over a switch-off time t Off (approximately 20 to 50 ms) with a linearly decreasing amplitude to 0.
  • the input signal is preferably delayed by 20 ms with respect to the synthesis signal in order to compensate for the delay by detecting and switching on.
  • the invention further relates to a speech synthesis method, in particular for the production of synthetic lutes in a method of the above A method wherein two or more formant waveforms are respectively generated by modulating a formant frequency oscillating source signal having an envelope function, the two or more formant waveforms are added, and the added formant waveforms are concatenated into a suprasegmental speech signal according to a pitch interval length and suprasegmental chaining rules.
  • tonality When irritating the ear with a sine wave, a pure tone is perceived. The quality of this sensation is called tonality.
  • Speech contains no tonality and may contain no such in synthetic production. Sound sensations within synthetic language sequences are disorders. Frequency changes of complexes involving tonality perturbations can create particularly annoying "chirping".
  • the invention proposes a synthesis method in which the source signals are frequency-modulated in the generation of the formant waveforms.
  • tonality in repetitive waveforms consisting primarily of sine signal packets is largely eliminated by frequency modulation.
  • the at the respective Wobbled with formant frequency oscillating source signals according to a predetermined function.
  • the varying frequency of the source signal prevents the basilar membrane from producing only a narrow distribution of time intervals in the acoustic nerve over time.
  • the distribution is broadened by the frequency modulation.
  • the frequency position of the cortically extracted maximum of the distribution becomes (controllable) more undefined.
  • the frequency modulation of the source signals is zyklostationmaschine.
  • This type of frequency modulation is practically particularly easy to implement and produces the desired naturalness of the synthesized speech.
  • Tonality can also be heard with intermittently offered sine packets almost behind the repetition pitch. This is especially true in the periodically repeated sine bursts of formant waveforms.
  • the percept tonality can thus be integrated over short breaks. With a shorter sampling time, this percept weakens and virtually disappears in the strength of the periodicity pitch perception.
  • the concatenation of the frequency-modulated wave packets takes place in such a way by pitch-adaptive envelope shaping that no perceptible disturbances occur by modulation in the superposition area of the wave trains.
  • the modulation of the frequency modulation in the generation of formant wave forms depends on the respective average formant frequency.
  • the frequency-swept sinusoidal packet according to the invention is intended to represent an optimally classifiable vocal formant, the frequency of a source signal can not be deflected arbitrarily far from the original sinusoidal frequency. It can not happen that the cognitive range of the "good vowel prototype" is left, this can be achieved by setting the range functions accordingly.
  • a formant frequency within a period contains large micro-fluctuations, which may be the reason for natural articulation Tonality is never a problem.
  • the extent of the vowels' realms of existence, as far as they are spanned by two formants without varying the frequency of the source signals can be determined beforehand by psychophysical experiments.This expansion of the respective areas of existence of both formants depends essentially on the average position of the source In the synthesis of 2-formant vowels, for example, the following two range functions can be specified for the two oscillating source signals: one for first formants in the range of up to 1000 Hz and one for second form antennas in the range of 500 Hz to 4
  • the modulation of the frequency modulation modulation is up to 20%, preferably up to 10% of the respective average formant frequency.
  • the modulation swing of the frequency modulation in the synthesis of female speech is smaller than in the synthesis of male speech.
  • the typical deviation for male speakers for example, for broad u-formants below 200 Hz at a constant 10%, then falls (percentage) linear to 1 kHz and rises slightly again to 4 kHz. With high pitch of female speakers, less frequency modulation can be used. For example, the percentage deviation chosen for men is halved.
  • a further advantageous embodiment of the invention provides that in the superposition and concatenation of the added Formantwellenformen the Pitch interval length is varied.
  • a randomized variation of the pitch interval length is preferably introduced, whereby the maximum occurring deviation can be predefined.
  • This embodiment serves to avoid the occurrence of tonality with equivalent synthesis of voiced pitch excitation intervals.
  • a precisely repeated pitch waveform generates a very narrow and high-energy frequency distribution of the pitch interval-assigned pulse spikes in the acoustic nerve when the repetition intervals are evaluated neuronally; conceivable as cross-correlation.
  • the pitch interval length is varied so that its instantaneous value is provided with stochastic fluctuations amounting to a maximum of 1% to 2% in the synthesis of male speakers, but only ⁇ 0.5% in the synthesis of female speakers.
  • a further advantageous embodiment additionally provides a rule according to which an absolute constancy of the stylized synthesized pitch curve (without the abovementioned stochastic fluctuations) over a typical syllable interval (approximately 200 ms) is prohibited; the deviation from a horizontal course must be> 3% here.
  • the envelope functions consist of three temporally successive segments, namely a transient segment in which the amplitude of the source signal rises from zero, a holding segment in which the amplitude of the source signal is constant, and a decay segment in which the amplitude of the source signal drops back to zero exists.
  • the windowing of the source signal by the transient segment is preferably chosen as a function of the formant frequency.
  • the underlying model idea is that with natural articulation the transient segment is triggered by the abrupt closure of the glottis.
  • the envelope slope is given by the "filter quality" of the cavity in shot glottis Formantresonanzfrequenz.
  • the time length of the holding segment is dependent on the frequency.
  • the decay segment is provided analogous to the transient process with a window whose length is preferably made dependent on the frequency of the source signal.
  • the state of the system changes, so that different, varying losses must be expected, which in turn can influence the decay segment.
  • This system assumption is used later to vary the swing-out segment as a function of the pitch frequency close to nature.
  • the segments of the envelope function should be changed as a function of the frequencies of the source signals, for example, as follows: For the holding segment, linear segment functions in three carrier frequency ranges are used.
  • the swing-out segment is defined as a percentage of the pitch period. The percentage is a function of the frequency of the source signal, which is preferably selected to be constant below 800 Hz and moreover linearly drops to 4 kHz.
  • the duration of the transient segment, the holding segment and / or the decay segment depend on the pitch interval length.
  • the duration of the swing-out segment is shortened to a minimum value, and then the duration of the hold segment is shortened, so that interferences of formant waveforms of successive pitch intervals are avoided.
  • a cascading shortening strategy ensures that initially no unwanted bandwidth increase takes place.
  • the holding segment of the formant waveform is shortened as the excitation frequency increases further; in the limiting case, the holding segment disappears completely.
  • the duration of the transient segment preferably corresponds to an integer number of zero crossings of the oscillations of the source signal.
  • the number of zero crossings is determined as a function of the formant center frequency. It preferably increases to 1 kHz in order to obtain a realistic transient response of lower formants. From 1 to 2.6 kHz, it preferably continues to flatten up to 3 kHz and then drops off again with a high gradient. This prevents the occurrence of periods with the resulting unnaturally overemphatic percept of the second formant - if a near-natural percept is desired, rather than an over-clear one. However, if the latter is desired to increase intelligibility in the presence of noise, an "over-clear" setting can also be selected.
  • the swing-out segment of the envelope function is designed such that the amplitude at the end of the pitch interval has fallen to at most 35%, preferably to a maximum of 25% of the constant amplitude during the holding segment.
  • the value of the final amplitude is preferably pitch-adaptively set.
  • the speech signal undergoes high-pass filtering.
  • a high-pass filtering by means of an IIR filter with a cutoff frequency of 100 Hz. This can be unwanted low-frequency signal components are eliminated, which arise by superposition of waveforms with variable pitch interval length.
  • the level ratio is defined as a two-dimensional function depending on the frequencies of the first and second formants (F1 and F2, respectively).
  • the table below shows values for typical vocal positions.
  • ratio values from the tabulated interpolation points can be used for intermediate layers be interpolated. This is done by calculating the triangulation of the F1 / F2 vertices once and then calculating each required value as a point on a corner-to-side distance of the surrounding triangle. The values are determined by comparing the resulting synthesis spectrum with the spectrum of natural sounds after specifying all other parameters.
  • the F1 / F2 value for "i" was estimated to be -12 dB rather high, so that the synthesis is not unnecessarily difficult to understand.
  • the method according to the invention makes it possible to synthesise "super-clear" vowels, which is advantageous, for example, for generating test signals for the adaptation of hearing aids Furthermore, such vowels can be better understood by persons with hearing deficits
  • the spectral valley subsidence and thus the spectral modulation degree are driven as far as the naturalness constraints allow
  • By increasing the time at higher formants relative to natural window lengths and by concentrating the feature-carrying energies of maximum extent into the perceptually effective spectral Feature detection areas can produce super-clear or super (noise) interference-resistant vocal prototypes, with a particular advantage in speech output with thus generated vowels in disturbed environments.
  • the (mean) formant frequencies are pitch-varied, in such a way that the formant frequencies are increased as the pitch interval length is shortened.
  • intonated, rhythmic, suprasegmentale sequences can be generated in which a natural perceptual vocal stability is ensured.
  • only the measurable required formant changes are needed as a function of pitch changes necessary for optimum identity preservation of the vowel image.
  • the mean formant frequency position can not only give an impression of unnaturalness, but the perception can skip a class boundary with significant shifts in the average pitch, so that the vowel is perceptually into another Class can mutate (male-female-child- soprano).
  • pitch-intonation variations including man- woman differences, we find that to prevent these disturbances of the vocal perceptual constancy of the Formalities in the suprasegmental time scale must be changed according to unique functions. The perceptive and cognitive mechanism underlying the established vocal constancy has not yet been fully elucidated.
  • the formant frequency can be varied in the same way as for complex suprasegmental pitch contours.
  • the formant frequencies be varied in the same direction dictated by the pitch change. For this purpose, for example, a positive feedback of 1 to 5% formant frequency change at 10% pitch change in the suprasegment can be used.
  • the spectral motion of the formants towards the central plosive frequency center of gravity or maximum promotes clarity of nature and clarity and can also be introduced with this method via the formant correction function, which was previously responsible for the pitch adjustment ,
  • the invention relates to a method for controlling the adaptation of a hearing aid, in particular a hearing aid whose function is based on the above-described method, wherein the hearing aid has a filter bank for spectrally selective amplification and dynamic compression of audio signals, to a Hördefizit a hearing aid wearer a test signal is generated by means of a signal source and the perception of the test signal is evaluated by the hearing device wearer.
  • Modern hearing aids allow in principle to compensate for hearing deficits individually.
  • a multiplicity of parameters of the hearing aid have to be set and precise checks carried out. These are the amplification and compression parameters of the filters of the hearing aid filter bank responsible for the various spectral ranges.
  • the necessary time or the necessary means for sufficient control and adjustment of the hearing aid are not available. It is noted that the quality of the fitting methods in the younger The past could not keep pace with the development of hearing aid technology and in general the technical processing possibilities of audio signals, in particular of speech signals. Therefore, one often finds suboptimal fitting results.
  • a suboptimal adaptation of a hearing aid to the individual hearing deficit of the hearing device wearer has unacceptable effects on the communication ability of the hearing aid wearer, especially if there are high-grade sensory damage with severely restricted dynamic ranges. For such damage, the fitting criteria must not be aligned with a general compensation of gain factors in the spectrum. Instead, the adaptation must be aimed specifically at restoring the voice communication ability in the most important conversation situations (possibly with the respective interference environment).
  • the invention provides a method for controlling the adaptation of a
  • test signal comprises at least one natural or nature-like speech element which is spectrally filtered or selected in such a way that the spectrum of the test signal corresponds to the spectral range of at least one filter of the filter bank of the hearing aid.
  • the review and adjustment of the hearing aid can be done according to the invention with filtered (natural) language material.
  • speaker-independent test signals can be used. These must, however, be produced as natural as possible.
  • the above-described speech synthesis method according to the invention is particularly well suited.
  • language elements are used for checking and adjusting the hearing device, which are known as problem cases anyway. These are articulate too weak elements, eg. B. / ch, s, f, seh / or articulately too strong elements, eg. B. / a, ä /, or even very short and weak elements, eg. B.
  • the selection of the vocalic speech elements as test signals or the spectral filtering is carried out according to the invention so that the test signals cover critical areas of transmission in the spectrum, so that from the assessment of the perception of the corresponding test signals by the hearing aid wearer specific conclusions on suboptimal set parameters of the filter bank Hearing aid can be pulled.
  • the spectrum of the test signals corresponds to the spectral range of at least one filter of the filter bank of the hearing device.
  • test signals have a certain spectral concentration, so that it can be purposefully concluded which device parameters or which parameter groups of the respective hearing device are not set optimally.
  • the invention does not necessarily require that the test signals are matched with respect to their spectrum 1: 1 to the spectral configuration of the filter bank of the hearing aid. It is important that the test signals are still perceived as a language even after filtering the underlying language elements.
  • the entirety of the (essential, representative) speech features that can be mapped into the rest of hearing in practical distance ranges in the various communication situations are really also provided with pleasant, usable loudness, i. H. such a loudness that produces distinctness and clarity is available.
  • pleasant, usable loudness i. H. such a loudness that produces distinctness and clarity is available.
  • This must be checked in the relevant communication situations.
  • the generation of the test signals and corresponding evaluation by the hearing aid wearer must be followed by partner speech at standard communication distances of 0.5 to 2 m, preferably 1 m.
  • the corresponding levels of the test signals can be determined by natural sound signal pressure level measurements.
  • the distance between the microphone of the hearing aid (eg behind the ear) and the mouth must be simulated for one's own language as the basis for a good self-articulation check.
  • situation-dependent test signals for speakers in greater distances, z. In lecture situations. The hearing aid wearer assesses the perception of the respective test signals and preferably gives a graduated evaluation. He gives z. B. on whether the respective test signal is too loud, loud, pleasant, quiet or too soft perceived. As a quantitative measure of the individual quality of the adaptation, the totality of the usable distance ranges and their intersection can then be considered, in which a cognitively utilizable transmission of the speech elements can be achieved.
  • the central feature of the invention is thus the use of test signals which are speech elements and at the same time are spectrally concentrated.
  • the test signals should be made testable at user controllable variable distances to ensure good matching in all relevant communication situations.
  • the spectral concentration of the test signals allows a targeted adjustment of the hearing aid in accordance with the evaluation of the test signals by the hearing aid wearer. For this purpose, a plurality of test signals must be generated, correspondingly covering the different spectral ranges of the filter bank of the hearing aid.
  • test signals are on the one hand speech elements, i. H. Language character, and at the same time have the greatest possible spectral concentration.
  • a major problem with the fitting of a hearing aid is that in one and the same spectral range large level differences must be dynamically mapped correctly. This applies in particular to the second formants of / i / and / ä /. It is especially important to check whether spectrally high, weak features are adequately processed at an acceptable distance so that they can be heard loud enough. On the other hand, it has to be examined whether there are too many loudness levels in the same spectral range that are simply unconsciously loud or that entail an unacceptably strong masking of neighboring phonemes.
  • the furthest and the shortest distance should be determined, which does not yet lead to disturbances of the perceptions.
  • the respectively same test signal should be generated repeatedly with a different volume, the characteristic curves of the spectrally selective dynamic compression of the hearing aid being adjusted in accordance with the evaluation by the hearing aid wearer.
  • test signals that corresponds to a natural fricative.
  • Such test signals are spectrally far extended, with feature energies that are often far beyond the usable residual hearing range, so that only very weak residual energies fall into the residual hearing range. It has to be examined whether these are made sufficiently cognitive. Again, the widest and the shortest distance should be determined, which does not lead to loss of perception yet.
  • specific questions may need to be asked, such as: B .: Which of these sounds are audible at all? What is their distinctiveness? Frequently, the maximum possible amplification in the upper frequency bands by means of the hearing aid sets the distance limit for fricatives too short distances.
  • the feedback whistling begins in unfavorable constructions or leaks in the otoplasty even at low reinforcements, which for adequate amplification of fricative energies is too low.
  • another hearing aid must be selected or the acoustic adjustment and tightness of the earmould must be improved.
  • the assessment by the hearing device wearer may also result in additional requirements for the technique of the hearing aid, such as an additional selective speech feature enhancement or a spectral transposition.
  • Plosive which should also be tested according to the invention in a further process step.
  • These language elements are short-term stimuli with impulsive character with koartikulativ distributed features, some of which have very low levels, d. H. they often get lost in the environmental noise.
  • the spectra of Plosvie are extensive. This in turn results in the fact that in high-tone losses large parts fall out of the rest of hearing, so are not recyclable.
  • the evaluation questions are therefore similar to fricatives. The evaluation may indicate that a higher fundamental gain in high frequency bands (> 2000 Hz) is required. If necessary, a hearing aid with spectral transposition must be used.
  • test signals are generated in a further method step which correspond to different vowels with high second formants, wherein the hearing device wearer assesses the distinctness of the test signals.
  • Two-form vowels with high lying second formants eg / Y, i, e /
  • a possibly individually poorly adapted dynamic characteristic in the critical spectral range and Missing tuning of a limiting function can lead to serious mismatch. Excessive resonances in the earmold can also shift category boundaries.
  • the overall resulting lack of unstable feature transfer leads to a poor distinguishability of the vowels with each other and also to confusion with IuI.
  • the invention makes it possible to directly check whether a spectral increase in the energies of the second and third formants of the critical vowels would improve their perceptibility. This can be implemented directly in a corresponding setting of the parameters of the hearing aid. According to the evaluation by the hearing aid wearer, the dynamic characteristics in the spectral regions of the high lying formants can be adjusted accordingly.
  • the vocal energies are the carriers of speech rhythm or segmental stress. So-called recruitment, d. H. abnormal loudness increase in sensory damage, alters the natural perception of stress and rhythm. With strong variation of the threshold and the dynamics as a function of the spectral location, the transmission of rhythm is strongly distorted and requires a transformation to a constant perceptual measure for constantly articulated rhythm strength. This is achieved by a spectrally correspondingly different characteristic slope of the compression of the relevant vocal feature signals in the region of the dominant rhythm transmission (from about 250 to about 1400 Hz). In addition, the transmission of level differences is less critical. To achieve this, according to the invention, unbounded pairs of vowel-type test signals can be used. The rhythm intensity perceived by the hearing aid wearer should be approximately the same for the test signals used up to frequencies of approximately 1400 Hz. In case of deviations, the slope of the slope should be adjusted in the affected spectral range.
  • the transmission of the essential speech atoms in the residual hearing range must be ensured even if there are disturbances due to environmental noise. Therefore, ensuring sufficient suppression of ambient noise is equally indispensable.
  • the inventive method simultaneously with the Test signals Störlärmsignale be generated.
  • the Störlärmsignale can be generated from a non-frontal area of the hearing aid wearer. In this way, the effectiveness of the directivity of the hearing aid can be checked.
  • parts of the useful signal are disadvantageously changed, since a true spectral separation of speech feature signals and noise signals may not be possible. This depends on the individual environmental noise to which the respective hearing device wearer is exposed.
  • the method according to the invention makes it possible to intentionally bring about a reduction in the distance between the microphone of the hearing device and the speaker mouth while at the same time reducing the gain, so that the effective interference level is lowered. It is determined whether there is a usable distance range in which all speech features are transmitted undisturbed. The hearing aid wearer can learn from this, which distance he must comply with in the presence of appropriate ambient noise to his interlocutor in order to ensure optimum intelligibility.
  • the invention relates to an apparatus for processing acoustic speech signals, with an electronic processing device, wherein the processing means is adapted for the class-specific processing of the speech signals and having means with which a temporal extension of weakly articulated sounds is feasible.
  • the device makes it possible to realize the method described above, according to which an individual emphasis can be made on slightly articulated sounds, this emphasis not being based on amplification of the sounds but on a temporal extension thereof.
  • the device has a filter device by means of which the speech signals can be split into high-frequency frequency bands lying above an upper limit frequency and into frequency bands lying below the upper limit frequency.
  • the high-frequency frequency bands can then be moved individually by means of frequency band shifting units in the Nutzroy Son below the upper limit frequency.
  • the frequency bands lying below the upper limit frequency can be modulated individually by means of filter units of the filter device with a pre-emphasis.
  • the device expediently has a sound class selector with which a speech signal can be assigned a specific sound class.
  • the time extension of the weakly articulated sounds preferably takes place.
  • the frequency bands are individually compressible, whereby also this compression are controlled in dependence of the respective voice signal assigned to a speech signal.
  • an apparatus for processing acoustic signals having an electronic processing device, wherein the processing device is set up to replace weakly articulated sounds by means of corresponding synthetic sounds.
  • the invention relates to a speech synthesizer having means for generating two or more formant waveforms each by modulating a source signal oscillating at a formant frequency with an envelope function, means for adding the two or more formant waveforms, and means for superimposing and concatenating the added formant waveforms according to a pitch interval length to a speech signal.
  • the speech synthesizer is adapted to carry out the above-described synthesis method in which two or more formant waveforms are respectively generated by modulating a source signal oscillating at a formant frequency with an envelope function; the two or more formant waveforms are added and the added formant waveforms are concatenated to a suprasegmental speech signal according to a pitch interval length and according to suprasegmental chaining rules.
  • the source signals are frequency-modulated in the generation of the formant waveforms.
  • the above-described method for controlling the adaptation of a hearing aid can be very easily applied by the hearing aid wearer himself.
  • Specialist staff is not mandatory. This requires only one suitable arrangement comprising a personal computer, an audio interface connected to the personal computer, and at least one speaker connected to the audio interface (e.g., via an amplifier).
  • a corresponding computer program for the personal computer makes it possible to carry out the method described above.
  • Important for the reproducibility of the perception of the test signals according to the invention is an approximately linear output frequency response of the device.
  • Low cost active PC speakers typically have unacceptable variations in frequency response, requiring electronic compensation.
  • the required frequency can be achieved with little effort by means of a software implemented linearization filter. For this, e.g. a FIR filter with constant group delay can be used.
  • a microphone connected to the audio interface can be used as a reference for calibration of the linearization filter.
  • the microphone should have as linear a frequency response as possible.
  • Commercially available highly linear electret microphones are suitable.
  • electret microphone, z. B. in conjunction with a calibrated signal source.
  • simple personal computers eg laptops
  • loudspeakers can be used to carry out the method according to the invention. Care should be taken to ensure that the loudspeakers have sufficient power to provide enough low-distortion reserves for higher levels of test signals.
  • Figure 1 a schematic representation of an embodiment of a device according to the invention
  • Figure 2 is a schematic representation of another embodiment of a device according to the invention.
  • Figure 3 an embodiment for the synthesis of the replacement "and the replacement” ch ";
  • FIG. 5 shows the frequency modulation according to the invention of the source signal during the generation of a formant waveform.
  • FIG. 6 shows the spectrum and time signal of the test signal IuI according to the invention
  • FIG. 7 test signal / o1 /
  • FIG. 8 test signal / o2 /;
  • FIG. 9 test signal IaI
  • FIG. 11 test signal / ü /;
  • FIG. 12 test signal / i /;
  • FIG. 13 test signal / a /
  • FIG. 14 test signal IeI
  • FIG. 16 test signal / kh /, time signal and spectrum
  • FIG. 17 test signal / t-e / (time signal);
  • FIG. 18 test signal / e-t-e / (time signal);
  • FIG. 19 test signal / i-e / (time signal);
  • FIG. 20 test signal / sch-f-ch-s / (time signal and spectrum of / s /);
  • Figure 21 Schematic representation of the inventive arrangement for controlling the adaptation of a hearing aid
  • FIG. 22 arrangement with microphone
  • Figure 23 Arrangement for controlling the directivity of a hearing aid.
  • the embodiment of the device 1 shown in FIG. 1 has a filter device 2 by means of which the incoming acoustic speech signals 3 are split into high-frequency frequency bands FB1, FB2 and FB3 lying above the upper limit frequency and frequency bands FB4 and FB5 below the upper limit frequency.
  • the illustrated upper area 4 of the filter device 2 serves to process frequency bands FB1, FB2 and FB3 of the speech signals 3 which are not to be shifted below the upper limit frequency
  • the lower area 5 of the filter device 2 shows the high-frequency frequency bands FB4 and FB5 from the incoming speech signals 3 filters out, which are above the upper limit frequency and should be moved to the Nutz choir Scheme below the upper limit frequency.
  • the apparatus 1 further comprises a pitch synchronizer 6, which serves to synchronize the windowing of the frequency band shifting units 7, taking into account the phase of the envelope of the voice signals 3 via the control line 8. Furthermore, the device 1 has a sound class selector 9 which receives a received speech signal 3 Assigns default sound class. The result of this assignment is used to control other components of the device 1 via control lines 10, 11 and 12, which will be described below.
  • One of these components of the device 1 is a frequency shift module 13, which in this embodiment has two programmable frequency band shifting units 7.
  • the frequency band shifting units 7 preferably operate with scan modification.
  • the spectrum that generates each frequency band shifting unit 7 is limited by a downstream postfilter 14, 15. These are designed as bandpass filters which limit the shifted signal in the spectral range and prevent exceeding of physiological loudness class limits.
  • the output signal of the post filters 14, 15 is in each case through a combiner 16, comprising a customized soft-switch, switched on or off. This switching on or off is controlled by the sound class selector 9 as a function of the respective voice signal 3 associated with a class via the control line 10.
  • the device 1 further comprises a means 17 for the loudspeaker-specific time extension of slightly articulated sounds.
  • This samples the signal current that comes from the link 18 to him, with overlapping windows, stores the window contents and outputs it after a predetermined time, such as between 2 and 10 ms, again and adds it to the input signal stream.
  • the Delay and Addition operations can be done in parallel with multiple shift reverberation times. In the exemplary embodiment shown, one time is delayed by 4 ms and added in each case. Different modes of operation can be used for different sound classes. This is also controlled by the sound class selector 9 via the control line 11.
  • the compressor unit 19 is a 3-band compressor with a compressor unit K1, K2 or K3 and with three different time constants per band, wherein in each case a time constant per band position are adapted to the speech characteristics. There is one identical in all bands slow gain setting, medium-fast syllabic compression and fast limiting with different speed characteristics. All work with "look-ahead" technology, avoiding transient spikes, and weakened feedback from the second to the first band and the third to the second band counteracts the physiological "upward spread of masking".
  • a preamplification of the frequency bands to be compressed takes place before their compression, for which purpose the compressor units K1, K2 and K3 are controlled individually by the control device 20 via the control lines 21.
  • the control device 20 itself is controlled via the control line 12 as a function of the respective one speech signal 3 by means of the Lauttrenselektors 9 associated sound class.
  • the output signals of the individual compressor units K1, K2 and K3 are combined with each other by means of the linker 22 and supplied to an equalizer 23. This generates the output speech signal 24 of the device 1.
  • FIG. 2 schematically shows a further exemplary embodiment of a device 201 according to the invention.
  • This device has a processing unit 202 for processing the incoming speech signals 203 in the remaining hearing range.
  • This processing device 2022 has a plurality of compressor units with different compression characteristics in order to be able to process the incoming speech signals 203 individually to the particular hearing impairment present.
  • speech signal features are filtered out by means of a feature extractor 204.
  • the extracted speech signal features are then output to the classifier 205, with which sound prototypes stored in a training database 206 are associated with the speech signals 203.
  • a soft switch is used to make the weakly articulated sound corresponding to synthetic sounds the speech signals processed by the processing means 202 via the link 208 Zuhegbar.
  • the synthetic sounds are generated in a synthesizer 208 and then compressed and modulated by a processor 210.
  • the compression and modulation takes place as a function of the recognized speech signal features, in that the feature extractor 204 controls the processing device 210 correspondingly via the control line 211.
  • FIG. 3 shows schematically an embodiment for the synthesis of the replacement "s" and the replacement "ch".
  • the incoming speech signals 213 are split and used in the upper illustrated branch to produce a frequency modulated sine signal and in the lower branch to generate a noise signal.
  • the speech signal 213 first passes through a bandpass filter 214 which has a loudspeaker-specific pass-through area.
  • the bandpass filtered speech signal is then applied to a zero crossing counter 215 to obtain the current frequency from the count of zero crossings. This instantaneous frequency is used to determine the frequency center of gravity of the speech signal, which is used for the modulation of the replacement sound or for the ideal adaptation thereof to the weakly articulated sound to be replaced.
  • the speech signal is fed to a sine wave generator 216 with which the desired sine signal to be superimposed on the noise signal is generated.
  • This sinusoidal signal is then linked to the noise signal of the noise generator 217 via a linker 218.
  • the lower branch first uses a bandpass filter 219, by means of which a loudspeaking frequency range is filtered out of the speech signal 213.
  • This bandpass filtered speech signal is then fed to a device 220, which forms the moving average.
  • the resulting Original energy is then transformed by a compression characteristic 221 and 222, respectively, according to the new spectral location.
  • the transformed speech signals are then combined in the lower branch with the noise signal of the noise generator 223 via the linker 224.
  • the transformed speech signal of the compression characteristic 221 is linked via the linker 225 to the speech signal linked by the linker 218.
  • the further linker 226 links the speech signal generated by the linker 224 to the speech signal generated by the linker 225 and then to a soft switch 227 which corresponds to the soft switch 207 of FIG.
  • the soft switch 227 is voice dependent feature-dependent via the speech feature extractor 204 of FIG. 2 and the control line 211 so that when a weakly articulated sound occurs, it is replaced by a synthetic sound corresponding thereto.
  • incoming speech signals 228 are filtered with a bandpass filter 229 having a passband between 100 and 800 kHz
  • the filtered speech signal is sent to a device 230 for forming the moving
  • the speech signal emanating from this device 230 is split and fed to compression curves 231 and 232 for the transformation of the resulting original energy according to the new spectral position
  • the speech signal processed by the compression characteristic 232 is connected via a link 233 to the noise generator of the noise generator
  • the speech signal of the upper compression characteristic 231 is also fed to a linker 235 which links these speech signals to plosions stored in means 236.
  • the speech signals associated in the links 233 and 235 are communicated by means of the linker 238 linked together and a soft switch 239 according to the soft-switch 207 shown in Figure 2, which outputs a signal in response to the control via the control line 211.
  • FIG. 5 which illustrates the speech synthesis method according to the invention, shows in the upper part an envelope 301 of a formant waveform.
  • the Formant waveform is generated by modulating a source signal oscillating at a formant frequency with the envelope function 301.
  • Right and left of the envelope 301 dotted temporally preceding or following envelope 302, 303 of other formant waveforms of the speech signal are shown.
  • Such chained and superimposed waveforms together make up the synthesized speech signal.
  • the formant waveform consists of the temporally successive segments transient segment E, sustain segment H and decay segment A 1, which are generated according to the method described above, wherein the decay segment A of a preceding formant waveform overlaps the transient segment E of the following formant waveform, depending on the pitch interval length.
  • the two lower graphics show embodiments of functions with which the source signal is frequency-modulated in the generation of the formant waveform to prevent the occurrence of tonality.
  • the modulation stroke x is about 10% in the embodiments.
  • FIGS. 6 to 20 show, by way of example, test signals that can be used according to the invention for checking the adaptation of a hearing aid.
  • the individual fine-tuning of hearing aids with sinewave signals, narrowband sounds, word material and logarithms is not suitable for testing or adjusting an optimal transmission of speech.
  • the articulately weak language elements are not mapped with sufficient quality or sufficient level.
  • test signals can be obtained from natural language recordings or through digital synthesis.
  • the test signals according to the invention are designed so that they are always perceived as natural language elements and can be named accordingly, even if they consist only of spectral parts of the same.
  • An essential feature of the invention is that the vocal equivalent test signals are selected in such a way or spectrally filtered that adjustments of the filter banks of hearing aids can be made directly. In other words, it is important that natural or natural signals with spectrally concentrated feature energies are used as test signals.
  • Filtering rules may be established to produce vowel-like test signals suitable in accordance with the invention.
  • z. B the spectral range divided into five sub-areas. 250 to 400 Hz, 400 to 600 Hz, 700 to 1400 Hz, 1400 to 2000 Hz and 2000 to 3500 Hz. In these areas, the formants of the vowels must be filtered out in different ways in order to be able to directly identify or avoid common adaptation errors.
  • the second formant of / ä / would be shifted without limitation into regions beyond the discomfort limit.
  • a two-part characteristic curve with a suitably increasing actual passband and subsequent limitation is absolutely necessary.
  • An acceptable / ä / loudness must be set very precisely.
  • the vowel equivalent test signals of Figures 6 to 14 are each filtered out of the overall natural sound spectrum using phase linear FIR filters.
  • FIG. 6a shows the time signal and FIG. 6b shows the spectrum of the test signal IuI.
  • the low-frequency range up to 1000 Hz it must be noted that there is often strong noise, with excitation frequencies below 200 Hz and a strong harmonic spectrum. Therefore, a lowest possible amplification should always be selected, so that the interfering noises as far as possible have no influence on the speech perception in the range> 1000 Hz. It follows that the transmission of the / u / must be adjusted so that a low IuI is perceived just as well with the lowest possible basic gain. For the inventive control of the adjustment of the hearing aid, the effect of the IuI is very important. All components of the IuI that may be relevant to perceptions must be available. In the test signal shown in FIG. 1, the natural spectrum of the IuI is band-pass filtered between 250 and 500 Hz.
  • FIG. 7a shows the spectrum and FIG. 7b shows the time signal of the test signal / o1 /.
  • It is the open / o / which, like the IuI, is still in the range of low frequency noise components and in an area where high levels can strongly mask upwards. Despite possibly large dynamic range must be taken to ensure that no excessive levels of loudness occur. The steepness of the curve must reflect optimal rhythm and the horizontal boundary must be rather conservative in the assessment of the test signal by the hearing aid wearer as loud.
  • the first formant of the open / o / is filtered out to generate the test signal shown in FIG. 7 over a broadband between 250 and 700 Hz.
  • FIG. 8 shows the test signal / o2 / in a corresponding manner. It is the closed lo /. The same applies to the open / o /. According to the natural bandwidth, the first formant is filtered out broadband between 300 and 900 Hz.
  • FIG. 9 shows the test signal / a /. All variants of / a / have much higher levels relative to the neighboring vowel energies. Therefore, there is a danger that the / a / excitation leads to excessive loudness.
  • test signal / a / is filtered according to Figure 9 in the range between 600 Hz and 1600 Hz with two main formants extremely broadband. If the loudness of this complex is dynamically adjusted isophonically relative to the features of the other vowels, it can be assumed that excessive masking is prevented.
  • FIG. 10 shows the test signal / ö /.
  • the relatively weak feature energy of / ö / lies at the end of the / a / spectral range and can therefore be increased by appropriate amplification.
  • the energy is filtered out between 1100 and 1800 Hz, as shown in FIG.
  • FIG. 11 shows the test signal / u /.
  • the feature energy of / ü / is extremely weak and narrowband. Good suprathresholdness must be taken care of by setting a suitable gain in this spectral range. At subliminal level the / u / becomes IuI. Accordingly, to generate the test signal according to FIG. 11, the filter width is selected to be 1750 to 2100 Hz.
  • FIG. 12 shows the test signal / i /.
  • the / i / can be even lower in level than the / ü / and therefore requires even more base gain.
  • the IM possesses not only one but two higher feature-carrying formants, which can amplify loudness summation by broadening critical bands. Both must therefore be taken into account in the control of the adaptation of a hearing aid according to the invention.
  • the band filtering of the test signal IM according to FIG. 12 therefore takes place in the range from 2050 to 3300 Hz. Problems prepares the / ä /.
  • the corresponding test signal is shown in FIG.
  • the feature energy of the / ä / is filtered out in the range between 1000 Hz and 2600 Hz for the test signal in order to be able to take into account all the spectral components which are distributed around the position of the maximum and which generate loudness during the control. This is the only way to adequately adjust the limitation of the strong / ä / -Energies by suitably selecting the horizontal branches of the corresponding dynamic characteristics in this area.
  • FIG. 14 shows the spectrum and the time signal of the test signal IeI.
  • the IeI has feature energy in the range of 1900 to 2600 Hz and is cut accordingly. After prior adjustment of the IM and / ä /, the IeI automatically falls within an adequate intermediate range of the dynamic characteristic curve. The subtleties of the slope in the main passage area can still be adjusted.
  • FIG. 15 shows by way of example the corresponding rhythm pair of the test signal / a /.
  • the first four test signals ( Figures 6 to 9) should produce a very similar and distinct rhythmic strength.
  • the following five signals ( Figures 10 to 14) should produce at least one rhythm that is just perceptible.
  • test signals shown in the further FIGS. 16 to 20 can additionally be used in the method according to the invention for the purpose of further refinement of the adaptation. It is about the evaluation of the perceptibility of plosive features and fricatives. Simple natural language recordings can be used.
  • FIG. 16a shows the time signal and FIG. 16b shows the associated spectrum of the test signal / kh /. It is a plosive burst with aspiration. This should be easy to perceive by the hearing aid wearer. The exact mechanisms for the spectral and temporal energy summation of the spectrally broad and temporally narrowly limited burst energy are largely unknown. The sensitivities of the damaged hearing can not be deduced from threshold measurements. Therefore it is necessary to determine the perception directly with representative prototypes. For this purpose, test signals from clearly articulated speech samples of the plosive bursts IpI, / t / and IYJ with aspiration in the unvoiced Ih / context can be prepared. Alternatively, synthetically generated prototypes can be used. To check the fitting of a hearing aid, it should be examined whether the hearing thresholds are well exceeded in the individual test signals. Furthermore, the distinctness of the prototypes should be examined.
  • plosive vowel logaroms are required as test signals. Combinations with transitions in all spectral ranges should be tested. However, particularly critical are combinations with high lying second formants, ie with / ü /, IeI, IM, / ä /. Representative shows the figure 17, the time signal of the test signal / t-e /. Based on this test signal, the transmission can be finely adjusted especially in the critical range> 2000 Hz.
  • the log atoms with the inverted order may also be provided as test signals, e.g. B. / e-p /, Ie-VJ, Ie-M.
  • plosives can be produced with excessive articulation pressure. This can significantly increase the visibility of the plosive for persons with hearing deficits.
  • signals can be used as test signals in the method according to the invention, in which the plosive is embedded between two vowels, the first vowel being unstressed and the second emphasized.
  • FIG. 18 shows the time signal of the corresponding test signal / e-t-e / (with emphasis on the second IeI).
  • Alternative test signals are e.g. / e-p-e / and Iek-e /.
  • High-frequency deficits often do not transmit the frequency range> 2000 Hz in sufficient quality.
  • the adjustment of the excitation energies of weak high lying second formants relative to the excitation energies of the first formants and the pitch harmonics may be inadequate.
  • the image of the sound that results from the combination of the action of the first and second formants is out of focus, or the effect of the second formant is absent, so that the perceptual images collapse into the image of the IuI.
  • the good perception of the individual formants in the spectrum ensured.
  • a fine adjustment of the ratio of the energies of both formants which takes into account the simultaneous influence of the two energies, is indispensable for the adjustment or testing of the best cognitively classifiable auditory images.
  • FIG. 19 shows by way of example the time signal of the test signal / ie /.
  • Other possible test signals are / i-ü /, lu /, / iu / as well as / ui-ü-e /.
  • test signals for checking the perception of fricatives can be used in the method according to the invention.
  • the perception of fricative energies which are naturally characteristic in higher spectral ranges, is severely disturbed by sensory high-tonal deficits. This may mean that with normal, only amplifying hearing aids, the / s / and / h / are only perceived so weakly that these sounds are practically unusable for the perception of current speech.
  • Transformed or spectrally transposed feature energies that replace natural feature energy must then be made available.
  • the / see / is in a lower frequency range and is produced at the highest articulation level compared to the other fricatives. Often a good readability can be achieved here by sufficient reinforcement.
  • the IM also has feature-carrying energies in the low-frequency range. However, these have very low levels, so that excessive amplification would be needed.
  • test signal / sch-f-ch-s / shown in FIG. 20 can be used.
  • Figure 20a shows the time signal
  • Figure 20b the spectrum of the component IsI.
  • the verifiability of the voiced fricatives can also be checked.
  • the bailance between the low-frequency voiced portion and the high-frequency unvoiced portion of the voiced fricatives may be important for good distinctness.
  • the voiced portion may not obscure the unvoiced portion.
  • FIGS 21 to 23 show an arrangement for controlling the adaptation of a hearing aid according to the invention.
  • the arrangement comprises a personal computer 401 (a laptop) which is connected, for example via a USB interface, to an audio interface 402 of a conventional type.
  • an amplifier 403 is connected to control element 404 for gain adjustment.
  • a speaker 405 is connected to the amplifier 403, a speaker 405 is connected.
  • the loudspeaker 405 are located in front of a hearing aid wearer 406.
  • This carries a hearing aid 407 behind the ear.
  • an absorption funnel 408 may be used which consists of commercially available acoustic insulation mats.
  • the hearing device wearer 406 is located at a distance of preferably about 1 meter in front of the loudspeaker 405.
  • the inventive method described above is implemented by means of appropriate software.
  • the software can be operated by the hearing aid wearer 406 himself, so that the implementation of the method according to the invention requires no further specialist personnel.
  • FIG. 22 shows the arrangement with additional microphone 409. It is a highly linear electret microphone which serves to calibrate a linearization filter realized by software in the personal computer 401.
  • the linearization filter is required to linearize the frequency response of the loudspeaker when outputting the test signals.
  • another loudspeaker 405 ' is located obliquely behind the hearing device wearer 406.
  • the loudspeaker 405' is used to generate an interference signal in order to check the directivity of the hearing aid 407 to be controlled.
  • the standard measuring position of the speaker 405 'with respect to the speaker 405 is 115 °.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zum Verarbeiten von akustischen Sprachsignalen unter Verwendung einer elektronischen Verarbeitungseinrichtung. Um eine gegenüber dem Stand der Technik verbesserte Verarbeitung von akustischen Sprachsignalen zur Verfügung zu stellen, wird mit der Erfindung vorgeschlagen, dass eine lautklassenspezifische Verarbeitung der Sprachsignale erfolgt, wobei schwach artikulierte Laute zeitlich verlängert werden. Weiterhin betrifft die Erfindung ein Verfahren zum Verarbeiten von akustischen Sprachsignalen, bei dem schwach artikulierte Laute in kurzer Zeit erkannt und durch ihnen entsprechende, synthetische Laute ersetzt werden. Ein weiterer Aspekt der Erfindung betrifft ein Sprachsyntheseverfahren, wobei zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion erzeugt werden, die zwei oder mehr Formantwellenformen addiert werden und die addierten Formantwellenformen gemäß einer Pitch-Intervalllänge und gemäß suprasegmentaler Verkettungsregeln zu einem suprasegmentalen Sprachsignal verkettet werden. Gemäß der Erfindung werden die Quellensignale bei der Erzeugung der Formantwellenformen frequenzmoduliert werden. Schließlich betrifft die Erfindung ein Verfahren zur Kontrolle der Anpassung eines Hörgerätes, wobei Testsignale verwendet werden, die natürliche oder naturähnliche Sprachelemente sind, die in der Weise spektral gefiltert oder ausgewählt werden, dass das Spektrum des Testsignals zu dem Spektralbereich wenigstens eines Filters einer Filterbank des Hörgerätes korrespondiert.

Description

Verfahren und Vorrichtung zum Verarbeiten von akustischen Sorachsiαnalen
Die vorliegende Erfindung betrifft ein Verfahren zum Verarbeiten von akustischen Sprachsignalen sowie eine hierzu geeignete Vorrichtung.
Entsprechende Verfahren und Vorrichtungen finden beispielsweise Anwendung in der Hörgerätetechnik, um für Personen mit Hörschäden eine Verbesserung der Verständlichkeit menschlicher Sprache herbeizuführen. Derartige herkömmliche elektro-akustische Anlagen weisen in der Regel Anordnungen von linear verstärkenden Baugruppen auf. Eine solche Baugruppe kann beispielsweise ein Mikrophoneingang, eine Filterbank, ein Kompressor oder ein Ausgangsverstärker sein. Dabei werden die akustische Sprachsignale zunächst über ein Mikrofon in elektrische Sprachsignale umgewandelt, welche in den Mikrophoneingang eingegeben werden. Mittels der Filterbank, welche meist mehrere Bandpassfilter aufweist, erfolgt eine Aufteilung des elektrischen Sprachsignals in mehrere Frequenzbänder, welche von dem Kompressor individuell komprimiert werden, wozu dieser mehrere Kompressoruntereinheiten aufweist. Anschließend werden die komprimierten Frequenzbänder zu einem komprimierten Sprachsignal miteinander kombiniert, welches mittels des Ausgangsverstärkers verstärkt wird.
Bei ungestörter Hörumgebung oder ungestörtem Hörvermögen besitzen Sprachelemente starke Redundanzen. Deren physiologische Wirkungen gehen bei sensorischen Hördefiziten und auch bei zunehmenden Pegeln von Umgebungslärm verloren. Speziell sensorische Hördefizite erzeugen Erhöhungen der Hörschwelle, die mit Recruitment und damit mit Einengungen der nutzbaren Hördynamikweite verbunden sind. Sie fallen besonders stark bei den häufig vorkommenden Hochtonverlusten aus, bei denen der für die Übertragung sehr wichtige Bereich der hoch liegenden, zweiten Formanten zum Teil sehr stark eingeschränkt wird, was schwerwiegende Folgen für die Sprachverständlichkeit hat.
Bei herkömmlichen Hörgeräten ist es meist nicht möglich, artikulativ schwache Laute mit ausreichender Stärke in das cortikale Restgehör oder die cortikale Restdynamik zu übertragen, weil der obere Hörbereich begrenzt ist oder weil die hierfür erforderliche Verstärkung nicht erreicht werden kann. Letzteres tritt häufig wegen einer einsetzenden akustischen Rückkopplung bei noch nicht ausreichender Verstärkung der schwach artikulierten Laute ein. Umgebungslärm wirkt dann besonders erschwerend und kann die Sprachverständlichkeit zusätzlich stark reduzieren. Bei starken Hörverlusten ist der hiervon Betroffene im Grenzfall gezwungen, auf eine akustische Sprachkommunikation zu verzichten und auf Lippenlesen auszuweichen. Dies trifft auch zu bei Personen, die nur Hörverluste geringen Grades aufweisen, und zwar dann, wenn die Umgebung mehr oder weniger lärmerfüllt ist. Dies ist zum Beispiel der Fall bei Ansagen in laufenden Fahrzeugen, auf Bahnhöfen oder in der „round-table" Diskussions-Situation.
Außerdem kann festgestellt werden, dass bei üblichen Hörgerätekonstruktionen der zur Verfügung stehende, pegelgesteuerte Kompressor das Sprachsignal deutlich verschlechtert, wenn der verfügbare Dynamikbereich schmaler wird als der Abstand der Pegel von schwachen und starken Lauten. Wenn dann die artikulativ schwachen Laute gut überschwellig gemacht werden, führt dies dazu, dass die artikulativ starken Laute in den Begrenzungskennlinienast des Kompressors hineingesteuert werden, was zu einer Verzerrung des Rhythmus und der Co-Modulation dieser Laute führt.
Ausgehend von diesem Stand der Technik ist es die Aufgabe der Erfindung, ein verbessertes Verfahren sowie eine verbesserte Vorrichtung zum Verarbeiten von akustischen Sprachsignalen bereitzustellen. Diese Aufgabe wird bei einem Verfahren der eingangs genannten Art dadurch gelöst, dass eine lautklassenspezifische Verarbeitung der Sprachsignale erfolgt, wobei schwach artikulierte Laute zeitlich verlängert werden. Das kann dadurch erfolgen, dass die Energie schwacher Laute durch zeitversetzte Wiederholung eines merkmalstragenden Teils der Laut-Wellenform gestärkt wird.
Eine Lautklasse umfasst erfindungsgemäß alle klanglichen Variationen eines Lautes, welche sich von einem anderen Laut unterscheiden lassen. Beispielsweise kann ein „i" hoch, tief oder lang ausgesprochen werden, ohne die Grenzen der Lautklasse „i" zu verlassen.
Erfindungsgemäß erfolgt eine Be-, Ver- und/oder Aufarbeitung von schwach artikulierten Lauten der menschlichen Sprache selektiv oder in anderer spezifischer Weise. Durch diese individuelle Verarbeitung von Lauten kommt es nicht zu einer einfachen und für alle Sprachmerkmale einheitlichen Pegelsteuerung, welche mit den oben beschriebenen Nachteilen verbunden ist. Auch bei größerem Umgebungslärm kann eine Verarbeitung der akustischen Sprachsignale derart erfolgen, dass eine sehr gute Sprachverständlichkeit gegeben ist. Zur Verbesserung der Sprachverständlichkeit werden erfindungsgemäß schwach artikulierte Laute zeitlich verlängert, indem die schwachen Laute durch zeitversetzte Wiederholung eines Teils der Laut-Wellenform gestärkt werden. Da nicht wie beim Stand der Technik eine Verdeutlichung der schwach artikulierten Laute nur mittels einer ausreichenden Verstärkung derselben erzeugt wird, kommt es nicht zu einer störenden, verstärkungsbedingten Schwingneigung. Die Verarbeitung der akustischen Sprachsignale kann insgesamt sehr viel genauer an den jeweils vorliegenden Hörschaden angepasst werden.
Nach einer vorteilhaften Ausgestaltung der Erfindung werden die Sprachsignale in mehrere Frequenzbänder aufgeteilt. Dieses ermöglicht neben der lautklassen- spezifischen Verarbeitung der Sprachsignale eine weitere Möglichkeit der individuellen Verarbeitung der Sprachsignale, so dass die Verarbeitung auch hierdurch an das jeweils vorliegende Hördefizit höchst genau angepasst werden kann. Vorzugsweise erfolgt eine Aufspaltung der Sprachsignale in hochfrequente Frequenzbänder, die oberhalb einer oberen Grenzfrequenz liegen, und Frequenzbändern, die unterhalb der oberen Grenzfrequenz liegen. Die Grenzfrequenz entspricht vorzugsweise dem oberen Rand des Hörbereichs und kann individuell an das Ausmaß des jeweils vorliegenden Hochtonverlustes angepasst werden.
Mit der Erfindung wird weiter vorgeschlagen, dass die hochfrequenten Frequenzbänder zu niedrigeren Frequenzen unterhalb der oberen Grenzfrequenz und oberhalb einer unteren Grenzfrequenz verschoben werden. Hierdurch können Laute, die am oberen Rand des Hörbereichs oder jenseits der Grenze der Hörbarkeit, liegen, spektral in einen besser nutzbaren niederfrequenten Hörbereich verschoben werden, so dass die Wirksamkeit dieser Laute gesteigert wird. Die Verschiebung der hochfrequenten Frequenzbänder zu niedrigeren Frequenzen unterhalb der oberen Grenzfrequenz muss jedoch die physiologische Klassenbildung der Sprachlaute vollständig in Takt belassen. Die Verschiebung darf also nur soweit oder nur auf eine solche Art geschehen, dass die natürlichen Klassengrenzen, die im physiologischen Klassifizierungsraum natürlicherweise zu finden sind, nicht überschritten werden. Insbesondere sind Inter-Laut-Transformationen auszuschließen. Beispielsweise darf durch die Frequenzverschiebung nicht ein „i" zu einem „ü" werden. Die Frequenzverschiebung darf nur in Form von Intra-Laut-Transformationen erfolgen, bei denen keine Umwandlung von Lauten erfolgt und bei denen beispielsweise aus einem hoch und spitz wahrnehmbaren „i" ein dumpf wahrnehmbares „i" wird. Um Überschreitungen von physiologischen Laut-Klassengrenzen zu verhindern, erfolgt des Weiteren die Verschiebung der hochfrequenten Frequenzbänder zu niedrigeren Frequenzen oberhalb einer unteren Grenzfrequenz.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die Verschiebung der hochfrequenten Frequenzbänder individuell in Abhängigkeit der jeweiligen Frequenzlage des hochfrequenten Frequenzbandes erfolgt. Auch durch diese Ausgestaltung ist eine sehr individuelle Verarbeitung der akustischen Sprachsignale möglich, indem keine einheitliche Verschiebung von hochfrequenten Frequenzbändern erfolgt, welche beispielsweise auch zu den oben beschriebenen Inter-Laut-Transformationen führen kann, sondern die Frequenzbänder werden individuell in Abhängigkeit ihrer jeweiligen Frequenzlage unter ausschließlich Intra-Laut-Transformationen in einen geeigneten Frequenzbereich verschoben.
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung werden die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder mit unterschiedlicher Pre-Emphasis versehen. Diese Ausgestaltung der Erfindung dient insbesondere der Verbesserung des Signal-Rausch-Verhältnisses. Da die unterhalb der oberen Grenzfrequenz liegenden einzelnen Frequenzbänder in unterschiedlichen Frequenzbereichen angeordnet sind, ist es sinnvoll, jedes dieser Frequenzbänder mit einer unterschiedlichen Pre-Emphasis zu modulieren. Auch diese Vorgehensweise kommt der individuellen Anpassbarkeit des Verfahrens an das jeweils vorliegende Hördefizit zugute.
Zweckmäßigerweise werden die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder unterschiedlich komprimiert. Auch hierdurch kann den jeweiligen Anforderungen an die Verarbeitung der akustischen Sprachsignale genüge getan werden, indem diese sehr individuell verarbeitet werden.
Es wird weiter vorgeschlagen, dass den Sprachsignalen (oder besser: den Sprachsignalabschnitten) jeweils eine bestimmte Lautklasse zugeordnet wird. Hierzu kann beispielsweise ein Lautklassenselektor eingesetzt werden, mit dem ein Abgleich der Sprachsignale mit vorgegebenen Charakteristika der einzelnen Lautklassen erfolgen kann, so dass feststellbar ist, zu welcher Lautklasse der mit dem jeweiligen Sprachsignal erhaltene Laut gehört. Vorzugsweise erfolgt auf Basis dieses Abgleiche eine individuelle Steuerung der einzelnen Verarbeitungsmaßnahmen der Sprachsignale gemäß der Erfindung.
Vorzugweise werden die zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder in Abhängigkeit der den Sprachsignalen jeweilig zugeordneten Lautklasse zu einem Zwischensprachsignal miteinander kombiniert. Ob und in welcher Form diese Kombination durchgeführt wird, kann ebenfalls individuell an die jeweiligen Anforderungen angepasst werden. Es wird des Weiteren als vorteilhaft erachtet, wenn die zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder mit einem oberen Frequenzband, welches unterhalb der oberen Grenzfrequenz am nächsten zu dieser angeordnet ist, zu einem Hochtonzwischensprachsignal kombiniert werden. Durch diese Zuführung des oberen Spektralbandbereiches zu den zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbändern erfolgt eine Mischung von Signalenergien, die hörschadenspezifisch beispielsweise oberhalb von 2,3 KHz liegen, und den zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbändern, wodurch diese Mischung perzeptiv verstärkt wird, was einer Pegelanhebung von etwa 3 bis 6 dB entspricht. Diese neuartige Hochtonband-Mischung wird im Anschluss individuell komprimiert und mit den übrigen individuell komprimierten Frequenzbändern zu einem Ausgangssprachsignal kombiniert.
Es wird weiter vorgeschlagen, dass das Zwischensprachsignal bzw. das Hochtonzwischensprachsignal in Abhängigkeit von der den Sprachsignalen jeweils zugeordneten Lautklasse gespeichert, in vorgebbaren Zeitabständen abgerufen, individuell komprimiert und zur Erzeugung eines Ausgangssprachsignals mit den übrigen individuell komprimierten Frequenzbändern, die unterhalb der oberen Grenzfrequenz liegen, kombiniert wird. Bei stimmhafter Sprache ist die natürliche Dämpfung der oberen Formantresonanzen so stark, dass die Umhüllenden relativ schmale Spitzen und breite Täler aufweisen. In diesem Fall können durch die gemäß dieser Ausgestaltung der Erfindung erfolgende Wiederholung der jeweiligen Wellenform mit einer zeitlichen Verzögerung die Täler störungsfrei aufgefüllt werden, wodurch der Formant- Energieinhalt der Gesamtschwingung wesentlich, beispielsweise bis zu 6 dB, erhöht wird. Bei intakter Energiesummation des Ohres über Segmente von 10 ms kann hierdurch ein erheblicher physiologischer Wirkungszuwachs beispielsweise bezüglich der Lautheit und der Klarheit erzeugt werden. Ein schwach artikulierter Laut wird durch diese Verarbeitungsmaßnahmen zeitlich verlängert.
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung wird das Ausgangssprachsignal zur Kompensation von ungewünschten spektralen Eigenschaften von an die Verarbeitungseinrichtung anschließbaren Sprach- Signalausgabeeinheiten mittels eines Equalizers moduliert. Vorzugsweise weist der Equalizer ein programmierbares FIR-Filter auf.
Nach einer zweckmäßigen Ausgestaltung der Erfindung erfolgt eine Vorverstärkung der Frequenzbänder vor ihrer Kompression in Abhängigkeit von der den Sprachsignalen jeweils zugeordneten Lautklasse und/oder der Lautstärke von Umgebungsgeräuschen. Bei stärkeren Umgebungsgeräuschen wird die Verstärkung pro Band adaptiv wahlweise so gesenkt, dass ein mittlerer Pegel entsteht, der individuell entweder gerade gut wahrnehmbar oder gerade nicht mehr wahrnehmbar ist. Je nach Situation kann der schwerhörende Mensch die Voreinstellung der gerade guten, permanenten Wahrnehmbarkeit des Umgebungslärms wählen, wenn eine Kontrollmöglichkeit bestehen bleiben soll, oder die Voreinstellung „gerade nicht mehr wahrnehmbar", wenn jeglicher Umgebungslärm als störend aufzufassen ist.
Nach einer vorteilhaften Ausgestaltung der Erfindung umfasst die lautklassenspezifische Verarbeitung der Sprachsignale für jede Lautklasse eigene oder wenigstens zwei lautklassenübergreifende Verarbeitungsmaßnahmen. Bei den lautklassenspezifischen, wenigstens zwei lautklassen- übergreifenden Verarbeitungsmaßnahmen sind insbesondere solche zu wählen, die für mehrere Lautklassen gleichermaßen anwendbar sind und einen Wahr- nehmungsgewinn ohne Störungen erzeugen.
Ferner wird es als vorteilhaft erachtet, wenn das niedrigste, zu niedrigen Frequenzen verschobene, hochfrequente Frequenzband immer Signale liefert, wohingegen die frequenzmäßig höher liegenden, zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder lautklassenspezifisch zugeschaltet werden.
Mit dem erfindungsgemäßen Verfahren erfolgt somit eine nichtlineare Zeitbereichsmodifikation und eine nichtlineare Frequenzbereichsmodifikation der eingehenden akustischen Sprachsignale, wobei diese Frequenzbereichsmodifikationen eng aufeinander abgestimmt sind. Die Signalmodifikation im Zeitbereich in Form einer zeitlichen Verlängerung eines Sprachsignals erfolgt vorzugsweise nur bei einem spektral vorselektierten Teil des Sprachsignals, insbesondere dort, wo eine solche Modifikation sinnvoll ist und keine Störungen hervorruft. Das betrifft insbesondere alle impulshaltigen Sprachanteile, die so kurz sind, dass sie von quasi Pausen ständig umgeben sind. Dies sind insbesondere Plosive und solche Teile von stimmhaft angeregten Lauten, deren höhere Formanten deutlich oberhalb von 1 ,2 KHz liegen. Bei diesen ist eine kompatible Verarbeitung möglich. Durch die erfindungsgemäße Auffüllung der breiten Täler der Umhüllenden der oberen Formantresonanzen wird der Formant-Energieinhalt der Gesamtschwingung wesentlich erhöht. Im Fall der Plosive kann man durch Speicherung, Verzögerung und Wiederaufaddieren bestimmter schwach artikulierter Laute den Explosionsbereich mit seiner Spitze, ohne Störungen oder Klassenänderungen zu erzeugen, mit der identischen Frequenzbereichsvorfilterung bis zu 10 ms ausdehnen und erreicht auch bei diesen Einmalereignissen durch die oben genannte Verzögerung und Summation einen deutlichen Wirkungszuwachs relativ zu den nicht impulshaltigen Merkmalssignalen. Da auch Formant-Übergänge von Vokalen, die bekanntermaßen auch für kontextgebundene Plosive merkmalstragend sind, nach dem beschriebenen Verfahren wesentlich mehr Energie erhalten, ist auch deren Wirkung in Verbindung mit vokalhaften Lauten, die hochliegende zweite Formanten etwa oberhalb von 1 ,3 KHz enthalten, verstärkt. Dadurch können kontextuelle Plosive in Verbindung mit den Lauten „ö", „ü", „i" und „e" an Klarheit oder Prägnanz gewinnen. Wesentlich für die Erfindung ist, dass die Hervorhebung von schwach artikulierten Lauten nicht durch Erhöhung der Verstärkung erfolgt und daher auch keine verstärkungsbedingte zusätzliche Schwingneigung hervorruft. Jedoch kann ein erfindungsgemäß hervorge- hobener Laut auch verstärkt werden, wenn dieses zweckdienlich ist und nicht zu den im Zusammenhang mit dem Stand der Technik genannten Nachteilen führt.
Im unteren Frequenzbereich von 2,5 bis 4 KHz wird der zweite Formant des „i" durch Frequenzverschiebung des dritten Formanten um einen Faktor von ca. 0,8 und Überlagerung wesentlich robuster gemacht, also hervorgehoben. Da die Merkmalgrenze des „i" bei Lagen der zweiten Formanten bei 2,1 KHz gefunden wird, ist durch die Begrenzung der Frequenzverschiebung durch die untere Grenzfrequenz eine feste Beschneidung der niederfrequenten Energien bei 2,3 KHz durchzuführen. Die Merkmalsenergien der anderen frikativischen Laute werden kompatibel konzentriert und frequenzbegrenzt. Dies bewirkt vor allem bei Menschen mit Hochtonhörverlusten eine bessere Wirkung der Merkmalsenergien bei „ch" und auch bei „f. Die untere Frequenzbegrenzung sorgt immer dafür, dass eine Anregung der physiologischen „sch"-Kanäle, also eine Inter- Laut-Klassenüberschreitung, unterbleibt.
Der obere Frequenzbereich von 5 bis 9 kHz enthält vor allem Merkmalsenergien des „s" aber auch des „t" und des „ch". Um in den Nutzhörbereich zu gelangen, ist eine andersgeartete mittlere Frequenzverschiebung um einen individuellen Faktor erforderlich. Hierdurch kann eine der natürlichen Schärfe-Wahrnehmung im hochliegenden Frequenzbereich äquivalente Wahrnehmung von Schärfe bei der verschobenen Merkmalsenergie und somit für eine physiologisch Natur- Laut-adäquate Wahrnehmung erfolgen. Die Frequenzverschiebungsfaktoren der einzelnen Frequenzbandverschiebeeinheiten werden bei Hörgerätanwendungen programmierbar gemacht, um Anpassungen an den individuellen Hörverlust zu ermöglichen. Die Vermeidung von Artefakten bei stimmtonangeregten Lauten, also insbesondere bei den genannten Vokalen einschließlich ihrer Formant- Übergänge, verlangt allerdings eine Synchronisierung der Rechen- Verarbeitungsfenster mit den Realzeit-Pitch-Perioden. Daher ist ein Pitch- Synchronisierer unverzichtbar. Bei Segmenten mit Frikativen kann die Merkmalsburstverlängerung keine Pausen auffüllen, da es keine gibt. Allerdings ist eine Überlagerung nach Verzögerung auch nicht schädlich. Eine spezielle Unterdrückung der Verzögerung ist daher nicht erforderlich.
Bei bekannten Verfahren zum Verarbeiten von akustischen Sprachsignalen in der Hörgerätetechnik können Sprachsignaltransformationen zur Kompensation des Hörverlustes eingesetzt werden, wobei ein transformiertes Sprachsignal mehr oder weniger direkt durch vergleichsweise einfache Modifikationen im Spektralbereich oder im Zeitbereich aus dem Originalsignal abgeleitet wird. Allerdings ist dies nur dann effektiv, wenn transformationsbegrenzende Randbedingungen eingehalten werden, die so gestaltet sind, dass Sprachlautverwechslungen durch inadäquate Überlagerung des Original- Spektrums mit dem transformierten Spektrum verhindert werden. Gemäß einem weiteren Aspekt der Erfindung werden schwach artikulierte Laute in dem zu verarbeitenden Sprachsignal in möglichst kurzer Zeit erkannt und durch ihnen entsprechende, synthetische Laute ersetzt.
Im Gegensatz zu der Anwendung von einfachen sprachsignalmodifizierenden Transformationen, wie sie aus dem Stand der Technik bekannt sind, erfolgt erfindungsgemäß ein selektiver Ersatz von Sprachsignalelementen, welche schwach artikuliert sind. Diese Selektivität wird mittels eines spezifisch auf den Zweck der Lautklassifizierung zugeschnittenen Sprachsignalerkennungs- verfahrens erzeugt. Hierbei werden einzelne Lautklassen in kurzer Zeit selektiert. Bei Vorhandensein der schlecht wahrnehmbaren beziehungsweise schwach artikulierten Laute werden Ersatzlaute aus gespeicherten Bestandteilen synthetisiert und an Stelle der zu ersetzenden Laute in das ursprüngliche Sprachsignal eingefügt.
Anders als bei herkömmlichen Spracherkennungssystemen muss hier auf Lautebene eine Klassifikation in vergleichsweise kurzer Zeit vorgenommen werden, um die Wahrnehmung von Asynchronität zwischen Lippenbild und
Sprachsignal beim Fremdsprecher und zwischen Sprachproduktion und
Sprachaufnahme bei selbst artikulierter Sprache zu vermeiden. Bei digitalen
Signalaufbereitungstechniken ist zu unterscheiden zwischen Verarbeitungs- Zeiten und Prozessen für selbst produzierte Sprache einerseits und für
Fremdsprecher-Sprache andererseits. Der erlaubte Zeitversatz, der gerade noch keine Wahrnehmung von Asynchronität hervorruft, liegt bei ca. 30 ms im
Fall der Eigenartikulation und bei 80 ms im Fall der parallelen Aufnahme von
Lippenbildern und Fremdsprecher-Sprachsignalen. Eine strikte Berücksichtigung dieser Randbedingungen ist erforderlich, wenn ein ungestörtes paralleles
Lippenlesen als Informationsverstärkung erfolgen muss.
Die synthetischen Ersatzlaute oder deren Bestandteile werden vorzugsweise weitestgehend vorberechnet und in einem Speicher bevorratet. Vorab kann dafür gesorgt werden, dass diese neuen Laute den natürlichen Lauten wahrnehmungsmäßig weitestgehend ähnlich sind. Nach einer vorteilhaften Ausgestaltung der Erfindung werden die synthetischen Laute vor ihrem Einfügen in das Sprachsignal hinsichtlich der Energie (Lautstärke) und/oder dem Frequenzschwerpunkt (Tonhöhe) an die zu ersetzenden, schwach artikulierten Laute angeglichen. Hierdurch werden die synthetischen Laute den zu ersetzenden, schwach artikulierten Lauten wahrnehmungsmäßig weitestgehend ähnlich.
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung wird das Sprachsignal vor dem Einfügen der synthetischen Laute zeitlich verzögert. Diese Verzögerung dient der zeitlichen Synchronisation von Sprachsignal und synthetischem Laut. Da die Verarbeitung des Sprachsignals, beispielsweise in Form einer Kompression, und die Sprachsignalerkennung sowie Erzeugung des synthetischen Lautes unterschiedliche Zeiten in Anspruch nehmen, ist die zeitliche Synchronisierung nahezu unerlässlich.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die synthetischen Laute dynamisch in das empfangene Sprachsignal ein- und aus diesem ausgeblendet werden. Dieses bewirkt, dass störende und unnatürliche Sprünge im Klangbild vermieden werden.
In weiterer vorteilhafter Ausgestaltung der Erfindung wird das Sprachsignal in mehrere Frequenzbänder aufgeteilt, welche individuell komprimiert werden können, um eine ideale Anpassung der Sprachsignalverarbeitung an einen bestimmten Hörschaden zu ermöglichen.
Zweckmäßigerweise wird den schwach artikulierten Lauten jeweils ein vorgegebener Lautprototyp zugeordnet. Dies erfolgt durch Sprachsignalerkennung. Vorzugsweise werden hierzu aus dem unbehandelten Sprachsignal solche Sprachsignalmerkmale extrahiert, die in Vorversuchen als für die Spracherkennung optimal geeignet identifiziert wurden. Zweckmäßigerweise erfolgt die Zuordnung der Lautprototypen zu den schwach artikulierten Lauten unter Berücksichtigung wenigstens eines Sprachsignalmerkmals.
Als solches Sprachsignalmerkmal können beispielsweise die spektralen Energieverhältnisse des Sprachsignals herangezogen werden. Hierzu können beispielsweise 10 ms Energiemittelwerte in 4 Frequenzbändern ermittelt werden, welche in den folgenden Frequenzbändern liegen: EO = 0,6 - 1 ,3 kHz, E1 = 1 ,2 - 2,4 kHz, E2 = 2,4 - 3,8 kHz und E3 = 4,5 - 8 kHz. Von diesen Bändern können die Verhältnisse, z.B. E1/E0, E2/E1 , E3/E1 und E3/E2, gebildet und als Sprachsignalmerkmale verwendet werden.
Ein weiteres geeignetes Sprachsignalmerkmal kann die Stimmhaftigkeit des Sprachsignals sein. Zur Unterscheidung stimmhafter und stimmloser Laute wird beispielsweise der maximale Wert der normierten Kreuzkorrelation (NCCmaχ) über ein 10 ms Fenster herangezogen. Die normierte Kreuzkorrelation ist definiert als die Kreuzkorrelation (CC) zur Verschiebung t geteilt durch die Quadratwurzel des Produktes der Autokorrelation (AK) an den Stellen 0 und t. Das Maximum dieser Funktion im Bereich zwischen 1 und 10 ms wird als Indikator der Stimmhaftigkeit interpretiert.
NCCn^ = mzκ{NCCF(t)/t e 0...^}
CCF(t) mit NCCF(t) :=
V '(AKF(O)AKF(O
Um Störeinflüsse zu vermeiden, sollte das Sprachsignal vorab von Gleichspannungs-Offsets befreit und tiefpassgefiltert werden. Vorzugsweise wird hierzu ein Tschebycheff-Tiefpass 4. Ordnung mit einer 3 kHz cutoff- Frequenz verwendet.
Als weiteres geeignetes Sprachsignalmerkmal kann eine Pause im Sprachsignal verwendet werden. Beispielsweise kann zur Erkennung von Verschlusspausen bei Plosiven ein „Peak-over-Average"-Pausendetektor eingesetzt werden. Dabei kann die lokale Modulation des Sprachsignals durch den Vergleich der absoluten Signalwerte (0,1 ms) auf einem langsameren (10 ms) Energiemittelwert ermittelt werden. Es können sowohl einkanalige Pausenerkenner wie auch mehrkanalige Pausenerkenner mit „min-max- Tracking" eingesetzt werden. Letztere sind weniger störanfällig als die einkanaligen Pausenerkenner. Zur Integration in den Pausenerkenner kann der letzte Pausenwert 20 ms gehalten werden. Ein weiteres geeignetes Sprachsignalmerkmal ist die Anstiegsgeschwindigkeit (Rate-of-Rise; kurz ROR) des Sprachsignals. Die Anstiegsgeschwindigkeit kann beispielsweise zur Erkennung des Plosiv-Bursts verwendet werden, wobei es sich um den Zeitverlauf des Anstiegs lokal relativer Energie der Sprachsignal- Kurzzeit-Mittelwerte zu dem Zeitpunkt t ms und t+1 ms handelt. Als Maß kann das Verhältnis der Zeitmittelwerte über 20 ms zum Zeitpunkt t ms und t-1 ms gebildet werden. Zur zeitlichen Integration kann das Maximum dieses Wertes beispielsweise bei 50 ms gehalten werden. Zur Verbesserung der Erkennungsleistung bei t ms kann das Sprachsignal durch einen FIR-Bandpass mit einem Durchlassbereich von 2 - 10 kHz vorgefiltert werden.
ROR'(t) = max{ROR(t-h)/h = 0...50ms}
Als Sprachsignalerkenner kann beispielsweise ein Gaußscher-Klassifikator mit gespeicherten Lautprototypen für die Lautklassen „f", „seh", „ch", „s", „z", „k" und „t" verwendet werden. Der Klassifikator arbeitet vorzugsweise in drei Stufen. In einer ersten Stufe wird zunächst der Eingangswert je Sprachsignalmerkmal mit einem gültigen Bereich gefenstert. Bei den nach dieser Filterung noch verbleibenden Sprachsignalmerkmalen kann mit einem normalverteilungs- basierten Distanzmaß dk(x) die Entfernung zu den normalverteilten Lautprototypen berechnet werden. Der Lautprototyp, der dem Eingangsvektor, bestehend aus Komponenten unterschiedlicher Sprachsignalmerkmale, am nächsten liegt, wird ausgewählt und dem schwach artikulierten Laut zugeordnet. Zuletzt kann die durchlaufene Entscheidungszeitreihe noch mit einem stochastischen Filter geglättet werden.
Für die Gesamtheit der für eine Lautklasse verwendeten Sprachsignalmerkmale wird zur Fensterung der Eingangswerte je Sprachsignalmerkmal jeweils ein gültiger Bereich zulässiger Werte vorgegeben. Damit eine Lautklasse detektiert werden kann, müssen alle Sprachsignalmerkmale eines Sprachsignals in dem für sie gültigen Bereich liegen. Hierdurch ist eine vorteilhafte unsymmetrische Beschneidung der Füße der Sprachsignalmerkmals-Verteilungen möglich. Des Weiteren lassen sich dadurch die festen alles-oder-nichts-Bedingungen „muss ROR und Pause haben" für „t", NCCFmax > 0,55 für „z" sowie NCCFmax < 0,45 für alle stimmlosen Lautklassen auf derselben Verarbeitungsebene direkt vorgegeben.
X1 e R,kVi
Für die nach dem Bereichstest verbleibenden Sprachsignalmerkmalsvektoren kann die Wahrscheinlichkeit der Lautklassenprototypen nach vorgegebenen Gaußdichten ermittelt werden. Wie allgemein üblich wird die Entscheidung mittels eines Distanzmaßes getroffen. Die Lautklasse mit der geringsten entsprechenden Distanz wird als detektiert angenommen. Ohne Kovarianzen berechnet sich die Distanz eines Lautes k über alle Dimensionen i zu
dk(x) = ∑(≠*. -/"J2σ;,2 + 2∑logσ4,
Nach diesen beiden Stufen wird vorzugsweise noch eine zeitliche Glättung vorgenommen. Die oberen beiden Schritte können kontinuierlich ausgeführt werden, so dass pro Eingangs-Sample eine Entscheidung für eine Lautprototypenklasse vorliegt. Alle zeitlichen Entscheidungen können beispielsweise in einen 20 ms Ringbuffer geschrieben werden, von dem der häufigste Klassenwert im 20 ms Intervall als endgültiges Erkennungsergebnis verwendet wird (MAXWINS-Operator).
Der Klassifikator sollte vor seinem Einsatz mit natürlicher Sprache trainiert werden. Zur Ermittlung valider Parameter hat sich das folgende Verfahren bewährt.
Zur Ermittlung der Bereichswerte wird die Funktion „set ranges by agglomeration" genutzt. Dabei wird eine hinreichend variable Stichprobe verwendet. Beispielsweise können Sprecher verschiedenen Alters und Geschlechts jeweils mindestens fünf möglichst verschiedene Äußerungen pro Phonem einsprechen. Die Bereiche können mit dem „erweiterten median" gewonnen werden, wobei die Werte bei 30 und 70 % der sortierten Folge als Werte eines Segmentes als Grenzen festlegbar sind. Aus der Vereinigungsmenge der Bereiche aller Trainingsworte wird der gültige Bereich je Sprachsignalmerkmal festgelegt. Drei Grenzwerte können beispielsweise nicht trainiert sondern nach Erfahrungswerten vorgewählt werden: Der Bereich des NCC-Maximums wird für stimmlose Laute durch eine obere Schranke von 0,45 und stimmhafte durch eine untere Schranke von 0,55 fest eingestellt. Der Bereich für Pausenlänge wird für Plosive auf mindestens 30 ms festgelegt.
Mit der Erfindung wird weiter vorgeschlagen, dass die synthetischen Laute erzeugt werden, indem eine Rauschsignalkomponente und eine Sinussignal- komponente für einen synthetischen Laut generiert und miteinander kombiniert werden.
Die mehrdimensionalen Gaußverteilungen können direkt aus dem Trainingsmaterial berechnet werden.
Zur Synthese stimmloser synthetischer Frikative als Ersatz für „s" und „ch" kann eine Kombination von bandbegrenztem Rauschen mit limitierter Pegelverteilung und einem frequenzvariablen Sinuston gewählt werden. Zudem können gesteuerte Frequenzverschiebungen des addierten Sinustones eingeführt werden, um die Verschiebungen des spektralen Schwerpunktes des ursprünglichen Lautes perzeptiv übertragbar zu machen. Die Formen der Rauschsignale werden vorzugsweise so gewählt, dass eine maximale Ähnlichkeit zum Originallaut trotz veränderter Frequenzen erreicht wird. Dies kann durch spezielle Synthese-Maßnahmen erreicht werden, welche beim Ersatzlaut Wahrnehmungswerte von Schärfe und Rauheit erzeugen, die denen des Originallautes möglichst äquivalent sind trotz geänderter Klangfarbe.
Das Rauschsignal aller Komponenten kann zunächst durch FIR-Filterung von weißem Rauschen (Zufallszahlengenerator) erzeugt werden. Vorzugsweise wird der merkmalstragende Frequenzbereich des Ersatzes" in der Regel bei 1 ,6 kHz positioniert. Diese Lage erzeugt gute perzeptive Abstände zum natürlichen „s" und „ch". Entsprechend kann schmalbandig zwischen 1 ,4 und 1 ,8 kHz gefiltert werden. Um die Amplitudenverteilung für eine angenehmste Wahrnehmung von Schärfe zu formen (wenig lärmhaft) kann das resultierende Signal hart begrenzt, beispielsweise durch sein Vorzeichen ersetzt, und erneut gefiltert werden. Dieser Vorgang wird vorzugsweise mehrfach wiederholt. Als Ergebnis erhält man eine Verteilung der Amplituden mit starker Asymmetrie, d.h. es gibt nur wenige geringfügige Überschreitungen des Limitierungspegels. Ein solches Signal maximiert die Wahrnehmung von Schärfe. Auch bei hohen Präsentationspegeln wird die Erzeugung eines unangenehmen Lärmcharakters vermieden. Ferner werden die Sinneszellen vor hohen Belastungen durch kurze Spitzenpegel geschützt. Das so erzeugte Rauschen kann als Zeitsignal abgespeichert werden. Um Wiederholungsartefakte zu vermeiden, können aus einem hinreichend großen Puffer (etwa 500 ms) zufällig Segmente zufälliger Länge ausgewählt werden. Diese können mittels einer sinusförmigen Überblendung zu einem längeren pseudozufälligen Rauschsignal verkettet werden. Zusätzlich kann eine zweite breitbandige Rauschkomponente für das „s" erzeugt werden. Diese kann durch FIR-Filterung mit einem Durchlassbereich von 800 Hz - 4 kHz aus dem Spektrum weißen Rauschens ausgeschnitten werden. Die vorbeschriebene Formung der Amplitudenverteilung wird auch hier angewendet. Zur Anpassung an den spektralen Verlauf des Hörschadens kann diese Rauschkomponente mit einer entsprechenden Dachschrägenkorrektur versehen werden. Diese zweite Komponente sollte nicht weggelassen werden, da sie dafür sorgt, dass die Bindung des Ersatzes" an Kontextlaute mit Merkmalen in diesem Spektralbereich verbessert wird und „stream-segregation" vermieden wird. Sie kann mit einem um ca. -6 bis -12 dB niedrigeren Pegel zur ersten Rauschkomponente addiert werden. Der exakte Pegelwert sollte an den individuellen Hörschaden angepasst werden.
Zur störungsfreien Generierung eines frequenzmodulierten Sinussignals, sollte diese ohne Phasensprünge erfolgen. Dazu kann das Argument der Sinusfunktion durch Integration von Phasenwerten gewonnen werden. Die momentane Frequenz kann aus der Zählung von Nulldurchgängen gewonnen werden. Dazu können im bandpassgefilterten Originalsignal die Nulldurchgänge beispielsweise in einem Zeitfenster der Länge I = 20 ms gezählt und der so bestimmte Frequenzschwerpunkt durch eine lineare Kennlinie mit drei Stützstellen in die Frequenz der Sinuskomponente transformiert werden. Die Stützstellenpositionen für „mittleres s", „hohes s" und „tiefes s" können durch einen einfachen Hörtest individuell festgelegt werden. sinx(O = sin ∑ΦΛO U (O = maps{ZCCs{t))
Für eine maximale Naturähnlichkeit des Ersatz-„ch" kann das „ch" beispielsweise aus zwei spektralkonzentrierten Komponenten zusammengesetzt werden. Beispielsweise kann das Ersatz-„ch" aus einer niederfrequenten Komponente um 400 Hz und einer höherfrequenten Komponente um 2 kHz gebildet werden, welche vorzugsweise in Vorversuchen durch Hörexperimente ermittelt worden sind. Ebenso wie beim „s" können diese Rauschsignalkomponenten jeweils durch unterschiedliche spektrale Filterung aus weißem Rauschen erzeugt werden. Eine Änderung der Amplitudenverteilung kann ähnlich wie beim „s" erfolgen: Das Signal kann hier durch zweifache Begrenzung und Filterung so modifiziert werden, dass einerseits hohe Signalspitzen vermieden werden, andererseits jedoch noch wahrnehmbare Fluktuationen, wie auch beim natürlichen „ch", auftreten können. Das so erzeugbare Rauschen kann wiederum als Zeitsignal abgespeichert werden. Um Wiederholungsartefakte zu vermeiden, können aus einem hinreichend großen Puffer (etwa 500 ms) zufällige Segmente zufälliger Länge (mit Längenvariationen zwischen 10 und 20 ms) ausgewählt werden. Diese Segmente können mittels einer sinusförmigen Überblendung zu einem längeren pseudozufälligen Rauschsignal verkettet werden. Dabei kann wiederum eine Besonderheit eingeführt werden: Vorversuche haben gezeigt, dass das natürliche Wahrnehmungsbild des „ch" von den Fluktuationen der Umhüllenden im Bereich von 5 bis 20 ms beeinflusst wird. Diese Wahrnehmung kann beispielsweise Einzelelement-Rauheit genannt werden. Beim synthetisch erzeugten „ch"-Ersatzlaut kann entsprechend Einzelelement-Rauheit erzeugt werden, indem beispielsweise zufällige kurze (5 bis 10 ms währende) Pausen zwischen den Sinusfenstern der einzelnen vorgenannten Rauschsegmente eingeführt werden. Auf diese Art und Weise werden maximale Ähnlichkeiten vom natürlichen „ch" und synthetischen „ch" erreicht. Es wird erwartet, dass auch vom geschädigten Gehör dieses Merkmal gut auswertbar ist.
Ebenso wie beim „s" kann bei der Generierung der Sinuskomponente des Ersatz-„ch" ein Nulldurchgangszähler verwendet werden. Diesmal für das im Bereich von 5 bis 10 kHz bandpassgefilterte Eingangssignal. Der so erhaltene Wert, welcher als Schätzwert der mittleren Frequenz zu verstehen ist, kann wieder mit einer linearen Abbildungsfunktion transformiert und dann aufaddiert werden, um als Argument einer Sinusfunktion verwendbar zu sein.
sinc(0 = sin 5>e(0 k(0 = mapc(ZCCc(t))
Das „t" kann durch Einfügung eines Komplexes, bestehend aus einer abgespeicherten synthetischen Impuls-Plosion und einer zusätzlichen breitbandigen Rauschkomponente, welche dem hochfrequenten Teil des synthetischen „s"-Signals gleicht, erzeugt werden. Die abgespeicherte Plosion kann aus einem bipolaren Dreiecksignal gewonnen werden, das beispielsweise mit einem FIR-Bandfilter mit einem Durchlassbereich zwischen 100 Hz und 800 Hz gefiltert wird und das im Abstand von 10 ms zweimal wiederholt wird. Der Einsatzzeitpunkt kann auf den des maximalen ROR gelegt werden. Zur Realisierung der zusätzlichen Rauschkomponente kann für die Dauer der durch die „t"-Erkennung getriggerten „t"-Fensterzeit (50 ms) ein kontinuierliches, breitbandiges, höhere Frequenzen enthaltendes Rauschsignal (800 Hz bis 4 kHz) zugemischt werden. Die Realisierung erfolgt vorzugsweise im Erkenner, der die Signale für Pause und ROR 50 ms hält. Dadurch wird auch die „t"- Aufbereitung im Normalfall 50 ms aufrechterhalten. Der Prozess wird bevorzugt nur dann abgebrochen, wenn die spektrale Form sich stark ändert, derartig, dass die Bandenergiewerte aus dem für „t" erlaubten Bereich fallen. Um den Plosivcharakter zu erhalten, wird der Soft-Switch des „t" beispielsweise mit 2 statt mit 10 ms Einschaltzeit betrieben.
Ferner wird vorgeschlagen, dass die Amplituden der synthetischen Laute vor dem Einfügen in das Sprachsignal individuell komprimiert werden. Hierdurch können die Pegel der synthetisierten Laute den individuellen Recruitment- Kennlinien des geschädigten Ohres angepasst werden. Dazu kann das Originalsignal bandpassgefiltert, der Moving-Average des Betrages gebildet und die resultierende Originalenergie durch eine Kompressions-Kennlinie entsprechend der neuen spektralen Lage transformiert werden. Dazu kann beispielsweise eine 4-segmentige Kompressions-Kennlinie zur Verfügung gestellt werden: 1. Unter thO wird keine Kompression angewendet.
2. Unterhalb der Schwelle th1 wird keinen Kompression oder eine Expansion angewendet.
3. Oberhalb von th1 wird eine Kompression von r1 (etwa 2 bis 8) : 1 für den Nutzbereich eingestellt.
4. Oberhalb von th2 wird eine begrenzende Kompressionsrate von r2 (etwa 10 bis „unendlich") : 1 oder eine negative Steigung einstellbar gemacht.
Entsprechend wird der Multiplikationsfaktor m abhängig vom Mittelwert x wie folgt berechnet:
Das aus Addition der Rausch- und Sinussignale entstandene Summensignal kann mit dem komprimierten Original-Amplitudensignal multipliziert werden. Das Hinzumischen der Ersatzlaute durch das Erkennersignal kann über einen Soft- Switch gesteuert werden, d.h. bei Erkennung eines zu ersetzenden schwach artikulierten Lautes wird dessen Synthese-Signal mit einer über die Dauer einer Einschaltzeit ton (ca. 10 ms) linear ansteigenden Amplitude hinzugemischt. Analog wird das Signal am Ende der Erkennungszeit über eine Ausschaltzeit tOff (ca. 20 bis 50 ms) mit linear auf 0 abfallender Amplitude ausgeblendet. Das Eingangssignal wird dabei vorzugsweise gegenüber dem Synthesesignal um 20 ms verzögert, um die Verzögerung durch Erkennen und Einschalten zu kompensieren.
Die Erfindung betrifft weiterhin ein Sprachsyntheseverfahren, insbesondere zur Erzeugung von synthetischen Lauten in einem Verfahren der vorbeschriebenen Art, wobei zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden- Funktion erzeugt werden, die zwei oder mehr Formantwellenformen addiert werden und die addierten Formantwellenformen gemäß einer Pitchintervalllänge und gemäß suprasegmentaler Verkettungsregeln zu einem suprasegmentalen Sprachsignal verkettet werden.
Übliche Verfahren für die Synthese stimmhaft angeregter Sprachsignale gehen von einem stationären Anregungsquellen-Filter-Modell aus. Formantvokoder, die mit stationären Filteransätzen arbeiten - sei es in Seriellstrukturen mit Transversalfilter per Linear Predictive Coding (LPC) oder in Parallelstrukturen mit anderen Koeffizienten gesteuert - können nur in begrenztem Maße die Natürlichkeit der synthetischen Sprache sicherstellen. Natürlichkeit ergibt sich dort quasi zufällig bei günstiger Wahl der Parameter oder erfordert die Einführung spezieller technischer Randbedingungen, z.B. Multi-Puls LPC. Kausale Regeln, welche Natürlichkeit bei der Erzeugung synthetischer Sprache sicherstellen, werden nicht identifiziert.
Die Ursache für starke Unnatürlichkeit bei der Synthese von Sprachsignalen liegen im Auftreten von mit natürlicher Sprache konkurrierenden Perzepten:
1. Wahrnehmung von unnatürlicher Tonalität mit Tonhöhen in den Bereichen der Formantfrequenzen; sich daraus entwickelndes „Zwitschern" bei schnellen suprasegmentalen Änderungen der Formantfrequenzen;
2. Wahrnehmung von Tonalität mit Tonhöhen im Frequenzbereich der stimmlichen Anregung;
3. Wahrnehmung von Intonations-Betonungs/Rhythmusstörungen bei suprasegmentaler Verkettung von Anregungsperioden-Sequenzen durch inadäquat kontrollierte Modulation der Interferenzenergie bei Variation der Stimmtonhöhe; 4. Wahrnehmung von Identitätsänderungen bei Vokalen durch suprasegmental variierende Stimmtonhöhe bei gleichzeitig konstant gehaltenen Formantfrequenzen.
Bei Reizung des Ohres mit einem Sinussignal wird ein reiner Ton wahrgenommen. Die Qualität dieser Empfindung bezeichnet man mit Tonalität.
Sprache enthält keine Tonalität und darf bei synthetischer Herstellung auch keine solche enthalten. Tonwahrnehmungen innerhalb von Sequenzen synthetischer Sprache sind Störungen. Frequenzänderungen von Komplexen, welche Tonalitätsstörungen beinhalten, können besonders störendes „Zwitschern" erzeugen.
Zur Vermeidung dieser „Unnatürlichkeits-Störungen" sind Syntheseregeln einzuführen, die auf Vorgänge bei der natürlichen Vokalartikulation zurückzuführen sind. Sie stellen modelltechnisch gesehen Verfeinerungen der bekannten Quelle-Filter-Synthesemodelle dar. Es liegt eine ungeeignete Vereinfachung bei den klassischen Methoden und Modellen darin, dass das oder die Artikulations-Hohlraumfilter im Verlauf einer stimmhaften Periode nicht nur als fast-stationär, sondern auch als verlustfrei oder zumindest als mit nur konstanten Verlusten behaftet angesehen werden kann, so dass eine lineare Differenzialgleichung mit periodenzeit-invarianten, festen Resonanzfrequenzen und festen Abklingzeiten fälschlicherweise zur Beschreibung verwendet wird. Auch Modelle für das menschliche Hören, deren zentrale Hypothese darin besteht, dass lediglich die Schallleistungsverteilung auf der Basilarmembran die Basis für eine kognitive Signalauswertung ist, leisten der Anschauung Vorschub, dass einfache, stationäre Spracherzeugungsmodelle zur Beschreibung aus- reichend seien. Es wird nicht berücksichtigt, dass auch Signalfeinstrukturen in der Pitchperiode differenzierte Wirkungen hervorrufen können.
Die Erfindung schlägt ein Syntheseverfahren vor, bei dem die Quellensignale bei der Erzeugung der Formantwellenformen frequenzmoduliert werden.
Erfindungsgemäß wird somit Tonalität bei repetitiven Wellenformen, die primär aus Sinussignal-Paketen bestehen, durch Frequenzmodulation weitestgehend beseitigt. Mit Hilfe der Frequenzmodulation werden die bei der jeweiligen Formantfrequenz oszillierenden Quellensignale nach einer vorgegebenen Funktion gewobbelt. Hierdurch liegt eine Frequenzmodulation der ursprünglich frequenzkonstanten Wellenform vor. Die hierdurch variierende Frequenz des Quellensignals verhindert, dass die Basilarmembran im Zeitmittel nur eine schmale Verteilung von Zeitintervallen im akustischen Nerv produziert. Die Verteilung wird durch die Frequenzmodulation verbreitert. Die Frequenzlage des cortikal extrahierten Maximums der Verteilung wird (kontrollierbar) Undefinierter. Durch eine geeignete Parameterwahl ist zu erreichen, dass die cortikale Zuordnung der kognitiven Wahrnehmungsklasse „einzelner reiner Ton" nicht mehr möglich ist. Die Wahrnehmung von Tonalität kann weitestgehend geschwächt werden, und es kann insbesondere erreicht werden, dass die Existenz von Tonalitätswahrnehmungen gänzlich verschwindet.
Nach einer vorteilhaften Ausgestaltung der Erfindung ist die Frequenzmodulation der Quellensignale zyklostationär. Diese Art der Frequenz- modulation ist praktisch besonders leicht realisierbar und erzeugt die gewünschte Natürlichkeit der synthetisierten Sprache.
Tonalität kann auch bei intermittierend angebotenen Sinuspaketen quasi hinter der Repetitionstonhöhe herausgehört werden. Das gilt besonders auch bei den stimmperiodisch repetierten Sinus-Bursts von Formantwellenformen. Das Perzept Tonalität kann somit über kurze Pausen integriert werden. Bei verkürzter Tastzeit schwächt sich dieses Perzept ab und verschwindet quasi in der Stärke der Perioditäts-Pitch-Wahrnehmung.
Nach einer weiteren vorteilhaften Ausgestaltung der Erfindung ist vorgesehen, dass bei der Überlagerung und Verkettung der Formantwellenformen keine störenden Interferenz-bedingten Umhüllendenschwankungen auftreten. Das bedeutet, dass die Überlappung aufeinander folgender Pitchwellenformen kontrolliert werden muss, was durch Pitch-abhängige Adaption der Wellenpaketlänge, durch Modifikation der Längen H und A (vgl. Fig. 1) erreicht wird. Vorzugsweise erfolgt die Verkettung der frequenzmodulierten Wellen- pakete derart durch pitchadaptive Umhüllendenformung, dass keine wahrnehmbaren Störungen durch Modulation im Überlagerungsbereich der Wellenzüge auftreten. Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung hängt der Modulationshub der Frequenzmodulation bei der Erzeugung der Formant- wellenformen von der jeweiligen mittleren Formantfrequenz ab. Da das erfindungsgemäß frequenzgewobbelte Sinuspaket einen optimal klassifi- zierbaren Vokalformanten darstellen soll, kann die Frequenz eines Quellensignals nicht beliebig weit von der ursprünglichen Sinusfrequenz ausgelenkt werden. Es darf nicht passieren, dass der kognitive Bereich des „guten Vokalprototypen" verlassen wird. Dies kann durch entsprechende Vorgaben von Bereichsfunktionen erreicht werden. Bei natürlicher Artikulation enthält eine Formantfrequenz innerhalb einer Periode starke MikroSchwankungen. Dies mag der Grund dafür sein, dass bei natürlicher Artikulation Tonalität niemals ein Problem ist. Die Ausdehnung der Existenzbereiche der Vokale, soweit diese von zwei Formanten ohne Variation der Frequenz der Quellensignale aufgespannt werden, kann durch psychophysische Versuche zuvor ermittelt werden. Diese Ausdehnung der jeweiligen Existenzbereiche beider Formanten hängt im Wesentlichen von der mittleren Lage der Formanten auf der Basilarmembran ab. Bei der Synthese von 2-formantigen Vokalen können für die beiden oszillierenden Quellensignale beispielsweise die folgenden zwei Bereichsfunktionen vorgegeben werden: Eine für erste Formanten im Bereich von bis zu 1000 Hz und eine für zweite Formanten im Bereich von 500 Hz bis 4 kHz. Der erlaubte Wobbeibereich nimmt stark mit steigender Frequenz zu.
Zweckmäßigerweise beträgt der Modulationshub der Frequenzmodulation bis zu 20%, vorzugsweise bis zu 10% der jeweiligen mittleren Formantfrequenz. Bevorzugt ist der Modulationshub der Frequenzmodulation bei der Synthese weiblicher Sprache kleiner als bei der Synthese männlicher Sprache. Die typische Abweichung für männliche Sprecher liegt beispielsweise für breite u- Formanten unter 200 Hz bei konstant 10%, fällt dann (prozentual) linear bis 1 kHz und steigt bis 4 kHz wieder leicht an. Bei hohem Pitch weiblicher Sprecher kann weniger Frequenzmodulation verwendet werden. Es wird beispielsweise die bei Männern gewählte prozentuale Abweichung halbiert.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass bei der Überlagerung und Verkettung der addierten Formantwellenformen die Pitchintervalllänge variiert wird. Bei suprasegmentalen Verkettungen von stimmhaften Segmenten wird bevorzugt eine randomisierte Variation der Pitchintervalllänge eingeführt, wobei die maximal vorkommende Abweichung vorab festlegbar ist. Diese Ausgestaltung dient der Vermeidung des Auftretens von Tonalität bei äquivalenter Synthese stimmhafter Pitch-Anregungs-Intervalle. Eine exakt wiederholte Pitchwellenform erzeugt bei neuronaler Auswertung der Repetitionsintervalle eine sehr schmale und energiereiche Häufigkeitsverteilung der Pitchintervall-zugeordneten Impulsspikes im akustischen Nerv; denkbar als Kreuzkorrelation. Die resultierende Stärke der Wiederhol-Häufigkeitsverteilung bei einer Synthese mit exakt gleichen Pitch-Wiederholintervallen ist sprachuntypisch, da eine < 1%-ige Genauigkeit der Repetition über mehrere Perioden beim natürlichen Sprechen nicht vorkommt. Insgesamt soll somit eine Langzeitkonstanz bei suprasegmentalen Pitchkonturen vermieden werden. Nach vorteilhafter Ausgestaltung der Erfindung wird die Pitchintervalllänge so variiert, dass ihr momentaner Wert mit stochastischen Schwankungen versehen wird, die maximal 1 % bis 2% bei der Synthese männlicher Sprecher, aber nur <0,5% bei der Synthese weiblicher Sprecher betragen.
Eine weitere vorteilhafte Ausgestaltung sieht zusätzlich eine Regel vor, nach der eine absolute Konstanz des stilisiert synthetisierten Pitchverlaufs (ohne die vorgenannten stochastischen Schwankungen) über ein typisches Silbenintervall (ca. 200 ms) untersagt wird; die Abweichung von einem Horizontalverlauf muss hier >3% betragen.
Es wird weiter vorgeschlagen, dass die Umhüllenden-Funktionen aus drei zeitlich aufeinander folgenden Segmenten, nämlich einem Einschwingsegment, in dem die Amplitude des Quellensignals von Null ausgehend ansteigt, einem Haltesegment, in dem die Amplitude des Quellensignals konstant ist, und einem Ausschwingsegment, in dem die Amplitude des Quellensignals wieder auf Null abfällt, besteht. Die Fensterung des Quellensignals durch das Einschwingsegment wird vorzugsweise als Funktion der Formantfrequenz gewählt. Die zugrunde liegende Modellvorstellung ist, dass bei natürlicher Artikulation das Einschwingsegment durch das abrupte Schließen der Glottis ausgelöst wird. Die Umhüllendenanstiegssteilheit ist durch die „Filtergüte" des Hohlraums bei geschossener Glottis gegeben. Die Güte variiert mit der Formantresonanzfrequenz. Vorzugsweise ist auch die zeitliche Länge des Haltesegmentes von der Frequenz abhängig. Diese Phase wird approximativ als weitgehend konstanter Zustand der Hohlraumschwingung bei geschlossener Glottis aufgefasst. Auch das Ausschwingsegment wird analog zum Einschwingvorgang mit einem Fenster versehen, dessen Länge vorzugsweise von der Frequenz des Quellensignals abhängig gemacht wird. Während des Ausschwingsegmentes ändert sich der Zustand des Systems, so dass mit unterschiedlichen, variierenden Verlusten gerechnet werden muss, die ihrerseits das Ausschwingsegment beeinflussen können. Diese Systemannahme wird verwendet, um später das Ausschwingsegment als Funktion der Pitchfrequenz naturnah zu variieren. Um unerwünschte Tonalität zu verhindern und maximale Natürlichkeit zu erreichen, sollten die Segmente der Umhüllenden-Funktion als Funktion der Frequenzen der Quellensignale beispielsweise wie folgt verändert werden: Für das Haltesegment werden lineare Segmentfunktionen in drei Trägerfrequenzbereichen verwendet. Das Ausschwingsegment wird als prozentualer Anteil der Pitchperiode festgelegt. Der prozentuale Anteil ist eine Funktion der Frequenz des Quellensignals, die vorzugsweise unter 800 Hz konstant gewählt wird und darüber linear bis 4 kHz abfällt.
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung hängen die Dauer des Einschwingsegments, des Haltesegments und/oder des Ausschwingsegments von der Pitchintervalllänge ab. Zweckmäßigerweise wird bei sinkender Pitchintervalllänge zunächst die Dauer des Ausschwingsegmentes bis auf einen Minimalwert verkürzt und dann die Dauer des Haltesegments verkürzt, so dass Interferenzen von Formantwellenformen aufeinander folgender Pitchintervalle vermieden werden. Durch eine kaskadierende Verkürzungsstrategie wird erreicht, dass zunächst keine ungewollte Bandbreitenerhöhung stattfindet. Nach Verkürzung des Ausschwingsegmentes wird bei weiterem Anstieg der Anregungsfrequenz das Haltesegment der Formantwellenform verkürzt, im Grenzfall verschwindet das Haltesegment vollständig. Die Dauer des Einschwingsegmentes entspricht vorzugsweise einer ganzzahligen Anzahl von Nulldurchgängen der Oszillationen des Quellensignals. Die Anzahl der Nulldurchgänge ist als Funktion der Formant-Mittelfrequenz festgelegt. Sie steigt vorzugsweise bis 1 kHz an, um ein realitätsnahes Einschwingverhalten niedriger Formanten zu erhalten. Von 1 bis 2,6 kHz steigt sie vorzugsweise flacher weiter bis 3 kHz an und fällt danach mit hoher Steigung wieder ab. Es wird so verhindert, dass Perioden mit resultierendem unnatürlich überdeutlichem Perzept des zweiten Formanten auftreten - wenn denn ein naturnahes Perzept und kein überdeutliches gewünscht wird. Wenn allerdings letzteres doch gewünscht wird, um die Verständlichkeit in Gegenwart von Lärm zu erhöhen, kann auch eine „Überdeutlich"-Einstellung gewählt werden.
Nach klassischen Modellen gibt es keine in der Pitchperiode variierende Verlustoder Absorptionsfunktionen. Dann sind die unabhängig gedachten Formantwellenformen linear zu superponieren. In diesen Fällen würden bei großer Überlappung zwischen den Perioden bei fester Artikulationskonfiguration Anregungsfrequenz-abhängige Interferenzmodulationen als Funktion des Anregungsfrequenzverlaufes resultieren. Das ist bei realer Sprache nicht festzustellen. Zur Unterdrückung solcher Interferenzmodulationen von Formantwellenformen aufeinander folgender Pitchintervalle wird daher vorzugsweise eine Wellen-Dämpfung durchgeführt, welche beispielsweise als Funktion der Glottis-Öffnung das Halte- und das Ausschwingsegment beeinflusst. Von Vorteil ist, wenn das Ausschwingsegment der Umhüllenden- Funktion so ausgebildet ist, dass die Amplitude zum Ende des Pitchintervalls auf höchstens 35%, vorzugsweise auf höchsten 25% der während des Halte- segments konstanten Amplitude abgefallen ist. Der Wert der Endamplitude wird vorzugsweise Pitch-adaptiv festgesetzt.
Es wird weiter als vorteilhaft erachtet, wenn das Sprachsignal eine Hochpassfilterung erfährt. Vorzugsweise erfolgt eine Hochpassfilterung mittels eines IIR-Filters mit einer Cutoff-Frequenz von 100 Hz. Hierdurch können unerwünschte niederfrequente Signalanteile eliminiert werden, die durch Superposition von Wellenformen bei variabler Pitchintervalllänge entstehen.
Sofern gemäß der Erfindung 2-Formant-Vokale synthetisiert werden sollen, muss noch der relative Amplitudenunterschied der beiden festgelegt werden. Das Pegelverhältnis wird als zweidimensionale Funktion abhängig von den Frequenzen der ersten und der zweiten Formanten (F1 bzw. F2) definiert. Die unten dargestellte Tabelle zeigt Werte für typische Vokallagen. Auf dieser Basis können für Zwischenlagen Verhältniswerte aus den tabellierten Stützstellen interpoliert werden. Dazu wird einmalig die Triangulation der F1/F2-Stützpunkte berechnet und dann jeder benötigte Wert als Punkt auf einer Ecke-Seiten- Strecke des umgebenden Dreiecks berechnet. Die Werte werden dabei durch Abgleich des sich ergebenden Synthese-Spektrums mit dem Spektrum von natürlichen Lauten nach der Vorgabe aller anderen Parameter ermittelt. Der F1/F2-Wert für „i" (200/2800) wurde mit -12 dB eher hoch geschätzt, um die Synthese nicht unnötig schlecht verständlich zu gestalten. Die folgende Tabelle gibt passende Vorgaben an:
Klassische Formantvokoderansätze haben als Erkenntnis die Beschreibung populär gemacht, dass für die Kognition von stimmhaft angeregten Lauten, besonders Vokalen, die Dimensionalität des Klang-Klassifizierraums eine Größenordnung von nicht mehr als 2 besitzt. Wobei die kognitiv klang- wirksamen höheren Formantiagen zum Teil durch perzeptive Fusion von mehreren Artikulations-Resonanz-Formanten entstehen. Um eine für Sprachausgabe akzeptable Natürlichkeit zu erreichen, müssen nicht nur die Maxima der Synthesefilter exakt definiert sein, sondern auch die spektralen Abklingfunktionen. Unklar ist, welches kognitive Teil-Perzept durch unter- schiedliche Resonanz-„Füße" beeinflusst wird. Untersuchungen haben gezeigt, dass durch die Energieverteilung in den spektralen Tälern des Sprachsignals wesentlich die Wahrnehmungsstärke der Anregungs-Repetition, also der Stimmtonhöhe (pitch) bestimmt wird. Z.B. trägt bei „ä" die Spektrumsgegend unterhalb des zweiten Formanten besonders stark zum Gesamtperzept des „ä" bei. Auch beim „a" ist substantielle Tal-Energie erforderlich, um akzeptable Natürlichkeit zu bekommen. Um nicht hohl zu klingen, benötigt das „a" substantielle Energie unterhalb des ersten Formanten. Um also die Wahrnehmungen „Hohlheit" und „fehlende Repetitions-Stärke" zu vermeiden, wird gemäß der Erfindung vorzugsweise, vor allem für bessere Natürlichkeit bei den Vokalen „ä" und „a", eine dritte Synthesekomponente eingeführt: Außer dem ersten und dem zweiten Formanten wird in begrenzten Bereichen der Vokal- Ebene, die aus eben diesen aufgespannt wird, zusätzliche Signalintensität mit lageabhängigem Pegel und Frequenzgehalt hinzugefügt. Diese dritte Komponente kann ein gefilterter Kunstglottisimpuls sein, der aus einem Basisimpuls erzeugt wird. Er enthält somit spektral bestimmte repetitive Tal- Energien, die unterschiedliche resonanzfreie, bandbegrenzte Pitch- Linienspektren in definierten unterschiedlichen Bereichen der F1/F2-Ebene (Vokalkarte) aufweisen. Dazu kann ein Anregungsimpuls mit einem FIR-Filter gefiltert werden. Um ein vorgegebenes Zielspektrum zu erreichen, wird dieses FIR-Filter nach der Vorgabe H(f) abzüglich des Eigenspektrums des Impulses H|(f) gewählt, so dass das Spektrum des gefilterten Impulses möglichst genau der Vorgabe entspricht. Das vorgegebene Spektrum kann beispielsweise im Falle des „a" ein Tiefpass mit einer Eckfrequenz bei 400 Hz sein. Als Impuls kann eine einzelne Sinus-Schwingung mit T=2ms gewählt werden. Das erfindungsgemäße Verfahren ermöglicht die Synthese „superdeutlicher" Vokale, was z.B. vorteilhaft zur Erzeugung von Testsignalen für die Anpassung von Hörgeräten ist. Weiterhin sind solche Vokale für Personen mit Hördefiziten besser verständlich. Durch die beschriebene erfindungsgemäße Vorgehens- weise wird es nämlich möglich, das Signal-Rausch-Verhältnis der merkmalstragenden Komponenten des Sprachsignals und damit die neuronale Korrelationsstärke pro Vokalklasse zu maximieren. Die spektrale Talabsenkung und damit der spektrale Modulationsgrad werden so weit getrieben, wie dies die Natürlichkeits-Randbedingungen zulassen. Die Vokal-definierenden Formanten werden mit Formant-Fenstern mit maximaler temporaler Länge bei adäquater Frequenzmodulation erzeugt. Durch die Zeitverlängerung bei höheren Formanten relativ zu natürlichen Fensterlängen und durch die Konzentration der merkmalstragenden Energien mit maximaler Ausdehnung in den perzeptiv effektiven spektralen Merkmals-Detektions-Bereichen lassen sich super- deutliche bzw. super(rausch)störungsresistente Vokalprototypen erzeugen, wobei sich ein besonderer Vorteil bei Sprachausgabe mit solchermaßen erzeugten Vokalen in gestörten Umgebungen ergibt.
Mit der Erfindung wird ferner vorgeschlagen, dass bei Änderung der Pitchintervalllänge die (mittleren) Formantfrequenzen pitch-abhängig variiert werden, und zwar in der Weise, dass die Formantfrequenzen bei Verkürzung der Pitchintervalllänge erhöht werden. Hierdurch können natürlich intonierte, rhythmusbehaftete, suprasegmentale Sequenzen erzeugt werden, in denen eine naturnahe perzeptive Vokalstabilität gewährleistet ist. Für eine als natürlich empfundene Synthese werden allein die messbaren erforderlichen Formantänderungen als Funktion von Pitchänderungen benötigt, die für den optimalen Identitätserhalt des Vokalbildes erforderlich sind. Wenn bei deutlichen Variationen, besonders bei Hebungen, der Stimmtonhöhe die mittlere Formantfrequenzlage konstant beibehalten wird, kann dies nicht nur zu einem Eindruck von Unnatürlichkeit führen, die Wahrnehmung kann bei erheblichen Verschiebungen der mittleren Pitchlage eine Klassengrenze überspringen, so dass der Vokal perzeptiv in eine andere Klasse mutieren kann (Mann-Frau-Kind- Sopran). Im Bereich der umgangssprachlich auftretenden Pitch-Intonations- variationen, einschließlich der Mann-Frau-Unterschiede, findet man also, dass zur Verhinderung dieser Störungen der Vokal-Wahrnehmungskonstanz die Formantiagen im suprasegmentalen Zeitmaßstab nach eindeutigen Funktionen verändert werden müssen. Der perzeptive und kognitive Mechanismus, der der festgestellten Vokalkonstanz zugrunde liegt, ist bislang nicht vollständig aufgeklärt. Es gibt nach derzeitigen Evaluierungen mehrere Mechanismen und Transformationen, deren Wirksamkeit vermutet werden muss. Bei Synthese isolierter Vokale mit einfacher, fast konstant gehaltener, einsegmentiger Pitchkontur kann die Formantfrequenz in gleicher Art und Weise wie bei komplexen suprasegmentalen Pitchkonturen mitvariiert werden. Bei Einführung von intonationsbedingten komplizierteren Pitchkonturen ist es wesentlich, dass die Formantfrequenzen in die gleiche Richtung variiert werden, die von der Pitchänderung vorgegeben wird. Dazu kann beispielsweise eine Mitkopplung von 1 bis 5% Formantfrequenzänderung bei 10% Pitchänderung im Suprasegment verwendet werden. Bei Plosiven ist die spektrale Bewegung der Formanten hin zum zentralen Plosiv-Frequenz-Schwerpunkt bzw. Maximum quasi als Nachahmung der Koartikulation natürlichkeits- und klarheitsfördernd und kann mit diesem Verfahren über die Formantkorrektur-Funktion, die bislang für die Pitchanpassung zuständig ist, ebenfalls eingeführt werden.
Gemäß einem weiteren Aspekt betrifft die Erfindung ein Verfahren zur Kontrolle der Anpassung eines Hörgerätes, insbesondere eines Hörgerätes, dessen Funktion auf dem vorbeschriebenen Verfahren basiert, wobei das Hörgerät eine Filterbank zur spektral selektiven Verstärkung und Dynamikkompression von Audiosignalen aufweist, an ein Hördefizit eines Hörgeräteträgers, wobei mittels einer Signalquelle ein Testsignal erzeugt wird und die Wahrnehmung des Testsignals durch den Hörgeräteträger bewertet wird.
Moderne Hörgeräte erlauben es prinzipiell, Hördefizite individuell gut zu kompensieren. Um eine individuell optimale Anpassung des Hörgerätes an das Hördefizit des Hörgeräteträgers zu erreichen, sind jedoch eine Vielzahl von Parametern des Hörgerätes einzustellen und präzise Kontrollen durchzuführen. Es sind dies die Verstärkungs- und Kompressionsparameter der für die verschiedenen Spektralbereiche zuständigen Filter der Filterbank des Hörgerätes. Häufig ist die nötige Zeit oder sind die notwendigen Mittel zur hinreichend Kontrolle und Anpassung des Hörgerätes nicht verfügbar. Es ist festzustellen, dass die Qualität der Anpassmethoden in der jüngeren Vergangenheit nicht Schritt halten konnte mit der Entwicklung der Hörgerätetechnik und generell der technischen Verarbeitungsmöglichkeiten von Audiosignalen, insbesondere von Sprachsignalen. Daher findet man oft suboptimale Anpassungsresultate.
Eine suboptimale Anpassung eines Hörgerätes an das individuelle Hördefizit des Hörgeräteträgers hat nicht hinnehmbare Auswirkungen auf die Kommunikationsfähigkeit des Hörgeräteträgers, vor allem, wenn hochgradige sensorische Schäden mit stark eingeengten Dynamikbereichen vorliegen. Bei solchen Schäden dürfen die Anpassungskriterien nicht auf einen allgemeinen Ausgleich von Verstärkungsfaktoren im Spektrum ausgerichtet sein. Stattdessen muss die Anpassung gezielt auf die Wiederherstellung der Sprachkommunikationsfähigkeit in den wichtigsten Gesprächssituationen (ggf. mit der jeweiligen Störungsumgebung) gerichtet sein.
Heutzutage ist es üblich, zur Kontrolle der Anpassung eines Hörgerätes den Hörgeräteträger mit Testsignalen zu beaufschlagen, die mittels einer geeigneten Signalquelle erzeugt werden. Die Wahrnehmung des jeweiligen Testsignals wird durch den Hörgeräteträger bewertet. Das Bewertungsergebnis lässt auf die Güte der Anpassung des Hörgerätes zurück schließen. Dementsprechend kann dann die Einstellung des Hörgerätes geändert werden.
Da es bei der Anpassung des Hörgerätes vor allem um die Sicherstellung der auditiven Übertragung von Sprache geht, werden zur Kontrolle der Anpassung häufig so genannte Sprachverständlichkeitstests angewendet, z. B. auf der Basis von sprachrepräsentativen Wortlisten. Es zeigt sich jedoch, dass die Ergebnisse solcher Sprachverständlichkeitstests keine ausreichend diffe- renzierten Rückschlüsse auf die vorzunehmende Einstellung der Verstärkungsund Kompressionsparameter ziehen lassen.
Durch die Erfindung soll ein Verfahren zur Kontrolle der Anpassung eines
Hörgerätes bereitgestellt werden, welches es ermöglicht, entsprechend den
Verarbeitungsmöglichkeiten moderner digitaler Hörgeräte mit Filterbänken und pro spektral selektivem Filter einstellbaren Verstärkungsfaktoren und Kompressionskennlinien, durch entsprechende Einstellung des Hörgerätes, eine optimale Sprachkommunikationsfähigkeit herzustellen.
Diese Aufgabe löst die Erfindung dadurch, dass das Testsignal wenigstens ein natürliches oder naturähnliches Sprachelement umfasst, das in der Weise spektral gefiltert oder ausgewählt ist, dass das Spektrum des Testsignals zu dem Spektralbereich wenigstens eines Filters der Filterbank des Hörgeräts korrespondiert.
Bei zunehmenden Gehörschädigungen nimmt die Redundanz in der Menge der verwertbaren Sprachsignalmerkmale stark ab. Oft sind Total-Hör-Ausfälle einer zunehmenden Anzahl von Sprachbestandteilen zu verzeichnen. Daher ist es für die zu fordernde optimale Ausnutzung des Gehörs von entscheidender Wichtigkeit, dass relevante Sprachbestandteile, die für die Sprachverständlichkeit wichtig sind, in einem nutzbaren Sprecher-Abstandsbereich gut hörbar gemacht werden. Nichthörbarkeit von Sprachelementen oder merkmalstragenden Bestandteilen im Resthörbereich oder die permanente Existenz von zu lauten Schallen sind schwere Anpassungsmängel. Diese Mängel müssen unbedingt ausgeschlossen werden.
Im Prinzip müssten sämtliche Phoneme und ggf. deren spektro-temporalen Bestandteile und die wichtigsten Logatom-Kombinationen und Silben, insofern sie phonetisch-linguistische Ganzheiten bilden, der jeweiligen Sprache überprüft werden. Grundlage kann z. B. die IPA-Liste (International Phonetic Alphabet) zusammen mit Logatom-Listen der CCITT sein. Ein solcher Aufwand wäre allerdings für eine praktikable Kontrolle der Anpassung eines Hörgerätes viel zu hoch. Gemäß der Erfindung werden stellvertretend Testsignale verwendet, die natürliche oder naturähnliche Sprachelemente sind.
Die Überprüfung und Einstellung des Höregerätes kann gemäß der Erfindung mit gefiltertem (natürlichen) Sprachmaterial erfolgen. Stattdessen können auch eindeutig definierte, sprecherunabhängige Testsignale verwendet werden. Diese müssen allerdings möglichst naturähnlich erzeugt werden. Hierfür eignet sich das weiter oben beschriebene erfindungsgemäße Sprachsyntheseverfahren besonders gut. Vorzugsweise werden zur Überprüfung und Einstellung des Höregerätes solche Sprachelemente verwendet, die als Problemfälle ohnehin bekannt sind. Es sind dies artikulativ zu schwache Elemente, z. B. /ch, s, f, seh/ oder artikulativ zu starke Elemente, z. B. /a, ä/, oder auch sehr kurze und schwache Elemente, z. B. /p, t, k, b, d, g/, oder Sprachelemente, deren merkmalstragende Energie außerhalb des Resthörbereichs liegt z. B. /s, z, c, h, t/. Die Auswahl der vokalischen Sprachelemente als Testsignale oder die spektrale Filterung erfolgt gemäß der Erfindung so, dass die Testsignale kritische Bereiche der Übertragung im Spektrum abdecken, so dass aus der Bewertung der Wahrnehmung der entsprechenden Testsignale durch den Hörgeräteträger gezielt Rückschlüsse auf suboptimal eingestellte Parameter der Filterbank des Hörgerätes gezogen werden können. Dies ist gemäß der Erfindung möglich, weil das Spektrum der Testsignale zu dem Spektralbereich wenigstens eines Filters der Filterbank des Hörgeräts korrespondiert. Damit ist gemeint, dass die Testsignale eine gewisse spektrale Konzentriertheit aufweisen, so dass gezielt darauf geschlossen werden kann, welche Geräteparameter oder welche Parametergruppen des jeweiligen Hörgerätes nicht optimal eingestellt sind. Die Erfindung verlangt nicht zwingend, dass die Testsignale hinsichtlich ihres Spektrums 1:1 auf die spektrale Konfiguration der Filterbank des Hörgerätes abgestimmt sind. Wichtig ist, dass die Testsignale auch nach Filterung der zu Grunde liegenden Sprachelemente noch als Sprache wahrgenommen werden.
Es ist hervorzuheben, dass die herkömmliche regelbasierte Wahl der Hörgeräteparameter oft suboptimal ist. Der Grund dafür ist die Tatsache, dass bekanntermaßen keine festen verallgemeinerungsfähigen Beziehungen zwischen Reintonaudiogramm und komplexer neurophysiologischer Sprach- merkmalsübertragung bestehen. Die heutzutage regelbasierte Ableitung der Geräteparameter aus Audiogrammschwellen erlaubt nur eine rudimentäre Individualanpassung. Die danach häufig vorgenommene Nachjustierung der Geräteparameter „per Hand" erreichen oft nicht die anzustrebende Wiederherstellung der Sprachkommunikationsfähigkeit. Die Lösung dieser Problematik liegt gemäß der Erfindung darin, als Testsignale gezielt natürliche oder naturähnliche Sprachelemente zu verwenden, wobei die Testsignale eine spektrale Selektivität aufweisen, in der Weise, dass die Bewertung der Wahrnehmung der Testsignale durch den Hörgeräteträger eindeutige Rückschlüsse auf die nicht optimal eingestellten Geräteparameter ermöglichen.
Bei Anwendung des erfindungsgemäßen Verfahrens sollte geprüft werden, ob die Gesamtheit der in das Restgehör abbildbaren (wesentlichen, reprä- sentativen) Sprachmerkmale in praxisgerechten Entfernungsbereichen in den verschiedenen Kommunikationssituationen auch wirklich mit angenehmer, verwertbarer Lautheit, d. h. einer solchen Lautheit, die Unterscheidbarkeit und Klarheit erzeugt, zur Verfügung steht. Dies muss in den relevanten Kommunikationssituationen abgeprüft werden. Zum Beispiel muss die Erzeugung der Testsignale und entsprechende Bewertung durch den Hörgeräteträger für Partner-Sprache in üblichen Kommunikationsentfernungen von 0,5 bis 2 m, vorzugsweise 1 m folgen. Die entsprechenden Pegel der Testsignale können durch Signal-Schalldruckpegel-Messungen natürlicher Sprache ermittelt werden. Außerdem muss für die eigene Sprache als Basis einer guten Eigen-Artikulationskontrolle der Abstand zwischen dem Mikrophon des Hörgeräts (z. B. hinter dem Ohr) und dem Mund (ca. 15 cm) simuliert werden. Schließlich können situationsbedingte Testsignale für Sprecher in größeren Entfernungen, z. B. in Vortragssituationen, generiert werden. Der Hörgeräteträger beurteilt die Wahrnehmung der jeweiligen Testsignale und gibt vorzugsweise eine abgestufte Bewertung ab. Dabei gibt er z. B. an, ob das jeweilige Testsignal zu laut, laut, angenehm, leise oder zu leise wahrgenommen wird. Als quantitatives Maß für die individuelle Güte der Anpassung kann dann die Gesamtheit der nutzbaren Entfernungsbereiche und ihre Schnittmenge betrachtet werden, in denen eine kognitiv verwertbare Übertragung der Sprach- elemente erzielt werden kann.
Zentrales Merkmal der Erfindung ist somit die Verwendung von Testsignalen, die Sprachelemente sind und gleichzeitig spektral konzentriert sind. Die Testsignale sollten in vom Nutzer testweise kontrollierbaren variablen Entfernungen prüfbar gemacht werden, um eine gute Anpassung in allen relevanten Kommunikationssituationen sicherzustellen. Die spektrale Konzentriertheit der Testsignale ermöglicht eine gezielte Einstellung des Hörgeräts nach Maßgabe der Bewertung der Testsignale durch den Hörgeräteträger. Hierzu muss eine Mehrzahl von Testsignalen erzeugt werden, die entsprechend die unterschiedlichen Spektralbereiche der Filterbank des Hörgeräts abdecken.
Die Besonderheit der Testsignale gemäß der Erfindung ist, wie bereits erwähnt, dass sie zum einen Sprachelemente sind, d. h. Sprachcharakter besitzen, und gleichzeitig größtmögliche spektrale Konzentriertheit aufweisen. Ein wesentliches Problem bei der Anpassung eines Hörgerätes ist, dass in ein und demselben Spektralbereich große Pegelunterschiede dynamisch korrekt abgebildet werden müssen. Dies gilt insbesondere bei den zweiten Formanten von /i/ und /ä/. Es ist speziell zu prüfen, ob spektral hoch liegende, schwache Merkmale in akzeptablem Abstand hinreichend verarbeitet werden, so dass sie verwertbar laut gehört werden. Es ist andererseits zu prüfen, ob nicht im gleichen Spektralbereich zu hohe Lautheitspegel vorkommen, die schlicht unangenehm laut sind oder die eine unvertretbar starke Maskierung von Nachbarphonemen nach sich ziehen. Hierzu sollte jeweils die weiteste und die kürzeste Entfernung ermittelt werden, die noch gerade nicht zur Störungen der Wahrnehmungen führt. Zweckmäßigerweise sollte das jeweils gleiche Testsignal wiederholt mit unterschiedlicher Lautstärke erzeugt werden, wobei nach Maßgabe der Bewertung durch den Hörgeräteträger die Kennlinien der spektral selektiven Dynamikkompression des Hörgerätes eingestellt werden.
Sinnvollerweise sollte bei dem erfindungsgemäßen Verfahren in einem weiteren Verfahrensschritt ein Testsignal erzeugt werden, dass einem natürlichen Frikativ entspricht. Solche Testsignale sind spektral weit ausgedehnt, mit Merkmalsenergien, die oft weit außerhalb des nutzbaren Resthörbereichs liegen, so dass nur sehr schwache Restenergien in den Resthörbereich fallen. Zu prüfen ist, ob diese kognitiv hinreichend verwertbar gemacht werden. Auch hier sollte jeweils die weiteste und die kürzeste Entfernung ermittelt werden, die noch gerade nicht zu Einbußen der Wahrnehmung führt. Bei der Bewertung durch den Hörgeräteträger sind ggf. spezifische Fragen zu stellen, wie z. B.: Welche dieser Laute sind überhaupt hörbar? Wie ist ihre Unterscheidbarkeit? Häufig setzt die mittels des Hörgerätes maximal mögliche Verstärkung in den oberen Frequenzbändern die Entfernungsgrenze für Frikative auf zu geringe Abstände. Das Rückkopplungspfeifen setzt bei ungünstigen Konstruktionen oder bei Undichtigkeiten der Otoplastik schon bei geringen Verstärkungen ein, die für eine ausreichende Verstärkung der frikativischen Energien zu gering sind. In diesem Fall muss ein anderes Hörgerät gewählt werden oder die akustische Anpassung und Dichtigkeit der Otoplastik muss verbessert werden. Aus der Bewertung durch den Hörgeräteträger können sich auch Zusatzanforderungen an die Technik des Hörgerätes ergeben, wie beispielsweise eine zusätzliche selektive Sprachmerkmalsverstärkung oder auch eine spektrale Transposition.
Ähnliches gilt für Plosive, die gemäß der Erfindung ebenfalls in einem weiteren Verfahrensschritt abgeprüft werden sollten. Diese Sprachelemente sind Kurzzeitreize mit Impulscharakter mit koartikulativ verteilten Merkmalen, die zum Teil sehr geringe Pegel aufweisen, d. h. sie gehen oft in den Umweltgeräuschen unter. Die Spektren der Plosvie sind ausgedehnt. Daraus resultiert wiederum, dass bei Hochtonverlusten große Teile aus dem Restgehör herausfallen, also nicht verwertbar sind. Die Bewertungsfragen sind also ähnlich wie bei Frikativen. Aus der Bewertung kann sich ergeben, dass eine höhere Grundverstärkung in hohen Frequenzbändern (>2000 Hz) erforderlich ist. Gegebenenfalls muss eine Hörgerätetechnik mit spektraler Transposition verwendet werden. Die Verwendung von natürlichen Plosiven als Testsignale ist außerdem zweckmäßig, da ausgenutzt werden kann, dass Plosive (durch kooperative Gesprächspartner) überdeutlich gesprochen werden können. Falls sich bei der erfindungsgemäßen Überprüfung der Anpassung des Hörgerätes ergibt, dass die Plosiv-Wahrnehmung schlecht ist, kann sich daraus für den Hörgeräteträger die Erkenntnis ergeben, dessen Gesprächspartner zu veranlassen, entsprechend überdeutlich zu artikulieren. Hieraus ergibt sich nachweislich ein hoher Gewinn für den Hörgeräteträger mit entsprechendem Hördefizit.
Gemäß einer sinnvollen Weiterbildung des erfindungsgemäßen Verfahrens werden in einem weiteren Verfahrensschritt Testsignale erzeugt, die verschiedenen Vokalen mit hoch liegenden zweiten Formanten entsprechen, wobei der Hörgeräteträger die Unterscheidbarkeit der Testsignale bewertet. Zweiformantige Vokale mit hoch liegenden zweiten Formanten (z. B. /Y,i,e/) werden oft nicht gut genug in die Restgehördynamik transformiert. Es fehlt zum Teil eine verwertbare Überschwelligkeit der artikulativ schwachen zweiten Formanten in einem brauchbaren Entfernungsbereich. Eine ggf. individuell mangelhaft angepasste Dynamikkennlinie im kritischen Spektralbereich und fehlende Abstimmung einer Begrenzungsfunktion können zu gravierender Fehlanpassung führen. Zu starke Resonanzen in der Otoplastik können darüber hinaus Kategoriengrenzen verschieben. Die insgesamt resultierende mangelhafte instabile Merkmalsübertragung führt zu einer schlechten Unterscheidbarkeit der Vokale untereinander und auch zu Verwechselungen mit IuI. Durch die Erfindung wird direkt überprüfbar gemacht, ob eine spektrale Anhebung der Energien der zweiten und dritten Formanten der kritischen Vokale deren Wahrnehmbarkeit verbessern würde. Dies kann unmittelbar in eine entsprechende Einstellung der Parameter des Hörgerätes umgesetzt werden. Nach Maßgabe der Bewertung durch den Hörgeräteträger können entsprechend die Dynamikkennlinien in den spektralen Bereichen der hoch liegenden Formanten eingestellt werden.
Die Vokalenergien sind die Träger von Sprachrhythmus oder segmentaler Betonung. So genanntes Recruitment, d. h. abnormer Lautheitszuwachs bei sensorischen Schäden, verändert die natürliche Wahrnehmung von Betonung und Rhythmus. Bei starker Variation der Schwelle und der Dynamik als Funktion des spektralen Ortes ist auch die Übertragung von Rhythmus stark verzerrt und bedarf einer Transformation auf ein konstantes Wahrnehmungsmaß für konstant artikulierte Rhythmusstärke. Dies gelingt durch eine spektral entsprechend unterschiedliche Kennliniensteigung der Kompression der relevanten Vokalmerkmalssignale im Bereich der dominanten Rhythmusübertragung (von ca. 250 bis ca. 1400 Hz). Darüber ist die Übertragung von Pegelunterschieden weniger kritisch. Um dies zu erreichen, können gemäß der Erfindung unbetontbetont Paare von vokalartigen Testsignalen verwendet werden. Die vom Hörgeräteträger empfundene Rhythmusstärke sollte für die verwendeten Testsignale bis zu Frequenzen von ca. 1400 Hz etwa gleich sein. Bei Abweichungen sollte die Kennliniensteilheit im betroffenen Spektralbereich nachgestellt werden.
Die Übertragung der wesentlichen Sprachatome im Resthörbereich muss auch dann sichergestellt sein, wenn Störungen durch Umgebungslärm vorhanden sind. Daher ist die Sicherstellung einer ausreichend Unterdrückung von Umgebungsstörlärm gleichermaßen unverzichtbar. Um dies zu kontrollieren, können bei dem erfindungsgemäßen Verfahren gleichzeitig mit den Testsignalen Störlärmsignale erzeugt werden. Gegebenenfalls können die Störlärmsignale aus einem nicht frontalen Bereich des Hörgeräteträgers erzeugt werden. Auf diese Art und Weise kann die Wirksamkeit der Richtwirkung des Hörgerätes überprüft werden. Durch spektrales Herausfiltern von Störlärm werden nachteiligerweise auch Teile des Nutzsignals verändert, da eine echte spektrale Trennung von Sprachmerkmalssignalen und Lärmsignalen ggf. nicht möglich ist. Dies hängt von dem individuellen Umgebungslärm ab, dem der jeweilige Hörgeräteträger ausgesetzt ist. Durch die Bewertung der Überlagerung von Testsignal mit Störlärmsignal durch den Hörgeräteträger kann ein individueller Kompromiss gefunden werden, der durch entsprechende Einstellung der Parameter des Hörgeräts einerseits eine gewisse Lärmunterdrückung gewährleistet und andererseits noch keine störende Verstümmelung der Sprachbestandteile hervorruft. Weiterhin ermöglicht es das erfindungsgemäße Verfahren, gezielt eine Reduzierung des Abstandes zwischen dem Mikrofon des Hörgerätes und dem Sprechermund bei gleichzeitiger Reduzierung der Verstärkung herbeizuführen, so dass der wirksame Störpegel abgesenkt wird. Es wird dabei festgestellt, ob es einen brauchbaren Abstandsbereich gibt, in dem alle Sprachmerkmale ungestört übertragen werden. Der Hörgeräteträger kann daraus lernen, welchen Abstand er bei Vorliegen entsprechenden Umgebungsstörlärms zu seinem Gesprächspartner einhalten muss, um eine optimale Verständlichkeit zu gewährleisten.
Weiterhin betrifft die Erfindung eine Vorrichtung zum Verarbeiten von akustischen Sprachsignalen, mit einer elektronischen Verarbeitungseinrichtung, wobei die Verarbeitungseinrichtung zum lautklassenspezifischen Verarbeiten der Sprachsignale eingerichtet ist und Mittel aufweist, mit denen eine zeitliche Verlängerung von schwach artikulierten Lauten durchführbar ist.
Die erfindungsgemäße Vorrichtung ermöglicht die Realisierung des oben beschriebenen Verfahrens, nach dem eine individuelle Hervorhebung von schwach artikulierten Lauten erfolgen kann, wobei diese Hervorhebung nicht auf einer Verstärkung der Laute, sondern auf einer zeitlichen Verlängerung derselben beruht. Dadurch werden die im Zusammenhang mit dem Stand der Technik beschriebenen Nachteile vermieden. Vorteilhafterweise weist die Vorrichtung eine Filtereinrichtung auf, mittels der die Sprachsignale in oberhalb einer oberen Grenzfrequenz liegende, hochfrequente Frequenzbänder und in unterhalb der oberen Grenzfrequenz liegende Frequenzbänder aufspaltbar sind. Die hochfrequenten Frequenzbänder können anschließend mittels Frequenzbandverschiebeeinheiten in den Nutzhörbereich unterhalb der oberen Grenzfrequenz individuell verschoben werden. Die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder können mittels Filtereinheiten der Filtereinrichtung individuell mit einer Pre-Emphasis moduliert werden.
Die Vorrichtung weist zweckmäßigerweise einen Lautklassenselektor auf, mit dem einem Sprachsignal eine bestimmte Lautklasse zugeordnet werden kann. Auf Basis der jeweils vorgenommenen Zuordnung einer Lautklasse zu einem Sprachsignal erfolgt vorzugsweise die zeitliche Verlängerung der schwach artikulierten Laute. Mittels einer Kompressoreinheit der Vorrichtung sind die Frequenzbänder individuell komprimierbar, wobei auch diese Komprimierung in Abhängigkeit der jeweils einem Sprachsignal zugeordneten Lautklasse gesteuert werden.
Des Weiteren wird eine Vorrichtung zum Verarbeiten von akustischen Signalen vorgeschlagen, mit einer elektronischen Verarbeitungseinrichtung, wobei die Verarbeitungseinrichtung zum Ersetzen von schwach artikulierten Lauten durch ihnen entsprechende, synthetische Laute eingerichtet ist.
Außerdem betrifft die Erfindung einen Sprachsynthesizer mit Mitteln zur Erzeugung von zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion, Mitteln zur Addition der zwei oder mehr Formantwellenformen und Mitteln zur Überlagerung und Verkettung der addierten Formantwellenformen gemäß einer Pitchintervalllänge zu einem Sprachsignal. Der Sprachsynthesizer ist zur Durchführung des oben beschriebenen Syntheseverfahrens eingerichet, bei dem - zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion erzeugt werden, die zwei oder mehr Formantwellenformen addiert werden und die addierten Formantwellenformen gemäß einer Pitch- intervalllänge und gemäß suprasegmentaler Verkettungsregeln zu einem suprasegmentalen Sprachsignal verkettet werden. Dabei werden die Quellensignale bei der Erzeugung der Formantwellenformen frequenzmoduliert.
Das oben beschriebene Verfahren zur Kontrolle der Anpassung eines Hörgerätes kann vom Hörgeräteträger selbst sehr einfach angewandt werden. Fachpersonal ist nicht zwingend erforderlich. Hierzu bedarf es lediglich einer geeigneten Anordnung, die einen Personalcomputer, ein mit dem Personalcomputer verbundenes Audio-Interface und wenigstens ein mit dem Audio-Interface (z.B. über einen Verstärker) verbundenen Lautsprecher umfasst. Ein entsprechendes Computerprogramm für den Personalcomputer ermöglicht es, das oben beschriebene Verfahren durchzuführen. Wichtig für die Reproduzierbarkeit der Wahrnehmung der Testsignale gemäß der Erfindung ist ein angenähert linearer Ausgabefrequenzgang der Anordnung. Preisgünstige aktive PC-Lautsprecher weisen in der Regel nicht akzeptable Schwankungen des Frequenzgangs auf, so dass eine elektronische Kompensation erforderlich ist. Die erforderliche Frequenz kann mit geringem Aufwand mittels eines durch Software implementierten Linearisierungsfilters erreicht werden. Hierzu kann z.B. ein FIR-Filter mit konstanter Gruppenlaufzeit verwendet werden. Als Referenz zur Kalibrierung des Liniearisierungsfilters kann ein mit dem Audio- Interface verbundenes Mikrofon verwendet werden. Das Mikrofon sollte einen möglichst linearen Frequenzgang haben. Es eignen sich handelsübliche hochlineare Elektret-Mikrofone. Zur Eichung der Lautstärkepegel des Testsignals kann ebenfalls das Elektret-Mikrofon benutzt werden, z. B. in Verbindung mit einer geeichten Signalquelle. Mit diesem Zusatzinstrumentarium können einfache Personalcomputer (z. B. auch Laptops) mit zugehörigen kompatiblen Lautsprechern zur Durchführung des erfindungsgemäßen Verfahrens verwendet werden. Es sollte darauf geachtet werden, dass die Lautsprecher ausreichend hohe Leistungen haben, damit genügend klirrarme Reserven für höhere Pegel der Testsignale zur Verfügung stehen.
Die verschiedenen Aspekte der Erfindung werden im Folgenden anhand der in den Zeichnungen gezeigten Ausführungsbeispiele näher erläutert. Dabei zeigen: Figur 1 : eine schematische Darstellung eines Ausführungsbeispiels einer erfindungsgemäßen Vorrichtung;
Figur 2: eine schematische Darstellung eines weiteren Ausführungsbeispiels einer erfindungsgemäßen Vorrichtung;
Figur 3: ein Ausführungsbeispiel für die Synthese des Ersatzes" und des Ersatz-„ch"; und
Figur 4: ein Ausführungsbeispiel für die Synthese
10 des Ersatz-„t".
Figur 5: Darstellung der erfindungsgemäßen Frequenzmodulation des Quellensignals bei der Erzeugung einer Formant- wellenform.
15 Figur 6: Spektrum und Zeitsignal des Testsignals IuI gemäß der Erfindung;
Figur 7: Testsignal /o1/;
Figur 8: Testsignal /o2/;
Figur 9: Testsignal IaI;
20 Figur 10: Testsignal /öl;
Figur 11 : Testsignal /ü/;
Figur 12: Testsignal /i/;
Figur 13: Testsignal /ä/;
Figur 14: Testsignal IeI;
25 Figur 15: Testsignal Voh
Betonung (Zeitsignal); Figur 16: Testsignal /k-h/, Zeitsignal und Spektrum;
Figur 17: Testsignal /t-e/ (Zeitsignal);
Figur 18: Testsignal /e-t-e/ (Zeitsignal);
Figur 19: Testsignal /i-e/ (Zeitsignal);
Figur 20: Testsignal /sch-f-ch-s/ (Zeitsignal und Spektrum von /s/);
Figur 21 : Schematische Darstellung der erfindungsgemäßen Anordnung zur Kontrolle der Anpassung eines Hörgeräts;
Figur 22: Anordnung mit Mikrofon;
Figur 23: Anordnung zur Kontrolle der Richtwirkung eines Hörgerätes.
Die in Figur 1 gezeigte Ausführungsform der Vorrichtung 1 weist eine Filtereinrichtung 2 auf, mittels der die eingehenden akustischen Sprachsignale 3 in oberhalb der oberen Grenzfrequenz liegende, hochfrequente Frequenzbänder FB1 , FB2 und FB3 und in unterhalb der oberen Grenzfrequenz liegende Frequenzbänder FB4 und FB5 aufgespaltet werden. Der dargestellte obere Bereich 4 der Filtereinrichtung 2 dient der Verarbeitung von nicht zu verschiebenden, unterhalb der oberen Grenzfrequenz liegenden Frequenzbändern FB1 , FB2 und FB3 der Sprachsignale 3, wohingegen der dargestellte untere Bereich 5 der Filtereinrichtung 2 die hochfrequenten Frequenzbänder FB4 und FB5 aus den eingehenden Sprachsignalen 3 herausfiltert, welche oberhalb der oberen Grenzfrequenz liegen und in den Nutzhörbereich unterhalb der oberen Grenzfrequenz verschoben werden sollen. Die Vorrichtung 1 weist weiter einen Pitch-Synchronisator 6 auf, welcher zur Synchronisation der Fensterung der Frequenzbandverschiebeeinheiten 7 unter Berücksichtigung der Phase der Umhüllenden der Sprachsignale 3 über die Steuerleitung 8 dient. Des Weiteren weist die Vorrichtung 1 einen Lautklassenselektor 9 auf, welcher einem empfangenen Sprachsignal 3 eine vorgegebene Lautklasse zuordnet. Das Ergebnis dieser Zuordnung wird zur Steuerung weiterer Komponenten der Vorrichtung 1 über Steuerleitungen 10, 11 und 12 verwendet, die im Folgenden beschrieben werden.
Eine dieser Komponenten der Vorrichtung 1 ist ein Frequenzschiebemodul 13, welches in dieser Ausführungsform zwei programmierbare Frequenzbandverschiebeeinheiten 7 aufweist. Mittels dieser Frequenzbandverschiebeeinheiten 7 kann eine individuelle Anpassung der Vorrichtung 1 an die jeweiligen Anforderungen erfolgen. Die Frequenzbandverschiebeeinheiten 7 arbeiten vorzugsweise mit Abtast-Modifikation. Das Spektrum, das jede Frequenzband- Verschiebeeinheit 7 erzeugt, wird durch ein nachgeschaltetes Postfilter 14, 15 begrenzt. Diese sind als Bandpassfilter ausgebildet, welche das verschobene Signal im spektralen Bereich begrenzen und ein Überschreiten physiologischer Lautklassengrenzen verhindern. Das Ausgangssignal der Postfilter 14, 15 wird jeweils durch einen Kombinator 16, aufweisend eine angepassten Soft-Switch, durchgeschaltet oder abgeschaltet. Dieses Durch- oder Abschalten wird durch den Lautklassenselektor 9 in Abhängigkeit der jeweils einem Sprachsignal 3 zugeordneten Lautklasse über die Steuerleitung 10 gesteuert.
Die Vorrichtung 1 weist weiter ein Mittel 17 zum lautklassenspezifischen zeitlichen Verlängern von schwach artikulierten Lauten auf. Dieses tastet den Signalstrom, der aus dem Verknüpfer 18 zu ihm gelangt, mit überlappenden Fenstern ab, speichert den Fensterinhalt ab und gibt ihn nach vorgebbarer Zeit, etwa zwischen 2 und 10 ms, wieder aus und addiert ihn zum Eingangssignalstrom. Die Operationen „Verzögern" und „Addition" können parallel mit mehreren Verschiebe-Hall-Zeiten erfolgen. Im gezeigten Ausführungsbeispiel wird einmal um 4 ms verzögert und jeweils addiert. Für verschiedene Lautklassen können verschiedene Arbeitsweisen angewandt werden. Auch dieses wird durch den Lautklassenselektor 9 über die Steuerleitung 11 gesteuert.
Die Kompressoreinheit 19 ist ein 3-Band-Kompressor mit einer Kompressor- einheit K1 , K2 beziehungsweise K3 und mit drei unterschiedlichen Zeitkonstanten je Band, wobei jeweils eine Zeitkonstante pro Bandlage an die Sprachmerkmale angepasst sind. Es gibt eine in allen Bändern identische langsame Verstärkungseinstellung, eine mittel-schnelle Silbenkompression und eine schnelle Limitierung mit unterschiedlichen Geschwindigkeitscharakteristiken. Alle arbeiten mit „look-ahead" Technik und vermeiden so Einschwingspitzen. Eine geschwächte Rückwärtskopplung des zweiten auf das erste Band und des dritten auf das zweite Band wirkt dem physiologischen „upward spread of masking" entgegen. Im Frequenzbereich oberhalb von 1 ,5 kHz wird speziell durch die Art der Steuerung der schnellsten Kompressionskomponente eine Reduzierung des Spitzen-zu-Mittelwert Verhältnisses bei Formanten erreicht, so dass die Stärke der Formantinformation relativ zur Stärke der Stimmton- höheninformation anwachsen kann und so für eine klarere Wahrnehmung des Vokalcharakters sorgen kann.
Über die Regeleinrichtung 20 erfolgt eine Vorverstärkung der zu komprimierenden Frequenzbänder vor ihrer Kompression, wozu die Kompressoreinheiten K1, K2 und K3 individuell von der Regeleinrichtung 20 über die Steuer- leitungen 21 geregelt werden. Die Regeleinrichtung 20 selber wird über die Steuerleitung 12 in Abhängigkeit von der jeweils einem Sprachsignal 3 mittels des Lautklassenselektors 9 zugeordneten Lautklasse gesteuert. Die Ausgangssignale der einzelnen Kompressoreinheiten K1 , K2 und K3 werden mittels des Verknüpfers 22 miteinander kombiniert und einem Equalizer 23 zugeführt. Dieser erzeugt das Ausgangssprachsignal 24 der Vorrichtung 1.
Figur 2 zeigt schematisch ein weiteres Ausführungsbeispiel für eine erfindungsgemäße Vorrichtung 201. Diese weist eine Verarbeitungseinheit 202 zum Verarbeiten der eingehenden Sprachsignale 203 im Resthörbereich auf. Diese Verarbeitungseinrichtung 2022 weist mehrere Kompressoreinheiten mit verschiedenen Kompressionscharakteristiken auf, um die eingehenden Sprachsignale 203 individuell an den jeweilig vorliegenden Hörschaden angepasst verarbeiten zu können. Aus den eingehenden Sprachsignalen 203 werden mittels eines Merkmalsextraktors 204 Sprachsignalmerkmale herausgefiltert. Die extrahierten Sprachsignalmerkmale werden dann an den Klassifikator 205 abgegeben, mit dem Lautprototypen, welche in einer Trainingsdatenbank 206 gespeichert sind, den Sprachsignalen 203 zugeordnet werden. Wird hierbei ein schwach artikulierter Laut erkannt, sind über einen Soft-Switch dem schwach artikulierten Laut entsprechende, synthetische Laute den mittels der Verarbeitungseinrichtung 202 verarbeiteten Sprachsignalen über den Verknüpfer 208 zufügbar. Die synthetischen Laute werden in einer Synthese-Einrichtung 208 generiert und anschließend mittels einer Bearbeitungseinrichtung 210 komprimiert und moduliert. Die Kompression und Modulation erfolgt in Abhängigkeit von den erkannten Sprachsignalmerkmalen, indem der Merkmalsextraktor 204 die Bearbeitungseinrichtung 210 über die Steuerleitung 211 entsprechend steuert. Da die Erkennung der Sprachsignalsmerkmale, die Zuordnung von Lautprototypen zu dem jeweiligen Sprachsignal sowie die Generierung und Bearbeitung der synthetischen Laute Verarbeitungszeiten bedürfen, die nicht der für die Verarbeitung der eingehenden Sprachsignale 203 im Resthörbereich mittels der Verarbeitungseinrichtung 202 entsprechen, folgt eine Synchronisation der verarbeiteten Signale vor der Verknüpfung mittels des Verknüpfers 208 über eine Synchronisierungseinrichtung 212.
Figur 3 zeigt schematisch ein Ausführungsbeispiel für die Synthese des Ersatz- „s" und des Ersatz-„ch". Die eingehenden Sprachsignale 213 werden aufgespalten und im oberen dargestellten Zweig zur Erzeugung eines frequenzmodulierten Sinussignals und im unteren Zweig zur Erzeugung eines Rauschsignals verwendet. Im oberen Zweig durchläuft das Sprachsignal 213 zunächst ein Bandpassfilter 214, welches einen lautspezifischen Durchgangsbereich aufweist. Das bandpassgefilterte Sprachsignal wird anschließend einem Nulldurchgangszähler 215 zugeführt, um die momentane Frequenz aus der Zählung von Nulldurchgängen zu erhalten. Diese momentane Frequenz dient der Bestimmung des Frequenzschwerpunktes des Sprachsignals, welcher zur Modulation des Ersatzlautes bzw. zur idealen Anpassung desselben an den zu ersetzenden, schwach artikulierten Laut dient. Nach dem Nulldurchgangszähler 215 wird das Sprachsignal zu einem Sinusgenerator 216 geführt, mit welchem das gewünschte dem Rauschsignal zu überlagernde Sinussignal erzeugt wird. Dieses Sinussignal wird anschließend mit dem Rauschsignal des Rauschgenerators 217 über einen Verknüpfer 218 verknüpft. Der untere Zweig verwendet zunächst einen Bandpassfilter 219, mittels welchem ein lautspezifischer Frequenzbereich aus dem Sprachsignal 213 herausgefiltert wird. Dieses bandpassgefilterte Sprachsignal wird anschließend einer Einrichtung 220 zugeführt, die den Moving-Average bildet. Die resultierende Originalenergie wird anschließend durch eine Kompressions-Kennlinie 221 bzw. 222 entsprechend der neuen spektralen Lage transformiert. Die transformierten Sprachsignale werden anschließend im unteren Zweig mit dem Rauschsignal des Rauschgenerators 223 über den Verknüpfer 224 verknüpft. Des Weiteren wird das transformierte Sprachsignal der Kompressions-Kennlinie 221 über den Verknüpfer 225 mit dem mittels des Verknüpfers 218 verknüpften Sprachsignals verknüpft. Mit dem weiteren Verknüpfer 226 wird das vom Verknüpfer 224 erzeugte Sprachsignal mit dem vom Verknüpfer 225 erzeugten Sprachsignal verknüpft und anschließend einem Soft-Switch 227 zugeführt, welcher dem Soft- Switch 207 der Figur 2 entspricht. Der Soft-Switch 227 wird Sprachsignalmerkmal-abhängig über den Sprachmerkmalsextraktor 204 der Figur 2 und die Steuerleitung 211 derart gesteuert, dass beim Auftreten eines schwach artikulierten Lautes ein Ersetzen desselben durch einen ihm entsprechenden, synthetischen Laut erfolgt.
Figur 4 zeigt ein schematisches Ausführungsbeispiel für die Synthese des Ersatz-„t". Hierzu werden eingehende Sprachsignale 228 mit einem Bandpassfilter 229, der einen Durchlassbereich zwischen 100 und 800 kHz hat, gefiltert. Das gefilterte Sprachsignal wird einer Einrichtung 230 zur Bildung des Moving- Average zugeführt. Das von dieser Einrichtung 230 ausgehende Sprachsignal wird aufgespalten und Kompressions-Kennlinien 231 und 232 zur Transformation der resultierenden Originalenergie entsprechend der neuen spektralen Lage zugeführt. Das von der Kompressions-Kennlinie 232 verarbeitete Sprachsignal wird über einen Verknüpfer 233 mit dem Rauschsignal des Rauschgenerators 234 verknüpft. Das Sprachsignal der oberen Kompressions-Kennlinie 231 wird ebenfalls einem Verknüpfer 235 zugeführt, welcher diese Sprachsignal mit in der Einrichtung 236 gespeicherten Plosionen verknüpft. Die in den Verknüpfern 233 und 235 verknüpften Sprachsignale werden mittels des Verknüpfers 238 miteinander verknüpft und einem Soft-Switch 239 entsprechend dem in Figur 2 dargestellten Soft-Switch 207 zugeführt, welcher ein Signal in Abhängigkeit von der Steuerung über die Steuerleitung 211 abgibt.
Figur 5, die das erfindungsgemäße Sprachsyntheseverfahren illustriert, zeigt im oberen Teil eine Umhüllende 301 einer Formantwellenform. Die Formantwellenform wird durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit der Umhüllenden-Funktion 301 erzeugt. Rechts und links der Umhüllenden 301 sind gepunktet zeitlich vorangehende bzw. folgende Umhüllende 302, 303 weiterer Formantwellenformen des Sprachsignals dargestellt. Derartige verkettete und überlagerte Wellenformen bilden insgesamt das synthetisierte Sprachsignal. Die Formantwellenform besteht aus den zeitlich aufeinander folgenden Segmenten Einschwingsegment E, Haltesegment H und Ausschwingsegment A1 welche gemäß dem oben beschriebenen Verfahren erzeugt werden, wobei das Ausschwingsegment A einer vorangehenden Formantwellenform das Einschwingsegment E der folgenden Formantwellenform, je nach Pitchintervalllänge, zeitlich überlappt.
Die beiden unteren Grafiken zeigen Ausführungsbeispiele für Funktionen, mit denen das Quellensignal bei der Erzeugung der Formantwellenform frequenzmoduliert, um das Auftreten von Tonalität zu verhindern. Es wird um die Mitte des Haltesegmentes H zentriert eine vollständige (obere Funktion) oder eine halbe (untere Funktion) Sinusschwingung verwendet, die im gezeigten Fall bis etwa y = 75 % in das Einschwingsegment E hineinragt. Der Modulationshub x beträgt in den Ausführungsbeispielen etwa 10 %.
Die Figuren 6 bis 20 zeigen beispielhaft Testsignale, die gemäß der Erfindung zur Kontrolle der Anpassung eines Hörgerätes verwendet werden können.
Wie oben ausgeführt, ist die individuelle Feinanpassung von Hörgeräten mit Sinussignalen, Schmalbandgeräuschen, Wortmaterial und Logatomen nicht geeignet, eine optimale Übertragung von Sprache zu prüfen oder einzustellen. Oft werden die artikulativ schwachen Sprachelemente nicht mit ausreichender Güte oder ausreichendem Pegel abgebildet.
Um diese Probleme zu beseitigen, wird gemäß der Erfindung ein Satz neuartiger Testsignale bereitgestellt. Diese Testsignale können aus Aufnahmen natürlicher Sprache gewonnen werden oder auch durch digitale Synthese. Die erfindungsgemäßen Testsignale sind so ausgebildet, dass sie stets wie Elemente natürlicher Sprache wahrgenommen werden und entsprechend benennbar sind auch wenn sie nur aus spektralen Teilen derselben bestehen. Wesentliches Merkmal der Erfindung ist, dass die vokaläquivalenten Testsignale in solcher Weise ausgewählt oder spektral gefiltert sind, dass Adjustierungen der Filterbänke von Hörgeräten direkt vorgenommen werden können. Es kommt, anders ausgedrückt, darauf an, dass als Testsignale natürliche oder naturähnliche Signale mit spektral konzentrierten Merkmalsenergien verwendet werden.
Bei stark eingeschränktem Dynamikbereich des Gehörs (bei sensorischen Schwerhörigkeiten) besteht das Grundproblem, Verstärkungen und Kompressionskennlinien in den einzelnen spektralen Bändern des Hörgeräts so einzustellen, dass zunächst sämtliche Merkmale vokalischer Laute mit angenehmer Lautheit und bester Unterscheidbarkeiten neuronal abgebildet werden. Es soll ein bestwirksames vokalisches Exzitationsprofil erreicht werden. Bei Verwendung von natürlichem Sprachmaterial mit spektral ausgebreiteten multiplen Merkmalen ist es unmöglich, einzelne Spektralbereiche separiert einzustellen. Daher werden gemäß der Erfindung neuartige Testsignale zur Verfügung gestellt, die eine hinreichende spektrale Konzentriertheit lokal aufweisen und trotzdem Bausteine von Sprachelementen sind.
Es können Filterregeln aufgestellt werden, um erfindungsgemäß geeignete vokalähnliche Testsignale zu erzeugen. Hierzu wird z. B. der Spektralbereich in fünf Unterbereiche eingeteilt. 250 bis 400 Hz, 400 bis 600 Hz, 700 bis 1400 Hz, 1400 bis 2000 Hz und 2000 bis 3500 Hz. In diesen Bereichen sind die Formanten der Vokale in unterschiedlicher Weise auszufiltern, um übliche Anpassungsfehler direkt identifizieren oder vermeiden zu können.
Bei tiefliegenden Formanten < 400 Hz (/i, ü, u/), deren Pegel um mehr als 6 dB unter Formantpegeln des /o/s (400 bis 600 Hz) liegt, gilt, dass es einer relativen Verstärkungsanhebung bedarf, um auf gleiches Lautheitsniveau zu kommen. Andererseits darf die Exzitation in diesem Bereich nicht so hoch sein, dass Störgeräusche zu starke spektral aufwärtsgerichtete Maskierungen hervorrufen. Umgekehrt besitzt die Lautgruppe der /a/s relativ zu /o/ wesentliche höhere Artikulationspegel (ca. 9 dB), so dass im Bereich 700 bis 1400 Hz eine Verstärkungsreduzierung sinnvoll ist. Keinesfalls darf eine Erhöhung der Exzitationspegel durch Verstärkungseinstellung oder akustische Schlauch- Hörer-Otoplastikresonanzen wirksam werden. Trotz heutiger verbesserter Resonanzdämpfung kann es durch mangelhafte Otoplastikdimensionierungen und unzureichende Dämpfungen solche Resonanzen geben. Den Bereich von 1400 bis 2000 Hz teilen sich die Merkmalsenergien des /ö/, des /ü/ und teilweise des /ä/. Der natürliche /ä/ Pegel liegt dabei um ca. 12 dB über dem Pegel des /ü/. Und der Pegel des /ü/ liegt um mehr als 15 dB unter dem des /o/. Um die Merkmalsenergie des /ü/ hörbar zu machen, bedarf es einer entsprechenden Überhöhung der Grundverstärkung in diesem Bereich. Dabei würde bei eingeengtem Dynamikbereich der zweite Formant des /ä/ bei linear steigender Kennlinie ohne Begrenzung in Bereiche jenseits der Unbehaglichkeitsgrenze verschoben. Um dem entgegenzuwirken, ist eine zweigeteilte Kennlinie mit geeignet ansteigendem eigentlichen Durchlassbereich und anschließender Begrenzung unbedingt erforderlich. Je nach Resthörbereichsweite (vom Pegel angenehmen Hörens bis zur Unbehaglichkeitsgrenze) ist es unvermeidlich, den Arbeitspunkt für den zweiten Formanten des /ä/ mehr oder weniger in den Begrenzungsbereich zu schieben. Eine akzeptable /ä/ Lautheit muss sehr präzise eingestellt werden. Keinerlei Resonanzüberhöhungen im Frequenzgang des Gerätes sind bei geringen Dynamikumfängen erlaubt, da diese unter Umständen zu effektiven Verschiebungen des Wirkungsschwerpunktes des Komplexes aus zweiten und dritten Formanten (z. B. bei /ü/ und /i/) führen könnten und damit zu Lautverwechselungen. Den Bereich zwischen 2000 und 3500 Hz teilen sich IM und IeI mit der oberen Spektralhälfte von /ä/, hierbei weist das IM ähnlich niedrige Spektralpegel auf wie das /ü/ im vorhergehenden Bereich. Entsprechend hoch muss die Grundverstärkung für den zweiten und dritten Formanten des IM sein, um für die auditive Sprachaufnahme verwertbar zu sein. Entsprechend der zur Verfügung stehenden Dynamik muss die Begrenzung des /ä/ eingestellt werden.
Es ist in der Regel bei sensorischen Hörschäden unbekannt, in welcher Weise spektrale Energien zu Summenlautheiten integriert werden. Also muss die Sicherstellung von Mindestlautheiten bei schwachen Merkmalen und die Sicherstellung der Begrenzung von Maximallautheiten (um weitere Schädigungen des Gehörs zu vermeiden) bei starken Merkmalen durch das gewählte Einstellverfahren und durch die geeignete Wahl der Testsignale gewährleistet sein. Entsprechend sind die vokaläquivalenten Testsignale der Figuren 6 bis 14 jeweils aus dem Gesamtspektrum der natürlichen Laute herausgefiltert, und zwar unter Anwendung von phasenlinearen FIR Filtern.
Die Figur 6a zeigt das Zeitsignal und die Figur 6b das Spektrum des Testsignal IuI. Im niederfrequenten Bereich bis zu 1000 Hz muss darauf beachtet werden, dass oft starke Störgeräusche vorhanden sind, mit Anregungsfrequenzen unterhalb von 200 Hz und starkem Oberwellenspektrum. Daher ist grundsätzlich eine niedrigst mögliche Verstärkung zu wählen, so dass die Störgeräusche soweit wie möglich keinen Einfluss auf die Sprachwahrnehmung im Bereich > 1000 Hz haben. Daraus folgt, dass die Übertragung des /u/ so eingestellt werden muss, dass bei geringst möglicher Grundverstärkung ein leises IuI noch gerade gut wahrgenommen wird. Für die erfindungsgemäße Kontrolle der Anpassung des Hörgerätes ist die Wirkung des IuI sehr wichtig. Sämtliche Komponenten des IuI, die wahrnehmungsrelevant sein können, müssen zur Verfügung stehen. Bei dem in der Figur 1 dargestellten Testsignal ist das natürliche Spektrum des IuI zwischen 250 und 500 Hz bandpassgefiltert.
Die Figur 7a zeigt das Spektrum und die Figur 7b das Zeitsignal des Testsignals /o1/. Es handelt sich um das offene /o/, das, wie das IuI, noch im Bereich von niederfrequenten Lärmkomponenten liegt und in einem Bereich, in dem hohe Pegel stark aufwärtsmaskierend wirken können. Trotz möglicherweise großem Dynamikbereich muss dafür gesorgt werden, dass keine zu hohen Lautheiten auftreten. Die Kennliniensteilheit muss rhytmusoptimal abbilden und die Horizontalbegrenzung muss eher konservativ bei der Bewertung des Testsignals durch den Hörgeräteträger als laut erfolgen. Der erste Formant des offenen /o/ wird zur Erzeugung des in der Figur 7 gezeigten Testsignals breitbandig zwischen 250 und 700 Hz herausgefiltert.
Die Figur 8 zeigt in entsprechender Weise das Testsignal /o2/. Es handelt sich um das geschlossene lo/. Es gilt dasselbe für das offene /o/. Entsprechend der natürlichen Bandbreite wird der erste Formant breitbandig zwischen 300 und 900 Hz herausgefiltert. Die Figur 9 zeigt das Testsignal /a/. Alle Varianten des /a/ weisen relativ zu den benachbarten Vokalenergien sehr viel höhere Pegel auf. Daher ist die Gefahr gegeben, dass die /a/-Exzitation zu zu hoher Lautheit führt. Damit eine solche Überexzitation, die als solche keinen Merkmalscharakter besitzt und die schwache zweite Formanten in der spektralen Umgebung maskieren kann, vermieden wird, müssen Dynamikkennlinie und Grundverstärkung unter Benutzung des vollständigen Haupt-/a/-Merkmalskomplexes eingestellt werden, damit die volle Lautheit-Summation bei der Kontrolle wirksam werden kann. Daher wird das Testsignal /a/ gemäß Figur 9 im Bereich zwischen 600 Hz und 1600 Hz mit beiden Hauptformanten extrem breitbandig ausgefiltert. Wenn die Lautheit dieses Komplexes dynamisch isophon relativ zu den Merkmalen der anderen Vokale richtig einjustiert wird, kann man davon ausgehen, dass eine exzessive Verdeckung verhindert wird.
Die Figur 10 zeigt das Testsignal /ö/. Die relativ schwache Merkmalsenergie des /ö/ liegt am Ende des /a/-Spektralbereiches und kann daher durch entsprechende Verstärkung angehoben werden. Entsprechend der natürlichen Breite des zweiten Formanten wird die Energie zwischen 1100 bis 1800 Hz herausgefiltert, wie in Figur 10 gezeigt.
In Figur 11 ist das Testsignal /ü/ abgebildet. Die Merkmalsenergie des /ü/ ist extrem schwach und schmalbandig. Auf gute Überschwelligkeit muss durch Einstellung einer geeigneten Verstärkung in diesem Spektralbereich besonders geachtet werden. Bei Unterschwelligkeit wird das /ü/ zu IuI. Entsprechend ist zur Erzeugung des Testsignals gemäß Figur 11 die Filterbreite gewählt zu 1750 bis 2100 Hz.
Die Figur 12 zeigt das Testsignal /i/. Das /i/ kann im Pegel noch niedriger liegen als das /ü/ und benötigt daher noch mehr Basisverstärkung. Im Unterschied zum /ü/ besitzt das IM allerdings nicht nur einen einzigen sondern zwei höhere merkmalstragende Formanten, die bei Lautheitssummation durch verbreiterte kritische Bänder sich durchaus verstärken können. Beide müssen also bei der Kontrolle der Anpassung eines Hörgerätes gemäß der Erfindung berücksichtigt werden. Die Bandfilterung des Testsignals IM gemäß Figur 12 erfolgt daher im Bereich von 2050 bis 3300 Hz. Probleme bereitet das /ä/. Das entsprechende Testsignal ist in Figur 13 gezeigt. Die Merkmalsenergie des /ä/ wird im Bereich zwischen 1000 Hz und 2600 Hz für das Testsignal herausgefiltert, um sämtliche spektralen Anteile, die um die Lage des Maximums herum verteilt sind und die lautheitserzeugend sind, bei der Kontrolle berücksichtigen zu können. Nur so kann die Limitierung der starken /ä/-Energien durch geeignete Wahl der horizontalen Äste der entsprechenden Dynamikkennlinien in diesem Bereich adäquat einjustiert werden.
Die Figur 14 schließlich zeigt das Spektrum und das Zeitsignal des Testsignals IeI. Das IeI besitzt Merkmalsenergie im Bereich von 1900 bis 2600 Hz und wird entsprechend ausgeschnitten. Nach vorheriger Justierung des IM und /ä/ fällt das IeI automatisch in einen adäquaten Zwischenbereich der Dynamikkennlinie. Feinheiten der Steigung im Hauptdurchlassbereich können dennoch angepasst werden.
Mit den in den Figuren 6 bis 14 gezeigten bandpassartig ausgeschnittenen Vokalen als Testsignale lässt sich eine valide Grundeinstellung eines Hörgerätes mit ausreichender spektraler Verstärkung, Kompressionskennliniensteigungen und Begrenzungen erzielen.
Um eine hörrichtige Abbildung von „leise-lauf-lntonation zu gewährleisten, werden gemäß der Erfindung sinnvollerweise gleiche Testsignale wiederholt mit unterschiedlichen Lautstärken erzeugt, wobei nach Maßgabe der Bewertung durch den Hörgeräteträger die Kennlinien der spektral selektiven Dynamikkompression eingestellt werden. Vokalformanten sind, wie oben ausgeführt, Träger suprasegmentaler Informationen. Diese ist unverzichtbar zur neuronalen Segmentation von Sprache und muss daher sorgfältig erhalten bleiben. Die Wahrnehmbarkeit von Rhythmusunterschieden ist umso wichtiger, je stärker die Frequenzauflösung bei sensorischen Hördefiziten zerstört ist. Das bedeutet, dass eine den Rhythmus, bzw. die Pegelunterschiede aufgrund von Betonung erhaltende Dynamiktransformation via Kennliniensteilheit einstellbar sein muss. Das gilt hauptsächlich für Komponenten im Bereich zwischen 250 und 1500 Hz. Höher liegende Formanten sollten komoduliert mit den unteren Formanten sein zwecks besserer perzeptiver Fusion. Arbeitspunkte in begrenzenden Kennlinienästen sollten nur im Ausnahmefall (z. B. bei /ä/) zugelassen werden. Um eine präzise Einstellung einer optimalen Sprachrhythmusübertragung zu gewährleisten, wird die zuvor beschriebene spektrale Filterung von natürlichen Sprachelementen zur Erzeugung der Testsignale auf natürliche (oder synthetische) Sprachrhythmus-Paare angewendet. Die Paare enthalten einen Pegelsprung von ca. 6 dB, dessen Wahrnehmung durch geeignete Wahl der Kompressionssteilheit im jeweils beaufschlagten Frequenzband derartig einjustiert werden muss, dass alle vokalartigen Testsignale in ähnlicher Weise „unbetont-betont" bzw. „leise-laut" vom Hörgeräteträger wahrzunehmen sind. Die bei natürlicher Intonation kovariierende Erhöhung der Stimmtongrund- frequenz wird unterdrückt, damit nicht irrtümlich eine Stimmtonänderung für eine Pegelerhöhung gehalten werden kann. Die Figur 15 zeigt beispielhaft das entsprechende Rhythmuspaar des Testsignals /a/. Die ersten vier Testsignale (Figuren 6 bis 9) sollten eine sehr ähnliche und deutliche Rhythmusstärke produzieren. Die folgenden fünf Signale (Figuren 10 bis 14) sollten wenigstens einen noch gerade wahrnehmbaren Rhythmus produzieren.
Die in den weiteren Figuren 16 bis 20 gezeigten Testsignale können bei dem erfindungsgemäßen Verfahren zusätzlich verwendet werden, zum Zwecke einer weitergehenden Verfeinerung der Anpassung. Es geht dabei um die Evaluierung der Wahrnehmbarkeit von Plosivmerkmalen und Frikativen. Es können einfache Aufnahmen von natürlicher Sprache hierzu verwendet werden.
Die Figur 16a zeigt das Zeitsignal und die Figur 16b das zugehörige Spektrum des Testsignals /k-h/. Es handelt sich um einen Plosivburst mit Aspiration. Dies sollte vom Hörgeräteträger gut wahrnehmbar sein. Die genauen Mechanismen für die spektrale und temporale Energiesummation der spektral breit aus- gedehnten und temporal eng begrenzten Burstenergie sind weitgehend unbekannt. Die Empfindlichkeiten des geschädigten Gehörs können nicht aus Schwellenmessungen gefolgert werden. Daher ist es geboten, mit repräsentativen Prototypen direkt die Wahrnehmung festzustellen. Hierzu können Testsignale aus überdeutlich artikulierten Sprechproben der Plosiv-Bursts IpI, /t/ und IYJ mit Aspiration im stimmlosen Ih/ Kontext präpariert werden. Alternativ können synthetisch erzeugte Prototypen verwendet werden. Zur Kontrolle der Anpassung eines Hörgeräts sollte untersucht werden, ob die Wahmehmungs- schwellen bei den einzelnen Testsignalen gut überschritten werden. Weiterhin sollte die Unterscheidbarkeit der Prototypen geprüft werden.
Um die noch zusätzlich vorhandene Wirkung von Formantübergängen, die im Kontext mit stimmhaften Vokalen merkmalsgebend ist, prüfen zu können, sind Plosiv-Vokal-Logatome als Testsignale erforderlich. Es sollten Kombinationen mit Übergängen in allen spektralen Bereichen geprüft werden. Besonders kritisch sind jedoch Kombinationen mit hoch liegenden zweiten Formanten, also mit /ü/, IeI, IM, /ä/. Stellvertretend zeigt die Figur 17 das Zeitsignal des Testsignals /t-e/. Anhand dieses Testsignals kann die Übertragung speziell im kritischen Bereich > 2000 Hz fein justiert werden. Ergänzend können zur Prüfung der Verdeckung von Folgeplosiven durch vorangehende Vokale auch die Logatome mit der invertierten Reihenfolge als Testsignale zur Verfügung gestellt werden, z. B. /e-p/, Ie-VJ, Ie-M.
Bei überdeutlich artikulierter Sprachproduktion können Plosive mit überhöhtem Artikulationsdruck produziert werden. Dadurch kann die Wahrnehmbarkeit der Plosive für Personen mit Hördefiziten wesentlich gesteigert werden. Um zu überprüfen, ob dem Hörgeräteträger mit überdeutlich artikulierter Sprache geholfen werden kann, können als Testsignale bei dem erfindungsgemäßen Verfahren Signale verwendet werden, bei denen der Plosiv zwischen zwei Vokalen eingebettet ist, wobei der erste Vokal unbetont und der zweite betont ist. Die Figur 18 zeigt das Zeitsignal des entsprechenden Testsignals /e-t-e/ (mit Betonung auf dem zweiten IeI). Alternative Testsignale sind z.B. /e-p-e/ und Ie- k-e/.
Bei Hochtondefiziten wird oft der Frequenzbereich > 2000 Hz nicht in aus- reichender Qualität übertragen. Die Justierung der Exzitationsenergien von schwachen hoch liegenden zweiten Formanten relativ zu den Exzitationsenergien der ersten Formanten und den Stimmtonhöhen-Oberwellen kann mangelhaft sein. Als Folge ist das Hörbild, das erst aus der Kombination der Wirkung von erstem und zweitem Formanten entsteht, unscharf, oder die Wirkung des zweiten Formanten ist gar nicht vorhanden, so dass die Wahrnehmungsbilder in das Bild des IuI kollabieren. Im ersten Schritt wurde, wie oben erläutert, die gute Wahrnehmung der Einzelformanten im Spektrum sichergestellt. Eine Feinjustierung des Verhältnisses der Energien beider Formanten, welche die Simultanbeeinflussung der beiden Energien berücksichtigt, ist zur Einstellung oder Prüfung der am besten kognitiv klassifizierbaren Hörbilder unabdingbar. Dazu wird ergänzend ein /u-i-y-e/ Unterscheidbarkeitstest zur Verfügung gestellt. Die Figur 19 zeigt beispielhaft das Zeitsignal des Testsignals /i-e/. Weitere mögliche Testsignale sind /i-ü/, Iu- ü/, /i-u/ sowie auch /u-i-ü-e/.
Ergänzend können bei dem erfindungsgemäßen Verfahren Testsignale für die Überprüfung der Wahrnehmung von Frikativen verwendet werden. Die Wahrnehmung von Frikativenergien, die naturgemäß in höheren spektralen Bereichen merkmalstragend sind, ist bei sensorischen Hochtondefiziten schwer bis sehr schwer gestört. Das kann dazu führen, dass mit normalen, nur verstärkenden Hörgeräten das /s/ und /h/ nur so schwach wahrgenommen werden, dass diese Laute praktisch für die Wahrnehmung laufender Sprache nicht nutzbar sind. Es müssen dann transformierte bzw. spektral transponierte Merkmalsenergien, die natürliche Merkmalsenergie ersetzen (sogenannte Transposer-Hörgeräte), zur Verfügung gestellt werden. Das /seh/ liegt in einem Bereich niedrigerer Frequenzen und wird im Vergleich zu den anderen Frikativen mit höchstem Artikulationspegel produziert. Hier kann oft durch ausreichende Verstärkung eine gute Auswertbarkeit erreicht werden. Das IM hat auch im Bereich niedriger Frequenzen merkmalstragende Energien. Diese haben allerdings sehr niedrige Pegel, so dass exzessive Verstärkung benötigt würde.
Zur Überprüfung der Wahrnehmbarkeit der stimmlosen Frikative kann das in der Figur 20 gezeigte Testsignal /sch-f-ch-s/ verwendet werden. Die Figur 20a zeigt das Zeitsignal, die Figur 20b das Spektrum des Bestandteils IsI.
Zur Ergänzung kann auch die Überprüfung der Wahrnehmbarkeit der stimmhaften Frikative erfolgen. Hier kann im Einzelfall die Bailance zwischen dem niederfrequenten stimmhaften Anteil und dem hochfrequenten stimmlosen Anteil der stimmhaften Frikative für eine gute Unterscheidbarkeit wichtig sein. Der stimmhafte Anteil darf den stimmlosen Anteil nicht verdecken. Um dies prüfen zu können, wird zweckmäßigerweise zusätzlich die Reihe der stimm- haften Frikative /dj-w-j-z/ aufgenommen und ohne Filterung als Testsignal verwendet.
Die Figuren 21 bis 23 zeigen eine Anordnung zur Kontrolle der Anpassung eines Hörgerätes gemäß der Erfindung. Die Anordnung umfasst einen Personalcomputer 401 (ein Laptop), das, zum Beispiel über eine USB- Schnittstelle, mit einem Audio-Interface 402 an sich üblicher Art verbunden ist. An den Ausgang des Audio-Interfaces 402 ist ein Verstärker 403 mit Bedienelement 404 zur Verstärkungseinstellung angeschlossen. Mit dem Verstärker 403 ist ein Lautsprecher 405 verbunden. Der Lautsprecher 405 befinden sich frontal vor einem Hörtgeräteträger 406. Dieser trägt ein Hörgerät 407 hinter dem Ohr. Optional kann ein Absorptionstrichter 408 verwendet werden, der aus handelsüblichen Akustik-Dämmmatten besteht. Der Hörgeräteträger 406 befindet sich in einem Abstand von vorzugsweise etwa 1 Meter vor dem Lautsprecher 405. Auf dem Laptop 401 ist das oben beschriebene erfindungsgemäße Verfahren mittels entsprechender Software implementiert. Die Software kann vom Hörgeräteträger 406 selbst bedient werden, so dass die Durchführung des erfindungsgemäßen Verfahrens keines weiteren Fachpersonals bedarf.
Die Figur 22 zeigt die Anordnung mit zusätzlichem Mikrofon 409. Es handelt sich um ein hochlineares Elektret-Mikrophon, das zur Kalibrierung eines durch Software in dem Personalcomputer 401 realisierten Linearisierungsfilters dient. Das Linearisierungsfilter ist erforderlich, um den Frequenzgang des Lautsprechers bei der Ausgabe der Testsignale zu linearisieren.
Bei dem in Figur 23 in Draufsicht dargestellten Ausführungsbeispiel befindet sich ein weiterer Lautsprecher 405' schräg hinter dem Hörgeräteträger 406. Der Lautsprecher 405' dient zur Erzeugung eines Störsignals, um die Richtwirkung des zu kontrollierenden Hörgerätes 407 zu überprüfen. Die Standardmessposition des Lautsprechers 405' bezüglich des Lautsprechers 405 beträgt 115°.
Anmerkung: Um die Verständlichkeit dieses Textes zu gewährleisten, wird die internationale phonetische Schreibweise nicht verwendet, sondern es wird eine graphemische Umschreibung verwendet. Der entsprechende Buchstabe wird zwischen Schrägstrichen wiedergegeben (z.B. /o/ für o wie „Ochse", /ch/ wie „China", /w/ wie „Ware" oder IzI für das stimmhafte „s" wie in „See").
- Patentansprüche -

Claims

Patentansprüche
1. Verfahren zum Verarbeiten von akustischen Sprachsignalen mittels einer elektronischen Verarbeitungseinrichtung, d a d u r c h g e k e n n z e i c h n e t, dass eine lautklassenspezifische Verarbeitung der Sprachsignale erfolgt, wobei schwach artikulierte Laute zeitlich verlängert werden, und/oder schwach artikulierte Laute erkannt und durch ihnen entsprechende, synthetische Laute ersetzt werden.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die zu verarbeitenden Sprachsignale in mehrere Frequenzbänder aufgeteilt werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass hochfrequente Frequenzbänder, die oberhalb einer oberen Grenzfrequenz liegen, zu niedrigeren Frequenzen unterhalb der oberen Grenzfrequenz und oberhalb einer unteren Grenzfrequenz verschoben werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Verschiebung der hochfrequenten Frequenzbänder individuell in Abhängigkeit von der jeweiligen Frequenzlage eines hochfrequenten Frequenzbandes erfolgt.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder mit unterschiedlicher Pre-Emphasis moduliert werden.
6. Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder individuell komprimiert werden.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass den Sprachsignalen vorgegebene Lautklassen zugeordnet werden.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder in Abhängigkeit der ihnen jeweilig zugeordneten Lautklasse zu einem Zwischensprachsignal miteinander kombiniert werden.
9. Verfahren nach einem der Ansprüche 3 bis 8, dadurch gekennzeichnet, dass die zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder mit einem oberen Frequenzband, welches unterhalb der oberen Grenzfrequenz am nächsten zu dieser angeordnet ist, zu einem Hochtonzwischensprachsignal kombiniert werden.
10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass das Zwischensprachsignal beziehungsweise das Hochtonzwischensprachsignal in Abhängigkeit von der den Sprachsignalen jeweilig zugeordneten Lautklasse gespeichert, in vorgebbaren Zeitabständen abgerufen, individuell komprimiert und zur Erzeugung eines Ausgangssprachsignals mit den übrigen individuell komprimierten Frequenzbändern, die unterhalb der oberen Grenzfrequenz liegen, kombiniert wird.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass Ausgangssprachsignale zur Kompensation von spektralen Eigenschaften von an die Verarbeitungseinrichtung anschließbaren Sprachsignalausgabeeinheiten mittels eines Equalizers moduliert werden.
12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Vorverstärkung der Frequenzbänder vor ihrer Kompression in Abhängigkeit von der den Sprachsignalen jeweilig zugeordneten Lautklasse und/oder der Lautstärke von Umgebungsgeräuschen erfolgt.
13. Verfahren nach einem der Ansprüche 3 bis 12, dadurch gekennzeichnet, dass die Frequenzverschiebungen ausschließlich über Intra-
Laut-Transformationen erfolgen.
14. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die lautspezifische Verarbeitung der Sprachsignale für jede Lautklasse eigene oder wenigstens zwei Lautklassen übergreifende Verarbeitungsmaßnahmen umfasst.
15. Verfahren nach einem der Ansprüche 3 bis 14, dadurch gekennzeichnet, dass die Frequenzverschiebungen mittels individuell programmierbarer Frequenzverschieber erfolgt.
16. Verfahren nach einem der Ansprüche 3 bis 15, dadurch gekennzeichnet, dass das niedrigste zu niedrigen Frequenzen verschobene, hochfrequente Frequenzband immer Signale liefert, wohingegen die frequenzmäßig höher liegenden, zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder lautklassenspezifisch zugeschaltet werden.
17. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die synthetischen Laute vor ihrem Einfügen in das
Sprachsignal hinsichtlich der Energie und/oder des Frequenzschwerpunktes der zu ersetzenden, schwach artikulierten Laute modifiziert werden.
18. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Sprachsignal vor dem Einfügen der synthetischen Laute zeitlich verzögert wird.
19. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die synthetischen Laute dynamisch in das empfangene Sprachsignal ein- und ausgeblendet werden.
20. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die schwach artikulierten Laute einem vorgegebenen
Lautprototyp zugeordnet werden.
21. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass die Zuordnung der schwach artikulierten Laute zu den Lautprototypen unter Berücksichtigung wenigstens eines Sprachsignalmerkmals erfolgt.
22. Verfahren nach Anspruch 21 , dadurch gekennzeichnet, dass als
Sprachsignalsmerkmal eine Pause im Sprachsignal, die Lautstärkeänderungen des Sprachsignals in der Zeit, die Stimmhaftigkeit des Sprachsignals und/oder die spektralen Energieverhältnisse des Sprachsignals erfasst werden.
23. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die synthetischen Laute erzeugt werden, indem eine
Rauschsignalkomponente und eine Sinussignalkomponente für einen synthetischen Laut generiert und miteinander kombiniert werden.
24. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Amplituden der synthetischen Laute vor dem Einfügen in das Sprachsignal individuell komprimiert werden.
25. Sprachsyntheseverfahren, insbesondere zur Erzeugung von synthetischen Lauten in einem Verfahren nach einem der vorhergehenden Ansprüche , wobei zwei oder mehr Formantweilenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion erzeugt werden, die zwei oder mehr Formantweilenformen addiert werden und die addierten Formantweilenformen gemäß einer Pitch- intervalllänge und gemäß suprasegmentaler Verkettungsregeln zu einem suprasegmentalen Sprachsignal verkettet werden, d a d u r c h g e k e n n z e i c h n e t , dass die Quellensignale bei der Erzeugung der Formantwellenformen frequenzmoduliert werden.
26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass die Frequenzmodulation der Quellensignale zyklostationär ist.
27. Verfahren nach Anspruch 25 oder 26, dadurch gekennzeichnet, dass die Verkettung der frequenzmodulierten Wellenpakete derart durch pitchadaptive Umhüllendenformung erfolgt, dass keine wahrnehmbaren Störungen durch Modulation im Überlagerungsbereich der Wellenzüge auftreten.
28. Verfahren nach einem der Ansprüche 25 bis 27, dadurch gekennzeichnet, dass der Modulationshub der Frequenzmodulation bei der Erzeugung der Formantwellenformen von der jeweiligen mittleren Formantfrequenz abhängt.
29. Verfahren nach Anspruch 28, dadurch gekennzeichnet, dass der Modulationshub der Frequenzmodulation bis zu 20 %, vorzugsweise bis zu 10 % der jeweiligen mittleren Formantfrequenz beträgt.
30. Verfahren nach einem der Ansprüche 25 bis 29, dadurch gekennzeichnet, dass der Modulationshub der Frequenzmodulation bei der Synthese weiblicher Sprache kleiner ist als bei der Synthese männlicher Sprache.
31. Verfahren nach einem der Ansprüche 25 bis 30, dadurch gekennzeichnet, das bei der Überlagerung und Verkettung der addierten Formantwellenformen die Pitchintervalllänge variiert wird.
32. Verfahren nach Anspruch 31 , dadurch gekennzeichnet, dass die Pitchintervalllänge zufällig variiert wird.
33. Verfahren nach Anspruch 31 oder 32, dadurch gekennzeichnet, dass die Pitchintervalllänge so variiert wird, dass der stilisierte Momentanwert um vorzugsweise 1% bis 2% bei der Synthese männlicher Stimmen und bis zu 0.5% bei der Synthese weiblicher Stimmen vom lokalen Mittelwert abweicht.
34. Verfahren nach Anspruch 32 oder 33, dadurch gekennzeichnet, dass horizontale, d. h. konstante Pitch-Stilisierungssegmente vermieden werden und dass vorzugsweise bei der Synthese von fast konstantem Pitchverlauf über typische Silbensegmentlängen von etwa 200 ms eine Pitchsteigung von mindestens 3% gewählt wird.
35. Verfahren nach einem der Ansprüche 25 bis 34, dadurch gekennzeichnet, dass die Umhüllenden-Funktion aus drei zeitlich aufeinander folgenden Segmenten, nämlich einem Einschwingsegment, in dem die Amplitude des Quellensignals von Null ausgehend ansteigt, einem Haltesegment, in dem die Amplitude des Quellensignals konstant ist, und einem Ausschwingsegment, in dem die Amplitude des Quellensignals wieder auf Null abfällt, besteht.
36. Verfahren nach Anspruch 35, dadurch gekennzeichnet, dass die Dauer des Einschwingsegments, des Haltesegments und/oder des
Ausschwingsegments von der Pitchintervalllänge abhängen.
37. Verfahren nach Anspruch 36, dadurch gekennzeichnet, dass bei sinkender Pitchintervalllänge zunächst die Dauer des Ausschwingsegments bis auf einen Minimalwert verkürzt wird und dann die Dauer des Haltesegments verkürzt wird, so dass Interferenzen von Formantwellenformen aufeinander folgender Pitchintervalle vermieden werden.
38. Verfahren nach einem der Ansprüche 35 bis 37, dadurch gekennzeichnet, dass die Dauer des Einschwingsegments einer ganzzahligen Anzahl von Nulldurchgängen der Oszillation des Quellensignals entspricht.
39. Verfahren nach einem der Ansprüche 35 bis 38, dadurch gekennzeichnet, dass das Ausschwingsegment der Umhüllenden-Funktion so ausgebildet ist, dass die Amplitude zum Ende des Pitchintervalls auf höchstens 35%, vorzugsweise auf höchstens 25 % der während des Haltesegments konstanten Amplitude abgefallen ist.
40. Verfahren nach einem der Ansprüche 25 bis 40, gekennzeichnet durch eine Hochpassfilterung des verketteten Sprachsignals.
41. Verfahren nach Anspruch 40, dadurch gekennzeichnet, dass die Hochpassfilterung mittels eines IIR-Filters mit einer Cutoff-Frequenz von 100 Hz erfolgt.
42. Verfahren nach einem der Ansprüche 25 bis 41 , dadurch gekennzeichnet, dass bei Änderung der Pitchintervalllänge die Formant- frequenzen pitch-abhängig variiert werden, und zwar in der Weise, dass die Formantfrequenzen bei Verkürzung der Pitchintervalllänge erhöht werden.
43. Verfahren zur Kontrolle der Anpassung eines Hörgerätes, das eine Filterbank zur spektral selektiven Verstärkung und Dynamikkompression von Audiosignalen aufweist, an ein Hördefizit eines Hörgeräteträgers, wobei mittels einer Signalquelle ein Testsignal erzeugt wird und die Wahrnehmung des Testsignals durch den Hörgeräteträger bewertet wird, d a d u r c h g e k e n n z e i c h n e t , dass das Testsignal wenigstens ein natürliches oder naturähnliches Sprachelement umfasst, das in der Weise spektral gefiltert oder ausgewählt ist, dass das Spektrum des Testsignals zu dem Spektralbereich wenigstens eines Filters der Filterbank des Hörgerätes korrespondiert.
44. Verfahren nach Anspruch 43, dadurch gekennzeichnet, dass eine Mehrzahl von Testsignalen erzeugt wird, die unterschiedliche Spektralbereiche der Filterbank abdecken, wobei die spektral selektive Verstärkung der Filterbank nach Maßgabe der Bewertung der Testsignale durch den Hörgeräteträger eingestellt wird.
45. Verfahren nach Anspruch 43 oder 44, dadurch gekennzeichnet, dass das jeweils gleiche Testsignal wiederholt mit unterschiedlicher Lautstärke erzeugt wird, wobei nach Maßgabe der Bewertung durch den Hörgeräteträger die Kennlinien der spektral selektiven Dynamikkompression eingestellt werden.
46. Verfahren nach einem der Ansprüche 43 bis 45, dadurch gekennzeichnet, dass das Sprachelement ein Vokal ist.
47. Verfahren nach einem der Ansprüche 43 bis 46, dadurch gekennzeichnet, dass in einem weiteren Verfahrensschritt ein Testsignal erzeugt wird, das einem natürlichen Frikativ entspricht.
48. Verfahren nach einem der Ansprüche 43 bis 47, dadurch gekennzeichnet, dass in einem weiteren Verfahrensschritt ein Testsignal erzeugt wird, das einem natürlichen Plosiv entspricht.
49. Verfahren nach einem der Ansprüche 43 bis 48, dadurch gekennzeichnet, dass in einem weiteren Verfahrensschritt Testsignale erzeugt werden, die verschiedenen Vokalen mit hoch liegenden zweiten Formanten entsprechen, wobei der Hörgeräteträger die Unterscheidbarkeit der Testsignale bewertet.
50. Verfahren nach Anspruch 49, dadurch gekennzeichnet, dass nach Maßgabe der Bewertung die Dynamikkennlinien in den spektralen Bereichen der hoch liegenden zweiten Formanten eingestellt werden.
51. Verfahren nach einem der Ansprüche 43 bis 50, dadurch gekennzeichnet, dass gleichzeitig mit den Testsignalen Störlärmsignale erzeugt werden.
52. Vorrichtung (1) zum Verarbeiten von akustischen Sprachsignalen (3), mit einer elektronischen Verarbeitungseinrichtung, d a d u r c h g e k e n n z e i c h n e t, dass die Verarbeitungseinrichtung zum lautklassenspezifischen Verarbeiten der Sprachsignale (3) eingerichtet ist und Mittel aufweist, mit denen eine zeitliche Verlängerung von schwach artikulierten Lauten durchführbar ist.
53. Vorrichtung (1) nach Anspruch 52, gekennzeichnet durch eine
Filtereinrichtung (2), mittels der die Sprachsignale (3) in oberhalb einer oberen Grenzfrequenz liegende, hochfrequente Frequenzbänder (FB4, FB5) und in unterhalb der oberen Grenzfrequenz liegende Frequenzbänder (FB1 , FB2, FB3) aufspaltbar sind.
54. Vorrichtung (1) nach Anspruch 53, dadurch gekennzeichnet, dass die Filtereinrichtung (2) mehrere Filtereinheiten aufweist, mit denen jeweils ein bestimmtes unter der oberen Grenzfrequenz liegendes Frequenzband (FB1 , FB2, FB 3) individuell mit einer Pre-Emphasis modulierbar ist.
55. Vorrichtung (1) nach einem der Ansprüche 52 bis 54, gekennzeichnet durch einen Lautklassenselektor (9), mit dem einem
Sprachsignal (3) eine bestimmte Lautklasse zugeordnet werden kann.
56. Vorrichtung (1) nach einem der Ansprüche 53 bis 55, gekennzeichnet durch wenigstens eine Frequenzbandverschiebeeinheit (7), mit der ein hochfrequentes Frequenzband (FB4, FB5) individuell zu niedrigeren Frequenzen unterhalb der oberen Grenzfrequenz verschiebbar ist.
57. Vorrichtung (1) nach einem der Ansprüche 53 bis 56, gekennzeichnet durch eine Kompressoreinheit (19), mittels der die Frequenzbänder individuell komprimierbar sind.
58. Vorrichtung (1) nach einem der Ansprüche 52 bis 57, gekennzeichnet durch einen Equalizer (23), mit dem eine Kompensation von ungewünschten spektralen Eigenschaften von an die Verarbeitungseinrichtung anschließbaren Sprachsignalausgabeeinheiten durchführbar ist.
59. Vorrichtung (1) nach Anspruch 57 oder 58, dadurch gekennzeichnet, dass die zeitliche Verlängerung der schwach artikulierten Laute, die Verschiebung der hochfrequenten Frequenzbänder (FB4, FB5) und/oder die individuelle Kompression der Frequenzbänder mittels des Lautklassenselektors (9) steuerbar sind.
60. Vorrichtung zum Verarbeiten von akustischen Sprachsignalen, mit einer elektronischen Verarbeitungseinrichtung, d a d u r c h g e k e n n z e i c h n e t, dass die Verarbeitungseinrichtung zum Ersetzen von schwach artikulierten Lauten durch ihnen entsprechende, synthetische Laute eingerichtet ist.
61. Sprachsynthesizer mit
Mitteln zur Erzeugung von zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion,
Mitteln zur Addition der zwei oder mehr Formantwellenformen, und - Mitteln zur Überlagerung und Verkettung der addierten
Formantwellenformen gemäß einer Pitchintervalllänge zu einem Sprachsignal, d a d u r c h g e k e n n z e i c h n e t , dass der Sprachsynthesizer zur Durchführung des Verfahrens nach einem der Ansprüche 25 bis 42 eingerichtet ist.
62. Anordnung zur Kontrolle der Anpassung eines Hörgerätes (407) an ein Hördefizit eines Hörgeräteträgers (406), umfassend: einen Personalcomputer (401); ein mit dem Personalcomputer (401) verbundenes Audio- Interface (402); - wenigstens ein mit dem Audio-Interface (402) verbundener
Lautsprecher (405), g e k e n n z e i c h n e t d u r c h eine auf dem Personalcomputer (401) ablaufende Programmsteuerung mit Instruktionen zur Durchführung des Verfahrens nach einem der Ansprüche 43 bis 51.
63. Anordnung nach Anspruch 62, gekennzeichnet durch ein
Linearisierungsfilter, mittels welchem der Frequenzgang des wenigstens einen Lautsprechers (405) bei der Ausgabe von Testsignalen linearisiert wird.
64. Anordnung nach Anspruch 63, gekennzeichnet durch ein mit dem Audio-Interface (402) verbundenes Mikrophon (409) zur Kalibrierung des Linearisierungsfilters.
65. Computerprogramm zur Kontrolle der Anpassung eines Hörgerätes, d a d u r c h g e k e n n z e i c h n e t , dass es Instruktionen zur Durchführung des Verfahrens nach einem der Ansprüche 43 bis 51 umfasst.
66. Verwendung eines Sprachsyntheseverfahrens nach einem der Ansprüche 25 bis 42 zur Erzeugung von Testsignalen in einem Verfahren nach einem der Ansprüche 43 bis 51.
- Zusammenfassung -
EP09808931A 2008-12-18 2009-12-18 Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen Withdrawn EP2380171A2 (de)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
DE102008062775 2008-12-18
DE102008062776 2008-12-18
DE102008063279 2008-12-29
DE102008063367 2008-12-30
DE102009018470A DE102009018470A1 (de) 2008-12-18 2009-04-22 Verfahren und Vorrichtung zum Verarbeiten von akustischen Sprachsignalen
DE102009018469A DE102009018469A1 (de) 2008-12-18 2009-04-22 Verfahren und Vorrichtung zum Verarbeiten von akustischen Sprachsignalen
DE102009032238A DE102009032238A1 (de) 2008-12-30 2009-07-08 Verfahren zur Kontrolle der Anpassung eines Hörgerätes
DE102009032236A DE102009032236A1 (de) 2008-12-29 2009-07-08 Sprachsyntheseverfahren
PCT/EP2009/009129 WO2010078938A2 (de) 2008-12-18 2009-12-18 Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen

Publications (1)

Publication Number Publication Date
EP2380171A2 true EP2380171A2 (de) 2011-10-26

Family

ID=42236434

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09808931A Withdrawn EP2380171A2 (de) 2008-12-18 2009-12-18 Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen

Country Status (2)

Country Link
EP (1) EP2380171A2 (de)
WO (1) WO2010078938A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9686620B2 (en) 2012-03-02 2017-06-20 Sivantos Pte. Ltd. Method of adjusting a hearing apparatus with the aid of the sensory memory

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011083736B4 (de) 2011-09-29 2014-11-20 Siemens Medical Instruments Pte. Ltd. Verstärkungseinstellung bei einem Hörhilfegerät
DK3588984T3 (da) * 2018-06-29 2022-07-04 Interacoustics As System til validering af høreapparater til spædbørn, der anvender et talesignal

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
DK1920632T3 (da) * 2005-06-27 2010-03-08 Widex As Høreapparat med forbedret højfrekvensgengivelse og fremgangsmåde til at behandle et lydsignal
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2010078938A2 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9686620B2 (en) 2012-03-02 2017-06-20 Sivantos Pte. Ltd. Method of adjusting a hearing apparatus with the aid of the sensory memory

Also Published As

Publication number Publication date
WO2010078938A3 (de) 2010-12-29
WO2010078938A2 (de) 2010-07-15

Similar Documents

Publication Publication Date Title
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE102005032724B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US5933801A (en) Method for transforming a speech signal using a pitch manipulator
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
EP3074974B1 (de) Hörhilfevorrichtung mit grundfrequenzmodifizierung
EP2364646A1 (de) Hörtestverfahren
DE602004007953T2 (de) System und verfahren zur audiosignalverarbeitung
EP4017031A1 (de) Hörsystem mit anwenderspezifischer programmierung
WO2010078938A2 (de) Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen
DE102009032238A1 (de) Verfahren zur Kontrolle der Anpassung eines Hörgerätes
EP2584795A2 (de) Verfahren zum Ermitteln einer Kompressionskennlinie
Alexander et al. Spectral tilt change in stop consonant perception
DE19525944C2 (de) Hörhilfe
DE102011006472B4 (de) Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
DE102019218802A1 (de) System und Verfahren zum Betrieb eines Systems
EP2394271B1 (de) Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx
DE102020210918A1 (de) Verfahren zum Betrieb einer Hörvorrichtung in Abhängigkeit eines Sprachsignals
EP3961624A1 (de) Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals
EP3962115A1 (de) Verfahren zur bewertung der sprachqualität eines sprachsignals mittels einer hörvorrichtung
DE102009018469A1 (de) Verfahren und Vorrichtung zum Verarbeiten von akustischen Sprachsignalen
EP3834723A1 (de) Verfahren zur ermittlung der hörschwelle einer testperson
EP2506255A1 (de) Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
DE102004046045B3 (de) Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen
Munoz et al. Enhancement of Spectral Contrast in Speech for Hearing Impaired Listeners
DE102009018470A1 (de) Verfahren und Vorrichtung zum Verarbeiten von akustischen Sprachsignalen

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20110718

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: PLINGE, AXEL

Owner name: BAUER, HANS-DIETER

RIN1 Information on inventor provided before grant (corrected)

Inventor name: BAUER, HANS-DIETER

Inventor name: PLINGE, AXEL

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20160701