EP1647972A2 - Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen - Google Patents
Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen Download PDFInfo
- Publication number
- EP1647972A2 EP1647972A2 EP05019316A EP05019316A EP1647972A2 EP 1647972 A2 EP1647972 A2 EP 1647972A2 EP 05019316 A EP05019316 A EP 05019316A EP 05019316 A EP05019316 A EP 05019316A EP 1647972 A2 EP1647972 A2 EP 1647972A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- speech
- audio signal
- components
- signal
- circuit arrangement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 2
- 239000002243 precursor Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Definitions
- the invention relates to a circuit arrangement for improving the intelligibility of speech-containing audio signals with the preamble features of claim 1 and to a method for processing speech-containing audio signals.
- DE 101 24 699 C1 discloses a circuit arrangement for improving the intelligibility of speech-containing audio signals, in which frequency and / or amplitude components of the audio signal are changed according to predetermined parameters.
- the audio signal is amplified in a processing path by a predetermined factor and performed in a high pass, a corner frequency of the high pass is adjustable so that the amplitude of the audio signal after the processing path is equal to or proportional to the amplitude of the audio signal before the processing path.
- the fundamental wave of the speech signal which contributes relatively little to the intelligibility of the speech components contained, but has the largest energy, to be attenuated, the remaining signal spectrum of the audio signal is raised accordingly.
- the amplitude of the vowels having a large amplitude at low frequency can be lowered to a vowel in the transition region from a consonant having a small amplitude at high frequency to reduce a so-called "backward masking". For this, the entire signal is increased by the factor. Ultimately, high-frequency components are raised and the low-frequency fundamental is lowered to the same extent so that the amplitude or energy of the audio signal remains unchanged.
- Such circuitry and methods make speech contained in an audio signal more understandable to other components included in the audio signal. At the same time, however, also non-speech-containing signal components are changed or falsified. It is also disadvantageous in the methods or circuit arrangements that they each continuously improve or process rigidly predefined speech components, frequency components or the like. As a result, signal portions which do not contain speech are also changed or falsified at times when the audio signal contains no speech or speech components.
- the object of the invention is to improve a circuit arrangement or a method for processing speech-containing audio signals.
- a circuit arrangement is accordingly advantageous for improving the intelligibility of possibly audio-containing audio signals having an input for inputting such an audio signal.
- the circuit arrangement is implemented by a speech detector for detecting speech in the input audio signal and for providing a control signal for controlling a speech processing device and / or a speech processing method for processing the audio signal.
- a method is advantageous for processing audio signals which may contain speech, in which speech or speech components contained in an audio signal are detected and, depending on the result of the detection, a control signal for a speech processing device and / or a speech processing method for speech enhancement is generated and provided.
- the circuit arrangement or the method are thus to be regarded as a precursor to an actual signal processing for improving the intelligibility of speech-containing audio signals. Accordingly, the received audio signal is first examined to see if any speech is included in the audio signal. Depending on the result of the speech detection Then, a control signal is output, which is used by an actual speech processing device or an actual language processing method as a control signal. This makes it possible that in speech processing to improve the speech components in the audio signal relative to other signal components in the audio signal, processing or alteration of the audio signal is performed only if speech or speech components are actually included.
- a control signal is provided or output by the circuit arrangement or by the method, which for the actual language improvement z. B. is used as a trigger signal.
- the speech enhancement by means of detection or analysis of a previous audio signal or the like, possibly a time-delayed audio signal can be performed.
- the circuit arrangement which generates and provides the control signal can be provided as an independent structural component, but can also be part of a single structural component with the speech processing device or speech enhancement device.
- the speech detection circuitry and the speech processing means for enhancing the speech components of the audio signal may be part of an integrated circuit arrangement. Accordingly, the method for detecting speech and the speech processing method for enhancing speech components in the audio signal can be performed separately from each other.
- a common method which is carried out by means of technical components of a circuit arrangement or by means of a correspondingly running algorithm in a calculation device is particularly preferred.
- a circuit arrangement is preferred in which the speech detector is designed and / or controlled to detect speech components in the audio signal.
- a circuit arrangement is preferred in which the speech detector has a threshold value determination device for comparing a range of detected speech components with a threshold value and for outputting the control signal as a function of the comparison result.
- a circuit arrangement is preferred in which the speech detector has a control input for inputting at least one parameter for variably controlling the detection with regard to a scope of the speech components to be detected and / or with regard to a frequency range of the speech components to be detected.
- the speech detector has a correlation device for performing a cross correlation or an autocorrelation of the audio signal or of components of the audio signal.
- a circuit arrangement in which the speech detector a Direction determining means for determining a direction of common signal components of the various components.
- the speech detector has a frequency energy detector for determining a signal energy in a speech frequency range in relation to another signal energy of the audio signal.
- a circuit arrangement is preferred in which the speech detector for outputting the control signal is designed and / or controlled depending on the results of both the frequency energy detector and the correlation device, the comparison device or the direction determination device.
- control signal for activating or deactivating the speech enhancement device and / or the speech enhancement method is designed and / or controlled as a function of the speech content of the audio signal.
- control signal is generated as a function of the extent of detected speech components.
- a method is preferred in which the extent of the detected speech components is compared with a threshold value.
- a method is preferred in which the detection is carried out in an adjustable manner with respect to a scope of the speech components to be detected and / or with regard to a frequency range of the speech components to be detected by means of variable parameters.
- a method is preferred in which a cross or autocorrelation of the audio signal or components of the audio signal is performed.
- a method is preferred in which the audio signal components of a multicomponent audio signal having a plurality of audio signal components are compared with one another or processed with one another to detect the speech.
- Components are to be understood as meaning signal components from different distances and directions and / or signals of different channels.
- a method in which the audio signal components are compared or processed with regard to common speech components in the various of the audio signal components, in particular for comparing a direction of the common signal components is preferably compared or processed.
- the distance and direction of the speech component can be determined.
- an application of the speech enhancement is applicable in particular only to speech components which are recognized as originating from a person who is close to the microphone. Signal portions or speech portions of more distant persons can thereby be ignored, so that a speech enhancement is activated only when a related person actually speaks.
- an energy of the audio signal in a speech frequency range is determined in relation to another signal energy of the audio signal.
- the focus is therefore on the energy of frequency components which are typical of spoken language.
- the comparison of the corresponding energy is preferably performed with the energy of the remaining signal components of the audio signal at different frequencies or with the energy content of the entire audio signal component.
- control signal is provided for activating or deactivating the speech enhancement device and / or the speech enhancement method.
- a circuit arrangement and / or a method is preferred, wherein a frequency response is determined by means of an FIR or an IIR filter (FIR: finite impulse response, IIR: infinite impulse response).
- FIR finite impulse response
- IIR infinite impulse response
- signal portions of the audio signal being separated by a matrix.
- a circuit arrangement and / or a method is preferred, wherein matrix coefficients for a matrix are determined via a function dependent on the language component.
- the function is linear and continuous.
- the function has a hysteresis.
- the signal components with speech components of the audio signal can be analyzed and detected with regard to various criteria.
- a minimum duration for example, about which language is recorded as a voice component
- it is also possible, for example as a signal component to also determine the frequency of detectable speech and / or the direction of a speech source of detected speech.
- the terms signal components and speech components are therefore to be interpreted as general and not restrictive.
- FIG. 1 schematically shows the sequence of a method for detecting speech and / or speech components px in an audio signal i for the optional subsequent or parallel speech enhancement of the speech or of the speech components px, if such are detected, in the audio signal i.
- an audio signal i Via an input I of a circuit arrangement for improving the Comprehensibility of possibly speech or voice portions px containing audio signals i an audio signal i is input.
- the audio signal i may be a single-channel mono signal.
- multi-component audio signals i of a stereo audio signal source or the like are preferred, ie a stereo audio signal, a 3D stereo audio signal with additional central component or a surround audio signal with currently usually five components for audio signal components from the right, left, center and from Z.
- a stereo audio signal source or the like ie a stereo audio signal, a 3D stereo audio signal with additional central component or a surround audio signal with currently usually five components for audio signal components from the right, left, center and from Z.
- the audio signal i is supplied to a first structural or logical component, which forms a speech detector SD.
- a speech detector SD it is examined whether speech or a speech component px is contained in the audio signal i. According to preferred embodiments, it is checked whether detected speech or speech components px are larger than a correspondingly predetermined threshold value v.
- detection parameters in particular the threshold value v, can be adapted as needed.
- the illustrated arrangement has an input IV for inputting the threshold v.
- a control signal is set to the value 0, for example. Otherwise, the control signal is set to, for example, the value 1.
- the control signal s is output from the voice detector SD for further use by a voice processing means.
- the audio signal i currently inputted into the speech processing is correspondingly known in the art or improved with an otherwise known per se circuitry.
- an audio signal o which is improved with regard to the speech components is accordingly output.
- a delay of the audio signal i input into the circuit arrangement or the method can optionally be undertaken in accordance with the time delay in the speech detection.
- a circuit arrangement or a method or algorithm is made possible which can only be used for voice enhancement on parts of the audio signal which actually contain speech or which actually contain a specific speech component in the audio signal. Speech detection thus detects speech or separates it from the rest of the signal.
- Fig. 2 shows a first embodiment of a speech detector SD.
- the input consists of two individual inputs for each one audio signal component or an audio signal channel L ', R' of a stereo audio signal.
- the two audio signal components R ', L' are each fed to a bandpass filter BP for limiting the band.
- the outputs of the two bandpass filters BP are supplied to a correlator CR for performing a cross-correlation.
- Each of the two signals output by the bandpass filters BP is multiplied by itself in a multiplier M, i. H. squared, and then fed to an adder A. After the addition, a multiplication by the factor 0.5 is optionally carried out in a further multiplier M * in order to reduce the amplitude.
- the output signal i of the optionally multiplied addition values is fed to a first or second low-pass filter TP.
- each of the output signals of the two bandpass filters BP is fed to an actual circuit for performing the correlation using in particular a further multiplier M.
- the correlation signal L, * R 'output therefrom is fed to a second low-pass filter TP.
- the output signals b, a of the first low-pass filter TP and of the second low-pass filter TP are supplied to a division element DIV for dividing the output signal b of the first low-pass filter TP from the output signal a of the second low-pass filter TP.
- the division result of the division element DIV is provided as a control signal or as a preliminary stage D1 for the control signal s.
- a standard stereo audio signal L ', R' is usually composed of several audio signal components R, L, C, S as the audio signal i. In the case of a multi-channel audio signal, these components can also be provided separately.
- L ' L + C + S respectively
- L stands for a left signal component
- C stands for a signal component coming from the center
- S stands for a surround signal component, ie, a back signal
- R stands for a right signal component.
- the time constant of the low-pass filter TP can be in the range of approximately 100 ms, if a very fast response to changing signal components is desired. However, the time constant can be extended up to several minutes if a very slow response of the speech detector SD is desired.
- the time constant of the low-pass filter is therefore an advantageously variable parameter.
- FIG. 3 shows another exemplary embodiment of a speech detector SD.
- FIG. 2 shows another exemplary embodiment of a speech detector SD.
- the two output signals of the two bandpass filters BP are each supplied to an energy determination component ABS of a frequency energy detector Ef for determining the energy content.
- Speech has the most energy at frequencies between 100 Hz and 4 kHz.
- the proportion of the energy in the speech frequency range f1... F2 can be determined in relation to the total energy of the audio signal i or L ', R'.
- the energy determination component ABS for the two input signals or input signal channels is in the simplest case a member which outputs at its output the absolute value of a value present at the input.
- the output values of the energy-determining components ABS are added to each other by means of an adder A and, as in the case of the embodiment of FIG. 2, fed to a first low-pass filter TP.
- the two output signals of the band-pass filters BP which have performed a band limitation, are fed to a further adder A. Its output signal is fed to a bandpass filter BP *, which passes correspondingly only those signal components which lie in the speech frequency range f1... F2. This band-pass filtered signal is supplied to a second low-pass filter TP.
- the output signal b of the first low-pass filter TP is divided by the output signal a of the second low-pass filter TP in a divider element DIV in order to provide the control signal or a precursor for the control signal as output value or output signal D2.
- the output signal D2 D 2 2 * RMS ( B P ( f 1 ... f 2 ) ( L ' + R ' ) ) / ( RMS ( L ' ) + RMS ( R ' ) ) ,
- the closer the output value or the output signal D2 approaches the value 1 the more energy is present in the voice frequency range, so that px can be concluded for a large proportion of speech.
- the introductory band limitation of the input signal L ', R' is again optional.
- an output value or output signal D3 is used as the control signal s or as a precursor, which takes into account both methods or circuit arrangements of the described embodiments according to FIGS. 2 and 3.
- speech or a portion of speech px is then recognized when more energy in the central component C of the audio signal is present and more energy in the voice frequency range is present.
- the illustrated circuit arrangements or methods for providing the control signal s can be followed by a stage in which a threshold value v is set, which is to be exceeded by the output signal D1, D2, D3 of the described arrangements or methods to the control signal s to switch to an active state.
- the goal is to guide as many signal components as possible which contain speech or speech components px through a speech enhancement algorithm and to leave the remaining signal components unchanged, as also described with reference to FIG. This is advantageously solved by a matrix, as sketched with reference to FIG. 4.
- the actual speech enhancement algorithm or actual speech enhancer may be provided in a manner known per se. For example, a simple frequency response correction described in DE 101 24 699 C1, which is fully incorporated by reference, can be performed. However, any other algorithms and devices for improving speech intelligibility can also be used.
- the input components or input channels L ', R' of the audio signal i are each multiplied by three factors k1, k3, k5 or k2, k4, k6 and fed to addition elements.
- the first adder A is applied the signal of the first channel L 'multiplied by the first coefficient k1 and the signal of the second channel R' multiplied by the second coefficient k2 for addition.
- the second adder A is applied the signal of the first channel L 'multiplied by the third coefficient k3 and the signal of the second channel R' multiplied by the fourth coefficient k4 for addition.
- the third adder A is applied the signal of the first channel L 'multiplied by the fifth coefficient k5 and the signal of the second channel R' multiplied by the sixth coefficient k6 for addition.
- the output value of the second adder A is supplied to a speech enhancement circuit VS or a speech enhancement method or algorithm. Its output result is the output value or output signal of the first addition element A for providing a first output channel LE and an output value or output signal by means of further addition elements A. of the third addition element A is added by means of a further addition element A for providing a second output channel RE.
- the two finally output signal channels or components LE, RE correspond to the processed signals which are supplied to the output O for the processed audio signal o.
- F1 F1 (D1)
- the circuit arrangement already reacts to a small detected speech component.
- the probability of misdetection is relatively high for small values of D1.
- the effect of the speech algorithm with a small D1 on the audio signal is relatively low, so that an impairment of the audio signal is barely perceived.
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Amplifiers (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
Description
- Die Erfindung bezieht sich auf eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen mit den oberbegrifflichen Merkmalen des Patentanspruchs 1 bzw. auf ein Verfahren zur Verarbeitung von Sprache enthaltenden Audiosignalen.
- Aus DE 101 24 699 C1 ist eine Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen bekannt, bei welcher Frequenz- und/oder Amplitudenanteile des Audiosignals nach vorgegebenen Parametern verändert werden. Dabei wird das Audiosignal in einer Verarbeitungsstrecke um einen vorgegebenen Faktor verstärkt sowie in einen Hochpass geführt, wobei eine Eckfrequenz des Hochpasses so regelbar ist, dass die Amplitude des Audiosignals nach der Verarbeitungsstrecke gleich oder proportional der Amplitude des Audiosignals vor der Verarbeitungsstrecke ist. Mit dieser Schaltungsanordnung soll die Grundwelle des Sprachsignals, welche relativ wenig zur Verständlichkeit der enthaltenen Sprachanteile beiträgt, aber die größte Energie besitzt, abgeschwächt werden, wobei das übrige Signalspektrum des Audiosignals entsprechend angehoben wird. Außerdem kann die Amplitude der Vokale, welche eine große Amplitude bei tiefer Frequenz aufweisen, im Übergangsbereich von einem Konsonanten, der eine kleine Amplitude bei großer Frequenz aufweist, zu einem Vokal abgesenkt werden, um ein sogenanntes "backward masking" zu verringern. Dazu wird das gesamte Signal um den Faktor angehoben. Letztendlich werden hochfrequente Anteile angehoben und die tieffrequente Grundwelle wird im gleichen Maße abgesenkt, so dass die Amplitude oder Energie des Audiosignals unverändert bleibt.
- US 5,553,151 beschreibt ein "forward masking". Dabei werden schwache Konsonanten durch vorhergehende starke Vokale zeitlich überdeckt. Vorgeschlagen wird ein verhältnismäßig schneller Kompressor mit einer "attack time" von ca. 10 msec und einer "release time" von ca. 75 bis 150 msec.
- Aus US 5,479,560 ist bekannt, ein Audiosignal in mehrere Frequenzbänder aufzuteilen und diejenigen Frequenzbänder mit großer Energie verhältnismäßig stark zu verstärken und die anderen abzusenken. Dies wird vorgeschlagen, weil Sprache aus einer Aneinanderreihung von Phonemen besteht. Phoneme bestehen aus einer Vielzahl von Frequenzen. Diese werden im Bereich der Resonanzfrequenzen des Mund- und Rachenraums besonders verstärkt. Ein Frequenzband mit solch einem spektralen Spitzenwert wird Formant genannt. Formants sind besonders wichtig zur Erkennung von Phonemen und somit Sprache. Ein Ansatz zur Verbesserung der Sprachverständlichkeit besteht darin, die Spitzenwerte bzw. Formants des Frequenzspektrums eines Audiosignals zu verstärken und die dazwischen liegenden Fehler abzuschwächen. Für einen erwachsenen Mann liegt die Grundfrequenz der Sprache bei etwa 60 bis 250 Hz. Die ersten vier zugeordneten Formants liegen bei 500 Hz, 1500 Hz, 2500 Hz und 3500 Hz.
- Derartige Schaltungsanordnungen und Verfahrensweisen machen in einem Audiosignal enthaltene Sprache gegenüber weiteren im Audiosignal enthaltenen Komponenten verständlicher. Gleichzeitig werden aber auch nicht Sprache enthaltende Signalanteile verändert bzw. verfälscht. Nachteilhaft ist bei den Verfahren bzw. Schaltungsanordnungen auch, dass diese jeweils starr vorgegebene Sprachanteile, Frequenzanteile oder dergleichen kontinuierlich verbessern bzw. verarbeiten. Dadurch werden nicht Sprache enthaltende Signalanteile auch zu Zeiten verändert bzw. verfälscht, zu denen das Audiosignal keine Sprache bzw. Sprachanteile enthält.
- Die Aufgabe der Erfindung besteht darin, eine Schaltungsanordnung bzw. ein Verfahren zur Verarbeitung von Sprache enthaltenden Audiosignalen zu verbessern.
- Diese Aufgabe wird durch eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache enthaltenden Audiosignalen mit den Merkmalen des Patentanspruchs 1 bzw. durch ein Verfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen mit den Merkmalen des Patentanspruchs 11 gelöst.
- Vorteilhaft ist entsprechend eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache enthaltenden Audiosignalen mit einem Eingang zum Eingeben eines solchen Audiosignals. Vorteilhaft wird die Schaltungsanordnung durch einen Sprachdetektor zum Detektieren von Sprache in dem eingegebenen Audiosignal und zum Bereitstellen eines Steuersignals zum Steuern einer Sprachverarbeitungseinrichtung und/oder eines Sprachverarbeitungsverfahrens zum Verarbeiten des Audiosignals.
- Vorteilhaft ist einVerfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen, bei dem in einem Audiosignal enthaltene Sprache bzw. Sprachanteile detektiert werden und abhängig von dem Ergebnis der Detektion ein Steuersignal für eine Sprachverarbeitungseinrichtung und/oder ein Sprachverarbeitungsverfahren für eine Sprachverbesserung erzeugt und bereitgestellt wird.
- Die Schaltungsanordnung bzw. das Verfahren sind somit als eine Vorstufe zu einer eigentlichen Signalverarbeitung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen anzusehen. Das empfangene bzw. eingegebene Audiosignal wird demgemäß zuerst daraufhin untersucht, ob überhaupt Sprache bzw. Sprachanteile in dem Audiosignal enthalten sind. Abhängig von dem Ergebnis der Sprachdetektion wird dann ein Steuersignal ausgegeben, welches von einer eigentlichen Sprachverarbeitungseinrichtung bzw. einem eigentlichen Sprachverarbeitungsverfahren als Steuersignal verwendet wird. Dadurch wird ermöglicht, dass bei der Sprachverarbeitung zur Verbesserung der Sprachanteile im Audiosignal relativ zu anderen Signalanteilen im Audiosignal nur dann eine Verarbeitung bzw. Veränderung des Audiosignals durchgeführt wird, wenn auch tatsächlich Sprache oder Sprachanteile enthalten sind.
- Entsprechend wird durch die Schaltungsanordnung bzw. durch das Verfahren ein Steuersignal bereitgestellt bzw. ausgegeben, welches für die eigentliche Sprachverbesserung z. B. als ein Triggersignal verwendet wird. Dadurch kann die Sprachverbesserung mittels Detektion bzw. Analyse eines vorherigen Audiosignals oder desgleichen, ggf. eines zeitverzögerten Audiosignals durchgeführt werden.
- Die Schaltungsanordnung, welche das Steuersignal erzeugt und bereitstellt, kann als eigenständige bauliche Komponente bereitgestellt werden, kann aber auch Bestandteil einer einzigen baulichen Komponente mit der Sprachverarbeitungseinrichtung bzw. Sprachverbesserungseinrichtung sein. Insbesondere können die Schaltungsanordnung zur Detektion von Sprache und die Sprachverarbeitungseinrichtung zur Verbesserung der Sprachanteile des Audiosignals Bestandteil einer integrierten Schaltungsanordnung sein. Entsprechend können auch das Verfahren zum Detektieren von Sprache und das Sprachverarbeitungsverfahren zum Verbessern von Sprachkomponenten in dem Audiosignal getrennt voneinander durchgeführt werden. Besonders bevorzugt wird jedoch ein gemeinsames Verfahren, welches mittels technischer Komponenten einer Schaltungsanordnung oder mittels eines entsprechend ablaufenden Algorithmus in einer Berechnungseinrichtung durchgeführt wird.
- Vorteilhafte Ausgestaltungen sind Gegenstand abhängiger Ansprüche.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Detektieren von Sprachanteilen in dem Audiosignal ausgebildet und/oder gesteuert ist.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Schwellenwert-Bestimmungseinrichtung zum Vergleichen eines Umfangs detektierter Sprachanteile mit einem Schwellenwert und zum Ausgeben des Steuersignals abhängig vom Vergleichsergebnis aufweist.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor einen Steuereingang zum Eingeben zumindest eines Parameters zum variablen Steuern des Detektierens hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile aufweist.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Korrelationseinrichtung zum Durchführen einer Kreuz- oder einer Autokorrelation des Audiosignals oder von Komponenten des Audiosignals aufweist.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Verarbeiten eines mehrkomponentigen Audiosignals, insbesondere Stereo-Audiosignals oder Multikannal-Audiosignals, mit mehreren Audiosignal-Komponenten ausgebildet ist und als eine Verarbeitungseinrichtung zum Detektieren der Sprache anhand eines Vergleichs oder einer Verarbeitung der Komponenten untereinander ausgebildet oder gesteuert ist.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Richtungsbestimmungseinrichtung zum Bestimmen einer Richtung gemeinsamer Signalanteile der verschiedenen Komponenten aufweist.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor einen Frequenz-Energie-Detektor zum Bestimmen einer Signalenergie in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals aufweist.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Ausgeben des Steuersignals abhängig von Ergebnissen sowohl des Frequenz-Energie-Detektors als auch der Korrelationseinrichtung, der Vergleichseinrichtung bzw. der Richtungsbestimmungseinrichtung ausgebildet und/oder gesteuert ist.
- Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher das Steuersignal zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung und/oder des Sprachverbesserungsverfahrens abhängig vom Sprachgehalt des Audiosignals ausgebildet und/oder gesteuert ist.
- Bevorzugt wird insbesondere ein Verfahren, bei welchem das Steuersignal abhängig vom Umfang detektierter Sprachanteile erzeugt wird.
- Bevorzugt wird insbesondere ein Verfahren, bei welchem der Umfang der detektierten Sprachanteile mit einem Schwellenwert verglichen wird.
- Bevorzugt wird insbesondere ein Verfahren, bei welchem das Detektieren hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile mittels variabler Parameter einstellbar durchgeführt wird.
- Bevorzugt wird insbesondere ein Verfahren, bei welchem eine Kreuz- oder Autokorrelation des Audiosignals oder von Komponenten des Audiosignals durchgeführt wird.
- Bevorzugt wird insbesondere ein Verfahren, bei welchem von einem mehrkomponentigen Audiosignal mit mehreren Audiosignal-Komponenten die Audiosignal-Komponenten untereinander verglichen oder miteinander verarbeitet werden zum Detektieren der Sprache. Unter Komponenten sind dabei Signalanteile aus verschiedenen Entfernungen und Richtungen und/oder Signale verschiedener Kanäle zu verstehen.
- Bevorzugt wird insbesondere ein Verfahren, bei welchem die Audiosignal-Komponenten hinsichtlich gemeinsamer Sprachanteile in den verschiedenen der Audiosignal-Komponenten verglichen bzw. verarbeitet werden, insbesondere zum Bestimmen einer Richtung der gemeinsamen Signalanteile verglichen bzw. verarbeitet werden. Anhand unterschiedlicher Eintreffzeiten auf beispielsweise dem rechten und dem linken Kanal eines Stereosignals sowie anhand spezifischer Dämpfungen spezieller Frequenzen kann die Entfernung und Richtung des Sprachanteils bestimmt werden. Dadurch ist eine Anwendung der Sprachverbesserung insbesondere nur auf Sprachanteile anwendbar, welche als von einer Person, die dicht am Mikrophon steht, stammend erkannt werden. Signalanteile bzw. Sprachanteile von entfernteren Personen können dadurch ignoriert werden, so dass eine Sprachverbesserung nur dann aktiviert wird, wenn tatsächlich eine nahestehende Person spricht.
- Bevorzugt wird insbesondere ein Verfahren, bei welchem eine Energie des Audiosignals in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals bestimmt wird. Abgestellt wird dabei somit auf die Energie von Frequenzanteilen, welche für gesprochene Sprache typisch sind. Neben einer individuellen Abstimmung auf bedarfsweise beispielsweise eine männliche, eine weibliche oder eine kindliche Sprache als Kriterium für den zu wählenden Sprachfrequenzbereich wird der Vergleich der entsprechenden Energie vorzugsweise mit der Energie von den übrigen Signalanteilen des Audiosignals mit anderen Frequenzen oder mit dem Energiegehalt des gesamten Audiosignalanteils durchgeführt. Insbesondere Sprache von entfernt stehend sprechenden Personen, welche somit im Zweifelsfall für den Hörer nicht von Interesse ist, kann erkannt werden und zu einer Deaktivierung der Sprachverbesserung führen, wenn keine nahe stehende Person spricht.
- Bevorzugt wird insbesondere ein Verfahren, bei welchem das Steuersignal zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung und/oder des Sprachverbesserungsverfahrens bereitgestellt wird.
- Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei ein Frequenzgang mittels eines FIR- oder eines IIR-Filters (FIR: Finite-Impulse-Response, IIR: Infinite-Impulse-Response) bestimmt wird.
- Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei Signalanteile des Audiosignals durch eine Matrix getrennt werden.
- Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei Matrixkoeffizienten für eine Matrix über eine vom Sprachanteil abhängige Funktion bestimmt werden. Dabei ist die Funktion linear und stetig. Alternativ oder zusätzlich besitzt die Funktion eine Hysterese.
- Die Signalanteile mit Sprachanteilen des Audiosignals können hinsichtlich verschiedener Kriterien analysiert und detektiert werden. Neben einer beispielsweise Mindestdauer, über welche Sprache als Sprachanteil erfasst wird, kann z.B. als Signalanteil auch auf die Frequenz erfassbarer Sprache und/oder die Richtung einer Sprachquelle erfasster Sprache abgestellt werden. Die Begriffe Signalanteile und Sprachanteile sind daher allgemein und nicht beschränkend auszulegen.
- Die Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Es zeigen:
- Fig. 1
- schematisch Verfahrensschritte bzw. Komponenten eines Verfahrens bzw. einer Schaltungsanordnung zum Verarbeiten eines Audiosignals zur Detektion von darin enthaltener Sprache;
- Fig. 2
- eine beispielhafte Schaltungsanordnung gemäß einer ersten Ausführungsform zur Anwendung einer Korrelation auf Sprachanteile verschiedener Signalkomponenten;
- Fig. 3
- eine weiter beispielhafte Schaltungsanordnung zur Veranschaulichung einer Bestimmung von Energie in einem Sprachfrequenzbereich;
- Fig. 4
- eine beispielhafte Schaltungsanordnung zur Darstellung einer Matrixberechnung vor einer Durchführung einer Sprachverbesserung des Audiosignals; und
- Fig. 5
- ein Diagramm zur Veranschaulichung von Kriterien zur Festlegung eines Schwellenwerts.
- Fig. 1 zeigt beispielhaft schematisch den Ablauf eines Verfahrens zum Detektieren von Sprache und/oder Sprachanteilen px in einem Audiosignal i zur optionalen nachfolgenden oder parallelen Sprachverbesserung der Sprache bzw. der Sprachanteile px, sofern solche detektiert werden, in dem Audiosignal i. Über einen Eingang I einer Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache oder Sprachanteilen px enthaltenden Audiosignalen i wird ein Audiosignal i eingegeben. Bei dem Audiosignal i kann es sich je nach Anwendungsfall um ein einkanaliges Monosignal handeln. Bevorzugt werden jedoch mehrkomponentige Audiosignale i einer Stereo-Audiosignalquelle oder dergleichen, d.h. ein Stereo-Audiosignal, ein 3D-Stereo-Audiosignal mit zusätzlicher Zentralkomponente oder ein Surround-Audiosignal mit derzeit üblicherweise fünf Komponenten für Audiosignal-Komponenten von rechts, links, der Mitte sowie von z. B. zwei entfernten Quellen rechts und links.
- Das Audiosignal i wird einer ersten baulichen oder logischen Komponente, welche einen Sprachdetektor SD ausbildet, zugeführt. In dem Sprachdetektor SD wird untersucht, ob in dem Audiosignal i Sprache bzw. ein Sprachanteil px enthalten ist. Gemäß bevorzugter Ausführungsformen wird dabei geprüft, ob detektierte Sprache bzw. Sprachanteile px größer sind als ein entsprechend vorgegebener Schwellenwert v. Optional sind Detektionsparameter, insbesondere der Schwellenwert v bedarfsweise anpassbar. Diesbezüglich weist die dargestellte Anordnung einen Eingang IV zum Eingeben des Schwellenwerts v auf.
- Ergibt die Detektion, dass ein ausreichender Sprachanteil px in dem Audiosignal i enthalten ist, so wird ein Steuersignal beispielsweise auf den Wert 0 gesetzt. Andernfalls wird das Steuersignal auf beispielsweise den Wert 1 gesetzt. Das Steuersignal s wird von dem Sprachdetektor SD zur weiteren Verwendung durch eine Sprachverarbeitungseinrichtung bzw. ein Sprachverarbeitungsverfahren ausgegeben.
- Falls das Steuersignal s einen Sprachanteil px signalisiert, d. h. falls im vorliegenden Fall s = 0 gilt, wird die Sprache bzw. Sprachanteile px verbessernde Sprachverarbeitung aktiviert. Das momentan in die Sprachverarbeitung eingegebene Audiosignal i wird entsprechend für sich bekannter Verfahren bzw. mit einer ansonsten für sich bekannten Schaltungsanordnung verbessert. An einem Ausgang O wird entsprechend ein hinsichtlich der Sprachanteile verbessertes Audiosignal o ausgegeben.
- Falls bei dem Detektionsschritt kein ausreichender Sprachanteil px erfasst wird, d.h., falls s = 1 gilt, wird das in die Sprachverarbeitung SV eingegebene Audiosignal i belassen, d.h., unverändert als Audiosignal o ausgegeben.
- Sofern durch die Sprachdetektion eine zeitliche Verzögerung des an der Sprachverarbeitung anliegenden Steuersignals s relativ zu dem momentan anliegenden Audiosignal i vorliegt, kann optional eine Verzögerung des in die Schaltungsanordnung bzw. das Verfahren eingegebenen Audiosignals i entsprechend der zeitlichen Verzögerung bei der Sprachdetektion vorgenommen werden.
- Ermöglicht wird somit eine Schaltungsanordnung bzw. ein Verfahren oder Algorithmus, welche eine Sprachverbesserung nur auf Teile des Audiosignals anwenden lassen, welche tatsächlich Sprache enthalten oder welche tatsächlich einen bestimmten Sprachanteil im Audiosignal enthalten. Durch die Sprachdetektion wird somit Sprache detektiert bzw. vom restlichen Signal getrennt.
- In der Realität wird sich Sprache von anderen Signalanteilen eines Audiosignals mathematisch nicht genau trennen lassen. Ziel ist somit, einen möglichst guten Schätzwert zu liefern. Sofern Algorithmen bzw. Schaltungsanordnungen nachfolgend aufgeführter Ausführungsformen sich durch entsprechende andere Signalanteile in die Irre führen lassen, wird gemäß erster Versuche trotzdem eine vorteilhafte Verbesserung eines ausgegebenen Audiosignals erzielt. Vorteilhaft ist dazu, darauf zu achten, dass das Audiosignal i auch bei einer Fehldetektion im Sprachdetektor SD nicht zu sehr verfälscht wird.
- Fig. 2 zeigt eine erste Ausführungsvariante eines Sprachdetektors SD. Der Eingang besteht aus zwei individuellen Eingängen für jeweils eine Audiosignal-Komponente bzw. einen Audiosignal-Kanal L', R' eines Stereo-Audiosignals. Die beiden Audiosignal-Komponenten R', L' werden jeweils einem Bandpassfilter BP zur Bandbegrenzung zugeführt. Die Ausgangssignale der beiden Bandpassfilter BP werden einer Korrelationseinrichtung CR zum Durchführen einer Kreuzkorrelation zugeführt. Jedes der beiden von den Bandpassfiltern BP ausgegebenen Signale wird jeweils in einem Multiplikator M mit sich selber multipliziert, d. h. quadriert, und dann einem Additionsglied A zugeführt. Nach der Addition erfolgt optional in einem weiteren Multiplikator M* eine Multiplikation mit dem Faktor 0,5, um die Amplitude zu reduzieren. Das Ausgangssignal i der gegebenenfalls multiplizierten Additionswerte wird einem ersten bzw. zweiten Tiefpassfilter TP zugeführt.
- Außerdem wird jedes der Ausgangssignale der beiden Bandpassfilter BP einer eigentlichen Schaltung zur Durchführung der Korrelation unter Einsatz insbesondere eines weiteren Multiplikators M zugeführt. Das davon ausgegebene Korrelationssignal L,* R' wird einem zweiten Tiefpassfilter TP zugeführt.
- Die Ausgangssignale b, a des ersten Tiefpassfilters TP und des zweiten Tiefpassfilters TP werden einem Divisionsglied DIV zur Division des Ausgangssignals b des ersten Tiefpassfilters TP von dem Ausgangssignal a des zweiten Tiefpassfilters TP zugeführt. Das Divisionsergebnis des Divisionsglieds DIV wird als Steuersignals bzw. als Vorstufe D1 für das Steuersignal s bereitgestellt.
- Mit einer solchen Schaltungsanordnung oder einem entsprechenden Verarbeitungsverfahren wird eine Kreuzkorrelation durchgeführt. Ein übliches Stereo-Audiosignal L', R' setzt sich als Audiosignal i in der Regel aus mehreren Audiosignal-Komponenten R, L, C, S zusammen. Im Fall eines Multikannal-Audiosignals können diese Komponenten auch separat bereitgestellt werden.
- Im Fall eines Stereo-Audiosignals L', R' sind die beiden Audiosignal-Kanäle L', R' beschreibbar durch
- Sprache bzw. Sprachanteile px befinden sich hauptsächlich auf dem zentralen Kanal bzw. in der Zentralkomponente C. Diese Tatsache kann benutzt werden, um den Anteil von Sprache bzw. Sprachanteilen px zum restlichen Signalgehalt des Audiosignals i zu detektieren. Bestimmt werden kann die enthaltene Sprache bzw. der enthaltene Sprachanteil px im Verhältnis zu den restlichen Signalanteilen des Audiosignals i gemäß
-
-
- Damit ergibt sich für das Ausgangssignal D1, welches als Vorstufe zu dem Steuersignal s oder direkt als Steuersignal s verwendet werden kann, als Wert D1 = 1, falls das Audiosignal i ausschließlich aus einer Zentralkomponente C besteht. D1 = 0 ergibt sich, falls das Audiosignal i ausschließlich aus unkorrelierten rechten und linken Signalkomponenten L, R besteht. D = -1 ergibt sich, falls das Audiosignal i ausschließlich aus Surround-Komponenten S besteht. Bei einer Mischung der verschiedenen Komponenten, wie sie bei einem realen Signal gegeben ist, ergeben sich Werte für D1 zwischen -1 und +1. Je näher das Ausgangssignal bzw. der Ausgangswert D1 bei +1 liegt, desto zentral-lastiger ist das Audiosignal i bzw. L', R', so dass auf einen entsprechend großen Sprachanteil px geschlossen werden kann.
- Die Zeitkonstante des Tiefpassfilters TP kann im Bereich von ca. 100 ms liegen, falls eine sehr schnelle Reaktion auf sich ändernde Signalkomponenten gewünscht ist. Die Zeitkonstante kann jedoch bis zu mehreren Minuten verlängert werden, falls eine sehr langsame Reaktion des Sprachdetektors SD gewünscht ist. Die Zeitkonstante des Tiefpassfilters ist daher ein vorteilhafterweise variabler Parameter. Vor der Durchführung eines Detektionsalgorithmus werden DC-Anteile zweckmäßigerweise mittels eines entsprechenden Filters, insbesondere DC-Kerbfilters (DC-Notch) herausgefiltert. Die weitere Bandbegrenzung ist optional.
- Fig. 3 zeigt eine weitere beispielhafte Ausführungsform eines Sprachdetektors SD. Nachfolgend werden unter Bezug auf die Beschreibung zu Fig. 2 lediglich diejenigen Komponenten beschrieben, welche sich gegenüber der Schaltungsanordnung bzw. Verfahrensweise gemäß Fig. 2 unterscheiden.
- Die beiden Ausgangssignale der beiden Bandpassfilter BP werden jeweils einer Energiebestimmungskomponente ABS eines Frequenz-Energie-Detektors Ef zur Bestimmung des Energiegehalts zugeführt. Sprache hat die größte Energie bei Frequenzen zwischen 100 Hz und 4 kHz. Zur Bestimmung des Sprachanteils px kann entsprechend der Anteil der Energie im Sprachfrequenzbereich f1...f2 im Verhältnis zur Gesamtenergie des Audiosignals i bzw. L', R' bestimmt werden.
- Die Energiebestimmungskomponente ABS für die beiden Eingangssignale bzw. Eingangssignalkanäle ist im einfachsten Fall ein Glied, welches an seinem Ausgang den Betragswert eines am Eingang anliegenden Wertes ausgibt.
- Entsprechend werden die Ausgangswerte der Energiebestimmungskomponenten ABS miteinander mittels eines Additionsglieds A addiert und wie im Fall der Ausführungsform von Fig. 2 einem ersten Tiefpassfilter TP zugeführt. Außerdem werden die beiden Ausgangssignale der Bandpassfilter BP, welche eine Bandbegrenzung durchgeführt haben, einem weiteren Additionsglied A zugeführt. Dessen Ausgangssignal wird einem Bandpassfilter BP* zugeführt, welcher entsprechend nur diejenigen Signalanteile durchlässt, welche im Sprachfrequenzbereich f1...f2 liegen. Dieses Bandpassgefilterte Signal wird einem zweiten Tiefpassfilter TP zugeführt. Abschließend erfolgt eine Division des Ausgangssignals b des ersten Tiefpassfilters TP durch das Ausgangssignal a des zweiten Tiefpassfilters TP in einem Divisionsglied DIV, um als Ausgangswert bzw. Ausgangssignal D2 das Steuersignal oder eine Vorstufe für das Steuersignal bereitzustellen.
- Berechnet werden kann das Ausgangssignal D2 durch
-
- Damit wird Sprache bzw. ein Sprachanteil px dann erkannt, wenn mehr Energie in der Zentralkomponente C des Audiosignals vorhanden ist und mehr Energie im Sprachfrequenzbereich vorhanden ist.
- Optional kann den dargestellten Schaltungsanordnungen bzw. Verfahrensweisen zur Bereitstellung des Steuersignals s noch eine Stufe nachgeschaltet werden, in welcher ein Schwellenwert v festgelegt wird, der von dem Ausgangssignal D1, D2, D3 der beschriebenen Anordnungen bzw. Verfahren zu Überschreiten ist, um das Steuersignal s in einen aktiven Zustand zu schalten.
- Bei einer parallelen oder nachfolgenden Sprachsignalverarbeitung des Audiosignals i besteht das Ziel darin, möglichst viele Signalanteile, die Sprache bzw. Sprachanteile px enthalten, durch einen Sprachverbesserungsalgorithmus zu leiten und die restlichen Signalanteile unverändert zu lassen, wie dies auch anhand Fig. 1 beschrieben ist. Dies wird vorteilhaft durch eine Matrix gelöst, wie dies anhand Fig. 4 skizziert ist.
- Matrixkoeffizienten k1, k2,..., k6 werden abhängig von dem bestimmten Sprachanteil px bzw. abhängig von dem vom Sprachdetektor SD ausgegebenen Ausgangswert bzw. Ausgangssignal D1, D2 bestimmt bzw. werden als Funktion px = F(D1, D2) ermittelt.
Der eigentliche Sprachverbesserungsalgorithmus oder eine eigentliche Sprachverbesserungseinrichtung kann in für sich bekannter Art und Weise bereitgestellt werden. Beispielsweise kann eine in DE 101 24 699 C1, auf welche voll umfänglich Bezug genommen wird, beschriebene einfache Frequenzgangkorrektur durchgeführt werden. Einsetzbar sind aber auch beliebige andere Algorithmen und Einrichtungen zur Verbesserung der Sprachverständlichkeit. - Bei der in Fig. 4 dargestellten Matrixberechnung werden die Eingangskomponenten bzw. Eingangskanäle L', R' des Audiosignals i jeweils mit drei Faktoren k1, k3, k5 bzw. k2, k4, k6 multipliziert und Additionsgliedern zugeführt. Dem ersten Additionsglied A wird das Signal des ersten Kanals L' multipliziert mit dem ersten Koeffizienten k1 und das Signal des zweiten Kanals R' multipliziert mit dem zweiten Koeffizienten k2 zur Addition angelegt. Dem zweiten Additionsglied A werden das Signal des ersten Kanals L' multipliziert mit dem dritten Koeffizienten k3 und das Signal des zweiten Kanals R' multipliziert mit dem vierten Koeffizienten k4 zur Addition angelegt. Dem dritten Additionsglied A werden das Signal des ersten Kanals L' multipliziert mit dem fünften Koeffizienten k5 und das Signal des zweiten Kanals R' multipliziert mit dem sechsten Koeffizienten k6 zur Addition angelegt. Der Ausgangswert des zweiten Additionsglieds A wird einer Sprachverbesserungsschaltung VS oder einem Sprachverbesserungsverfahren bzw. Algorithmus zugeführt. Dessen Ausgangsergebnis wird mittels weiterer Additionsglieder A dem Ausgangswert bzw. Ausgangssignal des ersten Additionsglieds A zur Bereitstellung eines ersten Ausgangskanals LE und einem Ausgangswert bzw. Ausgangssignal des dritten Additionsglieds A mittels eines weiteren Additionsglied A zum Bereitstellen eines zweiten Ausgangskanals RE aufaddiert.
- Für die Bestimmung der Koeffizienten wird beispielsweise berücksichtigt, dass der Sprachanteil px durch die beschriebenen Verfahren durch einen Wertebereich von insbesondere 0 ≤ P ≤ 1 und als Funktion der Bestimmten Sprachanteile mit px = F(D1,D2,D3) bestimmbar ist. Gemäß einer einfachen Variante können die Koeffizienten festgelegt werden gemäß
- Die beiden letztendlich ausgegebenen Signalkanäle bzw. Komponenten LE, RE entsprechen den verarbeiteten Signalen, welche dem Ausgang O für das verarbeitete Audiosignal o zugeführt werden.
- Fig. 5 stellt beispielhaft Funktion F(D1, D2=0, D3=0) dar. Im Fall der ersten dargestellten Funktion F = F1(D1) reagiert die Schaltungsanordnung schon auf einen geringen detektierten Sprachanteil. Die Wahrscheinlichkeit einer Fehldetektion ist für kleine Werte von D1 relativ hoch. Allerdings ist durch den stetigen Verlauf der ersten Funktion F1(D1) die Auswirkung des Sprachalgorithmus bei kleinem D1 auf das Audiosignal relativ gering, so dass eine Beeinträchtigung des Audiosignals kaum wahrgenommen wird.
- Im Fall einer zweiten Funktion F2(D1) bleibt das Audiosignal vollkommen unbeeinträchtigt bis zu einem Schwellenwert v = Ps2. Danach sind die Auswirkungen auf das Audiosignal bei Änderungen des Werts von P1 umso größer.
- Im Fall einer dritten Funktion F = F3(D1) wird der Algorithmus beim Überschreiten eines bestimmten Schwellenwerts v = Ps31 eingeschaltet und beim Unterschreiten eines anderen, niedrigeren Schwellenwerts v=Ps32 ausgeschaltet. Durch den Einbau einer solchen Hysterese wird ein ständiges Umschalten im Übergangsbereich verhindert.
Claims (25)
- Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache (px) enthaltenden Audiosignalen (i) mit- einem Eingang (I) zum Eingeben eines solchen Audiosignals (i),
gekennzeichnet durch- einen Sprachdetektor (SD) zum Detektieren von Sprache (px) in dem eingegebenen Audiosignal (i) und zum Bereitstellen eines Steuersignals (s) zum Steuern einer Sprachverarbeitungseinrichtung (SV) und/oder eines Sprachverarbeitungsverfahrens zum Verarbeiten des Audiosignals (i). - Schaltungsanordnung nach Anspruch 1, bei welcher der Sprachdetektor (SD) zum Detektieren von Sprachanteilen (px) in dem Audiosignal (i) ausgebildet und/oder gesteuert ist.
- Schaltungsanordnung nach Anspruch 1 oder 2, bei welcher der Sprachdetektor (SD) eine Schwellenwert-Bestimmungseinrichtung zum Vergleichen eines Umfangs detektierter Sprachanteile mit einem Schwellenwert (v) und zum Ausgeben des Steuersignals (s) abhängig vom Vergleichsergebnis aufweist.
- Schaltungsanordnung nach Anspruch 3, bei welcher der Sprachdetektor (SD) einen Steuereingang (IV) zum Eingeben zumindest eines Parameters (v) zum variablen Steuern des Detektierens hinsichtlich eines Umfangs der zu detektierenden Sprachanteile (px) und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile (px) aufweist.
- Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD) eine Korrelationseinrichtung (CR) zum Durchführen einer Kreuz- oder einer Autokorrelation des Audiosignals oder von Komponenten des Audiosignals aufweist.
- Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD)- zum Verarbeiten eines mehrkomponentigen Audiosignals (i), insbesondere Stereo-Audiosignals (L', R'), 3D-Stereo-Audiosignals (L, R, C) und/oder Surround-Audiosignals (L, R, C, S), mit mehreren Audiosignal-Komponenten (L, R, C, S) ausgebildet ist und- eine Verarbeitungseinrichtung (CR) zum Detektieren der Sprache anhand eines Vergleichs oder einer Verarbeitung der Komponenten (L, R, C, S) untereinander aufweist.
- Schaltungsanordnung nach Anspruch 6, bei welcher der Sprachdetektor (SD) eine Richtungs- und/oder Entfernungsbestimmungseinrichtung zum Bestimmen einer Richtung und/oder Entfernung gemeinsamer Signalanteile der verschiedenen Komponenten (L, R, C, S) aufweist.
- Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD) einen Frequenz-Energie-Detektor (Ef) zum Bestimmen einer Signalenergie in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals (i) aufweist.
- Schaltungsanordnung nach Anspruch 8 und einem der Ansprüche 5 bis 7, bei welcher de Sprachdetektor (SD) zum Ausgeben des Steuersignals (s) abhängig von Ergebnissen sowohl des Frequenz-Energie-Detektors (Ef) als auch der Korrelationseinrichtung (CR), der Vergleichseinrichtung bzw. der Richtungs- und/oder Entfernungsbestimmungseinrichtung ausgebildet und/oder gesteuert ist.
- Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher das Steuersignal (s) zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung (SV) und/oder des Sprachverbesserungsverfahrens abhängig vom Sprachgehalt des Audiosignals (i) ausgebildet und/oder gesteuert ist.
- Verfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen (i), bei dem- in einem Audiosignal (i) enthaltene Sprache bzw. Sprachanteile (px) detektiert werden und- abhängig von dem Ergebnis der Detektion ein Steuersignal (s) für eine Sprachverarbeitungseinrichtung (SV) und/oder ein Sprachverarbeitungsverfahren für eine Sprachverbesserung erzeugt und bereitgestellt wird.
- Verfahren nach Anspruch 11, bei welchem das Steuersignal (s) abhängig vom Umfang detektierter Sprachanteile (px) erzeugt wird.
- Verfahren nach Anspruch 12, bei welchem der Umfang der detektierten Sprachanteile (px) mit einem Schwellenwert (v) verglichen wird.
- Verfahren nach einem der Ansprüche 11 bis 13, bei welchem das Detektieren hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile (px) mittels variabler Parameter (v) einstellbar durchgeführt wird.
- Verfahren nach einem der Ansprüche 11 bis 14, bei welchem eine Kreuz- oder Autokorrelation des Audiosignals (i) oder von Komponenten (R, L, C, S) des Audiosignals (i) durchgeführt wird.
- Verfahren nach einem der Ansprüche 11 bis 15, bei welchem von einem mehrkomponentigen Audiosignal mit mehreren Audiosignal-Komponenten (R, L, C, S) die Audiosignal-Komponenten untereinander verglichen oder miteinander verarbeitet werden zum Detektieren der Sprache.
- Verfahren nach Anspruch 16, bei welchem die Audiosignal-Komponenten (R, L, C, S) hinsichtlich gemeinsamer Sprachanteile in den verschiedenen der Audiosignal-Komponenten verglichen bzw. verarbeitet werden, insbesondere zum Bestimmen einer Richtung und/oder Entfernung der gemeinsamen Signalanteile verglichen bzw. verarbeitet werden.
- Verfahren nach einem der Ansprüche 11 bis 17, bei welchem eine Energie des Audiosignals (i) in einem Sprachfrequenzbereich (f1, ..., f2) im Verhältnis zu einer sonstigen Signalenergie des Audiosignals (i) bestimmt wird.
- Verfahren nach einem der Ansprüche 11 bis 18, bei welchem das Steuersignal (s) zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung (SV) und/oder des Sprachverbesserungsverfahrens bereitgestellt wird.
- Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei ein Frequenzgang mittels eines FIR- oder eines IIR-Filters (FIR: Finite-Impulse-Response, IIR: Infinite-Impulse-Response) bestimmt wird.
- Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei Signalanteile des Audiosignals durch eine Matrix getrennt werden.
- Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei Matrixkoeffizienten für eine Matrix (MX) über eine vom Sprachanteil (px) abhängige Funktion (P = F(px)) bestimmt werden.
- Schaltungsanordnung und/oder Verfahren nach Anspruch 22, wobei die Funktion (P = F(px)) linear und stetig ist.
- Schaltungsanordnung und/oder Verfahren nach Anspruch 22, wobei die Funktion (P = F(px)) eine Hysterese besitzt.
- Sprachverbesserungs-Schaltungsanordnung oder -verfahren mit einer Schaltungsanordnung und/oder einem Verfahren nach einem der vorstehenden Ansprüche.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004049347A DE102004049347A1 (de) | 2004-10-08 | 2004-10-08 | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
Publications (3)
Publication Number | Publication Date |
---|---|
EP1647972A2 true EP1647972A2 (de) | 2006-04-19 |
EP1647972A3 EP1647972A3 (de) | 2006-07-12 |
EP1647972B1 EP1647972B1 (de) | 2008-03-26 |
Family
ID=35812768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP05019316A Not-in-force EP1647972B1 (de) | 2004-10-08 | 2005-09-06 | Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen |
Country Status (6)
Country | Link |
---|---|
US (1) | US8005672B2 (de) |
EP (1) | EP1647972B1 (de) |
JP (1) | JP2006323336A (de) |
KR (1) | KR100804881B1 (de) |
AT (1) | ATE390684T1 (de) |
DE (2) | DE102004049347A1 (de) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1691348A1 (de) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametrische kombinierte Kodierung von Audio-Quellen |
US7970564B2 (en) * | 2006-05-02 | 2011-06-28 | Qualcomm Incorporated | Enhancement techniques for blind source separation (BSS) |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8175871B2 (en) * | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
KR101349268B1 (ko) * | 2007-10-16 | 2014-01-15 | 삼성전자주식회사 | 마이크로폰 어레이를 이용한 음원 거리 측정 장치 |
US8204235B2 (en) * | 2007-11-30 | 2012-06-19 | Pioneer Corporation | Center channel positioning apparatus |
US8223988B2 (en) * | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
EP2211564B1 (de) * | 2009-01-23 | 2014-09-10 | Harman Becker Automotive Systems GmbH | Insassenkommunikationssystem |
WO2011055410A1 (ja) * | 2009-11-06 | 2011-05-12 | 株式会社 東芝 | 音声認識装置 |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
US10169339B2 (en) | 2011-10-31 | 2019-01-01 | Elwha Llc | Context-sensitive query enrichment |
JP5867066B2 (ja) * | 2011-12-26 | 2016-02-24 | 富士ゼロックス株式会社 | 音声解析装置 |
JP2013135325A (ja) * | 2011-12-26 | 2013-07-08 | Fuji Xerox Co Ltd | 音声解析装置 |
JP6031761B2 (ja) * | 2011-12-28 | 2016-11-24 | 富士ゼロックス株式会社 | 音声解析装置および音声解析システム |
US10552581B2 (en) | 2011-12-30 | 2020-02-04 | Elwha Llc | Evidence-based healthcare information management protocols |
US10340034B2 (en) | 2011-12-30 | 2019-07-02 | Elwha Llc | Evidence-based healthcare information management protocols |
US10475142B2 (en) | 2011-12-30 | 2019-11-12 | Elwha Llc | Evidence-based healthcare information management protocols |
US10528913B2 (en) | 2011-12-30 | 2020-01-07 | Elwha Llc | Evidence-based healthcare information management protocols |
US10679309B2 (en) | 2011-12-30 | 2020-06-09 | Elwha Llc | Evidence-based healthcare information management protocols |
US10559380B2 (en) | 2011-12-30 | 2020-02-11 | Elwha Llc | Evidence-based healthcare information management protocols |
US20130173294A1 (en) | 2011-12-30 | 2013-07-04 | Elwha LLC, a limited liability company of the State of Delaware | Evidence-based healthcare information management protocols |
US10091583B2 (en) * | 2013-03-07 | 2018-10-02 | Apple Inc. | Room and program responsive loudspeaker system |
KR101808810B1 (ko) * | 2013-11-27 | 2017-12-14 | 한국전자통신연구원 | 음성/무음성 구간 검출 방법 및 장치 |
US20210201937A1 (en) * | 2019-12-31 | 2021-07-01 | Texas Instruments Incorporated | Adaptive detection threshold for non-stationary signals in noise |
CN111292716A (zh) * | 2020-02-13 | 2020-06-16 | 百度在线网络技术(北京)有限公司 | 语音芯片和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479560A (en) | 1992-10-30 | 1995-12-26 | Technology Research Association Of Medical And Welfare Apparatus | Formant detecting device and speech processing apparatus |
US5553151A (en) | 1992-09-11 | 1996-09-03 | Goldberg; Hyman | Electroacoustic speech intelligibility enhancement method and apparatus |
DE10124699C1 (de) | 2001-05-18 | 2002-12-19 | Micronas Gmbh | Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4410763A (en) * | 1981-06-09 | 1983-10-18 | Northern Telecom Limited | Speech detector |
US4698842A (en) * | 1985-07-11 | 1987-10-06 | Electronic Engineering And Manufacturing, Inc. | Audio processing system for restoring bass frequencies |
US5251263A (en) * | 1992-05-22 | 1993-10-05 | Andrea Electronics Corporation | Adaptive noise cancellation and speech enhancement system and apparatus therefor |
US5430826A (en) * | 1992-10-13 | 1995-07-04 | Harris Corporation | Voice-activated switch |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
GB2303471B (en) * | 1995-07-19 | 2000-03-22 | Olympus Optical Co | Voice activated recording apparatus |
JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US5774849A (en) * | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
JP3522954B2 (ja) * | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
WO1998006091A1 (fr) * | 1996-08-02 | 1998-02-12 | Matsushita Electric Industrial Co., Ltd. | Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications |
US6130949A (en) * | 1996-09-18 | 2000-10-10 | Nippon Telegraph And Telephone Corporation | Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor |
US6216103B1 (en) * | 1997-10-20 | 2001-04-10 | Sony Corporation | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise |
US6230122B1 (en) * | 1998-09-09 | 2001-05-08 | Sony Corporation | Speech detection with noise suppression based on principal components analysis |
US6381569B1 (en) * | 1998-02-04 | 2002-04-30 | Qualcomm Incorporated | Noise-compensated speech recognition templates |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
JP4091244B2 (ja) * | 2000-11-08 | 2008-05-28 | 日産自動車株式会社 | 音声再生装置 |
US6889187B2 (en) * | 2000-12-28 | 2005-05-03 | Nortel Networks Limited | Method and apparatus for improved voice activity detection in a packet voice network |
US6952672B2 (en) * | 2001-04-25 | 2005-10-04 | International Business Machines Corporation | Audio source position detection and audio adjustment |
US7236929B2 (en) * | 2001-05-09 | 2007-06-26 | Plantronics, Inc. | Echo suppression and speech detection techniques for telephony applications |
US7158933B2 (en) * | 2001-05-11 | 2007-01-02 | Siemens Corporate Research, Inc. | Multi-channel speech enhancement system and method based on psychoacoustic masking effects |
FR2825826B1 (fr) * | 2001-06-11 | 2003-09-12 | Cit Alcatel | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
EP1430749A2 (de) * | 2001-09-06 | 2004-06-23 | Koninklijke Philips Electronics N.V. | Tonwiedergabeanordnung |
JP2003084790A (ja) * | 2001-09-17 | 2003-03-19 | Matsushita Electric Ind Co Ltd | 台詞成分強調装置 |
US7299173B2 (en) * | 2002-01-30 | 2007-11-20 | Motorola Inc. | Method and apparatus for speech detection using time-frequency variance |
US7167568B2 (en) * | 2002-05-02 | 2007-01-23 | Microsoft Corporation | Microphone array signal enhancement |
US20040078199A1 (en) * | 2002-08-20 | 2004-04-22 | Hanoh Kremer | Method for auditory based noise reduction and an apparatus for auditory based noise reduction |
US7372848B2 (en) * | 2002-10-11 | 2008-05-13 | Agilent Technologies, Inc. | Dynamically controlled packet filtering with correlation to signaling protocols |
US7174022B1 (en) * | 2002-11-15 | 2007-02-06 | Fortemedia, Inc. | Small array microphone for beam-forming and noise suppression |
EP1592282B1 (de) * | 2003-02-07 | 2007-06-13 | Nippon Telegraph and Telephone Corporation | Telefonkonferenzverfahren und telefonkonferenzsystem |
JP4480335B2 (ja) | 2003-03-03 | 2010-06-16 | パイオニア株式会社 | 複数チャンネル音声信号の処理回路、処理プログラム及び再生装置 |
US7343284B1 (en) * | 2003-07-17 | 2008-03-11 | Nortel Networks Limited | Method and system for speech processing for enhancement and detection |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
KR200434705Y1 (ko) | 2006-09-28 | 2006-12-26 | 김학무 | 절첩이 용이한 화판 이젤 |
-
2004
- 2004-10-08 DE DE102004049347A patent/DE102004049347A1/de not_active Ceased
-
2005
- 2005-09-06 DE DE502005003436T patent/DE502005003436D1/de active Active
- 2005-09-06 EP EP05019316A patent/EP1647972B1/de not_active Not-in-force
- 2005-09-06 AT AT05019316T patent/ATE390684T1/de not_active IP Right Cessation
- 2005-10-07 KR KR1020050094308A patent/KR100804881B1/ko not_active IP Right Cessation
- 2005-10-07 JP JP2005294544A patent/JP2006323336A/ja active Pending
- 2005-10-11 US US11/249,020 patent/US8005672B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5553151A (en) | 1992-09-11 | 1996-09-03 | Goldberg; Hyman | Electroacoustic speech intelligibility enhancement method and apparatus |
US5479560A (en) | 1992-10-30 | 1995-12-26 | Technology Research Association Of Medical And Welfare Apparatus | Formant detecting device and speech processing apparatus |
DE10124699C1 (de) | 2001-05-18 | 2002-12-19 | Micronas Gmbh | Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen |
Also Published As
Publication number | Publication date |
---|---|
KR20060052101A (ko) | 2006-05-19 |
US8005672B2 (en) | 2011-08-23 |
US20060080089A1 (en) | 2006-04-13 |
EP1647972A3 (de) | 2006-07-12 |
JP2006323336A (ja) | 2006-11-30 |
DE102004049347A1 (de) | 2006-04-20 |
ATE390684T1 (de) | 2008-04-15 |
EP1647972B1 (de) | 2008-03-26 |
KR100804881B1 (ko) | 2008-02-20 |
DE502005003436D1 (de) | 2008-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1647972B1 (de) | Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen | |
DE69627580T2 (de) | Verfahren zur Rauschverminderung in einem Sprachsignal | |
DE69509555T2 (de) | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation | |
EP1825461B1 (de) | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen | |
DE69612770T2 (de) | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen | |
DE112009000805B4 (de) | Rauschreduktion | |
DE69614752T2 (de) | Vorrichtung und Verfahren zur Sprachkodierung unter Verwendung eines Filters zur Verbesserung der Signalqualität | |
DE69124005T2 (de) | Sprachsignalverarbeitungsvorrichtung | |
EP1386307B2 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
EP1453194A2 (de) | Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät | |
DE19703228A1 (de) | Verfahren zur Verstärkung von Eingangssignalen eines Hörgerätes sowie Schaltung zur Durchführung des Verfahrens | |
WO1999023642A1 (de) | Verfahren zur reduktion von störungen akustischer signale mittels der adaptiven filter-methode der spektralen subtraktion | |
DE3222495A1 (de) | Selbsttaetige lautstaerke-regelvorrichtung | |
EP1919257A2 (de) | Pegelabhängige Geräuschreduktion | |
WO2002032208A2 (de) | Verfahren zur bestimmung einer akustischen umgebungssituation, anwendung des verfahrens und ein hörhilfegerät | |
DE102015207706B3 (de) | Verfahren zur frequenzabhängigen Rauschunterdrückung eines Eingangssignals | |
WO2001022790A2 (de) | Verfahren zum betrieb eines hörgerätes und ein hörgerät | |
DE69130687T2 (de) | Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal | |
EP1101390B1 (de) | Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe | |
EP1453355B1 (de) | Signalverarbeitung in einem Hörgerät | |
WO2001047335A2 (de) | Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät | |
EP1052881B1 (de) | Hörhilfsgerät mit Oszillationsdetektor sowie Verfahren zur Feststellung von Oszillationen in einem Hörhilfsgerät | |
EP1755110A2 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System | |
EP2394271B1 (de) | Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL BA HR MK YU |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL BA HR MK YU |
|
17P | Request for examination filed |
Effective date: 20060802 |
|
17Q | First examination report despatched |
Effective date: 20060901 |
|
AKX | Designation fees paid |
Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: GERMAN Ref country code: CH Ref legal event code: EP |
|
REF | Corresponds to: |
Ref document number: 502005003436 Country of ref document: DE Date of ref document: 20080508 Kind code of ref document: P |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 Ref country code: SI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080626 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080707 Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080901 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080726 |
|
ET | Fr: translation filed | ||
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20081230 |
|
BERE | Be: lapsed |
Owner name: MICRONAS G.M.B.H. Effective date: 20080930 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BG Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080626 Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080930 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080930 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080906 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080906 Ref country code: HU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080927 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080326 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: SD Effective date: 20101011 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20090930 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080627 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20090930 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: 732E Free format text: REGISTERED BETWEEN 20101125 AND 20101201 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R081 Ref document number: 502005003436 Country of ref document: DE Owner name: ENTROPIC COMMUNICATIONS, INC., US Free format text: FORMER OWNER: MICRONAS GMBH, 79108 FREIBURG, DE Effective date: 20110210 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R084 Ref document number: 502005003436 Country of ref document: DE Effective date: 20110426 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 502005003436 Country of ref document: DE Representative=s name: EPPING HERMANN FISCHER, PATENTANWALTSGESELLSCH, DE |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20120925 Year of fee payment: 8 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 502005003436 Country of ref document: DE Representative=s name: EPPING HERMANN FISCHER, PATENTANWALTSGESELLSCH, DE Effective date: 20121023 Ref country code: DE Ref legal event code: R081 Ref document number: 502005003436 Country of ref document: DE Owner name: ENTROPIC COMMUNICATIONS, INC., US Free format text: FORMER OWNER: TRIDENT MICROSYSTEMS (FAR EAST) LTD., GRAND CAYMAN, KY Effective date: 20121023 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20120927 Year of fee payment: 8 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: NL Payment date: 20120924 Year of fee payment: 8 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20130919 Year of fee payment: 9 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: 732E Free format text: REGISTERED BETWEEN 20131107 AND 20131113 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP Owner name: ENTROPIC COMMUNICATIONS, INC., US Effective date: 20131119 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20130923 Year of fee payment: 9 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: V1 Effective date: 20140401 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20130906 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 502005003436 Country of ref document: DE Effective date: 20140401 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130906 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20140401 Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20140401 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20150529 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20140906 Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20140930 |