EP1647972A2 - Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen - Google Patents

Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen Download PDF

Info

Publication number
EP1647972A2
EP1647972A2 EP05019316A EP05019316A EP1647972A2 EP 1647972 A2 EP1647972 A2 EP 1647972A2 EP 05019316 A EP05019316 A EP 05019316A EP 05019316 A EP05019316 A EP 05019316A EP 1647972 A2 EP1647972 A2 EP 1647972A2
Authority
EP
European Patent Office
Prior art keywords
speech
audio signal
components
signal
circuit arrangement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP05019316A
Other languages
English (en)
French (fr)
Other versions
EP1647972B1 (de
EP1647972A3 (de
Inventor
Matthias Vierthaler
Florian Pfister
Dieter Lücking
Stefan Müller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TDK Micronas GmbH
Original Assignee
TDK Micronas GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TDK Micronas GmbH filed Critical TDK Micronas GmbH
Publication of EP1647972A2 publication Critical patent/EP1647972A2/de
Publication of EP1647972A3 publication Critical patent/EP1647972A3/de
Application granted granted Critical
Publication of EP1647972B1 publication Critical patent/EP1647972B1/de
Not-in-force legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the invention relates to a circuit arrangement for improving the intelligibility of speech-containing audio signals with the preamble features of claim 1 and to a method for processing speech-containing audio signals.
  • DE 101 24 699 C1 discloses a circuit arrangement for improving the intelligibility of speech-containing audio signals, in which frequency and / or amplitude components of the audio signal are changed according to predetermined parameters.
  • the audio signal is amplified in a processing path by a predetermined factor and performed in a high pass, a corner frequency of the high pass is adjustable so that the amplitude of the audio signal after the processing path is equal to or proportional to the amplitude of the audio signal before the processing path.
  • the fundamental wave of the speech signal which contributes relatively little to the intelligibility of the speech components contained, but has the largest energy, to be attenuated, the remaining signal spectrum of the audio signal is raised accordingly.
  • the amplitude of the vowels having a large amplitude at low frequency can be lowered to a vowel in the transition region from a consonant having a small amplitude at high frequency to reduce a so-called "backward masking". For this, the entire signal is increased by the factor. Ultimately, high-frequency components are raised and the low-frequency fundamental is lowered to the same extent so that the amplitude or energy of the audio signal remains unchanged.
  • Such circuitry and methods make speech contained in an audio signal more understandable to other components included in the audio signal. At the same time, however, also non-speech-containing signal components are changed or falsified. It is also disadvantageous in the methods or circuit arrangements that they each continuously improve or process rigidly predefined speech components, frequency components or the like. As a result, signal portions which do not contain speech are also changed or falsified at times when the audio signal contains no speech or speech components.
  • the object of the invention is to improve a circuit arrangement or a method for processing speech-containing audio signals.
  • a circuit arrangement is accordingly advantageous for improving the intelligibility of possibly audio-containing audio signals having an input for inputting such an audio signal.
  • the circuit arrangement is implemented by a speech detector for detecting speech in the input audio signal and for providing a control signal for controlling a speech processing device and / or a speech processing method for processing the audio signal.
  • a method is advantageous for processing audio signals which may contain speech, in which speech or speech components contained in an audio signal are detected and, depending on the result of the detection, a control signal for a speech processing device and / or a speech processing method for speech enhancement is generated and provided.
  • the circuit arrangement or the method are thus to be regarded as a precursor to an actual signal processing for improving the intelligibility of speech-containing audio signals. Accordingly, the received audio signal is first examined to see if any speech is included in the audio signal. Depending on the result of the speech detection Then, a control signal is output, which is used by an actual speech processing device or an actual language processing method as a control signal. This makes it possible that in speech processing to improve the speech components in the audio signal relative to other signal components in the audio signal, processing or alteration of the audio signal is performed only if speech or speech components are actually included.
  • a control signal is provided or output by the circuit arrangement or by the method, which for the actual language improvement z. B. is used as a trigger signal.
  • the speech enhancement by means of detection or analysis of a previous audio signal or the like, possibly a time-delayed audio signal can be performed.
  • the circuit arrangement which generates and provides the control signal can be provided as an independent structural component, but can also be part of a single structural component with the speech processing device or speech enhancement device.
  • the speech detection circuitry and the speech processing means for enhancing the speech components of the audio signal may be part of an integrated circuit arrangement. Accordingly, the method for detecting speech and the speech processing method for enhancing speech components in the audio signal can be performed separately from each other.
  • a common method which is carried out by means of technical components of a circuit arrangement or by means of a correspondingly running algorithm in a calculation device is particularly preferred.
  • a circuit arrangement is preferred in which the speech detector is designed and / or controlled to detect speech components in the audio signal.
  • a circuit arrangement is preferred in which the speech detector has a threshold value determination device for comparing a range of detected speech components with a threshold value and for outputting the control signal as a function of the comparison result.
  • a circuit arrangement is preferred in which the speech detector has a control input for inputting at least one parameter for variably controlling the detection with regard to a scope of the speech components to be detected and / or with regard to a frequency range of the speech components to be detected.
  • the speech detector has a correlation device for performing a cross correlation or an autocorrelation of the audio signal or of components of the audio signal.
  • a circuit arrangement in which the speech detector a Direction determining means for determining a direction of common signal components of the various components.
  • the speech detector has a frequency energy detector for determining a signal energy in a speech frequency range in relation to another signal energy of the audio signal.
  • a circuit arrangement is preferred in which the speech detector for outputting the control signal is designed and / or controlled depending on the results of both the frequency energy detector and the correlation device, the comparison device or the direction determination device.
  • control signal for activating or deactivating the speech enhancement device and / or the speech enhancement method is designed and / or controlled as a function of the speech content of the audio signal.
  • control signal is generated as a function of the extent of detected speech components.
  • a method is preferred in which the extent of the detected speech components is compared with a threshold value.
  • a method is preferred in which the detection is carried out in an adjustable manner with respect to a scope of the speech components to be detected and / or with regard to a frequency range of the speech components to be detected by means of variable parameters.
  • a method is preferred in which a cross or autocorrelation of the audio signal or components of the audio signal is performed.
  • a method is preferred in which the audio signal components of a multicomponent audio signal having a plurality of audio signal components are compared with one another or processed with one another to detect the speech.
  • Components are to be understood as meaning signal components from different distances and directions and / or signals of different channels.
  • a method in which the audio signal components are compared or processed with regard to common speech components in the various of the audio signal components, in particular for comparing a direction of the common signal components is preferably compared or processed.
  • the distance and direction of the speech component can be determined.
  • an application of the speech enhancement is applicable in particular only to speech components which are recognized as originating from a person who is close to the microphone. Signal portions or speech portions of more distant persons can thereby be ignored, so that a speech enhancement is activated only when a related person actually speaks.
  • an energy of the audio signal in a speech frequency range is determined in relation to another signal energy of the audio signal.
  • the focus is therefore on the energy of frequency components which are typical of spoken language.
  • the comparison of the corresponding energy is preferably performed with the energy of the remaining signal components of the audio signal at different frequencies or with the energy content of the entire audio signal component.
  • control signal is provided for activating or deactivating the speech enhancement device and / or the speech enhancement method.
  • a circuit arrangement and / or a method is preferred, wherein a frequency response is determined by means of an FIR or an IIR filter (FIR: finite impulse response, IIR: infinite impulse response).
  • FIR finite impulse response
  • IIR infinite impulse response
  • signal portions of the audio signal being separated by a matrix.
  • a circuit arrangement and / or a method is preferred, wherein matrix coefficients for a matrix are determined via a function dependent on the language component.
  • the function is linear and continuous.
  • the function has a hysteresis.
  • the signal components with speech components of the audio signal can be analyzed and detected with regard to various criteria.
  • a minimum duration for example, about which language is recorded as a voice component
  • it is also possible, for example as a signal component to also determine the frequency of detectable speech and / or the direction of a speech source of detected speech.
  • the terms signal components and speech components are therefore to be interpreted as general and not restrictive.
  • FIG. 1 schematically shows the sequence of a method for detecting speech and / or speech components px in an audio signal i for the optional subsequent or parallel speech enhancement of the speech or of the speech components px, if such are detected, in the audio signal i.
  • an audio signal i Via an input I of a circuit arrangement for improving the Comprehensibility of possibly speech or voice portions px containing audio signals i an audio signal i is input.
  • the audio signal i may be a single-channel mono signal.
  • multi-component audio signals i of a stereo audio signal source or the like are preferred, ie a stereo audio signal, a 3D stereo audio signal with additional central component or a surround audio signal with currently usually five components for audio signal components from the right, left, center and from Z.
  • a stereo audio signal source or the like ie a stereo audio signal, a 3D stereo audio signal with additional central component or a surround audio signal with currently usually five components for audio signal components from the right, left, center and from Z.
  • the audio signal i is supplied to a first structural or logical component, which forms a speech detector SD.
  • a speech detector SD it is examined whether speech or a speech component px is contained in the audio signal i. According to preferred embodiments, it is checked whether detected speech or speech components px are larger than a correspondingly predetermined threshold value v.
  • detection parameters in particular the threshold value v, can be adapted as needed.
  • the illustrated arrangement has an input IV for inputting the threshold v.
  • a control signal is set to the value 0, for example. Otherwise, the control signal is set to, for example, the value 1.
  • the control signal s is output from the voice detector SD for further use by a voice processing means.
  • the audio signal i currently inputted into the speech processing is correspondingly known in the art or improved with an otherwise known per se circuitry.
  • an audio signal o which is improved with regard to the speech components is accordingly output.
  • a delay of the audio signal i input into the circuit arrangement or the method can optionally be undertaken in accordance with the time delay in the speech detection.
  • a circuit arrangement or a method or algorithm is made possible which can only be used for voice enhancement on parts of the audio signal which actually contain speech or which actually contain a specific speech component in the audio signal. Speech detection thus detects speech or separates it from the rest of the signal.
  • Fig. 2 shows a first embodiment of a speech detector SD.
  • the input consists of two individual inputs for each one audio signal component or an audio signal channel L ', R' of a stereo audio signal.
  • the two audio signal components R ', L' are each fed to a bandpass filter BP for limiting the band.
  • the outputs of the two bandpass filters BP are supplied to a correlator CR for performing a cross-correlation.
  • Each of the two signals output by the bandpass filters BP is multiplied by itself in a multiplier M, i. H. squared, and then fed to an adder A. After the addition, a multiplication by the factor 0.5 is optionally carried out in a further multiplier M * in order to reduce the amplitude.
  • the output signal i of the optionally multiplied addition values is fed to a first or second low-pass filter TP.
  • each of the output signals of the two bandpass filters BP is fed to an actual circuit for performing the correlation using in particular a further multiplier M.
  • the correlation signal L, * R 'output therefrom is fed to a second low-pass filter TP.
  • the output signals b, a of the first low-pass filter TP and of the second low-pass filter TP are supplied to a division element DIV for dividing the output signal b of the first low-pass filter TP from the output signal a of the second low-pass filter TP.
  • the division result of the division element DIV is provided as a control signal or as a preliminary stage D1 for the control signal s.
  • a standard stereo audio signal L ', R' is usually composed of several audio signal components R, L, C, S as the audio signal i. In the case of a multi-channel audio signal, these components can also be provided separately.
  • L ' L + C + S respectively
  • L stands for a left signal component
  • C stands for a signal component coming from the center
  • S stands for a surround signal component, ie, a back signal
  • R stands for a right signal component.
  • the time constant of the low-pass filter TP can be in the range of approximately 100 ms, if a very fast response to changing signal components is desired. However, the time constant can be extended up to several minutes if a very slow response of the speech detector SD is desired.
  • the time constant of the low-pass filter is therefore an advantageously variable parameter.
  • FIG. 3 shows another exemplary embodiment of a speech detector SD.
  • FIG. 2 shows another exemplary embodiment of a speech detector SD.
  • the two output signals of the two bandpass filters BP are each supplied to an energy determination component ABS of a frequency energy detector Ef for determining the energy content.
  • Speech has the most energy at frequencies between 100 Hz and 4 kHz.
  • the proportion of the energy in the speech frequency range f1... F2 can be determined in relation to the total energy of the audio signal i or L ', R'.
  • the energy determination component ABS for the two input signals or input signal channels is in the simplest case a member which outputs at its output the absolute value of a value present at the input.
  • the output values of the energy-determining components ABS are added to each other by means of an adder A and, as in the case of the embodiment of FIG. 2, fed to a first low-pass filter TP.
  • the two output signals of the band-pass filters BP which have performed a band limitation, are fed to a further adder A. Its output signal is fed to a bandpass filter BP *, which passes correspondingly only those signal components which lie in the speech frequency range f1... F2. This band-pass filtered signal is supplied to a second low-pass filter TP.
  • the output signal b of the first low-pass filter TP is divided by the output signal a of the second low-pass filter TP in a divider element DIV in order to provide the control signal or a precursor for the control signal as output value or output signal D2.
  • the output signal D2 D 2 2 * RMS ( B P ( f 1 ... f 2 ) ( L ' + R ' ) ) / ( RMS ( L ' ) + RMS ( R ' ) ) ,
  • the closer the output value or the output signal D2 approaches the value 1 the more energy is present in the voice frequency range, so that px can be concluded for a large proportion of speech.
  • the introductory band limitation of the input signal L ', R' is again optional.
  • an output value or output signal D3 is used as the control signal s or as a precursor, which takes into account both methods or circuit arrangements of the described embodiments according to FIGS. 2 and 3.
  • speech or a portion of speech px is then recognized when more energy in the central component C of the audio signal is present and more energy in the voice frequency range is present.
  • the illustrated circuit arrangements or methods for providing the control signal s can be followed by a stage in which a threshold value v is set, which is to be exceeded by the output signal D1, D2, D3 of the described arrangements or methods to the control signal s to switch to an active state.
  • the goal is to guide as many signal components as possible which contain speech or speech components px through a speech enhancement algorithm and to leave the remaining signal components unchanged, as also described with reference to FIG. This is advantageously solved by a matrix, as sketched with reference to FIG. 4.
  • the actual speech enhancement algorithm or actual speech enhancer may be provided in a manner known per se. For example, a simple frequency response correction described in DE 101 24 699 C1, which is fully incorporated by reference, can be performed. However, any other algorithms and devices for improving speech intelligibility can also be used.
  • the input components or input channels L ', R' of the audio signal i are each multiplied by three factors k1, k3, k5 or k2, k4, k6 and fed to addition elements.
  • the first adder A is applied the signal of the first channel L 'multiplied by the first coefficient k1 and the signal of the second channel R' multiplied by the second coefficient k2 for addition.
  • the second adder A is applied the signal of the first channel L 'multiplied by the third coefficient k3 and the signal of the second channel R' multiplied by the fourth coefficient k4 for addition.
  • the third adder A is applied the signal of the first channel L 'multiplied by the fifth coefficient k5 and the signal of the second channel R' multiplied by the sixth coefficient k6 for addition.
  • the output value of the second adder A is supplied to a speech enhancement circuit VS or a speech enhancement method or algorithm. Its output result is the output value or output signal of the first addition element A for providing a first output channel LE and an output value or output signal by means of further addition elements A. of the third addition element A is added by means of a further addition element A for providing a second output channel RE.
  • the two finally output signal channels or components LE, RE correspond to the processed signals which are supplied to the output O for the processed audio signal o.
  • F1 F1 (D1)
  • the circuit arrangement already reacts to a small detected speech component.
  • the probability of misdetection is relatively high for small values of D1.
  • the effect of the speech algorithm with a small D1 on the audio signal is relatively low, so that an impairment of the audio signal is barely perceived.

Abstract

Die Erfindung bezieht sich auf eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache (px) enthaltenden Audiosignalen (i) mit einem Eingang (I) zum Eingeben eines solchen Audiosignals (i). Vorteilhaft wird die Schaltungsanordnung durch einen Sprachdetektor (SD) zum Detektieren von Sprache (px) in dem eingegebenen Audiosignal (i) und zum Bereitstellen eines Steuersignals (s) zum Steuern einer Sprachverarbeitungseinrichtung (SV) und/oder eines Sprachverarbeitungsverfahrens zum Verarbeiten des Audiosignals (i). Vorteilhaft ist entsprechend ein Verfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen (i), bei dem in einem Audiosignal (i) enthaltene Sprache bzw. Sprachanteile (px) detektiert werden und abhängig von dem Ergebnis der Detektion ein Steuersignal (s) für eine Sprachverarbeitungseinrichtung (SV) und/oder ein Sprachverarbeitungsverfahren für eine Sprachverbesserung erzeugt und bereitgestellt wird.

Description

  • Die Erfindung bezieht sich auf eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen mit den oberbegrifflichen Merkmalen des Patentanspruchs 1 bzw. auf ein Verfahren zur Verarbeitung von Sprache enthaltenden Audiosignalen.
  • Aus DE 101 24 699 C1 ist eine Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen bekannt, bei welcher Frequenz- und/oder Amplitudenanteile des Audiosignals nach vorgegebenen Parametern verändert werden. Dabei wird das Audiosignal in einer Verarbeitungsstrecke um einen vorgegebenen Faktor verstärkt sowie in einen Hochpass geführt, wobei eine Eckfrequenz des Hochpasses so regelbar ist, dass die Amplitude des Audiosignals nach der Verarbeitungsstrecke gleich oder proportional der Amplitude des Audiosignals vor der Verarbeitungsstrecke ist. Mit dieser Schaltungsanordnung soll die Grundwelle des Sprachsignals, welche relativ wenig zur Verständlichkeit der enthaltenen Sprachanteile beiträgt, aber die größte Energie besitzt, abgeschwächt werden, wobei das übrige Signalspektrum des Audiosignals entsprechend angehoben wird. Außerdem kann die Amplitude der Vokale, welche eine große Amplitude bei tiefer Frequenz aufweisen, im Übergangsbereich von einem Konsonanten, der eine kleine Amplitude bei großer Frequenz aufweist, zu einem Vokal abgesenkt werden, um ein sogenanntes "backward masking" zu verringern. Dazu wird das gesamte Signal um den Faktor angehoben. Letztendlich werden hochfrequente Anteile angehoben und die tieffrequente Grundwelle wird im gleichen Maße abgesenkt, so dass die Amplitude oder Energie des Audiosignals unverändert bleibt.
  • US 5,553,151 beschreibt ein "forward masking". Dabei werden schwache Konsonanten durch vorhergehende starke Vokale zeitlich überdeckt. Vorgeschlagen wird ein verhältnismäßig schneller Kompressor mit einer "attack time" von ca. 10 msec und einer "release time" von ca. 75 bis 150 msec.
  • Aus US 5,479,560 ist bekannt, ein Audiosignal in mehrere Frequenzbänder aufzuteilen und diejenigen Frequenzbänder mit großer Energie verhältnismäßig stark zu verstärken und die anderen abzusenken. Dies wird vorgeschlagen, weil Sprache aus einer Aneinanderreihung von Phonemen besteht. Phoneme bestehen aus einer Vielzahl von Frequenzen. Diese werden im Bereich der Resonanzfrequenzen des Mund- und Rachenraums besonders verstärkt. Ein Frequenzband mit solch einem spektralen Spitzenwert wird Formant genannt. Formants sind besonders wichtig zur Erkennung von Phonemen und somit Sprache. Ein Ansatz zur Verbesserung der Sprachverständlichkeit besteht darin, die Spitzenwerte bzw. Formants des Frequenzspektrums eines Audiosignals zu verstärken und die dazwischen liegenden Fehler abzuschwächen. Für einen erwachsenen Mann liegt die Grundfrequenz der Sprache bei etwa 60 bis 250 Hz. Die ersten vier zugeordneten Formants liegen bei 500 Hz, 1500 Hz, 2500 Hz und 3500 Hz.
  • Derartige Schaltungsanordnungen und Verfahrensweisen machen in einem Audiosignal enthaltene Sprache gegenüber weiteren im Audiosignal enthaltenen Komponenten verständlicher. Gleichzeitig werden aber auch nicht Sprache enthaltende Signalanteile verändert bzw. verfälscht. Nachteilhaft ist bei den Verfahren bzw. Schaltungsanordnungen auch, dass diese jeweils starr vorgegebene Sprachanteile, Frequenzanteile oder dergleichen kontinuierlich verbessern bzw. verarbeiten. Dadurch werden nicht Sprache enthaltende Signalanteile auch zu Zeiten verändert bzw. verfälscht, zu denen das Audiosignal keine Sprache bzw. Sprachanteile enthält.
  • Die Aufgabe der Erfindung besteht darin, eine Schaltungsanordnung bzw. ein Verfahren zur Verarbeitung von Sprache enthaltenden Audiosignalen zu verbessern.
  • Diese Aufgabe wird durch eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache enthaltenden Audiosignalen mit den Merkmalen des Patentanspruchs 1 bzw. durch ein Verfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen mit den Merkmalen des Patentanspruchs 11 gelöst.
  • Vorteilhaft ist entsprechend eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache enthaltenden Audiosignalen mit einem Eingang zum Eingeben eines solchen Audiosignals. Vorteilhaft wird die Schaltungsanordnung durch einen Sprachdetektor zum Detektieren von Sprache in dem eingegebenen Audiosignal und zum Bereitstellen eines Steuersignals zum Steuern einer Sprachverarbeitungseinrichtung und/oder eines Sprachverarbeitungsverfahrens zum Verarbeiten des Audiosignals.
  • Vorteilhaft ist einVerfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen, bei dem in einem Audiosignal enthaltene Sprache bzw. Sprachanteile detektiert werden und abhängig von dem Ergebnis der Detektion ein Steuersignal für eine Sprachverarbeitungseinrichtung und/oder ein Sprachverarbeitungsverfahren für eine Sprachverbesserung erzeugt und bereitgestellt wird.
  • Die Schaltungsanordnung bzw. das Verfahren sind somit als eine Vorstufe zu einer eigentlichen Signalverarbeitung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen anzusehen. Das empfangene bzw. eingegebene Audiosignal wird demgemäß zuerst daraufhin untersucht, ob überhaupt Sprache bzw. Sprachanteile in dem Audiosignal enthalten sind. Abhängig von dem Ergebnis der Sprachdetektion wird dann ein Steuersignal ausgegeben, welches von einer eigentlichen Sprachverarbeitungseinrichtung bzw. einem eigentlichen Sprachverarbeitungsverfahren als Steuersignal verwendet wird. Dadurch wird ermöglicht, dass bei der Sprachverarbeitung zur Verbesserung der Sprachanteile im Audiosignal relativ zu anderen Signalanteilen im Audiosignal nur dann eine Verarbeitung bzw. Veränderung des Audiosignals durchgeführt wird, wenn auch tatsächlich Sprache oder Sprachanteile enthalten sind.
  • Entsprechend wird durch die Schaltungsanordnung bzw. durch das Verfahren ein Steuersignal bereitgestellt bzw. ausgegeben, welches für die eigentliche Sprachverbesserung z. B. als ein Triggersignal verwendet wird. Dadurch kann die Sprachverbesserung mittels Detektion bzw. Analyse eines vorherigen Audiosignals oder desgleichen, ggf. eines zeitverzögerten Audiosignals durchgeführt werden.
  • Die Schaltungsanordnung, welche das Steuersignal erzeugt und bereitstellt, kann als eigenständige bauliche Komponente bereitgestellt werden, kann aber auch Bestandteil einer einzigen baulichen Komponente mit der Sprachverarbeitungseinrichtung bzw. Sprachverbesserungseinrichtung sein. Insbesondere können die Schaltungsanordnung zur Detektion von Sprache und die Sprachverarbeitungseinrichtung zur Verbesserung der Sprachanteile des Audiosignals Bestandteil einer integrierten Schaltungsanordnung sein. Entsprechend können auch das Verfahren zum Detektieren von Sprache und das Sprachverarbeitungsverfahren zum Verbessern von Sprachkomponenten in dem Audiosignal getrennt voneinander durchgeführt werden. Besonders bevorzugt wird jedoch ein gemeinsames Verfahren, welches mittels technischer Komponenten einer Schaltungsanordnung oder mittels eines entsprechend ablaufenden Algorithmus in einer Berechnungseinrichtung durchgeführt wird.
  • Vorteilhafte Ausgestaltungen sind Gegenstand abhängiger Ansprüche.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Detektieren von Sprachanteilen in dem Audiosignal ausgebildet und/oder gesteuert ist.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Schwellenwert-Bestimmungseinrichtung zum Vergleichen eines Umfangs detektierter Sprachanteile mit einem Schwellenwert und zum Ausgeben des Steuersignals abhängig vom Vergleichsergebnis aufweist.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor einen Steuereingang zum Eingeben zumindest eines Parameters zum variablen Steuern des Detektierens hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile aufweist.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Korrelationseinrichtung zum Durchführen einer Kreuz- oder einer Autokorrelation des Audiosignals oder von Komponenten des Audiosignals aufweist.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Verarbeiten eines mehrkomponentigen Audiosignals, insbesondere Stereo-Audiosignals oder Multikannal-Audiosignals, mit mehreren Audiosignal-Komponenten ausgebildet ist und als eine Verarbeitungseinrichtung zum Detektieren der Sprache anhand eines Vergleichs oder einer Verarbeitung der Komponenten untereinander ausgebildet oder gesteuert ist.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Richtungsbestimmungseinrichtung zum Bestimmen einer Richtung gemeinsamer Signalanteile der verschiedenen Komponenten aufweist.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor einen Frequenz-Energie-Detektor zum Bestimmen einer Signalenergie in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals aufweist.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Ausgeben des Steuersignals abhängig von Ergebnissen sowohl des Frequenz-Energie-Detektors als auch der Korrelationseinrichtung, der Vergleichseinrichtung bzw. der Richtungsbestimmungseinrichtung ausgebildet und/oder gesteuert ist.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher das Steuersignal zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung und/oder des Sprachverbesserungsverfahrens abhängig vom Sprachgehalt des Audiosignals ausgebildet und/oder gesteuert ist.
  • Bevorzugt wird insbesondere ein Verfahren, bei welchem das Steuersignal abhängig vom Umfang detektierter Sprachanteile erzeugt wird.
  • Bevorzugt wird insbesondere ein Verfahren, bei welchem der Umfang der detektierten Sprachanteile mit einem Schwellenwert verglichen wird.
  • Bevorzugt wird insbesondere ein Verfahren, bei welchem das Detektieren hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile mittels variabler Parameter einstellbar durchgeführt wird.
  • Bevorzugt wird insbesondere ein Verfahren, bei welchem eine Kreuz- oder Autokorrelation des Audiosignals oder von Komponenten des Audiosignals durchgeführt wird.
  • Bevorzugt wird insbesondere ein Verfahren, bei welchem von einem mehrkomponentigen Audiosignal mit mehreren Audiosignal-Komponenten die Audiosignal-Komponenten untereinander verglichen oder miteinander verarbeitet werden zum Detektieren der Sprache. Unter Komponenten sind dabei Signalanteile aus verschiedenen Entfernungen und Richtungen und/oder Signale verschiedener Kanäle zu verstehen.
  • Bevorzugt wird insbesondere ein Verfahren, bei welchem die Audiosignal-Komponenten hinsichtlich gemeinsamer Sprachanteile in den verschiedenen der Audiosignal-Komponenten verglichen bzw. verarbeitet werden, insbesondere zum Bestimmen einer Richtung der gemeinsamen Signalanteile verglichen bzw. verarbeitet werden. Anhand unterschiedlicher Eintreffzeiten auf beispielsweise dem rechten und dem linken Kanal eines Stereosignals sowie anhand spezifischer Dämpfungen spezieller Frequenzen kann die Entfernung und Richtung des Sprachanteils bestimmt werden. Dadurch ist eine Anwendung der Sprachverbesserung insbesondere nur auf Sprachanteile anwendbar, welche als von einer Person, die dicht am Mikrophon steht, stammend erkannt werden. Signalanteile bzw. Sprachanteile von entfernteren Personen können dadurch ignoriert werden, so dass eine Sprachverbesserung nur dann aktiviert wird, wenn tatsächlich eine nahestehende Person spricht.
  • Bevorzugt wird insbesondere ein Verfahren, bei welchem eine Energie des Audiosignals in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals bestimmt wird. Abgestellt wird dabei somit auf die Energie von Frequenzanteilen, welche für gesprochene Sprache typisch sind. Neben einer individuellen Abstimmung auf bedarfsweise beispielsweise eine männliche, eine weibliche oder eine kindliche Sprache als Kriterium für den zu wählenden Sprachfrequenzbereich wird der Vergleich der entsprechenden Energie vorzugsweise mit der Energie von den übrigen Signalanteilen des Audiosignals mit anderen Frequenzen oder mit dem Energiegehalt des gesamten Audiosignalanteils durchgeführt. Insbesondere Sprache von entfernt stehend sprechenden Personen, welche somit im Zweifelsfall für den Hörer nicht von Interesse ist, kann erkannt werden und zu einer Deaktivierung der Sprachverbesserung führen, wenn keine nahe stehende Person spricht.
  • Bevorzugt wird insbesondere ein Verfahren, bei welchem das Steuersignal zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung und/oder des Sprachverbesserungsverfahrens bereitgestellt wird.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei ein Frequenzgang mittels eines FIR- oder eines IIR-Filters (FIR: Finite-Impulse-Response, IIR: Infinite-Impulse-Response) bestimmt wird.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei Signalanteile des Audiosignals durch eine Matrix getrennt werden.
  • Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei Matrixkoeffizienten für eine Matrix über eine vom Sprachanteil abhängige Funktion bestimmt werden. Dabei ist die Funktion linear und stetig. Alternativ oder zusätzlich besitzt die Funktion eine Hysterese.
  • Die Signalanteile mit Sprachanteilen des Audiosignals können hinsichtlich verschiedener Kriterien analysiert und detektiert werden. Neben einer beispielsweise Mindestdauer, über welche Sprache als Sprachanteil erfasst wird, kann z.B. als Signalanteil auch auf die Frequenz erfassbarer Sprache und/oder die Richtung einer Sprachquelle erfasster Sprache abgestellt werden. Die Begriffe Signalanteile und Sprachanteile sind daher allgemein und nicht beschränkend auszulegen.
  • Die Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Es zeigen:
  • Fig. 1
    schematisch Verfahrensschritte bzw. Komponenten eines Verfahrens bzw. einer Schaltungsanordnung zum Verarbeiten eines Audiosignals zur Detektion von darin enthaltener Sprache;
    Fig. 2
    eine beispielhafte Schaltungsanordnung gemäß einer ersten Ausführungsform zur Anwendung einer Korrelation auf Sprachanteile verschiedener Signalkomponenten;
    Fig. 3
    eine weiter beispielhafte Schaltungsanordnung zur Veranschaulichung einer Bestimmung von Energie in einem Sprachfrequenzbereich;
    Fig. 4
    eine beispielhafte Schaltungsanordnung zur Darstellung einer Matrixberechnung vor einer Durchführung einer Sprachverbesserung des Audiosignals; und
    Fig. 5
    ein Diagramm zur Veranschaulichung von Kriterien zur Festlegung eines Schwellenwerts.
  • Fig. 1 zeigt beispielhaft schematisch den Ablauf eines Verfahrens zum Detektieren von Sprache und/oder Sprachanteilen px in einem Audiosignal i zur optionalen nachfolgenden oder parallelen Sprachverbesserung der Sprache bzw. der Sprachanteile px, sofern solche detektiert werden, in dem Audiosignal i. Über einen Eingang I einer Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache oder Sprachanteilen px enthaltenden Audiosignalen i wird ein Audiosignal i eingegeben. Bei dem Audiosignal i kann es sich je nach Anwendungsfall um ein einkanaliges Monosignal handeln. Bevorzugt werden jedoch mehrkomponentige Audiosignale i einer Stereo-Audiosignalquelle oder dergleichen, d.h. ein Stereo-Audiosignal, ein 3D-Stereo-Audiosignal mit zusätzlicher Zentralkomponente oder ein Surround-Audiosignal mit derzeit üblicherweise fünf Komponenten für Audiosignal-Komponenten von rechts, links, der Mitte sowie von z. B. zwei entfernten Quellen rechts und links.
  • Das Audiosignal i wird einer ersten baulichen oder logischen Komponente, welche einen Sprachdetektor SD ausbildet, zugeführt. In dem Sprachdetektor SD wird untersucht, ob in dem Audiosignal i Sprache bzw. ein Sprachanteil px enthalten ist. Gemäß bevorzugter Ausführungsformen wird dabei geprüft, ob detektierte Sprache bzw. Sprachanteile px größer sind als ein entsprechend vorgegebener Schwellenwert v. Optional sind Detektionsparameter, insbesondere der Schwellenwert v bedarfsweise anpassbar. Diesbezüglich weist die dargestellte Anordnung einen Eingang IV zum Eingeben des Schwellenwerts v auf.
  • Ergibt die Detektion, dass ein ausreichender Sprachanteil px in dem Audiosignal i enthalten ist, so wird ein Steuersignal beispielsweise auf den Wert 0 gesetzt. Andernfalls wird das Steuersignal auf beispielsweise den Wert 1 gesetzt. Das Steuersignal s wird von dem Sprachdetektor SD zur weiteren Verwendung durch eine Sprachverarbeitungseinrichtung bzw. ein Sprachverarbeitungsverfahren ausgegeben.
  • Falls das Steuersignal s einen Sprachanteil px signalisiert, d. h. falls im vorliegenden Fall s = 0 gilt, wird die Sprache bzw. Sprachanteile px verbessernde Sprachverarbeitung aktiviert. Das momentan in die Sprachverarbeitung eingegebene Audiosignal i wird entsprechend für sich bekannter Verfahren bzw. mit einer ansonsten für sich bekannten Schaltungsanordnung verbessert. An einem Ausgang O wird entsprechend ein hinsichtlich der Sprachanteile verbessertes Audiosignal o ausgegeben.
  • Falls bei dem Detektionsschritt kein ausreichender Sprachanteil px erfasst wird, d.h., falls s = 1 gilt, wird das in die Sprachverarbeitung SV eingegebene Audiosignal i belassen, d.h., unverändert als Audiosignal o ausgegeben.
  • Sofern durch die Sprachdetektion eine zeitliche Verzögerung des an der Sprachverarbeitung anliegenden Steuersignals s relativ zu dem momentan anliegenden Audiosignal i vorliegt, kann optional eine Verzögerung des in die Schaltungsanordnung bzw. das Verfahren eingegebenen Audiosignals i entsprechend der zeitlichen Verzögerung bei der Sprachdetektion vorgenommen werden.
  • Ermöglicht wird somit eine Schaltungsanordnung bzw. ein Verfahren oder Algorithmus, welche eine Sprachverbesserung nur auf Teile des Audiosignals anwenden lassen, welche tatsächlich Sprache enthalten oder welche tatsächlich einen bestimmten Sprachanteil im Audiosignal enthalten. Durch die Sprachdetektion wird somit Sprache detektiert bzw. vom restlichen Signal getrennt.
  • In der Realität wird sich Sprache von anderen Signalanteilen eines Audiosignals mathematisch nicht genau trennen lassen. Ziel ist somit, einen möglichst guten Schätzwert zu liefern. Sofern Algorithmen bzw. Schaltungsanordnungen nachfolgend aufgeführter Ausführungsformen sich durch entsprechende andere Signalanteile in die Irre führen lassen, wird gemäß erster Versuche trotzdem eine vorteilhafte Verbesserung eines ausgegebenen Audiosignals erzielt. Vorteilhaft ist dazu, darauf zu achten, dass das Audiosignal i auch bei einer Fehldetektion im Sprachdetektor SD nicht zu sehr verfälscht wird.
  • Fig. 2 zeigt eine erste Ausführungsvariante eines Sprachdetektors SD. Der Eingang besteht aus zwei individuellen Eingängen für jeweils eine Audiosignal-Komponente bzw. einen Audiosignal-Kanal L', R' eines Stereo-Audiosignals. Die beiden Audiosignal-Komponenten R', L' werden jeweils einem Bandpassfilter BP zur Bandbegrenzung zugeführt. Die Ausgangssignale der beiden Bandpassfilter BP werden einer Korrelationseinrichtung CR zum Durchführen einer Kreuzkorrelation zugeführt. Jedes der beiden von den Bandpassfiltern BP ausgegebenen Signale wird jeweils in einem Multiplikator M mit sich selber multipliziert, d. h. quadriert, und dann einem Additionsglied A zugeführt. Nach der Addition erfolgt optional in einem weiteren Multiplikator M* eine Multiplikation mit dem Faktor 0,5, um die Amplitude zu reduzieren. Das Ausgangssignal i der gegebenenfalls multiplizierten Additionswerte wird einem ersten bzw. zweiten Tiefpassfilter TP zugeführt.
  • Außerdem wird jedes der Ausgangssignale der beiden Bandpassfilter BP einer eigentlichen Schaltung zur Durchführung der Korrelation unter Einsatz insbesondere eines weiteren Multiplikators M zugeführt. Das davon ausgegebene Korrelationssignal L,* R' wird einem zweiten Tiefpassfilter TP zugeführt.
  • Die Ausgangssignale b, a des ersten Tiefpassfilters TP und des zweiten Tiefpassfilters TP werden einem Divisionsglied DIV zur Division des Ausgangssignals b des ersten Tiefpassfilters TP von dem Ausgangssignal a des zweiten Tiefpassfilters TP zugeführt. Das Divisionsergebnis des Divisionsglieds DIV wird als Steuersignals bzw. als Vorstufe D1 für das Steuersignal s bereitgestellt.
  • Mit einer solchen Schaltungsanordnung oder einem entsprechenden Verarbeitungsverfahren wird eine Kreuzkorrelation durchgeführt. Ein übliches Stereo-Audiosignal L', R' setzt sich als Audiosignal i in der Regel aus mehreren Audiosignal-Komponenten R, L, C, S zusammen. Im Fall eines Multikannal-Audiosignals können diese Komponenten auch separat bereitgestellt werden.
  • Im Fall eines Stereo-Audiosignals L', R' sind die beiden Audiosignal-Kanäle L', R' beschreibbar durch a : L = L + C + S bzw .
    Figure imgb0001
    b : R = R + C S ,
    Figure imgb0002
    wobei L für eine linke Signalkomponente steht, C für eine zentral von vorne kommende Signalkomponente steht, S für eine Surround-Signalkomponente, d.h, ein rückwärtiges Signalund R für eine rechte Signalkomponente steht.
  • Sprache bzw. Sprachanteile px befinden sich hauptsächlich auf dem zentralen Kanal bzw. in der Zentralkomponente C. Diese Tatsache kann benutzt werden, um den Anteil von Sprache bzw. Sprachanteilen px zum restlichen Signalgehalt des Audiosignals i zu detektieren. Bestimmt werden kann die enthaltene Sprache bzw. der enthaltene Sprachanteil px im Verhältnis zu den restlichen Signalanteilen des Audiosignals i gemäß p x = 2 RMS ( C ) / ( ( RMS / L ) + RMS ( R ) )
    Figure imgb0003
    mit RMS als der zeitlich gemittelten Amplitude.
  • Durch eine Kreuzkorrelation lässt sich der Anteil der Zentralkomponente C bestimmen durch L R = 2 L R + L C + R C L S + R S + C C S S .
    Figure imgb0004
  • Im zeitlichen Mittel werden für DC-freie Signale, d. h. für Signalkomponenten ohne einen Gleichspannungsanteil alle nicht korrelierten Produkte zu 0. Damit kann als Kriterium für das von dem Sprachdetektor SD ausgegebene Signal D1 gelten: D 1 = 2 T P ( L R ) / ( L L + R R ) = 2 T P ( C C S S ) / T P ( L L + R R ) .
    Figure imgb0005
  • Damit ergibt sich für das Ausgangssignal D1, welches als Vorstufe zu dem Steuersignal s oder direkt als Steuersignal s verwendet werden kann, als Wert D1 = 1, falls das Audiosignal i ausschließlich aus einer Zentralkomponente C besteht. D1 = 0 ergibt sich, falls das Audiosignal i ausschließlich aus unkorrelierten rechten und linken Signalkomponenten L, R besteht. D = -1 ergibt sich, falls das Audiosignal i ausschließlich aus Surround-Komponenten S besteht. Bei einer Mischung der verschiedenen Komponenten, wie sie bei einem realen Signal gegeben ist, ergeben sich Werte für D1 zwischen -1 und +1. Je näher das Ausgangssignal bzw. der Ausgangswert D1 bei +1 liegt, desto zentral-lastiger ist das Audiosignal i bzw. L', R', so dass auf einen entsprechend großen Sprachanteil px geschlossen werden kann.
  • Die Zeitkonstante des Tiefpassfilters TP kann im Bereich von ca. 100 ms liegen, falls eine sehr schnelle Reaktion auf sich ändernde Signalkomponenten gewünscht ist. Die Zeitkonstante kann jedoch bis zu mehreren Minuten verlängert werden, falls eine sehr langsame Reaktion des Sprachdetektors SD gewünscht ist. Die Zeitkonstante des Tiefpassfilters ist daher ein vorteilhafterweise variabler Parameter. Vor der Durchführung eines Detektionsalgorithmus werden DC-Anteile zweckmäßigerweise mittels eines entsprechenden Filters, insbesondere DC-Kerbfilters (DC-Notch) herausgefiltert. Die weitere Bandbegrenzung ist optional.
  • Fig. 3 zeigt eine weitere beispielhafte Ausführungsform eines Sprachdetektors SD. Nachfolgend werden unter Bezug auf die Beschreibung zu Fig. 2 lediglich diejenigen Komponenten beschrieben, welche sich gegenüber der Schaltungsanordnung bzw. Verfahrensweise gemäß Fig. 2 unterscheiden.
  • Die beiden Ausgangssignale der beiden Bandpassfilter BP werden jeweils einer Energiebestimmungskomponente ABS eines Frequenz-Energie-Detektors Ef zur Bestimmung des Energiegehalts zugeführt. Sprache hat die größte Energie bei Frequenzen zwischen 100 Hz und 4 kHz. Zur Bestimmung des Sprachanteils px kann entsprechend der Anteil der Energie im Sprachfrequenzbereich f1...f2 im Verhältnis zur Gesamtenergie des Audiosignals i bzw. L', R' bestimmt werden.
  • Die Energiebestimmungskomponente ABS für die beiden Eingangssignale bzw. Eingangssignalkanäle ist im einfachsten Fall ein Glied, welches an seinem Ausgang den Betragswert eines am Eingang anliegenden Wertes ausgibt.
  • Entsprechend werden die Ausgangswerte der Energiebestimmungskomponenten ABS miteinander mittels eines Additionsglieds A addiert und wie im Fall der Ausführungsform von Fig. 2 einem ersten Tiefpassfilter TP zugeführt. Außerdem werden die beiden Ausgangssignale der Bandpassfilter BP, welche eine Bandbegrenzung durchgeführt haben, einem weiteren Additionsglied A zugeführt. Dessen Ausgangssignal wird einem Bandpassfilter BP* zugeführt, welcher entsprechend nur diejenigen Signalanteile durchlässt, welche im Sprachfrequenzbereich f1...f2 liegen. Dieses Bandpassgefilterte Signal wird einem zweiten Tiefpassfilter TP zugeführt. Abschließend erfolgt eine Division des Ausgangssignals b des ersten Tiefpassfilters TP durch das Ausgangssignal a des zweiten Tiefpassfilters TP in einem Divisionsglied DIV, um als Ausgangswert bzw. Ausgangssignal D2 das Steuersignal oder eine Vorstufe für das Steuersignal bereitzustellen.
  • Berechnet werden kann das Ausgangssignal D2 durch D 2 = 2 RMS ( B P ( f 1 f 2 ) ( L + R ) ) / ( RMS ( L ) + RMS ( R ) ) .
    Figure imgb0006
    Dabei gilt, je näher der Ausgangswert bzw. das Ausgangssignal D2 sich dem Wert 1 nähert, desto mehr Energie ist im Sprachfrequenzbereich vorhanden, so dass auf einen großen Sprachanteil px geschlossen werden kann. Die einleitende Bandbegrenzung des Eingangssignals L', R' ist wiederum optional.
  • Besonders bevorzugt wird als Steuersignal s oder als Vorstufe dazu ein Ausgangswert bzw. Ausgangssignal D3 verwendet, welches beide Verfahren bzw. Schaltungsanordnungen der beschriebenen Ausführungsformen gemäß Fig. 2 und Fig. 3 berücksichtig. Als Kriterium kann beispielsweise gelten D 3 = D 1 D 2.
    Figure imgb0007
  • Damit wird Sprache bzw. ein Sprachanteil px dann erkannt, wenn mehr Energie in der Zentralkomponente C des Audiosignals vorhanden ist und mehr Energie im Sprachfrequenzbereich vorhanden ist.
  • Optional kann den dargestellten Schaltungsanordnungen bzw. Verfahrensweisen zur Bereitstellung des Steuersignals s noch eine Stufe nachgeschaltet werden, in welcher ein Schwellenwert v festgelegt wird, der von dem Ausgangssignal D1, D2, D3 der beschriebenen Anordnungen bzw. Verfahren zu Überschreiten ist, um das Steuersignal s in einen aktiven Zustand zu schalten.
  • Bei einer parallelen oder nachfolgenden Sprachsignalverarbeitung des Audiosignals i besteht das Ziel darin, möglichst viele Signalanteile, die Sprache bzw. Sprachanteile px enthalten, durch einen Sprachverbesserungsalgorithmus zu leiten und die restlichen Signalanteile unverändert zu lassen, wie dies auch anhand Fig. 1 beschrieben ist. Dies wird vorteilhaft durch eine Matrix gelöst, wie dies anhand Fig. 4 skizziert ist.
  • Matrixkoeffizienten k1, k2,..., k6 werden abhängig von dem bestimmten Sprachanteil px bzw. abhängig von dem vom Sprachdetektor SD ausgegebenen Ausgangswert bzw. Ausgangssignal D1, D2 bestimmt bzw. werden als Funktion px = F(D1, D2) ermittelt.
    Der eigentliche Sprachverbesserungsalgorithmus oder eine eigentliche Sprachverbesserungseinrichtung kann in für sich bekannter Art und Weise bereitgestellt werden. Beispielsweise kann eine in DE 101 24 699 C1, auf welche voll umfänglich Bezug genommen wird, beschriebene einfache Frequenzgangkorrektur durchgeführt werden. Einsetzbar sind aber auch beliebige andere Algorithmen und Einrichtungen zur Verbesserung der Sprachverständlichkeit.
  • Bei der in Fig. 4 dargestellten Matrixberechnung werden die Eingangskomponenten bzw. Eingangskanäle L', R' des Audiosignals i jeweils mit drei Faktoren k1, k3, k5 bzw. k2, k4, k6 multipliziert und Additionsgliedern zugeführt. Dem ersten Additionsglied A wird das Signal des ersten Kanals L' multipliziert mit dem ersten Koeffizienten k1 und das Signal des zweiten Kanals R' multipliziert mit dem zweiten Koeffizienten k2 zur Addition angelegt. Dem zweiten Additionsglied A werden das Signal des ersten Kanals L' multipliziert mit dem dritten Koeffizienten k3 und das Signal des zweiten Kanals R' multipliziert mit dem vierten Koeffizienten k4 zur Addition angelegt. Dem dritten Additionsglied A werden das Signal des ersten Kanals L' multipliziert mit dem fünften Koeffizienten k5 und das Signal des zweiten Kanals R' multipliziert mit dem sechsten Koeffizienten k6 zur Addition angelegt. Der Ausgangswert des zweiten Additionsglieds A wird einer Sprachverbesserungsschaltung VS oder einem Sprachverbesserungsverfahren bzw. Algorithmus zugeführt. Dessen Ausgangsergebnis wird mittels weiterer Additionsglieder A dem Ausgangswert bzw. Ausgangssignal des ersten Additionsglieds A zur Bereitstellung eines ersten Ausgangskanals LE und einem Ausgangswert bzw. Ausgangssignal des dritten Additionsglieds A mittels eines weiteren Additionsglied A zum Bereitstellen eines zweiten Ausgangskanals RE aufaddiert.
  • Für die Bestimmung der Koeffizienten wird beispielsweise berücksichtigt, dass der Sprachanteil px durch die beschriebenen Verfahren durch einen Wertebereich von insbesondere 0 ≤ P ≤ 1 und als Funktion der Bestimmten Sprachanteile mit px = F(D1,D2,D3) bestimmbar ist. Gemäß einer einfachen Variante können die Koeffizienten festgelegt werden gemäß k 1 = k 6 = 1 p x / 2 ,
    Figure imgb0008
    k 2 = K 5 = p x / 2
    Figure imgb0009
    und k 3 = k 4 = p x / 2 .
    Figure imgb0010
  • Die beiden letztendlich ausgegebenen Signalkanäle bzw. Komponenten LE, RE entsprechen den verarbeiteten Signalen, welche dem Ausgang O für das verarbeitete Audiosignal o zugeführt werden.
  • Fig. 5 stellt beispielhaft Funktion F(D1, D2=0, D3=0) dar. Im Fall der ersten dargestellten Funktion F = F1(D1) reagiert die Schaltungsanordnung schon auf einen geringen detektierten Sprachanteil. Die Wahrscheinlichkeit einer Fehldetektion ist für kleine Werte von D1 relativ hoch. Allerdings ist durch den stetigen Verlauf der ersten Funktion F1(D1) die Auswirkung des Sprachalgorithmus bei kleinem D1 auf das Audiosignal relativ gering, so dass eine Beeinträchtigung des Audiosignals kaum wahrgenommen wird.
  • Im Fall einer zweiten Funktion F2(D1) bleibt das Audiosignal vollkommen unbeeinträchtigt bis zu einem Schwellenwert v = Ps2. Danach sind die Auswirkungen auf das Audiosignal bei Änderungen des Werts von P1 umso größer.
  • Im Fall einer dritten Funktion F = F3(D1) wird der Algorithmus beim Überschreiten eines bestimmten Schwellenwerts v = Ps31 eingeschaltet und beim Unterschreiten eines anderen, niedrigeren Schwellenwerts v=Ps32 ausgeschaltet. Durch den Einbau einer solchen Hysterese wird ein ständiges Umschalten im Übergangsbereich verhindert.

Claims (25)

  1. Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache (px) enthaltenden Audiosignalen (i) mit
    - einem Eingang (I) zum Eingeben eines solchen Audiosignals (i),
    gekennzeichnet durch
    - einen Sprachdetektor (SD) zum Detektieren von Sprache (px) in dem eingegebenen Audiosignal (i) und zum Bereitstellen eines Steuersignals (s) zum Steuern einer Sprachverarbeitungseinrichtung (SV) und/oder eines Sprachverarbeitungsverfahrens zum Verarbeiten des Audiosignals (i).
  2. Schaltungsanordnung nach Anspruch 1, bei welcher der Sprachdetektor (SD) zum Detektieren von Sprachanteilen (px) in dem Audiosignal (i) ausgebildet und/oder gesteuert ist.
  3. Schaltungsanordnung nach Anspruch 1 oder 2, bei welcher der Sprachdetektor (SD) eine Schwellenwert-Bestimmungseinrichtung zum Vergleichen eines Umfangs detektierter Sprachanteile mit einem Schwellenwert (v) und zum Ausgeben des Steuersignals (s) abhängig vom Vergleichsergebnis aufweist.
  4. Schaltungsanordnung nach Anspruch 3, bei welcher der Sprachdetektor (SD) einen Steuereingang (IV) zum Eingeben zumindest eines Parameters (v) zum variablen Steuern des Detektierens hinsichtlich eines Umfangs der zu detektierenden Sprachanteile (px) und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile (px) aufweist.
  5. Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD) eine Korrelationseinrichtung (CR) zum Durchführen einer Kreuz- oder einer Autokorrelation des Audiosignals oder von Komponenten des Audiosignals aufweist.
  6. Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD)
    - zum Verarbeiten eines mehrkomponentigen Audiosignals (i), insbesondere Stereo-Audiosignals (L', R'), 3D-Stereo-Audiosignals (L, R, C) und/oder Surround-Audiosignals (L, R, C, S), mit mehreren Audiosignal-Komponenten (L, R, C, S) ausgebildet ist und
    - eine Verarbeitungseinrichtung (CR) zum Detektieren der Sprache anhand eines Vergleichs oder einer Verarbeitung der Komponenten (L, R, C, S) untereinander aufweist.
  7. Schaltungsanordnung nach Anspruch 6, bei welcher der Sprachdetektor (SD) eine Richtungs- und/oder Entfernungsbestimmungseinrichtung zum Bestimmen einer Richtung und/oder Entfernung gemeinsamer Signalanteile der verschiedenen Komponenten (L, R, C, S) aufweist.
  8. Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD) einen Frequenz-Energie-Detektor (Ef) zum Bestimmen einer Signalenergie in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals (i) aufweist.
  9. Schaltungsanordnung nach Anspruch 8 und einem der Ansprüche 5 bis 7, bei welcher de Sprachdetektor (SD) zum Ausgeben des Steuersignals (s) abhängig von Ergebnissen sowohl des Frequenz-Energie-Detektors (Ef) als auch der Korrelationseinrichtung (CR), der Vergleichseinrichtung bzw. der Richtungs- und/oder Entfernungsbestimmungseinrichtung ausgebildet und/oder gesteuert ist.
  10. Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher das Steuersignal (s) zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung (SV) und/oder des Sprachverbesserungsverfahrens abhängig vom Sprachgehalt des Audiosignals (i) ausgebildet und/oder gesteuert ist.
  11. Verfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen (i), bei dem
    - in einem Audiosignal (i) enthaltene Sprache bzw. Sprachanteile (px) detektiert werden und
    - abhängig von dem Ergebnis der Detektion ein Steuersignal (s) für eine Sprachverarbeitungseinrichtung (SV) und/oder ein Sprachverarbeitungsverfahren für eine Sprachverbesserung erzeugt und bereitgestellt wird.
  12. Verfahren nach Anspruch 11, bei welchem das Steuersignal (s) abhängig vom Umfang detektierter Sprachanteile (px) erzeugt wird.
  13. Verfahren nach Anspruch 12, bei welchem der Umfang der detektierten Sprachanteile (px) mit einem Schwellenwert (v) verglichen wird.
  14. Verfahren nach einem der Ansprüche 11 bis 13, bei welchem das Detektieren hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile (px) mittels variabler Parameter (v) einstellbar durchgeführt wird.
  15. Verfahren nach einem der Ansprüche 11 bis 14, bei welchem eine Kreuz- oder Autokorrelation des Audiosignals (i) oder von Komponenten (R, L, C, S) des Audiosignals (i) durchgeführt wird.
  16. Verfahren nach einem der Ansprüche 11 bis 15, bei welchem von einem mehrkomponentigen Audiosignal mit mehreren Audiosignal-Komponenten (R, L, C, S) die Audiosignal-Komponenten untereinander verglichen oder miteinander verarbeitet werden zum Detektieren der Sprache.
  17. Verfahren nach Anspruch 16, bei welchem die Audiosignal-Komponenten (R, L, C, S) hinsichtlich gemeinsamer Sprachanteile in den verschiedenen der Audiosignal-Komponenten verglichen bzw. verarbeitet werden, insbesondere zum Bestimmen einer Richtung und/oder Entfernung der gemeinsamen Signalanteile verglichen bzw. verarbeitet werden.
  18. Verfahren nach einem der Ansprüche 11 bis 17, bei welchem eine Energie des Audiosignals (i) in einem Sprachfrequenzbereich (f1, ..., f2) im Verhältnis zu einer sonstigen Signalenergie des Audiosignals (i) bestimmt wird.
  19. Verfahren nach einem der Ansprüche 11 bis 18, bei welchem das Steuersignal (s) zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung (SV) und/oder des Sprachverbesserungsverfahrens bereitgestellt wird.
  20. Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei ein Frequenzgang mittels eines FIR- oder eines IIR-Filters (FIR: Finite-Impulse-Response, IIR: Infinite-Impulse-Response) bestimmt wird.
  21. Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei Signalanteile des Audiosignals durch eine Matrix getrennt werden.
  22. Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei Matrixkoeffizienten für eine Matrix (MX) über eine vom Sprachanteil (px) abhängige Funktion (P = F(px)) bestimmt werden.
  23. Schaltungsanordnung und/oder Verfahren nach Anspruch 22, wobei die Funktion (P = F(px)) linear und stetig ist.
  24. Schaltungsanordnung und/oder Verfahren nach Anspruch 22, wobei die Funktion (P = F(px)) eine Hysterese besitzt.
  25. Sprachverbesserungs-Schaltungsanordnung oder -verfahren mit einer Schaltungsanordnung und/oder einem Verfahren nach einem der vorstehenden Ansprüche.
EP05019316A 2004-10-08 2005-09-06 Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen Not-in-force EP1647972B1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004049347A DE102004049347A1 (de) 2004-10-08 2004-10-08 Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale

Publications (3)

Publication Number Publication Date
EP1647972A2 true EP1647972A2 (de) 2006-04-19
EP1647972A3 EP1647972A3 (de) 2006-07-12
EP1647972B1 EP1647972B1 (de) 2008-03-26

Family

ID=35812768

Family Applications (1)

Application Number Title Priority Date Filing Date
EP05019316A Not-in-force EP1647972B1 (de) 2004-10-08 2005-09-06 Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen

Country Status (6)

Country Link
US (1) US8005672B2 (de)
EP (1) EP1647972B1 (de)
JP (1) JP2006323336A (de)
KR (1) KR100804881B1 (de)
AT (1) ATE390684T1 (de)
DE (2) DE102004049347A1 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (de) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametrische kombinierte Kodierung von Audio-Quellen
US7970564B2 (en) * 2006-05-02 2011-06-28 Qualcomm Incorporated Enhancement techniques for blind source separation (BSS)
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
KR101349268B1 (ko) * 2007-10-16 2014-01-15 삼성전자주식회사 마이크로폰 어레이를 이용한 음원 거리 측정 장치
WO2009069228A1 (ja) * 2007-11-30 2009-06-04 Pioneer Corporation センターチャンネル定位装置
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
EP2211564B1 (de) * 2009-01-23 2014-09-10 Harman Becker Automotive Systems GmbH Insassenkommunikationssystem
CN102483918B (zh) * 2009-11-06 2014-08-20 株式会社东芝 声音识别装置
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US8959082B2 (en) 2011-10-31 2015-02-17 Elwha Llc Context-sensitive query enrichment
JP5867066B2 (ja) * 2011-12-26 2016-02-24 富士ゼロックス株式会社 音声解析装置
JP2013135325A (ja) * 2011-12-26 2013-07-08 Fuji Xerox Co Ltd 音声解析装置
JP6031761B2 (ja) * 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US10559380B2 (en) 2011-12-30 2020-02-11 Elwha Llc Evidence-based healthcare information management protocols
US10679309B2 (en) 2011-12-30 2020-06-09 Elwha Llc Evidence-based healthcare information management protocols
US20130173298A1 (en) 2011-12-30 2013-07-04 Elwha LLC, a limited liability company of State of Delaware Evidence-based healthcare information management protocols
US10528913B2 (en) 2011-12-30 2020-01-07 Elwha Llc Evidence-based healthcare information management protocols
US10552581B2 (en) 2011-12-30 2020-02-04 Elwha Llc Evidence-based healthcare information management protocols
US10475142B2 (en) 2011-12-30 2019-11-12 Elwha Llc Evidence-based healthcare information management protocols
US10340034B2 (en) 2011-12-30 2019-07-02 Elwha Llc Evidence-based healthcare information management protocols
KR101887983B1 (ko) * 2013-03-07 2018-08-14 애플 인크. 룸 및 프로그램 응답 확성기 시스템
KR101808810B1 (ko) * 2013-11-27 2017-12-14 한국전자통신연구원 음성/무음성 구간 검출 방법 및 장치
US20210201937A1 (en) * 2019-12-31 2021-07-01 Texas Instruments Incorporated Adaptive detection threshold for non-stationary signals in noise
CN111292716A (zh) * 2020-02-13 2020-06-16 百度在线网络技术(北京)有限公司 语音芯片和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479560A (en) 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5553151A (en) 1992-09-11 1996-09-03 Goldberg; Hyman Electroacoustic speech intelligibility enhancement method and apparatus
DE10124699C1 (de) 2001-05-18 2002-12-19 Micronas Gmbh Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4698842A (en) * 1985-07-11 1987-10-06 Electronic Engineering And Manufacturing, Inc. Audio processing system for restoring bass frequencies
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5430826A (en) * 1992-10-13 1995-07-04 Harris Corporation Voice-activated switch
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
GB2303471B (en) * 1995-07-19 2000-03-22 Olympus Optical Co Voice activated recording apparatus
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5774849A (en) * 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
CN1163870C (zh) * 1996-08-02 2004-08-25 松下电器产业株式会社 声音编码装置和方法,声音译码装置,以及声音译码方法
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6230122B1 (en) * 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6381569B1 (en) * 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP4091244B2 (ja) * 2000-11-08 2008-05-28 日産自動車株式会社 音声再生装置
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US6952672B2 (en) * 2001-04-25 2005-10-04 International Business Machines Corporation Audio source position detection and audio adjustment
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US7158933B2 (en) * 2001-05-11 2007-01-02 Siemens Corporate Research, Inc. Multi-channel speech enhancement system and method based on psychoacoustic masking effects
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
JP2005502247A (ja) * 2001-09-06 2005-01-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
US7167568B2 (en) * 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
US20040078199A1 (en) * 2002-08-20 2004-04-22 Hanoh Kremer Method for auditory based noise reduction and an apparatus for auditory based noise reduction
US7372848B2 (en) * 2002-10-11 2008-05-13 Agilent Technologies, Inc. Dynamically controlled packet filtering with correlation to signaling protocols
US7174022B1 (en) * 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
US7716044B2 (en) * 2003-02-07 2010-05-11 Nippon Telegraph And Telephone Corporation Sound collecting method and sound collecting device
JP4480335B2 (ja) 2003-03-03 2010-06-16 パイオニア株式会社 複数チャンネル音声信号の処理回路、処理プログラム及び再生装置
US7343284B1 (en) * 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
KR200434705Y1 (ko) 2006-09-28 2006-12-26 김학무 절첩이 용이한 화판 이젤

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5553151A (en) 1992-09-11 1996-09-03 Goldberg; Hyman Electroacoustic speech intelligibility enhancement method and apparatus
US5479560A (en) 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
DE10124699C1 (de) 2001-05-18 2002-12-19 Micronas Gmbh Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen

Also Published As

Publication number Publication date
US8005672B2 (en) 2011-08-23
EP1647972B1 (de) 2008-03-26
JP2006323336A (ja) 2006-11-30
KR20060052101A (ko) 2006-05-19
EP1647972A3 (de) 2006-07-12
KR100804881B1 (ko) 2008-02-20
DE502005003436D1 (de) 2008-05-08
ATE390684T1 (de) 2008-04-15
DE102004049347A1 (de) 2006-04-20
US20060080089A1 (en) 2006-04-13

Similar Documents

Publication Publication Date Title
EP1647972B1 (de) Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69915711T2 (de) Verfahren und signalprozessor zur verstärkung von sprachsignal-komponenten in einem hörhilfegerät
DE112009000805B4 (de) Rauschreduktion
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
EP1470735B1 (de) Verfahren zur bestimmung einer akustischen umgebungssituation, anwendung des verfahrens und ein hörhilfegerät
EP1453194A2 (de) Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
DE19703228A1 (de) Verfahren zur Verstärkung von Eingangssignalen eines Hörgerätes sowie Schaltung zur Durchführung des Verfahrens
WO1999023642A1 (de) Verfahren zur reduktion von störungen akustischer signale mittels der adaptiven filter-methode der spektralen subtraktion
DE3222495A1 (de) Selbsttaetige lautstaerke-regelvorrichtung
EP1919257A2 (de) Pegelabhängige Geräuschreduktion
DE102015207706B3 (de) Verfahren zur frequenzabhängigen Rauschunterdrückung eines Eingangssignals
EP1247425A2 (de) Verfahren zum betrieb eines hörgerätes und ein hörgerät
WO2002093557A1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
EP1101390B1 (de) Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe
EP1453355B1 (de) Signalverarbeitung in einem Hörgerät
WO2001047335A2 (de) Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät
EP1052881B1 (de) Hörhilfsgerät mit Oszillationsdetektor sowie Verfahren zur Feststellung von Oszillationen in einem Hörhilfsgerät
EP1755110A2 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
EP1212751B1 (de) Verfahren zur unterdrückung von störrauschen in einem signalfeld
EP2548382A1 (de) Verfahren zum test von hörhilfegeräten
EP1130577B1 (de) Verfahren zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen
DE10137685C1 (de) Verfahren zum Erkennen des Vorliegens von Sprachsignalen
EP2394271B1 (de) Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR MK YU

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR MK YU

17P Request for examination filed

Effective date: 20060802

17Q First examination report despatched

Effective date: 20060901

AKX Designation fees paid

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 502005003436

Country of ref document: DE

Date of ref document: 20080508

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080626

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080707

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080901

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080726

ET Fr: translation filed
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20081230

BERE Be: lapsed

Owner name: MICRONAS G.M.B.H.

Effective date: 20080930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080626

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080906

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080906

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080927

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

REG Reference to a national code

Ref country code: NL

Ref legal event code: SD

Effective date: 20101011

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090930

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080627

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090930

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20101125 AND 20101201

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 502005003436

Country of ref document: DE

Owner name: ENTROPIC COMMUNICATIONS, INC., US

Free format text: FORMER OWNER: MICRONAS GMBH, 79108 FREIBURG, DE

Effective date: 20110210

REG Reference to a national code

Ref country code: DE

Ref legal event code: R084

Ref document number: 502005003436

Country of ref document: DE

Effective date: 20110426

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502005003436

Country of ref document: DE

Representative=s name: EPPING HERMANN FISCHER, PATENTANWALTSGESELLSCH, DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20120925

Year of fee payment: 8

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502005003436

Country of ref document: DE

Representative=s name: EPPING HERMANN FISCHER, PATENTANWALTSGESELLSCH, DE

Effective date: 20121023

Ref country code: DE

Ref legal event code: R081

Ref document number: 502005003436

Country of ref document: DE

Owner name: ENTROPIC COMMUNICATIONS, INC., US

Free format text: FORMER OWNER: TRIDENT MICROSYSTEMS (FAR EAST) LTD., GRAND CAYMAN, KY

Effective date: 20121023

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20120927

Year of fee payment: 8

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20120924

Year of fee payment: 8

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20130919

Year of fee payment: 9

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20131107 AND 20131113

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

Owner name: ENTROPIC COMMUNICATIONS, INC., US

Effective date: 20131119

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20130923

Year of fee payment: 9

REG Reference to a national code

Ref country code: NL

Ref legal event code: V1

Effective date: 20140401

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20130906

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 502005003436

Country of ref document: DE

Effective date: 20140401

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130906

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140401

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140401

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20150529

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140906

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140930