EP1647972A2

EP1647972A2 - Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen

Info

Publication number: EP1647972A2
Application number: EP05019316A
Authority: EP
Inventors: Matthias Vierthaler; Florian Pfister; Dieter Lücking; Stefan Müller
Original assignee: TDK Micronas GmbH
Current assignee: TDK Micronas GmbH
Priority date: 2004-10-08
Filing date: 2005-09-06
Publication date: 2006-04-19
Anticipated expiration: 2025-09-06
Also published as: KR20060052101A; US8005672B2; US20060080089A1; EP1647972A3; JP2006323336A; DE102004049347A1; ATE390684T1; EP1647972B1; KR100804881B1; DE502005003436D1

Abstract

Die Erfindung bezieht sich auf eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache (px) enthaltenden Audiosignalen (i) mit einem Eingang (I) zum Eingeben eines solchen Audiosignals (i). Vorteilhaft wird die Schaltungsanordnung durch einen Sprachdetektor (SD) zum Detektieren von Sprache (px) in dem eingegebenen Audiosignal (i) und zum Bereitstellen eines Steuersignals (s) zum Steuern einer Sprachverarbeitungseinrichtung (SV) und/oder eines Sprachverarbeitungsverfahrens zum Verarbeiten des Audiosignals (i). Vorteilhaft ist entsprechend ein Verfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen (i), bei dem in einem Audiosignal (i) enthaltene Sprache bzw. Sprachanteile (px) detektiert werden und abhängig von dem Ergebnis der Detektion ein Steuersignal (s) für eine Sprachverarbeitungseinrichtung (SV) und/oder ein Sprachverarbeitungsverfahren für eine Sprachverbesserung erzeugt und bereitgestellt wird.

Description

Die Erfindung bezieht sich auf eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen mit den oberbegrifflichen Merkmalen des Patentanspruchs 1 bzw. auf ein Verfahren zur Verarbeitung von Sprache enthaltenden Audiosignalen.
Aus DE 101 24 699 C1 ist eine Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen bekannt, bei welcher Frequenz- und/oder Amplitudenanteile des Audiosignals nach vorgegebenen Parametern verändert werden. Dabei wird das Audiosignal in einer Verarbeitungsstrecke um einen vorgegebenen Faktor verstärkt sowie in einen Hochpass geführt, wobei eine Eckfrequenz des Hochpasses so regelbar ist, dass die Amplitude des Audiosignals nach der Verarbeitungsstrecke gleich oder proportional der Amplitude des Audiosignals vor der Verarbeitungsstrecke ist. Mit dieser Schaltungsanordnung soll die Grundwelle des Sprachsignals, welche relativ wenig zur Verständlichkeit der enthaltenen Sprachanteile beiträgt, aber die größte Energie besitzt, abgeschwächt werden, wobei das übrige Signalspektrum des Audiosignals entsprechend angehoben wird. Außerdem kann die Amplitude der Vokale, welche eine große Amplitude bei tiefer Frequenz aufweisen, im Übergangsbereich von einem Konsonanten, der eine kleine Amplitude bei großer Frequenz aufweist, zu einem Vokal abgesenkt werden, um ein sogenanntes "backward masking" zu verringern. Dazu wird das gesamte Signal um den Faktor angehoben. Letztendlich werden hochfrequente Anteile angehoben und die tieffrequente Grundwelle wird im gleichen Maße abgesenkt, so dass die Amplitude oder Energie des Audiosignals unverändert bleibt.
US 5,553,151 beschreibt ein "forward masking". Dabei werden schwache Konsonanten durch vorhergehende starke Vokale zeitlich überdeckt. Vorgeschlagen wird ein verhältnismäßig schneller Kompressor mit einer "attack time" von ca. 10 msec und einer "release time" von ca. 75 bis 150 msec.
Aus US 5,479,560 ist bekannt, ein Audiosignal in mehrere Frequenzbänder aufzuteilen und diejenigen Frequenzbänder mit großer Energie verhältnismäßig stark zu verstärken und die anderen abzusenken. Dies wird vorgeschlagen, weil Sprache aus einer Aneinanderreihung von Phonemen besteht. Phoneme bestehen aus einer Vielzahl von Frequenzen. Diese werden im Bereich der Resonanzfrequenzen des Mund- und Rachenraums besonders verstärkt. Ein Frequenzband mit solch einem spektralen Spitzenwert wird Formant genannt. Formants sind besonders wichtig zur Erkennung von Phonemen und somit Sprache. Ein Ansatz zur Verbesserung der Sprachverständlichkeit besteht darin, die Spitzenwerte bzw. Formants des Frequenzspektrums eines Audiosignals zu verstärken und die dazwischen liegenden Fehler abzuschwächen. Für einen erwachsenen Mann liegt die Grundfrequenz der Sprache bei etwa 60 bis 250 Hz. Die ersten vier zugeordneten Formants liegen bei 500 Hz, 1500 Hz, 2500 Hz und 3500 Hz.
Derartige Schaltungsanordnungen und Verfahrensweisen machen in einem Audiosignal enthaltene Sprache gegenüber weiteren im Audiosignal enthaltenen Komponenten verständlicher. Gleichzeitig werden aber auch nicht Sprache enthaltende Signalanteile verändert bzw. verfälscht. Nachteilhaft ist bei den Verfahren bzw. Schaltungsanordnungen auch, dass diese jeweils starr vorgegebene Sprachanteile, Frequenzanteile oder dergleichen kontinuierlich verbessern bzw. verarbeiten. Dadurch werden nicht Sprache enthaltende Signalanteile auch zu Zeiten verändert bzw. verfälscht, zu denen das Audiosignal keine Sprache bzw. Sprachanteile enthält.
Die Aufgabe der Erfindung besteht darin, eine Schaltungsanordnung bzw. ein Verfahren zur Verarbeitung von Sprache enthaltenden Audiosignalen zu verbessern.
Diese Aufgabe wird durch eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache enthaltenden Audiosignalen mit den Merkmalen des Patentanspruchs 1 bzw. durch ein Verfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen mit den Merkmalen des Patentanspruchs 11 gelöst.
Vorteilhaft ist entsprechend eine Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache enthaltenden Audiosignalen mit einem Eingang zum Eingeben eines solchen Audiosignals. Vorteilhaft wird die Schaltungsanordnung durch einen Sprachdetektor zum Detektieren von Sprache in dem eingegebenen Audiosignal und zum Bereitstellen eines Steuersignals zum Steuern einer Sprachverarbeitungseinrichtung und/oder eines Sprachverarbeitungsverfahrens zum Verarbeiten des Audiosignals.
Vorteilhaft ist einVerfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen, bei dem in einem Audiosignal enthaltene Sprache bzw. Sprachanteile detektiert werden und abhängig von dem Ergebnis der Detektion ein Steuersignal für eine Sprachverarbeitungseinrichtung und/oder ein Sprachverarbeitungsverfahren für eine Sprachverbesserung erzeugt und bereitgestellt wird.
Die Schaltungsanordnung bzw. das Verfahren sind somit als eine Vorstufe zu einer eigentlichen Signalverarbeitung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen anzusehen. Das empfangene bzw. eingegebene Audiosignal wird demgemäß zuerst daraufhin untersucht, ob überhaupt Sprache bzw. Sprachanteile in dem Audiosignal enthalten sind. Abhängig von dem Ergebnis der Sprachdetektion wird dann ein Steuersignal ausgegeben, welches von einer eigentlichen Sprachverarbeitungseinrichtung bzw. einem eigentlichen Sprachverarbeitungsverfahren als Steuersignal verwendet wird. Dadurch wird ermöglicht, dass bei der Sprachverarbeitung zur Verbesserung der Sprachanteile im Audiosignal relativ zu anderen Signalanteilen im Audiosignal nur dann eine Verarbeitung bzw. Veränderung des Audiosignals durchgeführt wird, wenn auch tatsächlich Sprache oder Sprachanteile enthalten sind.
Entsprechend wird durch die Schaltungsanordnung bzw. durch das Verfahren ein Steuersignal bereitgestellt bzw. ausgegeben, welches für die eigentliche Sprachverbesserung z. B. als ein Triggersignal verwendet wird. Dadurch kann die Sprachverbesserung mittels Detektion bzw. Analyse eines vorherigen Audiosignals oder desgleichen, ggf. eines zeitverzögerten Audiosignals durchgeführt werden.
Die Schaltungsanordnung, welche das Steuersignal erzeugt und bereitstellt, kann als eigenständige bauliche Komponente bereitgestellt werden, kann aber auch Bestandteil einer einzigen baulichen Komponente mit der Sprachverarbeitungseinrichtung bzw. Sprachverbesserungseinrichtung sein. Insbesondere können die Schaltungsanordnung zur Detektion von Sprache und die Sprachverarbeitungseinrichtung zur Verbesserung der Sprachanteile des Audiosignals Bestandteil einer integrierten Schaltungsanordnung sein. Entsprechend können auch das Verfahren zum Detektieren von Sprache und das Sprachverarbeitungsverfahren zum Verbessern von Sprachkomponenten in dem Audiosignal getrennt voneinander durchgeführt werden. Besonders bevorzugt wird jedoch ein gemeinsames Verfahren, welches mittels technischer Komponenten einer Schaltungsanordnung oder mittels eines entsprechend ablaufenden Algorithmus in einer Berechnungseinrichtung durchgeführt wird.
Vorteilhafte Ausgestaltungen sind Gegenstand abhängiger Ansprüche.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Detektieren von Sprachanteilen in dem Audiosignal ausgebildet und/oder gesteuert ist.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Schwellenwert-Bestimmungseinrichtung zum Vergleichen eines Umfangs detektierter Sprachanteile mit einem Schwellenwert und zum Ausgeben des Steuersignals abhängig vom Vergleichsergebnis aufweist.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor einen Steuereingang zum Eingeben zumindest eines Parameters zum variablen Steuern des Detektierens hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile aufweist.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Korrelationseinrichtung zum Durchführen einer Kreuz- oder einer Autokorrelation des Audiosignals oder von Komponenten des Audiosignals aufweist.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Verarbeiten eines mehrkomponentigen Audiosignals, insbesondere Stereo-Audiosignals oder Multikannal-Audiosignals, mit mehreren Audiosignal-Komponenten ausgebildet ist und als eine Verarbeitungseinrichtung zum Detektieren der Sprache anhand eines Vergleichs oder einer Verarbeitung der Komponenten untereinander ausgebildet oder gesteuert ist.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor eine Richtungsbestimmungseinrichtung zum Bestimmen einer Richtung gemeinsamer Signalanteile der verschiedenen Komponenten aufweist.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor einen Frequenz-Energie-Detektor zum Bestimmen einer Signalenergie in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals aufweist.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher der Sprachdetektor zum Ausgeben des Steuersignals abhängig von Ergebnissen sowohl des Frequenz-Energie-Detektors als auch der Korrelationseinrichtung, der Vergleichseinrichtung bzw. der Richtungsbestimmungseinrichtung ausgebildet und/oder gesteuert ist.
Bevorzugt wird insbesondere eine Schaltungsanordnung, bei welcher das Steuersignal zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung und/oder des Sprachverbesserungsverfahrens abhängig vom Sprachgehalt des Audiosignals ausgebildet und/oder gesteuert ist.
Bevorzugt wird insbesondere ein Verfahren, bei welchem das Steuersignal abhängig vom Umfang detektierter Sprachanteile erzeugt wird.
Bevorzugt wird insbesondere ein Verfahren, bei welchem der Umfang der detektierten Sprachanteile mit einem Schwellenwert verglichen wird.
Bevorzugt wird insbesondere ein Verfahren, bei welchem das Detektieren hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile mittels variabler Parameter einstellbar durchgeführt wird.
Bevorzugt wird insbesondere ein Verfahren, bei welchem eine Kreuz- oder Autokorrelation des Audiosignals oder von Komponenten des Audiosignals durchgeführt wird.
Bevorzugt wird insbesondere ein Verfahren, bei welchem von einem mehrkomponentigen Audiosignal mit mehreren Audiosignal-Komponenten die Audiosignal-Komponenten untereinander verglichen oder miteinander verarbeitet werden zum Detektieren der Sprache. Unter Komponenten sind dabei Signalanteile aus verschiedenen Entfernungen und Richtungen und/oder Signale verschiedener Kanäle zu verstehen.
Bevorzugt wird insbesondere ein Verfahren, bei welchem die Audiosignal-Komponenten hinsichtlich gemeinsamer Sprachanteile in den verschiedenen der Audiosignal-Komponenten verglichen bzw. verarbeitet werden, insbesondere zum Bestimmen einer Richtung der gemeinsamen Signalanteile verglichen bzw. verarbeitet werden. Anhand unterschiedlicher Eintreffzeiten auf beispielsweise dem rechten und dem linken Kanal eines Stereosignals sowie anhand spezifischer Dämpfungen spezieller Frequenzen kann die Entfernung und Richtung des Sprachanteils bestimmt werden. Dadurch ist eine Anwendung der Sprachverbesserung insbesondere nur auf Sprachanteile anwendbar, welche als von einer Person, die dicht am Mikrophon steht, stammend erkannt werden. Signalanteile bzw. Sprachanteile von entfernteren Personen können dadurch ignoriert werden, so dass eine Sprachverbesserung nur dann aktiviert wird, wenn tatsächlich eine nahestehende Person spricht.
Bevorzugt wird insbesondere ein Verfahren, bei welchem eine Energie des Audiosignals in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals bestimmt wird. Abgestellt wird dabei somit auf die Energie von Frequenzanteilen, welche für gesprochene Sprache typisch sind. Neben einer individuellen Abstimmung auf bedarfsweise beispielsweise eine männliche, eine weibliche oder eine kindliche Sprache als Kriterium für den zu wählenden Sprachfrequenzbereich wird der Vergleich der entsprechenden Energie vorzugsweise mit der Energie von den übrigen Signalanteilen des Audiosignals mit anderen Frequenzen oder mit dem Energiegehalt des gesamten Audiosignalanteils durchgeführt. Insbesondere Sprache von entfernt stehend sprechenden Personen, welche somit im Zweifelsfall für den Hörer nicht von Interesse ist, kann erkannt werden und zu einer Deaktivierung der Sprachverbesserung führen, wenn keine nahe stehende Person spricht.
Bevorzugt wird insbesondere ein Verfahren, bei welchem das Steuersignal zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung und/oder des Sprachverbesserungsverfahrens bereitgestellt wird.
Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei ein Frequenzgang mittels eines FIR- oder eines IIR-Filters (FIR: Finite-Impulse-Response, IIR: Infinite-Impulse-Response) bestimmt wird.
Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei Signalanteile des Audiosignals durch eine Matrix getrennt werden.
Bevorzugt wird insbesondere eine Schaltungsanordnung und/oder ein Verfahren, wobei Matrixkoeffizienten für eine Matrix über eine vom Sprachanteil abhängige Funktion bestimmt werden. Dabei ist die Funktion linear und stetig. Alternativ oder zusätzlich besitzt die Funktion eine Hysterese.
Die Signalanteile mit Sprachanteilen des Audiosignals können hinsichtlich verschiedener Kriterien analysiert und detektiert werden. Neben einer beispielsweise Mindestdauer, über welche Sprache als Sprachanteil erfasst wird, kann z.B. als Signalanteil auch auf die Frequenz erfassbarer Sprache und/oder die Richtung einer Sprachquelle erfasster Sprache abgestellt werden. Die Begriffe Signalanteile und Sprachanteile sind daher allgemein und nicht beschränkend auszulegen.
Die Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Es zeigen:

Fig. 1: schematisch Verfahrensschritte bzw. Komponenten eines Verfahrens bzw. einer Schaltungsanordnung zum Verarbeiten eines Audiosignals zur Detektion von darin enthaltener Sprache;
Fig. 2: eine beispielhafte Schaltungsanordnung gemäß einer ersten Ausführungsform zur Anwendung einer Korrelation auf Sprachanteile verschiedener Signalkomponenten;
Fig. 3: eine weiter beispielhafte Schaltungsanordnung zur Veranschaulichung einer Bestimmung von Energie in einem Sprachfrequenzbereich;
Fig. 4: eine beispielhafte Schaltungsanordnung zur Darstellung einer Matrixberechnung vor einer Durchführung einer Sprachverbesserung des Audiosignals; und
Fig. 5: ein Diagramm zur Veranschaulichung von Kriterien zur Festlegung eines Schwellenwerts.

Fig. 1 zeigt beispielhaft schematisch den Ablauf eines Verfahrens zum Detektieren von Sprache und/oder Sprachanteilen px in einem Audiosignal i zur optionalen nachfolgenden oder parallelen Sprachverbesserung der Sprache bzw. der Sprachanteile px, sofern solche detektiert werden, in dem Audiosignal i. Über einen Eingang I einer Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache oder Sprachanteilen px enthaltenden Audiosignalen i wird ein Audiosignal i eingegeben. Bei dem Audiosignal i kann es sich je nach Anwendungsfall um ein einkanaliges Monosignal handeln. Bevorzugt werden jedoch mehrkomponentige Audiosignale i einer Stereo-Audiosignalquelle oder dergleichen, d.h. ein Stereo-Audiosignal, ein 3D-Stereo-Audiosignal mit zusätzlicher Zentralkomponente oder ein Surround-Audiosignal mit derzeit üblicherweise fünf Komponenten für Audiosignal-Komponenten von rechts, links, der Mitte sowie von z. B. zwei entfernten Quellen rechts und links.
Das Audiosignal i wird einer ersten baulichen oder logischen Komponente, welche einen Sprachdetektor SD ausbildet, zugeführt. In dem Sprachdetektor SD wird untersucht, ob in dem Audiosignal i Sprache bzw. ein Sprachanteil px enthalten ist. Gemäß bevorzugter Ausführungsformen wird dabei geprüft, ob detektierte Sprache bzw. Sprachanteile px größer sind als ein entsprechend vorgegebener Schwellenwert v. Optional sind Detektionsparameter, insbesondere der Schwellenwert v bedarfsweise anpassbar. Diesbezüglich weist die dargestellte Anordnung einen Eingang IV zum Eingeben des Schwellenwerts v auf.
Ergibt die Detektion, dass ein ausreichender Sprachanteil px in dem Audiosignal i enthalten ist, so wird ein Steuersignal beispielsweise auf den Wert 0 gesetzt. Andernfalls wird das Steuersignal auf beispielsweise den Wert 1 gesetzt. Das Steuersignal s wird von dem Sprachdetektor SD zur weiteren Verwendung durch eine Sprachverarbeitungseinrichtung bzw. ein Sprachverarbeitungsverfahren ausgegeben.
Falls das Steuersignal s einen Sprachanteil px signalisiert, d. h. falls im vorliegenden Fall s = 0 gilt, wird die Sprache bzw. Sprachanteile px verbessernde Sprachverarbeitung aktiviert. Das momentan in die Sprachverarbeitung eingegebene Audiosignal i wird entsprechend für sich bekannter Verfahren bzw. mit einer ansonsten für sich bekannten Schaltungsanordnung verbessert. An einem Ausgang O wird entsprechend ein hinsichtlich der Sprachanteile verbessertes Audiosignal o ausgegeben.
Falls bei dem Detektionsschritt kein ausreichender Sprachanteil px erfasst wird, d.h., falls s = 1 gilt, wird das in die Sprachverarbeitung SV eingegebene Audiosignal i belassen, d.h., unverändert als Audiosignal o ausgegeben.
Sofern durch die Sprachdetektion eine zeitliche Verzögerung des an der Sprachverarbeitung anliegenden Steuersignals s relativ zu dem momentan anliegenden Audiosignal i vorliegt, kann optional eine Verzögerung des in die Schaltungsanordnung bzw. das Verfahren eingegebenen Audiosignals i entsprechend der zeitlichen Verzögerung bei der Sprachdetektion vorgenommen werden.
Ermöglicht wird somit eine Schaltungsanordnung bzw. ein Verfahren oder Algorithmus, welche eine Sprachverbesserung nur auf Teile des Audiosignals anwenden lassen, welche tatsächlich Sprache enthalten oder welche tatsächlich einen bestimmten Sprachanteil im Audiosignal enthalten. Durch die Sprachdetektion wird somit Sprache detektiert bzw. vom restlichen Signal getrennt.
In der Realität wird sich Sprache von anderen Signalanteilen eines Audiosignals mathematisch nicht genau trennen lassen. Ziel ist somit, einen möglichst guten Schätzwert zu liefern. Sofern Algorithmen bzw. Schaltungsanordnungen nachfolgend aufgeführter Ausführungsformen sich durch entsprechende andere Signalanteile in die Irre führen lassen, wird gemäß erster Versuche trotzdem eine vorteilhafte Verbesserung eines ausgegebenen Audiosignals erzielt. Vorteilhaft ist dazu, darauf zu achten, dass das Audiosignal i auch bei einer Fehldetektion im Sprachdetektor SD nicht zu sehr verfälscht wird.
Fig. 2 zeigt eine erste Ausführungsvariante eines Sprachdetektors SD. Der Eingang besteht aus zwei individuellen Eingängen für jeweils eine Audiosignal-Komponente bzw. einen Audiosignal-Kanal L', R' eines Stereo-Audiosignals. Die beiden Audiosignal-Komponenten R', L' werden jeweils einem Bandpassfilter BP zur Bandbegrenzung zugeführt. Die Ausgangssignale der beiden Bandpassfilter BP werden einer Korrelationseinrichtung CR zum Durchführen einer Kreuzkorrelation zugeführt. Jedes der beiden von den Bandpassfiltern BP ausgegebenen Signale wird jeweils in einem Multiplikator M mit sich selber multipliziert, d. h. quadriert, und dann einem Additionsglied A zugeführt. Nach der Addition erfolgt optional in einem weiteren Multiplikator M* eine Multiplikation mit dem Faktor 0,5, um die Amplitude zu reduzieren. Das Ausgangssignal i der gegebenenfalls multiplizierten Additionswerte wird einem ersten bzw. zweiten Tiefpassfilter TP zugeführt.
Außerdem wird jedes der Ausgangssignale der beiden Bandpassfilter BP einer eigentlichen Schaltung zur Durchführung der Korrelation unter Einsatz insbesondere eines weiteren Multiplikators M zugeführt. Das davon ausgegebene Korrelationssignal L,* R' wird einem zweiten Tiefpassfilter TP zugeführt.
Die Ausgangssignale b, a des ersten Tiefpassfilters TP und des zweiten Tiefpassfilters TP werden einem Divisionsglied DIV zur Division des Ausgangssignals b des ersten Tiefpassfilters TP von dem Ausgangssignal a des zweiten Tiefpassfilters TP zugeführt. Das Divisionsergebnis des Divisionsglieds DIV wird als Steuersignals bzw. als Vorstufe D1 für das Steuersignal s bereitgestellt.
Mit einer solchen Schaltungsanordnung oder einem entsprechenden Verarbeitungsverfahren wird eine Kreuzkorrelation durchgeführt. Ein übliches Stereo-Audiosignal L', R' setzt sich als Audiosignal i in der Regel aus mehreren Audiosignal-Komponenten R, L, C, S zusammen. Im Fall eines Multikannal-Audiosignals können diese Komponenten auch separat bereitgestellt werden.
Im Fall eines Stereo-Audiosignals L', R' sind die beiden Audiosignal-Kanäle L', R' beschreibbar durch $a : L^{'} = L + C + S bzw .$
$b : R^{'} = R + C - S,$
wobei L für eine linke Signalkomponente steht, C für eine zentral von vorne kommende Signalkomponente steht, S für eine Surround-Signalkomponente, d.h, ein rückwärtiges Signalund R für eine rechte Signalkomponente steht.
Sprache bzw. Sprachanteile px befinden sich hauptsächlich auf dem zentralen Kanal bzw. in der Zentralkomponente C. Diese Tatsache kann benutzt werden, um den Anteil von Sprache bzw. Sprachanteilen px zum restlichen Signalgehalt des Audiosignals i zu detektieren. Bestimmt werden kann die enthaltene Sprache bzw. der enthaltene Sprachanteil px im Verhältnis zu den restlichen Signalanteilen des Audiosignals i gemäß $p x = 2 * RMS (C) / ((RMS / L^{'}) + RMS (R^{'}))$
mit RMS als der zeitlich gemittelten Amplitude.
Durch eine Kreuzkorrelation lässt sich der Anteil der Zentralkomponente C bestimmen durch $L^{'} * R^{'} = 2 * L * R + L * C + R * C - L * S + R * S + C * C - S * S .$
Im zeitlichen Mittel werden für DC-freie Signale, d. h. für Signalkomponenten ohne einen Gleichspannungsanteil alle nicht korrelierten Produkte zu 0. Damit kann als Kriterium für das von dem Sprachdetektor SD ausgegebene Signal D1 gelten: $D 1 = 2 * T P (L^{'} * R^{'}) / (L^{'} * L^{'} + R^{'} * R^{'}) = 2 * T P (C * C - S * S) / T P (L^{'} * L^{'} + R^{'} * R^{'}) .$
Damit ergibt sich für das Ausgangssignal D1, welches als Vorstufe zu dem Steuersignal s oder direkt als Steuersignal s verwendet werden kann, als Wert D1 = 1, falls das Audiosignal i ausschließlich aus einer Zentralkomponente C besteht. D1 = 0 ergibt sich, falls das Audiosignal i ausschließlich aus unkorrelierten rechten und linken Signalkomponenten L, R besteht. D = -1 ergibt sich, falls das Audiosignal i ausschließlich aus Surround-Komponenten S besteht. Bei einer Mischung der verschiedenen Komponenten, wie sie bei einem realen Signal gegeben ist, ergeben sich Werte für D1 zwischen -1 und +1. Je näher das Ausgangssignal bzw. der Ausgangswert D1 bei +1 liegt, desto zentral-lastiger ist das Audiosignal i bzw. L', R', so dass auf einen entsprechend großen Sprachanteil px geschlossen werden kann.
Die Zeitkonstante des Tiefpassfilters TP kann im Bereich von ca. 100 ms liegen, falls eine sehr schnelle Reaktion auf sich ändernde Signalkomponenten gewünscht ist. Die Zeitkonstante kann jedoch bis zu mehreren Minuten verlängert werden, falls eine sehr langsame Reaktion des Sprachdetektors SD gewünscht ist. Die Zeitkonstante des Tiefpassfilters ist daher ein vorteilhafterweise variabler Parameter. Vor der Durchführung eines Detektionsalgorithmus werden DC-Anteile zweckmäßigerweise mittels eines entsprechenden Filters, insbesondere DC-Kerbfilters (DC-Notch) herausgefiltert. Die weitere Bandbegrenzung ist optional.
Fig. 3 zeigt eine weitere beispielhafte Ausführungsform eines Sprachdetektors SD. Nachfolgend werden unter Bezug auf die Beschreibung zu Fig. 2 lediglich diejenigen Komponenten beschrieben, welche sich gegenüber der Schaltungsanordnung bzw. Verfahrensweise gemäß Fig. 2 unterscheiden.
Die beiden Ausgangssignale der beiden Bandpassfilter BP werden jeweils einer Energiebestimmungskomponente ABS eines Frequenz-Energie-Detektors Ef zur Bestimmung des Energiegehalts zugeführt. Sprache hat die größte Energie bei Frequenzen zwischen 100 Hz und 4 kHz. Zur Bestimmung des Sprachanteils px kann entsprechend der Anteil der Energie im Sprachfrequenzbereich f1...f2 im Verhältnis zur Gesamtenergie des Audiosignals i bzw. L', R' bestimmt werden.
Die Energiebestimmungskomponente ABS für die beiden Eingangssignale bzw. Eingangssignalkanäle ist im einfachsten Fall ein Glied, welches an seinem Ausgang den Betragswert eines am Eingang anliegenden Wertes ausgibt.
Entsprechend werden die Ausgangswerte der Energiebestimmungskomponenten ABS miteinander mittels eines Additionsglieds A addiert und wie im Fall der Ausführungsform von Fig. 2 einem ersten Tiefpassfilter TP zugeführt. Außerdem werden die beiden Ausgangssignale der Bandpassfilter BP, welche eine Bandbegrenzung durchgeführt haben, einem weiteren Additionsglied A zugeführt. Dessen Ausgangssignal wird einem Bandpassfilter BP* zugeführt, welcher entsprechend nur diejenigen Signalanteile durchlässt, welche im Sprachfrequenzbereich f1...f2 liegen. Dieses Bandpassgefilterte Signal wird einem zweiten Tiefpassfilter TP zugeführt. Abschließend erfolgt eine Division des Ausgangssignals b des ersten Tiefpassfilters TP durch das Ausgangssignal a des zweiten Tiefpassfilters TP in einem Divisionsglied DIV, um als Ausgangswert bzw. Ausgangssignal D2 das Steuersignal oder eine Vorstufe für das Steuersignal bereitzustellen.
Berechnet werden kann das Ausgangssignal D2 durch $D 2 = 2 * RMS (B P (f 1 \dots f 2) (L^{'} + R^{'})) / (RMS (L^{'}) + RMS (R^{'})) .$
Dabei gilt, je näher der Ausgangswert bzw. das Ausgangssignal D2 sich dem Wert 1 nähert, desto mehr Energie ist im Sprachfrequenzbereich vorhanden, so dass auf einen großen Sprachanteil px geschlossen werden kann. Die einleitende Bandbegrenzung des Eingangssignals L', R' ist wiederum optional.
Besonders bevorzugt wird als Steuersignal s oder als Vorstufe dazu ein Ausgangswert bzw. Ausgangssignal D3 verwendet, welches beide Verfahren bzw. Schaltungsanordnungen der beschriebenen Ausführungsformen gemäß Fig. 2 und Fig. 3 berücksichtig. Als Kriterium kann beispielsweise gelten $D 3 = D 1 * D 2.$
Damit wird Sprache bzw. ein Sprachanteil px dann erkannt, wenn mehr Energie in der Zentralkomponente C des Audiosignals vorhanden ist und mehr Energie im Sprachfrequenzbereich vorhanden ist.
Optional kann den dargestellten Schaltungsanordnungen bzw. Verfahrensweisen zur Bereitstellung des Steuersignals s noch eine Stufe nachgeschaltet werden, in welcher ein Schwellenwert v festgelegt wird, der von dem Ausgangssignal D1, D2, D3 der beschriebenen Anordnungen bzw. Verfahren zu Überschreiten ist, um das Steuersignal s in einen aktiven Zustand zu schalten.
Bei einer parallelen oder nachfolgenden Sprachsignalverarbeitung des Audiosignals i besteht das Ziel darin, möglichst viele Signalanteile, die Sprache bzw. Sprachanteile px enthalten, durch einen Sprachverbesserungsalgorithmus zu leiten und die restlichen Signalanteile unverändert zu lassen, wie dies auch anhand Fig. 1 beschrieben ist. Dies wird vorteilhaft durch eine Matrix gelöst, wie dies anhand Fig. 4 skizziert ist.
Matrixkoeffizienten k1, k2,..., k6 werden abhängig von dem bestimmten Sprachanteil px bzw. abhängig von dem vom Sprachdetektor SD ausgegebenen Ausgangswert bzw. Ausgangssignal D1, D2 bestimmt bzw. werden als Funktion px = F(D1, D2) ermittelt.
Der eigentliche Sprachverbesserungsalgorithmus oder eine eigentliche Sprachverbesserungseinrichtung kann in für sich bekannter Art und Weise bereitgestellt werden. Beispielsweise kann eine in DE 101 24 699 C1, auf welche voll umfänglich Bezug genommen wird, beschriebene einfache Frequenzgangkorrektur durchgeführt werden. Einsetzbar sind aber auch beliebige andere Algorithmen und Einrichtungen zur Verbesserung der Sprachverständlichkeit.
Bei der in Fig. 4 dargestellten Matrixberechnung werden die Eingangskomponenten bzw. Eingangskanäle L', R' des Audiosignals i jeweils mit drei Faktoren k1, k3, k5 bzw. k2, k4, k6 multipliziert und Additionsgliedern zugeführt. Dem ersten Additionsglied A wird das Signal des ersten Kanals L' multipliziert mit dem ersten Koeffizienten k1 und das Signal des zweiten Kanals R' multipliziert mit dem zweiten Koeffizienten k2 zur Addition angelegt. Dem zweiten Additionsglied A werden das Signal des ersten Kanals L' multipliziert mit dem dritten Koeffizienten k3 und das Signal des zweiten Kanals R' multipliziert mit dem vierten Koeffizienten k4 zur Addition angelegt. Dem dritten Additionsglied A werden das Signal des ersten Kanals L' multipliziert mit dem fünften Koeffizienten k5 und das Signal des zweiten Kanals R' multipliziert mit dem sechsten Koeffizienten k6 zur Addition angelegt. Der Ausgangswert des zweiten Additionsglieds A wird einer Sprachverbesserungsschaltung VS oder einem Sprachverbesserungsverfahren bzw. Algorithmus zugeführt. Dessen Ausgangsergebnis wird mittels weiterer Additionsglieder A dem Ausgangswert bzw. Ausgangssignal des ersten Additionsglieds A zur Bereitstellung eines ersten Ausgangskanals LE und einem Ausgangswert bzw. Ausgangssignal des dritten Additionsglieds A mittels eines weiteren Additionsglied A zum Bereitstellen eines zweiten Ausgangskanals RE aufaddiert.
Für die Bestimmung der Koeffizienten wird beispielsweise berücksichtigt, dass der Sprachanteil px durch die beschriebenen Verfahren durch einen Wertebereich von insbesondere 0 ≤ P ≤ 1 und als Funktion der Bestimmten Sprachanteile mit px = F(D1,D2,D3) bestimmbar ist. Gemäß einer einfachen Variante können die Koeffizienten festgelegt werden gemäß $k 1 = k 6 = 1 - p x / 2,$
$k 2 = K 5 = - p x / 2$
und $k 3 = k 4 = p x / 2 .$
Die beiden letztendlich ausgegebenen Signalkanäle bzw. Komponenten LE, RE entsprechen den verarbeiteten Signalen, welche dem Ausgang O für das verarbeitete Audiosignal o zugeführt werden.
Fig. 5 stellt beispielhaft Funktion F(D1, D2=0, D3=0) dar. Im Fall der ersten dargestellten Funktion F = F1(D1) reagiert die Schaltungsanordnung schon auf einen geringen detektierten Sprachanteil. Die Wahrscheinlichkeit einer Fehldetektion ist für kleine Werte von D1 relativ hoch. Allerdings ist durch den stetigen Verlauf der ersten Funktion F1(D1) die Auswirkung des Sprachalgorithmus bei kleinem D1 auf das Audiosignal relativ gering, so dass eine Beeinträchtigung des Audiosignals kaum wahrgenommen wird.
Im Fall einer zweiten Funktion F2(D1) bleibt das Audiosignal vollkommen unbeeinträchtigt bis zu einem Schwellenwert v = Ps2. Danach sind die Auswirkungen auf das Audiosignal bei Änderungen des Werts von P1 umso größer.
Im Fall einer dritten Funktion F = F3(D1) wird der Algorithmus beim Überschreiten eines bestimmten Schwellenwerts v = Ps31 eingeschaltet und beim Unterschreiten eines anderen, niedrigeren Schwellenwerts v=Ps32 ausgeschaltet. Durch den Einbau einer solchen Hysterese wird ein ständiges Umschalten im Übergangsbereich verhindert.

Claims

Schaltungsanordnung für eine Verbesserung der Verständlichkeit von ggf. Sprache (px) enthaltenden Audiosignalen (i) mit
- einem Eingang (I) zum Eingeben eines solchen Audiosignals (i),
gekennzeichnet durch

- einen Sprachdetektor (SD) zum Detektieren von Sprache (px) in dem eingegebenen Audiosignal (i) und zum Bereitstellen eines Steuersignals (s) zum Steuern einer Sprachverarbeitungseinrichtung (SV) und/oder eines Sprachverarbeitungsverfahrens zum Verarbeiten des Audiosignals (i).
Schaltungsanordnung nach Anspruch 1, bei welcher der Sprachdetektor (SD) zum Detektieren von Sprachanteilen (px) in dem Audiosignal (i) ausgebildet und/oder gesteuert ist.
Schaltungsanordnung nach Anspruch 1 oder 2, bei welcher der Sprachdetektor (SD) eine Schwellenwert-Bestimmungseinrichtung zum Vergleichen eines Umfangs detektierter Sprachanteile mit einem Schwellenwert (v) und zum Ausgeben des Steuersignals (s) abhängig vom Vergleichsergebnis aufweist.
Schaltungsanordnung nach Anspruch 3, bei welcher der Sprachdetektor (SD) einen Steuereingang (IV) zum Eingeben zumindest eines Parameters (v) zum variablen Steuern des Detektierens hinsichtlich eines Umfangs der zu detektierenden Sprachanteile (px) und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile (px) aufweist.
Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD) eine Korrelationseinrichtung (CR) zum Durchführen einer Kreuz- oder einer Autokorrelation des Audiosignals oder von Komponenten des Audiosignals aufweist.
Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD)
- zum Verarbeiten eines mehrkomponentigen Audiosignals (i), insbesondere Stereo-Audiosignals (L', R'), 3D-Stereo-Audiosignals (L, R, C) und/oder Surround-Audiosignals (L, R, C, S), mit mehreren Audiosignal-Komponenten (L, R, C, S) ausgebildet ist und

- eine Verarbeitungseinrichtung (CR) zum Detektieren der Sprache anhand eines Vergleichs oder einer Verarbeitung der Komponenten (L, R, C, S) untereinander aufweist.
Schaltungsanordnung nach Anspruch 6, bei welcher der Sprachdetektor (SD) eine Richtungs- und/oder Entfernungsbestimmungseinrichtung zum Bestimmen einer Richtung und/oder Entfernung gemeinsamer Signalanteile der verschiedenen Komponenten (L, R, C, S) aufweist.
Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher der Sprachdetektor (SD) einen Frequenz-Energie-Detektor (Ef) zum Bestimmen einer Signalenergie in einem Sprachfrequenzbereich im Verhältnis zu einer sonstigen Signalenergie des Audiosignals (i) aufweist.
Schaltungsanordnung nach Anspruch 8 und einem der Ansprüche 5 bis 7, bei welcher de Sprachdetektor (SD) zum Ausgeben des Steuersignals (s) abhängig von Ergebnissen sowohl des Frequenz-Energie-Detektors (Ef) als auch der Korrelationseinrichtung (CR), der Vergleichseinrichtung bzw. der Richtungs- und/oder Entfernungsbestimmungseinrichtung ausgebildet und/oder gesteuert ist.
Schaltungsanordnung nach einem vorstehenden Anspruch, bei welcher das Steuersignal (s) zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung (SV) und/oder des Sprachverbesserungsverfahrens abhängig vom Sprachgehalt des Audiosignals (i) ausgebildet und/oder gesteuert ist.
Verfahren zur Verarbeitung von ggf. Sprache enthaltenden Audiosignalen (i), bei dem
- in einem Audiosignal (i) enthaltene Sprache bzw. Sprachanteile (px) detektiert werden und

- abhängig von dem Ergebnis der Detektion ein Steuersignal (s) für eine Sprachverarbeitungseinrichtung (SV) und/oder ein Sprachverarbeitungsverfahren für eine Sprachverbesserung erzeugt und bereitgestellt wird.
Verfahren nach Anspruch 11, bei welchem das Steuersignal (s) abhängig vom Umfang detektierter Sprachanteile (px) erzeugt wird.
Verfahren nach Anspruch 12, bei welchem der Umfang der detektierten Sprachanteile (px) mit einem Schwellenwert (v) verglichen wird.
Verfahren nach einem der Ansprüche 11 bis 13, bei welchem das Detektieren hinsichtlich eines Umfangs der zu detektierenden Sprachanteile und/oder hinsichtlich eines Frequenzbereichs der zu detektierenden Sprachanteile (px) mittels variabler Parameter (v) einstellbar durchgeführt wird.
Verfahren nach einem der Ansprüche 11 bis 14, bei welchem eine Kreuz- oder Autokorrelation des Audiosignals (i) oder von Komponenten (R, L, C, S) des Audiosignals (i) durchgeführt wird.
Verfahren nach einem der Ansprüche 11 bis 15, bei welchem von einem mehrkomponentigen Audiosignal mit mehreren Audiosignal-Komponenten (R, L, C, S) die Audiosignal-Komponenten untereinander verglichen oder miteinander verarbeitet werden zum Detektieren der Sprache.
Verfahren nach Anspruch 16, bei welchem die Audiosignal-Komponenten (R, L, C, S) hinsichtlich gemeinsamer Sprachanteile in den verschiedenen der Audiosignal-Komponenten verglichen bzw. verarbeitet werden, insbesondere zum Bestimmen einer Richtung und/oder Entfernung der gemeinsamen Signalanteile verglichen bzw. verarbeitet werden.
Verfahren nach einem der Ansprüche 11 bis 17, bei welchem eine Energie des Audiosignals (i) in einem Sprachfrequenzbereich (f1, ..., f2) im Verhältnis zu einer sonstigen Signalenergie des Audiosignals (i) bestimmt wird.
Verfahren nach einem der Ansprüche 11 bis 18, bei welchem das Steuersignal (s) zum Aktivieren oder Deaktivieren der Sprachverbesserungseinrichtung (SV) und/oder des Sprachverbesserungsverfahrens bereitgestellt wird.
Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei ein Frequenzgang mittels eines FIR- oder eines IIR-Filters (FIR: Finite-Impulse-Response, IIR: Infinite-Impulse-Response) bestimmt wird.
Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei Signalanteile des Audiosignals durch eine Matrix getrennt werden.
Schaltungsanordnung nach einem der Ansprüche 1 bis 10 und/oder Verfahren nach einem der Ansprüche 11 bis 19, wobei Matrixkoeffizienten für eine Matrix (MX) über eine vom Sprachanteil (px) abhängige Funktion (P = F(px)) bestimmt werden.
Schaltungsanordnung und/oder Verfahren nach Anspruch 22, wobei die Funktion (P = F(px)) linear und stetig ist.
Schaltungsanordnung und/oder Verfahren nach Anspruch 22, wobei die Funktion (P = F(px)) eine Hysterese besitzt.
Sprachverbesserungs-Schaltungsanordnung oder -verfahren mit einer Schaltungsanordnung und/oder einem Verfahren nach einem der vorstehenden Ansprüche.