-
STAND DER TECHNIK
-
Technisches Gebiet
-
Die Offenbarung betrifft ein Verfahren und System (im Allgemeinen als „Verfahren“ bezeichnet) zur Detektion von Reibelauten in Sprachsignalen.
-
Verwandte Technik
-
Sprache enthält verschiedene Artikulierungen wie etwa Vokale, Reibelaute, Nasale usw. Diese Artikulierungen und andere Eigenschaften wie etwa kurzzeitige Leistung können genutzt werden, um die Sprachsignalverbesserung in Systemen, wie etwa in Rauschminderungssystemen und Spracherkennungssystemen, zu unterstützen. Üblicherweise wird in solchen Systemen ein als Stimmaktivierungsdetektor (voice activity detector - VAD) bezeichneter Detektor verwendet. Der Stimmaktivierungsdetektor erzeugt ein Detektionssignal, das, wenn binär, 0 oder 1 annimmt, um das Vorliegen oder Fehlen von Sprache anzuzeigen oder umgekehrt. Das Detektionssignal kann ferner Werte zwischen 0 und 1 annehmen, um eine weiche Entscheidung zu ermöglichen, die ein bestimmtes Maß oder eine bestimmte Wahrscheinlichkeit des Vorliegens von Sprache im Signal anzeigen kann. Das Detektionssignal kann beispielsweise auf verschiedene Stufen eines Sprachverbesserungssystems angewendet werden, wie etwa Echounterdrücker, Strahlformer, Rauschschätzer, Rauschminderungsstufen usw.
-
Ein Reibelaut kann als „stimmloser“ Teil einer Sprachsilbe definiert werden, der produziert wird, wenn Luft durch Zähne und Lippen gepresst wird. Laute wie /s/ in dem Wort „stop“, /sh/ in dem Wort „Shop“, /f/ in dem Wort „four“ sind Beispiele für Reibelaute. Die meisten Sprachen auf der Welt enthalten in gesprochener Sprache Reibelaute. Solche Laute zu detektieren ist schwierig, da sie technisch gesehen einem breitbandförmigen Rauschen ähneln. Bei korrekter Detektion können Reibelaute jedoch helfen, den Großteil der in Signalen präsenten Sprache zu identifizieren, und sie können normale Sprachaktivitätsdetektoren ergänzen. Somit besteht ein Bedarf, die Detektion von Reibelauten zu verbessern.
-
KURZDARSTELLUNG
-
Ein Verfahren zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet das Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen, und das Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen. Das Verfahren beinhaltet ferner das Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich maximaler Reibelautenergie repräsentativ ist, und das Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie das Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.
-
Ein System zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet mindestens eine Verarbeitungseinheit, die mit einem Eingang und einem Ausgang verbunden ist, und ist dazu konfiguriert, das verrauschte Sprachsignal mit einer ersten Übertragungsfunktion zu bandpassfiltern, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen, und das verrauschte Sprachsignal mit einer zweiten Übertragungsfunktion zu bandpassfiltern, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen. Die mindestens eine Verarbeitungseinheit ist ferner dazu konfiguriert, eine Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal anzuwenden, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich maximaler Reibelautenergie repräsentativ ist, und um basierend auf dem maximalen Spektrum zu entscheiden, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie um ein Entscheidungssignal bereitzustellen, das für die Entscheidung repräsentativ ist.
-
Andere Systeme, Verfahren, Merkmale und Vorteile sind oder werden für den Fachmann bei Prüfung der folgenden detaillierten Beschreibung und den angehängten Figuren ersichtlich sein. Es ist beabsichtigt, dass alle derartigen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile in dieser Beschreibung beinhaltet sind, innerhalb des Umfangs der Erfindung liegen und von den nachstehenden Ansprüchen geschützt sind.
-
Figurenliste
-
Das System lässt sich unter Bezugnahme auf die folgenden Zeichnungen und die Beschreibung besser verstehen. Die Komponenten in den Figuren sind nicht unbedingt maßstabsgerecht, vielmehr geht es darum, die Prinzipien der Erfindung zu veranschaulichen. Überdies bezeichnen in den Figuren ähnliche Bezugszeichen entsprechende Teile in den verschiedenen Ansichten.
- 1 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften geläufigen Detektionssystems veranschaulicht.
- 2 ist ein Amplitudenfrequenzdiagramm, das eine beispielhafte Übertragungsfunktion eines verbesserten Interframe-Reibelautdetektionssystems für verrauschte Sprachsignale veranschaulicht.
- 3 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften verbesserten Interframe-Reibelautdetektionssystems für verrauschte Sprachsignale veranschaulicht.
- 4 ist ein Ablaufdiagramm, das ein beispielhaftes verbessertes Interframe-Reibelautdetektionsverfahren für verrauschte Sprachsignale veranschaulicht.
-
DETAILLIERTE BESCHREIBUNG
-
Für saubere Sprache, also Sprache ohne begleitendes unerwünschtes Rauschen, können Reibelaute recht verlässlich detektiert werden. Analysen von Sprachsignalen und Artikulierungen haben gezeigt, dass Reibelaute hauptsächlich zwei Frequenzbereiche umfassen, wobei der eine zwischen 2 kHz und 4 kHz und der andere zwischen 4 kHz und 6 kHz liegt. Beispielsweise ermöglicht das Überwachen dieser Frequenzbereiche mit zwei Bandpassfiltern zur selben Zeit im Hinblick auf eine kurzzeitige Erhöhung der Energie eines Sprachsignals, verlässlich darauf zu schließen, ob das untersuchte Sprachsegment ein Reibelaut ist oder nicht. Eine Umsetzung eines solchen Systems ist in
1 gezeigt. Signale in der Frequenz- und Teilbanddomäne werden hierin auch als Spektren oder Spektralsignale bezeichnet. Nach gleichzeitigem Bandpassfiltern eines sauberen Sprachsignals mit zwei Bandpassfiltervorgängen
101 und
102 werden zwei gefilterte Spektren S
b1(µ, k) und S
b2(µ, k), die auf diese Weise abgeleitet werden, kombiniert, z. B. durch einen Summierungsvorgang
103. Die zwei gefilterten Spektren S
b1(µ, k) und S
b2(µ, k) in der Teilbanddomäne ergeben sich aus einem Spektrum S(µ, k) des sauberen Sprachsignals nach Filtern (in der Frequenz- oder Teilbanddomäne: Multiplizieren) mit einer jeweiligen Übertragungsfunktion H
bp1(µ, k) und H
bp2(µ, k) der zwei Bandpassfiltervorgänge
101 und
102 gemäß:
wobei ein jeweiliges Teilband durch µ bezeichnet ist und ein jeweiliger (Zeit-)Rahmen durch k bezeichnet ist. Die Übertragungsfunktion H
bp1(µ, k) kann ein Durchlassband zwischen 2 kHz und 4 kHz beinhalten und die Übertragungsfunktion H
bp2(µ, k) kann ein Durchlassband zwischen 4 kHz und 6 kHz beinhalten, wie durch die jeweiligen Spektraldiagramme in
1 gezeigt. Die zwei durchlassbandgefilterten Spektren S
b1(µ,k) und S
b2(µ,k) werden kombiniert (in der Frequenz- oder Teilbanddomäne: addiert), um ein Spektrum S
bp(µ, k) zu erhalten, bei dem eine hohe Reibelautenergie erwartet wird, gemäß:
-
Eine Reibelautdetektion wird durchgeführt, indem in einem Kurzzeitenergievergleichsvorgang
104 die bandbegrenzte Energie des aktuellen Rahmens mit der bandbegrenzten Energie des vorangehenden Rahmens verglichen wird. Ein Segment kann als Reibelaut klassifiziert werden, wenn die Energie |S
bp(µ,k)|
2 in allen Teilbändern eines Rahmens k größer als die Energie |S
bp(µ,k-1)|
2 im vorangehenden Rahmen k-1 ist, gemäß:
-
Wenn dies nicht der Fall ist, wird das Segment als Nicht-Reibelaut klassifiziert. Die Rahmengröße für derartige Segmente kann aus einem Bereich zwischen 50 ms und 250 ms ausgewählt sein. In Sprachverbesserungssystemen kann diese Art von Detektion versagen, da die Eingangssignale für gewöhnlich verrauscht sind und es schwer bis unmöglich ist, zwischen (stationärem und nichtstationärem) Hintergrundrauschen und Reibelauten in Sprachsegmenten zu unterscheiden.
-
Um Reibelautsegmente verlässlicher in verrauschten Sprachsignalen zu detektieren, kann das oben beschriebene primäre Detektionsverfahren modifiziert und ergänzt werden, um dessen Detektionsleistung zu erhöhen, was unten als „Robustheit“ bezeichnet wird. Wie erwähnt, ist die Eingabe in einen Reibelautdetektor für gewöhnlich ein verrauschtes Sprachsignal, was hier in der Frequenzdomäne als Eingangsspektrum Y(µ, k) bezeichnet ist. Wie oben im Zusammenhang mit
1 beschrieben, wird das Eingangsspektrum bandpassgefiltert, sodass im gegenwärtigen Fall das Spektrum durch Ersetzen des sauberen Sprachspektrums S(µ, k) durch das verrauschte Sprachspektrum Y(µ, k) in Gleichung (1) und Gleichung (2) erhalten wird, was sich jeweils durch Gleichung (5) und Gleichung (6) beschreiben lässt:
wobei H
bp1(µ,k) und H
bp2(µ,k) wiederum die Übertragungsfunktionen bezeichnen, die in den zwei Bandpassfiltervorgängen
101 und
102 eingesetzt werden, die in
1 gezeigt sind, und Y
b1(µ, k) und Y
b2(µ, k) zwei bandpassgefilterte Spektren bezeichnen, die von dem verrauschten Eingangsspektrum Y(µ, k) durch Filtern mit Übertragungsfunktionen H
bp1(µ,k) und H
bp2(µ,k) abgeleitet werden. Das verrauschte Eingangsspektrum Y(µ, k) ist die Kombination aus dem sauberen Sprachspektrum S(µ, k) und einem Hintergrundrauschspektrum B(µ, k).
-
Eine erste Maßnahme zum Verbessern der Robustheit eines verrauschten Eingangsspektrums besteht im Anwenden einer Maximum-Operation auf die zwei bandpassgefilterten Spektren Y
b1(µ, k) und Y
b2(µ, k). Die Spektralkomponenten der zwei bandpassgefilterten Spektren Y
b1(µ, k) und Y
b2(µ, k) können Reibelautenergie in einem beliebigen der Teilbänder enthalten. Ein Addieren der zwei Spektren würde höchstwahrscheinlich in einer unerwünschten Verschlechterung des Signal-Rausch-Verhältnisses resultieren. Die Maximum-Operation dagegen wählt genau diejenigen Teilbänder aus der Größe der zwei bandpassgefilterten Spektren Y
b1(µ, k) und Y
b2(µ, k) aus, die im Vergleich mit dem anderen größer sind. Auf diese Art und Weise werden nur die Hochenergie-Teilbänder zur weiteren Verarbeitung ausgewählt. Die Maximum(argmax)-Operation gibt diejenigen Teilbänder aus, die im Vergleich mit dem entsprechenden Teilband des jeweils anderen Spektrums die maximale Energie enthalten, um ein maximales Spektrum Y
bpm(µ, k) gemäß Gleichung (7) zu erhalten:
-
Somit wird der Frequenzbereich maximaler Reibelautenergie entweder durch den Bandpassfiltervorgang 101 (z. B. zwischen 2k Hz und 4 kHz) oder den Bandpassfiltervorgang 102 (z. B. 4 kHz und 6 kHz) detektiert, d. h. dem Frequenzbereich, der die maximale Größe oder (Gesamt-)Energie beinhaltet. Ferner können nur Segmente, die ausreichend Energie enthalten, ausgewählt werden, da die Maximum-Operation per Teilband angewendet werden kann.
-
Das Detektieren von Reibelauten auf dem bandpassgefilterten Spektrum allein ist bei variierenden Szenarien von Hintergrundrauschen möglicherweise nicht ausreichend. Zum Filtern von verrauschten Sprachsignalen, um (geschätzte) saubere Sprache zu erhalten, können verschiedene Filterarten angewendet werden, wie etwa normale (traditionelle) oder modifizierte Wiener-Filterung oder dynamische Rauschunterdrückung.
-
Die Funktion eines Rauschreduzierungsfilters wie etwa eines Wiener-Filters besteht darin, Rauschen zu unterdrücken und dadurch das Signal-Rausch-Verhältnis (signalto-noise ratio - SNR) des Signals zu erhöhen. Das Bestimmen des Signal-Rausch-Verhältnisses eines Signals beinhaltet Operationen der Größenquadrierung. Aus der Definition des Signal-Rausch-Verhältnisses ist ersichtlich, dass es zum Erhöhen des Signal-Rausch-Verhältnisses ausreichend sein kann, nur die Größe des Signals zu verarbeiten. In der Frequenzdomäne kann ein Rauschunterdrückungsfilter, der eine Übertragungsfunktion H(e
jΩ) aufweist, wobei e
jΩ eine komplexe Frequenz ist, angewendet werden, um eine Schätzung Ŝ(e
jΩ) sauberer Sprache zu erhalten, gemäß
wobei Y(e
jΩ) das verrauschte Eingangsspektrum als Eingabe in das Mikrofon darstellt und wie folgt beschrieben werden kann:
S(e
jΩ) stellt Sprachkomponenten dar, die in der Mikrofoneingabe enthalten sind, und B(e
jΩ) stellt Komponenten eines Hintergrundrauschens dar, die in der Mikrofoneingabe und -ausgabe enthalten sind, d. h. zu unterdrückendes Rauschen. Die Situation kann somit als ein Einzelkanal-Rauschreduzierungsproblem betrachtet werden. Der Filter mit der Übertragungsfunktion H(e
jΩ), der das Hintergrundrauschen B(e
jΩ) unterdrücken soll, ist abhängig von den Eigenschaften des Hintergrundrauschens B(e
jΩ) Wenn das Hintergrundrauschen B(e
jΩ) bei einer bestimmten Festfrequenz auftaucht, kann der Filter dazu ausgestaltet sein, eine Dämpfung bei dieser bestimmten Festfrequenz (falls bekannt) aufzuweisen, um beispielsweise Rauschartefakte zu entfernen, die von einer Stromleitung bei Oberwellen der Stromleitungsfrequenz erzeugt werden. Dies kann beispielsweise durch einen Festfilter erzielt werden.
-
Hintergrundrauschen unterscheidet sich jedoch im Allgemeinen von beispielsweise konstantem Rauschen bei einer festen Frequenz. Manche Eigenschaften von Hintergrundrauschen sind ihrer Art nach statistisch und können am besten durch ihre Wahrscheinlichkeitsverteilungen, erste Momente, zweite Momente usw. beschrieben werden. Einzelkanalsprachverbesserung kann statistisches Filtern wie etwa Wiener-Filterung zur Rauschreduzierung eines verrauschten Signals umfassen. Wiener-Filterung minimiert die Erwartung des Mittelwerts eines quadratischen Fehlersignals. Das Fehlersignal ist die Differenz zwischen dem gewünschten Signal und dem geschätzten gewünschten Signal. Die Wiener-Lösung kann ausgeweitet werden, um auf Rauschreduzierung in Sprachanwendungen anwendbar zu sein. Die Wiener-Lösung oder die optimale Filterübertragungsfunktion H
wiener(e
jΩ) zur Rauschreduzierung im Sinne einer Minimierung des mittleren quadratischen Fehlers in der Frequenzdomäne ergibt sich aus
Der Begriff S
ss(e
jΩ) stellt die Leistungsspektraldichte (power spectral density - PSD) des Signals von Interesse dar und S
bb(e
jΩ) stellt die Leistungsspektraldichte des Hintergrundrauschens dar. Die Gleichung (10) beschreibt die Leistungsspektraldichte des Signals von Interesse S
ss(e
jΩ), die nicht zugänglich ist. Angenommen, das gewünschte Signal und die Verzerrung sind orthogonal, kann das verrauschte Eingangsspektrum durch folgende Gleichung (11) beschrieben werden:
-
Die Gleichung (10) ist in der Frequenzdomäne formuliert und kann in der Teilbanddomäne neu geschrieben werden, d. h. sie kann gemäß der folgenden Gleichung (12) beschrieben werden:
Der Wiener-Filter kann somit durch eine Teilbanddomänen-Übertragungsfunktion H
wiener(µ, k) bezeichnet werden und kann als Teilbanddämpfungsfilter abhängig von dem Signal-Rausch-Verhältnis pro Teilband µ im Rahmen k betrachtet werden. B̂(µ, k) bezeichnet das geschätzte Hintergrundrauschspektrum und Y(µ, k) bezeichnet das Eingangsspektrum. Der normale Wiener-Filter, der in der Teilbanddomäne durch seine Übertragungsfunktion H
wf(µ,k) bezeichnet ist, unterdrückt Rauschen nach Schätzung einer Schätzeinrichtung für Hintergrundrauschen gemäß:
wobei Λ
ο-est einen Rauschüberschätzungsfaktor bezeichnet und H
floor ein festgesetztes Minimum für das Filtern bezeichnet.
-
Es gibt mehrere Ansätze für das Schätzen der Leistungsspektraldichte von Rauschen. Beispielsweise werden hierin zwei Schätzvorgänge besprochen, bei denen es sich zum einen um einen Basis-PSD-Rauschschätzer und zum anderen um einen fortgeschrittenen Leistungsspektraldichte-Rauschschätzer handelt, der auf einem verrauschten Signalmodell und einem Basis-PSD-Rauschschätzer basiert. Gemäß dem verrauschten Signalmodell werden Rausch- und Sprachsignale als gegenseitig orthogonale Zufallsprozesse modelliert und die Kreuzterme werden Null, weshalb ihre Leistungsspektraldichten direkt wie in Gleichung (14) gezeigt addiert werden können:
-
Der Basis-PSD-Rauschschätzer basiert auf einem multiplikativen zeitkonstantenbasierten Ansatz und wird betrieben, um das geglättete, verrauschte Eingangsgrößen-Spektrum in Schritten mit festen Konstanten zu verfolgen. Dieser Vorgang wird basierend auf den vorherigen Rauschleistungsschätzungen durchgeführt, um die aktuelle Rauschleistungsschätzung zu berechnen. Der Ansatz ähnelt dem zeitrekursiven Ansatz, jedoch wird hier nur die vorherige Rauschschätzung verwendet, anstatt sie in Kombination mit der aktuellen Eingangsgröße zu verwenden. Eine solche Rauschschätzung kann durch Folgendes beschrieben werden:
wobei B̂
basic(µ, k) die Schätzung des (Hintergrund-)Rauschspektrums für den aktuellen Rahmen k ist, B̂
basic(µ, k - 1) die Schätzung des (Hintergrund-)Rauschspektrums für den vorangehenden Rahmen k-1 ist und Δ
basic(µ, k) die Zeit-Frequenz-variierende multiplikative Konstante ist, die gemäß Folgendem bestimmt werden kann:
Eine inkrementelle multiplikative Konstante Δ
inc wird als die sich zeitlich und frequenzmäßig ändernde multiplikative Konstante Δ
basic(µ, k) ausgewählt, wenn das geglättete Eingangsfehlergrößenspektrum
Y(µ, k) größer als die vorherige Rauschschätzung ist, sonst wird eine dekrementelle multiplikative Konstante Δ
dec ausgewählt. Das geglättete Fehlergrößenspektrum
Y(µ, k) kann durch die nachstehende Gleichung (17) beschrieben werden.
-
Durch das Glätten wird die Varianz des Eingangsfehlergrößenspektrums
Y(µ, k) verringert. Das Glätten kann über Zeit(-rahmen) hinweg in jedem Teilband durchgeführt werden. Das Glätten des Eingangsfehlerspektrums kann durch einen Filter mit unendlicher Impulsantwort (Infinite Impulse Response - IIR) erster Ordnung durchgeführt werden, was wie folgt beschrieben werden kann:
wobei α
y eine glättende Konstante bezeichnet,
Y(µ, k - 1) ein vorhergehendes geglättetes Eingangsfehlergrößenspektrum bezeichnet und Y
mag(µ, k) gemäß Folgendem bestimmt wird:
Das Verfolgen des Rauschleistungsschätzers hängt von dem geglätteten Eingangsgrößenspektrum ab, wobei ℜ den echten Teil und ℑ den imaginären Teil bezeichnet.
-
Im Vergleich zur Wiener-Filterung ist die dynamische Rauschunterdrückung in Bezug auf die Rauschunterdrückung aggressiver. Die dynamische Rauschunterdrückung soll das Rauschen gemäß einer Zielrauschform formen. Wiener-Rauschunterdrückungsfilterung verbessert das Signal-Rausch-Verhältnis eines verrauschten Eingangssignals, was für Rahmen wünschenswert ist, die Sprachsignale enthalten. In Rahmen, die nur (Hintergrund-)Rauschen enthalten, ist die Wiener-Filterung manchmal nicht wünschenswert oder bietet eine unzureichende Rauschunterdrückung. Solche Nachteile können in praktischen Situationen auftreten, in denen z. B. eine Kommunikationsvorrichtung an einem beliebigen Ort und überall platziert werden kann, sodass hochgradig nichtstationäres Rauschen von PSD-Rauschschätzern nicht verfolgt werden kann. Ferner kann ein stark nichtstationäres Rauschen für einen Zuhörer extrem störend sein.
-
Allgemein gesagt kann die Rauschformung alles sein, einschließlich beispielsweise das Anwenden einer festen Rauschform oder einer festen Filterung auf Restrauschen. Im Zusammenhang mit der Rauschreduzierung kann die Systemrauschgrößenformung so durchgeführt werden, dass hochdynamische Schwankungen und Variationen des verrauschten Eingangsspektrums gesteuert werden. Eine Möglichkeit, dies zu erreichen, besteht darin, die gewünschte Rauschform vorzugeben. Auf diese Weise kann ein geeigneter Filter so gestaltet sein, dass der Ausgang der Rauschgrößenformung gleich der gewünschten Rauschform ist. Um eine dynamische Rauschunterdrückung zu erzielen, ist es notwendig, die Größenform des gewünschten Restrauschens zu bestimmen. Die dynamische Rauschunterdrückung kann die gewünschte Rauschgrößenform entweder auf Grundlage des Eingangsgrößenspektrums oder seiner geglätteten Version abschätzen (siehe obige Gleichung (18)). Da das verrauschte Eingangsspektrum sehr dynamisch ist, würde eine vordefinierte und feste Form zu einem extrem „statisch“ klingenden Restrauschen führen. Um das Restrauschen für den Hörer natürlicher und angenehmer klingen zu lassen, kann die gewünschte Rauschform auf spezifische Weise aus dem verrauschten Eingangsspektrum geschätzt und „extrahiert“ (z. B. herausgefiltert) werden. Beispielsweise kann eine Langzeitschätzung des verrauschten Eingangsgrößenspektrums als gewünschte Form des Restrauschens verwendet werden. Eine solche langfristige Schätzung kann wie durch die Gleichungen (19) und (20) beschrieben erhalten werden:
wobei
eine inkrementelle oder dekrementelle Konstante bezeichnet und Y
des-shape(µ, k) eine gewünschte Rauschgrößenform bezeichnet, z. B. einen langsamen, auf multiplikativen Konstanten basierenden Tracker, der wie folgt beschrieben werden kann:
Die gewünschte Rauschgrößenform Y
des-shape(µ, k) wird durch Multiplizieren der vorherigen Schätzung der Rauschgrößenform mit der inkrementellen oder dekrementellen Konstante
erhalten. Der Abstand des aktuellen Rahmens zur gewünschten Größe wird mit einer Schwelle von 1,5 und 0,5 berechnet, die geändert oder angepasst werden kann. Der Algorithmus sieht auch eine „Haltezeit“ vor, während der die gewünschte Form nicht aktualisiert wird.
-
Die dynamische Rauschunterdrückung kann eine Vielzahl von (z. B. fünf) Parametern verwenden, die abgestimmt sind. Diese Parameter beeinflussen das Verhalten der dynamischen Rauschunterdrückung in verschiedenen Situationen. Wie bereits in Verbindung mit Gleichung (20) erörtert, kann eine gewünschte Größe basierend auf dem Abstand zwischen der vorherigen gewünschten Größe und den Größen des aktuellen geglätteten Eingangsspektrums bestimmt werden. Dieser Vorgang kann modifiziert werden, indem die inkrementelle oder dekrementelle Konstante
durch feste Konstanten ersetzt wird, wenn der Abstand größer als 1,5 oder geringer als 0,5 ist. Diese festen Verfolgungskonstanten können auf einen festen Wert (z. B. 1 dB/s) für den Inkrementteil und auf einen anderen festen Wert (z. B. -6 dB/s) für den Dekrementteil eingestellt werden.
-
Ein anderer Abstimmparameter kann sich mit der spektralen Glättung (Glättung über Frequenz) der bestimmten Unterdrückungsfaktoren durch eine Glättungskonstante a
Y befassen, die so abgestimmt sein kann, dass der Übergang von einem Rahmen zum anderen für den Hörer am anderen Ende glatter ist. Die Lautstärke des unterdrückten Signals kann effektiv durch zwei Überschätzungsparameter
und
wirksam gesteuert werden, wobei der eine Schätzungsparameter
den Breitbandpegel der gewünschten Größe steuert und der andere Schätzungsparameter
den Breitbandpegel der Unterdrückungsfaktoren steuert. Für praktische Abstimmungszwecke wird der Parameter
auf einen Faktor des Wiener-Filterbodens H
floor eingestellt. Schließlich werden die beiden Parameter, die die maximale und die minimale Unterdrückung steuern, die vom dynamischen Rauschunterdrückungsfilter angewendet werden, durch die maximalen und minimalen Unterdrückungsparameter
und
gesteuert. Wenn der dynamische Rauschunterdrückungsfilter angewendet wird, können die musikalischen Rauschartefakte hörbar sein. Dies kann durch Einstellen der maximalen und minimalen Unterdrückungsparameter
und
behoben werden.
-
Eine modifizierte Version der dynamischen Unterdrückung, die von einer Übertragungsfunktion H
dyf(µ, k) dargestellt wird, kann angewendet werden, und diese lässt sich wie folgt beschreiben:
wobei die geglätteten Unterdrückungsfaktoren
Y bmp-supp(µ, k) mit einem Steuerparameter a
multipliziert werden können. Die geglätteten Unterdrückungsfaktoren
Y bmp-supp(µ, k) können durch Gleichung 22 bestimmt werden:
-
Mit den verfügbaren Unterdrückungsfaktoren wird der endgültige „dynamische“ Rauschunterdrückungsfilter, der eine Übertragungsfunktion Ĥ
dyn(µ, k) aufweist, bestimmt, indem einfach die berechneten Unterdrückungsfaktoren um den Betrag der gewünschten Unterdrückung verschoben werden, der gegeben ist durch:
wobei die geglätteten Unterdrückungsfaktoren erneut mit einem Steuerparameter
ergänzt werden können. Dieser Parameter wird normalerweise basierend auf dem Grundrauschen H
floor eingestellt, um den Unterdrückungsgrad zu berücksichtigen, der bei dem dynamischen Unterdrückungsverfahren angewendet wird. Um unerwünschtes musikalisches Rauschen zu steuern, kann der Unterdrückungsfilter auf einen Maximal- und einen Minimalwert begrenzt werden, die gegeben sind durch:
wobei der minimale und der maximale Wert während des Abstimmungsprozesses eingestellt werden.
-
Wie zu sehen ist, werden die normalen H
wf(µ, k) und die dynamischen Unterdrückungsfilter H
dyf(µ, k) in einer geschlossenen Gleichung kombiniert:
Ein so abgeleiteter Rauschunterdrückungsfilter weist eine Übertragungsfunktion H
dwf(µ, k) auf, die durch Kombinieren von zwei Rauschunterdrückungsfiltern erhalten wird, z. B. einem normalen und einem dynamischen Rauschunterdrückungsfilter, basierend auf dem Frequenzfach, für das die Übertragungsfunktion H
dwf(µ, k) außerhalb eines vorgegebenen Frequenzbereichs zwischen einer niedrigeren Frequenz µ
bp-low und einer höheren Frequenz µ
bp-high liegt. Die Übertragungsfunktion H
wf(µ, k) wird für den (Bandpass-)Frequenzbereich gewählt, in dem die Reibelautenergie erwartet wird. Eine beispielhafte Übertragungsfunktion H
wf(µ, k) ist in
2 anhand eines Amplitudenfrequenzdiagramms dargestellt.
-
Das oben beschriebene Filterverfahren ermöglicht es, das Hintergrundrauschen im Reibelautbereich ausreichend zu entfernen, ohne gleichzeitig die Reibelautenergie zu beeinträchtigen. Signale mit Frequenzen außerhalb des Bereichs der Reibelautenergie werden wie Rauschen behandelt. Eine Übertragungsfunktion (üblicherweise auch als Charakteristik oder Charakteristiken bezeichnet) einer solchen Unterdrückungsfilterung kann etwa die durch Gleichung (21) beschriebene sein. Die ermittelte Übertragungsfunktion H
dwf(µ, k) wird dann auf das Ergebnis der Maximum-Operation Y
bpm(µ, k) angewendet, um das Spektrum zu erhalten, das von Außerbandrauschen und auch stationärem und nicht stationärem Hintergrundrauschen befreit ist, was hierin durch Ŝ
bpf(µ, k) dargestellt ist. Dies lässt sich durch Gleichung (26) beschreiben:
-
Gemäß Gleichung (4) werden die Energien eines aktuellen Rahmens k und eines vorherigen Rahmens k-1 miteinander verglichen. Das Vergleichen der Energien aufeinanderfolgender Rahmen ist eine optionale Art der Detektion, eine andere, robustere Art besteht darin, einen Parameter θ für den Vergleich zu verwenden, der ein vergangenes Sprachsegment identifiziert. Parameter θ ist abhängig von dem im verrauschten Sprachsignal enthaltenen „Hintergrundrauschen“. Wenn das Hintergrundrauschen in einem bestimmten Rahmen hoch ist, würde die Detektion in Situationen mit starkem nicht stationären Rauschen fehlschlagen. Sprachverbesserungsanwendungen können erheblich variieren, wie in Automobilanwendungen oder in Anwendungen mit intelligenten Lautsprechern in lauten Umgebungen. Daher kann der Parameter θ im Hinblick auf die aktuelle Hintergrundrauschsituation geschätzt werden. Ferner kann ein Reibelautsprungverhältnis F
ratio(k) basierend auf einer Summe von nicht stationärem Hintergrundrauschen Ŝ
bpf(µ, k) pro Teilband anstelle der einzelnen Teilbänder bestimmt werden, gemäß:
Das Reibelautsprungverhältnis F
ratio(k) kann für die Detektion zum Vergleich mit einem Schwellenwert verwendet werden.
-
Um die Detektion robuster gegen Einflüsse des Hintergrundrauschens zu machen, kann das Reibelautsprungverhältnis F
ratio(k) im Teilbandbereich auf eine untere Frequenz µ
fr-min und eine obere Frequenz µ
fr-max bandbegrenzt werden. Beispielsweise kann die untere Frequenz µ
fr-min auf ungefähr 1500 Hz und die obere Frequenz µ
fr-max auf ungefähr 6000 Hz eingestellt werden. Die Begrenzung der Bandbreite ermöglicht eine frühere Detektion, ein höheres spektrales Signal-Rausch-Verhältnis (pro Teilband) im gewählten Frequenzbereich und damit eine höhere Detektionswahrscheinlichkeit und eine höhere Robustheit in einer Vielzahl von verrauschten Umgebungen. Ein bandbegrenztes Reibelautsprungverhältnis F
ratio-bl(k) kann beschrieben werden durch
-
Basierend auf den oben beschriebenen Maßnahmen zur Erhöhung der Robustheit können Reibelautsegmente in einem verrauschten Sprachsignal zuverlässiger detektiert werden, indem das bandbegrenzte Reibelautsprungverhältnis F
ratio-bl(k) mit einem Schwellenwert verglichen wird, der wie folgt gegeben ist:
Reibelaute in Sprachsignalen können als Vordetektor verwendet werden, um andere Algorithmen zur Detektion von Stimmaktivitäten zu unterstützen, die z. B. in Rauschunterdrückungssystemen verwendet werden. Wie oben erläutert, kann in einem Verfahren zum Detektieren von Reibelauten in verrauschten Sprachrahmen das primäre Verfahren zur Reibelautdetektion durch mindestens eine von drei Maßnahmen zur Verbesserung der Robustheit verbessert werden.
-
3 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften Interframe-Reibelautdetektionsverfahrens für verrauschte Sprachsignale veranschaulicht, das auf dem oben detaillierter beschriebenen Verfahren basiert und das mittels eines Programmcodes umgesetzt ist, der von einer Verarbeitungseinheit 300 wie etwa einer Steuerung, einem Mikroprozessor, einem Mikrocomputer oder dergleichen ausgeführt wird. Ein erster Bandpassfilter 301, ein zweiter Bandpassfilter 302 und ein Hintergrundrauschschätzer 303 sind im Prozessor 300 umgesetzt und empfangen ein verrauschtes Sprachsignal y(t) der Zeit(t)-Domäne von z. B. einem Mikrofon 304 über einen Signalpfad 305, der eine Vielzahl von Signalverarbeitungsblöcken (nicht gezeigt) wie etwa einen Verstärker, einen oder mehrere Filter, einen Analog-Digital-Wandler, ein Zeit-Frequenz-Domänenwandler usw. beinhalten kann. Das verrauschte Zeitdomäne-Sprachsignal kann auch durch sein Spektrum beschrieben werden, das hier als Eingangsspektrum Y(µ, k) bezeichnet wird.
-
Über die beiden Bandpassfilter 301 und 302, die den oben in Verbindung mit 1 beschriebenen Bandpassfiltern 101 und 102 ähnlich oder mit ihnen identisch sein können, werden zwei Teilspektren Yb1(µ, k) und Yb2(µ, k) erzeugt. Die beiden Teilspektren Yb1(µ, k) und Yb2(µ, k) werden einem Maximaldetektor 306 zugeführt, der das Maximum der beiden Teilspektren Yb1(µ, k) und Yb2(µ, k), die einem kombinierten Filter 307, einem ersten Rauschunterdrücker 308 und einem zweiten Rauschunterdrücker 309 als Spektrum Ybpm(µ, k) bereitzustellen sind, auswählt. Der erste Rauschunterdrücker 308 wird in einer Weise betrieben, die weiter oben als „normale (Art der) Rauschunterdrückung“ beschrieben und bezeichnet ist, und er gibt ein erstes unterdrücktes Spektrum aus, das oben als Spektrum Hwf(µ, k) bezeichnet ist. Der zweite Rauschunterdrücker 309 wird in einer Weise betrieben, die weiter oben als „dynamische (Art der) Rauschunterdrückung“ beschrieben und bezeichnet ist, und er gibt ein zweites unterdrücktes Spektrum aus, das oben als Spektrum Hdyf(µ, k) bezeichnet ist. Der erste Rauschunterdrücker 308 und der zweite Rauschunterdrücker 309 empfangen ferner das geschätzte Hintergrundrauschspektrum B̂(µ, k), das von dem Hintergrundrauschschätzer 303 bereitgestellt wird. Der kombinierte Filter 307 empfängt neben dem Spektrum Ybpm(µ, k) von dem Maximaldetektor 306 die Spektren Hwf(µ, k) und Hdyf(µ, k) vom ersten Rauschunterdrücker 308 und vom zweiten Rauschunterdrücker 309 und liefert das geschätzte saubere Sprachspektrum Ŝbpf(µ, k). Ein Block 310 zum Erzeugen eines bandbegrenzten Reibelautsprungverhältnisses empfängt das geschätzte saubere Sprachspektrum Ŝbpf(µ, k) und erzeugt daraus das Verhältnis Fratio-bl(k), das in einem Komparator 311 mit einem gegebenen Schwellenwert verglichen wird, um zu entscheiden, ob ein Reibelaut vorliegt oder nicht. Das Ergebnis der Entscheidung kann an ein Spracherkennungssystem (nicht gezeigt) oder ein anderes Sprachverarbeitungssystem weitergeleitet werden. Die vom Prozessor 300 ausgeführten Operationen können in der Zeitdomäne, der Frequenzdomäne, der Teilbanddomäne und gegebenenfalls in Kombinationen davon liegen.
-
4 ist ein Ablaufdiagramm, das ein beispielhaftes verbessertes Interframe-Reibelautdetektionsverfahren für verrauschte Sprachsignale veranschaulicht. Das Verfahren zum Detektieren von Reibelauten in einem verrauschten Sprachsignal 400, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet das Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen (Vorgang 401), und das Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen (Vorgang 402). Das Verfahren beinhaltet ferner das Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das repräsentativ für einen Frequenzbereich maximaler Reibelautenergie ist (Vorgang 403), und das Entscheiden, basierend auf dem maximalen Spektrum, ob ein Reibelaut in dem verrauschten Sprachsignal enthalten ist (Vorgang 404). Wahlweise wird das maximale Spektrum mit einem Filter gefiltert, der eine spezifische Kombination aus zwei Rauschreduzierungsfiltern ist, z. B. einem normalen (traditionellen) Rauschunterdrückungsfilter und einem dynamischen Rauschunterdrückungsfilter, wie oben detaillierter beschrieben (Vorgang 405). Wahlweise wird aus dem entsprechend abgeleiteten gefilterten maximalen Spektrum ein Reibelautsprungverhältnis bestimmt, wie es ebenfalls weiter oben beschrieben (Vorgang 406). Das Reibelautsprungverhältnis wird mit einem Schwellenwert verglichen (Vorgang 407), um ein Entscheidungssignal 408 bereitzustellen, das für die Entscheidung repräsentativ ist.
-
Das oben beschriebene Verfahren kann in einem computerlesbaren Medium wie einer CD-ROM, einer Platte, einem Flash-Speicher, einem RAM oder ROM, einem elektromagnetischen Signal oder einem anderen maschinenlesbaren Medium als Anweisungen zur Ausführung durch einen Prozessor codiert werden. Alternativ oder zusätzlich kann jede Art von Logik verwendet und als analoge oder digitale Logik unter Verwendung von Hardware umgesetzt werden, wie beispielsweise einer oder mehrerer integrierter Schaltungen (einschließlich Verstärker, Addier- und Verzögerungsmittel und Filter) oder einem oder mehreren Prozessoren, die die Verstärkungs-, Addier-, Verzögerungs- und Filteranweisungen ausführen; oder in Software in einer Anwendungsprogrammierschnittstelle (application programming interface - API) oder in einer Dynamic Link Library (DLL), Funktionen, die in einem gemeinsam genutzten Speicher verfügbar oder als lokale oder entfernte Vorgangsaufrufe definiert sind, oder als Kombination von Hardware und Software.
-
Das Verfahren kann durch Software und/oder Firmware umgesetzt werden, die auf oder in einem computerlesbaren Medium, einem maschinenlesbaren Medium, einem Ausbreitungssignalmedium und/oder einem Signalträgermedium gespeichert ist. Das Medium kann eine beliebige Vorrichtung umfassen, die ausführbare Anweisungen zur Verwendung durch oder in Verbindung mit einem System, Gerät oder einer Vorrichtung zur Ausführung von Anweisungen speichert, kommuniziert, verbreitet oder transportiert. Das maschinenlesbare Medium kann selektiv, ohne darauf beschränkt zu sein, ein elektronisches, magnetisches, optisches, elektromagnetisches oder infrarotes Signal oder ein Halbleitersystem, ein Gerät, eine Vorrichtung oder ein Ausbreitungsmedium sein. Eine nicht erschöpfende Liste von Beispielen eines maschinenlesbaren Mediums beinhaltet: eine magnetische oder optische Platte, einen flüchtigen Speicher, wie etwa einen Direktzugriffsspeicher (Random Access Memory - „RAM“), einen Nur-Lese-Speicher (Read-Only Memory - „ROM“), einen löschbaren programmierbaren Nur-Lese-Speicher (d. h. Erasable Programmable Read-Only Memory - EPROM) oder Flash-Speicher oder eine optische Faser. Ein maschinenlesbares Medium kann auch ein physisches Medium beinhalten, auf das ausführbare Anweisungen gedruckt sind, da die Logik elektronisch als Bild oder in einem anderen Format (z. B. durch einen optischen Scan) gespeichert, dann kompiliert und/oder interpretiert oder auf andere Weise verarbeitet werden kann. Das verarbeitete Medium kann dann in einem Computer- und/oder Maschinenspeicher gespeichert werden.
-
Die Systeme können zusätzliche oder andere Logik enthalten und können auf viele verschiedene Arten umgesetzt werden. Eine Steuerung kann als Mikroprozessor, Mikrosteuerung, anwendungsspezifische integrierte Schaltung (application specific integrated circuit - ASIC), diskrete Logik oder eine Kombination anderer Arten von Schaltungen oder Logik umgesetzt sein. Ebenso können die Speicher DRAM, SRAM, Flash oder andere Arten von Speicher sein. Parameter (z. B. Bedingungen und Schwellenwerte) und andere Datenstrukturen können separat gespeichert und verwaltet werden, können in einen einzelnen Speicher oder eine einzelne Datenbank integriert sein oder können auf viele verschiedene Arten logisch und physikalisch organisiert werden. Programme und Anweisungssätze können Teile eines einzelnen Programms, separate Programme oder auf mehrere Speicher und Prozessoren verteilt sein. Die Systeme können in einer Vielzahl von elektronischen Geräten beinhaltet sein, einschließlich eines Mobiltelefons, eines Kopfhörers, einer Freisprecheinrichtung, eines Speakerphones, einer Kommunikationsschnittstelle oder eines Infotainmentsystems.
-
Die Beschreibung von Ausführungsformen wurde zum Zwecke der Veranschaulichung und Beschreibung gegeben. Geeignete Modifikationen und Variationen der Ausführungsformen können im Lichte der obigen Beschreibung durchgeführt werden oder können aus der Durchführung der Verfahren erhalten werden. Beispielsweise können, sofern nicht anders angegeben, eines oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder eine Kombination von Vorrichtungen durchgeführt werden. Die beschriebenen Verfahren und zugehörigen Aktionen können zusätzlich zu der in dieser Anmeldung beschriebenen Reihenfolge auch in verschiedenen Reihenfolgen parallel und/oder gleichzeitig durchgeführt werden. Die beschriebenen Systeme sind beispielhafter Natur und können zusätzliche Elemente enthalten und/oder Elemente weglassen.
-
Wie in dieser Anmeldung verwendet, sollte ein Element oder Schritt, das bzw. der im Singular aufgeführt ist und dem das Wort „ein/e/r“ vorausgeht, so verstanden werden, dass der Plural dieser Elemente oder Schritte nicht ausgeschlossen ist, sofern ein solcher Ausschluss nicht angegeben ist. Ferner sollen Bezugnahmen auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht so ausgelegt werden, dass sie das Vorhandensein zusätzlicher Ausführungsformen ausschließen, die ebenfalls die genannten Merkmale enthalten. Die Begriffe „erster/erste/erstes“, „zweiter/zweite/zweites“ und „dritter/dritte/drittes“ usw. werden lediglich als Bezeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen oder eine bestimmte Positionsreihenfolge auferlegen.
-
Während verschiedene Ausführungsformen der Erfindung beschrieben wurden, ist es für den Fachmann offensichtlich, dass im Rahmen der Erfindung viel mehr Ausführungsformen und Umsetzungen möglich sind. Insbesondere wird der Fachmann die Austauschbarkeit verschiedener Merkmale aus unterschiedlichen Ausführungsformen erkennen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, versteht es sich, dass diese Techniken und Systeme über die spezifisch offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Modifikationen davon ausgedehnt werden können.