DE102019102414A1

DE102019102414A1 - Detektion von Reibelauten in Sprachsignalen

Info

Publication number: DE102019102414A1
Application number: DE102019102414.5A
Authority: DE
Inventors: Vasudev KANDADE RAJAN
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2020-08-06
Anticipated expiration: 2039-02-01
Also published as: CN111508512A; KR20200095370A; US20200251090A1; US11183172B2; DE102019102414B4

Abstract

Das Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet das Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen, und das Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen. Das Detektieren von Reibelauten beinhaltet ferner das Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich maximaler Reibelautenergie repräsentativ ist, und das Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie das Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.

Description

STAND DER TECHNIK
Technisches Gebiet
Die Offenbarung betrifft ein Verfahren und System (im Allgemeinen als „Verfahren“ bezeichnet) zur Detektion von Reibelauten in Sprachsignalen.
Verwandte Technik
Sprache enthält verschiedene Artikulierungen wie etwa Vokale, Reibelaute, Nasale usw. Diese Artikulierungen und andere Eigenschaften wie etwa kurzzeitige Leistung können genutzt werden, um die Sprachsignalverbesserung in Systemen, wie etwa in Rauschminderungssystemen und Spracherkennungssystemen, zu unterstützen. Üblicherweise wird in solchen Systemen ein als Stimmaktivierungsdetektor (voice activity detector - VAD) bezeichneter Detektor verwendet. Der Stimmaktivierungsdetektor erzeugt ein Detektionssignal, das, wenn binär, 0 oder 1 annimmt, um das Vorliegen oder Fehlen von Sprache anzuzeigen oder umgekehrt. Das Detektionssignal kann ferner Werte zwischen 0 und 1 annehmen, um eine weiche Entscheidung zu ermöglichen, die ein bestimmtes Maß oder eine bestimmte Wahrscheinlichkeit des Vorliegens von Sprache im Signal anzeigen kann. Das Detektionssignal kann beispielsweise auf verschiedene Stufen eines Sprachverbesserungssystems angewendet werden, wie etwa Echounterdrücker, Strahlformer, Rauschschätzer, Rauschminderungsstufen usw.
Ein Reibelaut kann als „stimmloser“ Teil einer Sprachsilbe definiert werden, der produziert wird, wenn Luft durch Zähne und Lippen gepresst wird. Laute wie /s/ in dem Wort „stop“, /sh/ in dem Wort „Shop“, /f/ in dem Wort „four“ sind Beispiele für Reibelaute. Die meisten Sprachen auf der Welt enthalten in gesprochener Sprache Reibelaute. Solche Laute zu detektieren ist schwierig, da sie technisch gesehen einem breitbandförmigen Rauschen ähneln. Bei korrekter Detektion können Reibelaute jedoch helfen, den Großteil der in Signalen präsenten Sprache zu identifizieren, und sie können normale Sprachaktivitätsdetektoren ergänzen. Somit besteht ein Bedarf, die Detektion von Reibelauten zu verbessern.
KURZDARSTELLUNG
Ein Verfahren zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet das Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen, und das Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen. Das Verfahren beinhaltet ferner das Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich maximaler Reibelautenergie repräsentativ ist, und das Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie das Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.
Ein System zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet mindestens eine Verarbeitungseinheit, die mit einem Eingang und einem Ausgang verbunden ist, und ist dazu konfiguriert, das verrauschte Sprachsignal mit einer ersten Übertragungsfunktion zu bandpassfiltern, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen, und das verrauschte Sprachsignal mit einer zweiten Übertragungsfunktion zu bandpassfiltern, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen. Die mindestens eine Verarbeitungseinheit ist ferner dazu konfiguriert, eine Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal anzuwenden, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich maximaler Reibelautenergie repräsentativ ist, und um basierend auf dem maximalen Spektrum zu entscheiden, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie um ein Entscheidungssignal bereitzustellen, das für die Entscheidung repräsentativ ist.
Andere Systeme, Verfahren, Merkmale und Vorteile sind oder werden für den Fachmann bei Prüfung der folgenden detaillierten Beschreibung und den angehängten Figuren ersichtlich sein. Es ist beabsichtigt, dass alle derartigen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile in dieser Beschreibung beinhaltet sind, innerhalb des Umfangs der Erfindung liegen und von den nachstehenden Ansprüchen geschützt sind.
Figurenliste
Das System lässt sich unter Bezugnahme auf die folgenden Zeichnungen und die Beschreibung besser verstehen. Die Komponenten in den Figuren sind nicht unbedingt maßstabsgerecht, vielmehr geht es darum, die Prinzipien der Erfindung zu veranschaulichen. Überdies bezeichnen in den Figuren ähnliche Bezugszeichen entsprechende Teile in den verschiedenen Ansichten.

1 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften geläufigen Detektionssystems veranschaulicht.
2 ist ein Amplitudenfrequenzdiagramm, das eine beispielhafte Übertragungsfunktion eines verbesserten Interframe-Reibelautdetektionssystems für verrauschte Sprachsignale veranschaulicht.
3 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften verbesserten Interframe-Reibelautdetektionssystems für verrauschte Sprachsignale veranschaulicht.
4 ist ein Ablaufdiagramm, das ein beispielhaftes verbessertes Interframe-Reibelautdetektionsverfahren für verrauschte Sprachsignale veranschaulicht.

DETAILLIERTE BESCHREIBUNG
Für saubere Sprache, also Sprache ohne begleitendes unerwünschtes Rauschen, können Reibelaute recht verlässlich detektiert werden. Analysen von Sprachsignalen und Artikulierungen haben gezeigt, dass Reibelaute hauptsächlich zwei Frequenzbereiche umfassen, wobei der eine zwischen 2 kHz und 4 kHz und der andere zwischen 4 kHz und 6 kHz liegt. Beispielsweise ermöglicht das Überwachen dieser Frequenzbereiche mit zwei Bandpassfiltern zur selben Zeit im Hinblick auf eine kurzzeitige Erhöhung der Energie eines Sprachsignals, verlässlich darauf zu schließen, ob das untersuchte Sprachsegment ein Reibelaut ist oder nicht. Eine Umsetzung eines solchen Systems ist in 1 gezeigt. Signale in der Frequenz- und Teilbanddomäne werden hierin auch als Spektren oder Spektralsignale bezeichnet. Nach gleichzeitigem Bandpassfiltern eines sauberen Sprachsignals mit zwei Bandpassfiltervorgängen 101 und 102 werden zwei gefilterte Spektren S_b1(µ, k) und S_b2(µ, k), die auf diese Weise abgeleitet werden, kombiniert, z. B. durch einen Summierungsvorgang 103. Die zwei gefilterten Spektren S_b1(µ, k) und S_b2(µ, k) in der Teilbanddomäne ergeben sich aus einem Spektrum S(µ, k) des sauberen Sprachsignals nach Filtern (in der Frequenz- oder Teilbanddomäne: Multiplizieren) mit einer jeweiligen Übertragungsfunktion H_bp1(µ, k) und H_bp2(µ, k) der zwei Bandpassfiltervorgänge 101 und 102 gemäß: $S_{b 1} (μ, k) = S (μ, k) \cdot H_{bp 1} (μ, k),$
$S_{b2} (μ, k) = S (μ, k) \cdot H_{bp2} (μ, k),$
wobei ein jeweiliges Teilband durch µ bezeichnet ist und ein jeweiliger (Zeit-)Rahmen durch k bezeichnet ist. Die Übertragungsfunktion H_bp1(µ, k) kann ein Durchlassband zwischen 2 kHz und 4 kHz beinhalten und die Übertragungsfunktion H_bp2(µ, k) kann ein Durchlassband zwischen 4 kHz und 6 kHz beinhalten, wie durch die jeweiligen Spektraldiagramme in 1 gezeigt. Die zwei durchlassbandgefilterten Spektren S_b1(µ,k) und S_b2(µ,k) werden kombiniert (in der Frequenz- oder Teilbanddomäne: addiert), um ein Spektrum S_bp(µ, k) zu erhalten, bei dem eine hohe Reibelautenergie erwartet wird, gemäß: $S_{bp} (μ, k) = S_{bp 1} (μ, k) \cdot S_{bp2} (μ, k) .$
Eine Reibelautdetektion wird durchgeführt, indem in einem Kurzzeitenergievergleichsvorgang 104 die bandbegrenzte Energie des aktuellen Rahmens mit der bandbegrenzten Energie des vorangehenden Rahmens verglichen wird. Ein Segment kann als Reibelaut klassifiziert werden, wenn die Energie |S_bp(µ,k)|² in allen Teilbändern eines Rahmens k größer als die Energie |S_bp(µ,k-1)|² im vorangehenden Rahmen k-1 ist, gemäß: $Reibelaut, wenn {| S_{bp} (μ, k) |}^{2} > {| S_{bp} (μ, k - 1) |}^{2}, \forall μ \in N_{Sbb}, sonst kein Reibelaut .$
Wenn dies nicht der Fall ist, wird das Segment als Nicht-Reibelaut klassifiziert. Die Rahmengröße für derartige Segmente kann aus einem Bereich zwischen 50 ms und 250 ms ausgewählt sein. In Sprachverbesserungssystemen kann diese Art von Detektion versagen, da die Eingangssignale für gewöhnlich verrauscht sind und es schwer bis unmöglich ist, zwischen (stationärem und nichtstationärem) Hintergrundrauschen und Reibelauten in Sprachsegmenten zu unterscheiden.
Um Reibelautsegmente verlässlicher in verrauschten Sprachsignalen zu detektieren, kann das oben beschriebene primäre Detektionsverfahren modifiziert und ergänzt werden, um dessen Detektionsleistung zu erhöhen, was unten als „Robustheit“ bezeichnet wird. Wie erwähnt, ist die Eingabe in einen Reibelautdetektor für gewöhnlich ein verrauschtes Sprachsignal, was hier in der Frequenzdomäne als Eingangsspektrum Y(µ, k) bezeichnet ist. Wie oben im Zusammenhang mit 1 beschrieben, wird das Eingangsspektrum bandpassgefiltert, sodass im gegenwärtigen Fall das Spektrum durch Ersetzen des sauberen Sprachspektrums S(µ, k) durch das verrauschte Sprachspektrum Y(µ, k) in Gleichung (1) und Gleichung (2) erhalten wird, was sich jeweils durch Gleichung (5) und Gleichung (6) beschreiben lässt: $Y_{b1} (μ, k) = Y (μ, k) \cdot H_{bp1} (μ, k),$
$Y_{b2} (μ, k) = Y (μ, k) \cdot H_{bp2} (μ, k),$
wobei H_bp1(µ,k) und H_bp2(µ,k) wiederum die Übertragungsfunktionen bezeichnen, die in den zwei Bandpassfiltervorgängen 101 und 102 eingesetzt werden, die in 1 gezeigt sind, und Y_b1(µ, k) und Y_b2(µ, k) zwei bandpassgefilterte Spektren bezeichnen, die von dem verrauschten Eingangsspektrum Y(µ, k) durch Filtern mit Übertragungsfunktionen H_bp1(µ,k) und H_bp2(µ,k) abgeleitet werden. Das verrauschte Eingangsspektrum Y(µ, k) ist die Kombination aus dem sauberen Sprachspektrum S(µ, k) und einem Hintergrundrauschspektrum B(µ, k).
Eine erste Maßnahme zum Verbessern der Robustheit eines verrauschten Eingangsspektrums besteht im Anwenden einer Maximum-Operation auf die zwei bandpassgefilterten Spektren Y_b1(µ, k) und Y_b2(µ, k). Die Spektralkomponenten der zwei bandpassgefilterten Spektren Y_b1(µ, k) und Y_b2(µ, k) können Reibelautenergie in einem beliebigen der Teilbänder enthalten. Ein Addieren der zwei Spektren würde höchstwahrscheinlich in einer unerwünschten Verschlechterung des Signal-Rausch-Verhältnisses resultieren. Die Maximum-Operation dagegen wählt genau diejenigen Teilbänder aus der Größe der zwei bandpassgefilterten Spektren Y_b1(µ, k) und Y_b2(µ, k) aus, die im Vergleich mit dem anderen größer sind. Auf diese Art und Weise werden nur die Hochenergie-Teilbänder zur weiteren Verarbeitung ausgewählt. Die Maximum(argmax)-Operation gibt diejenigen Teilbänder aus, die im Vergleich mit dem entsprechenden Teilband des jeweils anderen Spektrums die maximale Energie enthalten, um ein maximales Spektrum Y_bpm(µ, k) gemäß Gleichung (7) zu erhalten: $Y_{bpm} (μ, k) = {argmax}_{μ} (max | Y_{b1} (μ, k) |, | Y_{b2} (μ, k) |) .$
Somit wird der Frequenzbereich maximaler Reibelautenergie entweder durch den Bandpassfiltervorgang 101 (z. B. zwischen 2k Hz und 4 kHz) oder den Bandpassfiltervorgang 102 (z. B. 4 kHz und 6 kHz) detektiert, d. h. dem Frequenzbereich, der die maximale Größe oder (Gesamt-)Energie beinhaltet. Ferner können nur Segmente, die ausreichend Energie enthalten, ausgewählt werden, da die Maximum-Operation per Teilband angewendet werden kann.
Das Detektieren von Reibelauten auf dem bandpassgefilterten Spektrum allein ist bei variierenden Szenarien von Hintergrundrauschen möglicherweise nicht ausreichend. Zum Filtern von verrauschten Sprachsignalen, um (geschätzte) saubere Sprache zu erhalten, können verschiedene Filterarten angewendet werden, wie etwa normale (traditionelle) oder modifizierte Wiener-Filterung oder dynamische Rauschunterdrückung.
Die Funktion eines Rauschreduzierungsfilters wie etwa eines Wiener-Filters besteht darin, Rauschen zu unterdrücken und dadurch das Signal-Rausch-Verhältnis (signalto-noise ratio - SNR) des Signals zu erhöhen. Das Bestimmen des Signal-Rausch-Verhältnisses eines Signals beinhaltet Operationen der Größenquadrierung. Aus der Definition des Signal-Rausch-Verhältnisses ist ersichtlich, dass es zum Erhöhen des Signal-Rausch-Verhältnisses ausreichend sein kann, nur die Größe des Signals zu verarbeiten. In der Frequenzdomäne kann ein Rauschunterdrückungsfilter, der eine Übertragungsfunktion H(e^jΩ) aufweist, wobei e^jΩ eine komplexe Frequenz ist, angewendet werden, um eine Schätzung Ŝ(e^jΩ) sauberer Sprache zu erhalten, gemäß $\hat{S} (e^{j Ω}) = H (e^{j Ω}) \cdot Y (e^{j Ω}),$
wobei Y(e^jΩ) das verrauschte Eingangsspektrum als Eingabe in das Mikrofon darstellt und wie folgt beschrieben werden kann: $Y (e^{j Ω}) = S (e^{j Ω}) + B (e^{j Ω}) .$
S(e^jΩ) stellt Sprachkomponenten dar, die in der Mikrofoneingabe enthalten sind, und B(e^jΩ) stellt Komponenten eines Hintergrundrauschens dar, die in der Mikrofoneingabe und -ausgabe enthalten sind, d. h. zu unterdrückendes Rauschen. Die Situation kann somit als ein Einzelkanal-Rauschreduzierungsproblem betrachtet werden. Der Filter mit der Übertragungsfunktion H(e^jΩ), der das Hintergrundrauschen B(e^jΩ) unterdrücken soll, ist abhängig von den Eigenschaften des Hintergrundrauschens B(e^jΩ) Wenn das Hintergrundrauschen B(e^jΩ) bei einer bestimmten Festfrequenz auftaucht, kann der Filter dazu ausgestaltet sein, eine Dämpfung bei dieser bestimmten Festfrequenz (falls bekannt) aufzuweisen, um beispielsweise Rauschartefakte zu entfernen, die von einer Stromleitung bei Oberwellen der Stromleitungsfrequenz erzeugt werden. Dies kann beispielsweise durch einen Festfilter erzielt werden.
Hintergrundrauschen unterscheidet sich jedoch im Allgemeinen von beispielsweise konstantem Rauschen bei einer festen Frequenz. Manche Eigenschaften von Hintergrundrauschen sind ihrer Art nach statistisch und können am besten durch ihre Wahrscheinlichkeitsverteilungen, erste Momente, zweite Momente usw. beschrieben werden. Einzelkanalsprachverbesserung kann statistisches Filtern wie etwa Wiener-Filterung zur Rauschreduzierung eines verrauschten Signals umfassen. Wiener-Filterung minimiert die Erwartung des Mittelwerts eines quadratischen Fehlersignals. Das Fehlersignal ist die Differenz zwischen dem gewünschten Signal und dem geschätzten gewünschten Signal. Die Wiener-Lösung kann ausgeweitet werden, um auf Rauschreduzierung in Sprachanwendungen anwendbar zu sein. Die Wiener-Lösung oder die optimale Filterübertragungsfunktion H_wiener(e^jΩ) zur Rauschreduzierung im Sinne einer Minimierung des mittleren quadratischen Fehlers in der Frequenzdomäne ergibt sich aus $H_{w i e n e r} (e^{j Ω}) = \frac{S_{s s} (e^{j Ω})}{S_{s s} (e^{j Ω}) + S_{b b} (e^{j Ω})} .$
Der Begriff S_ss(e^jΩ) stellt die Leistungsspektraldichte (power spectral density - PSD) des Signals von Interesse dar und S_bb(e^jΩ) stellt die Leistungsspektraldichte des Hintergrundrauschens dar. Die Gleichung (10) beschreibt die Leistungsspektraldichte des Signals von Interesse S_ss(e^jΩ), die nicht zugänglich ist. Angenommen, das gewünschte Signal und die Verzerrung sind orthogonal, kann das verrauschte Eingangsspektrum durch folgende Gleichung (11) beschrieben werden: $S_{y y} (e^{j Ω}) = S_{s s} (e^{j Ω}) + S_{b b} (e^{j Ω}) .$
Die Gleichung (10) ist in der Frequenzdomäne formuliert und kann in der Teilbanddomäne neu geschrieben werden, d. h. sie kann gemäß der folgenden Gleichung (12) beschrieben werden: $H_{w i e n e r} (μ, k) = 1 - \frac{{\hat{B}}^{2} (μ, k)}{{| Y (μ, k) |}^{2}} .$
Der Wiener-Filter kann somit durch eine Teilbanddomänen-Übertragungsfunktion H_wiener(µ, k) bezeichnet werden und kann als Teilbanddämpfungsfilter abhängig von dem Signal-Rausch-Verhältnis pro Teilband µ im Rahmen k betrachtet werden. B̂(µ, k) bezeichnet das geschätzte Hintergrundrauschspektrum und Y(µ, k) bezeichnet das Eingangsspektrum. Der normale Wiener-Filter, der in der Teilbanddomäne durch seine Übertragungsfunktion H_wf(µ,k) bezeichnet ist, unterdrückt Rauschen nach Schätzung einer Schätzeinrichtung für Hintergrundrauschen gemäß: $H_{w f} (μ, k) = m a x {1 - \frac{Λ_{o-est} \cdot {\hat{B}}^{2} (μ, k)}{{| Y_{b p m} (μ, k) |}^{2}}, H_{f l o o r}} .$
wobei Λ_ο-est einen Rauschüberschätzungsfaktor bezeichnet und H_floor ein festgesetztes Minimum für das Filtern bezeichnet.
Es gibt mehrere Ansätze für das Schätzen der Leistungsspektraldichte von Rauschen. Beispielsweise werden hierin zwei Schätzvorgänge besprochen, bei denen es sich zum einen um einen Basis-PSD-Rauschschätzer und zum anderen um einen fortgeschrittenen Leistungsspektraldichte-Rauschschätzer handelt, der auf einem verrauschten Signalmodell und einem Basis-PSD-Rauschschätzer basiert. Gemäß dem verrauschten Signalmodell werden Rausch- und Sprachsignale als gegenseitig orthogonale Zufallsprozesse modelliert und die Kreuzterme werden Null, weshalb ihre Leistungsspektraldichten direkt wie in Gleichung (14) gezeigt addiert werden können: ${| Y (μ, k) |}^{2} = {| S (μ, k) |}^{2} + {| B (μ, k) |}^{2} .$
Der Basis-PSD-Rauschschätzer basiert auf einem multiplikativen zeitkonstantenbasierten Ansatz und wird betrieben, um das geglättete, verrauschte Eingangsgrößen-Spektrum in Schritten mit festen Konstanten zu verfolgen. Dieser Vorgang wird basierend auf den vorherigen Rauschleistungsschätzungen durchgeführt, um die aktuelle Rauschleistungsschätzung zu berechnen. Der Ansatz ähnelt dem zeitrekursiven Ansatz, jedoch wird hier nur die vorherige Rauschschätzung verwendet, anstatt sie in Kombination mit der aktuellen Eingangsgröße zu verwenden. Eine solche Rauschschätzung kann durch Folgendes beschrieben werden: ${\hat{B}}_{b a s i c} (μ, k) = Δ_{b a s i c} (μ, k) \cdot {\hat{B}}_{b a s i c} (μ, k - 1),$
wobei B̂_basic(µ, k) die Schätzung des (Hintergrund-)Rauschspektrums für den aktuellen Rahmen k ist, B̂_basic(µ, k - 1) die Schätzung des (Hintergrund-)Rauschspektrums für den vorangehenden Rahmen k-1 ist und Δ_basic(µ, k) die Zeit-Frequenz-variierende multiplikative Konstante ist, die gemäß Folgendem bestimmt werden kann: $Δ_{b a s i c} (μ, k) = {_{s o n s t Δ_{d e c} .}^{Δ_{i n c}, i f \bar{Y} (μ, k) > {\hat{B}}_{b a s i c} (μ, k - 1)}$
Eine inkrementelle multiplikative Konstante Δ_inc wird als die sich zeitlich und frequenzmäßig ändernde multiplikative Konstante Δ_basic(µ, k) ausgewählt, wenn das geglättete Eingangsfehlergrößenspektrum Y(µ, k) größer als die vorherige Rauschschätzung ist, sonst wird eine dekrementelle multiplikative Konstante Δ_dec ausgewählt. Das geglättete Fehlergrößenspektrum Y(µ, k) kann durch die nachstehende Gleichung (17) beschrieben werden.
Durch das Glätten wird die Varianz des Eingangsfehlergrößenspektrums Y(µ, k) verringert. Das Glätten kann über Zeit(-rahmen) hinweg in jedem Teilband durchgeführt werden. Das Glätten des Eingangsfehlerspektrums kann durch einen Filter mit unendlicher Impulsantwort (Infinite Impulse Response - IIR) erster Ordnung durchgeführt werden, was wie folgt beschrieben werden kann: $\bar{Y} (μ, k) = a_{y} Y_{m a g} (μ, k) + (1 - a_{y}) \bar{Y} (μ, k - 1)$
wobei α_y eine glättende Konstante bezeichnet, Y(µ, k - 1) ein vorhergehendes geglättetes Eingangsfehlergrößenspektrum bezeichnet und Y_mag(µ, k) gemäß Folgendem bestimmt wird: $Y_{m a g} (μ, k) = | R {Y (μ, k)} | + | ℑ {Y (μ, k)} | .$
Das Verfolgen des Rauschleistungsschätzers hängt von dem geglätteten Eingangsgrößenspektrum ab, wobei ℜ den echten Teil und ℑ den imaginären Teil bezeichnet.
Im Vergleich zur Wiener-Filterung ist die dynamische Rauschunterdrückung in Bezug auf die Rauschunterdrückung aggressiver. Die dynamische Rauschunterdrückung soll das Rauschen gemäß einer Zielrauschform formen. Wiener-Rauschunterdrückungsfilterung verbessert das Signal-Rausch-Verhältnis eines verrauschten Eingangssignals, was für Rahmen wünschenswert ist, die Sprachsignale enthalten. In Rahmen, die nur (Hintergrund-)Rauschen enthalten, ist die Wiener-Filterung manchmal nicht wünschenswert oder bietet eine unzureichende Rauschunterdrückung. Solche Nachteile können in praktischen Situationen auftreten, in denen z. B. eine Kommunikationsvorrichtung an einem beliebigen Ort und überall platziert werden kann, sodass hochgradig nichtstationäres Rauschen von PSD-Rauschschätzern nicht verfolgt werden kann. Ferner kann ein stark nichtstationäres Rauschen für einen Zuhörer extrem störend sein.
Allgemein gesagt kann die Rauschformung alles sein, einschließlich beispielsweise das Anwenden einer festen Rauschform oder einer festen Filterung auf Restrauschen. Im Zusammenhang mit der Rauschreduzierung kann die Systemrauschgrößenformung so durchgeführt werden, dass hochdynamische Schwankungen und Variationen des verrauschten Eingangsspektrums gesteuert werden. Eine Möglichkeit, dies zu erreichen, besteht darin, die gewünschte Rauschform vorzugeben. Auf diese Weise kann ein geeigneter Filter so gestaltet sein, dass der Ausgang der Rauschgrößenformung gleich der gewünschten Rauschform ist. Um eine dynamische Rauschunterdrückung zu erzielen, ist es notwendig, die Größenform des gewünschten Restrauschens zu bestimmen. Die dynamische Rauschunterdrückung kann die gewünschte Rauschgrößenform entweder auf Grundlage des Eingangsgrößenspektrums oder seiner geglätteten Version abschätzen (siehe obige Gleichung (18)). Da das verrauschte Eingangsspektrum sehr dynamisch ist, würde eine vordefinierte und feste Form zu einem extrem „statisch“ klingenden Restrauschen führen. Um das Restrauschen für den Hörer natürlicher und angenehmer klingen zu lassen, kann die gewünschte Rauschform auf spezifische Weise aus dem verrauschten Eingangsspektrum geschätzt und „extrahiert“ (z. B. herausgefiltert) werden. Beispielsweise kann eine Langzeitschätzung des verrauschten Eingangsgrößenspektrums als gewünschte Form des Restrauschens verwendet werden. Eine solche langfristige Schätzung kann wie durch die Gleichungen (19) und (20) beschrieben erhalten werden: $Δ_{d e l t a - s h a p e}^{delta} (μ, k) = \frac{Y_{d e s - s h a p e} (μ, k-1)}{\bar{Y} (μ, k)},$
wobei $Δ_{d e l t a - s h a p e}^{delta} (μ, k)$
eine inkrementelle oder dekrementelle Konstante bezeichnet und Y_des-shape(µ, k) eine gewünschte Rauschgrößenform bezeichnet, z. B. einen langsamen, auf multiplikativen Konstanten basierenden Tracker, der wie folgt beschrieben werden kann: $Y_{d e s - s h a p e} (μ, k) {\begin{array}{l} Y_{d e s - s h a p e} (μ, k - 1) \cdot Δ_{d e l t a - s h a p e}^{delta} (μ, k), \\ i f \frac{Y_{d e s - s h a p e} (μ, k-1)}{\bar{Y} (μ, k)} > 1,5 o d e r \frac{Y_{d e s - s h a p e} (μ, k-1)}{\bar{Y} (μ, k)} < 0,5, \\ s o n s t Y_{d e s - s h a p e} (μ, k - 1) . \end{array}$
Die gewünschte Rauschgrößenform Y_des-shape(µ, k) wird durch Multiplizieren der vorherigen Schätzung der Rauschgrößenform mit der inkrementellen oder dekrementellen Konstante $Δ_{d e l t a - s h a p e}^{delta} (μ, k)$
erhalten. Der Abstand des aktuellen Rahmens zur gewünschten Größe wird mit einer Schwelle von 1,5 und 0,5 berechnet, die geändert oder angepasst werden kann. Der Algorithmus sieht auch eine „Haltezeit“ vor, während der die gewünschte Form nicht aktualisiert wird.
Die dynamische Rauschunterdrückung kann eine Vielzahl von (z. B. fünf) Parametern verwenden, die abgestimmt sind. Diese Parameter beeinflussen das Verhalten der dynamischen Rauschunterdrückung in verschiedenen Situationen. Wie bereits in Verbindung mit Gleichung (20) erörtert, kann eine gewünschte Größe basierend auf dem Abstand zwischen der vorherigen gewünschten Größe und den Größen des aktuellen geglätteten Eingangsspektrums bestimmt werden. Dieser Vorgang kann modifiziert werden, indem die inkrementelle oder dekrementelle Konstante $Δ_{d e l t a - s h a p e}^{delta} (μ, k)$
durch feste Konstanten ersetzt wird, wenn der Abstand größer als 1,5 oder geringer als 0,5 ist. Diese festen Verfolgungskonstanten können auf einen festen Wert (z. B. 1 dB/s) für den Inkrementteil und auf einen anderen festen Wert (z. B. -6 dB/s) für den Dekrementteil eingestellt werden.
Ein anderer Abstimmparameter kann sich mit der spektralen Glättung (Glättung über Frequenz) der bestimmten Unterdrückungsfaktoren durch eine Glättungskonstante a _Y befassen, die so abgestimmt sein kann, dass der Übergang von einem Rahmen zum anderen für den Hörer am anderen Ende glatter ist. Die Lautstärke des unterdrückten Signals kann effektiv durch zwei Überschätzungsparameter $Λ_{d y n - s u p p}^{o - est}$
und $Λ_{d y n - s h a p e}^{o - est}$
wirksam gesteuert werden, wobei der eine Schätzungsparameter $Λ_{d y n - s h a p e}^{o - est}$
den Breitbandpegel der gewünschten Größe steuert und der andere Schätzungsparameter $Λ_{d y n - s u p p}^{o - est}$
den Breitbandpegel der Unterdrückungsfaktoren steuert. Für praktische Abstimmungszwecke wird der Parameter $Λ_{d e s - s h a p e}^{o - est}$
auf einen Faktor des Wiener-Filterbodens H_floor eingestellt. Schließlich werden die beiden Parameter, die die maximale und die minimale Unterdrückung steuern, die vom dynamischen Rauschunterdrückungsfilter angewendet werden, durch die maximalen und minimalen Unterdrückungsparameter $H_{d y n}^{m a x}$
und $H_{d y n}^{m i n}$
gesteuert. Wenn der dynamische Rauschunterdrückungsfilter angewendet wird, können die musikalischen Rauschartefakte hörbar sein. Dies kann durch Einstellen der maximalen und minimalen Unterdrückungsparameter $H_{d y n}^{m a x}$
und $H_{d y n}^{m i n}$
behoben werden.
Eine modifizierte Version der dynamischen Unterdrückung, die von einer Übertragungsfunktion H_dyf(µ, k) dargestellt wird, kann angewendet werden, und diese lässt sich wie folgt beschreiben: $H_{d y f} (μ, k) = Λ_{d y n - s u p p}^{o - est} \cdot {\bar{Y}}_{b m p - s u p p} (μ, k),$
wobei die geglätteten Unterdrückungsfaktoren Y _bmp-supp(µ, k) mit einem Steuerparameter a $Λ_{d y n - s u p p}^{o - est}$
multipliziert werden können. Die geglätteten Unterdrückungsfaktoren Y _bmp-supp(µ, k) können durch Gleichung 22 bestimmt werden: ${\bar{Y}}_{b m p - s u p p} (μ, k) = \propto_{\bar{Y}} \cdot Y_{b m p - s u p p} (μ, k) + (1 - \propto_{\bar{Y}}) \cdot {\bar{Y}}_{s u p p} (μ - 1, k) .$
Mit den verfügbaren Unterdrückungsfaktoren wird der endgültige „dynamische“ Rauschunterdrückungsfilter, der eine Übertragungsfunktion Ĥ_dyn(µ, k) aufweist, bestimmt, indem einfach die berechneten Unterdrückungsfaktoren um den Betrag der gewünschten Unterdrückung verschoben werden, der gegeben ist durch: ${\hat{H}}_{d y n} (μ, k) = Λ_{d y n - s u p p}^{o - est} \cdot {\bar{Y}}_{s u p p} (μ, k),$
wobei die geglätteten Unterdrückungsfaktoren erneut mit einem Steuerparameter $Λ_{d y n - s u p p}^{o - est}$
ergänzt werden können. Dieser Parameter wird normalerweise basierend auf dem Grundrauschen H_floor eingestellt, um den Unterdrückungsgrad zu berücksichtigen, der bei dem dynamischen Unterdrückungsverfahren angewendet wird. Um unerwünschtes musikalisches Rauschen zu steuern, kann der Unterdrückungsfilter auf einen Maximal- und einen Minimalwert begrenzt werden, die gegeben sind durch: $H_{d y n} (μ, k) = m a x (m i n ({\hat{H}}_{d y n} (μ, k), {\hat{H}}_{d y n} (μ, k), H_{d y n}^{m i n}), H_{d y n}^{m a x}),$
wobei der minimale und der maximale Wert während des Abstimmungsprozesses eingestellt werden.
Wie zu sehen ist, werden die normalen H_wf(µ, k) und die dynamischen Unterdrückungsfilter H_dyf(µ, k) in einer geschlossenen Gleichung kombiniert: $H_{d w f} (μ, k) = {\begin{matrix} H_{d y f} (μ, k), i f μ_{b p - l o w} > μ o d e r μ > μ_{b p - h i g h} \\ s o n s t H_{w f} (μ, k) . \end{matrix}$
Ein so abgeleiteter Rauschunterdrückungsfilter weist eine Übertragungsfunktion H_dwf(µ, k) auf, die durch Kombinieren von zwei Rauschunterdrückungsfiltern erhalten wird, z. B. einem normalen und einem dynamischen Rauschunterdrückungsfilter, basierend auf dem Frequenzfach, für das die Übertragungsfunktion H_dwf(µ, k) außerhalb eines vorgegebenen Frequenzbereichs zwischen einer niedrigeren Frequenz µ_bp-low und einer höheren Frequenz µ_bp-high liegt. Die Übertragungsfunktion H_wf(µ, k) wird für den (Bandpass-)Frequenzbereich gewählt, in dem die Reibelautenergie erwartet wird. Eine beispielhafte Übertragungsfunktion H_wf(µ, k) ist in 2 anhand eines Amplitudenfrequenzdiagramms dargestellt.
Das oben beschriebene Filterverfahren ermöglicht es, das Hintergrundrauschen im Reibelautbereich ausreichend zu entfernen, ohne gleichzeitig die Reibelautenergie zu beeinträchtigen. Signale mit Frequenzen außerhalb des Bereichs der Reibelautenergie werden wie Rauschen behandelt. Eine Übertragungsfunktion (üblicherweise auch als Charakteristik oder Charakteristiken bezeichnet) einer solchen Unterdrückungsfilterung kann etwa die durch Gleichung (21) beschriebene sein. Die ermittelte Übertragungsfunktion H_dwf(µ, k) wird dann auf das Ergebnis der Maximum-Operation Y_bpm(µ, k) angewendet, um das Spektrum zu erhalten, das von Außerbandrauschen und auch stationärem und nicht stationärem Hintergrundrauschen befreit ist, was hierin durch Ŝ_bpf(µ, k) dargestellt ist. Dies lässt sich durch Gleichung (26) beschreiben: ${\hat{S}}_{bpf} (μ, k) = Y_{bpm} (μ, k) \cdot H_{dwf} (μ, k) .$
Gemäß Gleichung (4) werden die Energien eines aktuellen Rahmens k und eines vorherigen Rahmens k-1 miteinander verglichen. Das Vergleichen der Energien aufeinanderfolgender Rahmen ist eine optionale Art der Detektion, eine andere, robustere Art besteht darin, einen Parameter θ für den Vergleich zu verwenden, der ein vergangenes Sprachsegment identifiziert. Parameter θ ist abhängig von dem im verrauschten Sprachsignal enthaltenen „Hintergrundrauschen“. Wenn das Hintergrundrauschen in einem bestimmten Rahmen hoch ist, würde die Detektion in Situationen mit starkem nicht stationären Rauschen fehlschlagen. Sprachverbesserungsanwendungen können erheblich variieren, wie in Automobilanwendungen oder in Anwendungen mit intelligenten Lautsprechern in lauten Umgebungen. Daher kann der Parameter θ im Hinblick auf die aktuelle Hintergrundrauschsituation geschätzt werden. Ferner kann ein Reibelautsprungverhältnis F_ratio(k) basierend auf einer Summe von nicht stationärem Hintergrundrauschen Ŝ_bpf(µ, k) pro Teilband anstelle der einzelnen Teilbänder bestimmt werden, gemäß: $F_{r a t i o} (k) = \frac{\sum_{μ=0}^{N_{S b b}} | {\hat{S}}_{b p f} (μ, k) |}{\sum_{μ=0}^{N_{S b b}} | {\hat{S}}_{b p f} (μ, k - θ) |}$
Das Reibelautsprungverhältnis F_ratio(k) kann für die Detektion zum Vergleich mit einem Schwellenwert verwendet werden.
Um die Detektion robuster gegen Einflüsse des Hintergrundrauschens zu machen, kann das Reibelautsprungverhältnis F_ratio(k) im Teilbandbereich auf eine untere Frequenz µ_fr-min und eine obere Frequenz µ_fr-max bandbegrenzt werden. Beispielsweise kann die untere Frequenz µ_fr-min auf ungefähr 1500 Hz und die obere Frequenz µ_fr-max auf ungefähr 6000 Hz eingestellt werden. Die Begrenzung der Bandbreite ermöglicht eine frühere Detektion, ein höheres spektrales Signal-Rausch-Verhältnis (pro Teilband) im gewählten Frequenzbereich und damit eine höhere Detektionswahrscheinlichkeit und eine höhere Robustheit in einer Vielzahl von verrauschten Umgebungen. Ein bandbegrenztes Reibelautsprungverhältnis F_ratio-bl(k) kann beschrieben werden durch $F_{r a t i o - b l} (k) = \frac{\sum_{μ_{f r - m i n}}^{μ_{f r - m a x}} | {\hat{S}}_{b p f} (μ, k) |}{\sum_{μ_{f r - m i n}}^{μ_{f r - m a x}} | {\hat{S}}_{b p f} (μ, k - θ) |}$
Basierend auf den oben beschriebenen Maßnahmen zur Erhöhung der Robustheit können Reibelautsegmente in einem verrauschten Sprachsignal zuverlässiger detektiert werden, indem das bandbegrenzte Reibelautsprungverhältnis F_ratio-bl(k) mit einem Schwellenwert verglichen wird, der wie folgt gegeben ist: $Reibelaut {, wenn F}_{ratio-bl} (k) > F_{thr}, sonst kein Reibelaut .$
Reibelaute in Sprachsignalen können als Vordetektor verwendet werden, um andere Algorithmen zur Detektion von Stimmaktivitäten zu unterstützen, die z. B. in Rauschunterdrückungssystemen verwendet werden. Wie oben erläutert, kann in einem Verfahren zum Detektieren von Reibelauten in verrauschten Sprachrahmen das primäre Verfahren zur Reibelautdetektion durch mindestens eine von drei Maßnahmen zur Verbesserung der Robustheit verbessert werden.
3 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften Interframe-Reibelautdetektionsverfahrens für verrauschte Sprachsignale veranschaulicht, das auf dem oben detaillierter beschriebenen Verfahren basiert und das mittels eines Programmcodes umgesetzt ist, der von einer Verarbeitungseinheit 300 wie etwa einer Steuerung, einem Mikroprozessor, einem Mikrocomputer oder dergleichen ausgeführt wird. Ein erster Bandpassfilter 301, ein zweiter Bandpassfilter 302 und ein Hintergrundrauschschätzer 303 sind im Prozessor 300 umgesetzt und empfangen ein verrauschtes Sprachsignal y(t) der Zeit(t)-Domäne von z. B. einem Mikrofon 304 über einen Signalpfad 305, der eine Vielzahl von Signalverarbeitungsblöcken (nicht gezeigt) wie etwa einen Verstärker, einen oder mehrere Filter, einen Analog-Digital-Wandler, ein Zeit-Frequenz-Domänenwandler usw. beinhalten kann. Das verrauschte Zeitdomäne-Sprachsignal kann auch durch sein Spektrum beschrieben werden, das hier als Eingangsspektrum Y(µ, k) bezeichnet wird.
Über die beiden Bandpassfilter 301 und 302, die den oben in Verbindung mit 1 beschriebenen Bandpassfiltern 101 und 102 ähnlich oder mit ihnen identisch sein können, werden zwei Teilspektren Y_b1(µ, k) und Y_b2(µ, k) erzeugt. Die beiden Teilspektren Y_b1(µ, k) und Y_b2(µ, k) werden einem Maximaldetektor 306 zugeführt, der das Maximum der beiden Teilspektren Y_b1(µ, k) und Y_b2(µ, k), die einem kombinierten Filter 307, einem ersten Rauschunterdrücker 308 und einem zweiten Rauschunterdrücker 309 als Spektrum Y_bpm(µ, k) bereitzustellen sind, auswählt. Der erste Rauschunterdrücker 308 wird in einer Weise betrieben, die weiter oben als „normale (Art der) Rauschunterdrückung“ beschrieben und bezeichnet ist, und er gibt ein erstes unterdrücktes Spektrum aus, das oben als Spektrum H_wf(µ, k) bezeichnet ist. Der zweite Rauschunterdrücker 309 wird in einer Weise betrieben, die weiter oben als „dynamische (Art der) Rauschunterdrückung“ beschrieben und bezeichnet ist, und er gibt ein zweites unterdrücktes Spektrum aus, das oben als Spektrum H_dyf(µ, k) bezeichnet ist. Der erste Rauschunterdrücker 308 und der zweite Rauschunterdrücker 309 empfangen ferner das geschätzte Hintergrundrauschspektrum B̂(µ, k), das von dem Hintergrundrauschschätzer 303 bereitgestellt wird. Der kombinierte Filter 307 empfängt neben dem Spektrum Y_bpm(µ, k) von dem Maximaldetektor 306 die Spektren H_wf(µ, k) und H_dyf(µ, k) vom ersten Rauschunterdrücker 308 und vom zweiten Rauschunterdrücker 309 und liefert das geschätzte saubere Sprachspektrum Ŝ_bpf(µ, k). Ein Block 310 zum Erzeugen eines bandbegrenzten Reibelautsprungverhältnisses empfängt das geschätzte saubere Sprachspektrum Ŝ_bpf(µ, k) und erzeugt daraus das Verhältnis Fratio-bl(k), das in einem Komparator 311 mit einem gegebenen Schwellenwert verglichen wird, um zu entscheiden, ob ein Reibelaut vorliegt oder nicht. Das Ergebnis der Entscheidung kann an ein Spracherkennungssystem (nicht gezeigt) oder ein anderes Sprachverarbeitungssystem weitergeleitet werden. Die vom Prozessor 300 ausgeführten Operationen können in der Zeitdomäne, der Frequenzdomäne, der Teilbanddomäne und gegebenenfalls in Kombinationen davon liegen.
4 ist ein Ablaufdiagramm, das ein beispielhaftes verbessertes Interframe-Reibelautdetektionsverfahren für verrauschte Sprachsignale veranschaulicht. Das Verfahren zum Detektieren von Reibelauten in einem verrauschten Sprachsignal 400, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet das Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen (Vorgang 401), und das Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen (Vorgang 402). Das Verfahren beinhaltet ferner das Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das repräsentativ für einen Frequenzbereich maximaler Reibelautenergie ist (Vorgang 403), und das Entscheiden, basierend auf dem maximalen Spektrum, ob ein Reibelaut in dem verrauschten Sprachsignal enthalten ist (Vorgang 404). Wahlweise wird das maximale Spektrum mit einem Filter gefiltert, der eine spezifische Kombination aus zwei Rauschreduzierungsfiltern ist, z. B. einem normalen (traditionellen) Rauschunterdrückungsfilter und einem dynamischen Rauschunterdrückungsfilter, wie oben detaillierter beschrieben (Vorgang 405). Wahlweise wird aus dem entsprechend abgeleiteten gefilterten maximalen Spektrum ein Reibelautsprungverhältnis bestimmt, wie es ebenfalls weiter oben beschrieben (Vorgang 406). Das Reibelautsprungverhältnis wird mit einem Schwellenwert verglichen (Vorgang 407), um ein Entscheidungssignal 408 bereitzustellen, das für die Entscheidung repräsentativ ist.
Das oben beschriebene Verfahren kann in einem computerlesbaren Medium wie einer CD-ROM, einer Platte, einem Flash-Speicher, einem RAM oder ROM, einem elektromagnetischen Signal oder einem anderen maschinenlesbaren Medium als Anweisungen zur Ausführung durch einen Prozessor codiert werden. Alternativ oder zusätzlich kann jede Art von Logik verwendet und als analoge oder digitale Logik unter Verwendung von Hardware umgesetzt werden, wie beispielsweise einer oder mehrerer integrierter Schaltungen (einschließlich Verstärker, Addier- und Verzögerungsmittel und Filter) oder einem oder mehreren Prozessoren, die die Verstärkungs-, Addier-, Verzögerungs- und Filteranweisungen ausführen; oder in Software in einer Anwendungsprogrammierschnittstelle (application programming interface - API) oder in einer Dynamic Link Library (DLL), Funktionen, die in einem gemeinsam genutzten Speicher verfügbar oder als lokale oder entfernte Vorgangsaufrufe definiert sind, oder als Kombination von Hardware und Software.
Das Verfahren kann durch Software und/oder Firmware umgesetzt werden, die auf oder in einem computerlesbaren Medium, einem maschinenlesbaren Medium, einem Ausbreitungssignalmedium und/oder einem Signalträgermedium gespeichert ist. Das Medium kann eine beliebige Vorrichtung umfassen, die ausführbare Anweisungen zur Verwendung durch oder in Verbindung mit einem System, Gerät oder einer Vorrichtung zur Ausführung von Anweisungen speichert, kommuniziert, verbreitet oder transportiert. Das maschinenlesbare Medium kann selektiv, ohne darauf beschränkt zu sein, ein elektronisches, magnetisches, optisches, elektromagnetisches oder infrarotes Signal oder ein Halbleitersystem, ein Gerät, eine Vorrichtung oder ein Ausbreitungsmedium sein. Eine nicht erschöpfende Liste von Beispielen eines maschinenlesbaren Mediums beinhaltet: eine magnetische oder optische Platte, einen flüchtigen Speicher, wie etwa einen Direktzugriffsspeicher (Random Access Memory - „RAM“), einen Nur-Lese-Speicher (Read-Only Memory - „ROM“), einen löschbaren programmierbaren Nur-Lese-Speicher (d. h. Erasable Programmable Read-Only Memory - EPROM) oder Flash-Speicher oder eine optische Faser. Ein maschinenlesbares Medium kann auch ein physisches Medium beinhalten, auf das ausführbare Anweisungen gedruckt sind, da die Logik elektronisch als Bild oder in einem anderen Format (z. B. durch einen optischen Scan) gespeichert, dann kompiliert und/oder interpretiert oder auf andere Weise verarbeitet werden kann. Das verarbeitete Medium kann dann in einem Computer- und/oder Maschinenspeicher gespeichert werden.
Die Systeme können zusätzliche oder andere Logik enthalten und können auf viele verschiedene Arten umgesetzt werden. Eine Steuerung kann als Mikroprozessor, Mikrosteuerung, anwendungsspezifische integrierte Schaltung (application specific integrated circuit - ASIC), diskrete Logik oder eine Kombination anderer Arten von Schaltungen oder Logik umgesetzt sein. Ebenso können die Speicher DRAM, SRAM, Flash oder andere Arten von Speicher sein. Parameter (z. B. Bedingungen und Schwellenwerte) und andere Datenstrukturen können separat gespeichert und verwaltet werden, können in einen einzelnen Speicher oder eine einzelne Datenbank integriert sein oder können auf viele verschiedene Arten logisch und physikalisch organisiert werden. Programme und Anweisungssätze können Teile eines einzelnen Programms, separate Programme oder auf mehrere Speicher und Prozessoren verteilt sein. Die Systeme können in einer Vielzahl von elektronischen Geräten beinhaltet sein, einschließlich eines Mobiltelefons, eines Kopfhörers, einer Freisprecheinrichtung, eines Speakerphones, einer Kommunikationsschnittstelle oder eines Infotainmentsystems.
Die Beschreibung von Ausführungsformen wurde zum Zwecke der Veranschaulichung und Beschreibung gegeben. Geeignete Modifikationen und Variationen der Ausführungsformen können im Lichte der obigen Beschreibung durchgeführt werden oder können aus der Durchführung der Verfahren erhalten werden. Beispielsweise können, sofern nicht anders angegeben, eines oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder eine Kombination von Vorrichtungen durchgeführt werden. Die beschriebenen Verfahren und zugehörigen Aktionen können zusätzlich zu der in dieser Anmeldung beschriebenen Reihenfolge auch in verschiedenen Reihenfolgen parallel und/oder gleichzeitig durchgeführt werden. Die beschriebenen Systeme sind beispielhafter Natur und können zusätzliche Elemente enthalten und/oder Elemente weglassen.
Wie in dieser Anmeldung verwendet, sollte ein Element oder Schritt, das bzw. der im Singular aufgeführt ist und dem das Wort „ein/e/r“ vorausgeht, so verstanden werden, dass der Plural dieser Elemente oder Schritte nicht ausgeschlossen ist, sofern ein solcher Ausschluss nicht angegeben ist. Ferner sollen Bezugnahmen auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht so ausgelegt werden, dass sie das Vorhandensein zusätzlicher Ausführungsformen ausschließen, die ebenfalls die genannten Merkmale enthalten. Die Begriffe „erster/erste/erstes“, „zweiter/zweite/zweites“ und „dritter/dritte/drittes“ usw. werden lediglich als Bezeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen oder eine bestimmte Positionsreihenfolge auferlegen.
Während verschiedene Ausführungsformen der Erfindung beschrieben wurden, ist es für den Fachmann offensichtlich, dass im Rahmen der Erfindung viel mehr Ausführungsformen und Umsetzungen möglich sind. Insbesondere wird der Fachmann die Austauschbarkeit verschiedener Merkmale aus unterschiedlichen Ausführungsformen erkennen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, versteht es sich, dass diese Techniken und Systeme über die spezifisch offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Modifikationen davon ausgedehnt werden können.

Claims

Verfahren zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal umfasst, wobei das Verfahren Folgendes umfasst: Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen; Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich der zweite Durchlassbandbereich vom ersten Durchlassbandbereich unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen; Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich der maximalen Reibelautenergie repräsentativ ist; und Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.
Verfahren nach Anspruch 1, wobei das Entscheiden das Schätzen eines Spektrums des sauberen Sprachsignals umfasst, das in dem verrauschten Sprachsignal enthalten ist, indem mit einer Übertragungsfunktion zur Rauschunterdrückung Rauschen herausgefiltert wird, das in dem maximalen Spektrum enthalten ist.
Verfahren nach Anspruch 2, ferner umfassend das Schätzen von Hintergrundrauschen, um ein geschätztes Spektrum des Hintergrundrauschens bereitzustellen, wobei das Schätzen des Spektrums des sauberen Sprachsignals auf einem geschätzten Spektrum des Hintergrundrauschens basiert.
Verfahren nach Anspruch 3, wobei die Übertragungsfunktion zur Rauschunterdrückung aus zwei verschiedenen primären Übertragungsfunktionen zur Rauschunterdrückung ausgewählt ist, die basierend auf dem geschätzten Spektrum des Hintergrundrauschens bestimmt werden, wobei die Auswahl davon abhängt, ob die Frequenz innerhalb oder außerhalb eines vordefinierten Frequenzbereichs liegt.
Verfahren nach Anspruch 4, wobei eine der primären Übertragungsfunktionen zur Rauschunterdrückung eine Wiener-Filterübertragungsfunktion ist.
Verfahren nach Anspruch 4 oder 5, wobei eine andere der primären Übertragungsfunktionen zur Rauschunterdrückung eine Wiener-Filterübertragungsfunktion ist, bei der das Hintergrundrauschen mit einem Überschätzungsgewicht gewichtet wird.
Verfahren nach einem der Ansprüche 4 bis 6, wobei eine der primären Übertragungsfunktionen zur Rauschunterdrückung für einen Frequenzbereich ausgewählt ist, in dem Reibelautenergie erwartet wird, und sonst die andere primäre Übertragungsfunktion zur Rauschunterdrückung ausgewählt wird.
Verfahren nach einem der Ansprüche 1 bis 7, wobei ein Reibelautsprungverhältnis basierend auf einer Summe nicht stationären Hintergrundrauschens pro Teilband bestimmt wird, die in dem geschätzten sauberen Sprachspektrum enthalten ist, und die Entscheidung, ob ein Reibelaut vorhanden ist oder nicht, durch Vergleichen des Reibelautsprungverhältnisses mit einem vorbestimmten Schwellenwert getroffen wird.
Verfahren nach Anspruch 8, wobei das Reibelautsprungverhältnis spektral bandbegrenzt ist.
Verfahren nach Anspruch 8 oder 9, wobei das Reibelautsprungverhältnis basierend auf einem Parameter bestimmt wird, der für ein vergangenes Sprachsegment repräsentativ ist.
System zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal umfasst, umfassend mindestens eine Verarbeitungseinheit, die mit einem Eingang und einem Ausgang verbunden ist, wobei das System zu Folgendem konfiguriert ist: Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen; Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich der zweite Durchlassbandbereich vom ersten Durchlassbandbereich unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen; Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich der maximalen Reibelautenergie repräsentativ ist; und Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.
System nach Anspruch 11, wobei das Entscheiden das Schätzen eines Spektrums des sauberen Sprachsignals umfasst, das in dem verrauschten Sprachsignal enthalten ist, indem mit einer Übertragungsfunktion zur Rauschunterdrückung Rauschen herausgefiltert wird, das in dem maximalen Spektrum enthalten ist.
System nach Anspruch 12, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, Hintergrundrauschen zu schätzen, um ein geschätztes Spektrum des Hintergrundrauschens bereitzustellen, wobei das Schätzen des Spektrums des sauberen Sprachsignals auf einem geschätzten Spektrum des Hintergrundrauschens basiert.
System nach Anspruch 13, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, die Übertragungsfunktion zur Rauschunterdrückung aus zwei verschiedenen primären Übertragungsfunktionen zur Rauschunterdrückung auszuwählen, die basierend auf dem geschätzten Spektrum des Hintergrundrauschens bestimmt werden, wobei die Auswahl davon abhängt, ob die Frequenz innerhalb oder außerhalb eines vordefinierten Frequenzbereichs liegt.
System nach Anspruch 14, wobei eine der primären Übertragungsfunktionen zur Rauschunterdrückung eine Wiener-Filterübertragungsfunktion ist.
System nach Anspruch 14 oder 15, wobei eine andere der primären Übertragungsfunktionen zur Rauschunterdrückung eine Wiener-Filterübertragungsfunktion ist, bei der das Hintergrundrauschen mit einem Überschätzungsgewicht gewichtet wird.
System nach einem der Ansprüche 14 bis 16, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, eine der primären Übertragungsfunktionen zur Rauschunterdrückung für einen Frequenzbereich auszuwählen, in dem Reibelautenergie erwartet wird, wobei sonst die andere primäre Übertragungsfunktion zur Rauschunterdrückung ausgewählt wird.
System nach einem der Ansprüche 11 bis 17, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, ein Reibelautsprungverhältnis basierend auf einer Summe nicht stationären Hintergrundrauschens pro Teilband zu bestimmen, die in dem geschätzten sauberen Sprachspektrum enthalten ist, und die Entscheidung, ob ein Reibelaut vorhanden ist oder nicht, durch Vergleichen des Reibelautsprungverhältnisses mit einem vorbestimmten Schwellenwert getroffen wird.
System nach Anspruch 18, wobei das Reibelautsprungverhältnis spektral bandbegrenzt ist.
System nach Anspruch 18 oder 19, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, das Reibelautsprungverhältnis basierend auf einem Parameter zu bestimmen, der für ein vergangenes Sprachsegment repräsentativ ist.
Computerlesbares Speichermedium, das Anweisungen umfasst, die bei Ausführung durch einen Computer den Computer dazu veranlassen, das Verfahren nach einem der Ansprüche 1 bis 10 durchzuführen.