DE102019102414A1 - Detektion von Reibelauten in Sprachsignalen - Google Patents

Detektion von Reibelauten in Sprachsignalen Download PDF

Info

Publication number
DE102019102414A1
DE102019102414A1 DE102019102414.5A DE102019102414A DE102019102414A1 DE 102019102414 A1 DE102019102414 A1 DE 102019102414A1 DE 102019102414 A DE102019102414 A DE 102019102414A DE 102019102414 A1 DE102019102414 A1 DE 102019102414A1
Authority
DE
Germany
Prior art keywords
noise
speech signal
spectrum
noisy speech
friction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102019102414.5A
Other languages
English (en)
Other versions
DE102019102414B4 (de
Inventor
Vasudev KANDADE RAJAN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman Becker Automotive Systems GmbH
Original Assignee
Harman Becker Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman Becker Automotive Systems GmbH filed Critical Harman Becker Automotive Systems GmbH
Priority to DE102019102414.5A priority Critical patent/DE102019102414B4/de
Priority to KR1020200005447A priority patent/KR20200095370A/ko
Priority to US16/743,225 priority patent/US11183172B2/en
Priority to CN202010060966.XA priority patent/CN111508512A/zh
Publication of DE102019102414A1 publication Critical patent/DE102019102414A1/de
Application granted granted Critical
Publication of DE102019102414B4 publication Critical patent/DE102019102414B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)

Abstract

Das Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet das Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen, und das Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen. Das Detektieren von Reibelauten beinhaltet ferner das Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich maximaler Reibelautenergie repräsentativ ist, und das Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie das Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.

Description

  • STAND DER TECHNIK
  • Technisches Gebiet
  • Die Offenbarung betrifft ein Verfahren und System (im Allgemeinen als „Verfahren“ bezeichnet) zur Detektion von Reibelauten in Sprachsignalen.
  • Verwandte Technik
  • Sprache enthält verschiedene Artikulierungen wie etwa Vokale, Reibelaute, Nasale usw. Diese Artikulierungen und andere Eigenschaften wie etwa kurzzeitige Leistung können genutzt werden, um die Sprachsignalverbesserung in Systemen, wie etwa in Rauschminderungssystemen und Spracherkennungssystemen, zu unterstützen. Üblicherweise wird in solchen Systemen ein als Stimmaktivierungsdetektor (voice activity detector - VAD) bezeichneter Detektor verwendet. Der Stimmaktivierungsdetektor erzeugt ein Detektionssignal, das, wenn binär, 0 oder 1 annimmt, um das Vorliegen oder Fehlen von Sprache anzuzeigen oder umgekehrt. Das Detektionssignal kann ferner Werte zwischen 0 und 1 annehmen, um eine weiche Entscheidung zu ermöglichen, die ein bestimmtes Maß oder eine bestimmte Wahrscheinlichkeit des Vorliegens von Sprache im Signal anzeigen kann. Das Detektionssignal kann beispielsweise auf verschiedene Stufen eines Sprachverbesserungssystems angewendet werden, wie etwa Echounterdrücker, Strahlformer, Rauschschätzer, Rauschminderungsstufen usw.
  • Ein Reibelaut kann als „stimmloser“ Teil einer Sprachsilbe definiert werden, der produziert wird, wenn Luft durch Zähne und Lippen gepresst wird. Laute wie /s/ in dem Wort „stop“, /sh/ in dem Wort „Shop“, /f/ in dem Wort „four“ sind Beispiele für Reibelaute. Die meisten Sprachen auf der Welt enthalten in gesprochener Sprache Reibelaute. Solche Laute zu detektieren ist schwierig, da sie technisch gesehen einem breitbandförmigen Rauschen ähneln. Bei korrekter Detektion können Reibelaute jedoch helfen, den Großteil der in Signalen präsenten Sprache zu identifizieren, und sie können normale Sprachaktivitätsdetektoren ergänzen. Somit besteht ein Bedarf, die Detektion von Reibelauten zu verbessern.
  • KURZDARSTELLUNG
  • Ein Verfahren zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet das Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen, und das Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen. Das Verfahren beinhaltet ferner das Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich maximaler Reibelautenergie repräsentativ ist, und das Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie das Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.
  • Ein System zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet mindestens eine Verarbeitungseinheit, die mit einem Eingang und einem Ausgang verbunden ist, und ist dazu konfiguriert, das verrauschte Sprachsignal mit einer ersten Übertragungsfunktion zu bandpassfiltern, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen, und das verrauschte Sprachsignal mit einer zweiten Übertragungsfunktion zu bandpassfiltern, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen. Die mindestens eine Verarbeitungseinheit ist ferner dazu konfiguriert, eine Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal anzuwenden, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich maximaler Reibelautenergie repräsentativ ist, und um basierend auf dem maximalen Spektrum zu entscheiden, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie um ein Entscheidungssignal bereitzustellen, das für die Entscheidung repräsentativ ist.
  • Andere Systeme, Verfahren, Merkmale und Vorteile sind oder werden für den Fachmann bei Prüfung der folgenden detaillierten Beschreibung und den angehängten Figuren ersichtlich sein. Es ist beabsichtigt, dass alle derartigen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile in dieser Beschreibung beinhaltet sind, innerhalb des Umfangs der Erfindung liegen und von den nachstehenden Ansprüchen geschützt sind.
  • Figurenliste
  • Das System lässt sich unter Bezugnahme auf die folgenden Zeichnungen und die Beschreibung besser verstehen. Die Komponenten in den Figuren sind nicht unbedingt maßstabsgerecht, vielmehr geht es darum, die Prinzipien der Erfindung zu veranschaulichen. Überdies bezeichnen in den Figuren ähnliche Bezugszeichen entsprechende Teile in den verschiedenen Ansichten.
    • 1 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften geläufigen Detektionssystems veranschaulicht.
    • 2 ist ein Amplitudenfrequenzdiagramm, das eine beispielhafte Übertragungsfunktion eines verbesserten Interframe-Reibelautdetektionssystems für verrauschte Sprachsignale veranschaulicht.
    • 3 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften verbesserten Interframe-Reibelautdetektionssystems für verrauschte Sprachsignale veranschaulicht.
    • 4 ist ein Ablaufdiagramm, das ein beispielhaftes verbessertes Interframe-Reibelautdetektionsverfahren für verrauschte Sprachsignale veranschaulicht.
  • DETAILLIERTE BESCHREIBUNG
  • Für saubere Sprache, also Sprache ohne begleitendes unerwünschtes Rauschen, können Reibelaute recht verlässlich detektiert werden. Analysen von Sprachsignalen und Artikulierungen haben gezeigt, dass Reibelaute hauptsächlich zwei Frequenzbereiche umfassen, wobei der eine zwischen 2 kHz und 4 kHz und der andere zwischen 4 kHz und 6 kHz liegt. Beispielsweise ermöglicht das Überwachen dieser Frequenzbereiche mit zwei Bandpassfiltern zur selben Zeit im Hinblick auf eine kurzzeitige Erhöhung der Energie eines Sprachsignals, verlässlich darauf zu schließen, ob das untersuchte Sprachsegment ein Reibelaut ist oder nicht. Eine Umsetzung eines solchen Systems ist in 1 gezeigt. Signale in der Frequenz- und Teilbanddomäne werden hierin auch als Spektren oder Spektralsignale bezeichnet. Nach gleichzeitigem Bandpassfiltern eines sauberen Sprachsignals mit zwei Bandpassfiltervorgängen 101 und 102 werden zwei gefilterte Spektren Sb1(µ, k) und Sb2(µ, k), die auf diese Weise abgeleitet werden, kombiniert, z. B. durch einen Summierungsvorgang 103. Die zwei gefilterten Spektren Sb1(µ, k) und Sb2(µ, k) in der Teilbanddomäne ergeben sich aus einem Spektrum S(µ, k) des sauberen Sprachsignals nach Filtern (in der Frequenz- oder Teilbanddomäne: Multiplizieren) mit einer jeweiligen Übertragungsfunktion Hbp1(µ, k) und Hbp2(µ, k) der zwei Bandpassfiltervorgänge 101 und 102 gemäß: S b 1 ( μ , k ) = S ( μ , k ) H bp 1 ( μ , k ) ,
    Figure DE102019102414A1_0001
    S b2 ( μ , k ) = S ( μ , k ) H bp2 ( μ , k ) ,
    Figure DE102019102414A1_0002
    wobei ein jeweiliges Teilband durch µ bezeichnet ist und ein jeweiliger (Zeit-)Rahmen durch k bezeichnet ist. Die Übertragungsfunktion Hbp1(µ, k) kann ein Durchlassband zwischen 2 kHz und 4 kHz beinhalten und die Übertragungsfunktion Hbp2(µ, k) kann ein Durchlassband zwischen 4 kHz und 6 kHz beinhalten, wie durch die jeweiligen Spektraldiagramme in 1 gezeigt. Die zwei durchlassbandgefilterten Spektren Sb1(µ,k) und Sb2(µ,k) werden kombiniert (in der Frequenz- oder Teilbanddomäne: addiert), um ein Spektrum Sbp(µ, k) zu erhalten, bei dem eine hohe Reibelautenergie erwartet wird, gemäß: S bp ( μ , k ) = S bp 1 ( μ , k ) S bp2 ( μ , k ) .
    Figure DE102019102414A1_0003
  • Eine Reibelautdetektion wird durchgeführt, indem in einem Kurzzeitenergievergleichsvorgang 104 die bandbegrenzte Energie des aktuellen Rahmens mit der bandbegrenzten Energie des vorangehenden Rahmens verglichen wird. Ein Segment kann als Reibelaut klassifiziert werden, wenn die Energie |Sbp(µ,k)|2 in allen Teilbändern eines Rahmens k größer als die Energie |Sbp(µ,k-1)|2 im vorangehenden Rahmen k-1 ist, gemäß: Reibelaut , wenn | S bp ( μ , k ) | 2 > | S bp ( μ , k 1 ) | 2 , μ N Sbb , sonst kein Reibelaut .
    Figure DE102019102414A1_0004
  • Wenn dies nicht der Fall ist, wird das Segment als Nicht-Reibelaut klassifiziert. Die Rahmengröße für derartige Segmente kann aus einem Bereich zwischen 50 ms und 250 ms ausgewählt sein. In Sprachverbesserungssystemen kann diese Art von Detektion versagen, da die Eingangssignale für gewöhnlich verrauscht sind und es schwer bis unmöglich ist, zwischen (stationärem und nichtstationärem) Hintergrundrauschen und Reibelauten in Sprachsegmenten zu unterscheiden.
  • Um Reibelautsegmente verlässlicher in verrauschten Sprachsignalen zu detektieren, kann das oben beschriebene primäre Detektionsverfahren modifiziert und ergänzt werden, um dessen Detektionsleistung zu erhöhen, was unten als „Robustheit“ bezeichnet wird. Wie erwähnt, ist die Eingabe in einen Reibelautdetektor für gewöhnlich ein verrauschtes Sprachsignal, was hier in der Frequenzdomäne als Eingangsspektrum Y(µ, k) bezeichnet ist. Wie oben im Zusammenhang mit 1 beschrieben, wird das Eingangsspektrum bandpassgefiltert, sodass im gegenwärtigen Fall das Spektrum durch Ersetzen des sauberen Sprachspektrums S(µ, k) durch das verrauschte Sprachspektrum Y(µ, k) in Gleichung (1) und Gleichung (2) erhalten wird, was sich jeweils durch Gleichung (5) und Gleichung (6) beschreiben lässt: Y b1 ( μ , k ) = Y ( μ , k ) H bp1 ( μ , k ) ,
    Figure DE102019102414A1_0005
    Y b2 ( μ , k ) = Y ( μ , k ) H bp2 ( μ , k ) ,
    Figure DE102019102414A1_0006
    wobei Hbp1(µ,k) und Hbp2(µ,k) wiederum die Übertragungsfunktionen bezeichnen, die in den zwei Bandpassfiltervorgängen 101 und 102 eingesetzt werden, die in 1 gezeigt sind, und Yb1(µ, k) und Yb2(µ, k) zwei bandpassgefilterte Spektren bezeichnen, die von dem verrauschten Eingangsspektrum Y(µ, k) durch Filtern mit Übertragungsfunktionen Hbp1(µ,k) und Hbp2(µ,k) abgeleitet werden. Das verrauschte Eingangsspektrum Y(µ, k) ist die Kombination aus dem sauberen Sprachspektrum S(µ, k) und einem Hintergrundrauschspektrum B(µ, k).
  • Eine erste Maßnahme zum Verbessern der Robustheit eines verrauschten Eingangsspektrums besteht im Anwenden einer Maximum-Operation auf die zwei bandpassgefilterten Spektren Yb1(µ, k) und Yb2(µ, k). Die Spektralkomponenten der zwei bandpassgefilterten Spektren Yb1(µ, k) und Yb2(µ, k) können Reibelautenergie in einem beliebigen der Teilbänder enthalten. Ein Addieren der zwei Spektren würde höchstwahrscheinlich in einer unerwünschten Verschlechterung des Signal-Rausch-Verhältnisses resultieren. Die Maximum-Operation dagegen wählt genau diejenigen Teilbänder aus der Größe der zwei bandpassgefilterten Spektren Yb1(µ, k) und Yb2(µ, k) aus, die im Vergleich mit dem anderen größer sind. Auf diese Art und Weise werden nur die Hochenergie-Teilbänder zur weiteren Verarbeitung ausgewählt. Die Maximum(argmax)-Operation gibt diejenigen Teilbänder aus, die im Vergleich mit dem entsprechenden Teilband des jeweils anderen Spektrums die maximale Energie enthalten, um ein maximales Spektrum Ybpm(µ, k) gemäß Gleichung (7) zu erhalten: Y bpm ( μ , k ) = argmax μ ( max | Y b1 ( μ , k ) | , | Y b2 ( μ , k ) | ) .
    Figure DE102019102414A1_0007
  • Somit wird der Frequenzbereich maximaler Reibelautenergie entweder durch den Bandpassfiltervorgang 101 (z. B. zwischen 2k Hz und 4 kHz) oder den Bandpassfiltervorgang 102 (z. B. 4 kHz und 6 kHz) detektiert, d. h. dem Frequenzbereich, der die maximale Größe oder (Gesamt-)Energie beinhaltet. Ferner können nur Segmente, die ausreichend Energie enthalten, ausgewählt werden, da die Maximum-Operation per Teilband angewendet werden kann.
  • Das Detektieren von Reibelauten auf dem bandpassgefilterten Spektrum allein ist bei variierenden Szenarien von Hintergrundrauschen möglicherweise nicht ausreichend. Zum Filtern von verrauschten Sprachsignalen, um (geschätzte) saubere Sprache zu erhalten, können verschiedene Filterarten angewendet werden, wie etwa normale (traditionelle) oder modifizierte Wiener-Filterung oder dynamische Rauschunterdrückung.
  • Die Funktion eines Rauschreduzierungsfilters wie etwa eines Wiener-Filters besteht darin, Rauschen zu unterdrücken und dadurch das Signal-Rausch-Verhältnis (signalto-noise ratio - SNR) des Signals zu erhöhen. Das Bestimmen des Signal-Rausch-Verhältnisses eines Signals beinhaltet Operationen der Größenquadrierung. Aus der Definition des Signal-Rausch-Verhältnisses ist ersichtlich, dass es zum Erhöhen des Signal-Rausch-Verhältnisses ausreichend sein kann, nur die Größe des Signals zu verarbeiten. In der Frequenzdomäne kann ein Rauschunterdrückungsfilter, der eine Übertragungsfunktion H(e) aufweist, wobei e eine komplexe Frequenz ist, angewendet werden, um eine Schätzung Ŝ(e) sauberer Sprache zu erhalten, gemäß S ^ ( e j Ω ) = H ( e j Ω ) Y ( e j Ω ) ,
    Figure DE102019102414A1_0008
    wobei Y(e) das verrauschte Eingangsspektrum als Eingabe in das Mikrofon darstellt und wie folgt beschrieben werden kann: Y ( e j Ω ) = S ( e j Ω ) + B ( e j Ω ) .
    Figure DE102019102414A1_0009
    S(e) stellt Sprachkomponenten dar, die in der Mikrofoneingabe enthalten sind, und B(e) stellt Komponenten eines Hintergrundrauschens dar, die in der Mikrofoneingabe und -ausgabe enthalten sind, d. h. zu unterdrückendes Rauschen. Die Situation kann somit als ein Einzelkanal-Rauschreduzierungsproblem betrachtet werden. Der Filter mit der Übertragungsfunktion H(e), der das Hintergrundrauschen B(e) unterdrücken soll, ist abhängig von den Eigenschaften des Hintergrundrauschens B(e) Wenn das Hintergrundrauschen B(e) bei einer bestimmten Festfrequenz auftaucht, kann der Filter dazu ausgestaltet sein, eine Dämpfung bei dieser bestimmten Festfrequenz (falls bekannt) aufzuweisen, um beispielsweise Rauschartefakte zu entfernen, die von einer Stromleitung bei Oberwellen der Stromleitungsfrequenz erzeugt werden. Dies kann beispielsweise durch einen Festfilter erzielt werden.
  • Hintergrundrauschen unterscheidet sich jedoch im Allgemeinen von beispielsweise konstantem Rauschen bei einer festen Frequenz. Manche Eigenschaften von Hintergrundrauschen sind ihrer Art nach statistisch und können am besten durch ihre Wahrscheinlichkeitsverteilungen, erste Momente, zweite Momente usw. beschrieben werden. Einzelkanalsprachverbesserung kann statistisches Filtern wie etwa Wiener-Filterung zur Rauschreduzierung eines verrauschten Signals umfassen. Wiener-Filterung minimiert die Erwartung des Mittelwerts eines quadratischen Fehlersignals. Das Fehlersignal ist die Differenz zwischen dem gewünschten Signal und dem geschätzten gewünschten Signal. Die Wiener-Lösung kann ausgeweitet werden, um auf Rauschreduzierung in Sprachanwendungen anwendbar zu sein. Die Wiener-Lösung oder die optimale Filterübertragungsfunktion Hwiener(e) zur Rauschreduzierung im Sinne einer Minimierung des mittleren quadratischen Fehlers in der Frequenzdomäne ergibt sich aus H w i e n e r ( e j Ω ) = S s s ( e j Ω ) S s s ( e j Ω ) + S b b ( e j Ω ) .
    Figure DE102019102414A1_0010
    Der Begriff Sss(e) stellt die Leistungsspektraldichte (power spectral density - PSD) des Signals von Interesse dar und Sbb(e) stellt die Leistungsspektraldichte des Hintergrundrauschens dar. Die Gleichung (10) beschreibt die Leistungsspektraldichte des Signals von Interesse Sss(e), die nicht zugänglich ist. Angenommen, das gewünschte Signal und die Verzerrung sind orthogonal, kann das verrauschte Eingangsspektrum durch folgende Gleichung (11) beschrieben werden: S y y ( e j Ω ) = S s s ( e j Ω ) + S b b ( e j Ω ) .
    Figure DE102019102414A1_0011
  • Die Gleichung (10) ist in der Frequenzdomäne formuliert und kann in der Teilbanddomäne neu geschrieben werden, d. h. sie kann gemäß der folgenden Gleichung (12) beschrieben werden: H w i e n e r ( μ , k ) = 1 B ^ 2 ( μ , k ) | Y ( μ , k ) | 2 .
    Figure DE102019102414A1_0012
    Der Wiener-Filter kann somit durch eine Teilbanddomänen-Übertragungsfunktion Hwiener(µ, k) bezeichnet werden und kann als Teilbanddämpfungsfilter abhängig von dem Signal-Rausch-Verhältnis pro Teilband µ im Rahmen k betrachtet werden. B̂(µ, k) bezeichnet das geschätzte Hintergrundrauschspektrum und Y(µ, k) bezeichnet das Eingangsspektrum. Der normale Wiener-Filter, der in der Teilbanddomäne durch seine Übertragungsfunktion Hwf(µ,k) bezeichnet ist, unterdrückt Rauschen nach Schätzung einer Schätzeinrichtung für Hintergrundrauschen gemäß: H w f ( μ , k ) = m a x { 1 Λ o-est B ^ 2 ( μ , k ) | Y b p m ( μ , k ) | 2 , H f l o o r } .
    Figure DE102019102414A1_0013
    wobei Λο-est einen Rauschüberschätzungsfaktor bezeichnet und Hfloor ein festgesetztes Minimum für das Filtern bezeichnet.
  • Es gibt mehrere Ansätze für das Schätzen der Leistungsspektraldichte von Rauschen. Beispielsweise werden hierin zwei Schätzvorgänge besprochen, bei denen es sich zum einen um einen Basis-PSD-Rauschschätzer und zum anderen um einen fortgeschrittenen Leistungsspektraldichte-Rauschschätzer handelt, der auf einem verrauschten Signalmodell und einem Basis-PSD-Rauschschätzer basiert. Gemäß dem verrauschten Signalmodell werden Rausch- und Sprachsignale als gegenseitig orthogonale Zufallsprozesse modelliert und die Kreuzterme werden Null, weshalb ihre Leistungsspektraldichten direkt wie in Gleichung (14) gezeigt addiert werden können: | Y ( μ , k ) | 2 = | S ( μ , k ) | 2 + | B ( μ , k ) | 2 .
    Figure DE102019102414A1_0014
  • Der Basis-PSD-Rauschschätzer basiert auf einem multiplikativen zeitkonstantenbasierten Ansatz und wird betrieben, um das geglättete, verrauschte Eingangsgrößen-Spektrum in Schritten mit festen Konstanten zu verfolgen. Dieser Vorgang wird basierend auf den vorherigen Rauschleistungsschätzungen durchgeführt, um die aktuelle Rauschleistungsschätzung zu berechnen. Der Ansatz ähnelt dem zeitrekursiven Ansatz, jedoch wird hier nur die vorherige Rauschschätzung verwendet, anstatt sie in Kombination mit der aktuellen Eingangsgröße zu verwenden. Eine solche Rauschschätzung kann durch Folgendes beschrieben werden: B ^ b a s i c ( μ , k ) = Δ b a s i c ( μ , k ) B ^ b a s i c ( μ , k 1 ) ,
    Figure DE102019102414A1_0015
    wobei B̂basic(µ, k) die Schätzung des (Hintergrund-)Rauschspektrums für den aktuellen Rahmen k ist, B̂basic(µ, k - 1) die Schätzung des (Hintergrund-)Rauschspektrums für den vorangehenden Rahmen k-1 ist und Δbasic(µ, k) die Zeit-Frequenz-variierende multiplikative Konstante ist, die gemäß Folgendem bestimmt werden kann: Δ b a s i c ( μ , k ) = { s o n s t   Δ d e c . Δ i n c , i f Y ¯ ( μ , k ) > B ^ b a s i c ( μ , k 1 )
    Figure DE102019102414A1_0016
    Eine inkrementelle multiplikative Konstante Δinc wird als die sich zeitlich und frequenzmäßig ändernde multiplikative Konstante Δbasic(µ, k) ausgewählt, wenn das geglättete Eingangsfehlergrößenspektrum Y(µ, k) größer als die vorherige Rauschschätzung ist, sonst wird eine dekrementelle multiplikative Konstante Δdec ausgewählt. Das geglättete Fehlergrößenspektrum Y(µ, k) kann durch die nachstehende Gleichung (17) beschrieben werden.
  • Durch das Glätten wird die Varianz des Eingangsfehlergrößenspektrums Y(µ, k) verringert. Das Glätten kann über Zeit(-rahmen) hinweg in jedem Teilband durchgeführt werden. Das Glätten des Eingangsfehlerspektrums kann durch einen Filter mit unendlicher Impulsantwort (Infinite Impulse Response - IIR) erster Ordnung durchgeführt werden, was wie folgt beschrieben werden kann: Y ¯ ( μ , k ) = a y Y m a g ( μ , k ) + ( 1 a y ) Y ¯ ( μ , k 1 )
    Figure DE102019102414A1_0017
    wobei αy eine glättende Konstante bezeichnet, Y(µ, k - 1) ein vorhergehendes geglättetes Eingangsfehlergrößenspektrum bezeichnet und Ymag(µ, k) gemäß Folgendem bestimmt wird: Y m a g ( μ , k ) = | R { Y ( μ , k ) } | + | { Y ( μ , k ) } | .
    Figure DE102019102414A1_0018
    Das Verfolgen des Rauschleistungsschätzers hängt von dem geglätteten Eingangsgrößenspektrum ab, wobei ℜ den echten Teil und ℑ den imaginären Teil bezeichnet.
  • Im Vergleich zur Wiener-Filterung ist die dynamische Rauschunterdrückung in Bezug auf die Rauschunterdrückung aggressiver. Die dynamische Rauschunterdrückung soll das Rauschen gemäß einer Zielrauschform formen. Wiener-Rauschunterdrückungsfilterung verbessert das Signal-Rausch-Verhältnis eines verrauschten Eingangssignals, was für Rahmen wünschenswert ist, die Sprachsignale enthalten. In Rahmen, die nur (Hintergrund-)Rauschen enthalten, ist die Wiener-Filterung manchmal nicht wünschenswert oder bietet eine unzureichende Rauschunterdrückung. Solche Nachteile können in praktischen Situationen auftreten, in denen z. B. eine Kommunikationsvorrichtung an einem beliebigen Ort und überall platziert werden kann, sodass hochgradig nichtstationäres Rauschen von PSD-Rauschschätzern nicht verfolgt werden kann. Ferner kann ein stark nichtstationäres Rauschen für einen Zuhörer extrem störend sein.
  • Allgemein gesagt kann die Rauschformung alles sein, einschließlich beispielsweise das Anwenden einer festen Rauschform oder einer festen Filterung auf Restrauschen. Im Zusammenhang mit der Rauschreduzierung kann die Systemrauschgrößenformung so durchgeführt werden, dass hochdynamische Schwankungen und Variationen des verrauschten Eingangsspektrums gesteuert werden. Eine Möglichkeit, dies zu erreichen, besteht darin, die gewünschte Rauschform vorzugeben. Auf diese Weise kann ein geeigneter Filter so gestaltet sein, dass der Ausgang der Rauschgrößenformung gleich der gewünschten Rauschform ist. Um eine dynamische Rauschunterdrückung zu erzielen, ist es notwendig, die Größenform des gewünschten Restrauschens zu bestimmen. Die dynamische Rauschunterdrückung kann die gewünschte Rauschgrößenform entweder auf Grundlage des Eingangsgrößenspektrums oder seiner geglätteten Version abschätzen (siehe obige Gleichung (18)). Da das verrauschte Eingangsspektrum sehr dynamisch ist, würde eine vordefinierte und feste Form zu einem extrem „statisch“ klingenden Restrauschen führen. Um das Restrauschen für den Hörer natürlicher und angenehmer klingen zu lassen, kann die gewünschte Rauschform auf spezifische Weise aus dem verrauschten Eingangsspektrum geschätzt und „extrahiert“ (z. B. herausgefiltert) werden. Beispielsweise kann eine Langzeitschätzung des verrauschten Eingangsgrößenspektrums als gewünschte Form des Restrauschens verwendet werden. Eine solche langfristige Schätzung kann wie durch die Gleichungen (19) und (20) beschrieben erhalten werden: Δ d e l t a - s h a p e delta ( μ , k ) = Y d e s s h a p e ( μ , k-1 ) Y ¯ ( μ , k ) ,
    Figure DE102019102414A1_0019
    wobei Δ d e l t a s h a p e delta ( μ , k )
    Figure DE102019102414A1_0020
    eine inkrementelle oder dekrementelle Konstante bezeichnet und Ydes-shape(µ, k) eine gewünschte Rauschgrößenform bezeichnet, z. B. einen langsamen, auf multiplikativen Konstanten basierenden Tracker, der wie folgt beschrieben werden kann: Y d e s s h a p e ( μ , k ) { Y d e s s h a p e ( μ , k 1 ) Δ d e l t a s h a p e delta ( μ , k ) , i f Y d e s s h a p e ( μ , k-1 ) Y ¯ ( μ , k ) > 1,5 o d e r Y d e s s h a p e ( μ , k-1 ) Y ¯ ( μ , k ) < 0,5,      s o n s t   Y d e s s h a p e ( μ , k 1 ) .
    Figure DE102019102414A1_0021
    Die gewünschte Rauschgrößenform Ydes-shape(µ, k) wird durch Multiplizieren der vorherigen Schätzung der Rauschgrößenform mit der inkrementellen oder dekrementellen Konstante Δ d e l t a s h a p e delta ( μ , k )
    Figure DE102019102414A1_0022
    erhalten. Der Abstand des aktuellen Rahmens zur gewünschten Größe wird mit einer Schwelle von 1,5 und 0,5 berechnet, die geändert oder angepasst werden kann. Der Algorithmus sieht auch eine „Haltezeit“ vor, während der die gewünschte Form nicht aktualisiert wird.
  • Die dynamische Rauschunterdrückung kann eine Vielzahl von (z. B. fünf) Parametern verwenden, die abgestimmt sind. Diese Parameter beeinflussen das Verhalten der dynamischen Rauschunterdrückung in verschiedenen Situationen. Wie bereits in Verbindung mit Gleichung (20) erörtert, kann eine gewünschte Größe basierend auf dem Abstand zwischen der vorherigen gewünschten Größe und den Größen des aktuellen geglätteten Eingangsspektrums bestimmt werden. Dieser Vorgang kann modifiziert werden, indem die inkrementelle oder dekrementelle Konstante Δ d e l t a s h a p e delta ( μ , k )
    Figure DE102019102414A1_0023
    durch feste Konstanten ersetzt wird, wenn der Abstand größer als 1,5 oder geringer als 0,5 ist. Diese festen Verfolgungskonstanten können auf einen festen Wert (z. B. 1 dB/s) für den Inkrementteil und auf einen anderen festen Wert (z. B. -6 dB/s) für den Dekrementteil eingestellt werden.
  • Ein anderer Abstimmparameter kann sich mit der spektralen Glättung (Glättung über Frequenz) der bestimmten Unterdrückungsfaktoren durch eine Glättungskonstante a Y befassen, die so abgestimmt sein kann, dass der Übergang von einem Rahmen zum anderen für den Hörer am anderen Ende glatter ist. Die Lautstärke des unterdrückten Signals kann effektiv durch zwei Überschätzungsparameter Λ d y n s u p p o est
    Figure DE102019102414A1_0024
    und Λ d y n s h a p e o est
    Figure DE102019102414A1_0025
    wirksam gesteuert werden, wobei der eine Schätzungsparameter Λ d y n s h a p e o est
    Figure DE102019102414A1_0026
    den Breitbandpegel der gewünschten Größe steuert und der andere Schätzungsparameter Λ d y n s u p p o est
    Figure DE102019102414A1_0027
    den Breitbandpegel der Unterdrückungsfaktoren steuert. Für praktische Abstimmungszwecke wird der Parameter Λ d e s s h a p e o est
    Figure DE102019102414A1_0028
    auf einen Faktor des Wiener-Filterbodens Hfloor eingestellt. Schließlich werden die beiden Parameter, die die maximale und die minimale Unterdrückung steuern, die vom dynamischen Rauschunterdrückungsfilter angewendet werden, durch die maximalen und minimalen Unterdrückungsparameter H d y n m a x
    Figure DE102019102414A1_0029
    und H d y n m i n
    Figure DE102019102414A1_0030
    gesteuert. Wenn der dynamische Rauschunterdrückungsfilter angewendet wird, können die musikalischen Rauschartefakte hörbar sein. Dies kann durch Einstellen der maximalen und minimalen Unterdrückungsparameter H d y n m a x
    Figure DE102019102414A1_0031
    und H d y n m i n
    Figure DE102019102414A1_0032
    behoben werden.
  • Eine modifizierte Version der dynamischen Unterdrückung, die von einer Übertragungsfunktion Hdyf(µ, k) dargestellt wird, kann angewendet werden, und diese lässt sich wie folgt beschreiben: H d y f ( μ , k ) = Λ d y n s u p p o est Y ¯ b m p s u p p ( μ , k ) ,
    Figure DE102019102414A1_0033
    wobei die geglätteten Unterdrückungsfaktoren Y bmp-supp(µ, k) mit einem Steuerparameter a Λ d y n s u p p o est
    Figure DE102019102414A1_0034
    multipliziert werden können. Die geglätteten Unterdrückungsfaktoren Y bmp-supp(µ, k) können durch Gleichung 22 bestimmt werden: Y ¯ b m p s u p p ( μ , k ) = Y ¯ Y b m p s u p p ( μ , k ) + ( 1 Y ¯ ) Y ¯ s u p p ( μ 1, k ) .
    Figure DE102019102414A1_0035
  • Mit den verfügbaren Unterdrückungsfaktoren wird der endgültige „dynamische“ Rauschunterdrückungsfilter, der eine Übertragungsfunktion Ĥdyn(µ, k) aufweist, bestimmt, indem einfach die berechneten Unterdrückungsfaktoren um den Betrag der gewünschten Unterdrückung verschoben werden, der gegeben ist durch: H ^ d y n ( μ , k ) = Λ d y n s u p p o est Y ¯ s u p p ( μ , k ) ,
    Figure DE102019102414A1_0036
    wobei die geglätteten Unterdrückungsfaktoren erneut mit einem Steuerparameter Λ d y n s u p p o est
    Figure DE102019102414A1_0037
    ergänzt werden können. Dieser Parameter wird normalerweise basierend auf dem Grundrauschen Hfloor eingestellt, um den Unterdrückungsgrad zu berücksichtigen, der bei dem dynamischen Unterdrückungsverfahren angewendet wird. Um unerwünschtes musikalisches Rauschen zu steuern, kann der Unterdrückungsfilter auf einen Maximal- und einen Minimalwert begrenzt werden, die gegeben sind durch: H d y n ( μ , k ) = m a x ( m i n ( H ^ d y n ( μ , k ) , H ^ d y n ( μ , k ) , H d y n m i n ) , H d y n m a x ) ,
    Figure DE102019102414A1_0038
    wobei der minimale und der maximale Wert während des Abstimmungsprozesses eingestellt werden.
  • Wie zu sehen ist, werden die normalen Hwf(µ, k) und die dynamischen Unterdrückungsfilter Hdyf(µ, k) in einer geschlossenen Gleichung kombiniert: H d w f ( μ , k ) = { H d y f ( μ , k ) , i f μ b p l o w > μ   o d e r   μ > μ b p h i g h s o n s t   H w f ( μ , k ) .
    Figure DE102019102414A1_0039
    Ein so abgeleiteter Rauschunterdrückungsfilter weist eine Übertragungsfunktion Hdwf(µ, k) auf, die durch Kombinieren von zwei Rauschunterdrückungsfiltern erhalten wird, z. B. einem normalen und einem dynamischen Rauschunterdrückungsfilter, basierend auf dem Frequenzfach, für das die Übertragungsfunktion Hdwf(µ, k) außerhalb eines vorgegebenen Frequenzbereichs zwischen einer niedrigeren Frequenz µbp-low und einer höheren Frequenz µbp-high liegt. Die Übertragungsfunktion Hwf(µ, k) wird für den (Bandpass-)Frequenzbereich gewählt, in dem die Reibelautenergie erwartet wird. Eine beispielhafte Übertragungsfunktion Hwf(µ, k) ist in 2 anhand eines Amplitudenfrequenzdiagramms dargestellt.
  • Das oben beschriebene Filterverfahren ermöglicht es, das Hintergrundrauschen im Reibelautbereich ausreichend zu entfernen, ohne gleichzeitig die Reibelautenergie zu beeinträchtigen. Signale mit Frequenzen außerhalb des Bereichs der Reibelautenergie werden wie Rauschen behandelt. Eine Übertragungsfunktion (üblicherweise auch als Charakteristik oder Charakteristiken bezeichnet) einer solchen Unterdrückungsfilterung kann etwa die durch Gleichung (21) beschriebene sein. Die ermittelte Übertragungsfunktion Hdwf(µ, k) wird dann auf das Ergebnis der Maximum-Operation Ybpm(µ, k) angewendet, um das Spektrum zu erhalten, das von Außerbandrauschen und auch stationärem und nicht stationärem Hintergrundrauschen befreit ist, was hierin durch Ŝbpf(µ, k) dargestellt ist. Dies lässt sich durch Gleichung (26) beschreiben: S ^ bpf ( μ , k ) = Y bpm ( μ , k ) H dwf ( μ , k ) .
    Figure DE102019102414A1_0040
  • Gemäß Gleichung (4) werden die Energien eines aktuellen Rahmens k und eines vorherigen Rahmens k-1 miteinander verglichen. Das Vergleichen der Energien aufeinanderfolgender Rahmen ist eine optionale Art der Detektion, eine andere, robustere Art besteht darin, einen Parameter θ für den Vergleich zu verwenden, der ein vergangenes Sprachsegment identifiziert. Parameter θ ist abhängig von dem im verrauschten Sprachsignal enthaltenen „Hintergrundrauschen“. Wenn das Hintergrundrauschen in einem bestimmten Rahmen hoch ist, würde die Detektion in Situationen mit starkem nicht stationären Rauschen fehlschlagen. Sprachverbesserungsanwendungen können erheblich variieren, wie in Automobilanwendungen oder in Anwendungen mit intelligenten Lautsprechern in lauten Umgebungen. Daher kann der Parameter θ im Hinblick auf die aktuelle Hintergrundrauschsituation geschätzt werden. Ferner kann ein Reibelautsprungverhältnis Fratio(k) basierend auf einer Summe von nicht stationärem Hintergrundrauschen Ŝbpf(µ, k) pro Teilband anstelle der einzelnen Teilbänder bestimmt werden, gemäß: F r a t i o ( k ) = μ=0 N S b b | S ^ b p f ( μ , k ) | μ=0 N S b b | S ^ b p f ( μ , k θ ) |
    Figure DE102019102414A1_0041
    Das Reibelautsprungverhältnis Fratio(k) kann für die Detektion zum Vergleich mit einem Schwellenwert verwendet werden.
  • Um die Detektion robuster gegen Einflüsse des Hintergrundrauschens zu machen, kann das Reibelautsprungverhältnis Fratio(k) im Teilbandbereich auf eine untere Frequenz µfr-min und eine obere Frequenz µfr-max bandbegrenzt werden. Beispielsweise kann die untere Frequenz µfr-min auf ungefähr 1500 Hz und die obere Frequenz µfr-max auf ungefähr 6000 Hz eingestellt werden. Die Begrenzung der Bandbreite ermöglicht eine frühere Detektion, ein höheres spektrales Signal-Rausch-Verhältnis (pro Teilband) im gewählten Frequenzbereich und damit eine höhere Detektionswahrscheinlichkeit und eine höhere Robustheit in einer Vielzahl von verrauschten Umgebungen. Ein bandbegrenztes Reibelautsprungverhältnis Fratio-bl(k) kann beschrieben werden durch F r a t i o b l ( k ) = μ f r m i n μ f r m a x | S ^ b p f ( μ , k ) | μ f r m i n μ f r m a x | S ^ b p f ( μ , k θ ) |
    Figure DE102019102414A1_0042
  • Basierend auf den oben beschriebenen Maßnahmen zur Erhöhung der Robustheit können Reibelautsegmente in einem verrauschten Sprachsignal zuverlässiger detektiert werden, indem das bandbegrenzte Reibelautsprungverhältnis Fratio-bl(k) mit einem Schwellenwert verglichen wird, der wie folgt gegeben ist: Reibelaut , wenn F ratio-bl ( k ) > F thr , sonst kein Reibelaut .
    Figure DE102019102414A1_0043
    Reibelaute in Sprachsignalen können als Vordetektor verwendet werden, um andere Algorithmen zur Detektion von Stimmaktivitäten zu unterstützen, die z. B. in Rauschunterdrückungssystemen verwendet werden. Wie oben erläutert, kann in einem Verfahren zum Detektieren von Reibelauten in verrauschten Sprachrahmen das primäre Verfahren zur Reibelautdetektion durch mindestens eine von drei Maßnahmen zur Verbesserung der Robustheit verbessert werden.
  • 3 ist ein Blockdiagramm, das eine Signalflussstruktur eines beispielhaften Interframe-Reibelautdetektionsverfahrens für verrauschte Sprachsignale veranschaulicht, das auf dem oben detaillierter beschriebenen Verfahren basiert und das mittels eines Programmcodes umgesetzt ist, der von einer Verarbeitungseinheit 300 wie etwa einer Steuerung, einem Mikroprozessor, einem Mikrocomputer oder dergleichen ausgeführt wird. Ein erster Bandpassfilter 301, ein zweiter Bandpassfilter 302 und ein Hintergrundrauschschätzer 303 sind im Prozessor 300 umgesetzt und empfangen ein verrauschtes Sprachsignal y(t) der Zeit(t)-Domäne von z. B. einem Mikrofon 304 über einen Signalpfad 305, der eine Vielzahl von Signalverarbeitungsblöcken (nicht gezeigt) wie etwa einen Verstärker, einen oder mehrere Filter, einen Analog-Digital-Wandler, ein Zeit-Frequenz-Domänenwandler usw. beinhalten kann. Das verrauschte Zeitdomäne-Sprachsignal kann auch durch sein Spektrum beschrieben werden, das hier als Eingangsspektrum Y(µ, k) bezeichnet wird.
  • Über die beiden Bandpassfilter 301 und 302, die den oben in Verbindung mit 1 beschriebenen Bandpassfiltern 101 und 102 ähnlich oder mit ihnen identisch sein können, werden zwei Teilspektren Yb1(µ, k) und Yb2(µ, k) erzeugt. Die beiden Teilspektren Yb1(µ, k) und Yb2(µ, k) werden einem Maximaldetektor 306 zugeführt, der das Maximum der beiden Teilspektren Yb1(µ, k) und Yb2(µ, k), die einem kombinierten Filter 307, einem ersten Rauschunterdrücker 308 und einem zweiten Rauschunterdrücker 309 als Spektrum Ybpm(µ, k) bereitzustellen sind, auswählt. Der erste Rauschunterdrücker 308 wird in einer Weise betrieben, die weiter oben als „normale (Art der) Rauschunterdrückung“ beschrieben und bezeichnet ist, und er gibt ein erstes unterdrücktes Spektrum aus, das oben als Spektrum Hwf(µ, k) bezeichnet ist. Der zweite Rauschunterdrücker 309 wird in einer Weise betrieben, die weiter oben als „dynamische (Art der) Rauschunterdrückung“ beschrieben und bezeichnet ist, und er gibt ein zweites unterdrücktes Spektrum aus, das oben als Spektrum Hdyf(µ, k) bezeichnet ist. Der erste Rauschunterdrücker 308 und der zweite Rauschunterdrücker 309 empfangen ferner das geschätzte Hintergrundrauschspektrum B̂(µ, k), das von dem Hintergrundrauschschätzer 303 bereitgestellt wird. Der kombinierte Filter 307 empfängt neben dem Spektrum Ybpm(µ, k) von dem Maximaldetektor 306 die Spektren Hwf(µ, k) und Hdyf(µ, k) vom ersten Rauschunterdrücker 308 und vom zweiten Rauschunterdrücker 309 und liefert das geschätzte saubere Sprachspektrum Ŝbpf(µ, k). Ein Block 310 zum Erzeugen eines bandbegrenzten Reibelautsprungverhältnisses empfängt das geschätzte saubere Sprachspektrum Ŝbpf(µ, k) und erzeugt daraus das Verhältnis Fratio-bl(k), das in einem Komparator 311 mit einem gegebenen Schwellenwert verglichen wird, um zu entscheiden, ob ein Reibelaut vorliegt oder nicht. Das Ergebnis der Entscheidung kann an ein Spracherkennungssystem (nicht gezeigt) oder ein anderes Sprachverarbeitungssystem weitergeleitet werden. Die vom Prozessor 300 ausgeführten Operationen können in der Zeitdomäne, der Frequenzdomäne, der Teilbanddomäne und gegebenenfalls in Kombinationen davon liegen.
  • 4 ist ein Ablaufdiagramm, das ein beispielhaftes verbessertes Interframe-Reibelautdetektionsverfahren für verrauschte Sprachsignale veranschaulicht. Das Verfahren zum Detektieren von Reibelauten in einem verrauschten Sprachsignal 400, das ein sauberes Sprachsignal und ein Rauschsignal enthält, beinhaltet das Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen (Vorgang 401), und das Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich das zweite Durchlassband vom ersten Durchlassband unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen (Vorgang 402). Das Verfahren beinhaltet ferner das Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das repräsentativ für einen Frequenzbereich maximaler Reibelautenergie ist (Vorgang 403), und das Entscheiden, basierend auf dem maximalen Spektrum, ob ein Reibelaut in dem verrauschten Sprachsignal enthalten ist (Vorgang 404). Wahlweise wird das maximale Spektrum mit einem Filter gefiltert, der eine spezifische Kombination aus zwei Rauschreduzierungsfiltern ist, z. B. einem normalen (traditionellen) Rauschunterdrückungsfilter und einem dynamischen Rauschunterdrückungsfilter, wie oben detaillierter beschrieben (Vorgang 405). Wahlweise wird aus dem entsprechend abgeleiteten gefilterten maximalen Spektrum ein Reibelautsprungverhältnis bestimmt, wie es ebenfalls weiter oben beschrieben (Vorgang 406). Das Reibelautsprungverhältnis wird mit einem Schwellenwert verglichen (Vorgang 407), um ein Entscheidungssignal 408 bereitzustellen, das für die Entscheidung repräsentativ ist.
  • Das oben beschriebene Verfahren kann in einem computerlesbaren Medium wie einer CD-ROM, einer Platte, einem Flash-Speicher, einem RAM oder ROM, einem elektromagnetischen Signal oder einem anderen maschinenlesbaren Medium als Anweisungen zur Ausführung durch einen Prozessor codiert werden. Alternativ oder zusätzlich kann jede Art von Logik verwendet und als analoge oder digitale Logik unter Verwendung von Hardware umgesetzt werden, wie beispielsweise einer oder mehrerer integrierter Schaltungen (einschließlich Verstärker, Addier- und Verzögerungsmittel und Filter) oder einem oder mehreren Prozessoren, die die Verstärkungs-, Addier-, Verzögerungs- und Filteranweisungen ausführen; oder in Software in einer Anwendungsprogrammierschnittstelle (application programming interface - API) oder in einer Dynamic Link Library (DLL), Funktionen, die in einem gemeinsam genutzten Speicher verfügbar oder als lokale oder entfernte Vorgangsaufrufe definiert sind, oder als Kombination von Hardware und Software.
  • Das Verfahren kann durch Software und/oder Firmware umgesetzt werden, die auf oder in einem computerlesbaren Medium, einem maschinenlesbaren Medium, einem Ausbreitungssignalmedium und/oder einem Signalträgermedium gespeichert ist. Das Medium kann eine beliebige Vorrichtung umfassen, die ausführbare Anweisungen zur Verwendung durch oder in Verbindung mit einem System, Gerät oder einer Vorrichtung zur Ausführung von Anweisungen speichert, kommuniziert, verbreitet oder transportiert. Das maschinenlesbare Medium kann selektiv, ohne darauf beschränkt zu sein, ein elektronisches, magnetisches, optisches, elektromagnetisches oder infrarotes Signal oder ein Halbleitersystem, ein Gerät, eine Vorrichtung oder ein Ausbreitungsmedium sein. Eine nicht erschöpfende Liste von Beispielen eines maschinenlesbaren Mediums beinhaltet: eine magnetische oder optische Platte, einen flüchtigen Speicher, wie etwa einen Direktzugriffsspeicher (Random Access Memory - „RAM“), einen Nur-Lese-Speicher (Read-Only Memory - „ROM“), einen löschbaren programmierbaren Nur-Lese-Speicher (d. h. Erasable Programmable Read-Only Memory - EPROM) oder Flash-Speicher oder eine optische Faser. Ein maschinenlesbares Medium kann auch ein physisches Medium beinhalten, auf das ausführbare Anweisungen gedruckt sind, da die Logik elektronisch als Bild oder in einem anderen Format (z. B. durch einen optischen Scan) gespeichert, dann kompiliert und/oder interpretiert oder auf andere Weise verarbeitet werden kann. Das verarbeitete Medium kann dann in einem Computer- und/oder Maschinenspeicher gespeichert werden.
  • Die Systeme können zusätzliche oder andere Logik enthalten und können auf viele verschiedene Arten umgesetzt werden. Eine Steuerung kann als Mikroprozessor, Mikrosteuerung, anwendungsspezifische integrierte Schaltung (application specific integrated circuit - ASIC), diskrete Logik oder eine Kombination anderer Arten von Schaltungen oder Logik umgesetzt sein. Ebenso können die Speicher DRAM, SRAM, Flash oder andere Arten von Speicher sein. Parameter (z. B. Bedingungen und Schwellenwerte) und andere Datenstrukturen können separat gespeichert und verwaltet werden, können in einen einzelnen Speicher oder eine einzelne Datenbank integriert sein oder können auf viele verschiedene Arten logisch und physikalisch organisiert werden. Programme und Anweisungssätze können Teile eines einzelnen Programms, separate Programme oder auf mehrere Speicher und Prozessoren verteilt sein. Die Systeme können in einer Vielzahl von elektronischen Geräten beinhaltet sein, einschließlich eines Mobiltelefons, eines Kopfhörers, einer Freisprecheinrichtung, eines Speakerphones, einer Kommunikationsschnittstelle oder eines Infotainmentsystems.
  • Die Beschreibung von Ausführungsformen wurde zum Zwecke der Veranschaulichung und Beschreibung gegeben. Geeignete Modifikationen und Variationen der Ausführungsformen können im Lichte der obigen Beschreibung durchgeführt werden oder können aus der Durchführung der Verfahren erhalten werden. Beispielsweise können, sofern nicht anders angegeben, eines oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder eine Kombination von Vorrichtungen durchgeführt werden. Die beschriebenen Verfahren und zugehörigen Aktionen können zusätzlich zu der in dieser Anmeldung beschriebenen Reihenfolge auch in verschiedenen Reihenfolgen parallel und/oder gleichzeitig durchgeführt werden. Die beschriebenen Systeme sind beispielhafter Natur und können zusätzliche Elemente enthalten und/oder Elemente weglassen.
  • Wie in dieser Anmeldung verwendet, sollte ein Element oder Schritt, das bzw. der im Singular aufgeführt ist und dem das Wort „ein/e/r“ vorausgeht, so verstanden werden, dass der Plural dieser Elemente oder Schritte nicht ausgeschlossen ist, sofern ein solcher Ausschluss nicht angegeben ist. Ferner sollen Bezugnahmen auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht so ausgelegt werden, dass sie das Vorhandensein zusätzlicher Ausführungsformen ausschließen, die ebenfalls die genannten Merkmale enthalten. Die Begriffe „erster/erste/erstes“, „zweiter/zweite/zweites“ und „dritter/dritte/drittes“ usw. werden lediglich als Bezeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen oder eine bestimmte Positionsreihenfolge auferlegen.
  • Während verschiedene Ausführungsformen der Erfindung beschrieben wurden, ist es für den Fachmann offensichtlich, dass im Rahmen der Erfindung viel mehr Ausführungsformen und Umsetzungen möglich sind. Insbesondere wird der Fachmann die Austauschbarkeit verschiedener Merkmale aus unterschiedlichen Ausführungsformen erkennen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, versteht es sich, dass diese Techniken und Systeme über die spezifisch offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Modifikationen davon ausgedehnt werden können.

Claims (21)

  1. Verfahren zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal umfasst, wobei das Verfahren Folgendes umfasst: Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen; Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich der zweite Durchlassbandbereich vom ersten Durchlassbandbereich unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen; Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich der maximalen Reibelautenergie repräsentativ ist; und Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.
  2. Verfahren nach Anspruch 1, wobei das Entscheiden das Schätzen eines Spektrums des sauberen Sprachsignals umfasst, das in dem verrauschten Sprachsignal enthalten ist, indem mit einer Übertragungsfunktion zur Rauschunterdrückung Rauschen herausgefiltert wird, das in dem maximalen Spektrum enthalten ist.
  3. Verfahren nach Anspruch 2, ferner umfassend das Schätzen von Hintergrundrauschen, um ein geschätztes Spektrum des Hintergrundrauschens bereitzustellen, wobei das Schätzen des Spektrums des sauberen Sprachsignals auf einem geschätzten Spektrum des Hintergrundrauschens basiert.
  4. Verfahren nach Anspruch 3, wobei die Übertragungsfunktion zur Rauschunterdrückung aus zwei verschiedenen primären Übertragungsfunktionen zur Rauschunterdrückung ausgewählt ist, die basierend auf dem geschätzten Spektrum des Hintergrundrauschens bestimmt werden, wobei die Auswahl davon abhängt, ob die Frequenz innerhalb oder außerhalb eines vordefinierten Frequenzbereichs liegt.
  5. Verfahren nach Anspruch 4, wobei eine der primären Übertragungsfunktionen zur Rauschunterdrückung eine Wiener-Filterübertragungsfunktion ist.
  6. Verfahren nach Anspruch 4 oder 5, wobei eine andere der primären Übertragungsfunktionen zur Rauschunterdrückung eine Wiener-Filterübertragungsfunktion ist, bei der das Hintergrundrauschen mit einem Überschätzungsgewicht gewichtet wird.
  7. Verfahren nach einem der Ansprüche 4 bis 6, wobei eine der primären Übertragungsfunktionen zur Rauschunterdrückung für einen Frequenzbereich ausgewählt ist, in dem Reibelautenergie erwartet wird, und sonst die andere primäre Übertragungsfunktion zur Rauschunterdrückung ausgewählt wird.
  8. Verfahren nach einem der Ansprüche 1 bis 7, wobei ein Reibelautsprungverhältnis basierend auf einer Summe nicht stationären Hintergrundrauschens pro Teilband bestimmt wird, die in dem geschätzten sauberen Sprachspektrum enthalten ist, und die Entscheidung, ob ein Reibelaut vorhanden ist oder nicht, durch Vergleichen des Reibelautsprungverhältnisses mit einem vorbestimmten Schwellenwert getroffen wird.
  9. Verfahren nach Anspruch 8, wobei das Reibelautsprungverhältnis spektral bandbegrenzt ist.
  10. Verfahren nach Anspruch 8 oder 9, wobei das Reibelautsprungverhältnis basierend auf einem Parameter bestimmt wird, der für ein vergangenes Sprachsegment repräsentativ ist.
  11. System zum Detektieren von Reibelauten in einem verrauschten Sprachsignal, das ein sauberes Sprachsignal und ein Rauschsignal umfasst, umfassend mindestens eine Verarbeitungseinheit, die mit einem Eingang und einem Ausgang verbunden ist, wobei das System zu Folgendem konfiguriert ist: Bandpassfiltern des verrauschten Sprachsignals mit einer ersten Übertragungsfunktion, die einen ersten Durchlassbandbereich aufweist, um ein erstes gefiltertes verrauschtes Sprachsignal bereitzustellen; Bandpassfiltern des verrauschten Sprachsignals mit einer zweiten Übertragungsfunktion, die einen zweiten Durchlassbandbereich aufweist, wobei sich der zweite Durchlassbandbereich vom ersten Durchlassbandbereich unterscheidet, um ein zweites gefiltertes verrauschtes Sprachsignal bereitzustellen; Anwenden einer Maximum-Operation auf das erste gefilterte verrauschte Sprachsignal und das zweite gefilterte verrauschte Sprachsignal, um ein maximales Spektrum bereitzustellen, das für einen Frequenzbereich der maximalen Reibelautenergie repräsentativ ist; und Entscheiden, basierend auf dem maximalen Spektrum, ob in dem verrauschten Sprachsignal ein Reibelaut enthalten ist, sowie Bereitstellen eines Entscheidungssignals, das für die Entscheidung repräsentativ ist.
  12. System nach Anspruch 11, wobei das Entscheiden das Schätzen eines Spektrums des sauberen Sprachsignals umfasst, das in dem verrauschten Sprachsignal enthalten ist, indem mit einer Übertragungsfunktion zur Rauschunterdrückung Rauschen herausgefiltert wird, das in dem maximalen Spektrum enthalten ist.
  13. System nach Anspruch 12, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, Hintergrundrauschen zu schätzen, um ein geschätztes Spektrum des Hintergrundrauschens bereitzustellen, wobei das Schätzen des Spektrums des sauberen Sprachsignals auf einem geschätzten Spektrum des Hintergrundrauschens basiert.
  14. System nach Anspruch 13, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, die Übertragungsfunktion zur Rauschunterdrückung aus zwei verschiedenen primären Übertragungsfunktionen zur Rauschunterdrückung auszuwählen, die basierend auf dem geschätzten Spektrum des Hintergrundrauschens bestimmt werden, wobei die Auswahl davon abhängt, ob die Frequenz innerhalb oder außerhalb eines vordefinierten Frequenzbereichs liegt.
  15. System nach Anspruch 14, wobei eine der primären Übertragungsfunktionen zur Rauschunterdrückung eine Wiener-Filterübertragungsfunktion ist.
  16. System nach Anspruch 14 oder 15, wobei eine andere der primären Übertragungsfunktionen zur Rauschunterdrückung eine Wiener-Filterübertragungsfunktion ist, bei der das Hintergrundrauschen mit einem Überschätzungsgewicht gewichtet wird.
  17. System nach einem der Ansprüche 14 bis 16, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, eine der primären Übertragungsfunktionen zur Rauschunterdrückung für einen Frequenzbereich auszuwählen, in dem Reibelautenergie erwartet wird, wobei sonst die andere primäre Übertragungsfunktion zur Rauschunterdrückung ausgewählt wird.
  18. System nach einem der Ansprüche 11 bis 17, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, ein Reibelautsprungverhältnis basierend auf einer Summe nicht stationären Hintergrundrauschens pro Teilband zu bestimmen, die in dem geschätzten sauberen Sprachspektrum enthalten ist, und die Entscheidung, ob ein Reibelaut vorhanden ist oder nicht, durch Vergleichen des Reibelautsprungverhältnisses mit einem vorbestimmten Schwellenwert getroffen wird.
  19. System nach Anspruch 18, wobei das Reibelautsprungverhältnis spektral bandbegrenzt ist.
  20. System nach Anspruch 18 oder 19, wobei die mindestens eine Verarbeitungseinheit ferner dazu konfiguriert ist, das Reibelautsprungverhältnis basierend auf einem Parameter zu bestimmen, der für ein vergangenes Sprachsegment repräsentativ ist.
  21. Computerlesbares Speichermedium, das Anweisungen umfasst, die bei Ausführung durch einen Computer den Computer dazu veranlassen, das Verfahren nach einem der Ansprüche 1 bis 10 durchzuführen.
DE102019102414.5A 2019-01-31 2019-01-31 Verfahren und System zur Detektion von Reibelauten in Sprachsignalen Active DE102019102414B4 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102019102414.5A DE102019102414B4 (de) 2019-01-31 2019-01-31 Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
KR1020200005447A KR20200095370A (ko) 2019-01-31 2020-01-15 음성 신호에서의 마찰음의 검출
US16/743,225 US11183172B2 (en) 2019-01-31 2020-01-15 Detection of fricatives in speech signals
CN202010060966.XA CN111508512A (zh) 2019-01-31 2020-01-19 语音信号中的摩擦音检测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019102414.5A DE102019102414B4 (de) 2019-01-31 2019-01-31 Verfahren und System zur Detektion von Reibelauten in Sprachsignalen

Publications (2)

Publication Number Publication Date
DE102019102414A1 true DE102019102414A1 (de) 2020-08-06
DE102019102414B4 DE102019102414B4 (de) 2022-01-20

Family

ID=71615220

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019102414.5A Active DE102019102414B4 (de) 2019-01-31 2019-01-31 Verfahren und System zur Detektion von Reibelauten in Sprachsignalen

Country Status (4)

Country Link
US (1) US11183172B2 (de)
KR (1) KR20200095370A (de)
CN (1) CN111508512A (de)
DE (1) DE102019102414B4 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968662A (zh) * 2020-08-10 2020-11-20 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN112309420B (zh) * 2020-10-30 2023-06-27 出门问问(苏州)信息科技有限公司 一种检测风噪声的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3679830A (en) * 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector
US3846586A (en) * 1973-03-29 1974-11-05 D Griggs Single oral input real time analyzer with written print-out
US4630300A (en) * 1983-10-05 1986-12-16 United States Of America As Represented By The Secretary Of The Navy Front-end processor for narrowband transmission
US5583696A (en) * 1992-12-14 1996-12-10 Canon Kabushiki Kaisha Reflection and refraction optical system and projection exposure apparatus using the same

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH075898A (ja) 1992-04-28 1995-01-10 Technol Res Assoc Of Medical & Welfare Apparatus 音声信号処理装置と破裂性抽出装置
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
DE10137348A1 (de) * 2001-07-31 2003-02-20 Alcatel Sa Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
CN1412742A (zh) * 2002-12-19 2003-04-23 北京工业大学 基于波形相关法的语音信号基音周期检测方法
US8296136B2 (en) * 2007-11-15 2012-10-23 Qnx Software Systems Limited Dynamic controller for improving speech intelligibility
WO2010011963A1 (en) * 2008-07-25 2010-01-28 The Board Of Trustees Of The University Of Illinois Methods and systems for identifying speech sounds using multi-dimensional analysis
AU2009308442A1 (en) * 2008-10-24 2010-04-29 Aliphcom, Inc. Acoustic Voice Activity Detection (AVAD) for electronic systems
EP2471064A4 (de) 2009-08-25 2014-01-08 Univ Nanyang Tech Verfahren und system zur rekonstruktion von sprache aus einem eingangssignal mit geflüsterten teilen
US9552825B2 (en) * 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US11017798B2 (en) * 2017-12-29 2021-05-25 Harman Becker Automotive Systems Gmbh Dynamic noise suppression and operations for noisy speech signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3679830A (en) * 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector
US3846586A (en) * 1973-03-29 1974-11-05 D Griggs Single oral input real time analyzer with written print-out
US4630300A (en) * 1983-10-05 1986-12-16 United States Of America As Represented By The Secretary Of The Navy Front-end processor for narrowband transmission
US5583696A (en) * 1992-12-14 1996-12-10 Canon Kabushiki Kaisha Reflection and refraction optical system and projection exposure apparatus using the same

Also Published As

Publication number Publication date
CN111508512A (zh) 2020-08-07
KR20200095370A (ko) 2020-08-10
US20200251090A1 (en) 2020-08-06
US11183172B2 (en) 2021-11-23
DE102019102414B4 (de) 2022-01-20

Similar Documents

Publication Publication Date Title
DE112009000805B4 (de) Rauschreduktion
DE69124005T2 (de) Sprachsignalverarbeitungsvorrichtung
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE112011104737B4 (de) Geräuschunterdrückungsvorrichtung
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE112012006876B4 (de) Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
DE102014100407B4 (de) Geräuschminderungsvorrichtungen und Geräuschminderungsverfahren
DE60023517T2 (de) Klassifizierung von schallquellen
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
DE112010005895B4 (de) Störungsunterdrückungsvorrichtung
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
WO2009000255A1 (de) Spektralglättungsverfahren von verrauschten signalen
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
DE102019004239A1 (de) Musikklassifizierer und verwandte verfahren
DE102014221528B4 (de) Akkurate Vorwärts-SNR-Schätzung basierend auf MMSE-Sprachpräsenzwahrscheinlichkeit
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
DE102018117558A1 (de) Adaptives nachfiltern
AT504164A1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung
DE102018131687B4 (de) Verfahren und vorrichtungen zur reduzierung von ploppgeräuschen
DE102018117556B4 (de) Einzelkanal-rauschreduzierung

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final