DE112018003662T5 - Sprachsignalnivellierung - Google Patents

Sprachsignalnivellierung Download PDF

Info

Publication number
DE112018003662T5
DE112018003662T5 DE112018003662.6T DE112018003662T DE112018003662T5 DE 112018003662 T5 DE112018003662 T5 DE 112018003662T5 DE 112018003662 T DE112018003662 T DE 112018003662T DE 112018003662 T5 DE112018003662 T5 DE 112018003662T5
Authority
DE
Germany
Prior art keywords
signal
speech
gain
block
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018003662.6T
Other languages
English (en)
Inventor
Markus Christoph
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman Becker Automotive Systems GmbH
Original Assignee
Harman Becker Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman Becker Automotive Systems GmbH filed Critical Harman Becker Automotive Systems GmbH
Publication of DE112018003662T5 publication Critical patent/DE112018003662T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

Ein Sprachsignalnivellierungsverfahren und -verfahren beinhalten das Erzeugen eines Ausgangssignals durch das Anwenden einer frequenzabhängigen oder frequenzunabhängigen regelbaren Verstärkung auf ein Eingangssignal, wobei die Verstärkung von einem Verstärkungsregelsignal abhängig ist, und das Erzeugen von wenigstens einem Spracherfassungssignal, das die in dem Eingangssignal enthaltenen Sprachkomponenten angibt. Das System und das Verfahren beinhalten ferner das Erzeugen des Verstärkungsregelsignals auf Grundlage des Eingangssignals und des wenigstens einen Spracherfassungssignals, das Regeln des regelbaren Verstärkungsblocks, um das Eingangssignal zu verstärken oder abzuschwächen, so dass ein vorgegebener mittlerer oder maximaler oder absoluter Spitzensignalpegel vorliegt, solange Sprachkomponenten im Eingangssignal erfasst werden.

Description

  • STAND DER TECHNIK
  • Technisches Gebiet
  • Die Offenbarung betrifft ein System und ein Verfahren (im Allgemeinen als „System“ bezeichnet) zur Sprachsignalnivellierung.
  • Einschlägiger Stand der Technik
  • Bei der Sprachsignalverarbeitung, wie etwa der Spracherkennung und Freisprechkommunikation, ist ein gut nivelliertes Ausgangssprachsignal entscheidend für eine adäquate Erkennungsrate eines Spracherkennungssystems oder eine adäquate Verständlichkeit auf der Gegenseite eines Freisprechsystems. Bei einem einfachen Ansatz kann eine automatische Verstärkungsregelung (Automatic Gain Control - AGC) auf einem (Spitzen)-Begrenzer basieren, dessen (Eingangs-)Verstärkung derart eingestellt ist, dass Sprache, auch wenn sie leise oder in großer Entfernung gesprochen wird, so verstärkt wird, dass sie immer noch ein gut nivelliertes Ausgangssignal liefert, d. h. ein Sprachsignal, dessen Spitzen idealerweise der Endwert eines akzeptablen maximalen Amplitudenbereichs sind. Andererseits wird jegliche Sprache, die in kürzerer Entfernung mit lauter Stimme gesprochen wird, durch den Begrenzer auf den Endwert abgeschwächt. Auf diese Weise verringert sich das Signal-Rausch-Verhältnis (Signal-to-Noise Ratio - SNR), wenn sich der Sprecher in einer kürzeren Entfernung zu einem Eingangsmikrofon befindet, da der Begrenzer häufiger aktiv ist, so dass im Gegensatz zu der Sprache, die den Endwert überschreitet und durch den (Spitzen-)Begrenzer auf den Endwert begrenzt wird, unerwünschtes Rauschen und/oder Restechos nicht begrenzt werden. Wenn ein Sprecher jedoch zu weit von dem Mikrofon entfernt ist oder leise spricht, ist das Sprachausgangssignal nicht der Endwert, was wiederum das SNR verringern kann. Folglich ist eine Sprachsignalnivellierungsvorrichtung („Leveler“) wünschenswert, die den Sprachpegel automatisch an derartige sich dynamisch verändernde Situationen anpasst.
  • KURZDARSTELLUNG
  • Ein Sprachsignalnivellierungssystem beinhaltet einen regelbaren Verstärkungsblock, der dazu ausgelegt ist, ein Eingangssignal zu empfangen und ein Ausgangssignal durch das Anwenden einer frequenzabhängigen oder frequenzunabhängigen regelbaren Verstärkung auf das Eingangssignal zu erzeugen, wobei die Verstärkung von einem Verstärkungsregelsignal abhängig ist. Das System beinhaltet ferner einen Spracherfassungsblock, der dazu ausgelegt ist, das Eingangssignal zu empfangen und wenigstens ein Spracherfassungssignal zu erzeugen, das in dem Eingangssignal enthaltene Sprachkomponenten angibt. Das System beinhaltet ferner einen Verstärkungsregelungsblock, der dazu ausgelegt ist, das Eingangssignal und das wenigstens eine Spracherfassungssignal zu empfangen und das Verstärkungsregelsignal auf der Grundlage des Eingangssignals und des wenigstens einen Spracherfassungssignals zu erzeugen. Der Verstärkungsregelungsblock ist ferner dazu ausgelegt, den regelbaren Verstärkungsblock zu regeln, um das Eingangssignal zu verstärken oder abzuschwächen, so dass ein vorgegebener mittlerer oder maximaler oder absoluter Spitzensignalpegel vorliegt, solange Sprachkomponenten im Eingangssignal erfasst werden.
  • Ein Sprachsignalnivellierungsverfahren beinhaltet das Erzeugen eines Ausgangssignals durch das Anwenden einer frequenzabhängigen oder frequenzunabhängigen regelbaren Verstärkung auf ein Eingangssignal, wobei die Verstärkung von einem Verstärkungsregelsignal abhängig ist, und das Erzeugen von wenigstens einem Spracherfassungssignal, das in dem Eingangssignal enthaltene Sprachkomponenten angibt. Das Verfahren beinhaltet ferner das Erzeugen des Verstärkungsregelsignals auf Grundlage des Eingangssignals und des wenigstens einen Spracherfassungssignals und das Regeln des regelbaren Verstärkungsblocks, um das Eingangssignal zu verstärken oder abzuschwächen, so dass ein vorgegebener mittlerer oder maximaler oder absoluter Spitzensignalpegel vorliegt, solange Sprachkomponenten im Eingangssignal erfasst werden.
  • Andere Systeme, Verfahren, Merkmale und Vorteile sind oder werden für den Durchschnittsfachmann bei Durchsicht der folgenden detaillierten Beschreibung und der beigefügten Figuren ersichtlich. Sämtliche dieser derartigen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile sollen in dieser Beschreibung beinhaltet, im Umfang der Erfindung eingeschlossen und durch die folgenden Ansprüche geschützt sein.
  • Figurenliste
  • Das System erschließt sich möglicherweise besser unter Hinzuziehung der folgenden Zeichnungen und Beschreibung. Die Komponenten in den Figuren sind nicht unbedingt maßstabsgetreu dargestellt; der Schwerpunkt liegt vielmehr darauf, die Prinzipien der Erfindung zu veranschaulichen. Darüber hinaus gilt für die Figuren, dass in allen der unterschiedlichen Ansichten gleiche Bezugszeichen sich entsprechende Teile kennzeichnen.
    • 1 ist eine vereinfachte schematische Darstellung, die eine Signalverarbeitungsstruktur und einen Signalfluss eines beispielhaften Sprachnivellierungssystems veranschaulicht.
    • 2 ist eine detaillierte schematische Darstellung, die eine Signalverarbeitungsstruktur und einen Signalfluss einer beispielhaften Umsetzung des in 1 gezeigten Sprachnivellierungssystems veranschaulicht.
    • 3 ist ein Ablaufdiagramm, das ein beispielhaftes Sprachnivellierungsverfahren veranschaulicht.
    • 4 ist eine vereinfachte schematische Darstellung, die eine Signalverarbeitungsstruktur und einen Signalfluss eines weiteren beispielhaften Sprachnivellierungssystems veranschaulicht.
    • 5 ist eine detaillierte schematische Darstellung, die eine Signalverarbeitungsstruktur und einen Signalfluss einer beispielhaften Umsetzung des in 4 gezeigten Sprachnivellierungssystems veranschaulicht.
    • 6 ist eine detaillierte schematische Darstellung, die eine Signalverarbeitungsstruktur und einen Signalfluss einer Modifikation des in 4 gezeigten Sprachnivellierungssystems veranschaulicht.
    • 7 ist eine detaillierte schematische Darstellung, die eine Signalverarbeitungsstruktur und einen Signalfluss einer weiteren Modifikation des in 4 gezeigten Sprachnivellierungssystems veranschaulicht.
  • DETAILLIERTE BESCHREIBUNG
  • In der folgenden Beschreibung beispielhafter Sprachnivellierungssysteme und -verfahren wird ein Block als ein Hardwaresystem oder ein Element von diesem verstanden, mit wenigstens einem der folgenden: einer Verarbeitungseinheit (wie etwa einer Steuerung, einem Prozessor usw.), die Software ausführt, und einer speziellen Schaltungsstruktur zum Umsetzen einer gewünschten Signalübertragungs- oder Signalverarbeitungsfunktion. Blöcke können miteinander verbunden oder auf andere Weise miteinander wirkgekoppelt sein, um eine bestimmte Signalflussstruktur bereitzustellen und bestimmte Signale zu erzeugen, wie nachstehend genauer aufgeführt. Eine Eigenschaft von Sprache (einer Stimme) ist das Vorhandensein von stillen Intervallen (leeren Pausen) und Vokalisierungen (gefüllten Pausen), die keine lexikalische Bedeutung haben. Es ist wahrscheinlich, dass eine leere und eine gefüllte Pause mit Grenzen zusammenfallen, die als stille Intervalle von unterschiedlicher Länge auf Satz- und Absatzebene ausgeführt werden und oft die Grenzen von Erzähleinheiten markieren. Sprechpausen sind typischerweise ein multideterminiertes Phänomen, das physischen, soziopsychologischen, kommunikativen, sprachlichen und kognitiven Ursachen zugeordnet werden kann.
  • 1 ist eine schematische Darstellung, die die Signalverarbeitungsstruktur und den Signalfluss eines beispielhaften Sprachnivellierungssystems (das ein beispielhaftes Sprachnivellierungsverfahren ausführen kann) veranschaulicht. Das in 1 gezeigte Sprachnivellierungssystem beinhaltet einen regelbaren Verstärkungsblock 101 (z. B. einen regelbaren Verstärker, regelbaren Dämpfer, regelbaren Filter, Multiplikator usw.), der ein Eingangssignal x(n) empfängt und ein Ausgangssignal y(n) bereitstellt. Das Ausgangssignal y(n) ist das Eingangssignal x(n), auf das eine frequenzabhängige oder frequenzunabhängige regelbare Verstärkung G angewendet wurde. Der regelbare Verstärkungsblock 101, d.h. seine Verstärkung G, wird über ein Verstärkungsregelsignal g(n) geregelt. Das Eingangssignal x(n) wird zudem einem Spracherfassungsblock 102 zugeführt, der wenigstens ein Spracherfassungssignal erzeugt, das in dem Eingangssignal x(n) enthaltene Sprachkomponenten angibt. In dem gezeigten Beispielsystem werden zwei Spracherfassungssignale, ein Sprachaktivitätserfassungssignal VAD(n), z. B. ein VAD-Flag, und ein Sprechpausenerfassungssignal SPD(n), z. B. ein SPD-Flag, bereitgestellt, deren Erzeugung und Eigenschaften nachstehend genauer beschrieben werden.
  • Das Eingangssignal x(n) wird zudem einem Verstärkungsregelungsblock 103 zugeführt, der zusätzlich die Spracherfassungssignale empfängt und auf Grundlage des Eingangssignals x(n) und des Spracherfassungssignals/der Spracherfassungssignale, z. B. des Sprachaktivitätserfassungssignals VAD(n) und optional des Sprechpausenerfassungssignals SPD(n), das Verstärkungsregelsignal g(n) erzeugt. Der Verstärkungsregelungsblock 103 regelt den regelbaren Verstärkungsblock 101 derart, dass das Eingangssignal x(n) verstärkt oder abgeschwächt wird, so dass ein vorgegebener mittlerer oder maximaler oder absoluter Spitzensignalpegel vorliegt, solange keine Sprachkomponenten in dem Eingangssignal x(n) erfasst werden. Das Eingangssignal x(n) kann zum Beispiel blockiert werden, d. h. das Ausgangssignal y(n) ist (fast) null, solange keine Sprachkomponenten in dem Eingangssignal x(n) erfasst werden.
  • Das in 1 gezeigte Sprachnivellierungssystem kann ferner einen optionalen Verzögerungsblock 104 beinhalten, der das Eingangssignal x(n) um eine bestimmte Zeit (z. B. eine bestimmte Anzahl von Frames oder Abtastwerten) verzögert, bevor es dem regelbaren Verstärkungsblock 101 zugeführt wird, derart dass das Eingangssignal x(n), das dem regelbaren Verstärkungsblock 101 zugeführt wird, in Bezug auf das Eingangssignal x(n), wie es dem Spracherfassungsblock 102 und dem Verstärkungsregelungsblock 103 zugeführt wird, verzögert ist. Situationen, in denen der Verzögerungsblock 104 eingesetzt werden kann, sind nachstehend beschrieben.
  • Der Spracherfassungsblock 102 kann ferner, z. B. aus einem Register oder Speicher (beide nicht gezeigt), einen SNR-Schwellenwert VadSnrTH , einen Schwellenwert VadTH und einen Timerwert VadTimer für die Sprachaktivitätserfassung und optional einen SNR-Schwellenwert SpdSnrTH , einen Schwellenwert SpdTH und einen Timerwert SpdTimer für die optionale Sprechpausenerfassung empfangen. Ferner können dem Spracherfassungsblock 102 wenigstens einer von einem minimalen Rauschschwellenwert MinNoise, einem anfänglichen quadratischen Mittelwert (Root Mean Square - RMS) RmsInit_dB, einem Schwellenwert des quadratischen Mittelwerts RMSTH und einem Schwellenwert MaxAbsPeak bereitgestellt werden. Der Verstärkungsregelungsblock 103 kann ferner, z. B. aus einem Register oder Speicher (beide nicht gezeigt), einen optionalen Glättungszeitparameter τSmooth , wenigstens einen von einem Abstimmungsparameter MaxVadGain und Abstimmungsparameter MaxSpdGain und einen Referenzpegel RefLevel oder einen Referenzspitzenpegel RefPeakLevel empfangen. Optional kann ein (Spitzen)-Begrenzerblock 105 dem regelbaren Verstärkungsblock 101 nachgeschaltet wirkgekoppelt sein, um das Ausgangssignal y(n) zu empfangen und ein begrenztes Ausgangssignal Out(n) bereitzustellen. Der (Spitzen)-Begrenzerblock 105 kann ferner eine vorgegebene Begrenzerverstärkung LimGain, einen Begrenzerschwellenwert LimTh, eine Ansprechzeit AttackT und eine Abfallzeit ReleaseT empfangen.
  • 2 ist eine schematische Darstellung, die die Signalverarbeitungsstruktur und den Signalfluss eines weiteren beispielhaften Sprachnivellierungssystems (das ein weiteres beispielhaftes Sprachnivellierungsverfahren ausführt) veranschaulicht. Bei dem in 2 gezeigten Sprachnivellierungssystem kann ein Spracherfassungsblock 201 das Transformieren des Eingangssignals x(n) vom Zeitbereich in den Frequenzbereich beinhalten, was durch einen Zeit-Frequenz-Transformationsblock 202 ausgeführt werden kann. Die Spektralanteile des Eingangssignals x(n) können auf vielfältige Weise erhalten werden, einschließlich durch Bandpassfilterung und Fourier-Transformation. Bei einem Ansatz kann eine diskrete Fourier-Transformation (DFT) oder schnelle Fourier-Transformation (Fast Fourier Transform - FFT) verwendet werden, um aufeinanderfolgende Blöcke von N Punkten des Eingangssignals zu transformieren. Es kann eine Fensterfunktion, wie etwa ein Hanning-Fenster, angewendet werden, wobei in diesem Fall eine Überlagerung von N/2 Punkten verwendet werden kann. Die DFT kann bei jedem Frequenz-Bin im Eingangssignal verwendet werden. Alternativ kann die FFT über das gesamte Frequenzband, das von dem Eingangssignal belegt wird, verwendet werden. Das Spektrum wird für jedes Frequenz-Bin in dem Eingangssignalband gespeichert.
  • In dem vorliegenden Beispiel wendet der Zeit-Frequenz-Transformationsblock 202 eine FFT mit optionaler Fensterung (nicht gezeigt) auf das Eingangssignal x(n) im Zeitbereich an, um ein Signal X(ω) im Frequenzbereich zu erzeugen. Das Signal X(ω) kann optional geglättet werden, z. B. unter Verwendung eines Filters mit gleitendem Mittelwert mit geeigneter Länge.
  • Die (optionale) Spektrenglättung kann eine Vielzahl von Frequenz-Bins berücksichtigen, was die spektrale Auflösung verringert. Der Ausgang des Zeit-Frequenz-Transformationsblocks 202 wird ferner durch eine Multiplizität (M) zeitlicher Glättungsblöcke 203 geglättet, die dem Zeit-Frequenz-Transformationsblock 202 nachgeschaltet wirkverbunden sind. Die Multiplizität zeitlicher Glättungsblöcke 203 kombiniert Frequenz-Bin-Werte im Zeitverlauf, um die zeitliche Dynamik im Ausgangssignal des Zeit-Frequenz-Transformationsblocks 202 zu verringern.
  • Die Multiplizität von zeitlichen Glättungsblöcken 203 gibt zeitlich geglättete Signale aus, die noch immer Impulsverzerrungen sowie Hintergrundrauschen enthalten können. Eine Multiplizität (M) von Rauschschätzungsblöcken 204 ist nachgeschaltet der Multiplizität zeitlicher Glättungsblöcke 203 wirkverbunden, um Impulsverzerrungen, wie etwa Sprache in den Ausgängen der Multiplizität zeitlicher Glättungsblöcke 203, auszuschmieren und das aktuelle Hintergrundrauschen zu schätzen. Um das Verschmieren eines erwünschten Signals, wie etwa von Musik- oder Sprachsignalen, zu verringern oder zu vermeiden, kann in der Multiplizität der Rauschschätzungsblöcke 204 eine nichtlineare Glättung (nicht gezeigt) eingesetzt werden.
  • Auf Grundlage der geglätteten Signale von der Multiplizität zeitlicher Glättungsblöcke 203 und der geschätzten quasi stationären Hintergrundrauschsignale von der Multiplizität der Rauschschätzungsblöcke 204 können die Schwankungen in dem SNR bestimmt (berechnet) werden, z. B. als Frequenzverteilung von SNR-Werten. Unter Verwendung von Schwankungen in dem SNR kann Rauschen von einem erwünschten Sprach- oder Musiksignal unterschieden werden. Ein niedriger SNR-Wert kann zum Beispiel mit vielfältigen Geräuschquellen, wie etwa einer Klimaanlage, einem Ventilator, einem offenen Fenster oder einer elektrischen Vorrichtung, wie etwa einem Computer usw. verbunden sein. Das SNR kann im Zeitbereich oder im Frequenzbereich oder im Teilbandbereich ausgewertet werden.
  • In einer Multiplizität (M) der Komparatorblöcke 206 werden die durch die Multiplizität (M) der SNR-Bestimmungsblöcke 205 bestimmten Ausgangs-SNR-Werte mit einem vorgegebenen Schwellenwert, z. B. einem SNR-Schwellenwert VadSnrTH , verglichen. Wenn die bestimmten aktuellen SNR-Werte größer als der vorgegebene Schwellwert VadSnrTH sind, werden die Flags VadSnrFlag auf einen ersten logischen Wert, z. B. „1“, gesetzt. Andernfalls werden die Flags VadSnrFlag auf einen zweiten logischen Wert, z. B. „0“, gesetzt. Die Flags von der Multiplizität von Komparatorblöcken 206 werden an einen Summierungsblock 207 weitergegeben. Der Summierungsblock 207 summiert die Spektral-Flags VadSnrFlag von der Multiplizität von Komparatorblöcken 206 und gibt ein zeitvariantes Summensignal SVAD(n) aus. Ferner kann ein RMS-Bestimmungsblock 211 ein Mittelwertsignal RMS(n) bereitstellen, das den Mittelwert (quadratischen Mittelwert) des Eingangssignals x(n) angibt. Das Summensignal SVAD(n) und das Mittelwertsignal RMS(n) werden an einen Komparatorblock 208 weitergegeben, in dem das Summensignal SVAD(n) mit einem vorgegebenen Summenschwellenwert VADTH verglichen wird, und das Mittelwertsignal RMS(n) mit einem vorgegebenen Schwellenwert RMSTH verglichen wird. Wenn der aktuelle Wert des Summensignals SVAD(n) größer als der vorgegebene Summenschwellwert VADTH ist und das Mittelwertsignal RMS(n) größer als der vorgegebene Schwellwert RMSTH ist, wird ein Flag S'VAD(n), das als ein aktualisiertes Summensignal SVAD(n) betrachtet werden kann, in einen ersten logischen Zustand, z. B. „1“ (eins), gesetzt. Andernfalls wird das Flag S'VAD(n) in einen anderen logischen Zustand gesetzt, z. B. „0“ (null). Anstelle des RMS-Bestimmungsblocks 211 kann ein Block zur Bestimmung des maximalen absoluten Spitzenwerts (nicht gezeigt), der dazu ausgelegt ist, einen maximalen absoluten Spitzenwert des Eingangssignals x(n) zu bestimmen, verwendet werden, um anschließend den maximalen absoluten Spitzenwert mit einem Schwellenwert des maximalen absoluten Spitzenwerts zu vergleichen.
  • Das Ausgangssignal des Komparatorblocks 208, d. h. Flag S'VAD(n), wird an einen Timer-Block 209 zur Sprachaktivitätserfassung (Voice Activity Detection - VAD) weitergeleitet, der erfasst, ob das Flag S'VAD(n) „0“ ist oder nicht. Wenn das Flag SVAD(n) zu einem Zeitpunkt n „0“ ist, setzt der VAD-Timer-Block 209 einen Zähler TVAD(n) auf TVAD(n-1)-1, d. h. er dekrementiert den vorherigen Zähler TVAD(n-1) um eins. Ist das Flag SVAD(n) nicht „0“, d. h. es ist „1“, wird der Zähler TVAD(n) auf einen Initialisierungswert VadTimerInit zurückgesetzt. Der Ausgang des VAD-Timer-Blocks 209, d.h. der Zähler TVAD(n), wird an einen Block 210 zur Sprachaktivitätserfassung (VAD) weitergegeben, wo der Zähler TVAD(n) mit einem festgelegten Schwellenwert, z. B. null, verglichen wird. Wenn der aktuelle Zähler TVAD(n) größer als der vorgegebene Schwellenwert (null) ist, wird ein Flag VAD(n) auf „1“ gesetzt, andernfalls auf „0“.
  • Zusätzlich oder alternativ werden in einer Multiplizität (M) der Komparatorblöcke 212 die durch die Multiplizität (M) der SNR-Bestimmungsblöcke 205 bestimmten SNR-Werte mit einem vorgegebenen Schwellenwert, z. B. einem SNR-Schwellenwert SpdSnrTH , verglichen. Wenn die bestimmten aktuellen SNR-Werte größer als der vorgegebene Schwellwert SpdSnrTH sind, werden die Flags SpdSnrFlag z. B. auf „1“ gesetzt. Andernfalls werden die Flags SpdSnrFlag auf „0“ gesetzt. Die Flags von der Multiplizität von Komparatorblöcken 212 werden an einen Summierungsblock 213 weitergegeben. Der Summierungsblock 213 summiert die Flags SpdSnrFlag von der Multiplizität von Komparatorblöcken 212 und gibt ein zeitvariantes Summensignal SSPD(n) aus. Das Summensignal SSPD(n) und das Mittelwertsignal RMS(n) vom RMS-Bestimmungsblock 211 werden an einen Komparatorblock 214 weitergegeben, in dem das Summensignal SSPD(n) mit einem vorgegebenen Summenschwellenwert SPDTH verglichen wird, und das Mittelwertsignal RMS(n) mit einem vorgegebenen Schwellenwert RMSTH . verglichen wird. Wenn der aktuelle Wert des Summensignals SSPD(n) größer als der vorgegebene Summenschwellwert SPDTH ist und das Mittelwertsignal RMS(n) größer als der vorgegebene Schwellwert RMSTH ist, wird ein Flag S'SPD(n), das als ein aktualisiertes Summensignal S'SPD(n) betrachtet werden kann, z. B. auf „1“ gesetzt. Andernfalls wird das Flags S'SPD(n) auf „0“ gesetzt.
  • Das Ausgangssignal des Komparatorblocks 214, d. h. das Flag S'SPD(n), wird an einen Timer-Block 215 zur Sprechpausenerfassung (Speech Pause Detection - SPD) weitergegeben, der erfasst, ob das Flag S'SPD(n) „0“ ist oder nicht. Wenn das Flag S'SPD(n) zu einem Zeitpunkt n „0“ ist, setzt der SPD-Timer-Block 215 einen Zähler TSPD(n) auf TSPD(n-1)-1, d. h. er dekrementiert den vorherigen Zähler TSPD(n-1) um eins. Wenn das Flag S'SPD(n) nicht „0“ ist, d.h. „1“ ist, wird der Zähler TSPD(n) auf einen Initialisierungswert SpdTimerInit zurückgesetzt. Der Ausgang des SPD-Timer-Blocks 215, d. h. der Zähler TSPD(n), wird an einen Block 216 zur Sprechpausenerfassung (SPD) weitergegeben, wo der Zähler TSPD(n) mit einem festgelegten Schwellenwert, z. B. null, verglichen wird. Wenn der aktuelle Zähler TSPD(n) kleiner als oder gleich dem vorgegebenen Schwellenwert (null) ist, wird ein Flag SPD(n) auf „1“ gesetzt, andernfalls auf „0“.
  • Wenn das Flag VAD(n) zum Zeitpunkt n „1“ ist, wird eine Sprachaktivität erfasst. Wenn es „0“ ist, wird keine Sprachaktivität erfasst. Wenn das Flag SPD(n) zu einem Zeitpunkt n „1“ ist, wird eine Sprechpause erfasst. Wenn es „0“ ist, wird keine Sprechpause erfasst. Zum Beispiel können die Initialisierungswerte VadTimerInit, wie er im VAD-Timer-Block 209 benutzt wird, und SpdTimerInit, wie er im SPD-Timer-Block 215 benutzt wird, unterschiedlich sein. Die SNR-Schwellenwerte VadSnrTH , wie er im Komparatorblock 206 benutzt wird, und SpdSnrTH , wie er im Komparatorblock 212 benutzt wird, können zum Beispiel unterschiedliche Werte aufweisen. Die Summenschwellenwerte VADTH und SPDTH , wie sie in den Komparatorblöcken 208 und 214 benutzt werden, können zum Beispiel gleich sein.
  • In dem in 2 gezeigten Sprachnivellierungssystem beinhaltet ein Verstärkungsregelungsblock 217 einen Sprach-RMS-Pegelbestimmungsblock 218, der das Eingangssignal x(n), das Flag VAD(n) und einen vorhergehenden Abtastwert des geglätteten RMS-Signals SRMS(n-1) empfängt und der ein Signal InRMS(n) ausgibt. Das Signal InRMS(n) entspricht dem Eingangssignal x(n), wenn das Flag VAD(n) „1“ ist, und wird andernfalls auf den Wert der vorhergehenden Abstastwerts des geglätteten RMS-Signals SRMS(n-1) gesetzt. Das Signal InRMS(n) wird einer anschließenden RMS-Bestimmung (Berechnung) unterzogen, wobei optional der anfängliche quadratische Mittelwert (RMS) RmsInit_dB benutzt wird. Der Wert der RMS-Bestimmung wird einem Glättungsblock 219 zugeführt, der ein geglättetes RMS-Signal SRMS(n) bereitstellt. Das geglättete RMS-Signal SRMS(n) wird einerseits um einen Abtastwert verzögert, um den vorhergehenden Abtastwert des geglätteten RMS-Signals SRMS(n-1) zu erzeugen, der dem Sprach-RMS-Pegelbestimmungsblock 218 rückgekoppelt wird, und andererseits einem Verstärkungsbestimmungsblock 220 zugeführt, in dem ein Verstärkungsregelsignal Gain(n) entsprechend dem Verhältnis zwischen einem Referenzpegel RefLevel und dem geglätteten RMS-Signal SRMS(n) erzeugt wird.
  • In einem optionalen Verstärkungsbegrenzungsblock 221 wird das Verstärkungsregelsignal Gain(n) mit einem Referenzwert MaxVadGain verglichen. Wenn das Verstärkungsregelsignal Gain(n) folglich größer als der Referenzwert MaxVadGain ist, wird das Ausgangssignal des Verstärkungsbegrenzungsblocks 221, das begrenzte Verstärkungsregelsignal Gain'(n), das als aktualisiertes Verstärkungsregelsignal Gain(n) betrachtet werden kann, auf den Referenzsprachaktivitätswert MaxVadGain und andernfalls auf das Verstärkungsregelsignal Gain(n) gesetzt. Im vorliegenden Beispiel wird das begrenzte Verstärkungsregelsignal Gain'(n) einem SPD-Verstärkungsbegrenzungsblock 222 zugeführt, der ferner die Flags VAD(n) und SPD(n) sowie einen Referenzsprechpausenwert MaxSpdGain empfängt. Wenn zum Zeitpunkt n das Flag SPD(n) „1“ und das Flag VAD(n) „0“ ist, wird ein endgültiges Verstärkungsregelsignal Gain"(n), das als aktualisiertes Verstärkungsregelsignal Gain'(n) betrachtet werden kann, auf den Referenzsprechpausenwert MaxSpdGain und andernfalls auf das begrenzte Verstärkungsregelsignal Gain'(n) gesetzt. Alternativ kann der Block 222 nur das SPD-Flag empfangen. Das endgültige Verstärkungsregelsignal Gain"(n) kann optional über einen Glättungsfilterblock 226 im Zeitverlauf geglättet werden, bevor es einen regelbaren Verstärkungsblock 223 regelt, dem über einen optionalen Verzögerungsblock 242 das Eingangssignal x(n) zugeführt wird und der über einen optionalen Spitzenbegrenzer 225 das begrenzte Ausgangssignal Out(n) ausgibt.
  • In dem in 2 gezeigten System werden zwei verschiedene Abstimmungssätze für die Bestimmung des Sprachaktivitätserfassungsflags VAD(n) und des optionalen Sprechpausenerkennungsflags SPD(n) verwendet. Es basieren jedoch beide auf den gleichen spektralen SNR-Werten. Wie bereits vorstehend erwähnt, kann zur Bestimmung des Sprachaktivitätserfassungsflags VAD(n) ein höherer Wert für den SNR-Schwellenwert VadSnrTH verwendet werden als für den SNR-Schwellenwert SpdSnrTH zur Bestimmung des Sprechpausenerfassungsflags SPD(n). Dies erlaubt einerseits, das Sprachaktivitätserfassungsflag VAD(n) nur dann zu setzen, wenn sicher ist, dass Sprache vorhanden ist, somit die Anwendung eines hohen Schwellenwertes, und andererseits das Sprechpausenerfassungsflag SPD(n) nur dann auf „1“ zu setzen, wenn sicher ist, dass eine Sprechpause auftritt. Dies kann erreicht werden, indem der jeweilige SNR-Schwellenwert auf einen niedrigeren Wert gesetzt wird, sodass auch undeutliche Sprachteile zu einer erfassten Sprachaktivität führen und somit ein fehlerhaftes Setzen des Sprechpausenerfassungsflags SPD(n) vermieden wird.
  • Ferner wird die Anzahl der Spektrallinien, die die vorgegebenen Signal-Rausch-Verhältnis-Schwellenwerte VadSnrTH und SpdSnrTH überschreiten, bestimmt (gezählt) und diese Anzahl wird mit den Schwellenwerten VADTH für den Sprachaktivitätserfassungsteil und SPDTH für den Sprechpausenerfassungsteil verglichen. Parallel dazu wird auch der RMS-Wert des Eingangssignals x(n) oder ein dem Eingangssignal x(n) entsprechendes Signal, wie etwa das Ausgangssignal y(n), pro Frame berechnet, dessen Größe von der Länge einer beteiligten FFT und einer gewählten Überlagerung abhängen kann. Die FFT-Länge kann zum Beispiel bei einer Abtastfrequenz fs von 16 kHz 512 Taps betragen und die Überlagerung kann auf 50 % eingestellt werden, was zu einer Framegröße von 256 Abtastwerten führt. Das bedeutet, dass nach jedem Block von Abtastwerten (z. B. jedem 256. Abtastwert) der RMS-Wert des Eingangssignals x(n) oder ein dem Eingangssignal x(n) entsprechendes Signal, wie etwa das Ausgangssignal y(n), aus allen Blockabtastwerten (z. B. 256 vorhergehenden Abtastwerten) berechnet und dann mit dem RMS-Schwellenwert RMSTH verglichen wird. Nur wenn der aktuelle RMS-Wert RMS(n) den Schwellenwert RMSTH überschreitet, wird eine positive Entscheidung einer vorherigen Stufe, die die Anzahl der Abtastwerte des spektralen Signal-Rausch-Verhältnisses, die die Schwellenwerte VadSnrTH und SpdSnrTH überschreiten, vergleicht, akzeptiert (oder nicht). Wenn der aktuelle RMS-Wert RMS(n) den RMS-Schwellenwert RMSTH nicht überschreitet, wird weder eine positive Sprachaktivitäts- noch eine positive Sprechpausenentscheidung getroffen und stattdessen wird der aktuelle Status beibehalten.
  • Der RMS-Verarbeitungsteil dient dazu, das fehlerhafte Setzen der Erfassungsflags für die Sprachaktivitäts- und Sprechpausenerfassung in Fällen, in denen das Signal-Rausch-Verhältnis hoch, der Pegel des Eingangssignals aber niedrig ist, zu vermeiden. Da das Signal-Rausch-Verhältnis ein relativer Wert ist, ist es möglich, dass hohe Signal-Rausch-Verhältnisse auftreten, auch wenn der Pegel des Eingangssignals sehr niedrig ist, wie zum Beispiel Szenarien nur mit Echo. In einem derartigen Fall kann der Pegel des Restechos sehr niedrig sein, aber sein Signal-Rausch-Verhältnis kann trotzdem noch hoch sein und könnte demnach fälschlicherweise das Flag für die Sprachaktivitätserfassung VAD(n) und das Flag für die Sprechpausenerfassung SPD(n) auslösen, wenn er als alleiniger Entscheider verwendet wird. Um dies zu vermeiden, kann zusätzlich wenigstens ein weiterer absoluter Wert genutzt werden, bevor eine endgültige Entscheidung getroffen wird. Ein Ansatz besteht darin, die Energie oder den RMS-Wert des Eingangssignals x(n) oder des Ausgangssignals y(n) zu berücksichtigen. Beispielsweise wird das Signal-Rausch-Verhältnis nur dann berücksichtigt, wenn der aktuelle RMS-Wert einen bestimmten Grenzwert überschreitet, so dass ein fehlerhaftes Setzen des Flags für die Sprachaktivitätserfassung VAD(n) und des Flags für die Sprechpausenerfassung SPD(n) durch sehr kleine Eingangssignale vermieden wird. Bei einem anderen Ansatz wird der Mindestrauschschwellenwert MinNoise auf einen viel höheren Wert gesetzt. Somit können sehr kleine Eingangssignale auf diesen Schwellenwert begrenzt werden und folglich verringern sich die erreichbaren Signal-Rausch-Verhältnisse im Fall von sehr kleinen Eingangssignalen.
  • Um zu vermeiden, dass die Verstärkung auf unerwünscht hohe Werte ansteigt, kann das Restecho mehr oder weniger auf den Endwert verstärkt und/oder die Verstärkung auf ein Maximum begrenzt werden, z. B. mittels des optionalen Abstimmungsparameters MaxVadGain. Dabei können unterschiedliche Timerwerte zur Sprachaktivitätserfassung und Sprechpausenerfassung eingesetzt werden. Während der Timer zur Sprachaktivitätserfassung auf eine mittlere Länge eines Wortes gesetzt werden kann, kann der Timer zur Sprechpausenerfassung auf einen höheren Wert gesetzt werden, um sicherzustellen, dass eine Äußerung sicher beendet ist, bevor das zeitvariante Sprechpausenerfassungsflag SPD(n) auf „1“ gesetzt wird. Dagegen wird das zeitvariante Sprachaktivitätserfassungsflag VAD(n) auf „0“ gesetzt, wenn sein anfänglicher Timerwert VadTimerInit abgelaufen ist.
  • Wenn das zeitvariante VAD-Flag auf „1“ gesetzt ist, d. h. nur in aktiven Sprachsequenzen, wird der RMS-Wert oder alternativ der maximale absolute Spitzenwert des Eingangssignals x(n) bestimmt. Andernfalls wird der vorhergehende Abtastwert des geglätteten Sprach-RMS-Wertes SRMS(n-1) an den Glättungsfilter weitergegeben. Um unerwünschte transiente Effekte zu vermeiden, kann die RMS-Bestimmung optional mit einem richtig gewählten Initialisierungswert RmsInit_dB initialisiert werden. Als Glättungsfilter kann zum Beispiel ein Tiefpassfilter mit unendlicher Impulsantwort (Infinite Impulse Response - IIR) mit einer relativen langen Glättungszeitkonstanten τ verwendet werden. Der aktuelle Verstärkungswert Gain(n) wird bestimmt (berechnet), indem das Verhältnis des gewünschten Referenz-RMS-Werts des Sprachausgangssignals, d. h. des Referenzpegels RefLevel oder alternativ des Referenzspitzenpegels RefPeakLevel, und des Ausgangssignals dieses Glättungsfilters, d. h. SRMS(n), zugrundegelegt wird, derart dass Gain(n) = RefLevel/SRMS(n).
  • Ferner kann eine optionale Begrenzung des Maximums des Verstärkungswertes Gain(n) angewendet werden, um sukzessive Verstärkungen sehr kleiner Eingangssignale zu vermeiden, wie bereits vorstehend beschrieben. Optional kann noch eine weitere Begrenzung des Verstärkungswertes angewendet werden, die in Freisprechanwendungen als Pegelkompensator fungieren kann und die durch das zeitvariante Sprachaktivitätserfassungsflag VAD(n) und/oder das zeitvariante Sprechpausenerfassungsflag SPD(n) geregelt werden kann. Dadurch wird der Verstärkungswert Gain(n) immer dann auf den vorgegebenen Grenzwert MaxSpdGain verringert, wenn eine Sprechpause und keine Sprachaktivität erfasst wird, z. B. immer dann, wenn das Sprechpausenerfassungsflag SPD(n) den Wert „1“ und das zeitvariante Sprachaktivitätserfassungsflag VAD(n) den Wert „0“ annimmt. Zum Beispiel wird keine Verstärkung oder sogar eine Verstärkungsverringerung auf das Eingangssignal x(n) angewendet, wenn SPD(n) = „1“ und VAD(n) = „0“.
  • Der vorstehend beschriebene Vorgang, der auch als „Torschaltung des Verstärkungswerts“ betrachtet werden kann, ermöglicht es z. B, die Anforderungen an einen Wert der gewichteten Echodämpfung (Terminal Coupling Loss weighted - TCLw) im Freisprechmodus zu erfüllen, so dass es möglich ist, die vorgegebene Anforderung nach einem TCLw-Wert von z. B. ≥ -52 dB zu erfüllen, da die Messung des TCLw-Wertes voraussetzt, dass dieser Wert zwischen einem Eingangssignal, das von einem Referenzmikrofon in der Nähe der an der Vorrichtung installierten Mikrofone aufgenommen wird, und dem endgültigen, elektrischen Ausgangssignal der Vorrichtung erreicht werden muss, während die Vorrichtung mit einer definierten Wiedergabelautstärke spielt, um einen Schalldruckpegel von L ≈ -76 dBSPL(A) in einer Entfernung von d = 1 m von dem/den Lautsprecher(n) der Vorrichtung zu erreichen. Im Freisprechmodus ist zudem festgelegt, dass ein minimales Sprach-RMS-Signal von etwa -24 dBFS geliefert werden muss, wie es auch im Spracherkennungsmodus der Fall ist. Ohne die vorstehend erwähnte Torschaltungsfunktionalität der Verstärkungsbestimmungseinheit können diese etwas widersprüchlichen Anforderungen kaum erfüllt werden.
  • Mit dem beschriebenen System ist es möglich, Sprechpausen sicher zu ermitteln und demzufolge die erforderliche Torsteuerung auf den Verstärkungswert Gain(n) anzuwenden. Eine große Herausforderung besteht darin, diese Torsteuerungsphase schnell genug zu verlassen, sobald wieder Sprache (von dem Sprecher am nahen Ende) aktiv ist. Wenn dies nicht gewährleistet ist, kann es vorkommen, dass die ersten Teile der beginnenden Sprache nicht wie gewünscht verstärkt werden und demnach weder von Spracherkennungssystemen noch von einem menschlichen Zuhörer (Sprecher an der Gegenseite) verstanden werden können. Eine Möglichkeit, dies zu vermeiden, besteht darin, eine schnell reagierende Sprachaktivitätserfassung und/oder Sprechpausenerfassung zu verwenden. Dies kann durch das Verwenden eines nicht geglätteten, momentanen RMS-Wertes umgesetzt werden, der als Teil der Entscheidung mit dem vorgegebenen Schwellenwert verglichen wird. Wenn dies nicht ausreichend ist, kann das Eingangssignal optional um einen oder mehrere Frames verzögert werden, bevor die aktuelle Verstärkung Gain(n) auf diese angewendet wird. Dies kann solange erfolgen, wie die maximal vorgegebene Latzenzzeit nicht überschritten wird.
  • 3 ist ein Ablaufdiagramm, das ein beispielhaftes Sprachnivellierungsverfahren veranschaulicht. Das Verfahren beinhaltet einen Vorgang 301, in dem durch das Anwenden einer frequenzabhängigen oder frequenzunabhängigen regelbaren Verstärkung auf ein Eingangssignal ein Ausgangssignal erzeugt wird, wobei die Verstärkung von einem Verstärkungsregelsignal abhängig ist. Bei einem Verfahren 302 wird wenigstens ein Spracherfassungssignal erzeugt, das in dem Eingangssignal enthaltene Sprachkomponenten angibt. Das Verfahren beinhaltet ferner einen Vorgang 303, bei dem das Verstärkungsregelsignal auf Grundlage des Eingangssignals und des wenigstens einen Spracherfassungssignals erzeugt wird und der regelbare Verstärkungsblock geregelt wird, um das Eingangssignal zu verstärken oder abzuschwächen, so dass ein vorgegebener mittlerer Signalpegel vorliegt, solange keine Sprachkomponenten im Eingangssignal erfasst werden, um z. B. das Eingangssignal zu blockieren, derart dass kein Ausgangssignal bereitgestellt wird, solange keine Sprachkomponenten in dem Eingangssignal erfasst werden.
  • 4 ist eine vereinfachte schematische Darstellung, die eine Signalverarbeitungsstruktur und einen Signalfluss eines weiteren beispielhaften Sprachnivellierungssystems veranschaulicht. Das in 4 gezeigte System beinhaltet einen regelbaren Verstärkungsblock 401 (z. B. einen regelbaren Verstärker, regelbaren Dämpfer, regelbaren Filter, Multiplikator usw.), der als Eingangssignal ein Ausgangssignal OutTfe(n) empfängt, das an eine Gegenseite gesendet wird, und ein Ausgangssignal Out(n) bereitstellt. Das Ausgangssignal Out(n) ist hier das Ausgangssignal OutTfe(n), auf das eine frequenzabhängige oder frequenzunabhängige regelbare Verstärkung G angewendet wurde. Der regelbare Verstärkungsblock 401, d. h. seine Verstärkung G, wird über ein Verstärkungsregelsignal g(n) geregelt. Das Ausgangssignal OutTfe(n) wird zudem einem Spracherfassungsblock 402 zugeführt, der wenigstens ein Spracherfassungssignal erzeugt, das in dem Ausgangssignal OutTfe(n) enthaltene Sprachkomponenten angibt. In dem gezeigten Beispielsystem werden zwei Spracherfassungssignale, ein Sprachaktivitätserfassungssignal VadTfe(n), z. B. ein erstes VAD-Flag, und ein zweites Sprachaktivitätserfassungssignal VadFfe(n), z. B. ein zweites VAD-Flag, bereitgestellt, deren Erzeugung und Eigenschaften nachstehend genauer beschrieben werden.
  • Das Ausgangssignal OutTfe(n) wird zudem einem Verstärkungsregelungsblock 403 zugeführt, der zusätzlich die Spracherfassungssignale empfängt und auf Grundlage des Ausgangssignals OutTfe(n) und des Spracherfassungssignals/der Spracherfassungssignale, des ersten Sprachaktivitätserfassungssignals VadTfe(n) und des zweiten Sprachaktivitätserfassungssignals VadFfe(n) das Verstärkungsregelsignal g(n) erzeugt. Der Verstärkungsregelungsblock 403 regelt den regelbaren Verstärkungsblock 401 derart, dass das Ausgangssignal OutTfe(n) verstärkt oder abgeschwächt wird, so dass ein vorgegebener mittlerer oder maximaler oder absoluter Spitzensignalpegel vorliegt, solange keine Sprachkomponenten in dem Ausgangssignal OutTfe(n) erfasst werden. Das Ausgangssignal OutTfe(n) kann zum Beispiel blockiert werden, d. h. das Ausgangssignal Out(n) ist (fast) null, solange keine Sprachkomponenten in dem Ausgangssignal OutTfe(n) erfasst werden.
  • Das in 4 gezeigte Sprachnivellierungssystem kann ferner einen optionalen Verzögerungsblock 404 beinhalten, der das Eingangssignal x(n) um eine bestimmte Zeit (z. B. eine bestimmte Anzahl von Frames oder Abtastwerten) verzögert, bevor es dem regelbaren Verstärkungsblock 401 zugeführt wird, derart dass das Eingangssignal x(n), das dem regelbaren Verstärkungsblock 401 zugeführt wird, in Bezug auf das Eingangssignal x(n), wie es dem Spracherfassungsblock 402 und dem Verstärkungsregelungsblock 403 zugeführt wird, verzögert ist,. Situationen, in denen der Verzögerungsblock 404 eingesetzt werden kann, sind nachstehend beschrieben.
  • Der Spracherfassungsblock 402 ist ferner verbunden, um z. B. aus einem Register oder Speicher (beide nicht gezeigt) einen SNR-Schwellenwert VadTfeSnrTH , einen Schwellenwert VadTfeTH und einen Timerwert VadTfeTimer für die erste Sprachaktivitätserfassung auf Grundlage des Ausgangssignals OutTfe(n) und einen SNR-Schwellenwert VadFfeSnrTH , einen Schwellenwert VadFfeTH und einen Timerwert VadFfeTimer für die zweite Sprachaktivitätserfassung auf Grundlage eines Eingangssignals InFfe(n) von der Gegenseite zu empfangen. Aus diesem Grund wird das Eingangssignal InFfe(n) dem Spracherfassungsblock 402 zugeführt. Ferner können dem Spracherfassungsblock 402 wenigstens einer von einem minimalen Rauschschwellenwert MinNoise, einem anfänglichen quadratischen Mittelwert (RMS) RmsInit_dB und einem Schwellenwert des quadratischen Mittelwerts RMSTH bereitgestellt werden.
  • Der Verstärkungsregelungsblock 403 kann ferner, z. B. aus einem Register oder Speicher (beide nicht gezeigt), einen optionalen Glättungszeitparameter τSmooth , wenigstens einen von einem maximalen Verstärkungsabstimmungsparameter MaxGain und einem maximalen Nivellierungsverstärkungsabstimmungsparameter MaxLevelerGain und einen Referenzpegel RefLevel oder einen Referenzspitzenpegel RefPeakLevel empfangen. Optional kann ein (Spitzen)-Begrenzerblock 405 dem regelbaren Verstärkungsblock 401 nachgeschaltet wirkgekoppelt sein, um das Ausgangssignal Out(n) zu empfangen und ein begrenztes Ausgangssignal OutL(n) bereitzustellen. Der (Spitzen)-Begrenzerblock 405 kann ferner Signale empfangen, die eine vorgegebene Begrenzerverstärkung LimGain, einen Begrenzerschwellenwert LimTh, eine Ansprechzeit AttackT und eine Abfallzeit ReleaseT darstellen.
  • 5 (5A, 5B) ist eine detaillierte schematische Darstellung, die eine beispielhafte Umsetzung des in 4 gezeigten Sprachnivellierungssystems veranschaulicht. In dem Sprachnivellierungssystem, wie es teilweise in 5A gezeigt ist, kann ein Sprachaktivitätserfassungsblock 501 dazu ausgelegt sein, mittels eines Zeit-Frequenz-Transformationsblocks 502y das Eingangssignal im Zeitbereich, wobei es sich um das Ausgangssignal OutTfe(n) handelt, in ein Signal im Frequenzbereich, z. B. eine Gruppe diskreter Spektralanteile Y(ω), zu transformieren. Die Spektralanteile Y(ω) des Ausgangssignals OutTfe(n) können auf vielfältige Weise erhalten werden, einschließlich durch Bandpassfilterung und Fourier-Transformation. Bei einem Ansatz kann eine diskrete Fourier-Transformation (DFT) oder schnelle Fourier-Transformation (FFT) verwendet werden, um aufeinanderfolgende Blöcke von N Punkten des Eingangssignals zu transformieren. Es kann eine Fensterfunktion, wie etwa ein Hanning-Fenster, angewendet werden, wobei in diesem Fall eine Überlagerung einer Multiplizität von z. B. N/2 Punkten verwendet werden kann. Die DFT kann bei jedem Frequenz-Bin im Eingangssignal verwendet werden. Alternativ kann die FFT über das gesamte Frequenzband, das von dem Eingangssignal belegt wird, verwendet werden. Das Spektrum wird für jedes Frequenz-Bin in dem Signalband des Ausgangssignals Out(n) gespeichert. Gleichermaßen wendet ein Zeit-Frequenz-Transformationsblock 502x eine FFT mit optionaler Fensterung (nicht gezeigt) auch auf das Eingangssignal InFfe(n) im Zeitbereich an, nachdem es durch den Verzögerungsblock 500 verzögert wurde, um davon ein Signal im Frequenzbereich, z. B. eine Gruppe von Spektralanteilen X(ω) zu erzeugen. Die Spektralanteile X(ω) und Y(ω) werden in dieser Schrift auch nur als Signale X(ω) und Y(ω) bezeichnet.
  • Die Signale X(ω) können jeweils optional durch eine Gruppe von (z. B. (N/2) zeitlichen Glättungsblöcken 503y geglättet werden und die Signale Y(ω) können jeweils optional durch eine Gruppe von (z. B. (N/2) zeitlichen Glättungsblöcken 503x geglättet werden, wobei jeder Block z. B. einen Filter mit gleitendem Mittelwert geeigneter Länge nutzt. Eine (optionale) Spektrenglättung kann eine Vielzahl von Frequenz-Bins berücksichtigen, was die spektrale Auflösung verringert. Die zeitlichen Glättungsblöcke 503y und 503x sind den Zeit-Frequenz-Transformationsblöcken 502y beziehungsweise 502x nachgeschaltet wirkverbunden. Die Gruppen der zeitlichen Glättungsblöcke 503y und 503x kombinieren für jedes der Signale Y(ω) beziehungsweise X(ω) Frequenz-Bin-Werte im Zeitverlauf, um die zeitliche Dynamik im Ausgangssignal der Zeit-Frequenz-Transformationsblöcke 502y und 502x zu verringern.
  • Die Gruppen von zeitlichen Glättungsblöcken 503y und 503x geben zeitlich geglättete Signale aus, die noch immer Impulsverzerrungen sowie Hintergrundrauschen enthalten können. Jeder der (z. B. N/2) Rauschschätzungsblöcke 504y und (z. B. N/2) Rauschschätzungsblöcke 504x ist einem entsprechenden der Multiplizität zeitlicher Glättungsblöcke 503y und 503x nachgeschaltet wirkverbunden, um Impulsverzerrungen, wie etwa Sprache in den Ausgängen der zeitlichen Glättungsblöcke 503y und 503x, auszuschmieren und Gruppen von geglätteten Signalen SY_1(n) .. SY_N/2(n) und geglätteten Signalen SX1(n) ..SX_N/2(n) bereitzustellen, die die Basis zum Schätzen des entsprechenden aktuellen Hintergrundrauschens bilden. Die Gruppe geglätteter Signale SY_1(n) .. SY_N/2(n) bezieht sich auf die Signale Y(ω) und die andere Gruppe geglätteter Signale SX_1(n) .. SX_N/2(n) bezieht sich auf die Signale X(ω). Um das Verschmieren eines erwünschten Signals, wie etwa von Musik- oder Sprachsignalen, zu verringern oder zu vermeiden, kann in der Multiplizität der Rauschschätzungsblöcke 504y und 504x eine nichtlineare Glättung (nicht gezeigt) eingesetzt werden. Eine Gruppe von Hintergrundrauschschätzwerten NY_1(n) .. NY_N/2(n) wird durch eine Gruppe der Rauschschätzblöcke 504y bestimmt und eine Gruppe von Hintergrundrauschschätzwerten NX_1(n) .. NX_N/2(n) wird durch die andere Gruppe von Rauschschätzblöcken 504x bestimmt.
  • In einer Multiplizität von Komparatorblöcken 506y wird die eine Gruppe von geglätteten Signalen SY_1(n) .. SY_N/2(n) mit einem vorgegebenen Schwellenwert, z. B. einem SNR-Schwellenwert VadYSnrTH , verglichen, der mit der Gruppe von Hintergrundrauschschätzwerten NY_1(n) .. NY_N/2(n) multipliziert wird und die andere Gruppe geglätteter Signale SX_1(n) .. SX_N/2(n) wird mit einem anderen vorgegebenen Schwellenwert, z. B. einem SNR-Schwellenwert VadXSnrTH , verglichen, der mit der Gruppe von Hintergrundrauschschätzwerten NX_1(n) .. NX_N/2(n) multipliziert wird. Die Gruppe geglätteter Signale SY_1(n) SY_N/2(n) und die Gruppe der Hintergrundrauschschätzwerte NY_1(n) .. NY_N/2(n) bezieht sich auf die Signale Y(ω) und die andere Gruppe geglätteter Signale SX_1(n) SX_N/2(n) und die Gruppe der Hintergrundrauschschätzwerte NX_1(n) .. NX_N/2(n) bezieht sich auf die Signale X(ω). Wenn aktuelle SNR-Werte, die aus geglätteten Signalen SY_1(n) .. SY_N/2(n) und SX_1(n) .. SX_N/2(n) bestimmt werden, und Hintergrundrauschschätzwerte NX_1(n) .. NX N/2(n) jeweils größer sind als entsprechende vorgegebene Schwellenwerte VadYSnrTH beziehungsweise VadXSnrTH , werden die entsprechenden Flags VadYSnrFlag und VadxSnrFlag auf einen ersten logischen Wert, z. B. „1“, gesetzt. Andernfalls werden die Flags VadYSnrFlag und VadxSnrFlag auf einen zweiten logischen Wert, z. B. „0“, gesetzt. Die Flags von jeder Gruppe der Multiplizität von Komparatorblöcken 506 werden an einen entsprechenden Gruppensummierungsblock 507y beziehungsweise 507x weitergegeben. Der Summierungsblock 507y summiert die Spektral-Flags VadYSnrFlag der Multiplizität von Komparatorblöcken 506y und gibt ein zeitvariantes Summensignal YVAD(n) aus. Der Summierungsblock 507x summiert die Spektralflags VadxSnrFlag der Multiplizität von Komparatorblöcken 506x und gibt ein zeitvariantes Summensignal XVAD(n) aus.
  • Die Summensignale YVAD(n) und XVAD(n) werden an die Komparatorblöcke 508y und 508x weitergegeben, in denen das Summensignal YVAD(n) mit einem vorgegebenen Summenschwellenwert VADY_TH verglichen wird, und das Summensignal XVAD(n) mit einem vorgegebenen Schwellenwert VADX_TH verglichen wird. Wenn der aktuelle Wert des Summensignals YVAD(n) größer als der vorgegebene Summenschwellwert VADY_TH ist, wird ein Flag VADY(n), das als ein aktualisiertes Summensignal YVAD(n) betrachtet werden kann, in einen ersten logischen Zustand, z. B. „1“ (eins), gesetzt. Andernfalls wird das Flag VAD Y(n) in einen anderen logischen Zustand gesetzt, z. B. „0“ (null). Wenn der aktuelle Wert des Summensignals XVAD(n) größer als der vorgegebene Summenschwellwert VADX_TH ist, wird ein Flag VAD_X(n), das als ein aktualisiertes Summensignal XVAD(n) betrachtet werden kann, in einen ersten logischen Zustand, z. B. „1“ (eins), gesetzt. Andernfalls wird das Flag VAD_X(n) in einen anderen logischen Zustand gesetzt, z. B. „0“ (null).
  • Die Ausgangssignale der Komparatorblöcke 508y und 508x, d. h. die Flags VAD Y(n) und VAD X(n), werden an die Timer-Blöcke 509y und 509x zur Sprachaktivitäts-/Pausenerfassung (VAD/SPD) weitergegeben, die erfassen, ob die Flags VAD Y(n) und VAD_X(n) „0“ sind oder nicht. Wenn das Flag VAD Y(n) zu einem Zeitpunkt n „0“ ist, setzt der VAD-Timer-Block 509y einen Zähler TVAD_Y(n) auf TVAD_Y(n-1)-1, d. h. er dekrementiert den vorherigen Zähler TVAD_Y(n-1) um eins. Ist dies nicht der Fall, wird der Zähler TVAD_Y(n) auf einen Initialisierungswert VadYTimerInit zurückgesetzt. Der Ausgang des VAD-Timer-Blocks 209y, d. h. der Zähler TVAD_Y(n), wird an einen Block 210y zur Sprachaktivitätserfassung (VAD) weitergegeben, in dem der Zähler TVAD_Y(n) mit einem festgelegten Schwellenwert, z. B. null, verglichen wird. Wenn der aktuelle Zähler TVAD_Y(n) größer als der vorgegebene Schwellenwert (null) ist, wird ein Flag VADY(n) auf „1“ gesetzt, andernfalls auf „0“. Wenn das Flag VAD_X(n) „0“ ist, setzt der VAD-Timer-Block 509x gleichermaßen einen Zähler TVAD_X(n) auf TVAD_X(n-1)-1, d. h. er dekrementiert den vorherigen Zähler TVAD_X(n-1) um eins. Ist dies nicht der Fall, wird der Zähler TVAD_X(n) auf einen Initialisierungswert VadxTimerInit zurückgesetzt. Der Ausgang des VAD-Timer-Blocks 209x, d. h. der Zähler TVAD_X(n), wird an einen Block 210x zur Sprachaktivitätserfassung (VAD) weitergegeben, in dem der Zähler TVAD_X(n) mit einem festgelegten Schwellenwert, z. B. null, verglichen wird. Wenn der aktuelle Zähler TVAD_X(n) größer als der vorgegebene Schwellenwert (null) ist, wird ein Flag VADx(n) auf „1“ gesetzt, andernfalls auf „0“. VADx(n) = 1 bedeutet hier, dass ein Sprecher am nahen Ende aktiv ist. VADx(n) = 0 bedeutet, dass der Sprecher am nahen Ende nicht aktiv ist. VADY(n) = 1 bedeutet, dass ein Sprecher an der Gegenseite aktiv ist. VADY(n) = 0 bedeutet, dass der Sprecher an der Gegenseite nicht aktiv ist.
  • In dem Sprachnivellierungssystem, wie es teilweise in 5B gezeigt ist, beinhaltet ein Verstärkungsregelungsblock 517 einen Block 518 zur Bestimmung des quadratischen Sprachpegelmittelwerts (RMS), der das Ausgangssignal OutTfe(n), den Flag VAD Y(n), den Flag VAD_X(n) und einen vorhergehenden Abtastwert des geglätteten RMS-Signals SRMS(n-1) empfängt. Der Sprach-RMS-Pegelbestimmungsblock 518 gibt ein Signal InRMS(n) aus. Das Signal InRMS(n) ist gleich dem Ausgangssignal OutTfe(n), wenn das Flag VAD_X(n) „0“ ist und das Flag VAD_Y(n) „1“ ist, und wird andernfalls auf den Wert des vorhergehenden Abtastwerts des geglätteten RMS-Signals SRMS(n-1) gesetzt. Das Signal InRMS(n) wird einer anschließenden Bestimmung (Berechnung) des maximalen absoluten Werts (MaxAbs) unterzogen, wobei optional der anfängliche quadratische Mittelwert (RMS) RmsInit_dB benutzt wird. Der Wert der MaxAbs-Bestimmung wird einem Glättungsblock 519 zugeführt, der das geglättete RMS-Signal SRMS(n) bereitstellt. Das geglättete RMS-Signal SRMS(n) wird einerseits um einen Abtastwert verzögert, um den vorhergehenden Abtastwert des geglätteten RMS-Signals SRMS(n-1) zu erzeugen, der dem Sprach-RMS-Pegelbestimmungsblock 518 rückgekoppelt wird, und andererseits einem Verstärkungsbestimmungsblock 520 zugeführt, in dem ein Verstärkungsregelsignal Gain(n) entsprechend dem Verhältnis zwischen einem Referenzpegel RefLevel und dem geglätteten RMS-Signal SRMS(n) erzeugt wird.
  • In einem optionalen Verstärkungsbegrenzungsblock 521 wird das Verstärkungsregelsignal Gain(n) mit einem Referenzwert MaxVadGain verglichen. Wenn das Verstärkungsregelsignal Gain(n) folglich größer als der Referenzwert MaxVadGain ist, wird das Ausgangssignal des Verstärkungsbegrenzungsblocks 521, bei dem es sich um ein begrenztes Verstärkungsregelsignal Gain'(n) handelt und das als aktualisiertes Verstärkungsregelsignal Gain(n) betrachtet werden kann, auf den Referenzsprachaktivitätswert MaxVadGain und andernfalls auf das Verstärkungsregelsignal Gain(n) gesetzt. Im vorliegenden Beispiel wird das begrenzte Verstärkungsregelsignal Gain'(n) einem Sprechpausenerfassungs(SPD)-Verstärkungsbegrenzungsblock 522 zugeführt, der ferner die Flags VADY(n) und VADx(n) sowie einen Referenzsprechpausenwert MaxGain empfängt. Wenn zum Zeitpunkt n das Flag VADx(n) „0“ und das Flag VADY(n) „1“ ist, wird ein endgültiges Verstärkungsregelsignal Gain"(n), das als aktualisiertes Verstärkungsregelsignal Gain'(n) betrachtet werden kann, auf den Referenzwert MaxGain und andernfalls auf das begrenzte Verstärkungsregelsignal Gain'(n) gesetzt. Das endgültige Verstärkungsregelsignal Gain"(n) kann optional mittels eines Glättungsfilterblocks (nicht gezeigt) im Zeitverlauf geglättet werden, bevor es einen regelbaren Verstärkungsblock 523 regelt. Dem Verstärkungsblock 523 wird über einen optionalen Verzögerungsblock 524 das Eingangssignal OutTfe(n) zugeführt und dieser gibt das Ausgangssignal Out(n) aus, das durch einen optionalen Spitzenbegrenzer 225 verarbeitet werden kann, um das begrenzte Ausgangssignal OutL(n) bereitzustellen.
  • In dem in 5 gezeigten System können zwei identische oder verschiedene Abstimmungssätze für die Bestimmung des Sprachaktivitätserfassungsflags VADY(n) und VADx(n) verwendet werden. Es basieren jedoch beide auf spektralen SNR-Werten. Zur Bestimmung des Sprachaktivitätserfassungsflags VADY(n) kann zum Beispiel ein höherer Wert für den SNR-Schwellenwert VadYSnrTH verwendet werden als für den SNR-Schwellenwert VadXSnrTH zur Bestimmung des Sprachaktivitätserfassungsflags VADX(n). Dies erlaubt einerseits, das Sprachaktivitätserfassungsflag VADY(n) nur dann entsprechend zu setzen, wenn sicher ist, dass an der Gegenseite Sprache vorhanden ist, somit die Anwendung eines hohen Schwellenwertes, und andererseits das Sprachaktivitätserfassungsflag VADx(n) nur dann entsprechend zu setzen, wenn keine Sprache vorhanden ist. Dies kann erreicht werden, indem der jeweilige SNR-Schwellenwert auf einen niedrigeren Wert gesetzt wird, sodass auch undeutliche Sprachteile zu einer erfassten Sprachaktivität führen und somit ein fehlerhaftes Setzen des Sprachaktivitätserfassungsflags VADx(n) vermieden wird. Ferner wird die Anzahl der Spektralanteile (Linien), die die vorgegebenen Signal-Rausch-Verhältnis-Schwellenwerte VadYSnrTH und VadXSnrTH übersteigen, bestimmt (Flags gezählt oder addiert) und die sich ergebende Anzahl YVAD(n) und XVAD(n) wird mit dem Schwellenwert VADY_TH beziehungsweise VADY_TH verglichen. Das folgende zeitvariante Sprachaktivitätserfassungsflag VAD_Y(n) wird auf „0“ gesetzt, wenn sein anfänglicher Timer-Wert VadYTimerInit abgelaufen ist, und das folgende zeitvariante Sprachaktivitätserfassungsflag VAD_X(n) wird auf „0“ gesetzt, wenn sein anfänglicher Timer-Wert VadxTimerInit abgelaufen ist.
  • Wenn das zeitvariante VAD-Flag VAD Y(n) „1“ ist, d.h. nur bei aktiven Sprachsequenzen an der Gegenseite, und VAD_X(n) „0“ ist, d. h. nur bei Sprechpausensequenzen an der Gegenseite, wird der RMS-Wert oder alternativ der maximale absolute Spitzenwert des Ausgangssignals OutTfe(n) bestimmt. Andernfalls wird der vorhergehende Abtastwert des geglätteten Sprach-RMS-Wertes SRMS(n-1) an den Glättungsfilter 519 weitergegeben. Um unerwünschte transiente Effekte zu vermeiden, kann die RMS-Bestimmung optional mit einem richtig gewählten Initialisierungswert RmsInit_dB initialisiert werden. Als Glättungsfilter kann zum Beispiel ein Tiefpassfilter mit unendlicher Impulsantwort (IIR) mit einer relativen langen Glättungszeitkonstanten τ verwendet werden. Der aktuelle Verstärkungswert Gain(n) wird bestimmt (berechnet), indem das Verhältnis des gewünschten Referenz-RMS-Werts des Sprachausgangssignals, d. h. des Referenzpegels RefLevel oder alternativ des Referenzspitzenpegels RefPeakLevel, und des Ausgangssignals dieses Glättungsfilters, d. h. SRMS(n), zugrundegelegt wird, derart dass Gain(n) = RefLevel/SRMS(n).
  • Ferner kann eine optionale Begrenzung des Maximums des Verstärkungswertes Gain(n) auf einen Wert MaxVadGain angewendet werden, um sukzessive Verstärkungen sehr kleiner Eingangssignale zu vermeiden, wie bereits vorstehend beschrieben. Somit ist ein Verstärkungswert Gain'(n) = Gain(n), wenn Gain(n) < GainVadMax und andernfalls ist Gain'(n) = MaxVadGain. Optional kann noch eine weitere Begrenzung des Verstärkungswertes angewendet werden, die z. B. in Freisprechanwendungen als Pegelkompensator fungieren kann und die durch die zeitvarianten Sprachaktivitätserfassungsflags VADY(n) und/oder VADx(n) geregelt werden kann. Dadurch wird der Verstärkungswert Gain'(n) immer dann auf den vorgegebenen Grenzwert MaxGain verringert, wenn das Sprachaktivitätserfassungsflag VADX(n) den Wert „0“ und das Sprachaktivitätserfassungsflag VADY(n) den Wert „1“ annimmt. Andernfalls ist Gain"(n) = Gain'(n).
  • Mit dem beschriebenen System ist es möglich, Sprechpausen sicher zu ermitteln und demzufolge die erforderliche Torsteuerung auf den Verstärkungswert Gain(n) anzuwenden. Eine große Herausforderung besteht darin, diese Torsteuerungsphase schnell genug zu verlassen, sobald wieder Sprache (von dem Sprecher am nahen Ende) aktiv ist. Wenn dies nicht gewährleistet ist, kann es vorkommen, dass die ersten Teile der beginnenden Sprache nicht wie gewünscht verstärkt werden und demnach weder von Spracherkennungssystemen noch von menschlichen Zuhörern (Sprecher an der Gegenseite) verstanden werden können. Eine Möglichkeit, dies zu vermeiden, besteht darin, eine schnell reagierende Sprachaktivitätserfassung und/oder Sprechpausenerfassung zu verwenden. Dies kann durch das Verwenden eines nicht geglätteten, momentanen RMS-Wertes umgesetzt werden, der als Teil der Entscheidung mit dem vorgegebenen Schwellenwert verglichen wird. Wenn dies nicht ausreichend ist, kann das Eingangssignal optional um einen oder mehrere Frames verzögert werden, bevor die aktuelle Verstärkung G auf diese angewendet wird.
  • Nunmehr wird auf 6 Bezug genommen, die das in 5 gezeigte und in Verbindung mit dieser beschriebene System mit einigen Modifikationen darstellt. Wie insbesondere in 6A ersichtlich ist, können auf Grundlage der geglätteten Signale von der Multiplizität zeitlicher Glättungsblöcke 503y und 503x und der geschätzten quasi stationären Hintergrundrauschsignale von der Multiplizität der Rauschschätzungsblöcke 504y und 504x in entsprechenden folgenden SNR-Berechnungsblöcken 601y und 601x die Schwankungen in dem SNR bestimmt (berechnet) werden, z. B. als Frequenzverteilung von SNR-Werten. Unter Verwendung von Schwankungen in dem SNR kann Rauschen von einem erwünschten Sprach- oder Musiksignal unterschieden werden. Ein niedriger SNR-Wert kann zum Beispiel mit vielfältigen Geräuschquellen, wie etwa einer Klimaanlage, einem Ventilator, einem offenen Fenster oder einer elektrischen Vorrichtung, wie etwa einem Computer usw. verbunden sein. Das SNR kann im Zeitbereich oder im Frequenzbereich oder im Teilbandbereich ausgewertet werden. In Gruppen von Komparatorblöcken 602y und 602x, die die in 5 gezeigten Blöcke 506y und 506x ersetzen, werden die von den Gruppen der SNR-Bestimmungsblöcke 601y und 601x bestimmten Ausgangs-SNR-Werte mit einem vorgegebenen Schwellenwert, z. B. den SNR-Schwellenwerten VadSnrTH beziehungsweise dem SNR-Schwellenwert SpdSnrTH , verglichen.
  • Wenn die bestimmten aktuellen SNR-Werte, die von den Blöcken 601y bereitgestellt werden, größer als der vorgegebene Schwellwert VadSnrTH sind, werden die Flags VadSnrFlag auf einen ersten logischen Wert, z. B. „1“, gesetzt. Andernfalls werden die Flags VadSnrFlag auf einen zweiten logischen Wert, z. B. „0“, gesetzt. Die Flags von der Multiplizität von Komparatorblöcken 602y werden an einen Summierungsblock 507y weitergegeben. Der Summierungsblock 507y summiert die Spektral-Flags VadSnrFlag von der Multiplizität von Komparatorblöcken 602y und gibt ein zeitvariantes Summensignal SVAD(n) aus. Das Summensignal SVAD(n) wird an den Komparatorblock 508y weitergegeben, in dem das Summensignal SVAD(n) mit einem vorgegebenen Summenschwellenwert VADTH verglichen wird. Wenn der aktuelle Wert des Summensignals SVAD(n) größer als der vorgegebene Summenschwellwert VADTH ist, wird ein Flag S'VAD(n), das als ein aktualisiertes Summensignal SVAD(n) betrachtet werden kann, in einen ersten logischen Zustand, z. B. „1“, gesetzt. Andernfalls wird das Flag S'VAD(n) in einen anderen logischen Zustand gesetzt, z. B. „0“. Die Blöcke 509y und 510y werden wie in 5 gezeigt betrieben, wobei VadYTimerInit = VadTimerInit, VAD_Y(n) = SVAD(n), TVAD Y = TVAD_und VADY(n) = VAD(n).
  • Wenn die bestimmten aktuellen SNR-Werte, die von den Blöcken 601x bereitgestellt werden, größer als der vorgegebene Schwellwert SpdSnrTH sind, werden die Flags SpdSnrFlag auf einen ersten logischen Wert, z. B. „1“, gesetzt. Andernfalls werden die Flags SpdSnrFlag auf einen zweiten logischen Wert, z. B. „0“, gesetzt. Die Flags von der Multiplizität von Komparatorblöcken 602x werden an einen Summierungsblock 507x weitergegeben. Der Summierungsblock 507x summiert die Spektral-Flags SpdSnrFlag von der Multiplizität von Komparatorblöcken 602x und gibt ein zeitvariantes Summensignal SSPD(n) aus. Das Summensignal SSPD(n) wird an den Komparatorblock 508x weitergegeben, in dem das Summensignal SSPD(n) mit einem vorgegebenen Summenschwellenwert SPDTH verglichen wird. Wenn der aktuelle Wert des Summensignals SSPD(n) größer als der vorgegebene Summenschwellwert SPDTH ist, wird ein Flag S'SPD(n), das als ein aktualisiertes Summensignal SSPD(n) betrachtet werden kann, in einen ersten logischen Zustand, z. B. „1“ (eins), gesetzt. Andernfalls wird das Flag S'SPD(n) in einen anderen logischen Zustand gesetzt, z. B. „0“ (null). Die Blöcke 509x und 510x werden wie in 5 gezeigt betrieben, wobei VadXTimerInit = SpdTimerlnit, VAD_X(n) = SSPD(n), TVAD_X = TSPD und VADX(n) = SPD(n).
  • Unter besonderer Bezugnahme auf 6B kann der in 5 gezeigte Block 518 modifiziert werden, so dass der Block 518 durch einen Block 603 ersetzt wird, in dem das Flag VAD(n) mit 1 verglichen wird und, wenn es gleich 1 ist, InRMS(n) auf OutTfe(n) gesetzt wird. Andernfalls wird InRMS(n) auf SRMS(n-1) gesetzt. Im Übrigen sind die Blöcke 518 und 603 identisch. Die Blöcke 519-525 sind dem Block 603 auf die in 5 in Verbindung mit Block 518 gezeigte Weise nachgeschaltet verbunden, wobei VADx(n) = SPD(n) und VADY(n) = VAD(n).
  • 7 veranschaulicht das in 6 gezeigte und in Verbindung mit dieser beschriebene System mit einigen Modifikationen, wobei separate Frequenzsignalkanäle als eine Mehrkanalsignalverbindung, die als fette Linie dargestellt ist, gezeigt sind. Wie insbesondere aus 7A ersichtlich wurde ein Verzögerungsblock 700, der eine zeitliche Signalverzögerung bereitstellt, dem Zeit-Frequenz-TransformationsBlock 502y vorgeschaltet hinzugefügt, während der in 5 gezeigte Verzögerungsblock 500 weggelassen wird. Ferner wurde ein Mehrkanalsignalpfad 701 hinzugefügt, der sich von den Ausgängen der SNR-Berechnungsblöcke 601x zu einem Multiplikatorblock 702 erstreckt. Der Mehrkanalsignalpfad 701 beinhaltet einen Mehrkanalteilerblock 703, der die Signal-Rausch-Verhältnisse SNRFFE(ω) pro Frequenz des von der Gegenseite empfangenen Signals InFfe(n) empfängt und diese Signal-Rausch-Verhältnisse SNRFFE(ω) durch einen SNR-Schwellenwert SNRFFETH teilt, um ein Mehrkanalmaskierungssignal MaskFFE(ω) bereitzustellen. Diese Maskierungssignale MaskFFE(ω) werden in einem Mehrkanalvergleichsblock 704 mit 1 verglichen, der die Maskierungssignale MaskFFE'(ω) auf 1 setzt, wenn die jeweiligen Maskierungssignale MaskFFE(ω) größer als 1 sind, und andernfalls auf die jeweiligen Maskierungssignale MaskFFE(ω). Die Maskierungssignale MaskFFE'(ω) werden dann in einem Mehrkanaladdiererblock 505 um 1 erhöht, um ein Mehrkanalmaskierungssignal MaskFFE"(ω) bereitzustellen. Das Mehrkanalmaskierungssignal MaskFFE"(ω) wird mit einem minimalen Maskierungsschwellenwert MinMaskFFE in einem Mehrkanalkomparatorblock 706 verglichen, der ein Mehrkanalmaskierungssignal MaskFFE'''(ω) ausgibt. Das Mehrkanalmaskierungssignal MaskFFE'''(ω), das dem Mehrkanalmultiplikatorblock 702 zugeführt wird, ist pro Frequenz ein fester Wert MindSpdMask, wenn das Mehrkanalmaskierungssignal MaskFFE"(ω), das jeweilige Maskierungssignal MaskFFE"(ω) größer als ein minimaler Maskierungsschwellenwert MinMaskFFE ist, oder andernfalls das Maskierungssignal MaskFFE"(ω).
  • Ferner wurde ein Mehrkanalblock 707 zur Erzeugung (z. B. Berechnung) von Komfortrauschen zu dem System hinzugefügt. Der Mehrkanalblock 707 zur Erzeugung (z. B. Berechnung) von Komfortrauschen empfängt ein Mehrkanalschätzrauschsignal NoiseTFE(ω) von den Rauschschätzblöcken 504y und den Flags VAD(n) von Block 510y. Ferner empfängt ein Komfortrauscherzeugungsblock 707 einen minimalen Rauschschwellenwert MINCF , einen maximalen Rauschschwellenwert MAXCF und einen Skalierungsfaktor ScaleCF . Der Komfortrauscherzeugungsblock 707 erzeugt ein Rauschsignal, das zu dem Ausgangssignal Out hinzugefügt wird, z. B. durch einen Addierblock 708, der zwischen dem regelbaren Verstärkungsblock 523 und dem optionalen Begrenzerblock 525 eingefügt wird. Der Komfortrauscherzeugungsblock 707 erzeugt ein angenehmeres oder natürlicheres Rauschen, das einem Hörer abgespielt wird.
  • Die Beschreibung der Ausführungsformen wurde zum Zwecke der Veranschaulichung und Beschreibung dargelegt. Geeignete Modifikationen und Variationen der Ausführungsformen können angesichts der vorangehenden Beschreibung vorgenommen oder aus dem Durchführen der Verfahren gewonnen werden. Sofern nichts Gegenteiliges angegeben ist, können eine oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder eine Kombination von Vorrichtungen ausgeführt werden. Die beschriebenen Verfahren und zugeordneten Aktionen können außerdem zusätzlich zu der in dieser Anwendung beschriebenen Reihenfolge in verschiedener Reihenfolge, parallel dazu und/oder gleichzeitig damit durchgeführt werden. Die beschriebenen Systeme sind von beispielhafter Natur und können zusätzliche Elemente beinhalten und/oder Elemente weglassen.
  • Wie in dieser Anwendung verwendet, ist ein Element oder ein Schritt, das bzw. der im Singular erwähnt wird und vor dem der Begriff „ein“ oder „eine“ steht, so zu verstehen, dass der Plural dieser Elemente oder Schritte nicht ausgeschlossen ist, es sei denn, ein solcher Ausschluss ist angegeben. Ferner sind Bezugnahmen auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht so zu interpretieren, dass sie das Vorhandensein zusätzlicher Ausführungsformen ausschließen, welche die genannten Merkmale ebenfalls beinhalten. Die Begriffe „erste/r/s“, „zweite/r/s“ und „dritte/r/s“ werden lediglich als Kennzeichnungen verwendet und sollen keine numerischen Anforderungen oder eine bestimmte positionsmäßige Reihenfolge der Gegenstände, auf die sie sich beziehen, vorschreiben.
  • Die Ausführungsformen der vorliegenden Offenbarung sehen im Allgemeinen eine Vielzahl von Schaltkreisen, elektrischen Vorrichtungen und/oder wenigstens eine Steuerung vor. Alle Bezugnahmen auf die Schaltkreise, die wenigstens eine Steuerung und anderen elektrischen Vorrichtungen und die von jedem/jeder bereitgestellte Funktion sollen nicht nur darauf beschränkt sein, was in der vorliegenden Schrift veranschaulicht und beschrieben ist. Obwohl dem/den/der verschiedenen offenbarten Schaltkreis(en), Steuerung(en) und sonstigen elektrischen Vorrichtungen bestimmte Bezeichnungen zugeordnet sind, sollen diese Bezeichnungen nicht dazu dienen, den Funktionsumfang des/der verschiedenen Stromkreise(s), Steuerung(en) und sonstigen elektrischen Vorrichtungen einzuschränken. (Ein) derartige(r) Schaltkreis(e), (eine) derartige Steuerung(en) und andere elektrische Vorrichtungen können beliebig auf Grundlage der konkret gewünschten elektrischen Umsetzung miteinander kombiniert und/oder voneinander getrennt sein.
  • Es liegt auf der Hand, dass eine beliebige Steuerung oder ein beliebiger Signalprozessor eine beliebige Anzahl von Mikroprozessoren, integrierten Schaltungen, Speichervorrichtungen (z. B. FLASH, Direktzugriffsspeicher (Random Access Memory - RAM), Festwertspeichern (Read Only Memory - ROM), elektrisch programmierbaren Festwertspeichern (Electrically Programmable Read Only Memory - EPROM), elektrisch löschbaren programmierbaren Festwertspeichern (Electrically Erasable Programmable Read Only Memory - EEPROM) oder andere geeignete Varianten davon) und Software beinhalten können, die miteinander zusammenwirken, um den/die in dieser Schrift offenbarten Vorgang/Vorgänge durchzuführen. Darüber hinaus nutzt eine beliebige Steuerung oder ein beliebiger Signalprozessor einen oder mehrere beliebige Mikroprozessoren, um ein Computerprogramm auszuführen, das in einem nichtflüchtigen computerlesbaren Medium ausgeführt ist, das dazu programmiert ist, eine Vielzahl der offenbarten Funktionen auszuführen. Ferner beinhaltet eine beliebige Steuerung, wie sie in dieser Schrift bereitgestellt ist, ein Gehäuse und die verschiedene Anzahl von Mikroprozessoren, integrierten Schaltkreisen und Speichervorrichtungen ((z.B. FLASH, Direktzugriffsspeicher (RAM), Festwertspeicher (ROM), elektrisch programmierbarer Festwertspeicher (EPROM), elektrisch löschbarer programmierbarer Festwertspeicher (EEPROM)), die in dem Gehäuse angeordnet sind. Die offenbarte(n) Steuerung(en) beinhalten zudem hardwarebasierte Eingänge und Ausgänge zum Empfangen und Übermitteln von Daten von beziehungsweise zu anderen hardwarebasierten Vorrichtungen, wie sie in dieser Schrift erörtert werden.
  • Während diverse Ausführungsformen der vorliegenden Erfindung beschrieben wurde, wird dem Durchschnittsfachmann ersichtlich sein, dass viele weitere Ausführungsformen und Umsetzungen innerhalb des Umfangs der Erfindung möglich sind. Insbesondere wird der Fachmann die Austauschbarkeit verschiedener Merkmale von unterschiedlichen Ausführungsformen erkennen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, versteht sich, dass diese Techniken und Systeme über die konkreten offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Modifikationen davon ausgedehnt werden können.

Claims (15)

  1. Sprachsignalnivellierungssystem, das Folgendes umfasst: einen regelbaren Verstärkungsblock, der dazu ausgelegt ist, ein Eingangssignal zu empfangen und ein Ausgangssignal durch das Anwenden einer frequenzabhängigen oder frequenzunabhängigen regelbaren Verstärkung auf das Eingangssignal zu erzeugen, wobei die Verstärkung von einem Verstärkungsregelsignal abhängig ist; einen Spracherfassungsblock, der dazu ausgelegt ist, das Eingangssignal zu empfangen und wenigstens ein Spracherfassungssignal zu erzeugen, das in dem Eingangssignal enthaltene Sprachkomponenten angibt; und einen Verstärkungsregelungsblock, der mit dem regelbaren Verstärkungsblock und dem Spracherfassungsblock wirkgekoppelt ist, wobei der Verstärkungsregelungsblock dazu ausgelegt ist, das Eingangssignal und das wenigstens eine Spracherfassungssignal zu empfangen und das Verstärkungsregelsignal auf der Grundlage des Eingangssignals und des wenigstens einen Spracherfassungssignals zu erzeugen; wobei der Verstärkungsregelungsblock ferner dazu ausgelegt ist, den regelbaren Verstärkungsblock zu regeln, um das Eingangssignal zu verstärken oder abzuschwächen, so dass ein vorgegebener mittlerer oder maximaler oder absoluter Spitzensignalpegel vorliegt, solange Sprachkomponenten im Eingangssignal erfasst werden.
  2. System nach Anspruch 1, wobei der Spracherfassungsblock, ferner dazu ausgelegt ist, wenigstens eines von einem Sprachaktivitätserfassungssignal, das in dem Eingangssignal enthaltene Sprachkomponenten angibt, und einem Sprechpausenerfassungssignal, das in dem Eingangssignal auftretende Sprechpausen angibt, zu erzeugen; und der Verstärkungsregelungsblock ferner dazu ausgelegt ist, das Verstärkungsregelsignal auf Grundlage von wenigstens einem von dem Sprachaktivitätserfassungssignal und dem Sprechpausenerfassungssignal zu erzeugen.
  3. System nach Anspruch 2, wobei der Spracherfassungsblock ferner dazu ausgelegt ist: aus dem Eingangssignal wenigstens zwei Signal-Rausch-Verhältnisse für wenigstens zwei Frequenzbänder des Eingangssignals zu bestimmen; die wenigstens zwei Signal-Rausch-Verhältnisse mit einem Signal-Rausch-Verhältnis-Schwellenwert zur Sprachaktivitätserfassung und mit einem Signal-Rausch-Verhältnis-Schwellenwert zur Sprechpausenerfassung zu vergleichen; erste Signale bereitzustellen, die angeben, ob die wenigstens zwei Signal-Rausch-Verhältnisse größer als der Signal-Rausch-Verhältnis-Schwellenwert zur Sprachaktivitätserfassung sind, und zweite Signale bereitzustellen, die angeben, ob das wenigstens eine Signal-Rausch-Verhältnis größer als der Signal-Rausch-Verhältnis-Schwellenwert zur Sprechpausenerfassung ist; und die ersten Signale zu summieren, um ein erstes Summensignal bereitzustellen, und die zweiten Signale zu summieren, um ein zweites Summensignal bereitzustellen; wobei der Signal-Rausch-Verhältnis-Schwellenwert zur Sprachaktivitätserfassung größer als der Signal-Rausch-Verhältnis-Schwellenwert zur Sprechpausenerfassung ist.
  4. System nach Anspruch 3, wobei der Spracherfassungsblock ferner dazu ausgelegt ist: einen quadratischen Mittelwert oder einen maximalen absoluten Spitzenwert des Eingangssignals zu bestimmen; den quadratischen Mittelwert des Eingangssignals mit einem Schwellenwert des quadratischen Mittelwerts oder den maximalen absoluten Spitzenwert mit einem Schwellenwert des maximalen absoluten Spitzenwerts zu vergleichen; und wenigstens einen von dem ersten Summensignal mit einem Sprachaktivitätserfassungsschwellenwert und dem zweiten Summensignal mit einem Sprechpausenerfassungsschwellenwert zu vergleichen, wobei der Spracherfassungsblock ferner zu wenigstens einem der Folgenden ausgelegt ist: ein aktualisiertes erstes Summensignal bereitzustellen, das einen ersten logischen Zustand darstellt, wenn das erste Summensignal den Sprachaktivitätserfassungsschwellenwert übersteigt und der quadratische Mittelwert den Schwellenwert des quadratischen Mittelwerts übersteigt oder der maximale absolute Spitzenwert den Schwellenwert des maximalen absoluten Spitzenwerts übersteigt, und andernfalls ein aktualisiertes erstes Summensignal bereitzustellen, das einen zweiten logischen Zustand darstellt; und ein aktualisiertes zweites Summensignal bereitzustellen, das einen ersten logischen Zustand darstellt, wenn das zweite Summensignal den Sprechpausenerfassungsschwellenwert übersteigt und der quadratische Mittelwert den Schwellenwert des quadratischen Mittelwerts übersteigt oder der maximale absolute Spitzenwert den Schwellenwert des maximalen absoluten Spitzenwerts übersteigt, und andernfalls ein aktualisiertes zweites Summensignal bereitzustellen, das einen zweiten logischen Zustand darstellt.
  5. System nach Anspruch 1 oder 2, wobei der Verstärkungsregelungsblock ferner dazu ausgelegt ist: ein Mittelwertsignal zu bestimmen, das einen quadratischen Mittelwert des Eingangssignals angibt, das Mittelwertsignal mit einem Filter zu glätten, um ein geglättetes Mittelwertsignal bereitzustellen; und das Verhältnis zwischen einem Referenzmittelwertpegel und dem geglätteten Mittelwertsignal zugrunde zu legen, um das Verstärkungsregelsignal bereitzustellen; oder ein maximales absolutes Spitzensignal zu bestimmen, das einen maximalen absoluten Spitzenwert des Eingangssignals angibt, das maximale absolute Spitzensignal mit einem Filter zu glätten, um ein geglättetes maximales absolutes Spitzensignal bereitzustellen; und das Verhältnis zwischen einem Referenzpegel des maximalen absoluten Spitzenwerts und dem geglätteten maximalen absoluten Spitzensignals zugrunde zu legen, um das Verstärkungsregelsignal bereitzustellen.
  6. System nach einem der Ansprüche 1 bis 5, wobei der Verstärkungsregelungsblock ferner zu wenigstens einem der Folgenden ausgelegt ist: Regeln der Verstärkung des regelbaren Verstärkungsblocks, so dass diese bei oder unter einem vorgegebenen ersten Verstärkungsschwellenwert liegt; und Regeln der Verstärkung des regelbaren Verstärkungsblocks, so dass diese bei oder unter einem zweiten Verstärkungsschwellenwert liegt, der von dem wenigstens einen Spracherfassungssignal abhängig ist; und Regeln der Verstärkung des regelbaren Verstärkungsblocks, um das Eingangssignal zu blockieren, so dass kein Ausgangssignal bereitgestellt wird, solange keine Sprachkomponenten in dem Eingangssignal erfasst werden.
  7. System nach einem der Ansprüche 1 bis 6, wobei das System derart ausgelegt ist, dass eine Zeit zum Übertragen des Eingangssignals an den regelbaren Verstärkungsblock gleich einer Zeit zum Verarbeiten des Verstärkungsregelsignals aus dem Eingangssignal in dem Spracherfassungsblock und dem Verstärkungsregelungsblock ist.
  8. Sprachsignalnivellierungsverfahren, das Folgendes umfasst: Erzeugen eines Ausgangssignals durch das Anwenden einer frequenzabhängigen oder frequenzunabhängigen regelbaren Verstärkung auf ein Eingangssignal, wobei die Verstärkung von einem Verstärkungsregelsignal abhängig ist; Erzeugen von wenigstens einem Spracherfassungssignal, das in dem Eingangssignal enthaltene Sprachkomponenten angibt; und Erzeugen des Verstärkungsregelsignals auf Grundlage des Eingangssignals und des wenigstens einen Spracherfassungssignals, Regeln des regelbaren Verstärkungsblocks, um das Eingangssignal zu verstärken oder abzuschwächen, so dass ein vorgegebener mittlerer oder maximaler oder absoluter Spitzensignalpegel vorliegt, solange Sprachkomponenten im Eingangssignal erfasst werden.
  9. Verfahren nach Anspruch 8, das ferner Folgendes umfasst Erzeugen von wenigstens einem von einem Sprachaktivitätserfassungssignal, das in dem Eingangssignal enthaltene Sprachkomponenten angibt, und einem Sprechpausenerfassungssignal, das in dem Eingangssignal auftretende Sprechpausen angibt; und Erzeugen des Verstärkungsregelsignals auf Grundlage von dem Sprachaktivitätserfassungssignal und dem Sprechpausenerfassungssignal.
  10. Verfahren nach Anspruch 9, wobei das Erzeugen von wenigstens einem Spracherfassungssignal, das in dem Eingangssignal enthaltene Sprachkomponenten angibt, Folgendes umfasst: Bestimmen aus dem Eingangssignal von wenigstens zwei Signal-Rausch-Verhältnissen für wenigstens zwei Frequenzbänder des Eingangssignals; Vergleichen der wenigstens zwei Signal-Rausch-Verhältnisse mit einem Signal-Rausch-Verhältnis-Schwellenwert zur Sprachaktivitätserfassung und mit einem Signal-Rausch-Verhältnis-Schwellenwert zur Sprechpausenerfassung; Bereitstellen erster Signale, die angeben, ob die wenigstens zwei Signal-Rausch-Verhältnisse größer als der Signal-Rausch-Verhältnis-Schwellenwert zur Sprachaktivitätserfassung sind, und Bereitstellen zweiter Signale, die angeben, ob das wenigstens eine Signal-Rausch-Verhältnis größer als der Signal-Rausch-Verhältnis-Schwellenwert zur Sprechpausenerfassung ist; und Summieren der ersten Signale, um ein erstes Summensignal bereitzustellen, und Summieren der zweiten Signale, um ein zweites Summensignal bereitzustellen; wobei der Signal-Rausch-Verhältnis-Schwellenwert zur Sprachaktivitätserfassung größer als der Signal-Rausch-Verhältnis-Schwellenwert zur Sprechpausenerfassung ist.
  11. Verfahren nach Anspruch 10, wobei das Erzeugen von wenigstens einem Spracherfassungssignal, das in dem Eingangssignal enthaltene Sprachkomponenten angibt, ferner Folgendes umfasst: Bestimmen eines quadratischen Mittelwerts oder eines maximalen absoluten Spitzenwerts des Eingangssignals; Vergleichen des quadratischen Mittelwerts des Eingangssignals mit einem Schwellenwert des quadratischen Mittelwerts oder Vergleichen des maximalen absoluten Spitzenwerts mit einem Schwellenwert des maximalen absoluten Spitzenwerts; Vergleichen von wenigstens einen von dem ersten Summensignal mit einem Sprachaktivitätserfassungsschwellenwert und dem zweiten Summensignal mit einem Sprechpausenerfassungsschwellenwert, wobei das Erzeugen von wenigstens einem Spracherfassungssignal ferner wenigstens eines der Folgenden umfasst: Bereitstellen eines aktualisierten ersten Summensignals, das einen ersten logischen Zustand darstellt, wenn das erste Summensignal den Sprachaktivitätserfassungsschwellenwert übersteigt und der quadratische Mittelwert den Schwellenwert des quadratischen Mittelwerts übersteigt oder der maximale absolute Spitzenwert den Schwellenwert des maximalen absoluten Spitzenwerts übersteigt, und andernfalls Bereitstellen eines aktualisierten ersten Summensignals, das einen zweiten logischen Zustand darstellt; und Bereitstellen eines aktualisierten zweiten Summensignals, das einen ersten logischen Zustand darstellt, wenn das zweite Summensignal den Sprechpausenerfassungsschwellenwert übersteigt und der quadratische Mittelwert den Schwellenwert des quadratischen Mittelwerts übersteigt oder der maximale absolute Spitzenwert den Schwellenwert des maximalen absoluten Spitzenwerts übersteigt, und andernfalls Bereitstellen eines aktualisierten zweiten Summensignals, das einen zweiten logischen Zustand darstellt.
  12. Verfahren nach einem der Ansprüche 8 oder 9, wobei das Erzeugen des Verstärkungsregelsignals ferner Folgenden umfasst: Bestimmen eines Mittelwertsignals, das einen quadratischen Mittelwert des Eingangssignals angibt, Glätten des Mittelwertsignals mit einem Filter, um ein geglättetes Mittelwertsignal bereitzustellen; und Zugrundelegen des Verhältnisses zwischen einem Referenzmittelwertpegel und dem geglätteten Mittelwertsignal, um das Verstärkungsregelsignal bereitzustellen, oder Bestimmen eines maximalen absoluten Spitzensignals, das einen maximalen absoluten Spitzenwert des Eingangssignals angibt, Glätten des maximalen absoluten Spitzensignals mit einem Filter, um ein geglättetes maximales absolutes Spitzensignal bereitzustellen; und Zugrundelegen des Verhältnisses zwischen einem Referenzpegel des maximalen absoluten Spitzenwerts und dem geglätteten maximalen absoluten Spitzensignal, um das Verstärkungsregelsignal bereitzustellen.
  13. Verfahren nach einem der Ansprüche 8 bis 12, wobei das Erzeugen des Verstärkungsregelsignals wenigstens eines der Folgenden umfasst: Regeln der Verstärkung des regelbaren Verstärkungsblocks, so dass diese bei oder unter einem vorgegebenen ersten Verstärkungsschwellenwert liegt; Regeln der Verstärkung des regelbaren Verstärkungsblocks, so dass diese bei oder unter einem zweiten Verstärkungsschwellenwert liegt, der von dem wenigstens einen Spracherfassungssignal abhängig ist; und Regeln der Verstärkung des regelbaren Verstärkungsblocks, um das Eingangssignal zu blockieren, so dass kein Ausgangssignal bereitgestellt wird, solange keine Sprachkomponenten in dem Eingangssignal erfasst werden.
  14. Verfahren nach einem der Ansprüche 8 bis 13, wobei eine Zeit zum Übertragen des Eingangssignals an den regelbaren Verstärkungsblock gleich einer Zeit zum Verarbeiten des Verstärkungsregelsignals aus dem Eingangssignal in dem Spracherfassungsblock und dem Verstärkungsregelungsblock ist.
  15. Computerprogramm, das Anweisungen umfasst, die, wenn das Programm von einem Computer ausgeführt wird, den Computer veranlassen, das Verfahren nach einem der Ansprüche 8 bis 14 auszuführen.
DE112018003662.6T 2017-07-18 2018-07-17 Sprachsignalnivellierung Pending DE112018003662T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17181799.2 2017-07-18
EP17181799.2A EP3432306A1 (de) 2017-07-18 2017-07-18 Sprachsignalpegelung
PCT/EP2018/069374 WO2019016199A1 (en) 2017-07-18 2018-07-17 UPGRADING A SPEECH SIGNAL

Publications (1)

Publication Number Publication Date
DE112018003662T5 true DE112018003662T5 (de) 2020-04-30

Family

ID=59366292

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018003662.6T Pending DE112018003662T5 (de) 2017-07-18 2018-07-17 Sprachsignalnivellierung

Country Status (6)

Country Link
US (1) US11264046B2 (de)
EP (1) EP3432306A1 (de)
KR (1) KR102591447B1 (de)
CN (1) CN110914901A (de)
DE (1) DE112018003662T5 (de)
WO (1) WO2019016199A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475888B2 (en) * 2018-04-29 2022-10-18 Dsp Group Ltd. Speech pre-processing in a voice interactive intelligent personal assistant
CN110265035B (zh) * 2019-04-25 2021-08-06 武汉大晟极科技有限公司 一种基于深度学习的说话人识别方法
CN111833900B (zh) * 2020-06-16 2023-10-17 成都市联洲国际技术有限公司 音频增益控制方法、系统、设备和存储介质
CN113555033A (zh) * 2021-07-30 2021-10-26 乐鑫信息科技(上海)股份有限公司 语音交互系统的自动增益控制方法、装置及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5120288B2 (de) * 1972-05-04 1976-06-24
US6154548A (en) * 1997-09-27 2000-11-28 Ati Technologies Audio mute control signal generating circuit
US6480589B1 (en) * 1998-07-14 2002-11-12 Samsung Electronics Co., Ltd. CPE alert signal detector and caller identification detector using peak detection
US6868162B1 (en) * 2000-11-17 2005-03-15 Mackie Designs Inc. Method and apparatus for automatic volume control in an audio system
JP2003060459A (ja) * 2001-08-21 2003-02-28 Oki Electric Ind Co Ltd 自動利得制御増幅器
US7013011B1 (en) * 2001-12-28 2006-03-14 Plantronics, Inc. Audio limiting circuit
US20080025530A1 (en) * 2006-07-26 2008-01-31 Sony Ericsson Mobile Communications Ab Method and apparatus for normalizing sound playback loudness
JP5383008B2 (ja) * 2007-07-09 2014-01-08 アルパイン株式会社 音声明瞭度改善システム及び音声明瞭度改善方法
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP5120288B2 (ja) * 2009-02-16 2013-01-16 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JPWO2010131470A1 (ja) * 2009-05-14 2012-11-01 シャープ株式会社 ゲイン制御装置及びゲイン制御方法、音声出力装置
US8620653B2 (en) * 2009-06-18 2013-12-31 Microsoft Corporation Mute control in audio endpoints
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
EP2743924B1 (de) * 2010-12-24 2019-02-20 Huawei Technologies Co., Ltd. Verfahren und Vorrichtung zur adaptiven Detektion einer Stimmaktivität in einem Audioeingangssignal
GB2490927A (en) * 2011-05-18 2012-11-21 Zarlink Semiconductor Inc Single controller for control of gain in two paths and for control of howling
US9401685B2 (en) * 2012-06-08 2016-07-26 Apple Inc. Systems and methods for adjusting automatic gain control
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
EP2693636A1 (de) * 2012-08-01 2014-02-05 Harman Becker Automotive Systems GmbH Automatische Lautheitsregelung

Also Published As

Publication number Publication date
CN110914901A (zh) 2020-03-24
US20200227065A1 (en) 2020-07-16
KR102591447B1 (ko) 2023-10-19
US11264046B2 (en) 2022-03-01
WO2019016199A1 (en) 2019-01-24
KR20200026896A (ko) 2020-03-11
EP3432306A1 (de) 2019-01-23

Similar Documents

Publication Publication Date Title
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE112018003662T5 (de) Sprachsignalnivellierung
DE69636985T2 (de) Sprachanwesenheitdetektor für halbduplex-audiokommunikationssystem
DE60028779T2 (de) Rückkopplungsanullierung mit niederfrequenzeingang
DE69915711T2 (de) Verfahren und signalprozessor zur verstärkung von sprachsignal-komponenten in einem hörhilfegerät
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
DE102006047965A1 (de) Hörhilfsgerät mit einer Okklusionsreduktionseinrichtung und Verfahren zur Okklusionsreduktion
DE3229457C2 (de) Hörhilfegerät
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE102009016845B3 (de) Anordnung und Verfahren zur Erkennung von Rückkopplungen bei Hörvorrichtungen
DE102015211745A1 (de) Verfahren zur Kompression der Dynamik in einem Audio-Signal
EP3588498B1 (de) Verfahren zur unterdrückung eines akustischen nachhalls in einem audiosignal
DE102013011761A1 (de) Kraftfahrzeug mit einer Freisprecheinrichtung und Verfahren zur Erzeugung eines Frequenzganges für Freisprecheinrichtungen
EP1101390A1 (de) Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe
DE102006001730A1 (de) Beschallungsanlage, Verfahren zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen sowie Computerprogramm
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
DE10137348A1 (de) Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
DE60033039T2 (de) Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen
EP1351550B1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät
EP1453355A1 (de) Signalverarbeitung in einem Hörgerät
DE102012014310A1 (de) Verfahren und Vorrichtung zur Einstellung der Lautheit eines Audiosignals
WO2021185891A1 (de) System und verfahren zur kompensation des okklusionseffektes bei kopfhörern oder hörhilfen mit verbesserter wahrnehmung der eigenen stimme
EP3190700B1 (de) Verfahren und vorrichtung zur verarbeitung von audio-signalen
WO2016166025A1 (de) Audiosystem, einmessmodul, betriebsverfahren und computerprogramm

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication