DE60110541T2 - Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz - Google Patents

Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz Download PDF

Info

Publication number
DE60110541T2
DE60110541T2 DE60110541T DE60110541T DE60110541T2 DE 60110541 T2 DE60110541 T2 DE 60110541T2 DE 60110541 T DE60110541 T DE 60110541T DE 60110541 T DE60110541 T DE 60110541T DE 60110541 T2 DE60110541 T2 DE 60110541T2
Authority
DE
Germany
Prior art keywords
normalization
data
degree
variance
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60110541T
Other languages
English (en)
Other versions
DE60110541D1 (de
Inventor
Thomas Kemp
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of DE60110541D1 publication Critical patent/DE60110541D1/de
Application granted granted Critical
Publication of DE60110541T2 publication Critical patent/DE60110541T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die Erfindung betrifft ein Verfahren zur Spracherkennung, und spezieller betrifft sie ein Verfahren zur Spracherkennung unter Verwendung einer rauschsignalabhängigen Normierung der Varianz.
  • Verfahren zur Spracherkennung können allgemein in die Abschnitte des Eingebens oder Empfangens eines Sprachsignals, eine Vorverarbeitung desselben, einen Erkennungsprozess sowie einen Abschnitt des Ausgebens eines Erkennungsergebnisses unterteilt werden.
  • Vor dem Schritt des Erkennens eines Sprachsignals wird dieses im Allgemeinen vorverarbeitet. Der Vorverarbeitungsabschnitt verfügt z.B. über einen Schritt zum Digitalisieren eines eingehenden analogen Sprachsignals, einen Filterungsschritt und/oder dergleichen.
  • Außerdem hat es sich herausgestellt, dass das Einschließen eines Schritts einer Varianznormierung für das empfangene Sprachsignal, eines Derivats und/oder einer Komponente desselben in einigen Fällen die Erkennungsrate im folgenden Erkennungsabschnitt erhöhen kann, jedoch nicht in allen Fällen.
  • Daher ist es eine Aufgabe der Erfindung, ein Verfahren zur Spracherkennung zu schaffen, bei dem ein Varianznormierungsschritt auf besonders einfache und robuste Weise anwendbar ist.
  • Diese Aufgabe ist durch ein Verfahren zur Spracherkennung mit den im Anspruch 1 dargelegten Merkmalen gelöst. Bevorzugte Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung liegen im Schutzumfang der abhängigen Unteransprüche.
  • Das vorgeschlagene Verfahren zur Spracherkennung verfügt über einen vorverarbeitungsabschnitt, in dem ein Schritt zum Ausführen einer Varianznormie rung für ein gegebenes oder empfangenes Sprachsignal, ein Derivat und/oder eine Komponente desselben anwendbar ist. Gemäß der Erfindung verfügt der Vorverarbeitungsabschnitt des vorgeschlagenen Verfahrens zur Spracherkennung über einen Schritt zum Ausführen einer statistischen Analyse des Sprachsignals, eines Derivats und/oder einer Komponente desselben, um dadurch statistische Auswertungsdaten zu erzeugen und/oder zu liefern. Aus den so hergeleiteten statistischen Auswertungsdaten erzeugt und/oder liefert das erfindungsgemäße Verfahren Normierungsgraddaten. Außerdem verfügt das erfindungsgemäße Verfahren zur Spracherkennung in seinem Vorverarbeitungsabschnitt über einen Schritt zum Ausführen einer Varianznormierung am Sprachsignal, eines Derivats und/oder einer Komponente desselben entsprechend den Normierungsgraddaten – insbesondere einer den Normierungsgraddaten entsprechenden Normierungsstärke – mit Normierungsgraddaten mit einem Wert oder Werten in der Nähe von 0, was anzeigt, dass keine Varianznormierung auszuführen ist.
  • Daher ist es eine wesentliche Idee der Erfindung, nicht in allen Fällen eines empfangenen oder eingegebenen Sprachsignals eine Varianznormierung auszuführen, sondern abhängig von einer statistischen Analyse des Sprachsignals und/oder des Derivats oder der Komponente desselben zu entscheiden, in welchem Grad eine Varianznormierung am Sprachsignal, einem Derivat und/oder einer Komponente desselben auszuführen ist. Um das Ausmaß der Varianznormierung zu steuern, werden aus den statistischen Auswertungsdaten, die aus der statistischen Analyse herrühren, Normierungsgraddaten hergeleitet, die den Wert Null haben oder in der Nähe von Null liegen, was anzeigt, dass keine Varianznormierung auszuführen ist.
  • Im Gegensatz zu bekannten Verfahren zur Spracherkennung unter Verwendung einer Varianznormierung, wie gemäß "Improvements in accuracy and speed in the HTK broadcast news transcription system" von Woodland et al. in Eurospeech '99 angegeben, verwendet das erfindungsgemäße Verfahren zur Spracherkennung eine Varianznormierung, deren Ausmaß von der Qualität des empfangenen oder eingegebenen Sprachsignals oder dergleichen abhängt. Durch diese Maßnahme können Nachteile bei bekannten Verfahren vermieden werden. Die Varianznormierung wird in einem Ausmaß angewandt, das für die Erkennungsrate von Vorteil ist. Daher wird die Varianznormierung an den Rauschsignalpegel angepasst, wie er durch die statistischen Bewertungsdaten repräsentiert ist, und er wird in Varianz-Normierungsgraddaten gewandelt.
  • Selbstverständlich kann die statistische Analyse am Sprachsignal und/oder dem Derivat oder der Komponente desselben in der Gesamtheit angewandt werden. In einigen Fällen ist es von speziellem Vorteil, die statistische Analyse auf zumindest stückweise oder teilweise frequenzabhängige Weise auszuführen. Z.B. können das empfangene und/oder eingegebene Sprachsignal und/oder das Derivat oder die Komponente desselben mit bestimmten Frequenzintervallen im Frequenzraum unterteilt werden. Jede Frequenzkomponente oder jedes Frequenzintervall des Sprachsignals und/oder seines Derivats oder seiner Komponente kann dem Prozess der statistischen Analyse auf unabhängige Weise unterzogen werden, wodurch sich für die verschiedenen und charakteristischen Frequenzkomponenten oder Intervalle verschiedene statistische Auswertungsdaten ergeben.
  • Dasselbe gilt für die Erzeugung und Bereitstellung statistischer und/oder die Erzeugung und Bereitstellung der Normierungsgraddaten. Sie können auch für das empfangene und eingegebene Sprachsignal und/oder das Derivat oder die Komponente desselben in der Gesamtheit erzeugt und bereitgestellt werden. Jedoch kann es erneut von speziellem Vorteil sein, die Frequenzzerlegung oder die Zerlegung desselben in Frequenzintervalle zu nutzen.
  • Der spezielle Vorteil der oben erörterten Maßnahmen liegt in der Tatsache, dass verschiedene Frequenzbereiche des Sprachsignals verschiedenen Rauschsignalquellen unterliegen können. Daher können, insbesondere im Fall einer ungleichmäßigen Rauschsignalquelle, verschiedene Frequenzkomponenten des eingegebenen oder empfangenen Sprachsignals verschiedene Rauschsignalpegel aufweisen, und sie können daher den Prozess der Varianznormierung in verschiedenem Ausmaß unterzogen werden.
  • Die statistische Analyse enthält vorzugsweise einen Schritt des Bestimmens von Signal/Rauschsignal-Verhältnisdaten oder dergleichen. Dies kann erneut insbesondere auf frequenzabhängige Weise erfolgen.
  • Gemäß einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird ein Satz diskreter Normierungsgradwerte als Normierungsgraddaten verwendet. Insbesondere wird jeder dieser diskreten Normierungsgradwerte einem bestimmten Frequenzintervall zugewiesen, und die Frequenzintervalle zeigen vorzugsweise keine Überlappung.
  • Es ist von speziellem Vorteil, diskrete Normierungsgradwerte zu verwenden, die im Intervall von 1 und 0 liegen. Gemäß einer anderen bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung zeigt ein Normierungsgradwert in der Nähe von 0 und/oder in Übereinstimmung mit 0 an, dass der Prozess der Varianznormierung für das jeweils zugewiesene Frequenzintervall zu überspringen ist. Dies bedeutet, dass das jeweilige Sprachsignal und/oder das Derivat oder die Komponente desselben ein beinahe ungestörtes Signal ist, für das eine Varianznormierung hinsichtlich des folgenden Erkennungsprozesses nachteilig wäre.
  • Auf ähnliche Weise ist es von besonderem Vorteil, in jedem Fall einem Normierungsgradwert in der Nähe von 1 eine Maximalfunktionalität der Varianznormierung für das jeweils zugewiesene Frequenzintervall zuzuweisen.
  • Zur Erzeugung der Normierungsgraddaten aus den statistischen Auswertungsdaten, und insbesondere zur Erzeugung der Normierungsgradwerte, ist es bevorzugt, Übertragungsfunktionen zwischen statistischen Auswertungsdaten und den Normierungsgraddaten oder Normierungsgradwerten zu verwenden.
  • Zu diesen Übertragungsfunktionen kann die Klasse stückweise kontinuierlicher, kontinuierlicher oder kontinuierlich differenzierbarer Funktionen oder dergleichen gehören, insbesondere zum Erzielen eines gleichmäßigen und/oder differenzierbaren Übergangs zwischen den statistischen Auswertungsdaten und den Normierungsgraddaten und/oder Normierungsgradwerten.
  • Bevorzugte Beispiele der Übertragungsfunktionen sind Thetafunktionen, Sigmoidalfunktionen oder dergleichen.
  • Eine bevorzugte Ausführungsform zum Ausführen der Varianznormierung für sich ist eine Multiplizierung des Sprachsignals und/oder des Derivats oder der Komponente desselben mit einem sogenannten Reduktionsfaktor R, der eine Funktion des Signalrauschens und/oder der Normierungsgraddaten oder Normierungsgradwerte ist. Erneut kann dies eine Frequenzabhängigkeit hinsichtlich bestimmter Frequenzwerte und/oder bestimmter Frequenzintervalle beinhalten.
  • Ein besonders bevorzugtes Beispiel dieses Reduktionsfaktors R –, der erneut frequenzabhängig sein kann – ist R = 1/(1 + (σ – 1)·D)wobei σ die zeitliche Standardabweichung des Sprachsignals, seines Derivats oder seiner Komponente und/oder seines Merkmals bezeichnet. In dieser Struktur kennzeichnet D den Normierungsgradwert, der wiederum frequenzab hängig sein kann.
  • Die Merkmale und Vorteile der Erfindung werden aus den folgenden Hinweisen ersichtlich.
  • Bei automatischer Spracherkennung ist der Vorverarbeitungsschritt hinsichtlich der eingegebenen Sprachdaten von entscheidender Bedeutung, um kleinere Wortfehlerraten und höhere Robustheit gegen Hintergrundrauschen zu erzielen, insbesondere in Bezug auf den folgenden Erkennungsprozess.
  • Es wurde herausgefunden, dass ein spezieller Vorverarbeitungsschritt – die sogenannte Varianznormierung – in einigen Fällen, jedoch nicht in allen Situationen, die Erkennungsrate verbessert.
  • Daher ist es die Grundidee der Erfindung, verschiedene Grade der Varianznormierung anzuwenden, die z.B. vom Ausmaß des in den Sprachdaten aufgefundenen Hintergrundrauschens abhängen.
  • Daher meistert die Erfindung die Situation, dass die Varianznormierung gut arbeitet, wenn verrauschte Daten vorliegen, sie jedoch die Erkennungsrate beeinträchtigt, wenn sie bei nicht gestörten Eingangsdaten angewandt wird.
  • Das vorgeschlagene verfahren – insbesondere der Vorverarbeitungsabschnitt des Verfahrens – kann durch eine Zweischrittprozedur realisiert werden, wobei ein erster Schritt die Ermittlung oder Messung des Rauschens in den Eingangsdaten, insbesondere des Signal/Rauschsignal-Verhältnisses (SNR) ausführt und der zweite Schritt die Anwendung einer SNR-abhängigen Varianznormierung auf die Eingangsdaten ausführt.
  • Für den ersten Schritt können entweder externe Daten von z.B. einem zweiten Mikrofon und/oder Kenntnis zur Anwendung und/oder aus Einzelkanal-Abschätzverfahren verwendet werden. Die genaue Weise zum Ermitteln des Signal-/Rauschsignal-Verhältnisses beeinflusst die Arbeitsweise und das Ergebnis des Verfahrens nicht. In der Vergangenheit erfolgten umfangreiche Arbeiten auf dem Gebiet der SNR-Abschätzung, und in Zusammenhang mit der vorliegenden Erfindung kann jede von bekannten Prozeduren oder Algorithmen auf diesem Gebiet verwendet werden.
  • Der zweite Schritt, d.h. das Anwenden der SNR-abhängigen Varianznormierung – der Grad D der Varianznormierung, der im Bereich von 0 bis 1 liegen kann – wird unter Verwendung z.B. einer Übertragungsfunktion zwischen dem SNR-Schätzwert und D bestimmt. Wenn die optimale analytische Form der Übertragungsfunktion und daher von D noch nicht bestimmt oder bekannt ist, können für diese Bestimmung natürliche Wahlmöglichkeiten eingeschlossen werden, und insbesondere kann die Thetafunktion verwendet werden, die die Varianznormierung im Fall reiner oder ungestörter Daten effektiv abschaltet und sie für verzerrte Eingangssignale auf ihr Maximum schaltet. Eine andere Wahl kann die Klasse von Sigmoidfunktionen kann, die für einen gleichmäßigen und differenzierbaren Übergang oder eine Interpolation zwischen dem Fall keiner Varianznormierung und der maximalen Varianznormierung sorgt.
  • Die Varianznormierung selbst kann dadurch berechnet werden, dass die Eingangsdaten durch (1 + (σ – 1)·D) geteilt werden. σ bezeichnet die Standardabweichung der Eingangsmerkmale über der Zeit. Demgegenüber teilen die herkömmlichen Verfahren die Eingangsmerkmale einfach durch σ, ohne den Normierungsgrad D zu berücksichtigen.
  • Beim vorgeschlagenen Verfahren können die Eingangsdaten eine beliebige Repräsentation für z.B. kurzzeitige Spektral- oder Cepstral-Parameter sein. Die Standardabweichung der Eingangsmerkmale kann auf beliebige Weise berechnet werden, z.B. unter Verwendung der aktuellen Sprachaufzeichnung. Es wurde beobachtet, dass die Standard-Varianznormierung effektiver ist, wenn der Schätzwert σ der Standardabweichung für mehr als eine Sprachäußerung von einem gegebenen Sprecher berechnet wird. Das vorgeschlagene Verfahren ist von der Herleitungsweise für σ unabhängig, und demgemäß kann das Verfahren selbst dann verwendet werden, wenn σ jedesmal neu iterativ anzupassen ist, wenn neue Sprache in das System eingegeben wird.
  • Nun wird die Erfindung unter Berücksichtigung der beigefügten Figuren auf Grundlage der bevorzugten Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung detaillierter beschrieben.
  • 1 ist ein schematisches Blockdiagramm, das einen Gesamtüberblick über das Verfahren zur Spracherkennung gemäß der vorliegenden Erfindung liefert.
  • 2 ist ein schematisches Blockdiagramm zum detaillierteren Beschreiben des Vorverarbeitungsabschnitts der in der 1 dargestellten Ausführungsform des erfindungsgemäßen Verfahrens.
  • Wie es im schematischen Blockdiagramm der 1 dargestellt ist, besteht das erfindungsgemäße Verfahren zur Spracherkennung im Wesentlichen aus einem ersten Schritt S1 zum Eingeben und/oder Empfangen eines Sprachsignals S. Im folgenden Schritt S2 werden dieses Sprachsignals und/oder Derivate S' oder Komponenten desselben vorverarbeitet. Im folgenden Schritt S3 wird das Ausgangssignal des Vorverarbeitungsabschnitts S2 einem Erkennungsprozess S3 unterzogen.
  • Schließlich wird im letzten Schritt S4 das Erkennungsergebnis ausgegeben.
  • Das schematische Blockdiagramm der 2 verdeutlicht detaillierter die Schritte des Vorverarbeitungsabschnitts 2 der in der 1 dargestellten Ausführungsform.
  • Im Allgemeinen liegt das empfangene oder eingegebene Sprachsignal S in analoger Form vor. Daher wird in einem Schritt S10 des Vorverarbeitungsabschnitts S2 dieses analoge Sprachsignal S digitalisiert.
  • Folgend auf den Digitalisierungsschritt S10 werden das Sprachsignal S und/oder Derivate S' oder Komponenten desselben in einem Schritt S11 einer statistischen Auswertung unterzogen, um statistische Auswertungsdaten ED zu liefern und zu erzeugen.
  • Auf Grundlagen der so erzeugten statistischen Auswertungsdaten ED, die einen Wert für das Signal/Rauschsignal-Verhältnis SNR enthalten können, werden in einem Schritt S12 Normierungsgraddaten ND und/oder Normierungsgradwerte Dj als Funktion der statistischen Auswertungsdaten ED hergeleitet.
  • Dann können herkömmlicherweise weitere Vorverarbeitungsschritte ausgeführt werden, wie es durch den Abschnitt S13 gekennzeichnet ist.
  • Abschließend wird in einem Schritt S14 mit Unterschritten 14a und 14b ein Prozess der Varianznormierung VN am Sprachsignals und/oder Derivaten S' und Komponenten desselben ausgeführt. Der Grad und/oder die Stärke der Varianznormierung VN hängt von den im Schritt S12 erzeugten Normierungsgraddaten ND und/oder Normierungsgradwerten Dj ab und/oder ist eine Funktion derselben. Die Varianznormierung VN wird im Schritt 14b ausgeführt, wenn, entsprechend der Bedingung im Schritt 14a, der Wert oder die Werte der Normierungsgraddaten ND, Dj nicht in der Nähe von 0 liegen.

Claims (7)

  1. Verfahren zur Spracherkennung, bei welchem in einem Vorverarbeitungsabschnitt (S2) ein Schritt des Ausführens einer Varianznormalisierung (VN) anwendbar ist in Bezug auf ein gegebenes oder ein empfangenes Sprachsignal (S) und/oder in Bezug auf ein Derivat (S') davon, wobei der Vorverarbeitungsabschnitt Schritte aufweist: – des Ausführens einer statistischen Analyse (S11) in Bezug auf das Sprachsignal (S) und/oder in Bezug auf das Derivat (S') davon, wodurch statistische Auswertedaten (ED) erzeugt und/oder bereitgestellt werden, – des Erzeugens von Daten in Bezug auf einen Normalisierungsgrad (ND) aus den statistischen Auswertedaten (ED), wobei die Daten in Bezug auf den Normalisierungsgrad (ND) eine Normalisierungsstärke aufweisen, deren Wert oder deren Werte in der Nachbarschaft vom Wert 0 anzeigen, dass keine Varianznormalisierung (VN) durchgeführt werden muss, und – des Ausführens einer Varianznormalisierung (VN) auf dem Sprachsignal (S), auf einem Derivat (S') und/oder auf einer Komponente davon gemäß den Daten (ND) des Normalisierungsgrads, – wobei die statistische Analyse (S1) einen Schritt des Bestimmens eines Signal-zu-Rausch-Verhältnisses (SNR) aufweist, – wobei eine Menge diskreter Werte (Dj) für den Normalisierungsgrad als Daten (ND) für den Normalisierungsgrad verwendet werden, wobei jeder Wert mit einem bestimmten Frequenzintervall (fj, ?fj) zugeordnet ist oder wird und die Intervalle (fj, ?fj) im Wesentlichen keinen Überlapp besitzen, – wobei jeder diskrete Wert (Dj) für den Normalisierungsgrad einen Wert innerhalb des Intervalls von 0 bis 1 aufweist, – wobei in jedem Fall ein Wert (Dj) für den Normalisierungsgrad in der Nachbarschaft von 0 anzeigt, dass jegliche Varianznormalisierung (VN) für das jeweils zugeordnete Frequenzintervall (fj, ?fj) übersprungen wird, – wobei in jedem Fall ein Wert (Dj) für den Normalisierungsgrad in der Nachbarschaft von 1 anzeigt, dass eine maximale Varianznormalisierung (VN) für das jeweils zugeordnete Frequenzintervall (fj, ?fj) durchzuführen ist, und – wobei zum Erzeugen der Daten (ND) für den Normalisierungsgrad aus den statistischen Auswertedaten (ED) eine Transferfunktion zwischen den statistischen Auswertedaten (ED) und den Daten (ND) für den Normalisierungsgrad verwendet wird.
  2. Verfahren nach Anspruch 1, bei welchem die statistische Analyse (S11) in einer zumindest stückweisen oder partiell frequenzabhängigen Art und Weise durchgeführt wird.
  3. Verfahren nach einem der vorangehenden Ansprüche, bei welchem die Auswertedaten (ED) und/oder die Normalisierungsdaten (ND) ausgebildet werden, um die stückweise Frequenzabhängigkeit widerzuspiegeln.
  4. Verfahren nach einem der vorangehenden Ansprüche, bei welchem eine stückweise stetige oder kontinuierliche, eine stetige oder kontinuierliche oder eine stetig oder kontinuierlich differenzierbare Funktion oder dergleichen als Übertragungs- oder Transferfunktion verwendet wird, um insbesondere eine glatte und/oder differenzierbare Übertragung oder einen entsprechenden Transfer zwischen den statistischen Auswertedaten (ED) und den Daten (ND) für den Normalisierungsgrad zu erhalten.
  5. Verfahren nach einem der vorangehenden Ansprüche, bei welchem eine Theta-Funktion, eine sigmoidale Funktion oder dergleichen als Übertragungsfunktion oder als Transferfunktion verwendet wird.
  6. Verfahren nach einem der vorangehenden Ansprüche, bei welchem die Varianznormalisierung (S14) ausgeführt wird durch Multiplizieren des Sprachsignals (S), eines Derivats (S') und/oder einer Komponente davon mit einem Reduzierungsfaktor (R) als Funktion der statistischen Auswertedaten (ED), insbesondere des Signalrauschens und der Daten (ND) des Normalisierungsgrads, insbesondere der Werte (Dj) für den Normalisierungsgrad und/oder insbesondere in frequenzabhängiger Form.
  7. Verfahren nach einem der vorangehenden Ansprüche, bei welchem ein Reduzierungsfaktor (R) verwendet wird, welcher – insbesondere in frequenzabhängiger Form – gemäß R = 1/(1 + (σ – 1 – D))definiert oder gegeben ist, wobei σ die zeitliche Standardabweichung des Sprachsignals (S), eines Derivats (S'), einer Komponente und/oder eines Merkmals davon bezeichnet und wobei D den in Rede stehenden Wert für den Normalisierungsgrad bezeichnet.
DE60110541T 2001-02-06 2001-02-06 Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz Expired - Lifetime DE60110541T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP01102582A EP1229517B1 (de) 2001-02-06 2001-02-06 Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz

Publications (2)

Publication Number Publication Date
DE60110541D1 DE60110541D1 (de) 2005-06-09
DE60110541T2 true DE60110541T2 (de) 2006-02-23

Family

ID=8176401

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60110541T Expired - Lifetime DE60110541T2 (de) 2001-02-06 2001-02-06 Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz

Country Status (4)

Country Link
US (1) US7292974B2 (de)
EP (1) EP1229517B1 (de)
JP (1) JP2002278586A (de)
DE (1) DE60110541T2 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1774516B1 (de) * 2004-01-12 2011-03-16 Voice Signal Technologies Inc. Normierung von cepstralen Merkmalen für die Spracherkennung
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US8046218B2 (en) * 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features
WO2010003068A1 (en) * 2008-07-03 2010-01-07 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US20110178799A1 (en) * 2008-07-25 2011-07-21 The Board Of Trustees Of The University Of Illinois Methods and systems for identifying speech sounds using multi-dimensional analysis
US8965756B2 (en) * 2011-03-14 2015-02-24 Adobe Systems Incorporated Automatic equalization of coloration in speech recordings
GB201220907D0 (en) * 2012-11-21 2013-01-02 Secr Defence Method for determining whether a measured signal matches a model signal
WO2016154116A1 (en) * 2015-03-20 2016-09-29 Inspirata, Inc. Systems, methods, and apparatuses for digital histopathological imaging for prescreened detection of cancer and other abnormalities
WO2019241608A1 (en) * 2018-06-14 2019-12-19 Pindrop Security, Inc. Deep neural network based speech enhancement

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2797949B2 (ja) * 1994-01-31 1998-09-17 日本電気株式会社 音声認識装置
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6768979B1 (en) * 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6308155B1 (en) * 1999-01-20 2001-10-23 International Computer Science Institute Feature extraction for automatic speech recognition

Also Published As

Publication number Publication date
JP2002278586A (ja) 2002-09-27
US7292974B2 (en) 2007-11-06
EP1229517B1 (de) 2005-05-04
DE60110541D1 (de) 2005-06-09
EP1229517A1 (de) 2002-08-07
US20020107687A1 (en) 2002-08-08

Similar Documents

Publication Publication Date Title
DE3687677T2 (de) Geraeuschkompensation in einer spracherkennungseinrichtung.
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69127961T2 (de) Verfahren zur Spracherkennung
DE60023517T2 (de) Klassifizierung von schallquellen
DE19952538C2 (de) Automatische Verstärkungsregelung in einem Spracherkennungssystem
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE112009000805T5 (de) Rauschreduktion
DE60205232T2 (de) Verfahren und vorrichtung zur bestimmung der qualität eines sprachsignals
EP1386307A1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE602004010634T2 (de) Verfahren und system zur sprachqualitätsvorhersage eines audioübertragungssystems
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE69020736T2 (de) Wellenanalyse.
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69112855T2 (de) Sprachsignalverarbeitungsvorrichtung.
EP1048025B1 (de) Verfahren zur instrumentellen sprachqualitätsbestimmung
EP1382034B1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
EP1279164A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)

Legal Events

Date Code Title Description
8327 Change in the person/name/address of the patent owner

Owner name: SONY DEUTSCHLAND GMBH, 50829 KOELN, DE

8364 No opposition during term of opposition