DE69811310T2 - Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen - Google Patents

Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen

Info

Publication number
DE69811310T2
DE69811310T2 DE69811310T DE69811310T DE69811310T2 DE 69811310 T2 DE69811310 T2 DE 69811310T2 DE 69811310 T DE69811310 T DE 69811310T DE 69811310 T DE69811310 T DE 69811310T DE 69811310 T2 DE69811310 T2 DE 69811310T2
Authority
DE
Germany
Prior art keywords
signal
channel
masked
quantile
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69811310T
Other languages
English (en)
Other versions
DE69811310D1 (de
Inventor
Daniel Boies
Stephen Douglas Peters
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks Ltd
Original Assignee
Nortel Networks Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nortel Networks Ltd filed Critical Nortel Networks Ltd
Publication of DE69811310D1 publication Critical patent/DE69811310D1/de
Application granted granted Critical
Publication of DE69811310T2 publication Critical patent/DE69811310T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Noise Elimination (AREA)

Description

    Hintergrund
  • Die vorliegende Erfindung bezieht sich allgemein auf die Spracherkennung. Insbesondere bezieht sie sich auf Spracherkennungsverfahren und Vorrichtungen, die Sprache in störbehafteten Umgebungen abgrenzen.
  • Die automatische Erkennung der menschlichen Sprache in beliebigen Umgebungen ist eine schwierige Aufgabe. Das Problem ist noch schwieriger, wenn die Erkennung in Echtzeit durchgeführt werden muss, d. h. wenn die Verzögerung zwischen dem Ende der Sprache und der Systemantwort nicht größer ist, als dies der Sprecher in einer typischen Unterhaltung von Menschen erwarten würde.
  • Eine der Schlüsselkomponenten eines Echtzeit-Spracherkennungssystems ist die Fähigkeit, in zuverlässiger Weise den Anfang und das Ende der Sprache zu erkennen. Obwohl der beste Weg hierfür darin besteht, einen Rückführungspfad von der Spracherkennungseinrichtung selbst vorzusehen, ist dies in Echtzeit unter Verwendung der heutigen Technologie nicht realisierbar. Weil die Rückführung keine gangbare Möglichkeit darstellt, besteht eine Notwendigkeit für Verfahren, und Vorrichtungen zur Bestimmung des Anfangs und des Endes der Sprache in einer hinsichtlich des Rechenaufwandes effizienten Weise.
  • Die Endpunktbestimmung ist eine Technik, die den Anfang und das Ende von Sprache abgrenzt. Die Endpunktbestimmung ist jedoch schwierig, wenn die Sprache über ein Telefonnetz erfasst wird, weil hierbei Systemstörungen auftreten. Zusätzlich trägt die Vielzahl der Betriebsarten und Umgebungen, in denen übliche sowie zellulare, schnurlose und Freihand-Telekommunikationsgeräte verwendet werden, zu der Herausforderung bei.
  • Die Hauptschwierigkeit in jedem Telekommunikationssystem besteht in den Hintergrundstörungen einer Telefonverbindung. Die Hintergrundstörungen können sich aufgrund einer Vielzahl von Erscheinungen ergeben, unter Einschluss von Kraftfahrzeugen, Menschenmengen, Musik und anderen Sprechern. Weiterhin kann sich die Intensität dieser Hintergrundstörungen dauernd ändern und es ist unmöglich, sie genau vorherzusagen.
  • Derzeit beruhen Telefonnetz-Echtzeit-Spracherkennungssystem-Endpunktbestimmungseinrichtungen hauptsächlich auf der Energie in dem empfangenen Signal, das die Sprache und die Hintergrundstörungen einschließt. Sie können auch andere Statistiken verwenden, die von dem empfangenen Signal abgeleitet werden, unter Einschluss von Nulldurchgängen. Hinsichtlich weiterer Informationen über Nulldurchgänge, siehe US-Patent 5 598 466, das am 28. Februar 1997 auf den Namen von David L. Graumann erteilt wurde, oder hinsichtlich der Energievarianz, siehe beispielsweise die Information hinsichtlich der Energievarianz in dem US- Patent 5 323 337, das auf den Namen von Denis L. Wilson et al. am 21. Juni 1994 erteilt wurde. Die Endpunkt-Statistik wird einer Maschine mit endlichen Zuständen zugeführt, die den Anfang und das Ende der Sprache auf der Grundlage einer Anzahl von Schwellenwerten und Zeitabläufen bestimmt. Ein Beispiel, wie eine derartige Zustandsmaschine arbeitet, ist in Fig. 1 angegeben.
  • Fig. 1 ist ein Ablaufdiagramm, das die Betriebsweise einer Maschine endlicher Zustände zeigt. Zunächst empfängt die Maschine endlicher Zustände eine Endpunkt-Statistik (Schritt 102). Als nächstes bestimmt die Zustandsmaschine, ob die derzeitige Statistik einen ersten Schwellenwert für eine erste vorgegebene Zeitdauer (erster Zeitablauf) (Schritt 104) überschreitet. Wenn der Bestimmungsschritt negativ ist, so werden die Schritte 102 und 104 wiederholt. Wenn die Bestimmung positiv ist, so identifiziert die Zustandsmaschine den Anfang der Sprache (Schritt 106). Die Zustandsmaschine tritt dann in den Sprachezustand (Schritt 108) ein. Während sie sich im Sprachezustand befindet, bestimmt die Zustandsmaschine, ob die Statistik unter einen zweiten Schwellenwert für ein zweites vorgegebenes Ausmaß an Zeit (Schritt 110) absinkt. Wenn die Bestimmung negativ ist, so werden die Schritte 108 und 110 wiederholt. Wenn die Bestimmung positiv ist, so tritt die Zustandsmaschine in einen probeweisen Stillezustand ein (Schritt 112). Während des probeweisen Stillezustandes bestimmt die Zustandsmaschine, ob die Statistik den ersten Schwellenwert für das erste vorgegebene Ausmaß an Zeit übersteigt. Wenn die Bestimmung positiv ist, so kehrt die Zustandsmaschine in den Sprachezustand zurück, Schritt 108. Wenn die Bestimmung negativ ist, so bestimmt die Maschine endlicher Zustände, ob die Statistik unter den ersten Schwellenwert für ein drittes vorgegebenes Ausmaß an Zeit geblieben ist (Schritt 116). Wenn die Bestimmung negativ ist, so werden die Schritte 112 bis 116 wiederholt. Schließlich identifiziert, wenn die Bestimmung positiv ist, die Zustandsmaschine das Ende der Sprache (Schritt 118). Somit führt das Spracherkennungssystem eine Erkennung lediglich an dem Teil des Eingangssignals zwischen dem Anfang der Sprache und dem Ende der Sprache aus (d. h., während sich die Zustandsmaschine in dem Sprachezustand befindet).
  • Typischerweise verringert sich die Wirksamkeit eines Endzeigers, wenn die Intensität der Hintergrundstörungen ansteigt. Laute Hintergrundstörungen können bewirken, dass der Endzeiger einen Spracheanfang zu früh signalisiert oder die Feststellung des Endes der Sprache verzögert. Der letzte Zustand kann für das Betriebsverhalten eines Echtzeit-Spracherkennungssystems ziemlich schädlich sein. Es ist klar zu erkennen, dass der Endzeiger eine gewisse Anpassung erfordert, um den Hintergrund zu kompensieren. Es würde daher wünschenswert sein, einen Endzeiger zu schaffen, der das eingegebene Signal in Echtzeit vorverarbeitet, so dass eine Vordergrund-Spracheabgrenzung unter Verwendung eines einen festen Schwellenwert aufweisenden Endpunkt-Bildungsverfahrens weniger gegenüber Hintergrundstörungen empfindlich ist.
  • Zusammenfassung der Erfindung
  • Vorzugsweise führen Verfahren und Vorrichtungen gemäß der Erfindung eine Vorverarbeitung eines Kanalenergiesignals aus, um eine Spektralstationaritäts- Statistik auszubilden, die ein Endzeiger zur Abgrenzung von Sprache verwenden kann. Die Spektralstationaritäts-Statistik ermöglicht es einem Endzeiger, sich mit weniger Empfindlichkeit gegenüber Hintergrundrauschen zu verhalten.
  • Um die Vorteile der Erfindung zu erzielen und gemäß der Erfindung, wie sie hier verwirklicht und allgemein beschrieben wird, ergibt ein erster Gesichtspunkt der Erfindung ein Verfahren zur Verarbeitung von Daten, wie es im beigefügten Anspruch 1 angegeben ist.
  • Vorzugsweise extrahiert der Extrahierungsschritt ein Kanalenergiesignal.
  • Vorzugsweise umfasst das Verfahren weiterhin den Schritt einer Hintergrund- Normalisierung auf der Proben-Standardabweichung.
  • Vorzugsweise schließt die Erzeugung des Maskensignals die Teilschritte der Speicherung eines vorhergehenden Maskensignals und die Erzeugung des Maskensignals aus dem Kanalsignal und dem gespeicherten vorhergehenden Maskensignal ein.
  • Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes.
  • Vorzugsweise schließt der Schritt der Erzeugung des Maskensignals den Teilschritt des Ausgleichs der Abstände zwischen dem berechneten hohen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal und zwischen dem berechneten niedrigen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal ein.
  • Vorzugsweise schließt der Schritt der Maskierung des extrahierten Kanalenergiesignals den Teilschritt des Addierens des erzeugten Maskensignals zu dem extrahierten Kanalenergiesignal ein.
  • Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Glättung des maskierten Kanalenergiesignals.
  • Vorzugsweise umfasst der Schritt des Gewinnens der Proben-Standardabweichung die Teilschritte des Speicherns einer Vielzahl von vorher gewonnenen maskierten Signalwerten in einem Puffer, des Ersetzens des am wenigsten aktuellen der Vielzahl von maskierten Signalwerten durch dem aktuellen maskierten Signalwert und des Berechnens der Probenvarianz zwischen der Vielzahl von maskierten Signalwerten, die in dem Puffer gespeichert sind.
  • Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Bildung einer Quadratwurzel der Varianz.
  • Vorzugsweise umfasst der Schritt der Durchführung einer Hintergrundnormalisierung die Teilschritte des Filterns des maskierten Kanalenergiesignals zur Erzeugung eines geschätzten Hintergrundsignals und des Subtrahierens des geschätzten Hintergrundsignals von dem maskierten Kanalenergiesignal.
  • Vorzugsweise umfasst der Schritt des Filterns die Teilschritte des Filterns des maskierten Signals unter Verwendung einer Schätzeinrichtung für den vorhergehenden Hintergrund, des Filterns des maskierten Signals unter Verwendung einer weitergeschalteten Hintergrund-Schätzeinrichtung und der Auswahl des Minimums der gefilterten maskierten Signale als das geschätzte Hintergrundsignal.
  • Vorzugsweise umfasst das Verfahren weiterhin den Schritt des Transformierens des extrahierten Kanalenergiesignals.
  • Vorzugsweise schließt der Schritt des Transformierens das Gewinnen eines verallgemeinerten Logarithmus (Wurzel) des extrahierten Kanalenergiesignals ein.
  • Ein weiterer Gesichtspunkt der vorliegenden Erfindung ergibt eine Vorrichtung für ein Spracherkennungssystem, wie es in dem beigefügten Anspruch 15 angegeben ist.
  • Vorzugsweise extrahieren die Extrahierungseinrichtungen ein Kanalenergiesignal.
  • Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Durchführung einer Hintergrund-Normalisierung der Proben-Standardabweichung.
  • Vorzugsweise umfasst die Vorrichtung weiterhin ein Glättungsfilter.
  • Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes.
  • Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Erzeugung eines Hintergrund-Schätzwertes und Einrichtungen zum Subtrahieren des Hintergrund- Schätzwertsignals von der Proben-Standardabweichung.
  • Vorzugsweise umfasst die Einrichtung zur Erzeugung eines Hintergrund- Schätzwertsignals eine Schätzeinrichtung für den vorhergehenden Hintergrund, eine Schätzeinrichtung für den zukünftigen Hintergrund und eine Minimiereinrichtung zur Ausgabe des Minimalwertes der vorhergehenden Hintergrund-Schätzeinrichtung und der zukünftigen Hintergrund-Schätzeinrichtung als ein Hintergrund-Schätzwertsignal.
  • Wahlweise ergibt das Verfahren ein Verfahren zur Erzeugung eines Quantil- Schätzwertes eines Kanalsignals mit den Schritten der Definition eines Quantil- Schätzwertes, der Initialisierung einer Vielzahl von Puffern, des Empfangs eines Kanalsignals, der Berechnung einer Vielzahl von Unterschieden, der Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden, und die Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden.
  • Vorzugsweise schließt der Initialisierungsschritt die Teilschritte der Initialisierung eines Oberhalb-Zählers auf Eins und der Initialisierung eines Unterhalb-Zählers auf Eins.
  • Vorzugsweise schließt der Berechnungsschritt den Teilschritt der Berechnung einer ersten Differenz und einer zweiten Differenz ein, wobei die erste Differenz gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, während die zweite Differenz gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist.
  • Vorzugsweise schließt der Definitionsschritt die Teilschritte des Empfangs einer Vielzahl von Hintergrundsignalen, die Bezeichnung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen, das Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem höheren Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigeren Signals ist, wobei der Quantil-Schätzwert gleich dem mittleren Signal ist, und Ausbilden eines Quantil-Verhältnisses ein.
  • Vorzugsweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, die Einrichtungen zur Definition eines anfänglichen Quantil-Schätzwertes, Einrichtungen zur Initialisierung einer Vielzahl von Puffern, Einrichtungen zum Empfang eines Kanalsignals, Einrichtungen zur Berechnung einer Vielzahl von Unterschieden, Einrichtungen zur Einstellung des Quantil- Schätzwertes auf der Grundlage der Vielzahl von Unterschieden und Einrichtungen zur Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden umfasst.
  • Vorzugsweise umfassen die Definitionseinrichtungen weiterhin Einrichtungen zum Empfang einer Vielzahl von Hintergrundsignalen, Einrichtungen zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen und Einrichtungen zum Speichern einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem höheren Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigeren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist.
  • Typischerweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes geschaffen, die eine Vielzahl von Zählern, eine Vielzahl von Puffern, Einrichtungen zur Initialisierung der Vielzahl von Zählern und der Vielzahl von Puffern, wobei die Initialisierungseinrichtung zumindest Einrichtungen zum Speichern des Quantil- Schätzwertes einschließt, Einrichtungen zum Empfang eines Kanalsignals und Einrichtungen zur Kommunikation zwischen der Vielzahl von Zählern und der Vielzahl von Puffern zur Einstellung des Quantil-Schätzwertes auf der Grundlage des empfangenen Kanalsignals umfasst.
  • Wahlweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes geschaffen, die folgendes umfasst: ein nichtlineares Filter, das zum Empfang eines Energiesignals angekoppelt ist, wobei das nichtlineare Filter mit einem Oberhalb- Ganzzahl-Puffer, einem Unterhalb-Ganzzahl-Puffer und einer Vielzahl von Fließkomma-Puffern in Kommunikation steht; wobei ein erster der Vielzahl von Fließkomma-Puffern mit einem Wert initialisiert wird, wobei ein zweiter der Vielzahl von Fließkomma-Puffern mit einer höheren Begrenzung initialisiert wird, wobei ein dritter der Vielzahl von Fließkomma-Puffern mit einer unteren Begrenzung initialisiert wird, wobei ein vierter der Vielzahl von Fließkomma-Puffern mit einem Maximum initialisiert wird, wobei ein fünfter der Vielzahl von Fließkomma-Puffern mit einem Minimum initialisiert wird; Einrichtungen zum Weiterschalten des Oberhalb-Ganzzahl-Puffers, um Eins, wenn das empfangene Energiesignal größer als der oder gleich dem Wert ist; Einrichtungen zum Weiterschalten des Unterhalb- Ganzzahl-Puffers um Eins, wenn das empfangene Energiesignal kleiner als der Wert ist; Einrichtungen zur Berechnung eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Ganzzahl-Puffers dividiert durch den Unterhalb-Ganzzahl- Puffer ist, wobei die zweite Differenz gleich dem Wert abzüglich des Energiesignals ist; Einrichtungen zur Einstellung des Wertes durch die höhere Begrenzung oder den zweiten Unterschied, welche(r) kleiner ist, wenn der erste Unterschied und der zweite Unterschied positiv sind, und die untere Begrenzung oder einen Absolutwert der zweiten Differenz, welche(r) kleiner ist, wenn die erste Differenz und die zweite Differenz positiv sind; und Einrichtungen zur Ausgabe des Wertes als den Quantil- Schätzwert.
  • Vorzugsweise wird ein Verfahren zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, das die folgenden auf einem Prozessor ausgeführten Schritte umfasst: Bestimmen eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen; Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; und Ausbilden eines Quantil-Verhältnisses, Initialisieren eines Oberhalb-Zählers und eines Unterhalb-Zählers; Empfangen eines Kanalsignals; Berechnen eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich dem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil- Schätzwert abzüglich des Kanalsignals ist, Einstellen des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden; und Weiterschalten der Vielzahl von Zählern auf der Grundlage der Vielzahl von Unterschieden.
  • Vorzugsweise schließt der Einstellschritt die Teilschritte der Vergrößerung, wenn der erste Unterschied und der zweite Unterschied positiv sind, des Quantil- Schätzwertes um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes und die Vergrößerung des Quantil-Schätzwertes um den kleineren Wert der unteren Begrenzung und eines Absolutwertes der zweiten Differenz ein, wenn der erste Unterschied und der zweite Unterschied negativ sind.
  • Vorzugsweise schließt der Weiterschalt-Schritt den Teilschritt des Weiterschaltens des Unterhalb-Zählers, wenn der erste Unterschied und der zweite Unterschied positiv sind, des Weiterschaltens des Oberhalb-Zählers, wenn der erste Unterschied und der zweite Unterschied negativ sind, der Vergrößerung des Unterhalb-Zählers, wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist, und der Vergrößerung des Oberhalb-Zählers ein, wenn der erste Unterschied negativ ist und der zweite Unterschied positiv ist.
  • Typischerweise wird ein Verfahren zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, das die folgenden auf einem Prozessor ausgeführten Schritte umfaßt: Initialisieren eines Unterhalb-Zählers und eines Oberhalb-Zählers; Empfangen von drei Hintergrundsignalen, die als ein hohes Signal, ein niedriges Signal und ein mittleres Signal bezeichnet werden; Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigen Signals ist, wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; Ausbilden eines Quantil-Verhältnisses; Empfangen eines Kanalsignals; Berechnen eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich dem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil- Schätzwert abzüglich des Kanalsignals ist; Vergrößern des Quantil-Schätzwertes um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes, wenn der erste Unterschied und der zweite Unterschied positiv sind, und Weiterschalten des Unterhalb-Zählers; Vergrößern des Quantil-Schätzwertes durch den kleineren Wert der unteren Begrenzung und eines Absolutwertes des zweiten Unterschiedes, wenn die erste Differenz und die zweite Differenz negativ sind, und Weiterschalten des Oberhalb-Zählers; Vergrößern des Unterhalb-Zählers, wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist; Speichern des Absolutwertes des zweiten Unterschiedes als die untere Begrenzung, wenn der Absolutwert des zweiten Unterschiedes kleiner als die untere Begrenzung ist; Vergrößern des Oberhalb-Zählers, wenn der erste Unterschied negativ ist und der zweite Unterschied positiv ist; Speichern des zweiten Unterschiedes als die höhere Begrenzung, wenn der zweite Unterschied kleiner als die höhere Begrenzung ist, und Abrunden der höheren Begrenzung, der unteren Begrenzung und des Quantil- Schätzwertes.
  • Wahlweise wird ein Computerprogramm-Produkt geschaffen, das ein computernutzbares Medium mit darin verwirklichtem computerlesbarem Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Definitionsmodul, das zur Definition eines Quantil- Schätzwertes konfiguriert ist, ein Initialisierungsmodul, das zur Initialisierung einer Vielzahl von Puffern konfiguriert ist, ein Empfangsmodul, das zum Empfang eines Kanalsignals konfiguriert ist, ein Berechnungsmodul, das zur Berechnung einer Vielzahl von Unterschieden konfiguriert ist, ein Einstellmodul, das zur Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist, und ein Weiterschaltmodul umfasst, das zur Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist.
  • Vorzugsweise ist das Initialisierungsmodul weiterhin so konfiguriert, dass es einen Oberhalb-Zähler auf Eins und einen Unterhalb-Zähler auf Eins initialisiert.
  • Vorzugsweise ist das Berechnungsmodul weiterhin so konfiguriert, dass es zumindest einen eines ersten Unterschiedes und eines zweiten Unterschiedes berechnet, wobei der erste Unterschied gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, während der zweite Unterschied gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist.
  • Vorzugsweise umfasst das Definitionsmodul ein Empfangsmodul, das zum Empfang einer Vielzahl von Hintergrundsignalen konfiguriert ist, ein Bestimmungsmodul, das zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen konfiguriert ist; und ein Speichermodul, das zur Speicherung einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil-Schätzwertes konfiguriert ist, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist.
  • Typischerweise wird ein Computerprogramm geschaffen, das ein computernutzbares Medium mit einem darin enhaltenen computerlesbaren Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Empfangsmodul, das zum Empfang einer Vielzahl von Hintergrundsignalen konfiguriert ist; ein Bestimmungsmodul, das zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen konfiguriert ist; ein Speichermodul, das zur Speicherung einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil- Schätzwertes konfiguriert ist, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; ein Initialisierungsmodul, das zur Initialisierung einer Vielzahl von Puffern konfiguriert ist; wobei das Empfangsmodul weiterhin zum Empfang eines Kanalsignals konfiguriert ist; ein Berechnungsmodul, das zur Berechnung von zumindest einem eines ersten Unterschiedes und eines zweiten Unterschiedes konfiguriert ist, wobei der erste Unterschied gleich einem Quantil- Verhältnis abzüglich eines Oberhalb-Zählers dividiert durch einen Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist; ein Einstellmodul, das zur Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist; und ein Weiterschaltmodul umfasst, das zur Weiterschaltung des Oberhalb-Zählers und des Unterhalb-Zählers auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist.
  • Vorzugsweise ist das Einstellmodul weiterhin so konfiguriert, dass es den Quantil- Schätzwert um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes vergrößert, wenn der erste Unterschied und der zweite Unterschied positiv sind, und den Quantil-Schätzwert um den kleineren Wert der unteren Begrenzung und eines Absolutwertes des zweiten Unterschiedes vergrößert, wenn der erste Unterschied und der zweite Unterschied negativ sind.
  • Vorzugsweise wird ein Computerprogramm-Produkt geschaffen, das ein computernutzbares Medium mit einem darin enthaltenen computerlesbaren Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Extrahiermodul, das zum Extrahieren eines Kanalenergiesignals konfiguriert ist; ein Maskenerzeugungsmodul, das zur Erzeugung eines Maskensignals aus dem Kanalenergiesignal konfiguriert ist, ein Maskierungsmodul, das zur Maskierung des extrahierten Kanalenergiesignals mit dem erzeugten Maskensignal konfiguriert ist, und ein Standardabweichungs-Modul umfasst, das zur Gewinnung einer Proben-Standardabweichung des maskierten extrahierten Kanalenergiesignals über ein zeitliches Fenster konfiguriert ist.
  • Vorzugsweise umfasst das Computerprogramm-Produkt weiterhin ein Hintergrund- Normalisierungsmodul, das zur Durchführung eines Hintergrund-Normalisierung an der Proben-Standardabweichung konfiguriert ist.
  • Vorzugsweise umfasst das Computerprogramm-Produkt weiterhin ein Berechnungsmodul, das zur Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes konfiguriert ist.
  • Es ist verständlich, dass sowohl die vorstehende allgemeine Beschreibung als auch die nachfolgende ausführliche Beschreibung beispielhaft und erläuternd sind und zur Bereitstellung einer weiteren Erläuterung der beanspruchten Erfindung bestimmt sind.
  • Kurze Beschreibung der Zeichnungen
  • Die beigefügten Zeichnungen, die in diese Beschreibung eingefügt sind und einen Bestandteil dieser Beschreibung bilden, erläutern bevorzugte Ausführungsformen der Erfindung und erläutern zusammen mit der Beschreibung die Ziele, Vorteile und Prinzipien der Erfindung. In den Zeichnungen sind:
  • Fig. 1 ein Ablaufdiagramm, das eine bekannte Sprachsignal- Endpunktbildung erläutert;
  • Fig. 2 ein Ablaufdiagramm, das ein Verfahren zur Vorverarbeitung eines störbehafteten Signals gemäß der vorliegenden Erfindung erläutert,
  • Fig. 3 ein Blockschaltbild eines Endpunktbildungs-Vorprozessors gemäß der vorliegenden Erfindung;
  • Fig. 4 ein Blockschaltbild der Quantil-Schätzeinrichtung nach Fig. 3;
  • Fig. 5 ein Ablaufdiagramm, das ein Verfahren zur Berechnung von Quantil- Schätzwerten gemäß der vorliegenden Erfindung erläutert, und
  • Fig. 6 eine grafische Darstellung der hohen und niedrigen Quantil- Schätzwerte bezüglich der Kanalenergie,
  • Fig. 7 ein Blockschaltbild der Proben-Abweichungs-Schätzeinrichtung nach Fig. 3.
  • Gleiche Bezugsziffern beziehen sich in den verschiedenen Figuren der Zeichnungen auf entsprechende Teile.
  • Beschreibung der bevorzugten Ausführungsform
  • Es wird nunmehr im einzelnen auf die derzeit bevorzugten Ausführungsformen der Erfindung Bezug genommen, von denen Beispiele in den beigefügten Zeichnungen gezeigt sind. Alles was in der nachfolgenden Beschreibung enthalten oder in den beigefügten Zeichnungen gezeigt ist, soll als erläuternd und nicht beschränkend interpretiert werden.
  • Verfahren und Vorrichtung gemäß dieser Erfindung ergeben eine verbesserte Vordergrund-Sprachsignal-Endpunktbildung. Um die Endpunktbildung zu verbessern, wird eine Spektralstationaritäts-Statistik ("s³") berechnet. Die Statistik s³ ist robuster gegenüber dem Hintergrundrauschen als üblichere Messungen. Zusätzlich kann die Statistik s³ noch unempfindlicher gegen veränderliche Hintergrundstörungen gemacht werden, indem eine Hintergrundnormalisierung verwendet wird.
  • Fig. 2 ist ein Ablaufdiagramm, das ein Verfahren zur Vorverarbeitung eines empfangenen störbehafteten Signals zeigt, um die Statistik s³ für jeden Rahmen in Übereinstimmung mit der vorliegenden Erfindung zu erzeugen. Ein Rahmen umfaßt eine Serie von digitalen Abtastproben des störbehafteten Signals über eine vorgegebene Zeitdauer. Zunächst empfängt ein Endpunkt-Vorprozessor ein störbehaftetes Signal, das Vordergrund-Sprache einschließt (Schritt 202). Wie sie in dieser Anwendung verwendet wird, bezieht sich die Bezeichnung Vordergrund- Sprache auf den Teil des Eingangssignals, der von dem Spracherkennungssystem erkannt werden soll. Als nächstes extrahiert der Endpunkt-Vorprozessor unter Verwendung üblicher Techniken ein Kanalenergiesignal aus dem empfangenen störbehafteten Signal (Schritt 204). Aus Gründen der Einfachheit bezieht sich Fig. 2 lediglich auf einen einzigen Aufzeichnungskanal, doch werden mehrfache Aufzeichnungskanäle bevorzugt (d. h. 2, 3, 5, 20 oder mehr Kanäle). Wie dies weiter unten ausführlich erläutert wird, berechnet der Endpunkt-Vorprozessor dann sowohl einen hohen als auch einen niedrigen Quantil-Schätzwert der Kanalenergie (Schritt 206). Unter Verwendung der Quantil-Schätzwerte zur Erzeugung eines Maskensignals wird das störbehaftete Signal mit dem Maskensignal unter Verwendung eines Signal-/Rausch-Verhältnis- (SNR-) Normalisierungsverfahrens (Schritt 208) maskiert. Schließlich gewinnt der Endpunkt-Vorprozessor eine Proben- Standardabweichung des maskierten Signals über ein Zeitfenster (Schritt 210). Die Maschine endlicher Zustände verwendet dann die Proben-Standardabweichung, d. h. die Statistik s³ in üblicher Weise zur Erzeugung der Vordergrund-Sprache- Endpunkte (Schritt 212).
  • Fig. 3 ist ein Blockschaltbild eines Endpunkt-Vorprozessors ("PEP") 300 gemäß der vorliegenden Erfindung. Der PEP 300 schließt eine Energieextrahiereinrichtung 302, einen Energie-Wurzeltransformator 304, eine Quantil-Abschätzeinrichtung 306, eine Maskierungseinrichtung 308, ein Glättungsfilter 310, einen Probenabweichungs-Prozessor 312, zwei parallele lineare Filter 314 und 316, einen Minimierer 318 und einen Summierer 320 ein. Wie dies in Fig. 3 zu erkennen ist, wird jedes Aufzeichnungskanalsignal in den PEP 300 eingegeben und von der Energieextrahiereinrichtung 302 empfangen. Die Energieextrahiereinrichtung 302 gibt ein extrahiertes Kanalenergiesignal an den Energie-Wurzeltransformator 304 und an die Maskiereinrichtung 308 ab. Der Energie-Wurzeltransformator 304 führt eine nicht-lineare Wurzeltransformation an dem extrahierten Kanalenergiesignal aus und gibt ein transformiertes Signal an die Quantil-Abschätzeinrichtung 306 ab, die hohe und niedrige Quantil-Schätzwerte für das transformierte Energiesignal berechnet. Die Maskierungseinrichtung 308 verwendet die Quantil-Abschätzsignale zur Erzeugung eines Maskierungssignals und zur Durchführung einer SNR- Normalisierung des Kanalenergiesignals aus, das von der Energieextrahiereinrichtung 302 abgegeben wird (d. h. sie addiert das Maskierungssignal zu dem Kanalenergiesignal). Zusätzlich hat die Maskierungseinrichtung 308 einen (nicht gezeigten) Speicher, der ihr zugeordnet ist, um das derzeitige Maskierungssignal zur Verwendung bei der Berechnung des nächsten Maskierungssignals zu speichern. Das maskierte Kanalenergiesignal wird über ein Glättungsfilter 310 zu dem Probenabweichungsprozessor 312 gesandt, der eine Probenabweichung des maskierten Kanalenergiesignals über ein zeitliches Fenster gewinnt, wie dies weiter unten ausführlicher erläutert wird. Das Probenabweichungssignal durchläuft zwei parallele lineare Filter 314 und 316 zum Minimierer 318. Der Minimierer 318 gibt das kleinere der beiden Filter-Ausgangssignale an den Summierer 320 ab, und der Summierer 320 subtrahiert das Ausgangssignal des Minimierers 318 von dem Probenabweichungssignal, um die Statistik s³ zu erzeugen. Schließlich wird die Statistik s³ an die Maschine endlicher Zustände abgegeben, die in Fig. 1 verwirklicht ist. Die Zustandsmaschine verwendet die Statistik s³ in üblicher Weise, um die Vordergrund-Sprache-Endpunkte zu bestimmen. Bei einer Ausführungsform sind der PEP 300 und seine zugehörigen Bauteile in Software realisiert, die von einem Prozessor eines (nicht gezeigten) Hauptrechners ausgeführt wird. Bei anderen Ausführungsformen ist der PEP 300 in Schaltungshardware oder in einer Kombination von Hardware und Software realisiert. Bei Realisierung in Software ist eine bevorzugte Betriebsumgebung eine Betriebsumgebung auf der Grundlage der Sprache C.
  • Ein Fachmann würde nunmehr erkennen, dass die Kanalenergiesignale, die zur Berechnung der Statistik s³ verwendet werden, in der Leistungsdomäne liegen. Diese Energiesignale können sich über einen großen Bereich ändern. Der große Bereich, über die die Kanalenergiesignale vorliegen, macht es schwierig, die hohen und niedrigen Quantil-Schätzwerte des Kanalenergiesignals zu gewinnen. Der Energie-Wurzeltransformator 304 führt daher eine übliche nicht-lineare Transformation (Gl. 1) an dem Kanalenergiesignal aus, um ein Wurzel- Kanalenergiesignal ("RCE") zu gewinnen. Die einzige Forderung dieser üblichen Umwandlung besteht darin, daß der "Wurzel"-Operator γ derart vordefiniert ist, dass, wenn sich y 0 nähert, RCE sich log CE nähert, worin CE das Kanalenergiesignal ist. Dies wirkt im Sinne einer Komprimierung des Bereiches der tatsächlichen Kanalenergien.
  • Wurzel (CE,γ) ist als RCE = 1/γ·(CEγ - 1) definiert (Gl. 1)
  • Fig. 4 ist ein Blockschaltbild einer Quantil-Abschätzeinrichtung 306. Für jedes RCE umfaßt die Quantil-Abschätzeinrichtung 306 zwei nichtlineare Filter 402 und 404, zwei Oberhalb-Ganzzahl-Puffer (Zähler) 406 und 410, zwei Unterhalb-Ganzzahl- Puffer 408 und 412 (Zähler) und acht Fließkomma-Puffer 414, 416, 418, 420, 422, 424, 426 und 428. Wie dies aus Fig. 4 zu erkennen ist, empfängt die Quantil- Abschätzeinrichtung 206 das RCE an den nichtlinearen Filtern 402 und 404. Das nichtlineare Filter 402 steht mit den Oberhalb- und Unterhalb-Ganzzahl-Puffern 40 und 408 in Verbindung, und die Fließkomma-Puffer 414, 416 und 418 erzeugen den hohen Quantil-Schätzwert ("HQE"). Das nichtlineare Filter 404 steht mit dem Oberhalb- und Unterhalb-Ganzzahl-Puffern 410 und 412 und den Fließkomma- Puffern 424, 426 und 428 in Verbindung, um den niedrigen Quantil-Schätzwert ("LQE") zu erzeugen.
  • Fig. 5 ist ein Ablaufdiagramm, das zeigt, wie die Quantil-Abschätzeinrichtung 306 den HQE berechnet. Zunächst werden der Oberhalb-Ganzzahl-Puffer 406 und der Unterhalb-Ganzzahl-Puffer 408 auf einen Wert von Eins initialisiert (Schritt 502). Fließkomma-Puffer 414, 416 und 418 werden dadurch initialisiert, dass beispielsweise drei Rahmen von Kanalenergiesignalen vor dem Beginn irgendeiner Vordergrund-Sprache empfangen werden (Schritt 504). Diese drei Rahmen werden als ein höchstes, ein mittleres und ein niedrigstes Kanalenergiesignal klassifiziert. Die Quantil-Abschätzeinrichtung 306 speichert das höchste Kanalenergiesignal abzüglich des mittleren Kanalenergiesignals in dem Fließkomma-Puffer 414 als eine obere Begrenzung, das mittlere Kanalenergiesignal abzüglich des niedrigsten Kanalenergiesignals im Fließkomma-Puffer 416 als eine untere Begrenzung, und das mittlere Kanalenergiesignal in dem Fließkomma-Puffer 418 als einen anfänglichen HQE (Schritt 506). Die Quantil-Abschätzeinrichtung 306 verwendet einen Oberhalb-Ganzzahl-Puffer 406 zum Zählen der Anzahl von Kanalenergien, die oberhalb des HQE liegen, und einen einen Unterhalb-Ganzzahl-Puffer 408 zum Zählen der Anzahl von Kanalenergien, die unterhalb des HQE liegen. Der Zählprozeß wird nachfolgend in den Schritten 508 bis 538 beschrieben. Weil die mittlere Kanalenergie auf HQE eingestellt ist, werden die Oberhalb- und Unterhalb- Ganzzahl-Puffer 406 und 408 auf einen Wert von Eins gesetzt, was anzeigt, dass ein Kanalenergiesignal oberhalb des HQE liegt, und dass ein Kanalenergiesignal unterhalb des HQE liegt. Sobald der Initialisierungsabschnitt abgeschlossen ist, läuft die Quantil-Abschätzeinrichtung in eingeschwungenem Zustand. Obwohl die Schritte 508 bis 538 als die eine diskrete Serie von Schritten gezeigt sind, ist im eingeschwungenen Zustand der Prozess von kontinuierlicher Art.
  • Im eingeschwungenen Zustand empfängt die Quantil-Abschätzeinrichtung 306 kontinuierlich Wurzel-Kanalenergiesignale (Schritt S08). Der HQE-Ausgang von der Quantil-Abschätzeinrichtung 306 hängt von zwei Unterschieden ab. Der erste Unterschied ist das Quantil-Zielverhältnis, das von dem Verhältnis zwischen dem Oberhalb-Ganzzahl-Puffer 406 und dem Unterhalb-Ganzzahl-Puffer 408 subtrahiert wird (Schritt 510). Das Quantil-Zielverhältnis wird von einer vorgegebenen Quantil- Spezifikation bestimmt. Wenn beispielsweise die Quantil-Spezifikation 50% ist, so würde das Zielverhältnis gleich Eins sein (d. h. für jede Abtastprobe oberhalb des Schätzwertes sollte eine unterhalb dieses Schätzwertes liegen). Wenn die Quantil- Spezifikation 90% sein würde, so würde das Zielverhältnis 1 : 9 sein.
  • Der zweite Unterschied ist der vorhergehende, in dem Fließkomma-Puffer 418 gespeicherte Quantil-Schätzwert subtrahiert von der aktuellen im Filter 402 gespeicherten Kanalenergie-Abtastprobe (Schritt 512). Wenn beide Unterschiede positiv sind (Schritt 514) so wird der Quantil-Schätzwert durch die höhere Begrenzung, die in dem Fließkomma-Puffer 414 gespeichert ist, oder den zweiten Unterschied (Schritt 516), je nachdem, welche(r) kleiner ist, vergrößert, und der Unterhalb-Ganzzahl-Puffer 408 wird weitergeschaltet (Schritt 518). In ähnlicher Weise wird, wenn beide Unterschiede negativ sind (Schritt 520) der Quantil-Schätzwert, der in dem Fließkomma-Puffer 418 gespeichert ist, um die untere Begrenzung, die in dem Fließkomma-Puffer 416 gespeichert ist, oder den Absolutwert des zweiten Unterschiedes (Schritt 522), je nachdem welche(r) kleiner ist, verringert, und der Oberhalb-Ganzzahl-Puffer 406 wird weitergeschaltet (Schritt 524).
  • Wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist (Schritt 526), so wird der Unterhalb-Ganzzahl-Puffer 408 weitergeschaltet (Schritt 528). Wenn der zweite Unterschied positiv und der erste Unterschied negativ ist (Schritt 530), so wird der Oberhalb-Ganzzahl-Puffer weitergeschaltet (Schritt 532). Weiterhin wird, wenn der zweite Unterschied negativ ist und der Absolutwert des zweiten Unterschiedes kleiner als die in dem Fließkomma-Puffer 416 gespeicherte untere Begrenzung ist, der zweite Unterschied in dem Fließkomma-Puffer 416 als neue untere Begrenzung gespeichert (Schritt 534). Zusätzlich wird, wenn der zweite Unterschied positiv ist und der zweite Unterschied kleiner als die derzeit in dem Fließkomma-Puffer 414 gespeicherte höhere Begrenzung ist, der zweite Unterschied in dem Fließkomma-Puffer 414 als die neue höhere Begrenzung (Schritt 536) gespeichert. Nach allen diesen Tests und Einstellungen werden die Fließkomma-Puffer 414 und 416 festgelegt, so dass sie nicht mehr verschwinden können (Schritt 538). Die Schritte 508 bis 538 werden so lange wiederholt, wie die Zustandsmaschine online ist. Der LQE wird in einer ähnlichen Weise bestimmt, wie die vorstehend angegebene Bestimmung von HQE. In der bevorzugten Ausführungsform dieser Erfindung ist der HQE eine Quantil-Abschätzeinrichtung mit einer Quantil-Spezifikation von 90%, d. h. einem Zielverhältnis von 1 : 9, und der LQE ist eine Quantil-Abschätzeinrichtung mit einer Quantil-Spezifikation von 10%, d. h. einem Zielverhältnis von 9 : 1.
  • Die verbleibenden zwei Fließkomma-Puffer 420 und 422, die für HQE und LQE gemeinsam genutzt werden, werden zum Speichern der Maxima und Minima der Kanalenergie verwendet. Die absoluten Unterschiede zwischen diesen Werten und dem Quantil-Schätzwert werden zur Regelung der Begrenzung verwendet. Bei der bevorzugten Ausführungsform dieser Erfindung ist die Abrundung an den höheren Begrenzungen, die in den Fließkomma-Puffern 414 und 424 gespeichert sind, ein Viertel des Verhältnisses zwischen dem Unterschied des in dem Fließkomma-Puffer 420 gespeicherten Maximums und den Quantil-Schätzwerten, die in den Fließkomma-Puffern 418 und 428 und den Oberhalb-Ganzzahl-Puffern 406 und 410 gespeichert sind. In ähnlicher Weise ist die Abrundung an der unteren Begrenzung, die in dem Fließkomma-Puffer 416 und 424 gespeichert ist, ein Viertel des Verhältnisses zwischen dem Unterschied der zwischen dem Quantil-Abschätzwert, der in den Fließkomma-Puffern 418 und 428 gespeichert ist, und dem Minimum, das in dem Fließkomma-Puffer 422 und den Unterhalb-Ganzzahl-Puffern 408 und 412 gespeichert ist.
  • Fig. 6 ist eine grafische Darstellung eines Kanalenergiesignals und der HQE und LQE, die aus dem Kanalenergiesignal erzeugt werden. Wie dies in Fig. 6 zu erkennen ist, werden HQE und LQE für jeden Rahmen teilweise in Abhängigkeit davon eingestellt, was die Quantil-Abschätzwerte für den unmittelbar vorhergehenden Rahmen gewesen sein sollten. Ein Fachmann wird nunmehr erkennen, dass die Quantil-Abschätzeinrichtung viele Anwendungen hat, von denen eine vorstehend umrissen wurde.
  • Nachdem diese Werte erzeugt wurden, verwendet die Maskierungseinrichtung 308 HQE und LQE zur Erzeugung eines Maskensignals in einer Weise analog zu (Gl. 2):
  • worin ut gleich dem Maskensignal ist und Target gleich einem vorgegebenen Schwellenwert ist. Vorzugsweise wird Target (Ziel) so eingestellt, dass der Abstand zwischen den hohen und niedrigen Quantil-Schätzwerten und der Kanalenergie gleich ist. Nicht nur HQE und LQE beeinflussen ut, sondern ut hängt auch von einem vorher berechneten Wert von ut-1 ab, worin ut gleich dem momentanen Maskensignal ist und ut-1 gleich dem vorhergehend berechneten Maskensignal ist (Gl. 3),
  • worin β ein voreingestellter "Vergesslichkeits"-Faktor nahezu jedoch kleiner als Eins ist und umin eine untere Begrenzung für das Maskensignal nahezu gleich oder gleich Null ist.
  • Die Maskierungseinrichtung 308 addiert das Maskensignal ut zu dem extrahierten Kanalenergiesignal, um ein maskiertes Kanalenergiesignal ("MCES") (GI. 4) zu gewinnen:
  • Hinsichtlich weiterer Informationen bezüglich der SNR-Normalisierung siehe Tom Claes und Dirk Van Compernolle, "SNR-Normalisation for Robust Speech Recognition", ICASSP 96, Seiten 331-334, 1996 ("Claes"). Obwohl Claes das allgemeine SNR-Normalisierungsverfahren beschreibt, sind Maskensignale gemäß der vorliegenden Erfindung erheblich hiervon verschieden. Die SNR-Normalisierung bei Claes führt beispielsweise eine vorhergesagte Schätzung des Maskensignals durch Verfolgen der Maxima und Minima des momentanen SNR aus. Im Gegensatz hierzu verwenden Verfahren gemäß der vorliegenden Erfindung eine Quantil- Näherung, oder deren Äquivalent, um das Ziel-Maskensignal zu erzeugen. Somit bestimmen statt eines vorhergesagten Schätzwertes des Maskensignals Verfahren gemäß der vorliegenden Erfindung, was das Maskensignal für den vorhergehenden Rahmen gewesen sein sollte und stellen entsprechend das momentane Maskensignal ein.
  • Das MCES wird über ein Glättungsfilter 310, das ein übliches FIR-Glättungsfilter mit drei Anzapfungen ist, dem Probenabweichungs-Prozessor 312 zugeführt. Fig. 7 ist ein Blockschaltbild eines Probenabweichungs-Prozessors 312. Der Probenabweichungs-Prozessor 312 umfaßt ein Verzögerungs-Schieberegister 702, einen Varianz-Rechner 704, und einen Quadratwurzel-Rechner 706. Das Verzögerungs-Schieberegister 702 weist sieben Registerschlitze 702&sub1;&submin;&sub7; auf. Das momentane MCES wird in dem Registerschlitz 702, eingegeben, die Inhalte der Registerschlitze 702&sub1;&submin;&sub6; werden um einen Registerschlitz verschoben (d. h. der Inhalt von 702&sub1; wird nach 7022 übertragen, usw.), und der Inhalt des Registerschlitzes 702&sub7; wird verworfen. Somit speichert jeder Registerschlitz 702&sub1;&submin;&sub7; ein zugehöriges MCES&sub1;&submin;&sub7;. Der Varianz-Rechner 704 berechnet die Varianz zwischen den in dem Verzögerungs-Schieberegister 702 gespeicherten MCES's, und der Quadratwurzel- Rechner 706 rechnet die Quadratwurzel der Varianz (Gl. 5) wobei der Ausgang die Proben-Standardabweichung über das Zeitfenster ("SDTW") ist.
  • SDTW = ((1/6) (Σ(MCESk)² - (1/7) (ΣMCESk)²]}1/2 Gl. 5
  • Hinsichtlich weiterer Informationen siehe die US-Patente 5 579 431 und 5 617 508, die auf den Namen von Benjamin K. Reaves am 26. November 1997 bzw. am 1. April 1997 erteilt wurden. Ein Probenabweichungs-Prozessor kann die Varianz über irgendeine Anzahl von gespeicherten MCES's berechnen, doch ist die Verwendung des derzeitigen Wertes und der sechs vorhergehenden Werte befriedigend. Vorzugsweise wird die SDTW für den Energiesignalpegel jedes Aufzeichnungskanals berechnet. Der Probenabweichungs-Prozessor 312 kombiniert die SDTW's in eine "rahmensynchrone skalare Statistik". Dieser kombinierte Prozess schließt die Entwicklung einer gemittelten SDTW und einer bewerteten gemittelten SDTW ein. Unter der Annahme von zwanzig Aufzeichnungskanälen ergibt sich die mittlere SDTW einfach durch Addieren jeder der zwanzig SDTW und durch Dividieren durch zwanzig (GI. 6), worin i der Aufzeichnungskanal ist.
  • Mittlere SDTW = ( SDTWi)/20 Gl. 6
  • Die bewertete mittlere SDTW kann sich in Abhängigkeit von der Anwendung ändern, erteilt jedoch den eine höhere Frequenz aufweisenden Kanälen eine größere Bedeutung. Die bewertete mittlere SDTW wird dadurch bestimmt, dass jedem Kanal ein Wertigkeitsfaktor (WF) zugeordnet und die SDTW für jeden Kanal mit WF multipliziert wird. Die Summe aller WF's ist gleich zwanzig. Die wertigkeitsabgeglichenen SDTW's werden summiert und durch zwanzig dividiert (Gl. 7).
  • Bewertete mittlere SDTW = (Σ(W F&sub1;)(SDTWi))/20 Gl. 7
  • Die rahmensynchrone skalare Statistik ist die größere der bewerteten mittleren SDTW und der mittleren SDTW. Obwohl es vorzuziehen ist, zwanzig Aufzeichnungskanäle zu haben, könnten mehr oder weniger in Abhängigkeit von den Systemeigenschaften verwendet werden.
  • Die rahmensynchrone skalare Statistik könnte von dem Endzeiger verwendet werden, um Sprache in üblicher Weise abzugrenzen. Es wird jedoch bevorzugt, eine Hintergrundnormalisierung auf die rahmensynchrone skalare Statistik anzuwenden. Eine Hintergrundnormalisierung umfasst das Filtern der rahmensynchronen skalaren Statistik unter Verwendung von getrennten und parallelen linearen Filtern 314 und 316 (Fig. 3). Das Filter 314 ist ein übliches einpoliges Filter mit einer voreingestellten Anzahl von Rahmenverzögerungen, d. h. einer Abschätzeinrichtung für den vorhergehenden Hintergrund. Das Filter 316 ist ein übliches nicht-kausales, ein rechtwinkliges Impulsansprechverhalten aufweisendes FIR-Filter, das eine voreingestellte Anzahl von Rahmen in der Zukunft abschätzt, d. h. eine Abschätzeinrichtung für den zukünftigen Hintergrund. Vorzugsweise ist die Anzahl von Rahmen, um die die Filter 314 und 316 von dem derzeitigen Rahmen abweichen, gleich. Eine angemessene Hintergrundnormalisierung kann mit einer Abweichung von drei Rahmen erzielt werden. Hinsichtlich weiterer Informationen hinsichtlich des Hintergrundnormalisierungsverfahrens siehe Davies & Knappe "Noise Background Normalization for Simultaneous Broadband and Narrowband Detection", ICASSP 1988, Seiten 2733-36 ("Davies et al. "). Obwohl die vorliegenden Verfahren ähnlich zu Davies et al. sind, sollte ein Fachmann erkennen, dass die Hintergrundnormalisierungsverfahren und Vorrichtungen gemäß der vorliegenden Erfindung modifiziert werden müssen, weil das interessierende Signal weder Breitband- noch Schmalband- Rauschen ist. Eine befriedigende Hintergrundnormalisierung kann jedoch durch Beseitigen des Minimums der Filter 314 und 316 von der rahmensynchronen skalaren Statistik zur Erzielung der Statistik s³ erreicht werden.
  • Es ist für den Fachmann zu erkennen, dass verschiedene Modifikationen und Abänderungen an den Verfahren und Vorrichtungen gemäß der Erfindung durchgeführt werden können. Weitere Modifikationen sind für den Fachmann aus einer Betrachtung der Beschreibung und der dort beschriebenen praktischen Ausführungsform der Erfindung ersichtlich. Die Beschreibung und die Beispiele sollten lediglich als beispielhaft betrachtet werden. Der Schutzumfang der Erfindung ist lediglich durch die beigefügten Ansprüche beschränkt.
  • Zusammenfassend ist festzustellen, daß die vorliegende Erfindung eine verbesserte Vordergrundsprache-Signalendpunktbildung durch Berechnen einer spektralen Stationäritätsstatistik ergibt. Diese Statistik wird durch eine Maschine endlicher Zustände zur Festlegung von Endpunkten von Sprache verwendet. Die Bildung von Endpunkten unter Verwendung der spektralen Stationäritätsstatistik ist weniger gegenüber Hintergrundstörungen empfindlich, als die Endpunktbildung unter Verwendung üblicher Maßnahmen. Die vorliegende Erfindung verwendet eine rahmensynchrone Quantil-Abschätzung, um ein Maskensignal für die Signal- /Rausch-Verhältnis-Normalisierung zu erzeugen.

Claims (15)

1. Verfahren zur Verarbeitung von Daten für ein Spracherkennungssystem, das Vordergrund-Sprache bei Vorliegen von Hintergrundstörungen empfangen kann, mit den folgenden Schritten, die durch einen Prozessor ausgeführt werden:
Extrahieren eines Kanalsignals (204) für einen Rahmen;
Erzeugen eines Maskensignals (206) für den Rahmen aus dem Kanalsignal;
Maskieren des extrahierten Kanalsignals (208) mit dem Maskensignal für den Rahmen;
Gewinnen einer Proben-Standardabweichung des maskierten Kanalsignals über ein Zeitfenster; und
Erzeugen von Vordergrund-Sprache-Endpunkten (212) unter Verwendung der Proben-Standardabweichung.
2. Verfahren nach Anspruch 1, bei dem der Extrahierungsschritt ein Kanalenergiesignal extrahiert.
3. Verfahren nach Anspruch 1 oder 2, das weiterhin den Schritt der:
Durchführung einer Hintergrund-Normalisierung der Proben- Standardabweichung umfaßt.
4. Verfahren nach einem der Ansprüche 1-3, bei dem die Erzeugung des Maskensignals die folgenden Teilschritte umfaßt:
Speicher eines vorhergehenden Maskensignals; und
Erzeugen des Maskensignals aus dem Kanalsignal und dem gespeicherten vorhergehenden Maskensignal.
5. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den Schritt der:
Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil- Schätzwertes umfaßt.
6. Verfahren nach Anspruch 5, bei dem der Schritt der Erzeugung des Maskensignals den Teilschritt des:
Ausgleichs der Abstände zwischen dem berechneten hohen Quantil- Schätzwert und dem extrahierten Kanalenergiesignal und zwischen dem berechneten niedrigen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal umfaßt.
7. Verfahren nach Anspruch 2, bei dem der Schritt der Maskierung des extrahierten Kanalenergiesignals den Teilschritt des:
Addierens des erzeugten Maskensignals zu dem extrahierten Kanalenergiesignal umfaßt.
8. Verfahren nach Anspruch 2, das weiterhin den Schritt der:
Glättung des maskierten Kanalenergiesignals umfaßt.
9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt des Gewinnens der Proben-Standardabweichung die Teilschritte des:
Speicherns einer Vielzahl von vorher gewonnenen maskierten Signalwerten in einem Puffer;
Ersetzen des am wenigsten aktuellen der Vielzahl von maskierten Signalwerten mit dem aktuellen maskierten Signalwert; und
Berechnung der Probenvarianz zwischen der Vielzahl von maskierten Signalwerten umfaßt, die in dem Puffer gespeichert sind.
10. Verfahren nach Anspruch 8, das weiterhin den Schritt des:
Gewinnens einer Quadratwurzel der Varianz umfaßt.
11. Verfahren nach Anspruch 3, bei dem der Schritt der Durchführung einer Hintergrundnormalisierung die Teilschritte des:
Filtern des maskierten Kanalenergiesignals zur Erzeugung eines geschätzten Hintergrundsignals; und
Subtrahieren des geschätzten Hintergrundsignals von dem maskierten Kanalenergiesignal umfaßt.
12. Verfahren nach Anspruch 11, bei dem der Schritt des Filterns die Teilschritte des:
Filterns des maskierten Signals unter Verwendung einer Schätzeinrichtung für den vorhergehenden Hintergrund;
Filterns des maskierten Signals unter Verwendung einer weitergeschalteten Hintergrund-Schätzeinrichtung; und
Auswählens des Minimums der gefilterten maskierten Signale als das geschätzte Hintergrundsignal umfaßt.
13. Verfahren nach Anspruch 2, das weiterhin den Schritt des:
Transformierens des extrahierten Kanalenergiesignals umfaßt.
14. Verfahren nach Anspruch 13, bei dem der Transformierungsschritt das Gewinnen eines verallgemeinerten Logarithmus (Wurzel) des extrahierten Kanalenergiesignals einschließt.
15. Vorrichtung für ein Spracherkennungssystem, das in der Lage ist, Vordergrund-Sprache bei Vorliegen von Hintergrundstörungen zu empfangen, mit:
Einrichtungen (302, 304) zum Extrahieren eines Kanalsignals für einen Rahmen;
Einrichtungen (306) zur Erzeugung eines Maskensignals für den Rahmen aus dem Kanalsignal;
Einrichtungen (308) zum Maskieren des extrahierten Kanalsignals unter Verwendung des erzeugten Maskensignals für den Rahmen;
Einrichtungen (312) zum Gewinnen einer Proben-Standardabweichung des maskierten Kanalsignals über ein Zeitfenster; und
Einrichtungen zur Erzeugung von Vordergrund-Sprache-Endpunkten unter Verwendung der Proben-Standardabweichung.
DE69811310T 1997-10-24 1998-10-23 Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen Expired - Fee Related DE69811310T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/950,417 US6134524A (en) 1997-10-24 1997-10-24 Method and apparatus to detect and delimit foreground speech

Publications (2)

Publication Number Publication Date
DE69811310D1 DE69811310D1 (de) 2003-03-20
DE69811310T2 true DE69811310T2 (de) 2003-10-16

Family

ID=25490403

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69811310T Expired - Fee Related DE69811310T2 (de) 1997-10-24 1998-10-23 Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen

Country Status (4)

Country Link
US (1) US6134524A (de)
EP (1) EP0911806B1 (de)
CA (1) CA2250649A1 (de)
DE (1) DE69811310T2 (de)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6600874B1 (en) * 1997-03-19 2003-07-29 Hitachi, Ltd. Method and device for detecting starting and ending points of sound segment in video
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US6621834B1 (en) * 1999-11-05 2003-09-16 Raindance Communications, Inc. System and method for voice transmission over network protocols
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
US7254532B2 (en) * 2000-04-28 2007-08-07 Deutsche Telekom Ag Method for making a voice activity decision
US7421393B1 (en) 2004-03-01 2008-09-02 At&T Corp. System for developing a dialog manager using modular spoken-dialog components
US7412393B1 (en) * 2004-03-01 2008-08-12 At&T Corp. Method for developing a dialog manager using modular spoken-dialog components
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
JP5423670B2 (ja) * 2008-04-30 2014-02-19 日本電気株式会社 音響モデル学習装置および音声認識装置
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
GB2504341A (en) * 2012-07-26 2014-01-29 Snell Ltd Determining the value of a specified quantile using iterative estimation
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US10109277B2 (en) * 2015-04-27 2018-10-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using visual information
US9898847B2 (en) * 2015-11-30 2018-02-20 Shanghai Sunson Activated Carbon Technology Co., Ltd. Multimedia picture generating method, device and electronic device

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US4718096A (en) * 1983-05-18 1988-01-05 Speech Systems, Inc. Speech recognition system
JPS603700A (ja) * 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
US4742537A (en) * 1986-06-04 1988-05-03 Electronic Information Systems, Inc. Telephone line monitoring system
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5007000A (en) * 1989-06-28 1991-04-09 International Telesystems Corp. Classification of audio signals on a telephone line
US5062137A (en) * 1989-07-27 1991-10-29 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
EP0747879B1 (de) * 1990-05-28 2002-08-07 Matsushita Electric Industrial Co., Ltd. Sprachkodierer
US5323322A (en) * 1992-03-05 1994-06-21 Trimble Navigation Limited Networked differential GPS system
US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5490204A (en) * 1994-03-01 1996-02-06 Safco Corporation Automated quality assessment system for cellular networks
EP0721257B1 (de) * 1995-01-09 2005-03-30 Daewoo Electronics Corporation Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie
US5598466A (en) * 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system

Also Published As

Publication number Publication date
CA2250649A1 (en) 1999-04-24
DE69811310D1 (de) 2003-03-20
US6134524A (en) 2000-10-17
EP0911806A3 (de) 2001-03-21
EP0911806A2 (de) 1999-04-28
EP0911806B1 (de) 2003-02-12

Similar Documents

Publication Publication Date Title
DE69811310T2 (de) Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69714431T2 (de) Verfahren zum verbessern von verrauschter sprache und gerät
DE69612770T2 (de) Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen
DE69720087T2 (de) Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners
DE69925905T2 (de) Blinde trennung von quellen durch faltung mit hilfe eines vielfachdekorrelationsverfahrens
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE102006042059B4 (de) Tonsammelvorrichtung mit Bündelung, Tonsammelverfahren mit Bündelung und Speicherprodukt
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE69600728T2 (de) Vorrichtung und verfahren zur signalqualitätserfassung
DE69903334T2 (de) Vorrichtung zur signal-rauschverhältnismessung in einem sprachsignal
DE69300413T2 (de) Verfahren zum Identifizieren von Sprach- und Rufverlaufsignalen.
DE69128801T2 (de) Kodierungssystem
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
DE3510660A1 (de) Verfahren und einrichtung zum verarbeiten eines signals
DE10296616T5 (de) Bandbreiten-Ausdehnung von akustischen Signalen
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE2636032A1 (de) Schaltungsanordnung zum extrahieren der grundfrequenz aus einem sprachsignal
DE60218329T2 (de) Verfahren zur parallelen Interferenzunterdrückung mit Doppelgewichtung
DE60014031T2 (de) Sprachererkennung durch korrelierung von spektrogrammen
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee