DE69811310T2

DE69811310T2 - Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen

Info

Publication number: DE69811310T2
Application number: DE69811310T
Authority: DE
Inventors: Daniel Boies; Stephen Douglas Peters
Original assignee: Nortel Networks Ltd
Current assignee: Nortel Networks Ltd
Priority date: 1997-10-24
Filing date: 1998-10-23
Publication date: 2003-10-16
Anticipated expiration: 2018-10-24
Also published as: EP0911806A3; US6134524A; EP0911806B1; DE69811310D1; EP0911806A2; CA2250649A1

Description

Hintergrund

Die vorliegende Erfindung bezieht sich allgemein auf die Spracherkennung. Insbesondere bezieht sie sich auf Spracherkennungsverfahren und Vorrichtungen, die Sprache in störbehafteten Umgebungen abgrenzen.
Die automatische Erkennung der menschlichen Sprache in beliebigen Umgebungen ist eine schwierige Aufgabe. Das Problem ist noch schwieriger, wenn die Erkennung in Echtzeit durchgeführt werden muss, d. h. wenn die Verzögerung zwischen dem Ende der Sprache und der Systemantwort nicht größer ist, als dies der Sprecher in einer typischen Unterhaltung von Menschen erwarten würde.
Eine der Schlüsselkomponenten eines Echtzeit-Spracherkennungssystems ist die Fähigkeit, in zuverlässiger Weise den Anfang und das Ende der Sprache zu erkennen. Obwohl der beste Weg hierfür darin besteht, einen Rückführungspfad von der Spracherkennungseinrichtung selbst vorzusehen, ist dies in Echtzeit unter Verwendung der heutigen Technologie nicht realisierbar. Weil die Rückführung keine gangbare Möglichkeit darstellt, besteht eine Notwendigkeit für Verfahren, und Vorrichtungen zur Bestimmung des Anfangs und des Endes der Sprache in einer hinsichtlich des Rechenaufwandes effizienten Weise.
Die Endpunktbestimmung ist eine Technik, die den Anfang und das Ende von Sprache abgrenzt. Die Endpunktbestimmung ist jedoch schwierig, wenn die Sprache über ein Telefonnetz erfasst wird, weil hierbei Systemstörungen auftreten. Zusätzlich trägt die Vielzahl der Betriebsarten und Umgebungen, in denen übliche sowie zellulare, schnurlose und Freihand-Telekommunikationsgeräte verwendet werden, zu der Herausforderung bei.
Die Hauptschwierigkeit in jedem Telekommunikationssystem besteht in den Hintergrundstörungen einer Telefonverbindung. Die Hintergrundstörungen können sich aufgrund einer Vielzahl von Erscheinungen ergeben, unter Einschluss von Kraftfahrzeugen, Menschenmengen, Musik und anderen Sprechern. Weiterhin kann sich die Intensität dieser Hintergrundstörungen dauernd ändern und es ist unmöglich, sie genau vorherzusagen.
Derzeit beruhen Telefonnetz-Echtzeit-Spracherkennungssystem-Endpunktbestimmungseinrichtungen hauptsächlich auf der Energie in dem empfangenen Signal, das die Sprache und die Hintergrundstörungen einschließt. Sie können auch andere Statistiken verwenden, die von dem empfangenen Signal abgeleitet werden, unter Einschluss von Nulldurchgängen. Hinsichtlich weiterer Informationen über Nulldurchgänge, siehe US-Patent 5 598 466, das am 28. Februar 1997 auf den Namen von David L. Graumann erteilt wurde, oder hinsichtlich der Energievarianz, siehe beispielsweise die Information hinsichtlich der Energievarianz in dem US- Patent 5 323 337, das auf den Namen von Denis L. Wilson et al. am 21. Juni 1994 erteilt wurde. Die Endpunkt-Statistik wird einer Maschine mit endlichen Zuständen zugeführt, die den Anfang und das Ende der Sprache auf der Grundlage einer Anzahl von Schwellenwerten und Zeitabläufen bestimmt. Ein Beispiel, wie eine derartige Zustandsmaschine arbeitet, ist in Fig. 1 angegeben.
Fig. 1 ist ein Ablaufdiagramm, das die Betriebsweise einer Maschine endlicher Zustände zeigt. Zunächst empfängt die Maschine endlicher Zustände eine Endpunkt-Statistik (Schritt 102). Als nächstes bestimmt die Zustandsmaschine, ob die derzeitige Statistik einen ersten Schwellenwert für eine erste vorgegebene Zeitdauer (erster Zeitablauf) (Schritt 104) überschreitet. Wenn der Bestimmungsschritt negativ ist, so werden die Schritte 102 und 104 wiederholt. Wenn die Bestimmung positiv ist, so identifiziert die Zustandsmaschine den Anfang der Sprache (Schritt 106). Die Zustandsmaschine tritt dann in den Sprachezustand (Schritt 108) ein. Während sie sich im Sprachezustand befindet, bestimmt die Zustandsmaschine, ob die Statistik unter einen zweiten Schwellenwert für ein zweites vorgegebenes Ausmaß an Zeit (Schritt 110) absinkt. Wenn die Bestimmung negativ ist, so werden die Schritte 108 und 110 wiederholt. Wenn die Bestimmung positiv ist, so tritt die Zustandsmaschine in einen probeweisen Stillezustand ein (Schritt 112). Während des probeweisen Stillezustandes bestimmt die Zustandsmaschine, ob die Statistik den ersten Schwellenwert für das erste vorgegebene Ausmaß an Zeit übersteigt. Wenn die Bestimmung positiv ist, so kehrt die Zustandsmaschine in den Sprachezustand zurück, Schritt 108. Wenn die Bestimmung negativ ist, so bestimmt die Maschine endlicher Zustände, ob die Statistik unter den ersten Schwellenwert für ein drittes vorgegebenes Ausmaß an Zeit geblieben ist (Schritt 116). Wenn die Bestimmung negativ ist, so werden die Schritte 112 bis 116 wiederholt. Schließlich identifiziert, wenn die Bestimmung positiv ist, die Zustandsmaschine das Ende der Sprache (Schritt 118). Somit führt das Spracherkennungssystem eine Erkennung lediglich an dem Teil des Eingangssignals zwischen dem Anfang der Sprache und dem Ende der Sprache aus (d. h., während sich die Zustandsmaschine in dem Sprachezustand befindet).
Typischerweise verringert sich die Wirksamkeit eines Endzeigers, wenn die Intensität der Hintergrundstörungen ansteigt. Laute Hintergrundstörungen können bewirken, dass der Endzeiger einen Spracheanfang zu früh signalisiert oder die Feststellung des Endes der Sprache verzögert. Der letzte Zustand kann für das Betriebsverhalten eines Echtzeit-Spracherkennungssystems ziemlich schädlich sein. Es ist klar zu erkennen, dass der Endzeiger eine gewisse Anpassung erfordert, um den Hintergrund zu kompensieren. Es würde daher wünschenswert sein, einen Endzeiger zu schaffen, der das eingegebene Signal in Echtzeit vorverarbeitet, so dass eine Vordergrund-Spracheabgrenzung unter Verwendung eines einen festen Schwellenwert aufweisenden Endpunkt-Bildungsverfahrens weniger gegenüber Hintergrundstörungen empfindlich ist.

Zusammenfassung der Erfindung

Vorzugsweise führen Verfahren und Vorrichtungen gemäß der Erfindung eine Vorverarbeitung eines Kanalenergiesignals aus, um eine Spektralstationaritäts- Statistik auszubilden, die ein Endzeiger zur Abgrenzung von Sprache verwenden kann. Die Spektralstationaritäts-Statistik ermöglicht es einem Endzeiger, sich mit weniger Empfindlichkeit gegenüber Hintergrundrauschen zu verhalten.
Um die Vorteile der Erfindung zu erzielen und gemäß der Erfindung, wie sie hier verwirklicht und allgemein beschrieben wird, ergibt ein erster Gesichtspunkt der Erfindung ein Verfahren zur Verarbeitung von Daten, wie es im beigefügten Anspruch 1 angegeben ist.
Vorzugsweise extrahiert der Extrahierungsschritt ein Kanalenergiesignal.
Vorzugsweise umfasst das Verfahren weiterhin den Schritt einer Hintergrund- Normalisierung auf der Proben-Standardabweichung.
Vorzugsweise schließt die Erzeugung des Maskensignals die Teilschritte der Speicherung eines vorhergehenden Maskensignals und die Erzeugung des Maskensignals aus dem Kanalsignal und dem gespeicherten vorhergehenden Maskensignal ein.
Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes.
Vorzugsweise schließt der Schritt der Erzeugung des Maskensignals den Teilschritt des Ausgleichs der Abstände zwischen dem berechneten hohen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal und zwischen dem berechneten niedrigen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal ein.
Vorzugsweise schließt der Schritt der Maskierung des extrahierten Kanalenergiesignals den Teilschritt des Addierens des erzeugten Maskensignals zu dem extrahierten Kanalenergiesignal ein.
Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Glättung des maskierten Kanalenergiesignals.
Vorzugsweise umfasst der Schritt des Gewinnens der Proben-Standardabweichung die Teilschritte des Speicherns einer Vielzahl von vorher gewonnenen maskierten Signalwerten in einem Puffer, des Ersetzens des am wenigsten aktuellen der Vielzahl von maskierten Signalwerten durch dem aktuellen maskierten Signalwert und des Berechnens der Probenvarianz zwischen der Vielzahl von maskierten Signalwerten, die in dem Puffer gespeichert sind.
Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Bildung einer Quadratwurzel der Varianz.
Vorzugsweise umfasst der Schritt der Durchführung einer Hintergrundnormalisierung die Teilschritte des Filterns des maskierten Kanalenergiesignals zur Erzeugung eines geschätzten Hintergrundsignals und des Subtrahierens des geschätzten Hintergrundsignals von dem maskierten Kanalenergiesignal.
Vorzugsweise umfasst der Schritt des Filterns die Teilschritte des Filterns des maskierten Signals unter Verwendung einer Schätzeinrichtung für den vorhergehenden Hintergrund, des Filterns des maskierten Signals unter Verwendung einer weitergeschalteten Hintergrund-Schätzeinrichtung und der Auswahl des Minimums der gefilterten maskierten Signale als das geschätzte Hintergrundsignal.
Vorzugsweise umfasst das Verfahren weiterhin den Schritt des Transformierens des extrahierten Kanalenergiesignals.
Vorzugsweise schließt der Schritt des Transformierens das Gewinnen eines verallgemeinerten Logarithmus (Wurzel) des extrahierten Kanalenergiesignals ein.
Ein weiterer Gesichtspunkt der vorliegenden Erfindung ergibt eine Vorrichtung für ein Spracherkennungssystem, wie es in dem beigefügten Anspruch 15 angegeben ist.
Vorzugsweise extrahieren die Extrahierungseinrichtungen ein Kanalenergiesignal.
Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Durchführung einer Hintergrund-Normalisierung der Proben-Standardabweichung.
Vorzugsweise umfasst die Vorrichtung weiterhin ein Glättungsfilter.
Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes.
Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Erzeugung eines Hintergrund-Schätzwertes und Einrichtungen zum Subtrahieren des Hintergrund- Schätzwertsignals von der Proben-Standardabweichung.
Vorzugsweise umfasst die Einrichtung zur Erzeugung eines Hintergrund- Schätzwertsignals eine Schätzeinrichtung für den vorhergehenden Hintergrund, eine Schätzeinrichtung für den zukünftigen Hintergrund und eine Minimiereinrichtung zur Ausgabe des Minimalwertes der vorhergehenden Hintergrund-Schätzeinrichtung und der zukünftigen Hintergrund-Schätzeinrichtung als ein Hintergrund-Schätzwertsignal.
Wahlweise ergibt das Verfahren ein Verfahren zur Erzeugung eines Quantil- Schätzwertes eines Kanalsignals mit den Schritten der Definition eines Quantil- Schätzwertes, der Initialisierung einer Vielzahl von Puffern, des Empfangs eines Kanalsignals, der Berechnung einer Vielzahl von Unterschieden, der Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden, und die Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden.
Vorzugsweise schließt der Initialisierungsschritt die Teilschritte der Initialisierung eines Oberhalb-Zählers auf Eins und der Initialisierung eines Unterhalb-Zählers auf Eins.
Vorzugsweise schließt der Berechnungsschritt den Teilschritt der Berechnung einer ersten Differenz und einer zweiten Differenz ein, wobei die erste Differenz gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, während die zweite Differenz gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist.
Vorzugsweise schließt der Definitionsschritt die Teilschritte des Empfangs einer Vielzahl von Hintergrundsignalen, die Bezeichnung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen, das Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem höheren Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigeren Signals ist, wobei der Quantil-Schätzwert gleich dem mittleren Signal ist, und Ausbilden eines Quantil-Verhältnisses ein.
Vorzugsweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, die Einrichtungen zur Definition eines anfänglichen Quantil-Schätzwertes, Einrichtungen zur Initialisierung einer Vielzahl von Puffern, Einrichtungen zum Empfang eines Kanalsignals, Einrichtungen zur Berechnung einer Vielzahl von Unterschieden, Einrichtungen zur Einstellung des Quantil- Schätzwertes auf der Grundlage der Vielzahl von Unterschieden und Einrichtungen zur Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden umfasst.
Vorzugsweise umfassen die Definitionseinrichtungen weiterhin Einrichtungen zum Empfang einer Vielzahl von Hintergrundsignalen, Einrichtungen zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen und Einrichtungen zum Speichern einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem höheren Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigeren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist.
Typischerweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes geschaffen, die eine Vielzahl von Zählern, eine Vielzahl von Puffern, Einrichtungen zur Initialisierung der Vielzahl von Zählern und der Vielzahl von Puffern, wobei die Initialisierungseinrichtung zumindest Einrichtungen zum Speichern des Quantil- Schätzwertes einschließt, Einrichtungen zum Empfang eines Kanalsignals und Einrichtungen zur Kommunikation zwischen der Vielzahl von Zählern und der Vielzahl von Puffern zur Einstellung des Quantil-Schätzwertes auf der Grundlage des empfangenen Kanalsignals umfasst.
Wahlweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes geschaffen, die folgendes umfasst: ein nichtlineares Filter, das zum Empfang eines Energiesignals angekoppelt ist, wobei das nichtlineare Filter mit einem Oberhalb- Ganzzahl-Puffer, einem Unterhalb-Ganzzahl-Puffer und einer Vielzahl von Fließkomma-Puffern in Kommunikation steht; wobei ein erster der Vielzahl von Fließkomma-Puffern mit einem Wert initialisiert wird, wobei ein zweiter der Vielzahl von Fließkomma-Puffern mit einer höheren Begrenzung initialisiert wird, wobei ein dritter der Vielzahl von Fließkomma-Puffern mit einer unteren Begrenzung initialisiert wird, wobei ein vierter der Vielzahl von Fließkomma-Puffern mit einem Maximum initialisiert wird, wobei ein fünfter der Vielzahl von Fließkomma-Puffern mit einem Minimum initialisiert wird; Einrichtungen zum Weiterschalten des Oberhalb-Ganzzahl-Puffers, um Eins, wenn das empfangene Energiesignal größer als der oder gleich dem Wert ist; Einrichtungen zum Weiterschalten des Unterhalb- Ganzzahl-Puffers um Eins, wenn das empfangene Energiesignal kleiner als der Wert ist; Einrichtungen zur Berechnung eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Ganzzahl-Puffers dividiert durch den Unterhalb-Ganzzahl- Puffer ist, wobei die zweite Differenz gleich dem Wert abzüglich des Energiesignals ist; Einrichtungen zur Einstellung des Wertes durch die höhere Begrenzung oder den zweiten Unterschied, welche(r) kleiner ist, wenn der erste Unterschied und der zweite Unterschied positiv sind, und die untere Begrenzung oder einen Absolutwert der zweiten Differenz, welche(r) kleiner ist, wenn die erste Differenz und die zweite Differenz positiv sind; und Einrichtungen zur Ausgabe des Wertes als den Quantil- Schätzwert.
Vorzugsweise wird ein Verfahren zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, das die folgenden auf einem Prozessor ausgeführten Schritte umfasst: Bestimmen eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen; Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; und Ausbilden eines Quantil-Verhältnisses, Initialisieren eines Oberhalb-Zählers und eines Unterhalb-Zählers; Empfangen eines Kanalsignals; Berechnen eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich dem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil- Schätzwert abzüglich des Kanalsignals ist, Einstellen des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden; und Weiterschalten der Vielzahl von Zählern auf der Grundlage der Vielzahl von Unterschieden.
Vorzugsweise schließt der Einstellschritt die Teilschritte der Vergrößerung, wenn der erste Unterschied und der zweite Unterschied positiv sind, des Quantil- Schätzwertes um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes und die Vergrößerung des Quantil-Schätzwertes um den kleineren Wert der unteren Begrenzung und eines Absolutwertes der zweiten Differenz ein, wenn der erste Unterschied und der zweite Unterschied negativ sind.
Vorzugsweise schließt der Weiterschalt-Schritt den Teilschritt des Weiterschaltens des Unterhalb-Zählers, wenn der erste Unterschied und der zweite Unterschied positiv sind, des Weiterschaltens des Oberhalb-Zählers, wenn der erste Unterschied und der zweite Unterschied negativ sind, der Vergrößerung des Unterhalb-Zählers, wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist, und der Vergrößerung des Oberhalb-Zählers ein, wenn der erste Unterschied negativ ist und der zweite Unterschied positiv ist.
Typischerweise wird ein Verfahren zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, das die folgenden auf einem Prozessor ausgeführten Schritte umfaßt: Initialisieren eines Unterhalb-Zählers und eines Oberhalb-Zählers; Empfangen von drei Hintergrundsignalen, die als ein hohes Signal, ein niedriges Signal und ein mittleres Signal bezeichnet werden; Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigen Signals ist, wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; Ausbilden eines Quantil-Verhältnisses; Empfangen eines Kanalsignals; Berechnen eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich dem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil- Schätzwert abzüglich des Kanalsignals ist; Vergrößern des Quantil-Schätzwertes um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes, wenn der erste Unterschied und der zweite Unterschied positiv sind, und Weiterschalten des Unterhalb-Zählers; Vergrößern des Quantil-Schätzwertes durch den kleineren Wert der unteren Begrenzung und eines Absolutwertes des zweiten Unterschiedes, wenn die erste Differenz und die zweite Differenz negativ sind, und Weiterschalten des Oberhalb-Zählers; Vergrößern des Unterhalb-Zählers, wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist; Speichern des Absolutwertes des zweiten Unterschiedes als die untere Begrenzung, wenn der Absolutwert des zweiten Unterschiedes kleiner als die untere Begrenzung ist; Vergrößern des Oberhalb-Zählers, wenn der erste Unterschied negativ ist und der zweite Unterschied positiv ist; Speichern des zweiten Unterschiedes als die höhere Begrenzung, wenn der zweite Unterschied kleiner als die höhere Begrenzung ist, und Abrunden der höheren Begrenzung, der unteren Begrenzung und des Quantil- Schätzwertes.
Wahlweise wird ein Computerprogramm-Produkt geschaffen, das ein computernutzbares Medium mit darin verwirklichtem computerlesbarem Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Definitionsmodul, das zur Definition eines Quantil- Schätzwertes konfiguriert ist, ein Initialisierungsmodul, das zur Initialisierung einer Vielzahl von Puffern konfiguriert ist, ein Empfangsmodul, das zum Empfang eines Kanalsignals konfiguriert ist, ein Berechnungsmodul, das zur Berechnung einer Vielzahl von Unterschieden konfiguriert ist, ein Einstellmodul, das zur Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist, und ein Weiterschaltmodul umfasst, das zur Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist.
Vorzugsweise ist das Initialisierungsmodul weiterhin so konfiguriert, dass es einen Oberhalb-Zähler auf Eins und einen Unterhalb-Zähler auf Eins initialisiert.
Vorzugsweise ist das Berechnungsmodul weiterhin so konfiguriert, dass es zumindest einen eines ersten Unterschiedes und eines zweiten Unterschiedes berechnet, wobei der erste Unterschied gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, während der zweite Unterschied gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist.
Vorzugsweise umfasst das Definitionsmodul ein Empfangsmodul, das zum Empfang einer Vielzahl von Hintergrundsignalen konfiguriert ist, ein Bestimmungsmodul, das zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen konfiguriert ist; und ein Speichermodul, das zur Speicherung einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil-Schätzwertes konfiguriert ist, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist.
Typischerweise wird ein Computerprogramm geschaffen, das ein computernutzbares Medium mit einem darin enhaltenen computerlesbaren Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Empfangsmodul, das zum Empfang einer Vielzahl von Hintergrundsignalen konfiguriert ist; ein Bestimmungsmodul, das zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen konfiguriert ist; ein Speichermodul, das zur Speicherung einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil- Schätzwertes konfiguriert ist, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; ein Initialisierungsmodul, das zur Initialisierung einer Vielzahl von Puffern konfiguriert ist; wobei das Empfangsmodul weiterhin zum Empfang eines Kanalsignals konfiguriert ist; ein Berechnungsmodul, das zur Berechnung von zumindest einem eines ersten Unterschiedes und eines zweiten Unterschiedes konfiguriert ist, wobei der erste Unterschied gleich einem Quantil- Verhältnis abzüglich eines Oberhalb-Zählers dividiert durch einen Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist; ein Einstellmodul, das zur Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist; und ein Weiterschaltmodul umfasst, das zur Weiterschaltung des Oberhalb-Zählers und des Unterhalb-Zählers auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist.
Vorzugsweise ist das Einstellmodul weiterhin so konfiguriert, dass es den Quantil- Schätzwert um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes vergrößert, wenn der erste Unterschied und der zweite Unterschied positiv sind, und den Quantil-Schätzwert um den kleineren Wert der unteren Begrenzung und eines Absolutwertes des zweiten Unterschiedes vergrößert, wenn der erste Unterschied und der zweite Unterschied negativ sind.
Vorzugsweise wird ein Computerprogramm-Produkt geschaffen, das ein computernutzbares Medium mit einem darin enthaltenen computerlesbaren Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Extrahiermodul, das zum Extrahieren eines Kanalenergiesignals konfiguriert ist; ein Maskenerzeugungsmodul, das zur Erzeugung eines Maskensignals aus dem Kanalenergiesignal konfiguriert ist, ein Maskierungsmodul, das zur Maskierung des extrahierten Kanalenergiesignals mit dem erzeugten Maskensignal konfiguriert ist, und ein Standardabweichungs-Modul umfasst, das zur Gewinnung einer Proben-Standardabweichung des maskierten extrahierten Kanalenergiesignals über ein zeitliches Fenster konfiguriert ist.
Vorzugsweise umfasst das Computerprogramm-Produkt weiterhin ein Hintergrund- Normalisierungsmodul, das zur Durchführung eines Hintergrund-Normalisierung an der Proben-Standardabweichung konfiguriert ist.
Vorzugsweise umfasst das Computerprogramm-Produkt weiterhin ein Berechnungsmodul, das zur Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes konfiguriert ist.
Es ist verständlich, dass sowohl die vorstehende allgemeine Beschreibung als auch die nachfolgende ausführliche Beschreibung beispielhaft und erläuternd sind und zur Bereitstellung einer weiteren Erläuterung der beanspruchten Erfindung bestimmt sind.

Kurze Beschreibung der Zeichnungen

Die beigefügten Zeichnungen, die in diese Beschreibung eingefügt sind und einen Bestandteil dieser Beschreibung bilden, erläutern bevorzugte Ausführungsformen der Erfindung und erläutern zusammen mit der Beschreibung die Ziele, Vorteile und Prinzipien der Erfindung. In den Zeichnungen sind:
Fig. 1 ein Ablaufdiagramm, das eine bekannte Sprachsignal- Endpunktbildung erläutert;
Fig. 2 ein Ablaufdiagramm, das ein Verfahren zur Vorverarbeitung eines störbehafteten Signals gemäß der vorliegenden Erfindung erläutert,
Fig. 3 ein Blockschaltbild eines Endpunktbildungs-Vorprozessors gemäß der vorliegenden Erfindung;
Fig. 4 ein Blockschaltbild der Quantil-Schätzeinrichtung nach Fig. 3;
Fig. 5 ein Ablaufdiagramm, das ein Verfahren zur Berechnung von Quantil- Schätzwerten gemäß der vorliegenden Erfindung erläutert, und
Fig. 6 eine grafische Darstellung der hohen und niedrigen Quantil- Schätzwerte bezüglich der Kanalenergie,
Fig. 7 ein Blockschaltbild der Proben-Abweichungs-Schätzeinrichtung nach Fig. 3.
Gleiche Bezugsziffern beziehen sich in den verschiedenen Figuren der Zeichnungen auf entsprechende Teile.

Beschreibung der bevorzugten Ausführungsform

Es wird nunmehr im einzelnen auf die derzeit bevorzugten Ausführungsformen der Erfindung Bezug genommen, von denen Beispiele in den beigefügten Zeichnungen gezeigt sind. Alles was in der nachfolgenden Beschreibung enthalten oder in den beigefügten Zeichnungen gezeigt ist, soll als erläuternd und nicht beschränkend interpretiert werden.
Verfahren und Vorrichtung gemäß dieser Erfindung ergeben eine verbesserte Vordergrund-Sprachsignal-Endpunktbildung. Um die Endpunktbildung zu verbessern, wird eine Spektralstationaritäts-Statistik ("s³") berechnet. Die Statistik s³ ist robuster gegenüber dem Hintergrundrauschen als üblichere Messungen. Zusätzlich kann die Statistik s³ noch unempfindlicher gegen veränderliche Hintergrundstörungen gemacht werden, indem eine Hintergrundnormalisierung verwendet wird.
Fig. 2 ist ein Ablaufdiagramm, das ein Verfahren zur Vorverarbeitung eines empfangenen störbehafteten Signals zeigt, um die Statistik s³ für jeden Rahmen in Übereinstimmung mit der vorliegenden Erfindung zu erzeugen. Ein Rahmen umfaßt eine Serie von digitalen Abtastproben des störbehafteten Signals über eine vorgegebene Zeitdauer. Zunächst empfängt ein Endpunkt-Vorprozessor ein störbehaftetes Signal, das Vordergrund-Sprache einschließt (Schritt 202). Wie sie in dieser Anwendung verwendet wird, bezieht sich die Bezeichnung Vordergrund- Sprache auf den Teil des Eingangssignals, der von dem Spracherkennungssystem erkannt werden soll. Als nächstes extrahiert der Endpunkt-Vorprozessor unter Verwendung üblicher Techniken ein Kanalenergiesignal aus dem empfangenen störbehafteten Signal (Schritt 204). Aus Gründen der Einfachheit bezieht sich Fig. 2 lediglich auf einen einzigen Aufzeichnungskanal, doch werden mehrfache Aufzeichnungskanäle bevorzugt (d. h. 2, 3, 5, 20 oder mehr Kanäle). Wie dies weiter unten ausführlich erläutert wird, berechnet der Endpunkt-Vorprozessor dann sowohl einen hohen als auch einen niedrigen Quantil-Schätzwert der Kanalenergie (Schritt 206). Unter Verwendung der Quantil-Schätzwerte zur Erzeugung eines Maskensignals wird das störbehaftete Signal mit dem Maskensignal unter Verwendung eines Signal-/Rausch-Verhältnis- (SNR-) Normalisierungsverfahrens (Schritt 208) maskiert. Schließlich gewinnt der Endpunkt-Vorprozessor eine Proben- Standardabweichung des maskierten Signals über ein Zeitfenster (Schritt 210). Die Maschine endlicher Zustände verwendet dann die Proben-Standardabweichung, d. h. die Statistik s³ in üblicher Weise zur Erzeugung der Vordergrund-Sprache- Endpunkte (Schritt 212).
Fig. 3 ist ein Blockschaltbild eines Endpunkt-Vorprozessors ("PEP") 300 gemäß der vorliegenden Erfindung. Der PEP 300 schließt eine Energieextrahiereinrichtung 302, einen Energie-Wurzeltransformator 304, eine Quantil-Abschätzeinrichtung 306, eine Maskierungseinrichtung 308, ein Glättungsfilter 310, einen Probenabweichungs-Prozessor 312, zwei parallele lineare Filter 314 und 316, einen Minimierer 318 und einen Summierer 320 ein. Wie dies in Fig. 3 zu erkennen ist, wird jedes Aufzeichnungskanalsignal in den PEP 300 eingegeben und von der Energieextrahiereinrichtung 302 empfangen. Die Energieextrahiereinrichtung 302 gibt ein extrahiertes Kanalenergiesignal an den Energie-Wurzeltransformator 304 und an die Maskiereinrichtung 308 ab. Der Energie-Wurzeltransformator 304 führt eine nicht-lineare Wurzeltransformation an dem extrahierten Kanalenergiesignal aus und gibt ein transformiertes Signal an die Quantil-Abschätzeinrichtung 306 ab, die hohe und niedrige Quantil-Schätzwerte für das transformierte Energiesignal berechnet. Die Maskierungseinrichtung 308 verwendet die Quantil-Abschätzsignale zur Erzeugung eines Maskierungssignals und zur Durchführung einer SNR- Normalisierung des Kanalenergiesignals aus, das von der Energieextrahiereinrichtung 302 abgegeben wird (d. h. sie addiert das Maskierungssignal zu dem Kanalenergiesignal). Zusätzlich hat die Maskierungseinrichtung 308 einen (nicht gezeigten) Speicher, der ihr zugeordnet ist, um das derzeitige Maskierungssignal zur Verwendung bei der Berechnung des nächsten Maskierungssignals zu speichern. Das maskierte Kanalenergiesignal wird über ein Glättungsfilter 310 zu dem Probenabweichungsprozessor 312 gesandt, der eine Probenabweichung des maskierten Kanalenergiesignals über ein zeitliches Fenster gewinnt, wie dies weiter unten ausführlicher erläutert wird. Das Probenabweichungssignal durchläuft zwei parallele lineare Filter 314 und 316 zum Minimierer 318. Der Minimierer 318 gibt das kleinere der beiden Filter-Ausgangssignale an den Summierer 320 ab, und der Summierer 320 subtrahiert das Ausgangssignal des Minimierers 318 von dem Probenabweichungssignal, um die Statistik s³ zu erzeugen. Schließlich wird die Statistik s³ an die Maschine endlicher Zustände abgegeben, die in Fig. 1 verwirklicht ist. Die Zustandsmaschine verwendet die Statistik s³ in üblicher Weise, um die Vordergrund-Sprache-Endpunkte zu bestimmen. Bei einer Ausführungsform sind der PEP 300 und seine zugehörigen Bauteile in Software realisiert, die von einem Prozessor eines (nicht gezeigten) Hauptrechners ausgeführt wird. Bei anderen Ausführungsformen ist der PEP 300 in Schaltungshardware oder in einer Kombination von Hardware und Software realisiert. Bei Realisierung in Software ist eine bevorzugte Betriebsumgebung eine Betriebsumgebung auf der Grundlage der Sprache C.
Ein Fachmann würde nunmehr erkennen, dass die Kanalenergiesignale, die zur Berechnung der Statistik s³ verwendet werden, in der Leistungsdomäne liegen. Diese Energiesignale können sich über einen großen Bereich ändern. Der große Bereich, über die die Kanalenergiesignale vorliegen, macht es schwierig, die hohen und niedrigen Quantil-Schätzwerte des Kanalenergiesignals zu gewinnen. Der Energie-Wurzeltransformator 304 führt daher eine übliche nicht-lineare Transformation (Gl. 1) an dem Kanalenergiesignal aus, um ein Wurzel- Kanalenergiesignal ("RCE") zu gewinnen. Die einzige Forderung dieser üblichen Umwandlung besteht darin, daß der "Wurzel"-Operator γ derart vordefiniert ist, dass, wenn sich y 0 nähert, RCE sich log CE nähert, worin CE das Kanalenergiesignal ist. Dies wirkt im Sinne einer Komprimierung des Bereiches der tatsächlichen Kanalenergien.
Wurzel (CE,γ) ist als RCE = 1/γ·(CEγ - 1) definiert (Gl. 1)
Fig. 4 ist ein Blockschaltbild einer Quantil-Abschätzeinrichtung 306. Für jedes RCE umfaßt die Quantil-Abschätzeinrichtung 306 zwei nichtlineare Filter 402 und 404, zwei Oberhalb-Ganzzahl-Puffer (Zähler) 406 und 410, zwei Unterhalb-Ganzzahl- Puffer 408 und 412 (Zähler) und acht Fließkomma-Puffer 414, 416, 418, 420, 422, 424, 426 und 428. Wie dies aus Fig. 4 zu erkennen ist, empfängt die Quantil- Abschätzeinrichtung 206 das RCE an den nichtlinearen Filtern 402 und 404. Das nichtlineare Filter 402 steht mit den Oberhalb- und Unterhalb-Ganzzahl-Puffern 40 und 408 in Verbindung, und die Fließkomma-Puffer 414, 416 und 418 erzeugen den hohen Quantil-Schätzwert ("HQE"). Das nichtlineare Filter 404 steht mit dem Oberhalb- und Unterhalb-Ganzzahl-Puffern 410 und 412 und den Fließkomma- Puffern 424, 426 und 428 in Verbindung, um den niedrigen Quantil-Schätzwert ("LQE") zu erzeugen.
Fig. 5 ist ein Ablaufdiagramm, das zeigt, wie die Quantil-Abschätzeinrichtung 306 den HQE berechnet. Zunächst werden der Oberhalb-Ganzzahl-Puffer 406 und der Unterhalb-Ganzzahl-Puffer 408 auf einen Wert von Eins initialisiert (Schritt 502). Fließkomma-Puffer 414, 416 und 418 werden dadurch initialisiert, dass beispielsweise drei Rahmen von Kanalenergiesignalen vor dem Beginn irgendeiner Vordergrund-Sprache empfangen werden (Schritt 504). Diese drei Rahmen werden als ein höchstes, ein mittleres und ein niedrigstes Kanalenergiesignal klassifiziert. Die Quantil-Abschätzeinrichtung 306 speichert das höchste Kanalenergiesignal abzüglich des mittleren Kanalenergiesignals in dem Fließkomma-Puffer 414 als eine obere Begrenzung, das mittlere Kanalenergiesignal abzüglich des niedrigsten Kanalenergiesignals im Fließkomma-Puffer 416 als eine untere Begrenzung, und das mittlere Kanalenergiesignal in dem Fließkomma-Puffer 418 als einen anfänglichen HQE (Schritt 506). Die Quantil-Abschätzeinrichtung 306 verwendet einen Oberhalb-Ganzzahl-Puffer 406 zum Zählen der Anzahl von Kanalenergien, die oberhalb des HQE liegen, und einen einen Unterhalb-Ganzzahl-Puffer 408 zum Zählen der Anzahl von Kanalenergien, die unterhalb des HQE liegen. Der Zählprozeß wird nachfolgend in den Schritten 508 bis 538 beschrieben. Weil die mittlere Kanalenergie auf HQE eingestellt ist, werden die Oberhalb- und Unterhalb- Ganzzahl-Puffer 406 und 408 auf einen Wert von Eins gesetzt, was anzeigt, dass ein Kanalenergiesignal oberhalb des HQE liegt, und dass ein Kanalenergiesignal unterhalb des HQE liegt. Sobald der Initialisierungsabschnitt abgeschlossen ist, läuft die Quantil-Abschätzeinrichtung in eingeschwungenem Zustand. Obwohl die Schritte 508 bis 538 als die eine diskrete Serie von Schritten gezeigt sind, ist im eingeschwungenen Zustand der Prozess von kontinuierlicher Art.
Im eingeschwungenen Zustand empfängt die Quantil-Abschätzeinrichtung 306 kontinuierlich Wurzel-Kanalenergiesignale (Schritt S08). Der HQE-Ausgang von der Quantil-Abschätzeinrichtung 306 hängt von zwei Unterschieden ab. Der erste Unterschied ist das Quantil-Zielverhältnis, das von dem Verhältnis zwischen dem Oberhalb-Ganzzahl-Puffer 406 und dem Unterhalb-Ganzzahl-Puffer 408 subtrahiert wird (Schritt 510). Das Quantil-Zielverhältnis wird von einer vorgegebenen Quantil- Spezifikation bestimmt. Wenn beispielsweise die Quantil-Spezifikation 50% ist, so würde das Zielverhältnis gleich Eins sein (d. h. für jede Abtastprobe oberhalb des Schätzwertes sollte eine unterhalb dieses Schätzwertes liegen). Wenn die Quantil- Spezifikation 90% sein würde, so würde das Zielverhältnis 1 : 9 sein.
Der zweite Unterschied ist der vorhergehende, in dem Fließkomma-Puffer 418 gespeicherte Quantil-Schätzwert subtrahiert von der aktuellen im Filter 402 gespeicherten Kanalenergie-Abtastprobe (Schritt 512). Wenn beide Unterschiede positiv sind (Schritt 514) so wird der Quantil-Schätzwert durch die höhere Begrenzung, die in dem Fließkomma-Puffer 414 gespeichert ist, oder den zweiten Unterschied (Schritt 516), je nachdem, welche(r) kleiner ist, vergrößert, und der Unterhalb-Ganzzahl-Puffer 408 wird weitergeschaltet (Schritt 518). In ähnlicher Weise wird, wenn beide Unterschiede negativ sind (Schritt 520) der Quantil-Schätzwert, der in dem Fließkomma-Puffer 418 gespeichert ist, um die untere Begrenzung, die in dem Fließkomma-Puffer 416 gespeichert ist, oder den Absolutwert des zweiten Unterschiedes (Schritt 522), je nachdem welche(r) kleiner ist, verringert, und der Oberhalb-Ganzzahl-Puffer 406 wird weitergeschaltet (Schritt 524).
Wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist (Schritt 526), so wird der Unterhalb-Ganzzahl-Puffer 408 weitergeschaltet (Schritt 528). Wenn der zweite Unterschied positiv und der erste Unterschied negativ ist (Schritt 530), so wird der Oberhalb-Ganzzahl-Puffer weitergeschaltet (Schritt 532). Weiterhin wird, wenn der zweite Unterschied negativ ist und der Absolutwert des zweiten Unterschiedes kleiner als die in dem Fließkomma-Puffer 416 gespeicherte untere Begrenzung ist, der zweite Unterschied in dem Fließkomma-Puffer 416 als neue untere Begrenzung gespeichert (Schritt 534). Zusätzlich wird, wenn der zweite Unterschied positiv ist und der zweite Unterschied kleiner als die derzeit in dem Fließkomma-Puffer 414 gespeicherte höhere Begrenzung ist, der zweite Unterschied in dem Fließkomma-Puffer 414 als die neue höhere Begrenzung (Schritt 536) gespeichert. Nach allen diesen Tests und Einstellungen werden die Fließkomma-Puffer 414 und 416 festgelegt, so dass sie nicht mehr verschwinden können (Schritt 538). Die Schritte 508 bis 538 werden so lange wiederholt, wie die Zustandsmaschine online ist. Der LQE wird in einer ähnlichen Weise bestimmt, wie die vorstehend angegebene Bestimmung von HQE. In der bevorzugten Ausführungsform dieser Erfindung ist der HQE eine Quantil-Abschätzeinrichtung mit einer Quantil-Spezifikation von 90%, d. h. einem Zielverhältnis von 1 : 9, und der LQE ist eine Quantil-Abschätzeinrichtung mit einer Quantil-Spezifikation von 10%, d. h. einem Zielverhältnis von 9 : 1.
Die verbleibenden zwei Fließkomma-Puffer 420 und 422, die für HQE und LQE gemeinsam genutzt werden, werden zum Speichern der Maxima und Minima der Kanalenergie verwendet. Die absoluten Unterschiede zwischen diesen Werten und dem Quantil-Schätzwert werden zur Regelung der Begrenzung verwendet. Bei der bevorzugten Ausführungsform dieser Erfindung ist die Abrundung an den höheren Begrenzungen, die in den Fließkomma-Puffern 414 und 424 gespeichert sind, ein Viertel des Verhältnisses zwischen dem Unterschied des in dem Fließkomma-Puffer 420 gespeicherten Maximums und den Quantil-Schätzwerten, die in den Fließkomma-Puffern 418 und 428 und den Oberhalb-Ganzzahl-Puffern 406 und 410 gespeichert sind. In ähnlicher Weise ist die Abrundung an der unteren Begrenzung, die in dem Fließkomma-Puffer 416 und 424 gespeichert ist, ein Viertel des Verhältnisses zwischen dem Unterschied der zwischen dem Quantil-Abschätzwert, der in den Fließkomma-Puffern 418 und 428 gespeichert ist, und dem Minimum, das in dem Fließkomma-Puffer 422 und den Unterhalb-Ganzzahl-Puffern 408 und 412 gespeichert ist.
Fig. 6 ist eine grafische Darstellung eines Kanalenergiesignals und der HQE und LQE, die aus dem Kanalenergiesignal erzeugt werden. Wie dies in Fig. 6 zu erkennen ist, werden HQE und LQE für jeden Rahmen teilweise in Abhängigkeit davon eingestellt, was die Quantil-Abschätzwerte für den unmittelbar vorhergehenden Rahmen gewesen sein sollten. Ein Fachmann wird nunmehr erkennen, dass die Quantil-Abschätzeinrichtung viele Anwendungen hat, von denen eine vorstehend umrissen wurde.
Nachdem diese Werte erzeugt wurden, verwendet die Maskierungseinrichtung 308 HQE und LQE zur Erzeugung eines Maskensignals in einer Weise analog zu (Gl. 2):
worin ut gleich dem Maskensignal ist und Target gleich einem vorgegebenen Schwellenwert ist. Vorzugsweise wird Target (Ziel) so eingestellt, dass der Abstand zwischen den hohen und niedrigen Quantil-Schätzwerten und der Kanalenergie gleich ist. Nicht nur HQE und LQE beeinflussen ut, sondern ut hängt auch von einem vorher berechneten Wert von ut-1 ab, worin ut gleich dem momentanen Maskensignal ist und ut-1 gleich dem vorhergehend berechneten Maskensignal ist (Gl. 3),
worin β ein voreingestellter "Vergesslichkeits"-Faktor nahezu jedoch kleiner als Eins ist und umin eine untere Begrenzung für das Maskensignal nahezu gleich oder gleich Null ist.
Die Maskierungseinrichtung 308 addiert das Maskensignal ut zu dem extrahierten Kanalenergiesignal, um ein maskiertes Kanalenergiesignal ("MCES") (GI. 4) zu gewinnen:
Hinsichtlich weiterer Informationen bezüglich der SNR-Normalisierung siehe Tom Claes und Dirk Van Compernolle, "SNR-Normalisation for Robust Speech Recognition", ICASSP 96, Seiten 331-334, 1996 ("Claes"). Obwohl Claes das allgemeine SNR-Normalisierungsverfahren beschreibt, sind Maskensignale gemäß der vorliegenden Erfindung erheblich hiervon verschieden. Die SNR-Normalisierung bei Claes führt beispielsweise eine vorhergesagte Schätzung des Maskensignals durch Verfolgen der Maxima und Minima des momentanen SNR aus. Im Gegensatz hierzu verwenden Verfahren gemäß der vorliegenden Erfindung eine Quantil- Näherung, oder deren Äquivalent, um das Ziel-Maskensignal zu erzeugen. Somit bestimmen statt eines vorhergesagten Schätzwertes des Maskensignals Verfahren gemäß der vorliegenden Erfindung, was das Maskensignal für den vorhergehenden Rahmen gewesen sein sollte und stellen entsprechend das momentane Maskensignal ein.
Das MCES wird über ein Glättungsfilter 310, das ein übliches FIR-Glättungsfilter mit drei Anzapfungen ist, dem Probenabweichungs-Prozessor 312 zugeführt. Fig. 7 ist ein Blockschaltbild eines Probenabweichungs-Prozessors 312. Der Probenabweichungs-Prozessor 312 umfaßt ein Verzögerungs-Schieberegister 702, einen Varianz-Rechner 704, und einen Quadratwurzel-Rechner 706. Das Verzögerungs-Schieberegister 702 weist sieben Registerschlitze 702&sub1;&submin;&sub7; auf. Das momentane MCES wird in dem Registerschlitz 702, eingegeben, die Inhalte der Registerschlitze 702&sub1;&submin;&sub6; werden um einen Registerschlitz verschoben (d. h. der Inhalt von 702&sub1; wird nach 7022 übertragen, usw.), und der Inhalt des Registerschlitzes 702&sub7; wird verworfen. Somit speichert jeder Registerschlitz 702&sub1;&submin;&sub7; ein zugehöriges MCES&sub1;&submin;&sub7;. Der Varianz-Rechner 704 berechnet die Varianz zwischen den in dem Verzögerungs-Schieberegister 702 gespeicherten MCES's, und der Quadratwurzel- Rechner 706 rechnet die Quadratwurzel der Varianz (Gl. 5) wobei der Ausgang die Proben-Standardabweichung über das Zeitfenster ("SDTW") ist.
SDTW = ((1/6) (Σ(MCESk)² - (1/7) (ΣMCESk)²]}1/2 Gl. 5
Hinsichtlich weiterer Informationen siehe die US-Patente 5 579 431 und 5 617 508, die auf den Namen von Benjamin K. Reaves am 26. November 1997 bzw. am 1. April 1997 erteilt wurden. Ein Probenabweichungs-Prozessor kann die Varianz über irgendeine Anzahl von gespeicherten MCES's berechnen, doch ist die Verwendung des derzeitigen Wertes und der sechs vorhergehenden Werte befriedigend. Vorzugsweise wird die SDTW für den Energiesignalpegel jedes Aufzeichnungskanals berechnet. Der Probenabweichungs-Prozessor 312 kombiniert die SDTW's in eine "rahmensynchrone skalare Statistik". Dieser kombinierte Prozess schließt die Entwicklung einer gemittelten SDTW und einer bewerteten gemittelten SDTW ein. Unter der Annahme von zwanzig Aufzeichnungskanälen ergibt sich die mittlere SDTW einfach durch Addieren jeder der zwanzig SDTW und durch Dividieren durch zwanzig (GI. 6), worin i der Aufzeichnungskanal ist.
Mittlere SDTW = ( SDTWi)/20 Gl. 6
Die bewertete mittlere SDTW kann sich in Abhängigkeit von der Anwendung ändern, erteilt jedoch den eine höhere Frequenz aufweisenden Kanälen eine größere Bedeutung. Die bewertete mittlere SDTW wird dadurch bestimmt, dass jedem Kanal ein Wertigkeitsfaktor (WF) zugeordnet und die SDTW für jeden Kanal mit WF multipliziert wird. Die Summe aller WF's ist gleich zwanzig. Die wertigkeitsabgeglichenen SDTW's werden summiert und durch zwanzig dividiert (Gl. 7).
Bewertete mittlere SDTW = (Σ(W F&sub1;)(SDTWi))/20 Gl. 7
Die rahmensynchrone skalare Statistik ist die größere der bewerteten mittleren SDTW und der mittleren SDTW. Obwohl es vorzuziehen ist, zwanzig Aufzeichnungskanäle zu haben, könnten mehr oder weniger in Abhängigkeit von den Systemeigenschaften verwendet werden.
Die rahmensynchrone skalare Statistik könnte von dem Endzeiger verwendet werden, um Sprache in üblicher Weise abzugrenzen. Es wird jedoch bevorzugt, eine Hintergrundnormalisierung auf die rahmensynchrone skalare Statistik anzuwenden. Eine Hintergrundnormalisierung umfasst das Filtern der rahmensynchronen skalaren Statistik unter Verwendung von getrennten und parallelen linearen Filtern 314 und 316 (Fig. 3). Das Filter 314 ist ein übliches einpoliges Filter mit einer voreingestellten Anzahl von Rahmenverzögerungen, d. h. einer Abschätzeinrichtung für den vorhergehenden Hintergrund. Das Filter 316 ist ein übliches nicht-kausales, ein rechtwinkliges Impulsansprechverhalten aufweisendes FIR-Filter, das eine voreingestellte Anzahl von Rahmen in der Zukunft abschätzt, d. h. eine Abschätzeinrichtung für den zukünftigen Hintergrund. Vorzugsweise ist die Anzahl von Rahmen, um die die Filter 314 und 316 von dem derzeitigen Rahmen abweichen, gleich. Eine angemessene Hintergrundnormalisierung kann mit einer Abweichung von drei Rahmen erzielt werden. Hinsichtlich weiterer Informationen hinsichtlich des Hintergrundnormalisierungsverfahrens siehe Davies & Knappe "Noise Background Normalization for Simultaneous Broadband and Narrowband Detection", ICASSP 1988, Seiten 2733-36 ("Davies et al. "). Obwohl die vorliegenden Verfahren ähnlich zu Davies et al. sind, sollte ein Fachmann erkennen, dass die Hintergrundnormalisierungsverfahren und Vorrichtungen gemäß der vorliegenden Erfindung modifiziert werden müssen, weil das interessierende Signal weder Breitband- noch Schmalband- Rauschen ist. Eine befriedigende Hintergrundnormalisierung kann jedoch durch Beseitigen des Minimums der Filter 314 und 316 von der rahmensynchronen skalaren Statistik zur Erzielung der Statistik s³ erreicht werden.
Es ist für den Fachmann zu erkennen, dass verschiedene Modifikationen und Abänderungen an den Verfahren und Vorrichtungen gemäß der Erfindung durchgeführt werden können. Weitere Modifikationen sind für den Fachmann aus einer Betrachtung der Beschreibung und der dort beschriebenen praktischen Ausführungsform der Erfindung ersichtlich. Die Beschreibung und die Beispiele sollten lediglich als beispielhaft betrachtet werden. Der Schutzumfang der Erfindung ist lediglich durch die beigefügten Ansprüche beschränkt.
Zusammenfassend ist festzustellen, daß die vorliegende Erfindung eine verbesserte Vordergrundsprache-Signalendpunktbildung durch Berechnen einer spektralen Stationäritätsstatistik ergibt. Diese Statistik wird durch eine Maschine endlicher Zustände zur Festlegung von Endpunkten von Sprache verwendet. Die Bildung von Endpunkten unter Verwendung der spektralen Stationäritätsstatistik ist weniger gegenüber Hintergrundstörungen empfindlich, als die Endpunktbildung unter Verwendung üblicher Maßnahmen. Die vorliegende Erfindung verwendet eine rahmensynchrone Quantil-Abschätzung, um ein Maskensignal für die Signal- /Rausch-Verhältnis-Normalisierung zu erzeugen.

Claims

1. Verfahren zur Verarbeitung von Daten für ein Spracherkennungssystem, das Vordergrund-Sprache bei Vorliegen von Hintergrundstörungen empfangen kann, mit den folgenden Schritten, die durch einen Prozessor ausgeführt werden:

Extrahieren eines Kanalsignals (204) für einen Rahmen;

Erzeugen eines Maskensignals (206) für den Rahmen aus dem Kanalsignal;

Maskieren des extrahierten Kanalsignals (208) mit dem Maskensignal für den Rahmen;

Gewinnen einer Proben-Standardabweichung des maskierten Kanalsignals über ein Zeitfenster; und

Erzeugen von Vordergrund-Sprache-Endpunkten (212) unter Verwendung der Proben-Standardabweichung.

2. Verfahren nach Anspruch 1, bei dem der Extrahierungsschritt ein Kanalenergiesignal extrahiert.

3. Verfahren nach Anspruch 1 oder 2, das weiterhin den Schritt der:

Durchführung einer Hintergrund-Normalisierung der Proben- Standardabweichung umfaßt.

4. Verfahren nach einem der Ansprüche 1-3, bei dem die Erzeugung des Maskensignals die folgenden Teilschritte umfaßt:

Speicher eines vorhergehenden Maskensignals; und

Erzeugen des Maskensignals aus dem Kanalsignal und dem gespeicherten vorhergehenden Maskensignal.

5. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den Schritt der:

Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil- Schätzwertes umfaßt.

6. Verfahren nach Anspruch 5, bei dem der Schritt der Erzeugung des Maskensignals den Teilschritt des:

Ausgleichs der Abstände zwischen dem berechneten hohen Quantil- Schätzwert und dem extrahierten Kanalenergiesignal und zwischen dem berechneten niedrigen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal umfaßt.

7. Verfahren nach Anspruch 2, bei dem der Schritt der Maskierung des extrahierten Kanalenergiesignals den Teilschritt des:

Addierens des erzeugten Maskensignals zu dem extrahierten Kanalenergiesignal umfaßt.

8. Verfahren nach Anspruch 2, das weiterhin den Schritt der:

Glättung des maskierten Kanalenergiesignals umfaßt.

9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt des Gewinnens der Proben-Standardabweichung die Teilschritte des:

Speicherns einer Vielzahl von vorher gewonnenen maskierten Signalwerten in einem Puffer;

Ersetzen des am wenigsten aktuellen der Vielzahl von maskierten Signalwerten mit dem aktuellen maskierten Signalwert; und

Berechnung der Probenvarianz zwischen der Vielzahl von maskierten Signalwerten umfaßt, die in dem Puffer gespeichert sind.

10. Verfahren nach Anspruch 8, das weiterhin den Schritt des:

Gewinnens einer Quadratwurzel der Varianz umfaßt.

11. Verfahren nach Anspruch 3, bei dem der Schritt der Durchführung einer Hintergrundnormalisierung die Teilschritte des:

Filtern des maskierten Kanalenergiesignals zur Erzeugung eines geschätzten Hintergrundsignals; und

Subtrahieren des geschätzten Hintergrundsignals von dem maskierten Kanalenergiesignal umfaßt.

12. Verfahren nach Anspruch 11, bei dem der Schritt des Filterns die Teilschritte des:

Filterns des maskierten Signals unter Verwendung einer Schätzeinrichtung für den vorhergehenden Hintergrund;

Filterns des maskierten Signals unter Verwendung einer weitergeschalteten Hintergrund-Schätzeinrichtung; und

Auswählens des Minimums der gefilterten maskierten Signale als das geschätzte Hintergrundsignal umfaßt.

13. Verfahren nach Anspruch 2, das weiterhin den Schritt des:

Transformierens des extrahierten Kanalenergiesignals umfaßt.

14. Verfahren nach Anspruch 13, bei dem der Transformierungsschritt das Gewinnen eines verallgemeinerten Logarithmus (Wurzel) des extrahierten Kanalenergiesignals einschließt.

15. Vorrichtung für ein Spracherkennungssystem, das in der Lage ist, Vordergrund-Sprache bei Vorliegen von Hintergrundstörungen zu empfangen, mit:

Einrichtungen (302, 304) zum Extrahieren eines Kanalsignals für einen Rahmen;

Einrichtungen (306) zur Erzeugung eines Maskensignals für den Rahmen aus dem Kanalsignal;

Einrichtungen (308) zum Maskieren des extrahierten Kanalsignals unter Verwendung des erzeugten Maskensignals für den Rahmen;

Einrichtungen (312) zum Gewinnen einer Proben-Standardabweichung des maskierten Kanalsignals über ein Zeitfenster; und

Einrichtungen zur Erzeugung von Vordergrund-Sprache-Endpunkten unter Verwendung der Proben-Standardabweichung.