DE69811310T2 - Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen - Google Patents
Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-SprachsignalenInfo
- Publication number
- DE69811310T2 DE69811310T2 DE69811310T DE69811310T DE69811310T2 DE 69811310 T2 DE69811310 T2 DE 69811310T2 DE 69811310 T DE69811310 T DE 69811310T DE 69811310 T DE69811310 T DE 69811310T DE 69811310 T2 DE69811310 T2 DE 69811310T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- channel
- masked
- quantile
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000001514 detection method Methods 0.000 title description 4
- 239000000872 buffer Substances 0.000 claims description 66
- 238000010606 normalization Methods 0.000 claims description 22
- 230000000873 masking effect Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000007667 floating Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Noise Elimination (AREA)
Description
- Die vorliegende Erfindung bezieht sich allgemein auf die Spracherkennung. Insbesondere bezieht sie sich auf Spracherkennungsverfahren und Vorrichtungen, die Sprache in störbehafteten Umgebungen abgrenzen.
- Die automatische Erkennung der menschlichen Sprache in beliebigen Umgebungen ist eine schwierige Aufgabe. Das Problem ist noch schwieriger, wenn die Erkennung in Echtzeit durchgeführt werden muss, d. h. wenn die Verzögerung zwischen dem Ende der Sprache und der Systemantwort nicht größer ist, als dies der Sprecher in einer typischen Unterhaltung von Menschen erwarten würde.
- Eine der Schlüsselkomponenten eines Echtzeit-Spracherkennungssystems ist die Fähigkeit, in zuverlässiger Weise den Anfang und das Ende der Sprache zu erkennen. Obwohl der beste Weg hierfür darin besteht, einen Rückführungspfad von der Spracherkennungseinrichtung selbst vorzusehen, ist dies in Echtzeit unter Verwendung der heutigen Technologie nicht realisierbar. Weil die Rückführung keine gangbare Möglichkeit darstellt, besteht eine Notwendigkeit für Verfahren, und Vorrichtungen zur Bestimmung des Anfangs und des Endes der Sprache in einer hinsichtlich des Rechenaufwandes effizienten Weise.
- Die Endpunktbestimmung ist eine Technik, die den Anfang und das Ende von Sprache abgrenzt. Die Endpunktbestimmung ist jedoch schwierig, wenn die Sprache über ein Telefonnetz erfasst wird, weil hierbei Systemstörungen auftreten. Zusätzlich trägt die Vielzahl der Betriebsarten und Umgebungen, in denen übliche sowie zellulare, schnurlose und Freihand-Telekommunikationsgeräte verwendet werden, zu der Herausforderung bei.
- Die Hauptschwierigkeit in jedem Telekommunikationssystem besteht in den Hintergrundstörungen einer Telefonverbindung. Die Hintergrundstörungen können sich aufgrund einer Vielzahl von Erscheinungen ergeben, unter Einschluss von Kraftfahrzeugen, Menschenmengen, Musik und anderen Sprechern. Weiterhin kann sich die Intensität dieser Hintergrundstörungen dauernd ändern und es ist unmöglich, sie genau vorherzusagen.
- Derzeit beruhen Telefonnetz-Echtzeit-Spracherkennungssystem-Endpunktbestimmungseinrichtungen hauptsächlich auf der Energie in dem empfangenen Signal, das die Sprache und die Hintergrundstörungen einschließt. Sie können auch andere Statistiken verwenden, die von dem empfangenen Signal abgeleitet werden, unter Einschluss von Nulldurchgängen. Hinsichtlich weiterer Informationen über Nulldurchgänge, siehe US-Patent 5 598 466, das am 28. Februar 1997 auf den Namen von David L. Graumann erteilt wurde, oder hinsichtlich der Energievarianz, siehe beispielsweise die Information hinsichtlich der Energievarianz in dem US- Patent 5 323 337, das auf den Namen von Denis L. Wilson et al. am 21. Juni 1994 erteilt wurde. Die Endpunkt-Statistik wird einer Maschine mit endlichen Zuständen zugeführt, die den Anfang und das Ende der Sprache auf der Grundlage einer Anzahl von Schwellenwerten und Zeitabläufen bestimmt. Ein Beispiel, wie eine derartige Zustandsmaschine arbeitet, ist in Fig. 1 angegeben.
- Fig. 1 ist ein Ablaufdiagramm, das die Betriebsweise einer Maschine endlicher Zustände zeigt. Zunächst empfängt die Maschine endlicher Zustände eine Endpunkt-Statistik (Schritt 102). Als nächstes bestimmt die Zustandsmaschine, ob die derzeitige Statistik einen ersten Schwellenwert für eine erste vorgegebene Zeitdauer (erster Zeitablauf) (Schritt 104) überschreitet. Wenn der Bestimmungsschritt negativ ist, so werden die Schritte 102 und 104 wiederholt. Wenn die Bestimmung positiv ist, so identifiziert die Zustandsmaschine den Anfang der Sprache (Schritt 106). Die Zustandsmaschine tritt dann in den Sprachezustand (Schritt 108) ein. Während sie sich im Sprachezustand befindet, bestimmt die Zustandsmaschine, ob die Statistik unter einen zweiten Schwellenwert für ein zweites vorgegebenes Ausmaß an Zeit (Schritt 110) absinkt. Wenn die Bestimmung negativ ist, so werden die Schritte 108 und 110 wiederholt. Wenn die Bestimmung positiv ist, so tritt die Zustandsmaschine in einen probeweisen Stillezustand ein (Schritt 112). Während des probeweisen Stillezustandes bestimmt die Zustandsmaschine, ob die Statistik den ersten Schwellenwert für das erste vorgegebene Ausmaß an Zeit übersteigt. Wenn die Bestimmung positiv ist, so kehrt die Zustandsmaschine in den Sprachezustand zurück, Schritt 108. Wenn die Bestimmung negativ ist, so bestimmt die Maschine endlicher Zustände, ob die Statistik unter den ersten Schwellenwert für ein drittes vorgegebenes Ausmaß an Zeit geblieben ist (Schritt 116). Wenn die Bestimmung negativ ist, so werden die Schritte 112 bis 116 wiederholt. Schließlich identifiziert, wenn die Bestimmung positiv ist, die Zustandsmaschine das Ende der Sprache (Schritt 118). Somit führt das Spracherkennungssystem eine Erkennung lediglich an dem Teil des Eingangssignals zwischen dem Anfang der Sprache und dem Ende der Sprache aus (d. h., während sich die Zustandsmaschine in dem Sprachezustand befindet).
- Typischerweise verringert sich die Wirksamkeit eines Endzeigers, wenn die Intensität der Hintergrundstörungen ansteigt. Laute Hintergrundstörungen können bewirken, dass der Endzeiger einen Spracheanfang zu früh signalisiert oder die Feststellung des Endes der Sprache verzögert. Der letzte Zustand kann für das Betriebsverhalten eines Echtzeit-Spracherkennungssystems ziemlich schädlich sein. Es ist klar zu erkennen, dass der Endzeiger eine gewisse Anpassung erfordert, um den Hintergrund zu kompensieren. Es würde daher wünschenswert sein, einen Endzeiger zu schaffen, der das eingegebene Signal in Echtzeit vorverarbeitet, so dass eine Vordergrund-Spracheabgrenzung unter Verwendung eines einen festen Schwellenwert aufweisenden Endpunkt-Bildungsverfahrens weniger gegenüber Hintergrundstörungen empfindlich ist.
- Vorzugsweise führen Verfahren und Vorrichtungen gemäß der Erfindung eine Vorverarbeitung eines Kanalenergiesignals aus, um eine Spektralstationaritäts- Statistik auszubilden, die ein Endzeiger zur Abgrenzung von Sprache verwenden kann. Die Spektralstationaritäts-Statistik ermöglicht es einem Endzeiger, sich mit weniger Empfindlichkeit gegenüber Hintergrundrauschen zu verhalten.
- Um die Vorteile der Erfindung zu erzielen und gemäß der Erfindung, wie sie hier verwirklicht und allgemein beschrieben wird, ergibt ein erster Gesichtspunkt der Erfindung ein Verfahren zur Verarbeitung von Daten, wie es im beigefügten Anspruch 1 angegeben ist.
- Vorzugsweise extrahiert der Extrahierungsschritt ein Kanalenergiesignal.
- Vorzugsweise umfasst das Verfahren weiterhin den Schritt einer Hintergrund- Normalisierung auf der Proben-Standardabweichung.
- Vorzugsweise schließt die Erzeugung des Maskensignals die Teilschritte der Speicherung eines vorhergehenden Maskensignals und die Erzeugung des Maskensignals aus dem Kanalsignal und dem gespeicherten vorhergehenden Maskensignal ein.
- Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes.
- Vorzugsweise schließt der Schritt der Erzeugung des Maskensignals den Teilschritt des Ausgleichs der Abstände zwischen dem berechneten hohen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal und zwischen dem berechneten niedrigen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal ein.
- Vorzugsweise schließt der Schritt der Maskierung des extrahierten Kanalenergiesignals den Teilschritt des Addierens des erzeugten Maskensignals zu dem extrahierten Kanalenergiesignal ein.
- Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Glättung des maskierten Kanalenergiesignals.
- Vorzugsweise umfasst der Schritt des Gewinnens der Proben-Standardabweichung die Teilschritte des Speicherns einer Vielzahl von vorher gewonnenen maskierten Signalwerten in einem Puffer, des Ersetzens des am wenigsten aktuellen der Vielzahl von maskierten Signalwerten durch dem aktuellen maskierten Signalwert und des Berechnens der Probenvarianz zwischen der Vielzahl von maskierten Signalwerten, die in dem Puffer gespeichert sind.
- Vorzugsweise umfasst das Verfahren weiterhin den Schritt der Bildung einer Quadratwurzel der Varianz.
- Vorzugsweise umfasst der Schritt der Durchführung einer Hintergrundnormalisierung die Teilschritte des Filterns des maskierten Kanalenergiesignals zur Erzeugung eines geschätzten Hintergrundsignals und des Subtrahierens des geschätzten Hintergrundsignals von dem maskierten Kanalenergiesignal.
- Vorzugsweise umfasst der Schritt des Filterns die Teilschritte des Filterns des maskierten Signals unter Verwendung einer Schätzeinrichtung für den vorhergehenden Hintergrund, des Filterns des maskierten Signals unter Verwendung einer weitergeschalteten Hintergrund-Schätzeinrichtung und der Auswahl des Minimums der gefilterten maskierten Signale als das geschätzte Hintergrundsignal.
- Vorzugsweise umfasst das Verfahren weiterhin den Schritt des Transformierens des extrahierten Kanalenergiesignals.
- Vorzugsweise schließt der Schritt des Transformierens das Gewinnen eines verallgemeinerten Logarithmus (Wurzel) des extrahierten Kanalenergiesignals ein.
- Ein weiterer Gesichtspunkt der vorliegenden Erfindung ergibt eine Vorrichtung für ein Spracherkennungssystem, wie es in dem beigefügten Anspruch 15 angegeben ist.
- Vorzugsweise extrahieren die Extrahierungseinrichtungen ein Kanalenergiesignal.
- Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Durchführung einer Hintergrund-Normalisierung der Proben-Standardabweichung.
- Vorzugsweise umfasst die Vorrichtung weiterhin ein Glättungsfilter.
- Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes.
- Vorzugsweise umfasst die Vorrichtung weiterhin Einrichtungen zur Erzeugung eines Hintergrund-Schätzwertes und Einrichtungen zum Subtrahieren des Hintergrund- Schätzwertsignals von der Proben-Standardabweichung.
- Vorzugsweise umfasst die Einrichtung zur Erzeugung eines Hintergrund- Schätzwertsignals eine Schätzeinrichtung für den vorhergehenden Hintergrund, eine Schätzeinrichtung für den zukünftigen Hintergrund und eine Minimiereinrichtung zur Ausgabe des Minimalwertes der vorhergehenden Hintergrund-Schätzeinrichtung und der zukünftigen Hintergrund-Schätzeinrichtung als ein Hintergrund-Schätzwertsignal.
- Wahlweise ergibt das Verfahren ein Verfahren zur Erzeugung eines Quantil- Schätzwertes eines Kanalsignals mit den Schritten der Definition eines Quantil- Schätzwertes, der Initialisierung einer Vielzahl von Puffern, des Empfangs eines Kanalsignals, der Berechnung einer Vielzahl von Unterschieden, der Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden, und die Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden.
- Vorzugsweise schließt der Initialisierungsschritt die Teilschritte der Initialisierung eines Oberhalb-Zählers auf Eins und der Initialisierung eines Unterhalb-Zählers auf Eins.
- Vorzugsweise schließt der Berechnungsschritt den Teilschritt der Berechnung einer ersten Differenz und einer zweiten Differenz ein, wobei die erste Differenz gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, während die zweite Differenz gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist.
- Vorzugsweise schließt der Definitionsschritt die Teilschritte des Empfangs einer Vielzahl von Hintergrundsignalen, die Bezeichnung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen, das Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem höheren Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigeren Signals ist, wobei der Quantil-Schätzwert gleich dem mittleren Signal ist, und Ausbilden eines Quantil-Verhältnisses ein.
- Vorzugsweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, die Einrichtungen zur Definition eines anfänglichen Quantil-Schätzwertes, Einrichtungen zur Initialisierung einer Vielzahl von Puffern, Einrichtungen zum Empfang eines Kanalsignals, Einrichtungen zur Berechnung einer Vielzahl von Unterschieden, Einrichtungen zur Einstellung des Quantil- Schätzwertes auf der Grundlage der Vielzahl von Unterschieden und Einrichtungen zur Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden umfasst.
- Vorzugsweise umfassen die Definitionseinrichtungen weiterhin Einrichtungen zum Empfang einer Vielzahl von Hintergrundsignalen, Einrichtungen zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen und Einrichtungen zum Speichern einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem höheren Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigeren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist.
- Typischerweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes geschaffen, die eine Vielzahl von Zählern, eine Vielzahl von Puffern, Einrichtungen zur Initialisierung der Vielzahl von Zählern und der Vielzahl von Puffern, wobei die Initialisierungseinrichtung zumindest Einrichtungen zum Speichern des Quantil- Schätzwertes einschließt, Einrichtungen zum Empfang eines Kanalsignals und Einrichtungen zur Kommunikation zwischen der Vielzahl von Zählern und der Vielzahl von Puffern zur Einstellung des Quantil-Schätzwertes auf der Grundlage des empfangenen Kanalsignals umfasst.
- Wahlweise wird eine Vorrichtung zur Erzeugung eines Quantil-Schätzwertes geschaffen, die folgendes umfasst: ein nichtlineares Filter, das zum Empfang eines Energiesignals angekoppelt ist, wobei das nichtlineare Filter mit einem Oberhalb- Ganzzahl-Puffer, einem Unterhalb-Ganzzahl-Puffer und einer Vielzahl von Fließkomma-Puffern in Kommunikation steht; wobei ein erster der Vielzahl von Fließkomma-Puffern mit einem Wert initialisiert wird, wobei ein zweiter der Vielzahl von Fließkomma-Puffern mit einer höheren Begrenzung initialisiert wird, wobei ein dritter der Vielzahl von Fließkomma-Puffern mit einer unteren Begrenzung initialisiert wird, wobei ein vierter der Vielzahl von Fließkomma-Puffern mit einem Maximum initialisiert wird, wobei ein fünfter der Vielzahl von Fließkomma-Puffern mit einem Minimum initialisiert wird; Einrichtungen zum Weiterschalten des Oberhalb-Ganzzahl-Puffers, um Eins, wenn das empfangene Energiesignal größer als der oder gleich dem Wert ist; Einrichtungen zum Weiterschalten des Unterhalb- Ganzzahl-Puffers um Eins, wenn das empfangene Energiesignal kleiner als der Wert ist; Einrichtungen zur Berechnung eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Ganzzahl-Puffers dividiert durch den Unterhalb-Ganzzahl- Puffer ist, wobei die zweite Differenz gleich dem Wert abzüglich des Energiesignals ist; Einrichtungen zur Einstellung des Wertes durch die höhere Begrenzung oder den zweiten Unterschied, welche(r) kleiner ist, wenn der erste Unterschied und der zweite Unterschied positiv sind, und die untere Begrenzung oder einen Absolutwert der zweiten Differenz, welche(r) kleiner ist, wenn die erste Differenz und die zweite Differenz positiv sind; und Einrichtungen zur Ausgabe des Wertes als den Quantil- Schätzwert.
- Vorzugsweise wird ein Verfahren zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, das die folgenden auf einem Prozessor ausgeführten Schritte umfasst: Bestimmen eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen; Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; und Ausbilden eines Quantil-Verhältnisses, Initialisieren eines Oberhalb-Zählers und eines Unterhalb-Zählers; Empfangen eines Kanalsignals; Berechnen eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich dem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil- Schätzwert abzüglich des Kanalsignals ist, Einstellen des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden; und Weiterschalten der Vielzahl von Zählern auf der Grundlage der Vielzahl von Unterschieden.
- Vorzugsweise schließt der Einstellschritt die Teilschritte der Vergrößerung, wenn der erste Unterschied und der zweite Unterschied positiv sind, des Quantil- Schätzwertes um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes und die Vergrößerung des Quantil-Schätzwertes um den kleineren Wert der unteren Begrenzung und eines Absolutwertes der zweiten Differenz ein, wenn der erste Unterschied und der zweite Unterschied negativ sind.
- Vorzugsweise schließt der Weiterschalt-Schritt den Teilschritt des Weiterschaltens des Unterhalb-Zählers, wenn der erste Unterschied und der zweite Unterschied positiv sind, des Weiterschaltens des Oberhalb-Zählers, wenn der erste Unterschied und der zweite Unterschied negativ sind, der Vergrößerung des Unterhalb-Zählers, wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist, und der Vergrößerung des Oberhalb-Zählers ein, wenn der erste Unterschied negativ ist und der zweite Unterschied positiv ist.
- Typischerweise wird ein Verfahren zur Erzeugung eines Quantil-Schätzwertes eines Kanalsignals geschaffen, das die folgenden auf einem Prozessor ausgeführten Schritte umfaßt: Initialisieren eines Unterhalb-Zählers und eines Oberhalb-Zählers; Empfangen von drei Hintergrundsignalen, die als ein hohes Signal, ein niedriges Signal und ein mittleres Signal bezeichnet werden; Speichern einer höheren Begrenzung, einer unteren Begrenzung und eines Quantil-Schätzwertes, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des niedrigen Signals ist, wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; Ausbilden eines Quantil-Verhältnisses; Empfangen eines Kanalsignals; Berechnen eines ersten Unterschiedes und eines zweiten Unterschiedes, wobei der erste Unterschied gleich dem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil- Schätzwert abzüglich des Kanalsignals ist; Vergrößern des Quantil-Schätzwertes um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes, wenn der erste Unterschied und der zweite Unterschied positiv sind, und Weiterschalten des Unterhalb-Zählers; Vergrößern des Quantil-Schätzwertes durch den kleineren Wert der unteren Begrenzung und eines Absolutwertes des zweiten Unterschiedes, wenn die erste Differenz und die zweite Differenz negativ sind, und Weiterschalten des Oberhalb-Zählers; Vergrößern des Unterhalb-Zählers, wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist; Speichern des Absolutwertes des zweiten Unterschiedes als die untere Begrenzung, wenn der Absolutwert des zweiten Unterschiedes kleiner als die untere Begrenzung ist; Vergrößern des Oberhalb-Zählers, wenn der erste Unterschied negativ ist und der zweite Unterschied positiv ist; Speichern des zweiten Unterschiedes als die höhere Begrenzung, wenn der zweite Unterschied kleiner als die höhere Begrenzung ist, und Abrunden der höheren Begrenzung, der unteren Begrenzung und des Quantil- Schätzwertes.
- Wahlweise wird ein Computerprogramm-Produkt geschaffen, das ein computernutzbares Medium mit darin verwirklichtem computerlesbarem Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Definitionsmodul, das zur Definition eines Quantil- Schätzwertes konfiguriert ist, ein Initialisierungsmodul, das zur Initialisierung einer Vielzahl von Puffern konfiguriert ist, ein Empfangsmodul, das zum Empfang eines Kanalsignals konfiguriert ist, ein Berechnungsmodul, das zur Berechnung einer Vielzahl von Unterschieden konfiguriert ist, ein Einstellmodul, das zur Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist, und ein Weiterschaltmodul umfasst, das zur Weiterschaltung der Vielzahl von Puffern auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist.
- Vorzugsweise ist das Initialisierungsmodul weiterhin so konfiguriert, dass es einen Oberhalb-Zähler auf Eins und einen Unterhalb-Zähler auf Eins initialisiert.
- Vorzugsweise ist das Berechnungsmodul weiterhin so konfiguriert, dass es zumindest einen eines ersten Unterschiedes und eines zweiten Unterschiedes berechnet, wobei der erste Unterschied gleich einem Quantil-Verhältnis abzüglich des Oberhalb-Zählers dividiert durch den Unterhalb-Zähler ist, während der zweite Unterschied gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist.
- Vorzugsweise umfasst das Definitionsmodul ein Empfangsmodul, das zum Empfang einer Vielzahl von Hintergrundsignalen konfiguriert ist, ein Bestimmungsmodul, das zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen konfiguriert ist; und ein Speichermodul, das zur Speicherung einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil-Schätzwertes konfiguriert ist, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist.
- Typischerweise wird ein Computerprogramm geschaffen, das ein computernutzbares Medium mit einem darin enhaltenen computerlesbaren Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Empfangsmodul, das zum Empfang einer Vielzahl von Hintergrundsignalen konfiguriert ist; ein Bestimmungsmodul, das zur Bestimmung eines hohen Signals, eines niedrigen Signals und eines mittleren Signals aus der Vielzahl von Hintergrundsignalen konfiguriert ist; ein Speichermodul, das zur Speicherung einer höheren Begrenzung, einer niedrigeren Begrenzung und eines Quantil- Schätzwertes konfiguriert ist, wobei die höhere Begrenzung gleich dem hohen Signal abzüglich des mittleren Signals ist, wobei die untere Begrenzung gleich dem mittleren Signal abzüglich des unteren Signals ist, und wobei der Quantil-Schätzwert gleich dem mittleren Signal ist; ein Initialisierungsmodul, das zur Initialisierung einer Vielzahl von Puffern konfiguriert ist; wobei das Empfangsmodul weiterhin zum Empfang eines Kanalsignals konfiguriert ist; ein Berechnungsmodul, das zur Berechnung von zumindest einem eines ersten Unterschiedes und eines zweiten Unterschiedes konfiguriert ist, wobei der erste Unterschied gleich einem Quantil- Verhältnis abzüglich eines Oberhalb-Zählers dividiert durch einen Unterhalb-Zähler ist, wobei der zweite Unterschied gleich dem Quantil-Schätzwert abzüglich des Kanalsignals ist; ein Einstellmodul, das zur Einstellung des Quantil-Schätzwertes auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist; und ein Weiterschaltmodul umfasst, das zur Weiterschaltung des Oberhalb-Zählers und des Unterhalb-Zählers auf der Grundlage der Vielzahl von Unterschieden konfiguriert ist.
- Vorzugsweise ist das Einstellmodul weiterhin so konfiguriert, dass es den Quantil- Schätzwert um den kleineren Wert der höheren Begrenzung und des zweiten Unterschiedes vergrößert, wenn der erste Unterschied und der zweite Unterschied positiv sind, und den Quantil-Schätzwert um den kleineren Wert der unteren Begrenzung und eines Absolutwertes des zweiten Unterschiedes vergrößert, wenn der erste Unterschied und der zweite Unterschied negativ sind.
- Vorzugsweise wird ein Computerprogramm-Produkt geschaffen, das ein computernutzbares Medium mit einem darin enthaltenen computerlesbaren Code zur Verarbeitung von Daten in einem Spracherkennungssystem umfasst, wobei das computernutzbare Medium ein Extrahiermodul, das zum Extrahieren eines Kanalenergiesignals konfiguriert ist; ein Maskenerzeugungsmodul, das zur Erzeugung eines Maskensignals aus dem Kanalenergiesignal konfiguriert ist, ein Maskierungsmodul, das zur Maskierung des extrahierten Kanalenergiesignals mit dem erzeugten Maskensignal konfiguriert ist, und ein Standardabweichungs-Modul umfasst, das zur Gewinnung einer Proben-Standardabweichung des maskierten extrahierten Kanalenergiesignals über ein zeitliches Fenster konfiguriert ist.
- Vorzugsweise umfasst das Computerprogramm-Produkt weiterhin ein Hintergrund- Normalisierungsmodul, das zur Durchführung eines Hintergrund-Normalisierung an der Proben-Standardabweichung konfiguriert ist.
- Vorzugsweise umfasst das Computerprogramm-Produkt weiterhin ein Berechnungsmodul, das zur Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-Schätzwertes konfiguriert ist.
- Es ist verständlich, dass sowohl die vorstehende allgemeine Beschreibung als auch die nachfolgende ausführliche Beschreibung beispielhaft und erläuternd sind und zur Bereitstellung einer weiteren Erläuterung der beanspruchten Erfindung bestimmt sind.
- Die beigefügten Zeichnungen, die in diese Beschreibung eingefügt sind und einen Bestandteil dieser Beschreibung bilden, erläutern bevorzugte Ausführungsformen der Erfindung und erläutern zusammen mit der Beschreibung die Ziele, Vorteile und Prinzipien der Erfindung. In den Zeichnungen sind:
- Fig. 1 ein Ablaufdiagramm, das eine bekannte Sprachsignal- Endpunktbildung erläutert;
- Fig. 2 ein Ablaufdiagramm, das ein Verfahren zur Vorverarbeitung eines störbehafteten Signals gemäß der vorliegenden Erfindung erläutert,
- Fig. 3 ein Blockschaltbild eines Endpunktbildungs-Vorprozessors gemäß der vorliegenden Erfindung;
- Fig. 4 ein Blockschaltbild der Quantil-Schätzeinrichtung nach Fig. 3;
- Fig. 5 ein Ablaufdiagramm, das ein Verfahren zur Berechnung von Quantil- Schätzwerten gemäß der vorliegenden Erfindung erläutert, und
- Fig. 6 eine grafische Darstellung der hohen und niedrigen Quantil- Schätzwerte bezüglich der Kanalenergie,
- Fig. 7 ein Blockschaltbild der Proben-Abweichungs-Schätzeinrichtung nach Fig. 3.
- Gleiche Bezugsziffern beziehen sich in den verschiedenen Figuren der Zeichnungen auf entsprechende Teile.
- Es wird nunmehr im einzelnen auf die derzeit bevorzugten Ausführungsformen der Erfindung Bezug genommen, von denen Beispiele in den beigefügten Zeichnungen gezeigt sind. Alles was in der nachfolgenden Beschreibung enthalten oder in den beigefügten Zeichnungen gezeigt ist, soll als erläuternd und nicht beschränkend interpretiert werden.
- Verfahren und Vorrichtung gemäß dieser Erfindung ergeben eine verbesserte Vordergrund-Sprachsignal-Endpunktbildung. Um die Endpunktbildung zu verbessern, wird eine Spektralstationaritäts-Statistik ("s³") berechnet. Die Statistik s³ ist robuster gegenüber dem Hintergrundrauschen als üblichere Messungen. Zusätzlich kann die Statistik s³ noch unempfindlicher gegen veränderliche Hintergrundstörungen gemacht werden, indem eine Hintergrundnormalisierung verwendet wird.
- Fig. 2 ist ein Ablaufdiagramm, das ein Verfahren zur Vorverarbeitung eines empfangenen störbehafteten Signals zeigt, um die Statistik s³ für jeden Rahmen in Übereinstimmung mit der vorliegenden Erfindung zu erzeugen. Ein Rahmen umfaßt eine Serie von digitalen Abtastproben des störbehafteten Signals über eine vorgegebene Zeitdauer. Zunächst empfängt ein Endpunkt-Vorprozessor ein störbehaftetes Signal, das Vordergrund-Sprache einschließt (Schritt 202). Wie sie in dieser Anwendung verwendet wird, bezieht sich die Bezeichnung Vordergrund- Sprache auf den Teil des Eingangssignals, der von dem Spracherkennungssystem erkannt werden soll. Als nächstes extrahiert der Endpunkt-Vorprozessor unter Verwendung üblicher Techniken ein Kanalenergiesignal aus dem empfangenen störbehafteten Signal (Schritt 204). Aus Gründen der Einfachheit bezieht sich Fig. 2 lediglich auf einen einzigen Aufzeichnungskanal, doch werden mehrfache Aufzeichnungskanäle bevorzugt (d. h. 2, 3, 5, 20 oder mehr Kanäle). Wie dies weiter unten ausführlich erläutert wird, berechnet der Endpunkt-Vorprozessor dann sowohl einen hohen als auch einen niedrigen Quantil-Schätzwert der Kanalenergie (Schritt 206). Unter Verwendung der Quantil-Schätzwerte zur Erzeugung eines Maskensignals wird das störbehaftete Signal mit dem Maskensignal unter Verwendung eines Signal-/Rausch-Verhältnis- (SNR-) Normalisierungsverfahrens (Schritt 208) maskiert. Schließlich gewinnt der Endpunkt-Vorprozessor eine Proben- Standardabweichung des maskierten Signals über ein Zeitfenster (Schritt 210). Die Maschine endlicher Zustände verwendet dann die Proben-Standardabweichung, d. h. die Statistik s³ in üblicher Weise zur Erzeugung der Vordergrund-Sprache- Endpunkte (Schritt 212).
- Fig. 3 ist ein Blockschaltbild eines Endpunkt-Vorprozessors ("PEP") 300 gemäß der vorliegenden Erfindung. Der PEP 300 schließt eine Energieextrahiereinrichtung 302, einen Energie-Wurzeltransformator 304, eine Quantil-Abschätzeinrichtung 306, eine Maskierungseinrichtung 308, ein Glättungsfilter 310, einen Probenabweichungs-Prozessor 312, zwei parallele lineare Filter 314 und 316, einen Minimierer 318 und einen Summierer 320 ein. Wie dies in Fig. 3 zu erkennen ist, wird jedes Aufzeichnungskanalsignal in den PEP 300 eingegeben und von der Energieextrahiereinrichtung 302 empfangen. Die Energieextrahiereinrichtung 302 gibt ein extrahiertes Kanalenergiesignal an den Energie-Wurzeltransformator 304 und an die Maskiereinrichtung 308 ab. Der Energie-Wurzeltransformator 304 führt eine nicht-lineare Wurzeltransformation an dem extrahierten Kanalenergiesignal aus und gibt ein transformiertes Signal an die Quantil-Abschätzeinrichtung 306 ab, die hohe und niedrige Quantil-Schätzwerte für das transformierte Energiesignal berechnet. Die Maskierungseinrichtung 308 verwendet die Quantil-Abschätzsignale zur Erzeugung eines Maskierungssignals und zur Durchführung einer SNR- Normalisierung des Kanalenergiesignals aus, das von der Energieextrahiereinrichtung 302 abgegeben wird (d. h. sie addiert das Maskierungssignal zu dem Kanalenergiesignal). Zusätzlich hat die Maskierungseinrichtung 308 einen (nicht gezeigten) Speicher, der ihr zugeordnet ist, um das derzeitige Maskierungssignal zur Verwendung bei der Berechnung des nächsten Maskierungssignals zu speichern. Das maskierte Kanalenergiesignal wird über ein Glättungsfilter 310 zu dem Probenabweichungsprozessor 312 gesandt, der eine Probenabweichung des maskierten Kanalenergiesignals über ein zeitliches Fenster gewinnt, wie dies weiter unten ausführlicher erläutert wird. Das Probenabweichungssignal durchläuft zwei parallele lineare Filter 314 und 316 zum Minimierer 318. Der Minimierer 318 gibt das kleinere der beiden Filter-Ausgangssignale an den Summierer 320 ab, und der Summierer 320 subtrahiert das Ausgangssignal des Minimierers 318 von dem Probenabweichungssignal, um die Statistik s³ zu erzeugen. Schließlich wird die Statistik s³ an die Maschine endlicher Zustände abgegeben, die in Fig. 1 verwirklicht ist. Die Zustandsmaschine verwendet die Statistik s³ in üblicher Weise, um die Vordergrund-Sprache-Endpunkte zu bestimmen. Bei einer Ausführungsform sind der PEP 300 und seine zugehörigen Bauteile in Software realisiert, die von einem Prozessor eines (nicht gezeigten) Hauptrechners ausgeführt wird. Bei anderen Ausführungsformen ist der PEP 300 in Schaltungshardware oder in einer Kombination von Hardware und Software realisiert. Bei Realisierung in Software ist eine bevorzugte Betriebsumgebung eine Betriebsumgebung auf der Grundlage der Sprache C.
- Ein Fachmann würde nunmehr erkennen, dass die Kanalenergiesignale, die zur Berechnung der Statistik s³ verwendet werden, in der Leistungsdomäne liegen. Diese Energiesignale können sich über einen großen Bereich ändern. Der große Bereich, über die die Kanalenergiesignale vorliegen, macht es schwierig, die hohen und niedrigen Quantil-Schätzwerte des Kanalenergiesignals zu gewinnen. Der Energie-Wurzeltransformator 304 führt daher eine übliche nicht-lineare Transformation (Gl. 1) an dem Kanalenergiesignal aus, um ein Wurzel- Kanalenergiesignal ("RCE") zu gewinnen. Die einzige Forderung dieser üblichen Umwandlung besteht darin, daß der "Wurzel"-Operator γ derart vordefiniert ist, dass, wenn sich y 0 nähert, RCE sich log CE nähert, worin CE das Kanalenergiesignal ist. Dies wirkt im Sinne einer Komprimierung des Bereiches der tatsächlichen Kanalenergien.
- Wurzel (CE,γ) ist als RCE = 1/γ·(CEγ - 1) definiert (Gl. 1)
- Fig. 4 ist ein Blockschaltbild einer Quantil-Abschätzeinrichtung 306. Für jedes RCE umfaßt die Quantil-Abschätzeinrichtung 306 zwei nichtlineare Filter 402 und 404, zwei Oberhalb-Ganzzahl-Puffer (Zähler) 406 und 410, zwei Unterhalb-Ganzzahl- Puffer 408 und 412 (Zähler) und acht Fließkomma-Puffer 414, 416, 418, 420, 422, 424, 426 und 428. Wie dies aus Fig. 4 zu erkennen ist, empfängt die Quantil- Abschätzeinrichtung 206 das RCE an den nichtlinearen Filtern 402 und 404. Das nichtlineare Filter 402 steht mit den Oberhalb- und Unterhalb-Ganzzahl-Puffern 40 und 408 in Verbindung, und die Fließkomma-Puffer 414, 416 und 418 erzeugen den hohen Quantil-Schätzwert ("HQE"). Das nichtlineare Filter 404 steht mit dem Oberhalb- und Unterhalb-Ganzzahl-Puffern 410 und 412 und den Fließkomma- Puffern 424, 426 und 428 in Verbindung, um den niedrigen Quantil-Schätzwert ("LQE") zu erzeugen.
- Fig. 5 ist ein Ablaufdiagramm, das zeigt, wie die Quantil-Abschätzeinrichtung 306 den HQE berechnet. Zunächst werden der Oberhalb-Ganzzahl-Puffer 406 und der Unterhalb-Ganzzahl-Puffer 408 auf einen Wert von Eins initialisiert (Schritt 502). Fließkomma-Puffer 414, 416 und 418 werden dadurch initialisiert, dass beispielsweise drei Rahmen von Kanalenergiesignalen vor dem Beginn irgendeiner Vordergrund-Sprache empfangen werden (Schritt 504). Diese drei Rahmen werden als ein höchstes, ein mittleres und ein niedrigstes Kanalenergiesignal klassifiziert. Die Quantil-Abschätzeinrichtung 306 speichert das höchste Kanalenergiesignal abzüglich des mittleren Kanalenergiesignals in dem Fließkomma-Puffer 414 als eine obere Begrenzung, das mittlere Kanalenergiesignal abzüglich des niedrigsten Kanalenergiesignals im Fließkomma-Puffer 416 als eine untere Begrenzung, und das mittlere Kanalenergiesignal in dem Fließkomma-Puffer 418 als einen anfänglichen HQE (Schritt 506). Die Quantil-Abschätzeinrichtung 306 verwendet einen Oberhalb-Ganzzahl-Puffer 406 zum Zählen der Anzahl von Kanalenergien, die oberhalb des HQE liegen, und einen einen Unterhalb-Ganzzahl-Puffer 408 zum Zählen der Anzahl von Kanalenergien, die unterhalb des HQE liegen. Der Zählprozeß wird nachfolgend in den Schritten 508 bis 538 beschrieben. Weil die mittlere Kanalenergie auf HQE eingestellt ist, werden die Oberhalb- und Unterhalb- Ganzzahl-Puffer 406 und 408 auf einen Wert von Eins gesetzt, was anzeigt, dass ein Kanalenergiesignal oberhalb des HQE liegt, und dass ein Kanalenergiesignal unterhalb des HQE liegt. Sobald der Initialisierungsabschnitt abgeschlossen ist, läuft die Quantil-Abschätzeinrichtung in eingeschwungenem Zustand. Obwohl die Schritte 508 bis 538 als die eine diskrete Serie von Schritten gezeigt sind, ist im eingeschwungenen Zustand der Prozess von kontinuierlicher Art.
- Im eingeschwungenen Zustand empfängt die Quantil-Abschätzeinrichtung 306 kontinuierlich Wurzel-Kanalenergiesignale (Schritt S08). Der HQE-Ausgang von der Quantil-Abschätzeinrichtung 306 hängt von zwei Unterschieden ab. Der erste Unterschied ist das Quantil-Zielverhältnis, das von dem Verhältnis zwischen dem Oberhalb-Ganzzahl-Puffer 406 und dem Unterhalb-Ganzzahl-Puffer 408 subtrahiert wird (Schritt 510). Das Quantil-Zielverhältnis wird von einer vorgegebenen Quantil- Spezifikation bestimmt. Wenn beispielsweise die Quantil-Spezifikation 50% ist, so würde das Zielverhältnis gleich Eins sein (d. h. für jede Abtastprobe oberhalb des Schätzwertes sollte eine unterhalb dieses Schätzwertes liegen). Wenn die Quantil- Spezifikation 90% sein würde, so würde das Zielverhältnis 1 : 9 sein.
- Der zweite Unterschied ist der vorhergehende, in dem Fließkomma-Puffer 418 gespeicherte Quantil-Schätzwert subtrahiert von der aktuellen im Filter 402 gespeicherten Kanalenergie-Abtastprobe (Schritt 512). Wenn beide Unterschiede positiv sind (Schritt 514) so wird der Quantil-Schätzwert durch die höhere Begrenzung, die in dem Fließkomma-Puffer 414 gespeichert ist, oder den zweiten Unterschied (Schritt 516), je nachdem, welche(r) kleiner ist, vergrößert, und der Unterhalb-Ganzzahl-Puffer 408 wird weitergeschaltet (Schritt 518). In ähnlicher Weise wird, wenn beide Unterschiede negativ sind (Schritt 520) der Quantil-Schätzwert, der in dem Fließkomma-Puffer 418 gespeichert ist, um die untere Begrenzung, die in dem Fließkomma-Puffer 416 gespeichert ist, oder den Absolutwert des zweiten Unterschiedes (Schritt 522), je nachdem welche(r) kleiner ist, verringert, und der Oberhalb-Ganzzahl-Puffer 406 wird weitergeschaltet (Schritt 524).
- Wenn der erste Unterschied positiv ist und der zweite Unterschied negativ ist (Schritt 526), so wird der Unterhalb-Ganzzahl-Puffer 408 weitergeschaltet (Schritt 528). Wenn der zweite Unterschied positiv und der erste Unterschied negativ ist (Schritt 530), so wird der Oberhalb-Ganzzahl-Puffer weitergeschaltet (Schritt 532). Weiterhin wird, wenn der zweite Unterschied negativ ist und der Absolutwert des zweiten Unterschiedes kleiner als die in dem Fließkomma-Puffer 416 gespeicherte untere Begrenzung ist, der zweite Unterschied in dem Fließkomma-Puffer 416 als neue untere Begrenzung gespeichert (Schritt 534). Zusätzlich wird, wenn der zweite Unterschied positiv ist und der zweite Unterschied kleiner als die derzeit in dem Fließkomma-Puffer 414 gespeicherte höhere Begrenzung ist, der zweite Unterschied in dem Fließkomma-Puffer 414 als die neue höhere Begrenzung (Schritt 536) gespeichert. Nach allen diesen Tests und Einstellungen werden die Fließkomma-Puffer 414 und 416 festgelegt, so dass sie nicht mehr verschwinden können (Schritt 538). Die Schritte 508 bis 538 werden so lange wiederholt, wie die Zustandsmaschine online ist. Der LQE wird in einer ähnlichen Weise bestimmt, wie die vorstehend angegebene Bestimmung von HQE. In der bevorzugten Ausführungsform dieser Erfindung ist der HQE eine Quantil-Abschätzeinrichtung mit einer Quantil-Spezifikation von 90%, d. h. einem Zielverhältnis von 1 : 9, und der LQE ist eine Quantil-Abschätzeinrichtung mit einer Quantil-Spezifikation von 10%, d. h. einem Zielverhältnis von 9 : 1.
- Die verbleibenden zwei Fließkomma-Puffer 420 und 422, die für HQE und LQE gemeinsam genutzt werden, werden zum Speichern der Maxima und Minima der Kanalenergie verwendet. Die absoluten Unterschiede zwischen diesen Werten und dem Quantil-Schätzwert werden zur Regelung der Begrenzung verwendet. Bei der bevorzugten Ausführungsform dieser Erfindung ist die Abrundung an den höheren Begrenzungen, die in den Fließkomma-Puffern 414 und 424 gespeichert sind, ein Viertel des Verhältnisses zwischen dem Unterschied des in dem Fließkomma-Puffer 420 gespeicherten Maximums und den Quantil-Schätzwerten, die in den Fließkomma-Puffern 418 und 428 und den Oberhalb-Ganzzahl-Puffern 406 und 410 gespeichert sind. In ähnlicher Weise ist die Abrundung an der unteren Begrenzung, die in dem Fließkomma-Puffer 416 und 424 gespeichert ist, ein Viertel des Verhältnisses zwischen dem Unterschied der zwischen dem Quantil-Abschätzwert, der in den Fließkomma-Puffern 418 und 428 gespeichert ist, und dem Minimum, das in dem Fließkomma-Puffer 422 und den Unterhalb-Ganzzahl-Puffern 408 und 412 gespeichert ist.
- Fig. 6 ist eine grafische Darstellung eines Kanalenergiesignals und der HQE und LQE, die aus dem Kanalenergiesignal erzeugt werden. Wie dies in Fig. 6 zu erkennen ist, werden HQE und LQE für jeden Rahmen teilweise in Abhängigkeit davon eingestellt, was die Quantil-Abschätzwerte für den unmittelbar vorhergehenden Rahmen gewesen sein sollten. Ein Fachmann wird nunmehr erkennen, dass die Quantil-Abschätzeinrichtung viele Anwendungen hat, von denen eine vorstehend umrissen wurde.
- Nachdem diese Werte erzeugt wurden, verwendet die Maskierungseinrichtung 308 HQE und LQE zur Erzeugung eines Maskensignals in einer Weise analog zu (Gl. 2):
- worin ut gleich dem Maskensignal ist und Target gleich einem vorgegebenen Schwellenwert ist. Vorzugsweise wird Target (Ziel) so eingestellt, dass der Abstand zwischen den hohen und niedrigen Quantil-Schätzwerten und der Kanalenergie gleich ist. Nicht nur HQE und LQE beeinflussen ut, sondern ut hängt auch von einem vorher berechneten Wert von ut-1 ab, worin ut gleich dem momentanen Maskensignal ist und ut-1 gleich dem vorhergehend berechneten Maskensignal ist (Gl. 3),
- worin β ein voreingestellter "Vergesslichkeits"-Faktor nahezu jedoch kleiner als Eins ist und umin eine untere Begrenzung für das Maskensignal nahezu gleich oder gleich Null ist.
- Die Maskierungseinrichtung 308 addiert das Maskensignal ut zu dem extrahierten Kanalenergiesignal, um ein maskiertes Kanalenergiesignal ("MCES") (GI. 4) zu gewinnen:
- Hinsichtlich weiterer Informationen bezüglich der SNR-Normalisierung siehe Tom Claes und Dirk Van Compernolle, "SNR-Normalisation for Robust Speech Recognition", ICASSP 96, Seiten 331-334, 1996 ("Claes"). Obwohl Claes das allgemeine SNR-Normalisierungsverfahren beschreibt, sind Maskensignale gemäß der vorliegenden Erfindung erheblich hiervon verschieden. Die SNR-Normalisierung bei Claes führt beispielsweise eine vorhergesagte Schätzung des Maskensignals durch Verfolgen der Maxima und Minima des momentanen SNR aus. Im Gegensatz hierzu verwenden Verfahren gemäß der vorliegenden Erfindung eine Quantil- Näherung, oder deren Äquivalent, um das Ziel-Maskensignal zu erzeugen. Somit bestimmen statt eines vorhergesagten Schätzwertes des Maskensignals Verfahren gemäß der vorliegenden Erfindung, was das Maskensignal für den vorhergehenden Rahmen gewesen sein sollte und stellen entsprechend das momentane Maskensignal ein.
- Das MCES wird über ein Glättungsfilter 310, das ein übliches FIR-Glättungsfilter mit drei Anzapfungen ist, dem Probenabweichungs-Prozessor 312 zugeführt. Fig. 7 ist ein Blockschaltbild eines Probenabweichungs-Prozessors 312. Der Probenabweichungs-Prozessor 312 umfaßt ein Verzögerungs-Schieberegister 702, einen Varianz-Rechner 704, und einen Quadratwurzel-Rechner 706. Das Verzögerungs-Schieberegister 702 weist sieben Registerschlitze 702&sub1;&submin;&sub7; auf. Das momentane MCES wird in dem Registerschlitz 702, eingegeben, die Inhalte der Registerschlitze 702&sub1;&submin;&sub6; werden um einen Registerschlitz verschoben (d. h. der Inhalt von 702&sub1; wird nach 7022 übertragen, usw.), und der Inhalt des Registerschlitzes 702&sub7; wird verworfen. Somit speichert jeder Registerschlitz 702&sub1;&submin;&sub7; ein zugehöriges MCES&sub1;&submin;&sub7;. Der Varianz-Rechner 704 berechnet die Varianz zwischen den in dem Verzögerungs-Schieberegister 702 gespeicherten MCES's, und der Quadratwurzel- Rechner 706 rechnet die Quadratwurzel der Varianz (Gl. 5) wobei der Ausgang die Proben-Standardabweichung über das Zeitfenster ("SDTW") ist.
- SDTW = ((1/6) (Σ(MCESk)² - (1/7) (ΣMCESk)²]}1/2 Gl. 5
- Hinsichtlich weiterer Informationen siehe die US-Patente 5 579 431 und 5 617 508, die auf den Namen von Benjamin K. Reaves am 26. November 1997 bzw. am 1. April 1997 erteilt wurden. Ein Probenabweichungs-Prozessor kann die Varianz über irgendeine Anzahl von gespeicherten MCES's berechnen, doch ist die Verwendung des derzeitigen Wertes und der sechs vorhergehenden Werte befriedigend. Vorzugsweise wird die SDTW für den Energiesignalpegel jedes Aufzeichnungskanals berechnet. Der Probenabweichungs-Prozessor 312 kombiniert die SDTW's in eine "rahmensynchrone skalare Statistik". Dieser kombinierte Prozess schließt die Entwicklung einer gemittelten SDTW und einer bewerteten gemittelten SDTW ein. Unter der Annahme von zwanzig Aufzeichnungskanälen ergibt sich die mittlere SDTW einfach durch Addieren jeder der zwanzig SDTW und durch Dividieren durch zwanzig (GI. 6), worin i der Aufzeichnungskanal ist.
- Mittlere SDTW = ( SDTWi)/20 Gl. 6
- Die bewertete mittlere SDTW kann sich in Abhängigkeit von der Anwendung ändern, erteilt jedoch den eine höhere Frequenz aufweisenden Kanälen eine größere Bedeutung. Die bewertete mittlere SDTW wird dadurch bestimmt, dass jedem Kanal ein Wertigkeitsfaktor (WF) zugeordnet und die SDTW für jeden Kanal mit WF multipliziert wird. Die Summe aller WF's ist gleich zwanzig. Die wertigkeitsabgeglichenen SDTW's werden summiert und durch zwanzig dividiert (Gl. 7).
- Bewertete mittlere SDTW = (Σ(W F&sub1;)(SDTWi))/20 Gl. 7
- Die rahmensynchrone skalare Statistik ist die größere der bewerteten mittleren SDTW und der mittleren SDTW. Obwohl es vorzuziehen ist, zwanzig Aufzeichnungskanäle zu haben, könnten mehr oder weniger in Abhängigkeit von den Systemeigenschaften verwendet werden.
- Die rahmensynchrone skalare Statistik könnte von dem Endzeiger verwendet werden, um Sprache in üblicher Weise abzugrenzen. Es wird jedoch bevorzugt, eine Hintergrundnormalisierung auf die rahmensynchrone skalare Statistik anzuwenden. Eine Hintergrundnormalisierung umfasst das Filtern der rahmensynchronen skalaren Statistik unter Verwendung von getrennten und parallelen linearen Filtern 314 und 316 (Fig. 3). Das Filter 314 ist ein übliches einpoliges Filter mit einer voreingestellten Anzahl von Rahmenverzögerungen, d. h. einer Abschätzeinrichtung für den vorhergehenden Hintergrund. Das Filter 316 ist ein übliches nicht-kausales, ein rechtwinkliges Impulsansprechverhalten aufweisendes FIR-Filter, das eine voreingestellte Anzahl von Rahmen in der Zukunft abschätzt, d. h. eine Abschätzeinrichtung für den zukünftigen Hintergrund. Vorzugsweise ist die Anzahl von Rahmen, um die die Filter 314 und 316 von dem derzeitigen Rahmen abweichen, gleich. Eine angemessene Hintergrundnormalisierung kann mit einer Abweichung von drei Rahmen erzielt werden. Hinsichtlich weiterer Informationen hinsichtlich des Hintergrundnormalisierungsverfahrens siehe Davies & Knappe "Noise Background Normalization for Simultaneous Broadband and Narrowband Detection", ICASSP 1988, Seiten 2733-36 ("Davies et al. "). Obwohl die vorliegenden Verfahren ähnlich zu Davies et al. sind, sollte ein Fachmann erkennen, dass die Hintergrundnormalisierungsverfahren und Vorrichtungen gemäß der vorliegenden Erfindung modifiziert werden müssen, weil das interessierende Signal weder Breitband- noch Schmalband- Rauschen ist. Eine befriedigende Hintergrundnormalisierung kann jedoch durch Beseitigen des Minimums der Filter 314 und 316 von der rahmensynchronen skalaren Statistik zur Erzielung der Statistik s³ erreicht werden.
- Es ist für den Fachmann zu erkennen, dass verschiedene Modifikationen und Abänderungen an den Verfahren und Vorrichtungen gemäß der Erfindung durchgeführt werden können. Weitere Modifikationen sind für den Fachmann aus einer Betrachtung der Beschreibung und der dort beschriebenen praktischen Ausführungsform der Erfindung ersichtlich. Die Beschreibung und die Beispiele sollten lediglich als beispielhaft betrachtet werden. Der Schutzumfang der Erfindung ist lediglich durch die beigefügten Ansprüche beschränkt.
- Zusammenfassend ist festzustellen, daß die vorliegende Erfindung eine verbesserte Vordergrundsprache-Signalendpunktbildung durch Berechnen einer spektralen Stationäritätsstatistik ergibt. Diese Statistik wird durch eine Maschine endlicher Zustände zur Festlegung von Endpunkten von Sprache verwendet. Die Bildung von Endpunkten unter Verwendung der spektralen Stationäritätsstatistik ist weniger gegenüber Hintergrundstörungen empfindlich, als die Endpunktbildung unter Verwendung üblicher Maßnahmen. Die vorliegende Erfindung verwendet eine rahmensynchrone Quantil-Abschätzung, um ein Maskensignal für die Signal- /Rausch-Verhältnis-Normalisierung zu erzeugen.
Claims (15)
1. Verfahren zur Verarbeitung von Daten für ein Spracherkennungssystem,
das Vordergrund-Sprache bei Vorliegen von Hintergrundstörungen empfangen
kann, mit den folgenden Schritten, die durch einen Prozessor ausgeführt werden:
Extrahieren eines Kanalsignals (204) für einen Rahmen;
Erzeugen eines Maskensignals (206) für den Rahmen aus dem Kanalsignal;
Maskieren des extrahierten Kanalsignals (208) mit dem Maskensignal für
den Rahmen;
Gewinnen einer Proben-Standardabweichung des maskierten Kanalsignals
über ein Zeitfenster; und
Erzeugen von Vordergrund-Sprache-Endpunkten (212) unter Verwendung
der Proben-Standardabweichung.
2. Verfahren nach Anspruch 1, bei dem der Extrahierungsschritt ein
Kanalenergiesignal extrahiert.
3. Verfahren nach Anspruch 1 oder 2, das weiterhin den Schritt der:
Durchführung einer Hintergrund-Normalisierung der Proben-
Standardabweichung umfaßt.
4. Verfahren nach einem der Ansprüche 1-3, bei dem die Erzeugung des
Maskensignals die folgenden Teilschritte umfaßt:
Speicher eines vorhergehenden Maskensignals; und
Erzeugen des Maskensignals aus dem Kanalsignal und dem gespeicherten
vorhergehenden Maskensignal.
5. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den
Schritt der:
Berechnung eines hohen Quantil-Schätzwertes und eines niedrigen Quantil-
Schätzwertes umfaßt.
6. Verfahren nach Anspruch 5, bei dem der Schritt der Erzeugung des
Maskensignals den Teilschritt des:
Ausgleichs der Abstände zwischen dem berechneten hohen Quantil-
Schätzwert und dem extrahierten Kanalenergiesignal und zwischen dem
berechneten niedrigen Quantil-Schätzwert und dem extrahierten Kanalenergiesignal
umfaßt.
7. Verfahren nach Anspruch 2, bei dem der Schritt der Maskierung des
extrahierten Kanalenergiesignals den Teilschritt des:
Addierens des erzeugten Maskensignals zu dem extrahierten
Kanalenergiesignal umfaßt.
8. Verfahren nach Anspruch 2, das weiterhin den Schritt der:
Glättung des maskierten Kanalenergiesignals umfaßt.
9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt
des Gewinnens der Proben-Standardabweichung die Teilschritte des:
Speicherns einer Vielzahl von vorher gewonnenen maskierten Signalwerten
in einem Puffer;
Ersetzen des am wenigsten aktuellen der Vielzahl von maskierten
Signalwerten mit dem aktuellen maskierten Signalwert; und
Berechnung der Probenvarianz zwischen der Vielzahl von maskierten
Signalwerten umfaßt, die in dem Puffer gespeichert sind.
10. Verfahren nach Anspruch 8, das weiterhin den Schritt des:
Gewinnens einer Quadratwurzel der Varianz umfaßt.
11. Verfahren nach Anspruch 3, bei dem der Schritt der Durchführung einer
Hintergrundnormalisierung die Teilschritte des:
Filtern des maskierten Kanalenergiesignals zur Erzeugung eines
geschätzten Hintergrundsignals; und
Subtrahieren des geschätzten Hintergrundsignals von dem maskierten
Kanalenergiesignal umfaßt.
12. Verfahren nach Anspruch 11, bei dem der Schritt des Filterns die
Teilschritte des:
Filterns des maskierten Signals unter Verwendung einer Schätzeinrichtung
für den vorhergehenden Hintergrund;
Filterns des maskierten Signals unter Verwendung einer weitergeschalteten
Hintergrund-Schätzeinrichtung; und
Auswählens des Minimums der gefilterten maskierten Signale als das
geschätzte Hintergrundsignal umfaßt.
13. Verfahren nach Anspruch 2, das weiterhin den Schritt des:
Transformierens des extrahierten Kanalenergiesignals umfaßt.
14. Verfahren nach Anspruch 13, bei dem der Transformierungsschritt das
Gewinnen eines verallgemeinerten Logarithmus (Wurzel) des extrahierten
Kanalenergiesignals einschließt.
15. Vorrichtung für ein Spracherkennungssystem, das in der Lage ist,
Vordergrund-Sprache bei Vorliegen von Hintergrundstörungen zu empfangen, mit:
Einrichtungen (302, 304) zum Extrahieren eines Kanalsignals für einen
Rahmen;
Einrichtungen (306) zur Erzeugung eines Maskensignals für den Rahmen
aus dem Kanalsignal;
Einrichtungen (308) zum Maskieren des extrahierten Kanalsignals unter
Verwendung des erzeugten Maskensignals für den Rahmen;
Einrichtungen (312) zum Gewinnen einer Proben-Standardabweichung des
maskierten Kanalsignals über ein Zeitfenster; und
Einrichtungen zur Erzeugung von Vordergrund-Sprache-Endpunkten unter
Verwendung der Proben-Standardabweichung.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/950,417 US6134524A (en) | 1997-10-24 | 1997-10-24 | Method and apparatus to detect and delimit foreground speech |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69811310D1 DE69811310D1 (de) | 2003-03-20 |
DE69811310T2 true DE69811310T2 (de) | 2003-10-16 |
Family
ID=25490403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69811310T Expired - Fee Related DE69811310T2 (de) | 1997-10-24 | 1998-10-23 | Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen |
Country Status (4)
Country | Link |
---|---|
US (1) | US6134524A (de) |
EP (1) | EP0911806B1 (de) |
CA (1) | CA2250649A1 (de) |
DE (1) | DE69811310T2 (de) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6600874B1 (en) * | 1997-03-19 | 2003-07-29 | Hitachi, Ltd. | Method and device for detecting starting and ending points of sound segment in video |
US6321197B1 (en) * | 1999-01-22 | 2001-11-20 | Motorola, Inc. | Communication device and method for endpointing speech utterances |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
US6621834B1 (en) * | 1999-11-05 | 2003-09-16 | Raindance Communications, Inc. | System and method for voice transmission over network protocols |
US7263074B2 (en) * | 1999-12-09 | 2007-08-28 | Broadcom Corporation | Voice activity detection based on far-end and near-end statistics |
US7254532B2 (en) * | 2000-04-28 | 2007-08-07 | Deutsche Telekom Ag | Method for making a voice activity decision |
US7421393B1 (en) | 2004-03-01 | 2008-09-02 | At&T Corp. | System for developing a dialog manager using modular spoken-dialog components |
US7412393B1 (en) * | 2004-03-01 | 2008-08-12 | At&T Corp. | Method for developing a dialog manager using modular spoken-dialog components |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US9185487B2 (en) * | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
US8194880B2 (en) | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
US8204252B1 (en) | 2006-10-10 | 2012-06-19 | Audience, Inc. | System and method for providing close microphone adaptive array processing |
US8744844B2 (en) | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US8150065B2 (en) * | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8934641B2 (en) | 2006-05-25 | 2015-01-13 | Audience, Inc. | Systems and methods for reconstructing decomposed audio signals |
US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
US8849231B1 (en) | 2007-08-08 | 2014-09-30 | Audience, Inc. | System and method for adaptive power control |
US8259926B1 (en) | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
US8189766B1 (en) | 2007-07-26 | 2012-05-29 | Audience, Inc. | System and method for blind subband acoustic echo cancellation postfiltering |
US8143620B1 (en) | 2007-12-21 | 2012-03-27 | Audience, Inc. | System and method for adaptive classification of audio sources |
US8180064B1 (en) | 2007-12-21 | 2012-05-15 | Audience, Inc. | System and method for providing voice equalization |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US8355511B2 (en) | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
JP5423670B2 (ja) * | 2008-04-30 | 2014-02-19 | 日本電気株式会社 | 音響モデル学習装置および音声認識装置 |
US8521530B1 (en) * | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
US8774423B1 (en) | 2008-06-30 | 2014-07-08 | Audience, Inc. | System and method for controlling adaptivity of signal modification using a phantom coefficient |
US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
GB2504341A (en) * | 2012-07-26 | 2014-01-29 | Snell Ltd | Determining the value of a specified quantile using iterative estimation |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
WO2016033364A1 (en) | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-sourced noise suppression |
US10109277B2 (en) * | 2015-04-27 | 2018-10-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using visual information |
US9898847B2 (en) * | 2015-11-30 | 2018-02-20 | Shanghai Sunson Activated Carbon Technology Co., Ltd. | Multimedia picture generating method, device and electronic device |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
US4718096A (en) * | 1983-05-18 | 1988-01-05 | Speech Systems, Inc. | Speech recognition system |
JPS603700A (ja) * | 1983-06-22 | 1985-01-10 | 日本電気株式会社 | 音声検出方式 |
US4696039A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with silence suppression |
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
US4764966A (en) * | 1985-10-11 | 1988-08-16 | International Business Machines Corporation | Method and apparatus for voice detection having adaptive sensitivity |
US4742537A (en) * | 1986-06-04 | 1988-05-03 | Electronic Information Systems, Inc. | Telephone line monitoring system |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
US5007000A (en) * | 1989-06-28 | 1991-04-09 | International Telesystems Corp. | Classification of audio signals on a telephone line |
US5062137A (en) * | 1989-07-27 | 1991-10-29 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
EP0747879B1 (de) * | 1990-05-28 | 2002-08-07 | Matsushita Electric Industrial Co., Ltd. | Sprachkodierer |
US5323322A (en) * | 1992-03-05 | 1994-06-21 | Trimble Navigation Limited | Networked differential GPS system |
US5323337A (en) * | 1992-08-04 | 1994-06-21 | Loral Aerospace Corp. | Signal detector employing mean energy and variance of energy content comparison for noise detection |
US5579431A (en) * | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
US5490204A (en) * | 1994-03-01 | 1996-02-06 | Safco Corporation | Automated quality assessment system for cellular networks |
EP0721257B1 (de) * | 1995-01-09 | 2005-03-30 | Daewoo Electronics Corporation | Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie |
US5598466A (en) * | 1995-08-28 | 1997-01-28 | Intel Corporation | Voice activity detector for half-duplex audio communication system |
-
1997
- 1997-10-24 US US08/950,417 patent/US6134524A/en not_active Expired - Lifetime
-
1998
- 1998-10-20 CA CA002250649A patent/CA2250649A1/en not_active Abandoned
- 1998-10-23 EP EP98308691A patent/EP0911806B1/de not_active Expired - Lifetime
- 1998-10-23 DE DE69811310T patent/DE69811310T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CA2250649A1 (en) | 1999-04-24 |
DE69811310D1 (de) | 2003-03-20 |
US6134524A (en) | 2000-10-17 |
EP0911806A3 (de) | 2001-03-21 |
EP0911806A2 (de) | 1999-04-28 |
EP0911806B1 (de) | 2003-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69811310T2 (de) | Verfahren und Vorrichtung zur Detektion und Endpunkt-Detektion von Vordergrund-Sprachsignalen | |
DE69518705T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69714431T2 (de) | Verfahren zum verbessern von verrauschter sprache und gerät | |
DE69612770T2 (de) | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen | |
DE69720087T2 (de) | Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners | |
DE69925905T2 (de) | Blinde trennung von quellen durch faltung mit hilfe eines vielfachdekorrelationsverfahrens | |
DE69524994T2 (de) | Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen | |
DE69412913T2 (de) | Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern | |
DE102006042059B4 (de) | Tonsammelvorrichtung mit Bündelung, Tonsammelverfahren mit Bündelung und Speicherprodukt | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE69600728T2 (de) | Vorrichtung und verfahren zur signalqualitätserfassung | |
DE69903334T2 (de) | Vorrichtung zur signal-rauschverhältnismessung in einem sprachsignal | |
DE69300413T2 (de) | Verfahren zum Identifizieren von Sprach- und Rufverlaufsignalen. | |
DE69128801T2 (de) | Kodierungssystem | |
DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
DE3236832A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE3510660A1 (de) | Verfahren und einrichtung zum verarbeiten eines signals | |
DE10296616T5 (de) | Bandbreiten-Ausdehnung von akustischen Signalen | |
DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE2636032A1 (de) | Schaltungsanordnung zum extrahieren der grundfrequenz aus einem sprachsignal | |
DE60218329T2 (de) | Verfahren zur parallelen Interferenzunterdrückung mit Doppelgewichtung | |
DE60014031T2 (de) | Sprachererkennung durch korrelierung von spektrogrammen | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |