DE3875894T2 - Adaptive multivariable analyseeinrichtung. - Google Patents

Adaptive multivariable analyseeinrichtung.

Info

Publication number
DE3875894T2
DE3875894T2 DE8888901347T DE3875894T DE3875894T2 DE 3875894 T2 DE3875894 T2 DE 3875894T2 DE 8888901347 T DE8888901347 T DE 8888901347T DE 3875894 T DE3875894 T DE 3875894T DE 3875894 T2 DE3875894 T2 DE 3875894T2
Authority
DE
Germany
Prior art keywords
frame
classifiers
unvoiced
statistical
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE8888901347T
Other languages
English (en)
Other versions
DE3875894D1 (en
Inventor
Lynn Thomson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of DE3875894D1 publication Critical patent/DE3875894D1/de
Application granted granted Critical
Publication of DE3875894T2 publication Critical patent/DE3875894T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Bridges Or Land Bridges (AREA)
  • Paper (AREA)
  • Feedback Control In General (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Measurement Of Radiation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

    Beschreibung Technisches Gebiet
  • Die Erfindung betrifft die Klassifizierung von einen Echtzeitprozeß darstellenden Abtastwerten in Gruppen, wobei jede Gruppe einem Zustand des Echtzeitprozesses entspricht. Im besonderen wird die Klassifizierung in Echtzeit durchgeführt, da jeder Abtastwert unter Verwendung statistischer Techniken erzeugt wird.
  • Hintergrund und Problemstellung
  • In vielen Echtzeitprozessen besteht ein Problem bei dem Versuch, den derzeitigen Zustand des Prozesses in einer sich ändernden Umgebung von derzeitigen und vergangenen Abtastwerten des Prozesses abzuschätzen. Ein Beispiel eines solchen Prozesses ist die Erzeugung von Stimme durch den menschlichen Vokaltrakt. Der durch den Vokaltrakt erzeugte Ton kann eine Grundfrequenz haben - stimmhafter Zustand oder keine Grundfrequenz haben - stimmloser Zustand. Weiterhin kann ein dritter Zustand existieren, falls kein Ton erzeugt wir - ein Zustand der Ruhe. Das Problem der Bestimmung dieser drei Zustände wird als die (voicing/silence-) Stimmhaft-Stimmlos- Ruhe-Entscheidung bezeichnet. Bei Vocoden niedriger Bitrate beruht die Verschlechterung der Sprachqualität oft auf ungenauen Stimrnhaft-Stimmlos-Entscheidungen. Die Schwierigkeit beim korrekten Treffen dieser Stimmhaft-Stimmlos- Entscheidungen liegt an der Tatsache, daß kein einzelner Sprachparameter oder Klassifizierer zuverlässig stimmhafte Sprache von stimmloser Sprache unterscheiden kann. Um die Stimmhaft-Stimmlos-Entscheidung zu treffen, ist es bekannt, viele Sprachklassifizierer in der Form einer gewichteten Summe zu kombinieren. Ein derartiges Verfahren ist in D.P. Prezas et al. "Fast and Accurate Pitch Detection Using Pattern Recognition and adaptive Time-Domain-Analysis", Proc. IEEE Int. Conf. Acoust., Speech and Signal Proc., Band 1, Seiten 109-112, April 1986 erläutert. Wie in diesem Artikel beschrieben wird ein Sprachrahmen als stimmhaft erklärt, falls eine gewichtete Summe von Sprachklassifizierern größer als eine spezifizierte Schwelle ist; und als stimmlos anderenfalls. Mathematisch kann dieses Verhältnis als a'x + b > 0 ausgedrückt werden, wobei "a" ein Vektor ist, der Bewertungen bzw. Gewichte angibt, "x" ein Vektor ist, der den Klassifizierer enthält und "b" ein den Schwellwert darstellender Skalar ist. Die Berwertungen werden bei einem Trainingsprachsatz, bei dem die Stimmhaftigkeit von jedem Rahmen bekannt ist, zur Maximierung der Betriebseigenschaften gewählt. Diese Bewertungen bilden eine Entscheidungsregel, die signifikante Sprachqualitätsverbesserung bei Sprachcodierern im Vergleich zu den nur einen einzigen Parameter verwendenden zur Verfügung stellen.
  • Ein dem festgelegten gewichteten Summenverfahren zugehöriges Problem besteht darin, daß dieses nicht gut funktioniert, wenn sich die Sprachumgebung ändert. Derartige Änderungen der Sprachumgebung können das Resultat eines telefonischen Gespräches sein, das in einem Kraftfahrzeug über ein mobiles Telefon durchgeführt wird, oder können auf verschiedenen telefonischen Übertragern beruhen. Der Grund dafür, daß festgelegte gewichtete Summenverfahren in sich ändernden Umgebungen nicht gut funktionieren, besteht darin, daß viele Sprachklassifizierer durch Hintergrundstörungen, nichtlineare Verzerrungen und Filterung beeinflußt werden. Falls die Stimmhaftigkeit für Sprache mit von dem Trainingsset verschiedenen Charakteristiken zu bestimmen ist, werden die
  • Bewertungen im allgemeinen keine befriedigenden Resultate ergeben.
  • Ein Verfahren zur Anpassung des festgelegten gewichteten Summenverfahrens an sich ändernde Sprachumgebung ist in der Veröffentlichung von J.P. Campbell et al., "Voiced/Unvoiced Classification of Speech with Application to the U.S.Government LPC-10E Algorithm." IEEE International Conference on Acoustics, Speech and Signal Processing, 1986, Tokyo, Band 9.11.4, Seiten 473-476 beschrieben. Diese Veröffentlichung beschreibt die Verwendung von verschiedenen Sätzen von Bewertungen und Schwellwerten, von denen jeder von demselben Satz an Trainingsdaten mit zu den Trainigsdaten für jeden Satz an Bewertungen und Schwellwert hinzugegebenen verschiedenen Pegeln an weißem Rauschen vorher bestimmt wurde. Für jeden Rahmen werden die Sprachabtastwerte durch einen Satz an Bewertungen und einen Schwellwert verarbeitet, nachdem die Resultate von einem dieser Sätze auf der Basis des Wertes eines Signal-zu-Rausch-Verhältnis, SNR, ausgewählt wurde. Der Bereich an möglichen Werten, die das SNR haben kann, wird in Unterbereiche unterteilt, wobei jeder Unterbereich einem dieser Sätze zugeordnet ist. Für jeden Rahmen wird das SNR berechnet; wird der Unterbereich bestimmt; und wird dann der diesem Unterbereich zugeordnete Detektor verwendet, um zu bestimmen, ob der Rahmen stimmlos/stimmhaft ist. Das Problem bei diesem Verfahren besteht darin, daß es nur für die Trainingsdaten mit addiertem weißem Rauschen gültig ist und nicht an einen weiten Bereich von Sprachumgebungen und Sprechern anpaßbar ist. Deshalb besteht ein Bedarf an einem Stimmhaft-Detektor, der für eine sich ändernde Umgebung und verschiedene Sprecher zuverlässig bestimmen kann, ob Sprache stimmlos oder stimmhaft ist.
  • B.S. Atal und L.R. Rabiner beschreiben in "A Pattern Recognition Approach to Voiced-Unvoiced-Silence Classification with Applications to Speech Recognition", IEEE Trans. Acoust., Speech Signal Processing, Band ASSP-24, Nr. 3, Seiten 201-212, Juni 1976, ein Verfahren zum Unterscheiden zwischen Ruhe, stimmhafter Sprache und stimmloser Sprache aus einer Vielzahl von Klassifizierern unter Verwendung eines Minimalabstandskriteriums, bei welchem der Abstand durch Mittelwerte und Covarianzen der Klassifizierer für die drei Klassen definiert wird, die aus einem manuell klassifizierten Satz an Trainingsäußerungen bestimmt sind.
  • P. de Souza beschreibt in "A Statistical Approach to the Design of an Adaptive Self-Normalizing Silence Detector", IEEE Trans. Acoust. Speech, Signal Processing, Band ASSP-31, Nr. 3, Seiten 678-684, Juni 1983, ein Verfahren zum Erkennen von Ruhe, in welchem die erste Halbsekunde eines Eingangssignals als ruhig angenommen wird und Mittelwerte und Covarianzen der Klassifizierer aus diesem kleinen Abtastwert berechnet werden. Diese werden dann verwendet, um unter Verwendung einer statistischen Prüfung eine nachfolgende Halbsekunde an Ruhe zu erkennen, die dann zu dem Originalabtastwert und zu den zu aktualisierenden Mittelwerten und Covarianzen hinzugefügt wird, und so weiter, bis zehn Halbsekunden an Ruhe gesammelt wurden. Der Detektor kehrt dann unter Verwendung der aus den zehn Halbsekunden an Ruhe abgeleiteten Mittelwerten und Covarianzen zu dem Beginn des Signals zurück.
  • Lösung
  • Die vorliegende Erfindung stellt demgemäß eine Vorrichtung zum Analysieren ruhefreier Sprache zum Treffen einer Stimmhaft- Stimmlos-Entscheidung für Sprachsignale, wie in Anspruch 1 beschrieben, zur Verfügung.
  • Das vorstehend beschriebene Problem wird durch eine Vorrichtung, die in Ansprechen auf Echtzeitabtastwerte eines physikalischen Prozesses statistische Verteilung für eine Vielzahl von Prozeßzuständen bestimmt und aus diesen Verteilungen Entscheidungsbereiche aufbaut, gelöst und technischer Fortschritt erreicht. Die letzteren Bereiche werden verwendet, um den derzeitigen Prozeßzustand zu bestimmen, wenn jeder Prozeßabtastwert erzeugt wird. Für die Verwendung beim Treffen einer Stimmhaft-Stimmlos-Entscheidung paßt sich die Vorrichtung an eine sich ändernde Sprachumgebung unter Verwendung der Statistiken der Klassifizierer der Sprache an. Die Statistiken beruhen auf den Klassifizierern und werden verwendet, um die in der Stimmhaft-Stimmlos- Entscheidung verwendeten Entscheidungsbereiche zu modifizieren. In vorteilhafter Weise schätzt die Vorrichtung statistische Verteilungen sowohl für stimmhafte als auch für stimmlose Rahmen ab und verwendet diese statistischen Verteilungen zum Bestimmen von Entscheidungsbereichen. Die letzteren Bereiche werden dann verwendet, um zu bestimmen, ob ein derzeitiger Sprachrahmen stimmhaft oder stimmlos ist.
  • In vorteilhafter Weise berechnet ein Stimmhaft-Detektor die Wahrscheinlichkeit, daß der derzeitige Sprachrahmen stimmlos ist, die Wahrscheinlichkeit, daß der derzeitige Sprachrahmen stimmhaft ist und eine insgesamte Wahrscheinlichkeit, daß ein beliebiger Rahmen stimmlos sein wird. Unter Verwendung dieser drei Wahrscheinlichkeiten berechnet der Detektor dann die Wahrscheinlichkeitsverteilung der stimmlosen Rahmen und die Wahrscheinlichkeitsverteilung der stimmhaften Rahmen. Zusätzlich wird die Berechnung zur Bestimmung der Wahrscheinlichkeit, daß der vorliegende Sprachrahmen stimmhaft oder stimmlos ist, durch Ausführung einer statistischen Maximalwahrscheinlichkeitsoperation durchgeführt. die statistische Maximalwahrscheinlichkeitsoperation antwortet ebenfalls auf einen Bewertungsvektor und einen Schwellwert zusätzlich zu den Wahrscheinlichkeiten. In einem weiteren Ausführungsbeispiel wird der Bewertungsvektor und der Schwellwert adaptiv für jeden Rahmen berechnet. Diese adaptive Berechnung des Bewertungsvektor und des Schwellwertes gestattet es dem Detektor, sich schnell an sich ändernde Sprachumgebungen anzupassen.
  • In vorteilhafter Weise hat eine Vorrichtung zum Bestimmen der Anwesenheit der Grundfrequenz in Sprachrahmen eine Schaltung, die in Antwort auf einen Satz von die Sprachattribute eines Sprachrahmens darstellende Klassifizierer einen Satz an statistischen Parametern berechnet. Eine zweite Schaltung berechnet in Antwort auf den berechneten Satz an den die statistische Verteilung definierenden Parametern einen Satz an Bewertungen, von denen jede zu einem der Klassifizierer gehört. Schließlich bestimmt eine dritte Schaltung in Antwort auf den berechneten Satz an Bewertungen und Klassifizierern und den Satz an Parametern die Anwesenheit der Grundfrequenz in den Sprachrahmen oder, wie es üblicherweise ausgedrückt wird, trifft die Stimmlos-Stimmhaft-Entscheidung.
  • In vorteilhafter Weise berechnet die zweite Schaltung ebenfalls einen Schwellwert und einen neuen Bewertungsvektor und überträgt diese Werte an die erste Schaltung, die in Antwort auf diese Werte und einen neuen Satz an Klassifizierern einen weiteren Satz an statistischen Parametern bestimmt. Dieser weitere Satz an statistischen Parametern wird dann verwendet, um die Anwesenheit der Grundfrequenz für den nächsten Sprachrahmen zu bestimmen.
  • In vorteilhafter Weise berechnet die erste Schaltung in Antwort auf den nächsten Satz an Klassifizierern und den neuen Bewertungsvektor und Schwellwert die Wahrscheinlichkeit, daß der nächste Rahmen stimmlos ist, die Wahrscheinlichkeit, daß der nächste Rahmen stimmhaft ist und die insgesamte Wahrscheinlichkeit, daß ein beliebiger Rahmen stimmlos sein wird. Diese Wahrscheinlichkeiten werden dann mit einem Satz an Werten, der das Mittel der Klassifizierer für vergangene und derzeitige Rahmen angibt verwendet, um den weiteren Satz an statistischen Parametern zu bestimmen.
  • Das Verfahren zur Bestimmung einer Stimmlos-Stimmhaft- Entscheidung wird durch die folgenden Schritte durchgeführt: Abschätzen von statistischen Verteilungen für stimmhafte und stimmlose Rahmen, Bestimmen von Entscheidungsbereichen, die stimmhafte und stimmlose Sprache darstellen in Antwort auf die statistischen Verteilungen und Treffen der Stimmlos-Stimmhaft- Entscheidung in Antwort auf die Entscheidungsbereiche und einen derzeitigen Sprachrahmen. zusätzlich werden die statistischen Verteilungen aus der Wahrscheinlichkeit berechnet, daß der derzeitige Sprachrahmen stimmlos ist, der Wahrscheinlichkeit, daß der derzeitige Sprachrahmen stimmhaft ist und der insgesamten Wahrscheinlichkeit, daß ein beliebiger Rahmen stimmlos sein wird. Diese drei Wahrscheinlichkeiten werden als drei Unterschritte des Schrittes des Bestimmens der statistischen Verteilungen berechnet.
  • Figurenbeschreibung
  • Die Erfindung ist aus der nachfolgenden detaillierten Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen besser zu verstehen. Es zeigen:
  • Fig. 1 eine die vorliegende Erfindung erläuterndes Blockdiagramm,
  • Fig. 2 in Blockdiagrammform die vorliegende Erfindung,
  • Fig. 3 und 4 erläutern in größeren Einzelheiten die durch den statistischen Stimmhaft-Detektor 103 aus Fig. 2 durchgeführten Funktionen und
  • Fig. 5 im einzelnen die durch den Block 340 von Fig. 4 durchgeführten Funktionen.
  • Detaillierte Beschreibung
  • Fig. 1 erläutert eine Vorrichtung zum Durchführen der Stimmlos-Stimmhaft-Entscheidungsoperation unter Verwendung eines der Stimmhaft-Detektoren als einen statistischen Stimmhaft-Detektor gemäß dieser Erfindung. Die Vorrichtung nach Fig. 1 verwendet zwei Typen an Detektoren: Diskriminanz- und statistische Stimmhaft-Detektoren. Der statistische Stimmhaft-Detektor 103 ist ein adaptiver Detektor, der die Änderungen in der Sprachumgebung erkennt und die zur Verarbeitung der Klassifizierer, die von dem Klassifizierererzeuger 101 kommen, verwendeten Bewertungen modifiziert, um so die Stimmlos-Stimmhaft-Entscheidung genauer zu treffen. Der Diskriminanz-Stimmhaft-Detektor 102 wird während des anfänglichen Beginnens oder während sich schnell verändernder Sprachumgebungsbedingungen verwendet, wenn der statistische Stimmhaft-Detektor 103 sich noch nicht vollständig an die anfängliche oder die neue Sprachumgebung angepaßt hat.
  • Wir betrachten nunmehr die vollständige Funktion der in Fig.1 dargestellten Vorrichtung. Ein Klassifiziergenerator 101 spricht auf jeden Sprachrahmen an, um Klassifizierer zu erzeugen, die vorzugsweise dem Logarithmus des Sprachenergie, dem Logarithmus der LPC-Verstärkung, dem logarithmischen Bereichsverhältnis des ersten Reflexionskoeffizienten und dem quadratischen Korrelationskoeffizienten zweier Sprachsegmente in einem Rahmen entsprechen, die um eine Grundfrequenz gegeneinander verschoben sind. Die bekannte Berechnung dieser Klassifizierer beruht auf einer digitalen Abtastung der analogen Sprache, auf der Bildung von Rahmen aus den digitalen Abtastwerten und auf einer Verarbeitung dieser Rahmen. Der Generator überträgt die Klassifizierer über eine Leitung 106 zu den Detektoren 102 und 103.
  • Die Detektoren 102 und 103 sprechen auf die über die Leitung 106 empfangenen Klassifizierer an, um eine Stimmhaft/Stimmlos- Entscheidung zu treffen und diese Entscheidungen über die entsprechenden Leitungen 107 und 110 zu einem Multiplexer 105 zu übertragen. Ferner legen die Detektoren zwischen stimmhaften und stimmlosen Rahmen ein Abstandsmaß fest und übertragen diese Abstände über Leitungen 108 und 109 zu einem Komparator 104. Diese Abstände können vorteilhafterweise Mahalanobis-Abstände oder andere verallgemeinerte Abstände sein. Der Komparator 104 spricht auf die über die Leitungen 108 und 109 empfangenen Abstände an, um den Multiplexer 105 so zu steuern, daß der letzte Multiplexer den Ausgang des Detektors auswählt, der den größten Abstand erzeugt.
  • In Fig. 2 ist der statistische Stimmhaft-Detektor 103 näher erläutert. Für jeden Sprachrahmen wird ein Satz von Klassifizierern, auch Vektorklassifizierer genannt, vom Klassifiziergenerator 101 über die Leitung 106 empfangen. Ein Ruhedetektor 201 spricht auf diese Klassifizierer an, um zu bestimmen, ob eine Sprache im gegenwärtigen Rahmen vorhanden ist. Wenn eine Sprache vorliegt, überträgt der Detektor 201 ein Signal über eine Leitung 210. Ist keine Sprache (Ruhe) im Rahmen vorhanden, ist nur ein Subtrahierer 207 und ein U/V- Determinator 205 für den besonderen Rahmen betriebsbereit.Gleichgültig ob Sprache vorhanden ist oder nicht, die Stimmhaft/Stimmlos-Entscheidung wird vom Determinator 205 für jeden Rahmen getroffen.
  • Unter Ansprechen auf das Signal vom Detektor 201 behält ein Klassifiziermittelwertbildner 202 einen Mittelwert der einzelnen, über die Leitung 106 empfangenen Klassifizierer bei, indem der Durchschnittswert der Klassifizierer für den gegenwärtigen Rahmen zusammen mit dem für vorherige Rahmen gebildet wird. Ist Sprache (Nicht-Ruhe) im Rahmen vorhanden, dann signalisiert dies der Ruhedetektor 201 dem statistischen Rechner 203, dem Generator 206 und dem Mittelwertbildner 202 über die Leitung 210.
  • Der statistische Rechner 203 berechnet statistische Verteilungen für stimmhafte und stimmlose Rahmen. Insbesondere spricht der Rechner 203 auf über die Leitung 210 empfangene Signale an, um die Gesamtwahrscheinlichkeit für einen stimmlosen und stimmhaften Rahmen zu berechnen. Weiter berechnet der statistische Rechner 203 die statistischen Werte, die jeder Klassifizierer aufweisen würde, wenn der Rahmen stimmlos wäre und die statistischen Werte, die jeder Klassifizierer besitzen würde, wenn der Rahmen stimmhaft wäre. Ferner berechnet der Rechner 203 die Kovarianzmatrix der Klassifizierer. Vorzugsweise entspricht der statistische Wert dem Durchschnittswert. Die vom Rechner 203 ausgeführten Berechnungen basieren nicht nur auf dem gegenwärtigen sondern auch auf den vorherigen Rahmen. Der statistische Rechner 203 führt diese Berechnungen nicht nur auf der Grundlage der über die Leitung 211 empfangenen Klassifizierer aus, sondern auch auf der Grundlage der Gewichtung jedes Klassifizierers und eines Schwellenwertes, der definiert, ob ein vom Gewichtungsrechner 204 über die Leitung 213 empfangener Rahmen stimmlos oder stimmhaft ist.
  • Der Gewichtungsrechner 204 spricht an auf die Wahrscheinlichkeiten, die Kovarianzmatrix und die statistischen Klassifizierwerte für den augenblicklichen Rahmen, wie sie vom Rechner 203 erzeugt und über die Leitung 212 empfangen werden, um die als Gewichtungsvektor a für jede Klassifizierung und als Schwellenwert b für den augenblicklichen Rahmen benutzten Werte erneut zu berechnen. Die neuen Werte a und b werden dann über eine Leitung 213 zum statistischen Rechner 203 zurückübertragen.
  • Ebenso überträgt der Gewichtungsrechner 204 die Gewichtungen und die statistischen Werte für die Klassifizierer in den stimmlosen und stimmhaften Bereichen über eine Leitung 214, den Determinator 205 und eine Leitung 208 zum Generator 206. Der letztgenannte Generator spricht auf diese Informationen an, um das Abstandsmaß zu berechnen, das nachfolgend über eine Leitung 109 zum Komparator 104 übertragen wird, wie in Fig.1 dargestellt.
  • Der U/V-Determinator 205 spricht auf die über die Leitungen 214 und 215 übertragenen Informationen an, um zu bestimmen, ob der Rahmen stimmlos oder stimmhaft ist und um diese Entscheidung über die Leitung 110 zum Multiplexer 105 zu übertragen, s. Fig.1.
  • Wir betrachten nun die Funktion eines jeden in Fig. 2 dargestellten Blocks näher, der nunmehr in Termen eines mathematischen Vektors und einer mathematischen Matrix angegeben wird. Der Durchschnittsbildner 202, der statistische Rechner 203 und der Gewichtungsberechner 204 verwirklichen einen verbesserten EM-Algorithmus, der dem in dem Artikel von N.E. Day mit dem Titel "Estimating the Components of a Mixture of Normal Distributions",Biometrika, Vol.56,no.3,PP463- 474,1969 ähnlich ist. Unter Benutzung eines abfallenden Mittelwertes berechnet der Klassifiziermittler 202 den Mittelwert der Klassifizierer des augenblicklichen und vorheriger Rahmen, indem er die folgenden Gleichungen 1, 2 und 3 ausführt:
  • n = n + 1 wenn n < 2000 (1)
  • z = 1/n (2)
  • Xn = (1 - z)Xn-1 + zxn (3)
  • Xn ist ein Vektor, der die Klassifizierer des augenblicklichen Rahmens darstellt und n ist die Anzahl der Rahmen, die bis zu 2000 verarbeitet worden sind. z entspricht dem abfallenden Mittelwertkoeffizienten und Xn stellt den Mittelwert der Klassifizierer des augenblicklichen und letzten Rahmens dar. Der statistische Rechner 203 spricht auf den Empfang von den z, xn und Xn Informationen an, um die Kovarianzmatrix T zu berechnen, indem zuerst die Matrix der Quadrat- und Produktsummen wie folgt berechnet werden:
  • Qn = (1 - z)Qn-1 + zxnx'n (4)
  • Nachdem Qn berechnet worden ist, wird T wie folgt berechnet:
  • T = Qn - XnX'n (5)
  • Die Mittelwerte werden von den Klassifizierern wie folgt subtrahiert:
  • xn = xn - Xn (6)
  • Als nächstes ermittelt der Rechner 203 die Wahrscheinlichkeit, daß der durch den augenblicklichen Vektor xn dargestellte Rahmen stimmlos ist, indem die unten gezeigte Gleichung 7 gelöst wird, wobei vorzugsweise die Komponenten des Vektors a folgendermaßen initialisiert werden: die dem Logarithmus der Sprachenergie entsprechende Komponente ist gleich 0.3918606, die dem Logarithmus der LPC-Verstärkung entsprechende Komponente ist gleich -0.0520902, die dem Logarithmus des Bereichsverhältnisses des ersten Reflexionskoeffizienten entsprechende Komponente ist gleich 0.5637082 , die dem quadrierten Korrelationskoeffizienten entsprechende Komponente ist gleich 1.361249 und b ist anfänglich gleich -8.36454:
  • P(u xn) = 1/(1 + exp(a'xn + b)) (7)
  • Nach der Berechnung der Gleichung 7 ermittelt der Rechner 203 die Wahrscheinlichkeit, daß die Klassifizierer einen stimmhaften Rahmen darstellen, indem folgende Gleichung gelöst wird:
  • P(v xn) = 1 - P(u xn) (8)
  • Als nächstes ermittelt der Rechner die Gesamtwahrscheinlichkeit, daß irgendein Rahmen stimmlos sein wird durch die Lösung der Gleichung 9 für pn: pn = (1 - z)pn-1 + zP(u xn) (9)
  • Nach der Ermittlung der Wahrscheinlichkeit, daß der Rahmen stimmlos sein wird, ermittelt der Rechner 203 zwei Vektoren u und v, die die Mittelwerte für jeden Klassifizierer eines stimmlosen und stimmhaften Rahmens angeben. Die Vektoren u und v sind die entsprechenden statistischen Mittelwerte eines stimmlosen und stimmhaften Rahmens. Der Vektor u als statistischer, stimmloser Mittelwertvektor enthält die Mittelwerte aller Klassifizierer, wenn ein Rahmen stimmlos ist. Der Vektor v als statistischer, stimmhafter Mittelwertvektor gibt den Mittelwert für jeden Klassifizierer an, wenn ein Rahmen stimmhaft ist. Der Vektor u des augenblicklichen Rahmens wird durch Berechnung der Gleichung 10 und der Vektor v durch Berechnung der Gleichung 11 wie folgt ermittelt:
  • un=(1-z)un-1+zxnP(u xn )/pn-zxn (10)
  • vn=(1-z)vn-1+zxnP(v xn )/(1-pn)-zxn (11)
  • Der Rechner 203 überträgt nunmehr die Vektoren u und v, die T- Matrix und die Wahrscheinlichkeit p über die Leitung 212 zum Gewichtungsberechner 204.
  • Der Gewichtungsberechner 204 spricht auf diese Informationen an, um neue Werte für den Vektor a und den Skalar b zu berechnen. Diese neuen Werte werden dann über die Leitung 213 zum statistischen Rechner 203 zurückübertragen. Dies erlaubt dem Detektor 103, sich schnell an sich ändernde Verhältnisse anzupassen. Wenn die neuen Werte für den Vektor a und den Skalar b nicht zum statistischen Rechner 203 zurückübertragen werden, wird der Detektor 103 vorzugsweise fortfahren, sich an ändernde Verhältnisse anzupassen, solange die Vektoren u und v aktualisiert werden. Wie noch gezeigt wird, benutzt der Determinator 205 die Vektoren u und v wie auch den Vektor a und den Skalar b dazu, eine Intonationsentscheidung zu treffen. Ist n größer als vorzugsweise 99, werden der Vektor a und der Skalar b wie folgt berechnet. Der Vektor a wird durch folgende Gleichung bestimmt:
  • Der Skalar b wird durch folgende Gleichung ermittelt:
  • b = -1/2 a'(un+vn) + log[(1-pn)/pn] (13)
  • Nach der Berechnung der Gleichungen 12 und 13 überträgt der Gewichtungsberechner 204 die Vektoren a, u und v über die Leitung 214 zu Block 205. Wenn der Rahmen Ruhe enthält, wird lediglich Gleichung 6 berechnet.
  • Der Determinator 205 spricht auf diese übermittelten Informationen an, um zu entscheiden, ob der augenblickliche Rahmen stimmhaft oder stimmlos ist. Ist die dem Vektorelement (vn - un) entsprechende Leistung positiv, dann wird ein Rahmen als stimmhaft erklärt, wenn die folgende Gleichung wahr ist:
  • a'xn - a'(un + vn)/2 > 0 (14)
  • Ist die dem Vektorelement (vn - un) entsprechende Leistung negativ, dann wird ein Rahmen als stimmhaft erklärt, wenn die folgende Gleichung wahr ist:
  • a'xn - a'(un + vn)/2 < 0 (15)
  • Gleichung 14 kann wie folgt umgeschrieben werden:
  • a'xn + b - log[(1-pn)/pn] > 0
  • Gleichung 15 kann wie folgt umgeschrieben werden:
  • a'xn + b - log[(1-pn)/pn] < 0
  • Sind die vorherigen Bedingungen nicht erfüllt, dann erklärt der Determinator den Rahmen als stimmlos. Die Gleichungen 14 und 15 stellen Entscheidungsbereiche dar, um eine Intonationsentscheidung zu treffen. Der logarithmische Term der umgeschriebenen Gleichungen 14 und 15 kann bei einer Änderung des Leistungsmerkmals eliminiert werden. Vorzugsweise ist im vorliegenden Beispiel das der Leistung entsprechende Element der Logarithmus der Sprachenergie.
  • Der Generator 206 spricht auf die vom Rechner 204 über die Leitung 214 empfangenen Informationen an, um das Abstandsmaß A wie folgt zu berechnen. Zuerst wird die Diskriminanzvariable durch Gleichung 16 wie folgt gelöst:
  • d = a'xn + b - log[(1-pn)/pn] (16)
  • Einem Durchschnittsfachmann ist es bekannt, vorzugsweise verschiedene Typen von Intonationsdetektoren zu verwenden, um einen dem Wert d entsprechenden Wert für die Benutzung in der folgenden Gleichung zu erzeugen. Ein solcher Detektor könnte ein Autokorrelationsdetektor sein. Wenn der Rahmen stimmhaft ist, werden die Gleichungen 17 bis 20 wie folgt bestimmt:
  • m&sub1; = (1 - z)m&sub1; + zd (17)
  • s&sub1; = (1 - z)s&sub1; + zd² und (18)
  • k&sub1; = s&sub1; - m&sub1; ! (19)
  • wobei m&sub1; der Mittelwert der stimmhaften Rahmen und k&sub1; die Varianz für die stimmhaften Rahmen ist.
  • Die Wahrscheinlichkeit Pd, daß der Determinator 205 einen Rahmen für stimmlos erklärt, wird durch folgende Gleichung berechnet:
  • Pd = (1 - z)Pd (20)
  • Vorzugsweise wird Pd anfänglich auf 0.5 gesetzt.
  • Wenn der Rahmen stimmlos ist, werden die Gleichungen 21 bis 24 wie folgt gelöst:
  • m&sub0; = (1 - z)m&sub0; + zd, (21)
  • s0 = (1 - z)s0 + zd² und (22)
  • k&sub0; = s0 - m&sub0; ! (23)
  • Die Wahrscheinlichkeit Pd, daß der Determinator 205 einen Rahmen für stimmlos erklärt, wird durch folgende Gleichung berechnet:
  • Pd = (1 - z)Pd + z. (24)
  • Nach der Berechnung der Gleichungen 16 bis 22, wird das Abstandsmaß oder der Hauptwert wie folgt berechnet:
  • Die Gleichung 25 benutzt eine Zwei-Abtast T²- Statistik nach Hotelling (Hotellng's two-sample T² statistic), um das Abstandsmaß zu berechnen. Für die Gleichung 25 gilt, je größer der Hauptwert desto größer die Trennung. Es existieren jedoch auch andere Hauptwerte, bei denen gilt, je kleiner der Hauptwert desto größer die Trennung. Vorzugsweise kann das Abstandsmaß auch ein Mahalanobis-Abstand sein, der durch folgende Gleichung gegeben ist:
  • Vorzugsweise ist eine dritte Technik durch folgende Gleichung gegeben:
  • Vorzugsweise wird eine vierte Technik zum Berechnen des Abstandsmaß durch folgende Gleichung bestimmt:
  • A² = a'(vn -un) (28)
  • Der Diskriminanzdetektor 102 trifft die Stimmlos/Stimmhaft- Entscheidung, indem er eine Information über die Leitung 107 zum Multiplexer 105 überträgt und einen stimmhaften Rahmen anzeigt, wenn a'x + b > 0 ist. Wenn diese Bedingung nicht wahr ist, dann zeigt der Detektor 102 einen stimmlosen Rahmen an. Die vom Detektor 102 benutzten Werte für den Vektor a und den Skalar b stimmen vorzugsweise mit den Anfangswerten a und b des statistischen Stimmhaft-Detektors 103 überein.
  • Der Detektor 102 ermittelt das Abstandsmaß in ähnlicher Weise wie der Generator 206 unter Ausführung von Gleichungen, die den Gleichungen 16 bis 28 entsprechen sind.
  • In den Flußdiagrammen erläutern die Figuren 3 und 4 im größeren Detail die vom statistischen Stimmhaft-Detektor 103 nach Fig. 2 ausgeführten Funktionen.Die Blöcke 302 und 300 verwirklichen die Blöcke 202 und 201 nach Fig. 2 entsprechend. Die Blöcke 304 bis 318 implementieren den Statistikrechner 203. Die Blöcke 320 und 322 stellen den Gewichtungsrechner 204 und die Blöcke 326 bis 338 den Block 205 nach Fig. 2 dar. Der Generator 206 in Fig. 2 wird durch den Block 340 realisiert. Der Subtrahierer 207 wird durch den Block 308 oder 324 implementiert.
  • Der Block 302 berechnet den Vektor, der den Mittelwert der Klassifizierer für den gegenwärtigen Rahmen und alle vorherigen Rahmen darstellt. Der Block 300 bestimmt, ob Sprache oder Ruhe im gegenwärtigen Rahmen vorhanden ist; und wenn Ruhe im gegenwärtigen Rahmen vorliegt, wird der Mittelwert jedes Klassifizierers von jedem Klassifizierer durch den Block 324 abgezogen, bevor ein Steuersignal zum Entscheidungsblock 326 übertragen wird. Enthält der gegenwärtige Rahmen jedoch Sprache, dann werden die statistischen- und Gewichtungsberechnungen durch die Blöcke 304 bis 322 ausgeführt. Zuerst wird der Mittelwertvektor in Block 302 gefunden. Zweitens wird die Summe der Quadrat- und Produktmatrix in Block 304 berechnet. Die letztere Matrix wird zusammen mit dem den Mittelwert der Klassifizierer des gegenwärtigen und letzten Rahmens darstellenden Vektor X benutzt, um die Kovarianzmatrix T im Block 306 zu berechnen. Der Mittelwert X wird dann von dem Klassifiziervektor xn im Block 308 subtrahiert.
  • Der Block 310 berechnet dann unter Verwendung des augenblicklichen Gewichtungsvektors a, des augenblicklichen Schwellenwertes b und des Klassifiziervektors xn des augenblicklichen Rahmens die Wahrscheinlichkeit, daß der gegenwärtige Rahmen stimmlos ist. Nach der Berechnung der Wahrscheinlichkeit, daß der gegenwärtige Rahmen stimmlos ist, wird die Wahrscheinlichkeit im Block 312 berechnet, daß der gegenwärtige Rahmen stimmhaft ist. Danach wird die Gesamtwahrscheinlichkeit pn durch Block 314 berechnet, daß irgendein Rahmen stimmlos sein wird.
  • Die Blöcke 316 und 318 berechnen zwei Vektoren, nämlich u und v: Die in Vektor u enthaltenen Werte bilden die statistischen Durchschnittswerte, die jeder Klassifizierer aufweisen würde, wenn der Rahmen stimmlos wäre. Wohingegen der Vektor v Werte enthält, die die statistischen Durchschnittswerte darstellen, die jeder Klassifizierer haben würde, wenn der Rahmen stimmhaft wäre. Die aktuellen Klassifiziervektoren des gegenwärtigen und vorherigen Rahmens werden entweder um den Vektor u oder den Vektor v angehäuft. Die die Klassifizierer des vorherigen und gegenwärtigen Rahmens darstellenden Vektoren werden um den Vektor u angehäuft, wenn diese Rahmen für stimmlos erachtet werden, andernfalls werden die vorherigen Klassifiziervektoren um den Vektor v angehäuft.
  • Nach der Ausführung der Blöcke 316 und 318 wird ein Steuersignal zum Entscheidungsblock 320 übertragen. Ist N größer als 99, dann wird das Steuersignal zum Block 322 übertragen andernfalls zum Block 326. Auf den Empfang des Steuersignal berechnet der Block 322 einen neuen Gewichtungsvektor a und einen neuen Schwellenwert b. Der Vektor a und der Wert b werden im nächsten nachfolgenden Rahmen unter Vorausgehen der Blöcke in Fig. 3 verwendet. Vorteilhafterweise werden der Vektor a und der Skalar b niemals geändert und der Detektor 103 wird auch nur auf Grund der Vektoren v und u, wie in den Blöcken 326 bis 338 erläutert, angepaßt, wenn N größer als unendlich sein soll.
  • Die Blöcke 326 und 338 implementieren den u/v-Determinator 205 nach Fig. 2. Der Block 326 bestimmt, ob der Leistungsterm des Vektors v des gegenwärtigen Rahmens größer oder gleich dem Leistungsterm des Vektors u ist. Wenn diese Bedingung wahr ist, dann wird der Entscheidungsblock 328 ausgeführt. Der letztere Entscheidungsblock bestimmt, ob der Stimmhaft/Stimmlos-Test erfüllt ist. Wird der Rahmen im Entscheidungsblock 328 für stimmhaft erachtet, dann wird der Rahmen durch Block 330 als stimmhaft markiert andernfalls wird er durch Block 332 als stimmlos markiert. Wenn der Leistungsterm des Vektors v kleiner ist als der Leistungsterm des Vektors u des gegenwärtigen Rahmens, werden die Funktionen der Blöcke 334 bis 338 ausgeführt und funktionieren in einer ähnlichen Weise. Zum Schluß berechnet der Block 340 das Abstandsmaß.
  • Im Flußdiagramm erläutert Fig.5 die durch den Block 340 ausgeführten Funktionen näher. Ein Entscheidungsblock 501 bestimmt unter Ausführung der Rechnungen 330, 332, 336 oder 338, ob der Rahmen als stimmlos oder stimmhaft angezeigt worden ist. Wurde der Rahmen als stimmhaft gekennzeichnet, wird die Leitung 507 ausgewählt. Ein Block 510 berechnet erneut die Wahrscheinlichkeit Pd , ein Block 502 berechnet erneut den Mittelwert m&sub1; für die stimmhaften Rahmen und ein Block 503 berechnet erneut die Varianz k&sub1; für die stimmhaften Rahmen. Wurde der Rahmen als stimmlos bestimmt, dann wählt der Entscheidungsblock 501 die Leitung 508 aus. Ein Block 509 berechnet erneut die Wahrscheinlichkeit Pd, ein Block 504 berechnet erneut den Mittelwert m&sub0; für stimmlose Rahmen und ein Block 505 berechnet erneut die Varianz k&sub0; für stimmlose Rahmen. Zum Schluß berechnet ein Block 506 unter Ausführung der angezeigten Berechnungen das Entfernungsmaß.

Claims (7)

1. Vorrichtung zur Bereitstellung einer Stimmhaft-Stimmlos- Entscheidung für Sprachsignale bei der Analyse ruhefreier Sprache mit
einer Einrichtung, die unter Ansprechen auf die Sprachsignale diese zur Erzeugung digitaler Sprachsignale abtastet, Rahmen der digitalen Sprachsignale bildet und jeden Rahmen zur Erzeugung eines Satzes von
Sprachattribute definierenden Klassifizierern verarbeitet, dadurch gekennzeichnet,
daß eine erste Einrichtung (203) vorgesehen ist, die unter Ansprechen auf den Sprachattribute definierenden Satz von Klassifizierern eines Rahmens digitaler Sprache einen Satz von Parametern berechnet, die einen Satz statistischer Verteilungen definieren, ferner
eine zweite Einrichtung (204), die unter Ansprechen auf den berechneten Satz statistischer Verteilungen auf der Grundlage des einen Rahmens digitaler Sprache einen Satz von Bewertungen berechnet, die je einem der Klassifizierer zugeordnet sind, und
eine dritte Einrichtung (205), die unter Ansprechen auf den berechneten Satz von Bewertungen und Klassifizierern und den Satz statistischer Verteilungen die Stimmhaft- Stimmlos-Entscheidung für den Sprachrahmen trifft, daß die zweite Einrichtung eine Einrichtung (322) zur Berechnung eines Schwellenwertes unter Ansprechen auf den Satz von Parametern und eine Einrichtung (213, 204) zur Übertragung des Satzes von Bewertungen und des Schwellenwertes zu der ersten Einrichtung aufweist, um für die Berechnung eines weiteren Satzes von Parametern für einen weiteren Sprachrahmen benutzt zu werden, und
daß die erste Einrichtung ferner auf den übertragenen Satz von Bewertungen und einen weiteren Satz von
Klassifizierern, die die Sprachattribute des weiteren Rahmens definieren, um einen weiteren Satz statistischer Parameter zu berechnen, der einen weiteren, aktualisierten Satz statistischer Verteilungen definiert.
2. Vorrichtung nach Anspruch 1,
bei der die erste Einrichtung eine Einrichtung zur Berechnung des Mittelwertes jedes Klassifizierers über vorhergehende Sprachrahmen und eine Einrichtung umfaßt, die unter Ansprechen auf den Mittelwert der Klassifizierer für die vorhergehenden Sprachrahmen und den übertragenen Satz von Bewertungen sowie den weiteren Satz von Klassifizierern den weiteren Satz statistischer Parameter bestimmt.
3. Vorrichtung nach Anspruch 2,
bei der die erste Einrichtung ferner eine Einrichtung zur Berechnung der Wahrscheinlichkeit aufweist, daß der weitere Satz von Klassifizierern einen stimmlosen Rahmen darstellt und der Wahrscheinlichkeit, daß der weitere Satz von Klassifizierern einen stimmhaften Rahmen darstellt,
und eine Einrichtung zur Berechnung der Gesamtwahrscheinlichkeit, daß jeder Rahmen stimmlos ist.
4. Vorrichtung nach Anspruch 3,
bei der die erste Einrichtung ferner eine Einrichtung zur Berechnung eines Satzes statistischer Mittelwertklassifizierer aufweist, die einen stimmlosen Rahmen darstellen, und eines statistischer Mittelwertklassifizierer, die einen stimmhaften Rahmen darstellen.
5. Vorrichtung nach Anspruch 4,
bei der die erste Einrichtung ferner eine Einrichtung zur Berechnung einer Covarianz-Matrix aus dem Satz von einen stimmlosen Rahmen darstellenden Mittelwertklassifizierern für den weiteren Rahmen und aus dem Satz von einen stimmlosen Rahmen darstellenden Klassifizierern für den weiteren Rahmen.
6. Vorrichtung nach Anspruch 5,
bei der die zweite Einrichtung unter Ansprechen auf die Covarianz-Matrix und die Sätze statistischer Mittelwertklassifizierer für sowohl stimmhafte als auch stimmlose Rahmen und die Gesamtwahrscheinlichkeit dafür, daß ein Rahmen stimmlos ist, den weiteren Satz von Parametern bestimmt.
7. Vorrichtung nach Anspruch 6,
bei der die dritte Einrichtung unter Ansprechen auf den weiteren Satz von Parametern und die Sätze von statistischen Mittelwertklassifizierern für stimmlose und stimmhafte Rahmen das Vorhandensein der Grundfrequenz in dem weiteren Rahmen bestimmt.
DE8888901347T 1987-04-03 1988-01-12 Adaptive multivariable analyseeinrichtung. Expired - Lifetime DE3875894T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3429687A 1987-04-03 1987-04-03
PCT/US1988/000030 WO1988007738A1 (en) 1987-04-03 1988-01-12 An adaptive multivariate estimating apparatus

Publications (2)

Publication Number Publication Date
DE3875894D1 DE3875894D1 (en) 1992-12-17
DE3875894T2 true DE3875894T2 (de) 1993-05-19

Family

ID=21875521

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8888901347T Expired - Lifetime DE3875894T2 (de) 1987-04-03 1988-01-12 Adaptive multivariable analyseeinrichtung.

Country Status (9)

Country Link
EP (1) EP0308433B1 (de)
JP (1) JPH01502779A (de)
AT (1) ATE82426T1 (de)
AU (1) AU599459B2 (de)
CA (2) CA1337708C (de)
DE (1) DE3875894T2 (de)
HK (1) HK106693A (de)
SG (1) SG59893G (de)
WO (1) WO1988007738A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1988007739A1 (en) * 1987-04-03 1988-10-06 American Telephone & Telegraph Company An adaptive threshold voiced detector
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3670217B2 (ja) 2000-09-06 2005-07-13 国立大学法人名古屋大学 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
JP4517045B2 (ja) * 2005-04-01 2010-08-04 独立行政法人産業技術総合研究所 音高推定方法及び装置並びに音高推定用プラグラム
CN104517614A (zh) * 2013-09-30 2015-04-15 上海爱聊信息科技有限公司 基于各子带特征参数值的清浊音判决装置及其判决方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1988007739A1 (en) * 1987-04-03 1988-10-06 American Telephone & Telegraph Company An adaptive threshold voiced detector

Also Published As

Publication number Publication date
EP0308433A1 (de) 1989-03-29
AU1222688A (en) 1988-11-02
JPH0795237B1 (de) 1995-10-11
DE3875894D1 (en) 1992-12-17
SG59893G (en) 1993-07-09
ATE82426T1 (de) 1992-11-15
WO1988007738A1 (en) 1988-10-06
AU599459B2 (en) 1990-07-19
CA1337708C (en) 1995-12-05
HK106693A (en) 1993-10-15
EP0308433B1 (de) 1992-11-11
JPH01502779A (ja) 1989-09-21
CA1338251C (en) 1996-04-16

Similar Documents

Publication Publication Date Title
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69127961T2 (de) Verfahren zur Spracherkennung
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE69616568T2 (de) Mustererkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69425776T2 (de) Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind
DE69614989T2 (de) Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE69229124T2 (de) Mehrteiliger expertsystem
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
EP0815553B1 (de) Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN