DE3874471T2

DE3874471T2 - Abstandsmessungskontrolle eines multidetektorsystems.

Info

Publication number: DE3874471T2
Application number: DE8888901684T
Authority: DE
Inventors: Lynn Thomson
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1987-04-03
Filing date: 1988-01-11
Publication date: 1993-02-25
Anticipated expiration: 2008-01-12
Also published as: AU602957B2; AU1242988A; EP0310636A1; EP0310636B1; JPH01502853A; SG59693G; JPH0795238B2; WO1988007740A1; HK108993A; CA1336212C; ATE80488T1; DE3874471D1

Description

Die Erfindung bezieht sich darauf, zu entscheiden, ob in der Sprache eine Grundfrequenz vorhanden ist oder nicht. Sie betrifft ebenso eine Intonationsentscheidung. Insbesondere bezieht sich die Erfindung darauf, aus einer Vielzahl von Stimmhaft-Detektoren einen auszuwählen, der gleichzeitig Sprachabtastwerte verarbeitet, um die Intonationsentscheidung mittels der Auswahl auf der Grundlage einer Abstandsmessungsberechnung zu treffen.
Bei Vocodern niedriger Bitrate hängt die Verschlechterung der Tonqualität häufig von ungenauen Intonationsentscheidungen ab. Die Schwierigkeit, richtige Intonationsentscheidungen zu treffen, liegt darin, daß kein einziger Sprachklassifizierer stimmhafte von stimmloser Sprache zuverlässig unterscheiden kann. Die Verwendung mehrerer Stimmhaft-Detektoren und die Auswahl einer dieser Detektoren, der die Entscheidung trifft, ob die Sprache stimmhaft oder stimmlos ist, ist in dem Aufsatz von "J.P. Campbell, et al.," Voiced/Unvoiced Classification of Speech with Applications to the U.S. Government LPC-10E Algorithmus, "IEEE International Conference on Acoustics, Speech, and Signal Processing, 1986, Tokyo, Vol. 9.11.4,pp.473-476" offenbart.
Diese Schrift offenbart die Verwendung mehrerer, linearer, stimmhaften Diskriminanzdetektoren, die verschiedene Gewichtungen und Schwellenwerte benutzen, um dieselben Sprachklassifizierer für jeden Sprachrahmen zu verarbeiten. Die Gewichtungen und Schwellenwerte werden für jeden Detektor unter Verwendung von Trainingsdaten bestimmt. In jedem Detektor wird zu den Trainingsdaten ein unterschiedlicher Grad weißen Rauschens hinzugefügt. Während der aktuellen Sprachverarbeitung wird der zur Intonationsentscheidung benutzte Detektor unter Oberprüfung des Signal-Geräuschverhältnisses (SNR) festgelegt. Der Bereich der möglichen SNR-Werte ist in Unterbereiche unterteilt, wobei jeder Unterbereich jeweils einem Detektor zugeordnet ist. Für jeden Rahmen, für den das SNR berechnet ist, wird ein Unterbereich festgelegt, und der diesem Unterbereich zugeordnete Detektor ausgewählt, um die Intonationsentscheidung zu treffen.
In "A pattern recognition approach to voiced-unvoiced silence classification with applications to speech recognition" (IEEE Transactions on Acoustics, Speech and Signal Processing, vol ASSP-24, No. 3, June 1976, pages 201-212) offenbaren Atal und Rabiner ein System, in dem verschiedene Maßnahmen (zero crossings, logarithmische Energie, Autokorrelation, erster linearer Voraussagekoeffizient und normierter Voraussagefehler) kombiniert werden, indem vorbestimmte Mittelwerte und Kovarianzen für die drei Signalklassen (stimmhaft, stimmlos und Ruhe) benutzt werden, um drei Abstände, einen für jede Klasse, zu erzeugen. Die Klasse mit dem kleinsten Abstand wird dann dem Signal zugeordnet.
Eine Schwierigkeit bei der Näherung nach dem Stand der Technik liegt darin, daß sie hinsichtlich einer Sprachumgebung, in der die Kennzeichen der Sprache selbst geändert worden sind, nicht gut funktioniert. Außerdem ist die von Campbell benutzte Methode nur für weißes Rauschen ausgelegt und kann nicht bei farbigem Rauschen verwendet werden. Deshalb besteht ein Bedürfnis nach einer Methode zum Auswählen eines stimmhaften Detektors aus einer Vielzahl von Detektoren, die eine Detektion in einer sich verändernden Sprachumgebung erlaubt.
Erfindungsgemäß wird eine Vorrichtung nach Anspruch 1 und ein Verfahren nach Anspruch 17 verfügbar gemacht. Bevorzugte Ausführungsformen sind in den Unteransprüchen umschrieben.
Die Erfindung wird nachstehend anhand von Ausführungsbeispielen in Verbindung mit den Zeichnungen näher erläutert.
Es zeigen:
Fig. 1 ein die vorliegende Erfindung erläuterndes Blockdiagramm,
Fig. 2 in Blockdiagrammform einen statistischen, Stimmhaft- Detektor 103 nach Fig. 1,
Fig. 3 und 4 in größeren Einzelheiten die durch den statistischen Stimmhaft-Detektor 103 ausgeführten Funktionen nach Fig. 2, und
Fig. 5 im einzelnen die durch den Block 340 ausgeführten Funktionen nach Fig. 4.
In Fig. 1 ist eine Vorrichtung zur Ausführung einer Stimmhaft/Stimmlos- Entscheidung unter der Auswahl eines Stimmhaft-Detektors aus zwei Stimmhaft-Detektoren erläutert. Es sollte dem Durchschnittsfachmann offensichtlich sein, auch mehr als zwei Stimmhaft-Detektoren nach Fig. 1 zu verwenden. Die Auswahl zwischen den Detektoren 102 und 103 basiert auf einer Abstandsmessung, die von jedem Detektor erzeugt und zum Abstandskomparator 104 übertragen wird. Jede erzeugte Abstandsmessung stellt einen Hauptwert dar, der die Richtigkeit der Stimmhaft-Entscheidung des erzeugenden Detektors anzeigt. Der Abstandskomparator 104 vergleicht beide Abstandsmeßwerte und steuert einen Multiplexer 105 so, daß der den größten Abstandsmeßwert erzeugende Detektor ausgewählt wird, um die Stimmhaft/Stimmlos-Entscheidung zu treffen. Bei anderen Meßarten würde jedoch der niedrigste Hauptwert den Detektor anzeigen, der die genauere Intonationsentscheidung treffen würde. Vorteilhafterweise kann die Abstandsmessung nach der Mahalanobis-Abstandsmessung erfolgen. Vorzugsweise ist der Detektor 102 ein Diskriminanzdetektor und der Detektor 103 ein statistischer Detektor. Es sollte für einen Durchschnittsfachmann offensichtlich sein, daß die Detektoren alle vom gleichen Typ sein können und daß mehr als zwei Detektoren in dem System verwendet werden können.
Wir betrachten nunmehr die vollständige Funktion der in Fig. 1 dargestellten Vorrichtung. Ein Klassifiziergenerator 101 spricht auf jeden Sprachrahmen an, um Klassifizierer zu erzeugen, die vorzugsweise dem Logarithmus des Sprachenergie, dem Logarithmus der LPC-Verstärkung, dem logarithmischen Bereichsverhältnis des ersten Reflexionskoeffizienten und dem quadratischen Korrelationskoeffizienten zweier Sprachsegmente in einem Rahmen entsprechen, die um eine Grundfrequenz gegeneinander verschoben sind. Die bekannte Berechnung dieser Klassifizierer beruht auf einer digitalen Abtastung der analogen Sprache, auf der Bildung von Rahmen aus den digitalen Abtastwerten und auf einer Verarbeitung dieser Rahmen. Der Generator überträgt die Klassifizierer über eine Leitung 106 zu den Detektoren 102 und 103.
Die Detektoren 102 und 103 sprechen auf die über die Leitung 106 empfangenen Klassifizierer an, um eine Stimmhaft/Stimmlos- Entscheidung zu treffen und diese Entscheidungen über die entsprechenden Leitungen 107 und 110 zu einem Multiplexer 105 zu übertragen. Ferner legen die Detektoren zwischen stimmhaften und stimmlosen Rahmen ein Abstandsmaß fest und übertragen diese Abstände über Leitungen 108 und 109 zu einem Komparator 104. Diese Abstände können vorteilhafterweise Mahalanobis-Abstände oder andere verallgemeinerte Abstände sein. Der Komparator 104 spricht auf die über die Leitungen 108 und 109 empfangenen Abstände an, um den Multiplexer 105 so zu steuern, daß der letzte Multiplexer den Ausgang des Detektors auswählt, der den größten Abstand erzeugt.
In Fig. 2 ist der statistische Stimmhaft-Detektor 103 näher erläutert. Für jeden Sprachrahmen wird ein Satz von Klassifizierern, auch Vektorklassifizierer genannt, vom Klassifiziergenerator 101 über die Leitung 106 empfangen. Ein Ruhedetektor 201 spricht auf diese Klassifizierer an, um zu bestimmen, ob eine Sprache im gegenwärtigen Rahmen vorhanden ist. Wenn eine Sprache vorliegt, überträgt der Detektor 201 ein Signal über eine Leitung 210. Ist keine Sprache (Ruhe) im Rahmen vorhanden, ist nur ein Subtrahierer 207 und ein U/V-Determinator 205 für den besonderen Rahmen betriebsbereit. Gleichgültig ob Sprache vorhanden ist oder nicht, die Stimmhaft/Stimmlos- Entscheidung wird vom Determinator 205 für jeden Rahmen getroffen.
Unter Ansprechen auf das Signal vom Detektor 201 behält ein Klassifiziermittelwertbildner 202 einen Mittelwert der einzelnen, über die Leitung 106 empfangenen Klassifizierer bei, indem der Durchschnittswert der Klassifizierer für den gegenwärtigen Rahmen zusammen mit dem für vorherige Rahmen gebildet wird. Ist Sprache (Nicht-Ruhe) im Rahmen vorhanden, dann signalisiert dies der Ruhedetektor 201 dem statistischen Rechner 203, dem Generator 206 und dem Mittelwertbildner 202 über die Leitung 210.
Der statistische Rechner 203 berechnet statistische Verteilungen für stimmhafte und stimmlose Rahmen. Insbesondere spricht der Rechner 203 auf über die Leitung 210 empfangene Signale an, um die Gesamtwahrscheinlichkeit für einen stimmlosen und stimmhaften Rahmen zu berechnen. Weiter berechnet der statistische Rechner 203 die statistischen Werte, die jeder Klassifizierer aufweisen würde, wenn der Rahmen stimmlos wäre und die statistischen Werte, die jeder Klassifizierer besitzen würde, wenn der Rahmen stimmhaft wäre. Ferner berechnet der Rechner 203 die Kovarianzmatrix der Klassifizierer. Vorzugsweise entspricht der statistische Wert dem Durchschnittswert. Die vom Rechner 203 ausgeführten Berechnungen basieren nicht nur auf dem gegenwärtigen sondern auch auf den vorherigen Rahmen. Der statistische Rechner 203 führt diese Berechnungen nicht nur auf der Grundlage der über die Leitung 211 empfangenen Klassifizierer aus, sondern auch auf der Grundlage der Gewichtung jedes Klassifizierers und eines Schwellenwertes, der definiert, ob ein vom Gewichtungsrechner 204 über die Leitung 213 empfangener Rahmen stimmlos oder stimmhaft ist.
Der Gewichtungsrechner 204 spricht an auf die Wahrscheinlichkeiten, die Kovarianzmatrix und die statistischen Klassifizierwerte für den augenblicklichen Rahmen, wie sie vom Rechner 203 erzeugt und über die Leitung 212 empfangen werden, um die als Gewichtungsvektor a für jede Klassifizierung und als Schwellenwert b für den augenblicklichen Rahmen benutzten Werte erneut zu berechnen. Die neuen Werte a und b werden dann über eine Leitung 213 zum statistischen Rechner 203 zurückübertragen.
Ebenso überträgt der Gewichtungsrechner 204 die Gewichtungen und die statistischen Werte für die Klassifizierer in den stimmlosen und stimmhaften Bereichen über eine Leitung 214, den Determinator 205 und eine Leitung 208 zum Generator 206. Der letztgenannte Generator spricht auf diese Informationen an, um das Abstandsmaß zu berechnen, das nachfolgend über eine Leitung 109 zum Komparator 104 übertragen wird, wie in Fig. 1 dargestellt.
Der U/V-Determinator 205 spricht auf die über die Leitungen 214 und 215 übertragenen Informationen an, um zu bestimmen, ob der Rahmen stimmlos oder stimmhaft ist und um diese Entscheidung über die Leitung 110 zum Multiplexer 105 zu übertragen, s. Fig. 1.
Wir betrachten nun die Funktion eines jeden in Fig. 2 dargestellten Blocks näher, der nunmehr in Termen eines mathematischen Vektors und einer mathematischen Matrix angegeben wird. Der Durchschnittsbildner 202, der statistische Rechner 203 und der Gewichtungsberechner 204 verwirklichen einen verbesserten EM-Algorithmus, der dem in dem Artikel von N.E. Day mit dem Titel "Estimating the Components of a Mixture of Normal Distributions", Biometrika, Vol. 56, no. 3, PP463-474, 1969 ähnlich ist. Unter Benutzung eines abfallenden Mittelwertes berechnet der Klassifiziermittler 202 den Mittelwert der Klassifizierer des augenblicklichen und vorheriger Rahmen, indem er die folgenden Gleichungen 1, 2 und 3 ausführt:
n = n+1 if n < 2000 (1)
z = 1/n (2)
Xn = (1-z)Xn-1 + zxn (3)
xn ist ein Vektor, der die Klassifizierer des augenblicklichen Rahmens darstellt und n ist die Anzahl der Rahmen, die bis zu 2000 verarbeitet worden sind. z entspricht dem abfallenden Mittelwertkoeffizienten und Xn stellt den Mittelwert der Klassifizierer des augenblicklichen und letzten Rahmens dar. Der statistische Rechner 203 spricht auf den Empfang von den z, xn und Xn Informationen an, um die Kovarianzmatrix T zu berechnen, indem zuerst die Matrix der Quadrat- und Produktsummen wie folgt berechnet werden:
Qn = (1-z)Qn-1 + zxnX'n (4)
Nachdem Qn berechnet worden ist, wird T wie folgt berechnet:
T = Qn-XnX'n (5)
Die Mittelwerte werden von den Klassifizierern wie folgt subtrahiert:
xn = x
Als nächstes ermittelt der Rechner 203 die Wahrscheinlichkeit, daß der durch den augenblicklichen Vektor xn dargestellte Rahmen stimmlos ist, indem die unten gezeigte Gleichung 7 gelöst wird, wobei vorzugsweise die Komponenten des Vektors a folgendermaßen initialisiert werden: die dem Logarithmus der Sprachenergie entsprechende Komponente ist gleich 0.3918606, die dem Logarithmus der LPC-Verstärkung entsprechende Komponente ist gleich -0.0520902, die dem Logarithmus des Bereichsverhältnisses des ersten Reflexionskoeffizienten entsprechende Komponente ist gleich 0.5637082, die dem quadrierten Korrelationskoeffizienten entsprechende Komponente ist gleich 1.361249 und b ist anfänglich gleich -8.36454:
P(u Xn) = 1/1 + exp(a'Xn+b) (7)
Nach der Berechnung der Gleichung 7 ermittelt der Rechner 203 die Wahrscheinlichkeit, daß die Klassifizierer einen stimmhaften Rahmen darstellen, indem folgende Gleichung gelöst wird:
P(v xn) = 1-P(u xn) (8)
Als nächstes ermittelt der Rechner die Gesamtwahrscheinlichkeit, daß irgendein Rahmen stimmlos sein wird durch die Lösung der Gleichung 9 für pn:
pn(1-z)pn-1+zP(uxn) (9)
Nach der Ermittlung der Wahrscheinlichkeit, daß der Rahmen stimmlos sein wird, ermittelt der Rechner 203 zwei Vektoren u und v, die die Mittelwerte für jeden Klassifizierer eines stimmlosen und stimmhaften Rahmens angeben. Die Vektoren u und v sind die entsprechenden statistischen Mittelwerte eines stimmlosen und stimmhaften Rahmens. Der Vektor u als statistischer, stimmloser Mittelwertvektor enthält die Mittelwerte aller Klassifizierer, wenn ein Rahmen stimmlos ist. Der Vektor v als statistischer, stimmhafter Mittelwertvektor gibt den Mittelwert für jeden Klassifizierer an, wenn ein Rahmen stimmhaft ist. Der Vektor u des augenblicklichen Rahmens wird durch Berechnung der Gleichung 10 und der Vektor v durch Berechnung der Gleichung 11 wie folgt ermittelt:
un=(1-z)un-1+zxnP(u xn)/pn-zxn (10)
vn=(1-z)vn-1+zxnP(v xn)/(1-pn)-zxn (11)
Der Rechner 203 überträgt nunmehr die Vektoren u und v, die T- Matrix und die Wahrscheinlichkeit p über die Leitung 212 zum Gewichtungsberechner 204.
Der Gewichtungsberechner 204 spricht auf diese Informationen an, um neue Werte für den Vektor a und den Skalar b zu berechnen. Diese neuen Werte werden dann über die Leitung 213 zum statistischen Rechner 203 zurückübertragen. Dies erlaubt dem Detektor 103, sich schnell an sich ändernde Verhältnisse anzupassen. Wenn die neuen Werte für den Vektor a und den Skalar b nicht zum statistischen Rechner 203 zurückübertragen werden, wird der Detektor 103 vorzugsweise fortfahren, sich an ändernde Verhältnisse anzupassen, solange die Vektoren u und v aktualisiert werden. Wie noch gezeigt wird, benutzt der Determinator 205 die Vektoren u und v wie auch den Vektor a und den Skalar b dazu, eine Intonationsentscheidung zu treffen. Ist n größer als vorzugsweise 99, werden der Vektor a und der Skalar b wie folgt berechnet. Der Vektor a wird durch folgende Gleichung bestimmt:
a=T&supmin;¹(vn-un)/1-pn(1-pn)un-vn)'T&supmin;¹(un-vn) (12)
Der Skalar b wird durch folgende Gleichung ermittelt:
b = -1/2 a'(un+vn)+log[(1-pn/pn]. (13)
Nach der Berechnung der Gleichungen 12 und 13 überträgt der Gewichtungsberechner 204 die Vektoren a, u und v über die Leitung 214 zu Block 205. Wenn der Rahmen Ruhe enthält, wird lediglich Gleichung 6 berechnet.
Der Determinator 205 spricht auf diese übermittelten Informationen an, um zu entscheiden, ob der augenblickliche Rahmen stimmhaft oder stimmlos ist. Ist die dem Vektorelement (vn-un) entsprechende Leistung positiv, dann wird ein Rahmen als stimmhaft erklärt, wenn die folgende Gleichung wahr ist:
a'xn-a'(un+vn)/2> 0; (14)
Ist die dem Vektorelement (vn-un) entsprechende Leistung negativ, dann wird ein Rahmen als stimmhaft erklärt, wenn die folgende Gleichung wahr ist:
a'xn-a'(un+vn)/2< 0. (15)
Gleichung 14 kann wie folgt umgeschrieben werden:
a'xn + b - log[(1-pn)/pn]> 0
Gleichung 15 kann wie folgt umgeschrieben werden:
a'xn + b - log[(1-pn)/pn]< 0
Sind die vorherigen Bedingungen nicht erfüllt, dann erklärt der Determinator den Rahmen als stimmlos. Die Gleichungen 14 und 15 stellen Entscheidungsbereiche dar, um eine Intonationsentscheidung zu treffen. Der logarithmische Term der umgeschriebenen Gleichungen 14 und 15 kann bei einer Änderung des Leistungsmerkmals eliminiert werden. Vorzugsweise ist im vorliegenden Beispiel das der Leistung entsprechende Element der Logarithmus der Sprachenergie.
Der Generator 206 spricht auf die vom Rechner 204 über die Leitung 214 empfangenen Informationen an, um das Abstandsmaß A wie folgt zu berechnen. Zuerst wird die Diskriminanzvariable durch Gleichung 16 wie folgt gelöst:
d = a'xn + b - log[(1-pn)/pn] (16)
Einem Durchschnittsfachmann ist es bekannt, vorzugsweise verschiedene Typen von Intonationsdetektoren zu verwenden, um einen dem Wert d entsprechenden Wert für die Benutzung in der folgenden Gleichung zu erzeugen. Ein solcher Detektor könnte ein Autokorrelationsdetektor sein. Wenn der Rahmen stimmhaft ist, werden die Gleichungen 17 bis 20 wie folgt bestimmt:
m&sub1; = (1-z)m&sub1; + zd (17)
s&sub1; = (1-z)s&sub1; + zd² und (18)
k&sub1;=s&sub1;-m (19)
wobei m&sub1; der Mittelwert der stimmhaften Rahmen und k&sub1; die Varianz für die stimmhaften Rahmen ist.
Die Wahrscheinlichkeit Pd, daß der Determinator 205 einen Rahmen für stimmlos erklärt, wird durch folgende Gleichung berechnet:
Pd = (1-z)Pd (20)
Vorzugsweise wird Pd anfänglich auf 0.5 gesetzt.
Wenn der Rahmen stimmlos ist, werden die Gleichungen 21 bis 24 wie folgt gelöst:
m&sub0; = (1-z)m&sub0; + zd, (21)
s0 = (1-z)s0 + zd² und (22)
k&sub0;= S&sub0;-m (23)
Die Wahrscheinlichkeit Pd, daß der Determinator 205 einen Rahmen für stimmlos erklärt, wird durch folgende Gleichung berechnet:
Pd = (1-z)Pd + z. (24)
Nach der Berechnung der Gleichungen 16 bis 22, wird das Abstandsmaß oder der Hauptwert wie folgt berechnet:
A²=Pd(1-Pd)(m&sub1;-m&sub0;)²./(1-Pd)k&sub1;+Pdk&sub0; (25)
Die Gleichung 25 benutzt eine Zwei-Abtast T²-Statistik nach Hotelling (Hotellng's two-sample T² statistic), um das Abstandsmaß zu berechnen. Für die Gleichung 25 gilt, je größer der Hauptwert desto größer die Trennung. Es existieren jedoch auch andere Hauptwerte, bei denen gilt, je kleiner der Hauptwert desto größer die Trennung. Vorzugsweise kann das Abstandsmaß auch ein Mahalanobis-Abstand sein, der durch folgende Gleichung gegeben ist:
A²= (m&sub1;-m&sub0;)²/(1-Pd)k&sub1;+Pdk&sub0;. (26)
Vorzugsweise ist eine dritte Technik durch folgende Gleichung gegeben:
A²= (m&sub1;-m&sub0;)²/(k&sub1;+k&sub0;). (27)
Vorzugsweise wird eine vierte Technik zum Berechnen des Abstandsmaß durch folgende Gleichung bestimmt:
A²= a'(vn-un) (28)
Der Diskriminanzdetektor 102 trifft die Stimmlos/Stimmhaft- Entscheidung, indem er eine Information über die Leitung 107 zum Multiplexer 105 überträgt und einen stimmhaften Rahmen anzeigt, wenn a'x + b > 0 ist. Wenn diese Bedingung nicht wahr ist, dann zeigt der Detektor 102 einen stimmlosen Rahmen an. Die vom Detektor 102 benutzten Werte für den Vektor a und den Skalar b stimmen vorzugsweise mit den Anfangswerten a und b des statistischen Stimmhaft-Detektors 103 überein.
Der Detektor 102 ermittelt das Abstandsmaß in ähnlicher Weise wie der Generator 206 unter Ausführung von Gleichungen, die den Gleichungen 16 bis 28 entsprechen sind.
In den Flußdiagrammen erläutern die Fig. 3 und 4 im größeren Detail die vom statistischen Stimmhaft-Detektor 103 nach Fig. 2 ausgeführten Funktionen. Die Blöcke 302 und 300 verwirklichen die Blöcke 202 und 201 nach Fig. 2 entsprechend. Die Blöcke 304 bis 318 implementieren den Statistikrechner 203. Die Blöcke 320 und 322 stellen den Gewichtungsrechner 204 und die Blöcke 326 bis 338 den Block 205 nach Fig. 2 dar. Der Generator 206 in Fig. 2 wird durch den Block 340 realisiert. Der Subtrahierer 207 wird durch den Block 308 oder 324 implementiert.
Der Block 302 berechnet den Vektor, der den Mittelwert der Klassifizierer für den gegenwärtigen Rahmen und alle vorherigen Rahmen darstellt. Der Block 300 bestimmt, ob Sprache oder Ruhe im gegenwärtigen Rahmen vorhanden ist; und wenn Ruhe im gegenwärtigen Rahmen vorliegt, wird der Mittelwert jedes Klassifizierers von jedem Klassifizierer durch den Block 324 abgezogen, bevor ein Steuersignal zum Entscheidungsblock 326 übertragen wird. Enthält der gegenwärtige Rahmen jedoch Sprache, dann werden die statistischen- und Gewichtungsberechnungen durch die Blöcke 304 bis 322 ausgeführt. Zuerst wird der Mittelwertvektor in Block 302 gefunden. Zweitens wird die Summe der Quadrat- und Produktmatrix in Block 304 berechnet. Die letztere Matrix wird zusammen mit dem den Mittelwert der Klassifizierer des gegenwärtigen und letzten Rahmens darstellenden Vektor X benutzt, um die Kovarianzmatrix T im Block 306 zu berechnen. Der Mittelwert X wird dann von dem Klassifiziervektor xn im Block 308 subtrahiert.
Der Block 310 berechnet dann unter Verwendung des augenblicklichen Gewichtungsvektors a, des augenblicklichen Schwellenwertes b und des Klassifiziervektors xn des augenblicklichen Rahmens die Wahrscheinlichkeit, daß der gegenwärtige Rahmen stimmlos ist. Nach der Berechnung der Wahrscheinlichkeit, daß der gegenwärtige Rahmen stimmlos ist, wird die Wahrscheinlichkeit im Block 312 berechnet, daß der gegenwärtige Rahmen stimmhaft ist. Danach wird die Gesamtwahrscheinlichkeit pn durch Block 314 berechnet, daß irgendein Rahmen stimmlos sein wird.
Die Blöcke 316 und 318 berechnen zwei Vektoren, nämlich u und v: Die in Vektor u enthaltenen Werte bilden die statistischen Durchschnittswerte, die jeder Klassifizierer aufweisen würde, wenn der Rahmen stimmlos wäre. Wohingegen der Vektor v Werte enthält, die die statistischen Durchschnittswerte darstellen, die jeder Klassifizierer haben würde, wenn der Rahmen stimmhaft wäre. Die aktuellen Klassifiziervektoren des gegenwärtigen und vorherigen Rahmens werden entweder um den Vektor u oder den Vektor v angehäuft. Die die Klassifizierer des vorherigen und gegenwärtigen Rahmens darstellenden Vektoren werden um den Vektor u angehäuft, wenn diese Rahmen für stimmlos erachtet werden, andernfalls werden die vorherigen Klassifiziervektoren um den Vektor v angehäuft.
Nach der Ausführung der Blöcke 316 und 318 wird ein Steuersignal zum Entscheidungsblock 320 übertragen. Ist N größer als 99, dann wird das Steuersignal zum Block 322 übertragen andernfalls zum Block 326. Auf den Empfang des Steuersignal berechnet der Block 322 einen neuen Gewichtungsvektor a und einen neuen Schwellenwert b. Der Vektor a und der Wert b werden im nächsten nachfolgenden Rahmen unter Vorausgehen der Blöcke in Fig. 3 verwendet. Vorteilhafterweise werden der Vektor a und der Skalar b niemals geändert und der Detektor 103 wird auch nur auf Grund der Vektoren v und u, wie in den Blöcken 326 bis 338 erläutert, angepaßt, wenn N größer als unendlich sein soll.
Die Blöcke 326 und 338 implementieren den u/v-Determinator 205 nach Fig. 2. Der Block 326 bestimmt, ob der Leistungsterm des Vektors v des gegenwärtigen Rahmens größer oder gleich dem Leistungsterm des Vektors u ist. Wenn diese Bedingung wahr ist, dann wird der Entscheidungsblock 328 ausgeführt. Der letztere Entscheidungsblock bestimmt, ob der Stimmhaft/Stimmlos-Test erfüllt ist. Wird der Rahmen im Entscheidungsblock 328 für stimmhaft erachtet, dann wird der Rahmen durch Block 330 als stimmhaft markiert andernfalls wird er durch Block 332 als stimmlos markiert. Wenn der Leistungsterm des Vektors v kleiner ist als der Leistungsterm des Vektors u des gegenwärtigen Rahmens, werden die Funktionen der Blöcke 334 bis 338 ausgeführt und funktionieren in einer ähnlichen Weise. Zum Schluß berechnet der Block 340 das Abstandsmaß.
Im Flußdiagramm erläutert Fig. 5 die durch den Block 340 ausgeführten Funktionen näher. Ein Entscheidungsblock 501 bestimmt unter Ausführung der Rechnungen 330, 332, 336 oder 338, ob der Rahmen als stimmlos oder stimmhaft angezeigt worden ist. Wurde der Rahmen als stimmhaft gekennzeichnet, wird die Leitung 507 ausgewählt. Ein Block 510 berechnet erneut die Wahrscheinlichkeit Pd, ein Block 502 berechnet erneut den Mittelwert m&sub1; für die stimmhaften Rahmen und ein Block 503 berechnet erneut die Varianz k&sub1; für die stimmhaften Rahien. Wurde der Rahmen als stimmlos bestimmt, dann wählt der Entscheidungsblock 501 die Leitung 508 aus. Ein Block 509 berechnet erneut die Wahrscheinlichkeit P4, ein Block 504 berechnet erneut den Mittelwert m&sub0; für stimmlose Rahmen und ein Block 505 berechnet erneut die Varianz k&sub0; für stimmlose Rahmen. Zum Schluß berechnet ein Block 506 unter Ausführung der angezeigten Berechnungen das Entfernungsmaß.

Claims

1. Vorrichtung zur Bestimmung des Vorhandenseins eines stimmhaften Lautes in Rahmen von Sprache mit einer Vielzahl von unabhängigen Detektoreinrichtungen (102, 103) zur Feststellung des stimmhaften Lautes in einem Rahmen,

dadurch gekennzeichnet,

daß jede der Detektoreinrichtungen eine Einrichtung (209) zur Berechnung eines Gütewertes umfaßt, der den Abstand zwischen stimmhaften und stimmlosen Sprachrahmen definiert, und

daß die Vorrichtung eine Einrichtung (104, 105) zur Auswahl einer der Detektoreinrichtungen für die Anzeige des Vorhandenseins des stimmhaften Lautes auswählt, wenn die gewählte Detektoreinrichtung einen Gütewert berechnet, der besser ist als der von jeder anderen Detektoreinrichtung berechnete Gütewert.

2. Vorrichtung nach Anspruch 1, bei der die Berechnungseinrichtung jeder Detektoreinrichtung eine statistische Berechnung durchführt, um den Gütewert zu bestimmen.

3. Vorrichtung nach Anspruch 2, bei der die statistischen Berechnungen Abstandsmessungsberechnungen sind.

4. Vorrichtung nach Anspruch 2, bei der die eine Detektoreinrichtung eine Einrichtung umfaßt, die anzeigt, daß ein Rahmen stimmhaft ist, wenn der stimmhafte Laut festgestellt wird, und anzeigt, daß ein Rahmen stimmlos ist, wenn der stimmhafte Laut nicht vorhanden ist,

die Berechnungseinrichtung für die eine Detektoreinrichtung ferner eine Einrichtung zur Bestimmung einer Diskriminanzvariablen für jeden vorhergehenden und augenblicklichen Rahmen umfaßt,

ferner eine Einrichtung zur Bestimmung eines Mittelwertes für stimmhafte Rahmen der vorhergehenden und augenblicklichen Rahmen,

eine Einrichtung zur Bestimmung eines Varianzwertes für stimmhafte Rahmen der vorhergehenden und augenblicklichen Rahmen,

eine Einrichtung zur Bestimmung eines Mittelwertes stimmloser Rahmen der vorhergehenden und augenblicklichen Rahmen,

eine Einrichtung zur Bestimmung eines Varianzwertes stimmloser Rahmen der vorhergehenden und augenblicklichen Rahmen und

eine Einrichtung zur Bestimmung des Gütewertes für die eine Detektoreinrichtung aus den bestimmten stimmhaften Mittel- und Varianzwerten und den bestimmten stimmlosen Mittel- und Varianzwerten.

5. Vorrichtung nach Anspruch 4, bei der die Einrichtung zur Bestimmung des Gütewertes für die eine Detektoreinrichtung eine Einrichtung zur Summierung der Varianzwerte umfaßt,

ferner eine Einrichtung zur Berechnung einer gewichteten Summe der Varianzwerte,

eine Einrichtung zum Subtrahieren des Mittelwertes der stimmlosen Rahmen von dem Mittelwert der stimmhaften Rahmen,

eine Einrichtung zum Quadrieren des subtrahierten Wertes und

eine Einrichtung zum Dividieren der gewichteten Summe durch die Summe der quadrierten Werte, wodurch der Gütewert für die eine Detektoreinrichtung erzeugt wird.

6. Vorrichtung nach Anspruch 5, bei der die Einrichtung zur Berechnung der gewichteten Summe eine Einrichtung zur Berechnung eines ersten Wahrscheinlichkeitswertes umfaßt dafür, daß die eine Detektoreinrichtung das Vorhandensein des stimmhaften Lautes im augenblicklichen Rahmen anzeigt,

ferner eine Einrichtung zur Berechnung eines zweiten Wahrscheinlichkeitswertes dafür, daß die eine Detektoreinrichtung das Fehlen des stimmhaften Lautes im augenblicklichen Rahmen anzeigt,

eine Einrichtung zur Multiplikation der Varianz der stimmhaften Rahmen aus den vorhergehenden und augenblicklichen Rahmen mit dem ersten Wahrscheinlichkeitswert und der Varianz der stimmlosen Rahmen aus den vorhergehenden und augenblicklichen Rahmen mit dem zweiten Wahrscheinlichkeitswert und

eine Einrichtung zur Bildung der gewichteten Summe aus dem Ergebnis der Multiplikationen.

7. Vorrichtung nach Anspruch 6, bei der die Divisionseinrichtung eine Einrichtung zur Multiplikation der Ergebnisse der Division der gewichteten Summe durch die Summe der quadrierten Werte mit dem ersten und dem zweiten Wahrscheinlichkeitswert umfaßt, um den Gütewert für die eine Detektoreinrichtung zu erzeugen.

8. Vorrichtung nach Anspruch 7, bei der die Einrichtung zur Anzeige dafür, daß der Rahmen stimmhaft und stimmlos ist, eine Einrichtung umfaßt, die unter Ansprechen auf einen Satz von Sprachattribute des augenblicklichen Sprachrahmens definierenden Klassifizierangaben einen Satz statistischer Parameter berechnet,

ferner eine Einrichtung, die unter Ansprechen auf den berechneten Satz von Parametern einen Satz von Gewichtungen berechnet, die je einer der Klassifizierangaben zugeordnet ist, und

eine Einrichtung, die unter Ansprechen auf den berechneten Satz von Gewichtungen und Klassifizierangaben sowie den Satz von Parametern das Vorhandensein des stimmhaften Lautes in dem Sprachrahmen bestimmt.

9. Vorrichtung nach Anspruch 8, bei der die Einrichtung zur Berechnung des Satzes von Gewichtungen eine Einrichtung zur Berechnung eines Schwellenwertes unter Ansprechen auf den Satz von Parametern umfaßt,

ferner eine Einrichtung, die den Satz von Gewichtungen und den Schwellenwert an die Einrichtung zur Berechnung des Satzes von statistischen Parametern zur Verwendung für die Berechnung eines weiteren Satzes von Parametern für einen weiteren Sprachrahmen überträgt, und

wobei die Einrichtung zur Berechnung des Satzes statistischer Parameter ferner unter Ansprechen auf den übertragenen Satz von Gewichtungen und einen weiteren Satz von Klassifizierangaben, die die Sprachattribute des weiteren Rahmens definieren, einen weiteren Satz statistischer Parameter berechnet.

10. Vorrichtung zur Bestimmung des Vorhandenseins eines stimmhaften Lautes in Sprachrahmen mit

einer ersten Einrichtung (102) zur Erzeugung eines ersten Signals, das das Vorhandensein des stimmhaften Lautes in einem der Sprachrahmen anzeigt,

einer zweiten Einrichtung (103) zur Erzeugung eines zweiten Signals, das das Vorhandensein des stimmhaften Lautes in dem einen Sprachrahmen anzeigt,

dadurch gekennzeichnet,

daß die erste Einrichtung eine Einrichtung zur Berechnung eines ersten verallgemeinerten Distanzwertes umfaßt, der den Grad des Abstandes zwischen den stimmhaften und stimmlosen, durch die erste Einrichtung bestimmten Rahmen darstellt,

daß die zweite Einrichtung eine Einrichtung (206) zur Berechnung eines zweiten verallgemeinerten Distanzwertes aufweist, der den Grad des Abstandes zwischen stimmhaften und stimmlosen, durch die zweite Einrichtung bestimmten Rahmens darstellt, und

eine Einrichtung (104, 105) zur Auswahl des ersten Signals umfaßt, um das Vorhandensein des stimmhaften Lautes anzuzeigen, wenn der erste verallgemeinerte Distanzwert besser als der zweite verallgemeinerte Distanzwert ist, und zur Auswahl des zweiten Signals, um das Vorhandensein des stimmhaften Lautes anzuzeigen, wenn der zweite verallgemeinerte Distanzwert besser als der erste verallgemeinerte Distanzwert ist.

11. Vorrichtung nach Anspruch 10, bei der die verallgemeinerten Distanzwerte die Mahalanobis-Distanzwerte sind.

12. Vorrichtung nach Anspruch 11, bei der die erste Einrichtung ferner eine Einrichtung umfaßt, die unter Ansprechen auf einen Satz von Sprachattribute eines Sprachrahmens definierende Klassifizierangaben einen Satz von statistischen Parametern errechnet,

ferner eine Einrichtung, die unter Ansprechen auf den berechneten Satz von Parametern einen Satz von Gewichtungen berechnet, die je einer der Klassifizierangaben zugeordnet sind, und

13. Vorrichtung nach Anspruch 12, bei der die Einrichtung zur Berechnung des ersten verallgemeinerten Distanzwertes eine Einrichtung umfaßt, die unter Ansprechen auf den berechneten Satz von Parametern und den berechneten Satz von Gewichtungen den ersten verallgemeinerten Distanzwert bestimmt.

14. Vorrichtung nach Anspruch 13, bei der die zweite Einrichtung ein Diskriminanten Stimmhaft-Detektor ist.

15. Vorrichtung nach Anspruch 14, bei der die Einrichtung zur Berechnung des zweiten verallgemeinerten Distanzwertes eine Einrichtung zur Bestimmung eines Mittelwertes für stimmhafte Rahmen der vorhergehenden und augenblicklichen Rahmen umfaßt,

ferner eine Einrichtung zur Bestimmung eines Mittelwertes für stimmlose Rahmen der vorhergehenden und augenblicklichen Rahmen,

eine Einrichtung zur Bestimmung eines Varianzwertes der stimmlosen Rahmen von den vorhergehenden und augenblicklichen Rahmen und

eine Einrichtung zur Bestimmung des zweiten Distanzmeßwertes aus den bestimmten stimmhaften Mittelund Varianzwerten sowie den bestimmten stimmlosen Mittelund Varianzwerten.

16. Vorrichtung nach Anspruch 15, bei der die Einrichtung zur Bestimmung des zweiten Distanzmeßwertes umfaßt:

eine Einrichtung zur Berechnung der gewichteten Summe der Varianzwerte,

eine Einrichtung zum Quadrieren des subtrahierten Wertes und

eine Einrichtung zum Dividieren der gewichteten Summe der Varianzwerte durch die Summe der quadrierten Werte und dadurch Erzeugen des zweiten Distanzmeßwertes.

17. Verfahren zur Bestimmung des Vorhandenseins eines stimmhaften Lautes in Sprachrahmen unter Verwendung eines ersten und eines zweiten Stimmhaft-Detektorverfahrens (102, 103) zur Feststellung des stimmhaften Lautes in einem Rahmen,

gekennzeichnet durch:

Berechnen eines ersten Gütewertes, der den Abstand zwischen stimmhaften und stimmlosen Sprachrahmen durch das erste Stimmhaft-Detektorverfahren definiert,

Berechnen eines zweiten Gütewertes, der den Abstand zwischen den stimmhaften und stimmlosen Sprachrahmen durch das zweite Stimmhaft-Detektorverfahren definiert, und

Auswählen (104, 105) des ersten Stimmhaft-Detektorverfahrens zur Anzeige des Vorhandenseins des stimmhaften Lautes, wenn der erste Gütewert besser als der zweite Gütewert ist, und

Auswählen des zweiten Stimmhaft-Detektorverfahrens des Anzeige des Vorhandenseins des stimmhaften Lautes, wenn der zweite Gütewert besser als der erste Gütewert ist.

18. Verfahren nach Anspruch 17, bei dem der Schritt zur Berechnung des ersten und zweiten Wertes je den Schritt der Durchführung einer statistischen Berechnung zur Bestimmung des ersten bzw. zweiten Wertes umfaßt.

19. Verfahren nach Anspruch 18, bei dem die statistischen Berechnungen Distanzmeßberechnungen sind.

20. Verfahren nach Anspruch 18, bei dem ferner die Schritte vorgesehen sind, anzuzeigen, daß ein Rahmen stimmhaft ist, wenn der stimmhafte Laut festgestellt wird, und daß ein Rahmen stimmlos ist, wenn das erste Stimmhaft-Detektorverfahren feststellt, daß der stimmhafte Laut nicht vorhanden ist, und wobei der Schritt zur Berechnung des ersten Wertes ferner die Schritte umfaßt:

Bestimmen einer Diskriminanzvariablen für jeden vorhergehenden und augenblicklichen Rahmen,

Bestimmen eines Mittelwertes für stimmhafte Rahmen der vorhergehenden und augenblicklichen Rahmen,

Bestimmen eines Varianzwertes für die stimmhaften Rahmen der vorhergehenden und augenblicklichen Rahmen,

Bestimmen eines Mittelwertes für die stimmlosen Rahmen der vorhergehenden und augenblicklichen Rahmen,

Bestimmen eines Varianzwertes für die stimmlosen Rahmen der vorhergehenden und augenblicklichen Rahmen, und

Bestimmen des ersten Wertes aus den bestimmten stimmhaften Mittel- und Varianzwerten und den bestimmten stimmlosen Mittel- und Varianzwerten.

21. Verfahren nach Anspruch 20, bei dem der Schritt zur Bestimmung des ersten Wertes die Schritte umfaßt:

Summieren der Varianzwerte,

Berechnen der gewichteten Summe der Varianzwerte,

Subtrahieren des Mittelwertes der stimmlosen Rahmen vom Mittelwert der stimmhaften Rahmen,

Quadrieren der subtrahierten Werte und

Dividieren der gewichteten Summe von Varianzwerten durch die Summe der quadrierten Varianzwerte und dadurch Erzeugen des statistischen Wertes.

22. Verfahren nach Anspruch 21, bei dem der Schritt der Berechnung der gewichteten Summe die Schritte umfaßt:

Berechnen eines ersten Wahrscheinlichkeitswertes dafür, daß der Schritt zur Bestimmung des ersten Wertes das Vorhandensein des stimmhaften Lautes im augenblicklichen Rahmen anzeigt,

Berechnen eines zweiten Wahrscheinlichkeitswertes dafür, daß der Schritt der Bestimmung des ersten Wertes die Abwesenheit des stimmhaften Lautes im augenblicklichen Rahmen anzeigt,

Multiplizieren der Varianz der stirnhaften Rahmen von den vorhergehenden und augenblicklichen Rahmen mit dem ersten Wahrscheinlichkeitswert und der Varianz der stimmlosen Rahmen von den vorhergehenden und augenblicklichen Rahmen mit dem zweiten Wahrscheinlichkeitswert, und

Bilden der gewichteten Summe aus den Ergebnissen der Multiplikationen.

23. Verfahren nach Anspruch 22, bei dem der Dividierschritt das Multiplizieren der Ergebnisse aus der Division der gewichteten Summe durch die Summe der quadrierten Werte mit dem ersten und dem zweiten Wahrscheinlichkeitswert zur Erzeugung des ersten Wertes umfaßt.