DE2753277C2 - Verfahren und Einrichtung zur Spracherkennung - Google Patents
Verfahren und Einrichtung zur SpracherkennungInfo
- Publication number
- DE2753277C2 DE2753277C2 DE2753277A DE2753277A DE2753277C2 DE 2753277 C2 DE2753277 C2 DE 2753277C2 DE 2753277 A DE2753277 A DE 2753277A DE 2753277 A DE2753277 A DE 2753277A DE 2753277 C2 DE2753277 C2 DE 2753277C2
- Authority
- DE
- Germany
- Prior art keywords
- digit
- signal
- identified
- speech
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 23
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 230000004044 response Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 abstract description 10
- 230000015654 memory Effects 0.000 description 140
- 239000011159 matrix material Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 239000000523 sample Substances 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 101150087426 Gnal gene Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000000284 resting effect Effects 0.000 description 2
- 101100024552 Danio rerio msxa gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Analogue/Digital Conversion (AREA)
Description
das die Entsprechung zwischen den Prüfsignalen a', und den Bezugssignalen m,q der g-ten identifizierten
Ziffer für jede g-te Ziffer darstellt (170).
7. Spracherkennungseinrichtung zur Durchfühl ang des Verfahrens nach Anspruch 1 mit einer Anordnung
zur Erzeugung eines Satzes von Bezugssignalen, welche die Vorhersagekennwerte von identifizierten
Sprachabschnitten darstellen und in einem Speicher abgelegt sind, zur Erzeugung eines Satzes von Prüfsignalen,
welche die Vorhersagekennwerte eines unbekannten Sprachabschnitts darstellen, zur Ausrichtung
des Satzes von Prüfsignalen und jedes Satzes der Bezugssignale derart, daß die mit jedem anderen ausgerichteten
Sätze die gleiche Anzahl von Signalen wie jeder andere enthält, und zum Erzeugen eines Signals unter
Ansprechen auf die mit jedem anderen ausgerichteten Prüfsignal- und Bezugssignalsätze, das den Grad der
Entsprechung zwischen diesen darstellt, gekennzeichnet durch eine Anordnung zum Trennen der kontinuierlicher
Ketten von verbundenen identifizierten Sprachabschnitten in die identifizierten Sprachabschnitte
(128) zum Erzeugen eines Satzes von Vorhersagekenn^erten, die nur den stimmhaften Intervallen jeder
Aussprache jedes identifizierten Sprachabschnitts entsprechen, zum Verarbeiten jedes Satzes von Vorhersagekennwerten,
um einen entsprechenden ausgerichteten Satz zu erzeugen, dessen Anzahl von Vorhersagekennwerten
gleich der mittleren Anzahl ist, die für eine Vielzahl von Aussprachen des entsprechenden
identifizierten Sprachabschnitts erzeugt worden sind, zum Verarbeiten der ausgerichteten Sätzs von Verhersage
kennwerten für jeden identifizierten Abschnitt, um den Satz von Bezugssignalen zu erzeugen, weiche die
mittleren Vorhersagekennwerte für alle Aussprachen des identifizierten Abschnitts (122, 144 und 146)
darstellen, zum Trennen einer kontinuierlichen Kette von verbundenen Sprachabschnitten mit mindestens
einem unbekannten Sprachabschnitt, in ihre Sprachabschnitte (128) und zum Erzeugen des Satzes von
Prüfsignalen, welche die Voraussagewerte nur der stimmhaften Intervalle des unbekannten Sprachabschnitts
(i 22) darstellen.
Die Erfindung betrifft ein Verfahren zur Spracherkennung nach dem Oberbegriff des Anspruchs 1 sowie eine
Einrichtung zur Durchführung des Verfahrens.
Auf dem Gebiet der Nachrichtentechnik, Datenverarbeitung und bei Steuersystemen ist es häufig erwünscht,
die Sprache zur direkten Eingabe von Daten, Befehlen oder anderen Informrlionen zu verwenden. Spracheingabeanordnungen
lassen sich verwenden zur Aufzeichnung von Transaktionen, zur Speicherung und Anforderung
von Fernsprechinformationen, zur Steuerung von Werkzeugmaschinen. Außerdem kann damit die Möglichkeit
geschaffen werden, daß eine Person mit einer Datenverarbeitungs- und Steuereinrichtung in Verbindung tritt,
ohne daß ihre Aufmerksamkeit durch andere Aktivitäten abgelenkt wird. Wegen der komplizierten Natur der
Sprache, ihrer beträchtlichen Variationsbreite von Sprecher zu Sprecher und der Unterschiede selbst für einen
bestimmten Sprecher ist es schwierig, eine gute Erkennung von Sprachabschnu;?n zu erzielen.
Bei einem Typ einer bekannten Spracherkennungsanlage wird ein Eingangssprachsignal in eine Folge von
phonetisch begründeten Merkmalen umgewandelt. Die abgeleiteten Merkmale oder Kennwerte, die im allgemeinen
durch eine Spektralanalyse der Sprachabschnitte gewonnen werden, werden mit einer gespeicherten
Gruppe von Bezugsmerkmalen verglichen, die dem zu erkennenden Sprachabschnitt oder Wort entsprechen.
Wenn ein Eingangssprachabschnitt vorgegebene Erkennungskriterien erfüllt, so wird der Abschnitt als der
ßezugssprachabschnitt angenommen. Im anderen Fall wird er zurückgewiesen. Die Zuverlässigkeit ries Erkennungssystems
hängt also in hohem Maße von der vorgeschriebenen Gruppe von Bezugsmerkmalen und von den
Erkennungskriterien ab. Wenn die Gruppe von Bezugsmerkmalen vom gleichen Sprecher gewonnein wird und
das zu erkennende Wort getrennt ausgesprochen wird, so ist das Spracherkennungssystem verhältnismäßig
einfach und kann sehr genau sein.
Ein weiterer Typ eines Spracherkennungssystems, das in einem Aufsatz »Minimum Prediction Residual
Principle Applied to Speech Recognition« von Fumitada Itakura in der Zeitschrift IEEE Transactions on
Acoustics, Speech and Signal Processing, Febr. 1975, Seiten 67 — 72, beschrieben ist, beruht nicht auf einer
ie vorgeschriebenen Gruppe von spektral abgeleiteten phonetischen Merkmalen, sondern es wird eine Folge von
Vektoren gewonnen, die die linearen Vorhersagecharakteristiken eines Sprachsignals darstellen, und diese
Vektoren für die linearen Vorhersagecharakteristiken werden mit einer entsprechenden Folge von Bezugsvektoren
verglichen, die die linearen Vorhersagecharakteristiken eines vorhergehenden Ausdrucks eines identifizierten
Sprachabschnittes oder Wortes darstellen. In bekannter Weise enthalten lineare Vorhersagecharakteristiken
Kombinationen einer großen Anzahl von Sprachmerkmalen und können daher zu einer verbesserten
Erkennung gegenüber Anordnungen führen, bei denen nur eine begrenzte Anzahl von gewählten, spektral
abgeleiteten phonetischen Merkmalen benutzt wird.
Das Verfahren nach dem Oberbegriff des Anspruchs 1 ist aus der Druckschrift »Proceedings of the IEEE«
Band 64, Nr. 4, April 1976, Seiten 487—501, bekannt und betrifft lediglich die Erkennung von einzelnen Wörtern.
Es ist auch als nachteilig anzusehen, daß dieses bekannte Spracherkennungsverfahren adaptiv ist, d. h. abhängig
von dem jeweiligen Sprecher.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Spracherkennung einer kontinuierlichen
Sprachfolge verfügbar zu machen, das weitgehend unabhängig von der Individualität des Sprechers ist.
Diese Aufgabe wird durch das Verfahren nach dem Anspruch 1 gelöst.
Vorteilhafte Weiterbildungen des Verfahrens und eine Spracherkennungseinrichtung zur Durchführung dieses
Verfahrens sind den Unteransprüchen zu entnehmen.
Das erfindungsgemäße Verfahren ist nicht adaptiv, d. h., es hän-n nicht von der Individualität des jeweiligen
Sprechers ab. Dies wird im wesentlichen dadurch erzielt, daß Sätze von Vorhersagekennwerten für verschiedene
Sprecher bzw. unterschiedliche Aussprachen erzeugt werden, die Kennwerte werden sozusagen ausgerichtet,
und ein Mittelwert der ausgerichteten Kennwerte dient als Referenzbasis.
Im Gegensatz dazu ist es beim Erkennungssystem mit linearer Vorhersage nach Itakura erforderlich, daß der
gleiche Sprecher sowohl den Bezugssprachabschnitt als auch den zu identifizierenden Sprachabschnitt liefert
und daß außerdem der Sprachabschnitt isoliert gesprochen wird. In zusammenhängender Sprache hängen
jedoch die Vorhersagekennwerte jedes Abschnittes von den vorhergehenden und nachfolgenden Sprachabschnitten
ab. Daher ist die erfolgreiche Erkennung eines identifizierten Sprachabschnittes oder Wortes in einer
kontinuierlichen Sprachfolge begrenzt. Beim Verfahren nach Itakura ist außerdem die Verwendung der Vorhersagekennwerte
des voiiständigen Sprachabschnitts für die Erkennung erforderlich. Es wurde jedoch gefunden,
daß die Verwendung von Vorhersageparametern des stimmlosen Bereichs für die Erkennung von Sprachabschnitten
die Genauigkeit schwerwiegend beeinträchtigt.
Nachfolgend wird die Erfindung anhand eines bevorzugten Ausführungsbeispiels in Verbindung mit den
Zeichnungen näher beschrieben. Es zeigen
F i g. 1A und 1B das Gesamtblockschaltbild eines Ziffernerkennungssystems nach der Erfindung,
Fig.2 ein genaueres Blockschaltbild eines Stimmhaft-Stimmlos-Ruhe-Prozessors zur Verwendung in der Schaltungsanordnung nach Fig. IA,
Fig.2 ein genaueres Blockschaltbild eines Stimmhaft-Stimmlos-Ruhe-Prozessors zur Verwendung in der Schaltungsanordnung nach Fig. IA,
F i g. 3 ein genaueres Blockschaltbild einer Ziffernaufteilschaltung zur Verwendung in der Schaltungsanordnung
nach Fig. IA,
F i g. 4 ein genaueres Blockschaltbild des Zifferndetektors für das stimmhafte Intervall gemäß F i g. 1A,
F i g. 5 ein genaueres Blockschaltbild der Mittelwertbildungsschaltung für den stimmhaften Bereich bei dem Ziffernerkennungssystem nach F i g. 1A,
F i g. 5 ein genaueres Blockschaltbild der Mittelwertbildungsschaltung für den stimmhaften Bereich bei dem Ziffernerkennungssystem nach F i g. 1A,
F i g. 6 eine LPC-Ausrichtschaltung, die bei dem Erkennungssystem nach F i g. 1A und 1B Verwendung finden
kann,
F i g. 7 ein genaueres Blockschaltbild der Folgerichtigkeits-Detektorsehaltung nach F i g. 1B,
F i g. 8 ein genaueres Blockschaltbild des Speichers für das ausgerichtete LPC-Prüfsignal gemäß F i g. 1B,
F i g. 9 das genauere Blockschaltbild der Α,-Minimum-Wählschaltung gemäß F i g. 1B,
Fig. 10 das genauere Blockschaltbild der !^-Minimum- Wählschaltung gemäß F i g. 1B,
F i g. 8 ein genaueres Blockschaltbild des Speichers für das ausgerichtete LPC-Prüfsignal gemäß F i g. 1B,
F i g. 9 das genauere Blockschaltbild der Α,-Minimum-Wählschaltung gemäß F i g. 1B,
Fig. 10 das genauere Blockschaltbild der !^-Minimum- Wählschaltung gemäß F i g. 1B,
F i g. 11 das Blockschaltbild eines Mikroprozessors zur Verwendung in dem Erkennungssystem gemäß
Fig. IA und IB.
Das System gemäß F i g. 1A und 1B erkennt die Ziffern in einer Kette von nicht identifizierten, gesprochenen
Ziffern auf der Basis einer Übereinstimmung zwischen den Signalen für die linearen Vorhersagekoeffizienten
des stimmhaften Bereichs jeder nicht identifizierten Ziffer der Kette und einer vorher gespeicherten Bezugsgruppe
von Signalen für die linearen Vorhersagekoeffizienten jeder möglichen Ziffer. Die Bezugsgruppen
werden aus einer statistischen Analyse der linearen Vorhersagekennwerte von wiederholten, identifizierten
Ziffeniketten abgeleitet, die von einem oder mehreren Sprechern stammen. Die Anlage arbeitet zunächst in
einer Übungsbetriebsweise, bei der Gruppen von Signalen für lineare Vorhersagekoeffizienten aus Sprachabtastwerten
von identifizierten Ziffern abgeleitet werden. Nachdem eine vorbestimmte Anzahl von Signalen für
lineare Vorhersagekoeffizienten für die identifizierte Ziffer gespeichert sind, wird eine Bezugsbetriebsweise
eingeleitet, bei der die gespeicherten Ubungsgruppen von Signalen für lineare Vorhersagekoeffizienten so
kombiniert werden, daß eine Bezugsgruppe für jede mögliche, zu erkennende Ziffer gebildet wird. Die gespei-
cherten Bezugsgruppen werden dann in einer Erkennungsbetriebsweise zur Identifizierung der Ziffern einer
Kette von nicht identifizierten Ziffern benutzt.
In der Erkennungsbetriebsweise werden Linearvorhersagekoeffizienten-Signale (LPC-Signale) für den
slimmhaften Bereich jeder nicht identifizierten Ziffer abgeleitet und mit der Bezugsgruppe für jede mögliche
Ziffer verglichen. Die Ergebnisse des Vergleichs werden gespeichert und die Identität der Ziffer gewählt, die die
gcnaueste Übereinstimmung mit der nicht identifizierten Ziffer hat.
]irur Erläuterung sei angenommen,daß die Stcucrlogik 180 in Fig. IB das Erkennungssystem gemäß Fig. IA
und IB in seine Übungsbetriebsweise dadurch bringt, daß abhängig vom Zustand des Betriebsartenwählers 178
in F i g. 1B das Ausgangssignal TR erzeugt wird.
Das Signal TR betätigt das Gatter 107, so daß ein Identifiziercode ID für jede Ziffer in der Übungsgruppenket- ι ο
te in einem Ziffernidentifizierer 109 eingegeben wird. Die Sprachquelle 101 in F i g. 1A erzeugt ein Sprachsignal,
das aus der Kette von identifizierten Ziffern besteht, deren Identität im Ziffernidentifizierer 109 gespeichert
wird. Die Kette aus der Quelle 101 wird an einen Analog-Digitalwandler 105 gegeben. Die Sprachquelle 101
kann ein Mikrophon oder ein Fernsprechhörer oder eine andere elektro-akustische Anordnung sein.
Der Analog-Digitalwandler 105 in F i g. 1A unterwirft das Sprachsignal aus der Quelle 101 einer Tiefpaßfilterung
und tastet das gefilterte .Sprachsignal mit einer Frequenz von 10 kHz unter Steuerung von Taktimpulsen
PCmW 10 kHz aus der Taktquelle 187 in F i g. 1B ab.
Das Ausgangssigna! des Wandlers 105 ist eine Folge von codierten. Abtastsignalen sn, die an einen Sprachintcrvalldetektor
111 und an einen Eingang des Gatters 113 in F i g. 1A angelegt werden.
Unter Ansprechen auf den Energieinhalt des Sprachsignals, der durch eine Summierung des Absolutwertes 20 ,,,
der Abtastausgangssignale des Wandlers 105 gewonnen worden ist, liefert der Sprachintervalldetektor 111 in §
F i g. 1A ein Betätigungssignal an das Gatter 113. Am Ende des Sprachsignals ändert sich das Ausgangssignal des "j
Detektors 111, sperrt das Gatter 113 und liefert außerdem ein Betätigungssignal D5 an die Gatter 122/1,126 und v.j
132. Ein zur Verwendung in der Schaltungsanordnung nach Fig. IA geeigneter Sprachintervalldetektor ist in b.
der US-Patentschrift 39 09 532 (30. Sept. 1975) offenbart. 25 ':'\
Während des Sprachintervalls werden Signalabtastwerts Sn vom Wandler 105 an den Eingang eines LPC-Ge- 1'
nerators 122 (Generator für lineare Vorhersagekoeffizienten) in Fig. IA und den Eingang eines VUS-Prozes- ä
sors 115 (Stimmhaft-Stimmlos-Ruhe-Prozessor von voiced-unvoiced-silence processor) in Fi g. IA angelegt. Im %
l.PC-Generator 122 werden die Abtastwerte s„ in Blöcken oder Rahmen von 200 codierten Signalen Si bis S200 |
g speichert. Es sei darauf hingewiesen, daß andere Rahmenanordnungen benutzt werden können. Eine lineare 30 ||
Vorhersageanalyse des abgetasteten Sprachsignals erfolgt entsprechend der Gleichung
s„ = Σ «(» Sn-i- U)
Darin bedeuten η = 1, 2, ...,200 und ρ die Anzahl von Polen des Vorhersage-Analysemodells. Die lineare
Vorhersageanalyse beruht auf einem bekannten Allpol-Linearvorhersage-Filtermodell, das beschrieben ist in
einem Aufsatz »Speech Analysis and Synthesis by Linear Prediction of the Speech Wave« von B. S. Atal und
S. L Hanauer in Journal of Acoustic Society of America, Band 50, 1971, Seiten 637—655. Für die Zwecke der
Spracherkennung wurde gefunden, daß ein 12-Pol-Filtermodell brauchbar ist. Es können jedoch auch andere
Polanordnungen benutzt werden.
Die linearen Vorhersagekoeffizienten a(i) sind die Koeffizienten des abgetasteten Sprachsignals s„ entsprechend
der Darstellung in Gleichung (1). Für das in Fig. 11 benutzte 12-Pol-Filtermodell werden die Koeffizienten
a (1) bis a (12) im LPC-Generator 122 in jedem Rahmen von 200 Abtastwerten durch das Auto-Korrelationsverfahren
der linearen Vorhersageanalyse gemäß Gleichungen (2) und (3) erzeugt:
Hsn-ksnk=\.2,...,p
(2)
/1=1
'k-£j«(0Yii-jcik=l,2,...,p
(3)
/=1
Dabei ist N die Anzahl von Abtastwerten in jedem Rahmen (N = 200) und ρ — 12. In bekannter Weise
werden die linearen Vorhersagekoeffizienten a(i) gemäß Gleichung (1) so gewählt, daß das mittlere Vorhersagefchlerquadrat
entsprechend Gleichung (2) und (3) ein Minimum wird. Wie in Gleichung (2) angegeben, erfolgt
dies durch eine Autokorrelationsanalyse des Blocks von Abtastsignalen s„ bis s„+m Die sich ergebenden linearen
Vorhersagekoeffizienten a (1) bis a (12) werden für jeden Rahmen von N Sprachabtastwerten gewonnen.
Der LPC-Generator 122 kann der Vorhersageparameterrechner sein, der in der US-Patentschrift 36 31 520
(28. Dez. 1971) gezeigt und beschrieben ist. Dieser Rechner erzeugt lineare Vorhersageparameter entsprechend
dem bekannten Covarianz-Verfahren. Jeder Rahmen hat eine Dauer von 20 ms und, wie man leicht erkennt, die
Koeffizienten a (I) bis a (12) des Rahmens stehen am Ausgang des Generators 122 am Ende des Rahmens der
entsprechenden Abtastwerte s\ bis S20O zur Verfügung. Die Koeffizientcnsignale a(l) bis a (12), die entweder
nach dem Covarianz- oder dem Autokorrelationsverfahren abgeleitet worden sind, lassen sich in der Anordnung
nach Fig. IA und 1B verwenden.
Fig. 11 zeigt das Blockschaltbild eines bekannten Mikroprozessors, der als LPC-Signalgenerator 122 in
F i g. 1A verwendet werden kann. Gemäß F i g. 11 erfolgt die Steuerung durch eine Speicherprogrammsteuerung
1109, die einen Festwertspeicher (ROM) aufweist. EinSchreib-Lese-Speicher(RAM) 1107 nimmt Dateninformationen
von einer Speicherdirektzugriffseinrichtung 1105 und einem Schnittstellen-Adapter 1101 über einen
Datenbus !!24 und außerdem Adresseninformationen von einer Speicherdirektzugriffsschaltung 1105 und einer
Prozessoreinheit 1103 über einen Adressenbus 1122 auf. Der Prozessor 1103 rechnet entsprechend einem in der
ίο Speicherprogrammsteuerung 1109 permanent gespeicherten Programm. Die Steuerung des Microprozessors
erfolgt durch die Prozessoreinheit 1103 über einen Steuerbus 1120, der mit der Speicher-Direktzugriffsschaltung
1105, dem Schreibe-Lesespeicher 1107, dem Festwertspeicher 1109 der Speicherprogrammsteuerung und dein
Schnittstellen-Adapter 1101 verbunden ist.
Der Schnittstellen-Adapter 1101 nimmt Eingangssteuerinformationen und Daten von Eingangsleitungen 1140
und 1142 zur Verwendung durch den Schreib-Lesespeicher 1107 und die Prozessoreinheit 1103 auf. Außerdem
überträgt der Adapter 1101 Ausgangsdaten und Ausgangssteuerdaten vom Schreib-Lesespeicher 1107 und der
Prozessoreinheit 1103 zu Ausgangsleitungen 1150 und 1152.
In dem als LPC-Generator 122 verwendeten Microprozessor werden die sequentiellen Sprachabtastcodierungen
Jn vom Wandler 105 über.das Gatter 113 an die Leitung LW in Fig. 11 gegeben und zum Schnittsteiien-Adapter
1101 geführt. Ein Signal A vom Sprachintervalldetektor 111 wird zum Schnittstellen-Adapter 1101 über
die Leitung 1142 gegeben, so daß der Mikroprozessor gemäß Fig. 11 während des Sprachintervalls LPC-Signale
erzeugt. Diese Signale werden vom Schnittstellen-Adapter 1101 zum LPC-Speicher 124 in Fig. IA gegeben, und
zwar über die Leitung 1150 Rahmen für Rahmen.
Am Ende jedes Rahmens des Sprachintervalls ist eine Gruppe von 12 Koeffizientensignalen a(l) bis a(12)
unter Steuerung von Rahmentaktimpulsen PF vom Taktgeber 187 vom Generator 122 an den Sprachintervall-LPC-Speicher
124 gegeben worden. Auf diese Weise werden die LPC-Signale des Sprachintervalls, die die Kette
von identifizierten Ziffern bilden, gewonnen und gespeichert. Der Speicher 124 kann ein Schieberegister sein,
das eine Gruppe von 12 LPC-Signalen für jeden Rahmen des Sprachintervalls aufnimmt, das aus der Kette von
identifizierten Ziffern besteht. Der erste und letzte Rahmen des Sprachintervalls kann für eine Bezugnahme
durch einen Identifiziercode im Schieberegisterspeicher 124 markiert werden. Am Ende des Sprachintervalls
stehen die LPC-Signale der Gruppe von Übungsziffern zur Bildung von Bezugskennwertsignalen zur Verfugung.
Zur Verwendung der LPC-Signale im Speicher 124 für die Ziffernerkennung ist es erforderlich, das Sprachsignal
in seine Komponentenziffernintervalle aufzuteilen. Außerdem ist es erforderlich, das Auftreten des stimmhaften
Abschnitts jedes Ziffernintervalls zu identifizieren. Die Ziffernaufteilung wird auf der Grundlage einer
VUS-(Stimmhaft-Stimmlos-Ruhe) Bereichskontur des Sprachsignals durchgeführt. Die VUS-Kontur identifiziert
jeden Rahmen des Sprachsigna's als stimmhaften, stimmlosen oder Ruhc-Rahrrscn. Eine Schaltung zur
Erzeugung der VUS-Kontur, die auf dem Aufsatz »Pattern Recognition Approach to Voiced-Unvoiced-Silence
Classification with Application to Speech Recognition« von B. S. Ätal und L. R. Rabiner in IEEE Transactions an
Acoustics, Speech and Signal Processing, Band ASSE-24, Nr. 3, Juni 1976, Seiten 201 —212 beruht ist in F i g. 2
gezeigt.
Gemäß F i g. 2 werden die Sprachabtastwerte Si bis S200 jedes aufeinanderfolgenden Rahmens vom Gatter 113
an Arithmetik-Generatoren 201, 203, 205, 207 und 209 angelegt. Der Generator 201 weist eine bekannte
Arithmetik-Einheit auf, die das Signal f\ entsprechend der folgenden Gleichung bildet
σ 4
Z1 = IOlOg10 [ε + — Σ si). (4)
Dabei bedeuet ε eine kleine Konstante, die hinzugefügt wird, um die Berechnung von logio 0 zu verhindern. Da
ε< als der quadratische Mittelwert der Sprachabtastwerte ist, stellt das Signal f\ die logarithmische Energie £V
des Rahmens dar, der die Sprachabtastwerte s\ bis 5200 enthält. Der Generator 203 weist Zähl- und Logikschaltungen
auf und bildet das Signal f2, das die Anzahl von Nullinienkreuzungen des Rahmens mit den Sprachabtasiwerten
S] bis S200 darstellt.
Der Generator 205 weist eine Arithmetik-Einheit auf, die das Signal /3 bildet, das den normalisierten Autokorrelations-Koeffizienten
darstellt und zwar entsprechend der Gleichung
It
Σ *n Sn- I
Kn \ /a-1 \
v SA ( ν SA
„=\ J V„=o /
„=\ J V„=o /
Der Generator 207 weist eine Arithmetik-Einheit auf, die das Signal /4 erzeugt das den normalisierten
Vorliersagefehler des Rahmens darstellt, und zwar entsprechend der Gleichung
Π Ο"6 + i> (k) Φ (O, *) + Φ (0„)).
A-E1- 10 logl0 (ΙΟ"6 + 2^a{k) Φ (0, *) + Φ(Q1,)J. (6)
Dabei ist
: "i (Γ«"-"ϊ t/,Γ, "
~ I
■ Ψ Kl. K)
Ν ZjSn-lSn-k
I
""
der (i, k)Term der Covarianz-Matrix der Sprachabtastwerte, und λ (k)'s sind die Vorhersage-Koeffizienten, die
durch Minimieren des mittleren quadratischen Vorhersagefehlers gemäß folgender Gleichung gewonnen werden:
- -
ι " Γ ρ ~l2
" „-Ι L *,1 J
Der G, iterator 209 weist eine Arithmttik-Einheit auf, die den ersten LPC-Koeffizienten des Rahmens entsprechend
Gleichung (1) bildet.
; Der Rechner 211 erzeugt ein Signal Yx, das die Korrespondenz zwischen den Kennwertsignalen Zx bis /5 auf
einer Gruppe von ähnlichen Bezugskennwerten darstellt, die durch eine manuelle Aufteilung natürlicher Spra-
' ehe in Ruhebereiche, stimmlose Bereiche und stimmhafte Bereiche gewonnen worden sind. Die manuell erhaltenen
Kennwerte werden in den VUS-Bezugsspeicher 222 gegeben. Ein Vektor
C* ff ' f f ΐ f \
/ß\
wird im Ruhedistanzrechner 211 gebildet und mit den manuell gewonnenen Übungskennwerten für den Ruhebereich
Ms verglichen, die im Bezugsspeicher 222 gespeichert sind. Der Vergleich erfolgt auf der Grundlage der
Gleichung
'. K1 = d(Fx, M5) = (Fx - MsXAs)-HFx - M5). (9)
Dabei bedeuten Ms den mittleren Bezugswert für Ruhe und A5 ist die Bezugs-Covarianz-Matrix für Ruhe, die
im Bezugswertspeicher 222 gespeichert ist.
Auf ähnliche Weise liefert ein Stimmlos-Distanz-Rechner 213 einen Vergleich des Vektors Fi mit den gespeicherten,
manuell gewonnenen Kennwerten für stimmlose Sprachbereiche im Speicher 222. Am Ausgang des
Stimmlos-Distanz-Rechners 213 wird ein Signal Y2 wie folgt geliefert:
HK-Mu}. (10)
Dabei bedeuten Mu den mittleren Bezugsverkehr für stimmlose Sprache und Au die Bezugs-Covarianz-Matrix
für stimmlose Sprache, die im Bezugsspeicher 222 gespeichert ist Das Signal V2 stellt die Korrespondenz
zwischen den Rahmenkennwerten f\ bis /5 und den gespeicherten Kennwerten Mu und Aa aus dem Speicher 222
dar.
Der Stimmhaft-Distanz-Rechner 215 liefert auf entsprechende Weise ein Signal
Yi = Cl(Fu Mv) = (Fx-MyXAy)-HF1-MJ. (11)
Dieses Signal stellt die Korrespondenz zwischen den Kennwerten fx bis /5 und den gespeicherten Kennwerten
für stimmhafte Sprache Mv und A1. dar, die aus einer manuellen Analyse gewonnen und in den Speicher 222
gegeben worden sind. Jeder der Distanzrechner und die arithmetischen Einheiten gemäß F i g. 2 können einer
der vorgenannten Mikroprozessoren gemäß F i g. 11 sein.
Die Signale Yx, Y2 und Y3 werden von den Rechnern 211,213 und 215 an den Minimum-Distanz-Wähler 217
gegeben.
Der Distanzwähler 217 weist bekannte logische Schaltungen auf und wählt das minimale Distanzsignal aus Yx,
>2 und Y-i aus, das dann an den Kontur-CoJe-Generator 219 gegeben wird. Aufgrund dieses Signals erzeugt
dann der Generator 219 einen Ruhecode, einen Stimmlos-Code und einen Stimmhaft-Code und überträgt diese
Codierungen an einen VUS-Konturspeicher 117. Zusätzlich zu der VUS-Kontur des Sprachsignals im Speicher
117 wird das /i-Signal für jeden Rahmer; von 20 ms, das die logarithmische Energie des Rahmens darstellt, in den
Energie-Konturspeicher 120 aus dem Generator 201 gegeben.
Am Ende des Sprachintervalls enthält der VUS-Konturspeicher 117 die Klassifizierungssignale der Sprachsignalrahmen,
und der Energie-Konturspeicher 120 enthält Signale, die den Energieinhalt jedes der Sprachsignalrahmen
darstellen, jeder dieser Speicher kann ein Schieberegister aufweisen, das eine genügend große Zahl von
Stufen besitzt, um die VUS-Klassifizierung der Sprachintervallrahmen (typisch 200 Bits) oder Signale zur
Darstellung der Energie der Sprachintervallrahmen zu speichern.
Vorzugsweise kann der VUS-Prozessor 115 eben Mikroprozessor gemäß Fig. 11 aufweisen, der einen
Festwertspeicher zur Speicherprogrammsteuerung besitzt Die sequentiellen Sprachabtastwert-Codierungen s„
vom Wandler 105 werden zum SchnittsteHen-Adaptermodul 1101 über das Gatter 113 und die Leitung 1140
unter Steuerung der Prozessoreinheit 1103 gegeben. Das Steuersignal A wird vom Sprachintervalldetektor 111
über die Leitusg 1142 zum Schnittstellen-Adapter 1101 übertragen, um den VUS-Mikroprozessor während des
festgestellten Sprachintervalls zu betätigen. Der Mikroprozessor gemäß Fig. 11, der im VUS-Prozessor 115
benutzt wird, erzeugt Rahmen für Rahmen ein Stimmhaft-, Stimmlos- oder Ruhe-KlassiftzierungssignaL Die
Klassifizierungssignalfolge wird über die Leitung 1150 zum VUS-Konturspeicher 117 übertragen. Entsprechend
werden die Energiesignale aus dem Mikroprozessor gemäß F i g. 11 über die Leitung 1152 vom Schnittstellen-Adapter
1101 zum Energie-Konturspeicher 120 übertragen.
Am Ende des Sprachintervalls wird das Gatter 113 durch den Sprachintervalldetektor 111 abgeschaltet, und es
wird vom Detektor 111 ein Betätigungssignal DS an die Gatter 122, 126 und 132 angelegt. Das Gatter 122.4
verbindet den Ausgang des VUS-Konturspeichers 117 mit der Ziffernunterteilungseinrichtung 128, und das
Gatter 126 verbindet den Ausgang des Energie-Konturspeichers 120 mit der Ziffernunterteilungseinrichtung.
Die in F i g. 3 dargestellte Ziffernunterteilungseinrichtung 128 unterteilt das Sprachsignal in seine Ziffernintervallkomponenten.
Die Ziffernunterteilung erfolgt durch Lieferung einer Rahmennummer, die dem Anfang des
Sprachsignals entspricht, und der derjenigen Rahmennummern, weiche dem Ende der stimmhaften Bereiche der
Ziffern entsprechen. Wenn eine Ziffer keine stimmlosen oder Ruhebereiche aufweist, so wird das Ziffernende
aus dem Energie-Kontursignal gewonnen, cas Minima an den Endpunkten der nur stimmhaften Ziffer besitzt f
Gemäß F i g. 3 wird das vom Sprachintervalldetektor 111 gelieferte Impulssignal SS über die Verzögerung;.- M
einrichtung 302 an das ODER-Gatter 305 und außerdem an den Rahmenabtaster 301 angelegt. g<
Der Abtaster 301 tastet den VUS-Konturspeicher 117, der in Fig.3 wiederum gezeigt ist, ab, welcher die ·$
aufeinanderfolgenden Rahmenklassifizierungssignale an den Detektor 303 für das Ende des stimmhaften Bc- §j
reichs gibt Während der Abtastung behält der Rahmenzähler 307, der auf Taktsignale PF anspricht, eine β
Aufzeichnung des abgetasteten Rahmens. Das Ausgangssignal des Zählers 307 wird zusammen mit dem Aus- fj
gangssignal des ODER-Gatters 305 an das Gatter 309 angelegt Zu Beginn des Abtasters unter Ansprechen auf ;"|
das Abtaststartsignal SS wird also das Gatter 309 betätigt und ein Zifferngrenzspeicher 312 adressiert, so daß ti
derjenige Rahmen, welcher dem Anfang des Sprachsignals entspricht, dort identifiziert ist Ein Endrahmen für K
den stimmhaften Bereich im Sprachsignal wird im Detektor 303 für das Ende des stimmhaften Bereichs festgc- Si
stellt der ein Ausgangssignal aufgrund eines Übergangs von einem stimmhaften Rahmen auf entweder einen ||
stimmlosen Rahmen oder einen Ruherahmen liefert Beim Auftreten eines solchen Übergangs wird das Gatter Kj
309 betätigt und der durch den Zähler 307 definierte Übergangsrahmen im Zifferngrenzspeicher 312 identifi- IJ
ziert I
Das Ausgangssignal des Detektors 303 wird außerdem an den Eingang eines Zifferngrenzzählers 322 gegeben. s|
der zu Beginn der Abtastung des VUS-Konturspeichers 117 auf Null zurückgestellt wird. ||
Aiii Ende der Abtastung des VUS-Konturspeichers erzeugt der Rahmenabtaster 3Ö1 das Signal ES 1 derart, ig
daß der Stand des Zählers 32 über das Gatter 322a an einen Eingang des Komparator 324 übertragen wird. Das S
andere Eingangssignal des Komparators 324 ist ein codiertes Signal, das sie Anzahl der Ziffern plus eins, also |j
n+1, in der Ziffernkette des Sprachsignals darstellt Wenn alle Ziffern in der Kette aufgeteilt worden sind, ist das
Ausgangssignal des Zählers 322 gleich n+1, und es wird ein Betätigungssignal vom Komparator 324 zur Leitung
327 gegeben. Wenn jedoch der Zählwert des Zählers 322 größer als n+1 ist, so ist die Ziffernaufteilung
fehlerhaft. In diesem Fall wird ein Betätigungssignal ER von der Leitung 325 zur Steuerung 180 gegeben, um
anzuzeigen, daß das Sprachsignal wiederholt werden muß.
Wenn eine oder mehrere Ziffern im Sprachsignal den Übergang von einem stimmhaften Bereich auf einen
stimmlosen oder einen Ruhe-Bereich nicht enthalten, so ist das Ausgangssignal des Zählers 322 kleiner als n+1.
In diesem Fall wird ein Signal vom Komparator 324 zum Rahmenabtaster317 gegeben. Dieser tastet dann den in
F i g. 3 gezeigten Energie-Konturspeicher 120 ab. Das Ausgangssignal des Energie-Konturspeichers 120 wird an
einen Minimum-Detektor 319 gegeben, der die Schaltungsanordnung gemäß Fig. 10 enthalten kann und der ein
Ausgangssignal dann liefert, wenn der Minimalwert der Energiekontur erreicht ist. Die Rahmennummer für den
Minimalwert wird vom Detektor 319 zur Abtrennlogik 320 gegeben.
Die Logik 320 liefert ein Ausgangssignal an das ODER-Gatter 305 und den Zifferngrenzzähler 322, wenn der
Minimalwertrahmen außerhalb eines vorbestimmten Zeitintervalls, gerechnet vom letzten festgestellten Minimalwertrahmen
lokalisiert wird. Der von der Logik 320 gelieferte Minimalwertrahmen wird in einem Zifferngrenzspeicher
312 identifiziert, und der Zifferngrenzzähler 322 wird weitergeschaltet. Am Ende der Abtastung
des Energie-Konturspeichers erzeugt der Rahmenabtaster 317 das Signal £S2, so daß die Anzahl der im Zähler
322 gespeicherten Zifferngrenzpunkte mit der Anzahl von Ziffern in der Kette verglichen werden kann. Wenn
die Anzahl der Grenzpunkte gleich n+ 1 ist, so gibt der Komparator 324 über die Leitung 327 ein Betätigungssignal
an den Detektor 130 für den stimmhaften Bereich einer Ziffer in F i g. IA. Wenn die Anzahl von Grenzpunkten
kleiner als n+1 ist, so wird die Abtastung der Energie-Kontur wiederholt, um den zweiten Minimalwertrahmen
festzustellen, der in den Speicher 312 gegebenwird. Die Abtastung des Energie-Konturspeichers wird
wiederholt, bis die Anzahl von Grenzpunkten gleich η + I ist.
Insgesamt wird das Sprachsignal, das eine vorbestimmte Anzahl von Ziffern enthält, in seine Ziffernkomponentenintervalle
aufgeteilt, so daß die linearen Vorhersagekennwerte gewählter Bereiche jeder Ziffer im Ziffern-LPC-Speicher
135 gespeichert werden können.
Der Zifferngrenzspeicher 312 kann ein Schieberegister aufweisen, in welchem Zifferngrenzrahmen durch einen speziellen Grenzcode identifiziert werden, während die anderen Rahmen als zifferninterne Rahmen identifiziert werden. Der Detektor 130 für den stimmhaften Bereich einer Ziffer in F i g. 1A stellt den stimmhaften Bereich jeder Ziffer fest, um die Eingabe der LPC-Signale für den stimmhaften Bereich einer Ziffer in den Speicher 135 für LPC-Signale einer identifizierten Ziffer einzugeben. Der in F i g. 4 gezeigte Detektor 130 stellt
Der Zifferngrenzspeicher 312 kann ein Schieberegister aufweisen, in welchem Zifferngrenzrahmen durch einen speziellen Grenzcode identifiziert werden, während die anderen Rahmen als zifferninterne Rahmen identifiziert werden. Der Detektor 130 für den stimmhaften Bereich einer Ziffer in F i g. 1A stellt den stimmhaften Bereich jeder Ziffer fest, um die Eingabe der LPC-Signale für den stimmhaften Bereich einer Ziffer in den Speicher 135 für LPC-Signale einer identifizierten Ziffer einzugeben. Der in F i g. 4 gezeigte Detektor 130 stellt
-—■—■ —-—■ —*——~—ι
außerdem die Anzahl von Rahmen NV in jedem stimmhaften Intervall einer aufgeteilten Ziffer fest Nachdem
die Ziffern des Sprachsignals aufgeteilt und die Abschnittsgrenzen im Zifferngrenzspeicher312 identifiziert sind,
wird der identifizierte Zifferncode der ersten Ziffer des Sprachsignals als codiertes Signal B vom Ziffernidenüfizierer
109 zum Speicher 135 übertragen. Das codierte Signal B adressiert einen im voraus zugeordneten
Abschnitt des Speichers 135, so daß die LPC-Signale der identifizierten, aufgeteilten Ziffer des Sprachsignals
vom Speicher 124 in den der identifizierten Ziffer zugeordneten Abschnitt des Speichers 135 übertragen werden
können.
Das Ausgangssignal des VUS-Konturspeichers 117 wird an einen Stimmhaft-Bereichdetektor 420 im Detektor
130 gegeben und ein Betätigungssignal vom Detektor 420 während des stimmhaften Bereichs der identifizierten
Ziffer in der Übungsbetriebsweise zum Gatter 132 geliefert Zu diesem Zeitpunkt wird außerdem das Ausgangssignal
des Sprachintervall-LPC-Speichers 124 zum Gatter 132 gegeben. Die LPC-Signale, die dem stimmhaften
Bereich der identifizierten Ziffer entsprechen, werden über das Gatter 132 in den Speicher 135 übertragen, der
durch das codierte Signal B vom Ziffernidentifizierer 109 während des stimmhaften Bereichs der identifizierten
Ziffer in der Übungsbetriebsweise adressiert wird. Auf diese Weise werden die Gruppen von 12 LPC-Signalen
für die Rahmen mit stimmhaften Bereichen des jeweils identifizierten Bereichs für eine spätere Verwendung bei
der Bildung von Bezugsgruppen von LPC-Koeffizientensignalen während der Bezugsbetriebsweise gespeichert.
Während die LPC-Signale für den stimmhaften Bereich vom Speicher 124 zum Speicher 135 übertragen
werden, wird das Ausgangssignal des Zifferngrenzspeichers 312 auf der Leitung 316 an den Grenzrahmendetektor
412 gegeben, der unter Ansprechen auf einen Grenzrahmencode vom Speicher 312 ein Ausgangssignal
liefert. In dem Intervall zwischen festgestellten Grenzrahmen zählt der Rahmenzähler 414 die Anzahl von
Rahmen (Nv) des stimmhaften Bereichs des Ziffernintervalls entsprechend dem Ausgangssignal des Detektors
420. Wenn ein Grenzrahmen für die identifizierte Ziffer festgestellt wird, so wird das Gatter 416 betätigt, derart,
daß ein Signal Nv entsprechend der Anzahl von Rahmen im stimmhaften Intervall der Ziffer vom Zähler 414
über die Gatter 416 und 418 an dea Speicher 135 gegeben und die Dauer des stimmhaften Intervalls der
identifizierten Ziffer aufgezeichnet wird. Der Zähler 414 wird dann durch das Ausgangssignal des Detektors 412
zurückgestellt Das Signal Nv wird vom Ausgang des Gatters 416 über das Gatter 418 übertragen, das nur
während der Übungsbetriebsweise unter Ansprechen auf das Signal 77? betätigt wird. Auf diese Weise werden
nur die Signale Nv für identifizierte Ziffern der Übungsgruppen in den Speicher 135 gegeben. Wenn sowohl die
f.PC-Signale des stimmhaften Bereiches der identifizierten Ziffer als auch das Signa! Nv, das der Anzahl von
Rahmen (Zeitdauer) des stimmhaften Intervalls entspricht, im Speicher 135 aufgenommen sind, so liefert der
Impulsgenerator 422 das Signal ESV, das an den Ziffernidentifizierer 109 gegeben wird und bewirkt, daß dessen
Ausgangssignal sich ändert und der nächsten identifizierten Ziffer des Sprachsignals entspricht.
Wie mit Bezug auf die vorhergehende identifizierte Ziffer beschrieben, überträgt der Detektor 130 für den
stimmhaften Bereich der Ziffer die LPC-Signale des stimmhaften Bereichs der neuen identifizierten Ziffer in
einen vorgeschriebenen Abschnitt des Speichers i35, der durch das neue codierte Signal B adressiert wird. Das
Signal Nv für die neue Ziffer wird ebenfalls in den Abschnitt für die identifizierte Ziffer des Speichers 135
übertragen. Am Ende der letzten Ziffer des Sprachsignals wird im Speicher 135 das Signal £1 erzeugt und an
den Sprachintervalldetektor 111 gegeben, um das Signal DS zu beenden, so daß das System gemäß Fig. 1 ein
neues Sprachsignal bearbeiten kann und außerdem an die Steuerung 180 angelegt, um die Übungsbetriebsweise
zu beenden. Nach einer vorbestimmten Anzahl von Sprachsignalen, die je aus einer Kette von spezifizierten
Ziffern bestehen, ist eine ausreichende Menge von Daten im Speicher 135 abgespeichert, so daß die Bezugsgruppen
für jede mögliche, zu identifizierende Ziffer gebildet werden können. Zu diesem Zeitpunkt kann ein der
Bezugsbetriebsweise entsprechendes Betriebsweisensignal an den Betriebsweisendetektor 178 gegeben werden,
der wiederum veranlaßt, daß die Steuerlogik 180 in ihre Bezugsbetriebsweise gebracht wird.
In der Bezugsbetriebsweise wird eine Bezugsgruppe von Signalen für jede identifizierte Ziffer im Speicher 135
dadurch gebildet, daß die Übungsgruppen-LPC-Signale für jede identifizierte Ziffer zur mittleren Dauer des
stimmhaften Bereichs für die Übungsketten von identifizierten Ziffern zeitlich ausgerichtet werden. Ein Vektorsignal,
das die Mittelwerte der zeitlich ausgerichteten LPC-Signale jedes Rahmens darstellt, wird erzeugt und
eine Covarianz-Matrix bezüglich der zeitlich ausgerichteten LPC-Signale dieses Rahmens gebildet. Die Gruppe
von Mittelwerten und Varianz-Werten für jede identifizierte Ziffer wird zur Verwendung bei der Erkennung der
Ziffern einer unbekannten Ziffernkette während der nachfolgenden Erkennungsbetriebsweisen gespeichert. In
bekannter Weise ist das Ziffernintervall einer bestimmten Ziffer in hohem Grade variabel und hängt von den
Eigenheiten des Sprechers, der die Übungsziffernkette spricht, sowie von der Position der Ziffer in der Übungsgruppe ab. Zur Bereitstellung einer Bezugsgruppe für jede identifizierte Ziffer wird erfindungsgemäß ein Signal
entsprechend der mittleren Anzahl von Rahmen im stimmhaften Bereich der Ziffer erzeugt, und zwar entsprechend
der Gleichung
Nv = -L 2>V I.2· ···.■/·
J J'1
Darin bedeutet NVdie Anzahl von Rahmen im stimmhaften Bereich derj-ten Wiederholung der identifizierten
Ziffer.
Der Mittelwert Nv wird in der in Fig.5 gezeigten Mittelwertbildungseinrichtung 142 für den stimmhaften
Bereich gebildet. Beim Start der Bezugsbetriebsweise wird die Ziffernfolgeschaltung 182 in F i g. 1B durch das
Steuersignal REFaus der Steuerung 180 zurückgestellt, um die erste identifizierte Ziffer zu adressieren. Unter
Ansprechen auf das Signal REF wird das Gatter 183 betätigt, so daß das codierte Signal /Dl, das die erste
identifizierte Ziffer darstellt, an den Adressenspeicher 135 jegeben wird. Das Signal ID1 bewirkt, daß die
Signale Nvder ersten identifizierten Ziffer aus dem Speicher 135 an das Gatter 141 und die Leitung 140 gegeben
werden. Das Gatter 141 wird durch das Signal ÄEFbetätigt, wodurch die Signale Nv an das Schieberegister 501
in der Mittelwertbildungseinrichtung 142 für den stimmhaften Bereich angelegt werden. Das Schieberegister 501
(F i g. 5) speichert zeitweilig die Folge von / ankommenden JVv-Signalen. Diese yW-Signale werden nacheinander
aus dem Schieberegister 501 über das Gatter 503 zum Addierer 505 gegeben. Vor dem Intervall, in welchem
das erste Afc-Signal an einem Eingang des Gatters 503 erscheint, wird das Schieberegister 507 auf null zurückgestellt
Auf diese Weise wird das erste /W-Signal direkt in das Schieberegister 507 eingeschoben. Die-nachfolgenden,
an den Addierer 505 angelegten Afc-Signale werden zu der zeitweilig im Schieberegister 507 gespeicherten
Teilsumme addiert
ίο Unter Ansprechen auf jedes, an das Gatter 503 angelegte JW-Signal erzeugt der Impulsgenerator 520 einen
Impuls, der dem Zähler 522 zugeführt wird. Der Zähler 522 zählt die Anzahl von /W-Signalen. Wenn der
vorbestimmte Zählwert / im Zähler 522 erreicht ist, so wird ein Ausgangssignal über die Verzögerungseinrichtung
an das Gatter 511 angelegt Dieses Gatter ist dann betätigt, so daß die Summe von Λ/v-Signalen aus dein
Schieberegister 507 an den Teiler 511 gegeben wird, in % eichen die Summe durch den vorbestimmten, im Zähler
522 gespeicherten Zählwert /dividiert wird. Zu diesem Zeitpunkt wird das Gatter 509 durch ein Signal EC von
der Verzögerungseinrichtung 523 gesperrt, wodurch die im Schieberegister 507 gespeicherte Gesamtsumme
gelöscht wird. Das Ausgangssignal des Teilers 513, nämlich ein Code, der die Anzahl Nv von Rahmen im
mittleren stimmhaften Bereich für die identifizierte Ziffer darstellt, wird vom Ausgang des Teilers 513 zum
Speicher 545 übertragen.
Die LPC-Signai-Ausrichtschaltung 144 in Fi g. IA richtet die /-Wiederholungen der gleichen Ziffer zeitlich
aus, so daß das gleiche Sprachereignis zum gleichen Zeitpunkt für alle Wiederholungen der identifizierten Ziffer
auftritt Nachdem die Sprachereignisse zeitlich ausgerichtet sind, können die Bezugskennwerte für die identifizierten
Ziffern aus den im Speicher 135 gespeicherten Übungsgruppen abgeleitet werden. Fig.6 zeigt eine
Interpolator-Tiefpaßfilter-Dezimator-Anordnung bekannter Art, die als LPC-Signal-Ausrichtschaltung 144 arbeiten
kann.
Entsprechend F i g. 6 wird das yvV-Signal aus dem Speicher 514 der Mittelwertbildungseinrichtung 142 für den
stimmhaften Bereich über die Leitung 517 in den TVV-Speicher 601 eingegeben, und das /W-Signal, das der Dauer
des stimmhaften Bereichs für die erste identifizierte Ziffer der Übungsgruppe entspricht, wird vom Speicher 135
für den identifizierten Ziffern über das Gatter 143 an den NK-Speicher 603 angelegt. Das Ausgangssignal des
Speichers 60t wird an den Interpolator 605 und das Ausgangssignal des Speichers 603 an den Dezimator 610
angelegt Die LPC-Signale a(n), der identifizierten Ziffer werden sequentiell vom Speicher 135 über das Gatter
141a und die Leitung 600 zum interpolator 605 übertragen.
Die erste Gruppe von LPC-Signalen besteht aus der Rahmenfolge der ersten LPC-Signale des identifizierten
stimmhaften Bereichs, d. h. a (l)i,a(l)2,.., a (Ι)λλ·, wobei die Indices sich auf die Rahmennummer des stimmhaften
Intervalls beziehen. Der Interpolator 605 vergrößert die Anzahl von Rahmenabtastwerten der LPC-Signale
auf (Nv) ■ (Nv). In bekannter Weise geschieht dies durch Einfügen von Abtastwerten mit dem Wert null
zwischen jeweils aufeinanderfolgende Rahmen- LPC-Signale der Gruppe.
Das Ausgangssignal des Interpolators 605 gelangt an ein Tiefpaßfilter 607, das ein stückweke lineares Signal
entsprechend der Ausgangsfolge des Interpolators 605 erzeugt In bekannter Weise besteht das stückweise
lineare Signal aus Linienabschnitten, die die Werte von a(l),-Abtastwerten vom Interpolator 605 verbinden.
Diese stückweise lineare Folge wird zum Dezimator 610 gegeben, der die Anzahl von Rahmenabtastwerten um
den Faktor N, verringert. Das sich ergebende Ausgangssignal des Dezimators 610 besteht aus Nv-Abtastwerten
a'(l)i, a'(l)2... a'(\)üv entsprechend den Nversten linearen Vorhersagekoeffizientensignalen a(l)i, 3(1)2 ...
a (1 )/v» die an den Interpolator 605 angelegt sind. Auf diese Weise wird die Anzahl von Rahmen des stimmhaften
Bereichs der ersten LPC-Signale von Nv auf Nv geändert, so daß die LPC-Signale auf den Mittelwert der
Rahmen des stimmhaften Bereiches ausgerichtet werden. Es sei beispielsweise angenommen, daß eine in der
Übungsbetriebsweise gesprochene Ziffer in einer identifizierten Sprachfolge ein stimmhaftes Intervall (Nv) von
50 Rahmen besitzt und daß das mittlere stimmhafte Intervall (Nv) für die /Abtastwerte der gesprochenen Ziffer
40 Rahmen beträgt. Der Interpolator 605 fügt Null-Abtastwerte in die Eingangsabtastfolge a (l)i, a (1)2... a (1)5»
derart ein, daß die Gesamtzahl von Rahmenabtastwerten auf (50) · (40) erhöht wird. Das Tiefpaßfilter 607 liefen
ein stückweise lineares Signal, des den ersten linearen Vorhersagekoeffizienten über die Rahmen des stimmhaften
Intervalls derZiffer darstellt. Der Dezimator 610 verringert die Anzahl von Abtastwerten um den Faktor 50,
wodurch man 40 in gleichem Abstand angeordnete Abtastwerte des stückweise linearen Signals erhält. Auf diese
Weise werden alle linearen Vorhersagekoeffizienten des stimmhaften Intervalls für jede gesprochene Ziffer in
der Übungsbetriebsweise normalisiert oder ausgerichtet zum mittleren stimmhaften Intervall (Nv) für die
identifizierte gesprochene Ziffer. Demgemäß liefert unabhängig von der Anzahl von Rahmen (Nv) jedes individuellen
Abtastwertes einer gesprochenen Ziffer die Ausrichteinrichtung 144 eine Folge von Nv (z. B. 40)
Abtastwerten für jeden linearen Vorhersagekoeffizienten, die den Koeffizienten über sein stimmhaftes Intervall
darstellen.
Die sequentiellen zweiten LPC-Signale a (2)i, a (2)2... a (2)/v„ werden dann an den Interpolator 605 gegeben,
so daß die Anzahl von Rahmenabtastwerten der zweiten LPC-Signale ebenfalls auf (Nv) ■ (Nv) geändert wird.
Nach einer Tiefpaßfilterung und Dezimierung erhält man zeitlich ausgerichtete Abtastwerte a'(21)i, a'(21)2.. ■
b'(\)rv vom Dezimator 610. Auf entsprechende Weise werden die restlichen LPC-Signale zur durchschnittlichen
Anzahl von Rahmen /Vvdes stimmhaften Intervalls der identifizierten Ziffer ausgerichtet. Das zeitlich ausgerich-
tete Ausgangssignal jeder identifizierten Übungsgruppenziffer lautet dann:
Die Operation der Abrichteinrichtung 144 wird für jede der /-Wiederholungen der durch den Code ID1
;i ngegebenen Ziffer wiederholt
Die Schaltungsanordnung gemäß Fig.6 kann irgendeine bekannte Interpolator-Tiefpaßfilter-Dezimatorschaltung
in der Anordnung gemäß Fi g. 6 enthalten. Vorzugsweise wird die Interpolator-De/.imator-Schaltung
nach dcrdcuischcn Patentanmeldung P 26 42 139.6 verwendet. ■>
Die Folge von zeitlich ausgerichteten LPC-Signalen gemäß Gleichung(13) wird an einen LPC-Mittelwert- und
Covarianz-Matrix-Prozessor 146 für jede Wiederholung der identifizierten Ziffer angelegt. Unter Ansprechen
auf die LPC-Signale des stimmhaften Bereichs gemäß Gleichung (13) für die /-Wiederholungen der durch den
Code ID1 identifizierten Ziffer wird im Prozessor 146 eine Gruppe von Bezugskennwertsignalen gebildet Für
jeden Rahmen / = 1... Nv wird ein Signal für den Mittelwert jedes Koeffizientensignals erzeugt Beispielsweise
ist der Mittelwert m(n)iq entsprechend dem Durchschnitt der η zeitlich ausgerichteten linearen Vorhersagesignale
über/-Wiederholungen des /-ten-Rahmens
Darin bedeuten π = 1,2... 12 die LPC-Signalanzahl / = 1, 2 ... Nvdie Rahmenanzahl und q = 1,2... ζ>
die durch den Code ID1 identifizierte Ziffer. Abhängig von den m(n),q Signalen jedes Rahmens für i-;n stimmhaften
Bereich der q-ien identifizierten Ziffer wird ein Bezugsgruppensignal
/TI*, = (/77(1)^/77(2);,,. .,/77(12W (15)
erzeugt das den Mittelwert der ausgerichteten Obungsgruppen-LPC-Signale darstellt.
Außerdem wird die Covarianz-Matrix Sa7 mit den Elementen
4- Σ <*'
J j'i
erzeugt und zwar für jeden Rahmen / = 1,2... Nv, wobei u = 1,2... 12 und ν = 1.2... 12 der Covarianz-Matrix
S«, aus den Mittelwerten m(n)lq der Gleichung (15) und den Koeffizientensignalen a'(n),jedes Rahmens
erzeugt werden.
Die Gruppe von Bezugskennwertsignalen für die q-te identifizierte Ziffer besteht aus den Mittelwertsignalen
m,q und den Covarianz-Matrix-Signalen S,q für jeden Rahmen. Diese Bezugskennwertsignale werden vom Prozcssor
146 zum Bezugskennwertspeicher 148 über Leitungen 147a und 1476 übertragen und dort adressiert
durch den Code ID1 der 9-ten identifizierten Ziffer gespeichert. Das /VV-Signal aus der Mittelwertbildungsainrichtung
142 für den stimmhaften Bereich wird ebenfalls in den Speicher 148 eingegeben. Wenn die Bezugskennwertsignale
der Ziffer q gespeichert sind, der Speicher 148 das Steuersignal EDO, das die Ziffernfolgeschaltung
182 weiterschaltet, so daß die Bezugskennwertsignale für die nächste identifizierte Ziffer gebildet werden
können, wie mit Bezug auf die identifizier ie Ziffer q beschrieben. Auf Grund der Einspeicherung der zuletzt
identifizierten Ziffer Q wird ein Steuersignal ERR von der Ziffernfolgeschaltung 182 an die Steuenjng 180
gegeben, so daß die Bezugsarbeitsweise durch Abschaltung des Signals REFm der Steuerung 180 beendet wird.
Der Mittelwert- und Covarianz-Matrix-Prozessor 146 kann arithmetische und Speichereinheiten bekannter
Art aufweisen. Vorzugsweise enthält der Prozessor 146 einen Mikroprozessor mit einer dauernd in einem
Festwertspeicher gespeicherten Programmsteuerung. Die ausgerichteten LPC-Signale von der Ausrichtschaltung
144 werden über die Leitung 1140 an den Schnittstellen-Adapter 1101 des Prozessors 146 gegeben.
Außerdem wird ein Startsteuersignal SCzur Einleitung der Operation des Mikroprozessors vom Impulsgenerator
615 und der Ausrichtschaltung 144 über die Leitung 1142 zum Schnittstellen-Adapter 1102 übertragen. Der
Mikroprozessor gemäß F i g. 11 erzeugt Mittelwertsignale m(n),q und Covarianz-Matrix-Signale S,q Rahmen für
Rahmen, und diese Signale werden vom Schnittstellen-Adapter 1101 über die Leitungen 1150 und 1152 zum
Bezugskennwertspeicher 148 übertragen und dort unter Adressierung durch das codierte Signal ID1 vom
Gatter 183 eingeschrieben.
Nachdem die Bezugskennwertsignale für alle möglichen Ziffern 1, 2 ... Qm den Bezugsgruppenspeicher 148
eingeschrieben worden sind, wird die Bezugsbetriebsweise durch Abschalten des Signals REF beendet, und es
kann die Erkennungsbetriebsweise entsprechend dem an die Leitung 177 angelegten Erkennungsbetriebsweisi-nsignal
eingeleitet werden. Der Betriebsweisenzähler 178 bringt die Steuerlogik 180 in ihre Erkennungsbetriebsweise,
in der zunächst das Steuersignal TE erzeugt wird. Ein Sprachsigiial, das aus einer Kette von η nicht
identifizierten Ziffern besteht, wird an den Analog-Digitalwandler 103 angelegt, in welchem das Signal für die
gesprochene Ziffernkette ein Tiefpaßfilter durchläuft und zur Bildung codierter Abtastsignale s„ mit siner
Frequenz von 10 kHz abgetastet wird. Wie für die Übungsbetriebsweise beschrieben, bildet der LPC-Generator
122 in der Erkennungsbetriebsweise wiederum die LPC-Signale für jeden Rahmen des durch den Sprachintervail-Detektor
114 bestimmten Sprachintervalls. Die LPC-Signale für die Kette von niclitidentifizierten Ziffern
aus dem Generator 122 werden im Sprachintervall-LPC-Speicher 124 gespeichert
Die Sprachintervallrahmen-LPC-Signale werden in einer Rahmenfolge während der erkennungsbetriebsweise
an den Autocorrelationsmatrix-Prozessor 137 gegeben. Der Prozessor 137 spricht auf die LPC-Signale jedes
aufeinanderfolgenden Rahmens an und erzeugt eine Gruppe von Rahmen-Autocorrelationsmatrix-Koeffizienten
It
/•(η)/- ΣβΜί'Φ»-*!)! (17)
/>
A-I
entsprechend dem vorgenannten Aufsatz von Atal und Hanauer in Journal of the Acoustical Society of America,
ίο Band 50, Nr. 2, Teil 2, 1971, Seiten 637—655. Der Matrixgenerator 137 kann einen Mikroprozessor gemäß
F i g. 11 enthalten, der eine in einem Festwertspeicher permanent enthaltene Programmsteuerung aufweist.
Wenn der Mikroprozessor gemäß F i g. 11 als Autocorrelations-Generator 137 verwendet wird, so nimmt der
Schnittstellen-Adapter 1101 die LPC-Signale vom Speicher 124 über die Leitung 1140 auf und erhält ein
Steuersignal ACS vom Speicher 124, nachdem die Speicherung der LPC-Signale beendet ist, um die Operation .'·
über die Leitung 1142 zu starten. Die Autocorrelations-Koeffizientensignale vom Ausgang des Mikroprozessors .J
gemäß Fi g. 11 werden vom Schnittstellen-Adapter UOl über die Leitung 1150 zum Speicher 139 gegeben. Die '■
Autocorrelation-Koeffizienten-Ausgangssignale für jeden Rahmen werden im Sprachintervall-Autocorreliiiions-Matrixspeicher
i39 zur Verwendung in den Distanz-Prozessoren i56 und i7ö gespeichert, die später in der
Erkennungsbetriebsweise in Operation treten.
Unter Ansprechen auf das Signal A vom Sprachintervall-Detektor 111 und die abgetasteten Sprachsignale .<.„
erzeugt der VUS-Prozessor 115 ein stimmhaftes, stimmloses oder Ruhe-Klassifizierungssignal und ein Energiesignal
für jeden Rahmen von 200 Abtastsignalen Si... S200 auf die gleiche Weise wie bei der Übungsbetriebsweise.
Die Folge von Klassifizierungssignalen wird im VUS-Konturspeicher 117 und die Folge von Rahmenenergiesignalen
im Energiekonturspeicher 120 gespeichert. Am Ende des Sprachsignalintervalls kehrt das Steuersignal Λ
in seinen nicht-betätigenden Zustand zurück, so daß der VUS-Prozessor 115 und der LPC-Signalgenerator 122
ausgeschaltet werden. Zu diesem Zeitpunkt betätigt das Signal DS aus dem Sprachintervall-Detektor 111 die
Gatter 122/4 und 126. Unter Ansprechen auf das Signal DS werdevder VUS-Speicher 117 und der Energiespeicher
120 mit der Ziffernaufteileinrichtung 128 verbunden. Wie mit Bezug auf die Übungsbetriebsweise beschrieben,
werden die Grenzrahmen festgestellt und im Speicher 312 gespeichert. Dann wird der Detektor 130 für den
stimmhaften Ziffernbereich betätigt. Das Λ/v-Signal vom Detektor 130 gelangt zum Prüf-/Vv-Speicher 133 und
wird dort zur Verwendung in der LPC-Zeitausrichteinrichtung 152 gespeichert. Das Ausgangssignal des Detektors
130 für den stimmhaften Bereich vom Gatter 430 (VR 2) in F i g. 4 definiert den stimmhaften Bereich jeder r
Ziffer der aufgeteilten Ziffernkette.
Eine unbekannte Ziffer aus einer Kette von verbundenen Ziffern wird erkannt, in dem bestimmt wird, welche
Bezugskettenwertgruppe für eine identifizierte Ziffer im Speicher 148 am genauesten den LPC-Kennwerten für :
den im Speicher 124 gespeicherten stimmhafter. Bereich der unbekannten Ziffer entspricht Die Korrespondenz
zwischen den linearen Vorhersagekennwerten der unbekannten Ziffer und den gespeicherten Bezugswen-Kennwerten
wird Rahmen für Rahmen ausgewertet, nachdem die LPC-Signale für das stimmhafte Intervall der
unbekannten Ziffer zum mittleren stimmhaften Intervall /Vv der 3ezugsgruppe ausgerichtet sind.
Die Korrespondenz der Bezugswert-Kennwerte der ausgerichteten Prüfkennwerte wird durch Bildung eines
Distanzsignals
d\,q = (ä\ -m,„)/.;1 (a'i - miq)' (19)
für jeden Rahmen des stimmhaften Bereichs der Prüfziffer im Prozessor 156 bestimmt, wobei
λ, = R-' [O]R1O;1) (20)
und Ri die Autocorrelationsmatrix des Rahmens sind, die aus den Autocorrelations-Koeffizienten /7 im Speicher
139 gebildet ist </', ist der Vektor, der aus den LPC-Signalen des /-ten Rahmens für den stimmhaften Bereich der
Prüfziffer besteht, die zum mittleren stimmhaften Bereich /vVder Bezugsgruppe ausgerichtet sind.
ä', = (e'(l)„a'(2)„...,a'(12),). (21)
Dabei ist % der Vektor, der aus den Mittelwertsignalen des /-ten Rahmens für den mittleren stimmhaften
Bereich Nv der q-ten Zifferngruppe im Speicher 148 besteht
mlq = On(I)1-,, m(2),f,...,m(12),f). (22)
Nachdem die Signale d \ iq für die Nv-Rahmen des stimmhaften Intervalls für die q-te Bezugszifferngruppe
gebildet sind, wird der Mittelwert Dk1 entsprechend der nachfolgenden Gleichung erzeugt:
Du~ Σ ^-
(23)
Ein Signal D1 ,. das für jede identifizierte Ziffer abgeleitet ist, stellt die Korrespondenz zwischen den Kennwerten
der unbekannten Ziffer und den Bc/iigskcnnwerten der q-lcn klentifiziertcn Ziffer dar. Das Mininuiin-Si
gnal D,q entspricht der Identität der unbekannten Prüfziffer.
Alternativ kann ein Distanzmaß
Alternativ kann ein Distanzmaß
di,q = (ä; - «,„) C1J (λ; - /w,-,,)', (24)
wobei N = 200 aus den LPC-Signalen der unbekannten Ziffer und den gespeicherten Bezugswert-Kennwerten
jeder identifizierten Ziffer im D2,-Prozessor 170 abgeleitet werden, aus dem das mittlere Distanz-Signal
ft*--^-E*'f (25)
erzeugt wird. Die Bildung von Chq isi zwar wesentlich komplizierter, aber Diq ist ein besser geeignetes Distanzmaß,
wenn die Ziffernaufteilungsgrenze innerhalb eines stimmhaften Bereichs auftitt. Dies ist wegen der voraussichtlich
großen Koartikulation zwischen Ziffern der Fall. Wenn die Ziffernaufteilungsgrenze an einem Stimmhaft-Stimmlos-Übergang
oder einem Stimmlos-Stimmhaft-Übergang auftritt, so kann das einfachere Distanzmaß-Signal
D\q benutzt werden.
Bei der Anordnung nach Fig. IA und 1B wird zunächst D\q für jede identifizierte Ziffer gebildet. Das minimale
D\q und das nächstgrößere D\q aus der Gruppe Dio, D\i ■ ■ ■ D[q werden dann gespeichert. Wenn das Verhältnis
des nächstgrößeren D\q zum minimalen D\q kleiner als ein vorbestimmter Wert, beispielsweise 1,1 ist, so werden
die /^.-Signale gebildet, um eine genauere Bestimmung für die Identität der Prüfzellen zu erhalten. Ehq wird
außerdem dann benutzt, wenn ein Konflikt zwischen der VUS-Information des VUS-Speichers 117 und der
Identität der unbekannten Ziffer auftritt. Beispielsweise kann die durch das minimale D\q identifizierte Ziffer eine
englisch-sprachige 1,8 oder 9 sein, die mit stimmhaften Bereichen beginnen, und der Anfangsgrenzrahmen der
Zitier kann ein stimmloser oder Ruhe-Rahmen sein. Dann tritt ein Konflikt zwischen der VUS-Information und
der durch das minimale D^-Signal identifizierten Ziffer auf. Dieser Konflikt wird durch die Bildung der Distanzsignale
D2, gelöst. Wenn auf ähnliche Weise die Ziffer mit einem stimmhaften Rahmen beginnt und eine
englisch-sprachige 0, 2, 3, 4, 5, 6 oder 7 ist, die mit stimmlosen Rahmen beginnen, dann ergibt sich eine
Diskrepanz, die durch Verwendung der Distanzsignale D29 gelöst wird.
In der Erkennungsbetriebsweise wird das Signal TEi in der Steuerung 180 bei Beendigung des stimmhaften
Bereichs der Ziffer für jede unbekannte Ziffer mittels des Detektors 130 erzeugt. Die Anzahl (Nv) von Rahmen
der unbekannten Ziffern wird vom Gatter 416 im Detektor 130 an den Prüf-A/v-Speicher 133 über das Gatter
1.30c angelegt. Das Signal TE 1 stellt die Ziffernfolgeschaltung 182 auf die erste identifizierte Ziffer, beispielsweise
0 zurück, wodurch ein Code ID 2, der die erste identifizierte Ziffer darstellt, am Ausgang des Gatters 184 zur
Verfügung steht. Das Signal ID2 wird an den Bezugskennwertspeicher 148 gegeben, um die Bezugskennwerte
der ersten identifizierten Ziffer zu adressieren. Zu diesem Zeitpunkt steht das Signal Nv, das der ersten
identifizierten Ziffer entspricht, aus dem Speicher 148 auf der Leitung 149 zur Verfügung. Die linearen Vorhersagekennwerte
der unbekannten Ziffer aus dem LPC-Signalspeicher 124 stehen auf der Leitung 123 zur Verfügung.
NRv entsprechend der Anzahl von Rahmen im stimmhaften Bereich der unbekannten Ziffer steht ebenfalls
aus dem Prüf-A/v-Speicher 133 zur Verfügung.
Die LPC-Signalausrichtungsschaltung 152, die die in F i g. 6 gezeigte Schaltung sein kann, bewirkt jetzt eine
Ausrichtung oder Normalisierung der LPC-Signale, die auf der Leitung 123 vom Speicher 124 zur Verfügung
siehen, und zwar auf das mittlere, stimmhafte Intervall Nv der identifizierten Bezugsziffer. Das A7v-Signal vom
Speicher 148 auf der Leitung 149 wird der Ausrichtungsschaltung 152 über das Gatter 150a zugeführt. Das
Signal VT? 2 steht vom Detektor 30 für den stimmhaften Bereich über das Gatter 430 zur Verfügung. Das Signal
VR" ist während des stimmhaften Signals der unbekannten Ziffer ein Betätigungssignal und wird dem Gatter
150c/zusammen mit den Sprachintervall-LPC-Ausgangssignalen auf der Leitung 123 zugeführt Die LPC-Signale
der unbekannten Ziffer werden der Ausrichtungsschaltung 152 vom Speicher 124 in der nachstehenden Reihenfolge
übermittelt:
55 v. (26)
Außerdem gelangt das Signal NRv, das die Anzahl von Rahmen im stimmhaften Abschnitt der Ziffer darstellt,
vom Speicher 133 zur Ausrichtungsschaltung 152.
Die Ausrichtungsschaltung 152 kann die Interpolator-Tiefpaßfilter-Dezimatoranordnung gemäß F i g. 6 sein,
die zuerst die unbekannten LPC-Signale a(l)i, a(1)2 ... a(l)y\«„ gemäß Gleichung (26) durch Erhöhung der
Abtastfrequenz um den Faktor Nv interpoliert- Dann wird ein stückweise lineares Signal, das die interpolierten
LPC-Signale darstellt, im Tiefpaßfilter gebildet Das gefilterte Signal wird dann um den Faktor A/Ävdezimiert, so
daß sich eine Folge von LPC-Ausgangssignalen
a'(1)lta'(1)2...a'(l),v,, (27)
die zu der Bezugsgruppe von Signalen m^ und Sx, im Bezugskennzeichenspeicher 148 ausgerichtet sind. Auf
Π 53 277
ähnliche Weise werden die LPC-Signalgruppen a
a(2)i,a'(2)2...a'(2)/v,...a'(12),...a'(12)/v,, (2«)
die sequentiell in der Ausrichtschaltung 152 erzeugt werden.
Auf diese Weise können die Nv Signale LPC aus der Ausrichtschaltung 152 direkt mit den Nv Mittelwertsignalen
m,q im Speicher 148 verglichen werden. Wenn die unbekannte, gesprochene Ziffer die identifizierte Ziffer
ist, für die die n?,,-Signale im Speicher 148 gespeichert sind, so stimmen die zeitlich ausgerichteten η LPC-Sign;i-Ie,
die für das stimmhafte Intervall der unbekannten Ziffer gewonnen worden sind, gut mit den m^-Signalen
überein. Für alle anderen identifizierten Ziffern unterscheiden sich dagegen die zeitlich ausgerichteten LPC-Signale,
die für das stimmhafte Intervall der unbekannten Ziffer gewonnen worden sind, stark von den m,q-S\gnulen
im Speicher 148, die für die identifizierten Ziffern in der Übungsbetriebsweise erhalten wurden.
Die zeitlich ausgerichteten LPC-Ausgangssignale von der Ausnchtschaltung 152 werden an den Speicher 154
für ausgerichtete LPC-Prüfsignale gegeben, der in F i g. 8 dargestellt ist. Gemäß F i g. 8 stellt ein Steursignal LC
vom Impulsgenerator 615/4 der Ausrichtschaltung 152 das Flip-Flop 831, wenn LPC-Signale von der Ausnchtschaltung
152 zur Verfügung stehen. Vor diesem Zeitpunkt wird das codierte /Vv-Signal, das die Anzahl von
Rahmen im stimmhaften Intervall darstellt, vom Gatter 150a über die Leitung 1526 zum Speicher 838 gegeben.
Der Nv-Cods wird vom Speicher 838 an den Nv Rahmcnzähicr 834 geliefert. Dieser Zähler zählt unter Ansprechen
auf Rahmentaktsignale PFüber das Gatter 832 die Rahmen des durchschnittlichen Stimmhaft-Bereichs, für
die die zeitliche Ausrichtschaltung 152 in Betrieb ist. Während der ersten /vV-Rahmen wird das Gatter 801-1 vom
Rahmenzähler 834 betätigt, so daß die LPC-Signale von der Ausrichtschaltung 152 über die Leitung 152.·;
sequentiell in das Schieberegister 811-1 eingegeben werden. Das ausgerichtete Koeffizientensignal a'(1)i wird
zuerst eingegeben, gefolgt vom Koeffizienten a'(l)2.
Die a'(l),-Koeffizientensignale werden sequentiell im Schieberegister 811 bis zum yVv-ten Rahmen gespeichert,
in welchem das Koeffizientensignal a'(\)sv eingegeben wird. Zu diesem Zeitpunkt schaltet der Rahmenzähler
834 das Gatter 801-1 ab und betätigt das Gatter 801-2, so daß die sequentiell auftretenden zweiten
LPC-Signal a'(2)i, a'(2)2... a'(2)üv in das Schieberegister 811-2 eingegeben werden. Nachdem das Koeffizientensignal
a'(2)/v, in das Schieberegister 812-2 eingegeben ist, schaltet der Zähler 834 das Gatter 801-2 ab. Auf
entsprechende Weise wird das dritte bis elfte Koeffizientensignal sequentiell in das entsprechende Register (in
Fig.8 nicht gezeigt) eingegeben. Nachdem der Koeffizient a'(ll)/vr in den Speicher gemäß Fig.8 eingegeben
worden ist, betätigt ein Signal vom Rahmenzähler 834 das Gatter 801-12, so daß die zwölften LPC-Signale
a'(12)i,a'(I2)2...a'(12)A/v in das Schieberegister 811-12 gegeben werden.
Nachdem der Koeffizient a'(12)tfv in das Register 811-12 gegeben worden ist, stellt ein Ausgangssignal des
Rahmenzählers 834 das Flip-Flop 836 ein, um die Beendigung für das Einschreiben des LPC-Speichers 154
anzuzeigen. Das Flip-Flop 831 wird dann über die Verzögerungseinrichtung 842 zurückgestellt. Daraufhin wird
der eins-Ausgang des Flip-Flops 836 betätigt und ein entsprechendes Betätigungssignal über die Leitung 1546
zum Di^-Prozessor 156 übertragen, um die Erzeugung der Signale d-,q und des Signals D\q entsprechend Gleichung
(19) und (23) einzuleiten.
Das Eins-Ausgangssignal des Flip-Flops 836 wird außerdem zum Impulsgenerator 839 geführt, der unter
Ansprechen auf Signale vom Prozessor 156 über die Leitung 154c gleichzeitig die Gatter 821-1 !is 821-12
betätigt, so daß die LPC-Signale jedes Rahmens, nämlich a'(l)A a'(2);... a'(12)i, beginnend mit dem ersten
Rahmen des stimmhaften Intervalls der Ziffer parallel von den Schieberegistern 811-1 bis 811-12 über die
Leitung 154a und das Gatter 155 zum Prozessor 156 übertragen werden, und zwar je nach Bedarf durch den
Prozessor 156. Nachdem die letzte Gruppe von LPC-Signalen zum Prozessor 156 gelangt ist, wird das Flip-Flop
836 durch ein Signal auf der Leitung 154c/ vom Prozessor 156 zurückgestellt.
Der Prozessor 156 spricht auf die LPC-Signale, die über das Gatter 155 aus dem Speicher 154 gewonnen
worden sind, die über die Leitung 151 aus dem Speicher 148 gelesenen m/,-Signale und die über die Leitung 139.·;
vom Speicher 139 gewonnenen /-,-Signale an, um die (^,,,-Signale gemäß Gleichung (19) für jeden Rahmen des
stimmhaften Intervalls der Ziffer zj bilden und außerdem deren Mittelwert gemäß Gleichung (23) zu erzeugen.
Der Prozessor 156 kann einen der obengenannten Mikroprozessoren gemäß F i g. 11 aufweisen, in welchem ein
Steuerprogramm im Festwertspeicher 1109 permanent vorhanden ist. Die /π/,-Signale aus dem Speicher 148
werden über die Leitungen 151 und 1130 der direkten Speicherzugriffsschaltung 1105 zugeführt. Außerdem
werden dieser Schaltung die Autocorrelation-Koeffizientensignale aus dem Speicher 139 über die Leitungen
139a und 1130 zugeführt. Die LPC-Signale für die unbekannte Ziffer werden vom Speicher 154 über das Gatter
155 und die Leitung 1150 zum Schnittstellen-Adapter 1101 übertragen. Ein Steuersignal gelangt vom Eins-Ausgang
des Flip-Flops 836 im Speicher 154 über die Leitung 1546 und 1142 zum Schnittstellen-Adapter 1101, um
die Erzeugung d\,q und D\„ einzuleiten. Das Ausgangssignal des Prozessors 156 für die q-te identifizierte Ziffer ist
ein codiertes Signal Dlq, das vom Schnittstellen-Adapter 1101 über die Leitung 1150 zum Α,-Minimumwähler
160 gegeben wird.
Der £>i?-Code für jede identifizierte Ziffer wird so vom Prozessor 156 zum Di9-Minimumwähler 160 übertragen,
wie er imProzessor 156 erzeugt wird. Der in F i g. 9 gezeigte Wähler 160 wählt den Di^-Minimumcode und
den nächstgrößeren Dig-Code. Vor der Bildung des Α,-Code im Prozessor 156 wird ein Einleitungssignal vom
Prozessor 156 an den Impulsgenerator 903 angelegt.
Abhängig vom Impulsgenerator 903 gelangt ein codiertes Signal Fn zum Minium-Register 921 und zum Register 931 für den nächstgrößeren Wert, um dort den größtmöglichen Wert D\q einzugeben. Das Signal In ι vom Impulsgenerator 903 wird zum Eingangsregister 917, zum Eingangsidentifizierregister 919, zum Minimum-Identitizierregister 923 und zum Identifizierregister 933 für den nächstgrößeren Wert geführt, um diese Register auf null einzustellen.
Abhängig vom Impulsgenerator 903 gelangt ein codiertes Signal Fn zum Minium-Register 921 und zum Register 931 für den nächstgrößeren Wert, um dort den größtmöglichen Wert D\q einzugeben. Das Signal In ι vom Impulsgenerator 903 wird zum Eingangsregister 917, zum Eingangsidentifizierregister 919, zum Minimum-Identitizierregister 923 und zum Identifizierregister 933 für den nächstgrößeren Wert geführt, um diese Register auf null einzustellen.
Bei Bildung des Di,-Code für die erste identifizierte Ziffer führt der Impulsgenerator 901 das Di,-Signal vom
Prozessor 156 zum Eingangsregister 917 und den Identif'iziercode ID2 der ersten identifizierten Ziffer in das
Register 919. Der Inhalt des Registers 917 wird dann im Komparator 925 mit dem Inhalt des Minimum-Registers
921 verglichen. Da das Register 921 zu Anfang auf den höchstmöglichen Wert eingestellt worden ist, erzeugt der
Komparator 925 ein Betätigungssignal, das angibt, daß das Register 921 einen Code enthält, der größer ist als der
Οι,-Code im Register 917. Dieses Betätigungssignal P11 bewirkt, daß das Ausgangssignal des Registers 921 über
die Wählerschaltung927 zum Eingang des Registers 931 für den nächstgrößeren Wert geführt wird.
Das Ausgangssägnal des Eingangsregisters 917 wird ebenfalls im Komparator935 mit dem Ausgangssignal des
Registers 931 verglichen. Wenn der Inhalt des Registers 917 kleiner als der Inhalt des Registers 931 ist, so erzeugt
der Komparator 935 ein Betätigungssignal Pb, das an einen Eingang des Gatters 907 angelegt wird.
Nach Durchführung der beiden Vergleiche wird ein Impuls aus dem Impulsgenerator 901 über die Verzögerungseinrichtung
905 an den anderen Eingang des Gatters 907 gegeben, vorausgesetzt, daß der Inhalt des
Registers 917 kleiner ist als der Inhalt des Registers 931. D^s Ausgangssignal des Wählers 927 wird dann in das
Register 931 eingegeben, und der entsprechende identifizierte Code über den Wähler 929 in das Register 933. Im
Fall der ersten identifizierten Ziffer wird der Inhalt des Registers 921 über den Wähler 927 übertragen und
gelangt in das Register 931. Gleichzeitig wird der Identifizier-Code im Register 923 über den Identifizierwähler
929 an das Register 933 übertragen.
Nach der Übertragung in das Register 931 wird das Gatter 911 auf Grund des verzögerten. Impulses von der
Verzögerungseinrichtung 909 und eines Betätigungssignals P1 eingeschaltet. Das Signal P3 bewirkt nur dann eine
Betätigung, wenn der Inhalt des Eingangsregisters 917 kleiner als der Inhalt des Minimum-Registers 921 ist. Dies
trifft im Fall der ersten Identifizierziffer zu, so daß der Inhalt des Registers 917 in das Minimum-Register 921
übertragen und der entsprechende Identifiziercode vom Register 919 zum Register 923 gegeben werden.
Im allgemeinen speichert das Register 921 den aus dem Prozessor 156 gewonnenen Minimum-Code D\T
während das Register 931 den nächstgrößeren Code Di, enthält. Der Komarator 925 vergleicht den neu in das
Register 917 eingegebenen Code D\q mit dem Minimum-Code Di9 im Register 921. Der größere der beiden
Codierungen wird über den Wähler 927 zum Eingang des Registers 931 für den nächstgrößeren Wert übertragen.
Der Komparator 935 sorgt für eine Übertragung in das Register 931 nur dann, wenn der Code des
Eingangsregisters kleiner als der nächstgrößere Code D]q im Register 931 ist. Auf diese Weise wird, wenn der
Code D\q im Register größer als der Minimum-Code D\q im Register 921, aber kleiner als der nächstgrößere
Code Di, im Register 931 ist,der Code im Register 917 als der nächstgrößere Code D)? im Register gespeichert.
Wenn jedoch der Code Di, im Eingangsregister 917 kleiner als der vorher eingespeicherte Minimum-Code D\q
im Register 921 ist, so wird der Code im Register 931 zum Eingang des Registers 931 für den nächstgrößeren
Code übertragen und dort eingegeben, wenn er kleiner als der vorher gespeicherte, nächstgrößere Code im
Register 931 ist Nach der Übertragung des größeren Code Dlq über den Wähler 927 in das Register 931 wird der
Code Di, des Eingangsregisters über das Gatter 911 nur dann in das Minimum-Register 921 übertragen, wenn
der Code Di5 des Eingangsregisters kleiner als der Code im Minimum-Register 921 ist. Der verzögerte Impuls
uus der Verzögerungseinrichtung 940 wird als Signal ED1 zur Weiterschaltung der Folgeschaltung 182 für die
nächste identifizierte Ziffer benutzt. Die Codierungen D-,q werden sequentiell für die identifizierten Ziffern 0,1,2
... C? gebildet, und der Minimum-Code und der nächstgrößere Code D](? werden im Wähler 160 gespeichert.
Nachdem die letzte identifizierte Ziffer C? im Prozessor 156 verarbeitet worden ist, enthält das Register 921 im
Wähler 160 den für die unbekannte Ziffer gewonnenen Minimum-Code Dlq, und das Register 923 enthält den
entsprechenden Identifiziercode. Das Register 931 enthält den nächstgrößeren, für die unbekannte Ziffe-- gewonnene
Code D\q und das Register 933 den entsprechenden Identifiziercode.
Unter Ansprechen auf das identifizierte Ziffernsignal ID 2, das die letzte identifizierte Ziffer C? ist, betätigt der
Komparator 941 das Gatter 942. Am Ende der Auswahloperation im Wähler 160 triggert ein Impuls vom Gatter
942 den Impulsgenerator 943, so daß die Gatter 945,947 und 949 durch einen Ausgangsimpuls des Generators
943 eingeschaltet werden. Das AusgangSMgna! des Gatters 945 ist der D^-Minimum-Code (X1) aus dem Register
921 Das Ausgangssignal des Gatters 947 ist der nächstgrößere Di7-Code (X2), und das Ausgangssignal des
Gatters 949 ist die Identität des Α,-Minimum-Code lDm„ i-
Nach Bildung des letzten Di<?-Code für die unbekannte Eingangsziffer prüft der Folgerichtigkeitsdetektor 157
die Gültigkeit der gewählten identifizierten Ziffer. Wenn die gewählte identifizierte Ziffer eine englisch-sprachige
1, 8 oder 9 ist, die alle mit einem stimmhaften Bereich beginnen, so liefert der Folgerichtigkeitsdetektor 157
ein Ausgangssignal G, wenn der Anfangsgrenzrahmen der unbekannten Ziffer entweder ein stimmloser Rahmen
oder ein Ruherahmen ist Wenn andererseits die gewählte identifizierte Ziffer eine englisch-sprachige, null, 2.3,4,
5. 6 oder 7 ist die alle mit stimmlosen Bereichen beginnen, so liefert der Folgerichtigkeitsdetektor 157 ein
Ausgangssignal G, wenn der Anfangsgrenzrahmen der unbekannten Ziffer ein stimmhafter Rahmen ist. Der
Folgerichtigkeitsdetektor 157 liefert außerdem dann ein Ausgangssignal G, wenn das Verhältnis des nächstgrößeren
Wertes Di, zum Minimum-Wert Dtq kleiner als ein vorbestimmter Schwellenwert ist In einem solchen Fall
ist die Identifizierung durch den Minimum-Wähler 160 zweifelhaft.
Abhängig von einem Ausgangssignal G des Folgerichtigkeitsdetektor 157, das eine Ungültigkeit angibt,
werden die ausgerichteten LPC-Signale für den stimmhaften Bereich der unbekannten Ziffer an den D2g-Prozessor
170 gegeben, der entsprechend Gleichung (24) und (25) ein genaueres Korrespondenz-Signal liefert. Wenn
jedoch im Detektor 157 festgestellt wird, daß die gewählte identifizierte Ziffer gültig ist so wird der IDm,„ i-Code
vom Wähler 160 über das Gatter 165 im Speicher 176 für die erkannten Ziffern übertragen, und die Erkennungsbetriebsweise
für die unbekannte Ziffer wird beendet
Der Folgerichtigkeitsdetektor 157 ist in F i g. 7 gezeigt Nach der Ziffernaufteilung in der Ziffernaufteilungseinrichtung
128 für die unbekannte Ziffernkette werden die Ausgangssignale des Grenzspeichers 312 und des
VUS-Konturspeichers 117 auf der Leitung 316 bzw. 018 zum Gatter 742 geführt um den Anfangsrahmen jeder
Ziffer als stimmhaften, stimmlosen oder Ruherahmen zu identifizieren. Der Klassifizierungscode für jeden
Anfangsrahmen wird im Register 745 zur Verwendung bei der Foigerichtigkeitsanzeige gespeichert. Nach Wahl
des D^-Minimum-Code wird die Klassifizierung der unbekannten Ziffer als stimmhaft oder stimmlos am
Ausgang des Registers 745 zur Verfügung gestellt
Zur Erläuterung sei angenommen, daß die unbekannte Ziffer als eine englisch-sprachige eins identifiziert ist,
aber daß der Anfangsrahmen für die unbekannte Ziffer ein stimmloser Rahmen ist, so daß der Ausgang K des
Registers 745 betätigt ist. Die Komparatoren 701,703 oder 705 liefern ein AusgangssignaL wenn die gewählte
identifizierte Ziffer IDnUn eine eins, acht oder neun ist Wenn es sich um eine eins handelt, so liefert der
Komparator 701 über das ODER-Gatter 707 ein Betätigungssignal an^las Gatter 709. Wenn der Anfangsrahmen
ίο der Ziffer als stimmlos klassifiziert worden ist, so betätigt das Signal V außerdem das Gatter 709. Der Impulsgenerator 750 liefert zu Beginn der Operation des Folgerichtigkeitsdetektors den Impuls P\, wodurch das Gatter
709 das Flip-Flop 711a einstellt Diese Einstellung des Flip-Flops 711a entspricht einem Widerspruch bei der
^,-Identifizierung. Das Eins-Ausgangssignal des Flip-Flops 711a wird dem Gatter 977 über das ODER-Gatter
732 zugeführt and beim Auftreten eines nachfolgenden Impulses P2 vom Generator 750 wird das Flip-Flop 735
eingestellt um den Widerspruch bei der Identifizierung anzuzeigen. Das Ausgangssignal des Gatters 733 wird
außerdem dem Rückstelleingang des Flip-Flops 711a über die Verzögerungseinrichtung 737 zugeführt, um das
Flip-Flop 711a für die nächste unbekannte Ziffer vorzubereiten.
Die Komparatoren 711 —717 bestimmen, ob die gewählte identifizierte Ziffer IDm ι eine englisch-sprachige
null, zwei, drei, vier, fünf, sechs oder sieben ist In diesem Fall wird ein Betätigungssignal über das ODER-Gatter
TO 719 zum UND-Gatter 720 übertragen. Wenn der Anfangsrahmen der unbekannten Ziffer ein stimmhafter
Rahmen ist, so wird das Gatter 720 aufgrund des Impulses P\ eingeschaltet und das Flip-Flop 721 eingestellt Die
Einstellung des Flip-Flops 721 entspricht der Feststellung eines Widerspruchs bei der Auswahl von IDmi„ \. Dann
wird das Eins-Ausgangssignal des Flip-Flops 721 über das ODER-Gatter 732 und das UND-Gatter 733 weitergeleitet um das Flip-Flop 735 einzustellen. Ein Impuls Pt stellt das Flip-Flop 721 über die Verzögerungseinrichtung
737 vorbereitend auf null zurück.
Die Verhältnisschaltung 723 erzeugt ein Signal, das dem Verhältnis des nächstgrößeren A,-Signals fc) zum
Di,-Minimum-Signal (x\) entspricht Das Ausgangssignal der Verhältnisschaltung 723 wird zusammen mit einem
vorbestimmten Schwellenwertsignal 7"zum Komparator 725 gegeben. Dieser Schwellenwert kann beispielsweise 1,1 betragen. Wenn das Verhältnis von χι zu x% kleiner als Tist so liefert der Komparator 725 ein Ausgangssi-
gnal an das Gatter 729. Beim Auftreten des Impulses P\ wird das Flip-Flop 731 eingestellt und dessen Eins-Ausgangssignal über das ODER-Gatter 732 zum UND-Gatter 733 geführt Das Flip-Flop 735 wird beim Auftreten
des Steuerimpulses Pi eingestellt, um anzuzeigen, daß die-Gültigkeit der Di9-Identifizierung zweifelhaft ist Der
Impulsgenerator 740 liefert TE 1 aus und das Signal TE2 ein, um die Erzeugung des D^-Korrespondenzsignals
einzuleiten.
Wie oben mit Bezug auf die Erzeugung des Signals D\a beschrieben, liefern die LPC-Signalausrichtungsschaltung 152 und der LPC-Signalspeicher 154 abhängig vom Signal TE2 die für die Erzeugung der !^-Signale im
Prozessor 170 benötigten LPC-Kennzeichnungssignale. Der Prozessor 170 spricht auf die ausgerichteten Vorhersage-Kennwertsignale vom Gatter 153, die Covarianz-Matrixsignale S», vom Gatter 169a, die Mittelwertsignale m,g vom Gatter 169i>
und die Autocorrelations-Koeffizientensignale η vom Gatter 169c an, um ein
/^,-Signal gemäß Gleichung (25) zu erzeugen. Es wird ein /^-Signal für jede identifizierte Ziffer erzeugt, die
durch das codierte, von der Ziffernfolgeeinrichtung 182 abgeleitete und an den Speicher 148 gegebene Signal
nach Bildung jedes /^,-Signals durch das Steuersignal ED 2 vom Wähler 173 weitergeschaltet
sprechend Gleichung (24) und (25) dient das im Festwertspeicher 1109 des Mikroprozessors gespeicherte
Steuerprogramm dazu, die Distanz zwischen dem mittleren LPC-Vector und dem gemessenen Vector zu
berechnen. Der Prozessor 170 erzeugt ein codiertes Signal Dia fur Je^e identifizierte Ziffer, die durch die
Ziffernfolgeschaltung 812 bestimmt und durch das Gatter 185 als Signal IDZ geliefert wird. Gemäß Fig. 11
werden die Signale m*, und 5«, aus dem Bezugskennwertspeicher 148 über die Leitungen 1130 bzw. 1132 zur
direkten Speicherzugriffsschaltung 1105 geführt Die Autocorrelations-Koeffizientensignale η werden vom
Speicher 139 über das Gatter 169c und die Leitung 1140 zum Schnittstellen-Adapter 1101 übertragen, und die
LPC-Signale für die unbekannte Ziffer werden vom Speicher 154 über das Gatter 153 und die Leitung 1142
zugeführt Die Signale D2, vom Prozessor 170 gelangen sequentiell über die Leitung 1150 zum /^,-Wähler 17.3.
Der Prozessor 170 wird durch einen Impuls vom Eins-Ausgang des Flip-Flops 836 des Speichers 154 gestartet
der über die Leitungen 1546 und 1143 an den Schnittstellen-Adapter 1101 gegeben wird. Der Wähler 17.Ϊ
bestimmt das Minimum-Signal D?q und gibt den diesem Signal entsprechenden Identifiziercode zum Speicher
176 für erkannte Ziffern. Der Wähler 173 ist in F i g. 10 dargestellt.
Gemäß F i g. 10 spricht der Impulsgenerator 1030 auf ein Vorbereitungssignal vom Prozessor 170 vor Bildung
des 02,-Signals für die erste identifizierte Ziffer an und erzeugt die codierten Signale Vn und Vn \. Das Signal /',,
eo wird an das Minimum-Register 1005 gegeben, um dort den größtmöglichen Code einzugeben. Das Signal Vn ι
stellt das Eingangsregister 1001, das Eingangsidentifizierregister 1003 und das Minimum-Identifizierregister
1007 auf null. Das erste, vom Prozessor 170 erzeugte 02,-SignaI wird in das Eingangsregister 1001 in Abhängigkeil vom Impulsgenerator 1020 eingegeben. Zu diesem Zeitpunkt wird das /D3-Signal vom Gatter 185 als
Identifiziercode für die erste identifizierte Ziffer in das Eingangsidentifizierregister 1003 übertragen.
Das Ausgangssignal des Eingangsregisters 1001 wird mit dem Ausgangssignal des Minimum-Registers 1005
im Komparator 1009 verglichen. Wenn der Inhalt des Registers 1001 kleiner als der Inhalt des Registers 1005 ist,
so liefert der Komparator 1009 ein Betätigungssignal an das Gatter 1025. Das Ausgangssignal des Impulsgenerators 1020 wird über die Verzögerungseinrichtung 1023 dem anderen Eingang des Gatters 1025 zugeführt.
Abhängig vom Gatter 1025 wird der Inhalt des Eingangsregisters 1001 zum Minimum-Register 1005 übertragen
und der Identiffariercode im Register 1003 in das Minimum-Identifizierregister 1007 eingegeben.
Beim Auftreten eines nachfolgenden D^-Code bewirkt das Ausgangssignal des Impulsgenerators 1020, daß
der neue Z^-Code in das Eingangsregister 1001 und der entsprechende Identifizier-Code ID 3 in das Eingangsidentifizierregister 1003 gegeben wird. Der Komparator 1009 liefert ein Ausgangssignal nur dann, wenn der
ZJ^-Code im Eingangsregister 1001 kleiner als der im Minimum-Register 1005 gespeicherte Code ist In diesem
Fall wird der ß^-Code vom Register 1001 zum Register 1005 und der entsprechende Identifiziercode vom
Register 1003 zum Register 1007 übertragen. Wenn der ZJ^-Code im Register 1001 gleich oder größer als der
vorher bestimmte Minimum-Code im Register 1005 ist, so wird das Gatter 1025 nicht eingeschaltet, und der
vorher bestimmte Minimum-Code bleibt im Minimum-Register 1005. Am Ende jedes /^-Vergleichs wird die
Folgeschaltung durch den Impuls EDI von der Verzögerungseinrichtung 1028 weitergeschaltet. Wenn der
letzte Z^j-Code an den Wähler 123 geliefert wird, speichert das Minimum-Identifizierregister 1007 den Identifizier-Code der dem Z^-Minimumsignal entspricht
Der Komparator 1040 vergleicht den im Augenblick auftretenden Identifizier-Code mit dem letzten Identifizier-Code Q. Nachdem das Αρ-Signal im Wähler 173 ausgewertet worden ist wird das Gatter 1041 eingeschal-
tet, und der Impulsgenerator 1042 liefert einen Impuls p/O3 an das Gatter 1044. Der dem D^-Minhmup-Signal
aus dem Register 1007 entsprechende Identifiziercode wird über das Gatter 1044 zum Gatter 1075 und von dort
zum Speicher 176 für erkannte Ziffern übertragen, und zwar unter Ansprechen auf das Steuersignal TE2. Die
Erkennung der unbekannten Ziffer ist damit beendet Beim Auftreten eines Signals ERM im Speicher 176 wird
dieses Signal zum Fölgerichtigkciisdetketor 157 übertragen, um das Flip-Flop 737 im Detektor 157 zurückzustellcn und außerdem zur Steuerung 180 geführt, um das Steuersignal TE 2 abzuschalten und das Steuersignal TE 1
zur Vorbereitung der Schaltung gemäß F i g. 1 für die Erkennung der nachfolgenden Ziffer einzuschalten. Der
Zähler 177 nimmt bei Erkennung jeder unbekannten Ziffer die ERM-Impulse aus dem Speicher 176 auf.
Nachdem die n-te unbekannte Ziffer erkannt ist erzeugt der Zähler 177 ein Signal EDR, das die Steuerung 180
veranlaßt die Erkennungsbetriebsweise durch Abschaltung der Steuersignale TE, TE 1 und TEI zu beenden.
Claims (6)
1. Verfahren zur Spracherkennung, bei dem ein Satz von Bezugssignalen erzeugt wird, welche die Vorhersagekennwerte
von identifizierten Sprachabschnitten darstellen, bei dem ein Satz von Prüfsignalen erzeugt
wird, welche die Vorhersagekennwerte eines unbekannten Sprachabschnitts darstellen, bei dem der Satz von
Prüfsignalen und jeder Satz von Bezugssignalen so ausgerichtet wird, die mit jedem anderen ausgerichteten
Sätze die gleiche Anzahl von Signalen wie jeder andere enthält und bei dem ein Ansprechen der auf jeden
anderen ausgerichteten Prüfsignal- und Bezugssignalsätze erfolgt, um ein Signal zu erzeugen, das den Grad
der Entsprechung zwischen diesen darstellt, gekennzeichnet durch Trennen der kontinuierlichen
ίο Ketten von verbundenen identifizierten Sprachabschnitten in die identifizierten Sprachabschnitte (128),
durch Erzeugen eines Satzes von Vorhersagekennwerten, die nur den stimmhaften Intervallen jeder Aussprache
jedes identifiziertes Sprachabschnitts entsprechen, durch Verarbeitung jedes Satzes von Vorhersagekennwerten,
einen entsprechenden ausgerichteten Satz zu erzeugen, dessen Anzahl von Vorhersagekennwerten
gleich der mittleren Anzahl von Vorhersagekennwerten ist, die für eine Vielzahl von Aussprachen des
entsprechenden identifizierten Abschnittes erzeugt worden sind, durch Verarbeiten der ausgerichteten Sätze
von Vorhersagekennwerten für jeden identifizierten Abschnitt, um den Satz von Bezugssignalen zu erzeugen,
welche die mittleren Vorhersagekennwerte für alle Aussprachen des identifizierten Abschnitts (122,144
und 146) darstellen, durch Trennen einer kontinuierlichen Kette von verbundenen Sprachabschnitten mit
mindestens einem unbekannten Sprachabschnitt in ihre Sprachabschnitte (128) und durch Erzeugen des
Satzes*'on Prüfsignalen, welche die Vorhersagekennwerte nur der stimmhaften Intervalle des unbekannten
Sprachabschnitts (122) darstellen.
2. Verfahren nach Anspruch 1, gekennzeichnet durch folgende Verfahrensschritte zur Trennung der
Sprachabschnitte:
Unterteilen der kontinuierlichen Kette von verbundenen Sprachabschnitten in vorbestimmte Sprachrahmen
(105);
Klassifizieren jedes Sprachtahmens als stimmhafte Sprache, stimmlose Sprache oder Ruhe (115):
Erzeugen eines Signals für jeden Sprachrahmen, das die Energie der Sprache des Rahmens (201) darstellt;
bei Auftreten eines stimmlosen Sprachrahmens oder eines Ruhe-Rahmens unmittelbar nach einem stimmhaften Rahmen Identifizieren dieses stimmlosen Rahmens oder Ruherahmens als Sprachabschnitt-Grenzrahmen (303);
Erzeugen eines Signals für jeden Sprachrahmen, das die Energie der Sprache des Rahmens (201) darstellt;
bei Auftreten eines stimmlosen Sprachrahmens oder eines Ruhe-Rahmens unmittelbar nach einem stimmhaften Rahmen Identifizieren dieses stimmlosen Rahmens oder Ruherahmens als Sprachabschnitt-Grenzrahmen (303);
Vergleichen der Anzahl von Grenzrahmen mit der Anzahl von Sprachabschnitten (324);
Identifizieren von Energie-:"/linima-Rahmen als Sprachabschnitt-Grenzrahmen, wenn die Anzahl von Grenzrahmen kleiner als die Anzahl von Sprachabschnitten ist (320).
Identifizieren von Energie-:"/linima-Rahmen als Sprachabschnitt-Grenzrahmen, wenn die Anzahl von Grenzrahmen kleiner als die Anzahl von Sprachabschnitten ist (320).
3. Verfahren nach Anspru- If 2, gekennzeichnet durch Auswahl desjenigen identifizierten Sprachabschnittes,
welcher das Entspannungssignal (Korrespondenzsignal) mit dem besten Grad an Entspannung besitzt
(160), und durch Bildung eines weiteren Entsprechungssignais (170) aus dieser Gruppe von ausgerichteten
Prüfungssignalen und jeder Gruppe von Bezugssignalen, wenn der gewählte identifizierte Abschnitt und der
unbekannte Abschnitt nicht stimmhaften, stimmlosen oder Ruheanfängen entsprechen.
4. Verfahren nach einem der Ansprüche 1 —3, gekennzeichnet durch die folgende Schritte:
Erzeugen einer Gruppe von Bezugssignalen für jede identifizierte Ziffer, die die Mittelwerte /n«, der linearen
Vorhersagekoeffizienten des durchschnittlicher! stimmhaften Intervalls der identifizierten Ziffer und die
Covarianz Siq der linearen Vorhersagekoeffizienten darstellen, wobei / = 1, 2 ... Nv der /-te Rahmen des
durchschnittlichen stimmhaften Intervalls der identifizierten Ziffer von Nv-Rahmen und q = 1, 2 ...Qdie
Identität der identifizierten gesprochenen Ziffer (122 und 146) sind;
Erzeugen einer Gruppe von Prüfsignalen a(n)j, die die linearen Vorhersagekoeffizienten des stimmhaften
Intervalls der unbekannten Ziffer darstellen, wobei η = 1, 2 .. .ρ die Ordnungsnummer des Koeffizienten,
ein Signal /?, die Autokorrelationskoeffizienten der unbekannten Ziffer und / = 1, 2 ... Nv der Ate Rahmen
des stimmhaften Intervalls der unbekannten Ziffer mit Nv-Rahmen sind (122 und 137);
Bestimmen der Entsprechung zwischen den Prüfsignalen a(n), der unbekannten Ziffer und Bezugssignalen rriiq für jede identifizierte Ziffer (q = 1, 2 ... Q) durch zeitliches Ausrichten der Prüfsignale a(n),- für den Rahmen / = 1,2... Nv des stimmhaften Intervalls der unbekannten Ziffer auf den Rahmen/ = 1,2... /Vfdes durchschnittlichen stimmhaften Intervalls der Bezugsgruppe;
Bestimmen der Entsprechung zwischen den Prüfsignalen a(n), der unbekannten Ziffer und Bezugssignalen rriiq für jede identifizierte Ziffer (q = 1, 2 ... Q) durch zeitliches Ausrichten der Prüfsignale a(n),- für den Rahmen / = 1,2... Nv des stimmhaften Intervalls der unbekannten Ziffer auf den Rahmen/ = 1,2... /Vfdes durchschnittlichen stimmhaften Intervalls der Bezugsgruppe;
gemeinsames Ansprechen auf die Gruppe von ausgerichteten Prüfsignalen a Ί, Ri und die <7-ten Bezugssignalc
rriiq der identifizierten Ziffer zur Bildung eines Signals
D>« ■ -=- Σ (Κ - «/<,) ΛΓ1 WR1 a'/) (β; - mlqy,
/VV ,„ι - *
das die Entsprechung zwischen den Prüfsignalen ä, und den g-ten Bezugssignalen m/9 der identifizierten Ziffer
darstellt (156);
unter Ansprechen auf die Entsprechungssignale Diq identifizieren der unbekannten Ziffer als diejenige
identifizierte Ziffer, welche das kleinste Entsprechungssignal D,q besitzt (160).
5. Verfahren nach Anspruch 3 oder 4, gekennzeichnet durch Bilden eines weiteren Entsprechungssignals
1
Yc-
Nv ,»ι ~
für jede g-te Ziffer q = 1, 2 ... q und Identifizierung der unbekannten Ziffer abhängig von den zweiten
Entsprechungssign&Ien als diejenige identifizierte Ziffer, welche das kleinste Entsprechungssignal Ehq besitzt
6. Verfahren nach einem der Ansprüche 1 bis 3, gekennzeichnet durch folgende Schritte:
Erzeugen einer Gruppe von Bezugssignalen für jede identifizierte Ziffer, die die Mittelwerte m,g der linearen
Vorhersage-Koeffizienten des durchschnittlichen stimmhaften Intervalls der identifizierten Ziffer und die
Covarianz Si1 der linearen Vorhersage-Koeffizienten darstellen, wobei / = 1, 2 ... Nv der Me Rahmen des
durchschnittlichen stimmhaften Intervalls der identifizierten Ziffer mit mit TvV-Rahmen und q = 1,2... Q die
Identität der identifizierten gesprochenen Ziffer sind (122 und 146);
Erzeugen einer Gruppe von Prüfsignalen a(n)h die die linearen Vorhersagekoeffizienten des stimmhaften
Intervalls der unbekannten Ziffer darstellen, wobei π = 1,2... ρ die Ordnungsnummer des Koeffizienten ist,
ein Signal /{,-die Autokorrelations-Koeffizienten der unbekannten Ziffer darstellt, und / = 1,2... Nvder /-te
Rahmen des unbekannten stimmhaften Intervalls von Nv-Rahmen ist (122 und 137); Bestimmen der Entsprechung zwischen den Prüfsignalen a(n), der unbekannten Ziffer und Bezugssignalen
m,q jeder g-ten identifizierten Ziffer (q = 1,2... Q durch zeitliches Ausrichten der Prüfsienale a(n), für den
Rahmen des stimmhaften Intervalls der unbekannten Ziffer / = 1,2 ... Nv zum durchschnittlichen Rahmen
/ =* 1,2... Nvdes stimmhaften Intervalls der Bezugsgruppe;
gemeinsames Ansprechen auf die ausgerichteten Prüfsignale a'i, R-, und die Bezugssignale m;q der g-ten
identifizierten Ziffer zur Bildung eines Signals
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/746,106 US4092493A (en) | 1976-11-30 | 1976-11-30 | Speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2753277A1 DE2753277A1 (de) | 1978-06-01 |
DE2753277C2 true DE2753277C2 (de) | 1986-04-03 |
Family
ID=24999510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2753277A Expired DE2753277C2 (de) | 1976-11-30 | 1977-11-30 | Verfahren und Einrichtung zur Spracherkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US4092493A (de) |
JP (1) | JPS53105103A (de) |
DE (1) | DE2753277C2 (de) |
FR (1) | FR2372486A1 (de) |
GB (1) | GB1571139A (de) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4164025A (en) * | 1977-12-13 | 1979-08-07 | Bell Telephone Laboratories, Incorporated | Spelled word input directory information retrieval system with input word error corrective searching |
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
JPS5569880A (en) * | 1978-11-22 | 1980-05-26 | Nec Corp | Pattern recognition unit |
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
US4383135A (en) * | 1980-01-23 | 1983-05-10 | Scott Instruments Corporation | Method and apparatus for speech recognition |
EP0052120A4 (de) * | 1980-05-19 | 1983-12-09 | John Sinclair Reid | Verbesserungen in der signalverarbeitung. |
US4831653A (en) * | 1980-11-12 | 1989-05-16 | Canon Kabushiki Kaisha | System for registering speech information to make a voice dictionary |
US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4454586A (en) * | 1981-11-19 | 1984-06-12 | At&T Bell Laboratories | Method and apparatus for generating speech pattern templates |
US4468804A (en) * | 1982-02-26 | 1984-08-28 | Signatron, Inc. | Speech enhancement techniques |
JPS59192A (ja) * | 1982-06-25 | 1984-01-05 | 株式会社東芝 | 個人照合装置 |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
JPS60181798A (ja) * | 1984-02-28 | 1985-09-17 | 電子計算機基本技術研究組合 | 音声認識装置 |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4799262A (en) * | 1985-06-27 | 1989-01-17 | Kurzweil Applied Intelligence, Inc. | Speech recognition |
US4920568A (en) * | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
JPS63501603A (ja) * | 1985-10-30 | 1988-06-16 | セントラル インステイチユ−ト フオ ザ デフ | スピ−チ処理装置および方法 |
USRE34247E (en) * | 1985-12-26 | 1993-05-11 | At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
GB2196460B (en) * | 1986-10-03 | 1991-05-15 | Ricoh Kk | Methods for comparing an input voice pattern with a registered voice pattern and voice recognition systems |
US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
EP0289285A3 (de) * | 1987-04-30 | 1989-11-29 | Oki Electric Industry Company, Limited | Analyseeinrichtung unter Anwendung von linear-prädiktiver Codierung und Bandbegrenzungsschaltung dafür |
US4937870A (en) * | 1988-11-14 | 1990-06-26 | American Telephone And Telegraph Company | Speech recognition arrangement |
US5274695A (en) * | 1991-01-11 | 1993-12-28 | U.S. Sprint Communications Company Limited Partnership | System for verifying the identity of a caller in a telecommunications network |
US5526466A (en) * | 1993-04-14 | 1996-06-11 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus |
US5740319A (en) * | 1993-11-24 | 1998-04-14 | Texas Instruments Incorporated | Prosodic number string synthesis |
US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
KR970017456A (ko) * | 1995-09-30 | 1997-04-30 | 김광호 | 음성신호의 무음 및 무성음 판별방법 및 그 장치 |
CA2247006C (en) * | 1996-03-29 | 2002-09-17 | British Telecommunications Public Limited Company | Speech processing |
DE69629667T2 (de) * | 1996-06-07 | 2004-06-24 | Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto | Sprachsegmentierung |
US6240299B1 (en) * | 1998-02-20 | 2001-05-29 | Conexant Systems, Inc. | Cellular radiotelephone having answering machine/voice memo capability with parameter-based speech compression and decompression |
US7239321B2 (en) * | 2003-08-26 | 2007-07-03 | Speech Graphics, Inc. | Static and dynamic 3-D human face reconstruction |
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
US7475016B2 (en) * | 2004-12-15 | 2009-01-06 | International Business Machines Corporation | Speech segment clustering and ranking |
FR2881867A1 (fr) * | 2005-02-04 | 2006-08-11 | France Telecom | Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole |
DE102006017278A1 (de) * | 2006-04-12 | 2007-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Nachweis des Beginns einer Apnoe |
US8401331B2 (en) * | 2007-12-06 | 2013-03-19 | Alcatel Lucent | Video quality analysis using a linear approximation technique |
US8700410B2 (en) * | 2009-06-18 | 2014-04-15 | Texas Instruments Incorporated | Method and system for lossless value-location encoding |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
JP6836340B2 (ja) * | 2015-09-29 | 2021-02-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 不正検知電子制御ユニット、車載ネットワークシステム及び通信方法 |
KR102487323B1 (ko) * | 2021-01-14 | 2023-01-11 | 가톨릭대학교 산학협력단 | 하이브리드 기법을 적용한 소음하 숫자 기반 청력 검사 방법 및 청력 검사 장치 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3225141A (en) * | 1962-07-02 | 1965-12-21 | Ibm | Sound analyzing system |
US3238303A (en) * | 1962-09-11 | 1966-03-01 | Ibm | Wave analyzing system |
US3553372A (en) * | 1965-11-05 | 1971-01-05 | Int Standard Electric Corp | Speech recognition apparatus |
US3499987A (en) * | 1966-09-30 | 1970-03-10 | Philco Ford Corp | Single equivalent formant speech recognition system |
US3816722A (en) * | 1970-09-29 | 1974-06-11 | Nippon Electric Co | Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
US3940565A (en) * | 1973-07-27 | 1976-02-24 | Klaus Wilhelm Lindenberg | Time domain speech recognition system |
US3943295A (en) * | 1974-07-17 | 1976-03-09 | Threshold Technology, Inc. | Apparatus and method for recognizing words from among continuous speech |
-
1976
- 1976-11-30 US US05/746,106 patent/US4092493A/en not_active Expired - Lifetime
-
1977
- 1977-11-23 GB GB48720/77A patent/GB1571139A/en not_active Expired
- 1977-11-29 FR FR7735847A patent/FR2372486A1/fr active Granted
- 1977-11-30 JP JP14286277A patent/JPS53105103A/ja active Granted
- 1977-11-30 DE DE2753277A patent/DE2753277C2/de not_active Expired
Also Published As
Publication number | Publication date |
---|---|
GB1571139A (en) | 1980-07-09 |
JPS53105103A (en) | 1978-09-13 |
FR2372486B1 (de) | 1983-03-11 |
US4092493A (en) | 1978-05-30 |
DE2753277A1 (de) | 1978-06-01 |
JPS5739440B2 (de) | 1982-08-21 |
FR2372486A1 (fr) | 1978-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE2953262C2 (de) | ||
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2659083C2 (de) | Verfahren und Vorrichtung zur Sprechererkennung | |
DE3211313C2 (de) | ||
DE2918533A1 (de) | Spracherkennungssystem | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2659096C2 (de) | ||
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE3216800A1 (de) | Anordnung zur eingabe von befehlsworten durch sprache | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
EP0925461A2 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
DE2613258A1 (de) | System zur automatischen spracherkennung | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE4031638C2 (de) | ||
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE69917960T2 (de) | Phonembasierte Sprachsynthese | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
8125 | Change of the main classification |
Ipc: G10L 9/14 |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US |
|
8328 | Change in the person/name/address of the agent |
Free format text: BLUMBACH, P., DIPL.-ING., 6200 WIESBADEN WESER, W., DIPL.-PHYS. DR.RER.NAT., 8000 MUENCHEN ZWIRNER,G., DIPL.-ING. DIPL.-WIRTSCH.-ING., PAT.-ANW., 6200 WIESBADEN |
|
8339 | Ceased/non-payment of the annual fee |