DE3211313A1 - Verfahren und vorrichtung zur kontinuierlichen sprachmustererkennung - Google Patents

Verfahren und vorrichtung zur kontinuierlichen sprachmustererkennung

Info

Publication number
DE3211313A1
DE3211313A1 DE19823211313 DE3211313A DE3211313A1 DE 3211313 A1 DE3211313 A1 DE 3211313A1 DE 19823211313 DE19823211313 DE 19823211313 DE 3211313 A DE3211313 A DE 3211313A DE 3211313 A1 DE3211313 A1 DE 3211313A1
Authority
DE
Germany
Prior art keywords
frame
signal
reference word
signals
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19823211313
Other languages
English (en)
Other versions
DE3211313C2 (de
Inventor
Cory Scott 02146 Brookline Mass. Myers
Frank Christopher 07940 Madison N.J. Pirz
Lawrence Richard 07922 Berkeley Heights N.J. Rabiner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of DE3211313A1 publication Critical patent/DE3211313A1/de
Application granted granted Critical
Publication of DE3211313C2 publication Critical patent/DE3211313C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

Western Electric Co . Inc . Myers*-?>.r*z-Ryu5in*e.i* 1.^8.-1*3.
-■10-
Verfahren und Vorrichtung zur kontinuierlichen Sprachrnustererkennung
Die Erfindung betrifft die Mustererkennung und im einzelnen Vorrichtungen und Verfahren zur automatischen Erkennung eines kontinuierlichen Sprachmusters als eine Folge von Wörtern.
Bei der Nachrichtenübertragung, Datenverarbeitung und in Steuersystemen ist es häufig erwünscht, die Sprache als direkte Eingabe für Anfragen, Kommandos, Daten oder andere Informationen zu benutzen. Spracherkennungsgeräte vermeiden die Notwendigkeit von manuell betätigten Einrichtungen und geben Personen die Möglichkeit, mit automatischen Einrichtungen in Wechselwirkung zu treten, während sie gleichzeitig andere Aktivitäten entfalten. Die Unterschiedlichkeit von Sprachmustern von Sprecher zu Sprecher und selbst für einen bestimmten Sprecher haben jedoch die Genauigkeit der Spracherkennung eingeschränkt. Als Folge davon sind Spracherkennungseinrichtungen unter besonderen Umgebungsbedingungen erfolgreich gewesen.
Spracherkennungssysteme sind generell in der Lage, Eingangssprachsignale in Gruppen von vorgegebenen akustischen Merkmalen zu transformieren. Die akustischen Merkmale der Eingangssprachsignale werden mit gespeicherten Sätzen von vorher gewonnenen akustischen Merkmalen verglichen, um Bezugswörter zu identifizieren. Das Sprachsignal ist identifiziert, wenn die Eingangssprachsignale mit den gespeicherten Merkmalen einer besonderen Bezugswortfolge entsprechend vorgegebenen Erkennungskriterien übereinstimmen. Die Genauigkeit solcher Erkennungssignale hängt in hohem Maße von den gewählten Merkmalen und den vorgeschriebenen Erkennungskriterien ab. Beste Ergebnisse
werden erzielt, wenn die Bezugsmerkmale und die Eingangssprachmerkmale von der gleichen Person gewonnen werden und das zu erkennende Eingangssprachmuster mit bestimmten Pausen zwischen den einzelnen Wörtern gesprochen wird.
Die Erkennung kontinuierlicher Sprachmuster kann durch Vergleichen der Folge von Eingangssprachrnus tern mit jeder möglichen Kombination von Bezugswort-Merkmalssignalmustern erfolgen, die aus der kontinuierlichen Sprache abgeleitet werden. Solche Anordnungen machen jedoch eine zeitraubende Prüfung aller möglichen Bezugswortmuster-Kombinationen und eine umfangreiche Suche unter der großen Anzahl von Bezugswortkombinationen erforderlich. Es ist bekannt, daß die Anzahl möglicher Folgen exponentiell mit der Anzahl von Wörtern in der Folge ansteigt. Demgemäß ist es im allgemeinen unpraktisch , eine solche umfangreiche Suche selbst für eine begrenzte Anzahl von Wörtern in einem Sprachmuster durchzuführen.
Es lassen sich semantische und syntaktische Regeln ableiten, um die Anzahl von möglichen Folgen bei einer Suche einzuschränken, derart, daß bestimmte Klassen von Informationen sich leicht analysieren lassen. In der US-PS 4 156 868 ist beispielsweise eine auf einer syntaktischen Analyse beruhende Erkennungsanordnung offenbart, bei der ein Eingangssprachmuster nur mit syntaktisch möglichen Bezugsmustern verglichen wird. Die Erkennung von Folgen gesprochener Wörter, die nicht zueinander in Beziehung stehen, beispielsweise eine Folge von gesprochenen Zahlen, wird jedoch nicht verbessert, indem man solche Einschränkungen hinsichtlich des Sinnzusammenhangs einführt.
in den US-PSen 4 049 913 und 4 059 725 sind Erkennungssysteme für kontinuierliche Sprache beschrieben, bei denen die Ähnlichkeit zwischen individuellen Bezugswort-Merkmalsmustern und den Merkmalen aller möglichen Intervalle der Eingangssprachmuster berechnet werden. Aus den Ähnlichkeitswerten werden Teilerkennungsergebnisse
-I 2 -
für jedes Bezugswort-Merkmalsmuster abgeleitet. Sowohl die Teilähnlichkeitswerte als auch die Teilerkennungsergebnisse werden in einer Tabelle abgespeichert. Die Erkennungsergebnisse aus der Tabelle werden zur Lieferung der Bezugswortfolge entnommen, die dem Eingangssprachmuster entspricht. Alle möglichen Teilmusterkombinationen aus der Tabelle, die kontinuierliche Muster bilden, werden gewählt. Die gewählten Muster, für die die Ähnlichkeitein Maximum ist, werden dann ausgewählt. Obzwar diese Systeme sich bei der Erkennung kontinuierlicher Sprache al£5 wirksam erwiesen haben, ist die Signalverarbeitung zur Gewinnung der Bezugsmuster und der Teilmustor-Ähnlichkeitswerte für viele Anwendungen zu kompliziert und unwirtschaftlich .
in der US-Patentanmeldung 138 647 ist eine Analysiereinrichtung für kontinuierliche Sprache offenbart, die eine Sprachäußerung als eine Folge von Bezugswörtern erkennen kann, für die akustische Merkmalssignale gespeichert siiid. Unter Ansprechen auf die Sprachäußerung und die akustischen Bezugswortmerkmale wird wenigstens eine Bezugswortfolge als Kandidat für die Sprachäußerung erzeugt. Es werden aufeinander folgende Wortpositionen für die SprachdUßerung identifiziert. Iu jeder Wor tposi U.on werden partielle Kandidatonfolgen erzeugt, indem Bezugswörter" bestimmt werden, die Sprachaußerungsabschnitten entsprechen, und Bezugswörter, die eine vorgeschriebene Ähnlichkeit mit ihrenSprachäußerungsabschnitten haben, mit gewählten partiellen Kandidatenfolgen der vorhergehenden Wortposition kombiniert werden. Die bestimmten Sprachäußerungsabschnitte können einen vorbestimmten Bereich des Sprachäußerungsabschnittes für die Kandidatenserie der vorhergehenden Wortposition überlappen, um der Coartikulation und Unterschieden zwischen akustischen Merkmalen der Sprachäußerung und denjenigen für isoliert gesprochene Bezugswörter Rechnung zu tragen.
Die letzterwähnte Anordnung verringert die Signalverarbei-
kompliziertheit wesentlich, indem bestimmte Kandidaten-Teilwortserien für jedes a\if einanderfolgende Intervall der unbekannten Sprachäußerung gewählt wird, und außerdem wird die Erkennung bei Vorhandensein einer Coartikulation verbessert. Die Auswahl bestimmter· Kandidaten für jede Wortposition schließt jedoch andere mögliche Bezugswortfolgen-Kandidaten aus der Überlegung aus, wenn die Erkennung über jede Wortposition fortschreitet. Demgemäß ist die Genauigkeit für die Sprachäußerungserkennung für längere Äußerungen begrenzt. Ein Ziel der Erfindung besteht darin, eine verbesserte Erkennung kontinuierlicher Sprachmuster bei begrenzten Anforderungen hinsichtlich der Signalverarbeitung zu verbessern.
Die Erfindung ist auf die Erkennung eines kontinuierlichen Sprachmusters als eine Kette von vorgeschriebenen Bezugswörtern gerichtet. Es werden Signale gespeichert, die die Zeitfolge von akustischen Merkmalen der individuellen Bezugswörter von einem Anfangsrahmen zu einem Endrahmen darstellen. Eine zeitliche Folge von Signalen wird erzeugt, die den akustischen Merkmalen des kontinuierlichen Sprachmusters entsprechen. Unter gemeinsamem Ansprechen auf die Sprachmuster-Merkmalssignale und die Merkmalssignale der Bezugswörter wird eine Vielzahl von Bezugswortketten erzeugt. Das Sprachmuster wird als eine der erzeugten Bezugswortketten erkannt.
Die Erzeugung der Bezugswort-Knndidatenkette beinhaltet die Lieferung eines Satzes von Signalen, der aufeinanderfolgende Wortpegel für das Sprachmuster identifiziert. Jedem aufeinanderfolgenden Pegel wird ein Sprachmustersegment zugeordnet.
Für jeden aufeinanderfolgenden Pegel werden die Wortpegel-Sprachmuster-Segmentmerkmalssignale und die Bezugswort-Merkmalssignale zeitlich ausgerichtet hinsichtlich der akustisch möglichen Rahmen der Bezugsmerkmalsmuster,
I— I I \J
um zeitlich ausgerichtete Sprachmustersegment-Endrahmensignale und zeitlich ausgerichtete Korrespondenzsignale für jedes Bezugswort zu erzeugen. Unter Ansprechen auf die zeitlich ausgerichteten Endrahmensignale und die Korrespondenzsignale der Pegel werden Bezugswortketten gewählt.
Entsprechend einem Merkmal der Erfindung wird das beste Korrospondenzsignal für den Endrahmen jedes Pegels, ein Signal, das das am besten entsprechende Bezugswort für den Endrahmen jedes Pegels und ein Signal gespeichert, das den Anfangsrahmen für die am besten entsprechende Bezugswort-Zeitausrichtung darstellt.
Entsprechend einem weiteren Merkmal der Erfindung werden die Zeitausrichtungs-Anfangsrahmen des Sprachmustersegments für jeden Pegel auf die Zeitausrichtungs-Endrahmen r?es vorhergehenden Pegels beschränkt.
Entsprechend einem zusätzlichen Merkmal der Erfindung wird der Zeitausrichtungs-Anfangsrahmenbereich des Sprachmustersegments jedes Pegels auf denjenigen Endrahmenbereich des vorhergehenden Pegels beschränkt, welcher begrenzte beste Korrespondenzssignale kleiner als das minimale beste Korrespondenzsignal des vorhergehenden Pegels besitzt.
Entsprechend einem weiteren Merkmal der Erfindung wird der Bereich der Bezugswortrahmen für die zeitliche Ausrichtung mit jedem Sprachmustersegment-Rahmen so gewählt, daß Coartikulationseinflüsse verringert werden. Der Rahmen an der unteren Grenze des Bezugswortbereichs wird zum Bezugswort-Anfangsrahmen ausgedehnt, und zwar unter Ansprechen darauf, daß der Rahmen an der unteren Grenze
des gewählten Bezugswortes kleiner ist als eine vorbestimmte Zahl, und der Rahmen an der oberen Grenze des Bezugsi't Luvfo i cha wird bis '/.um Bezugswor fc-Rndr.ihm^n ausgedehnt,
und zwar unter Ansprechen darauf, daß der gewählte Bezugswortrahmen an der oberen Grenze größer als eine zweite vorbestimmte Zahl ist.
Ein zusätzliches Merkmal der Erfindung besteht darin, daß ein zeitlich ausgerichteter Sprachmustersegment-Endrahmen abhängig davon festgestellt wird, daß der Rahmen an der oberen Grenze des Bezugswortbereiches gleich oder größer als der Bezugswort-Endrahmen ist.
Entsprechend einem weiteren Merkmal der Erfindung wird ein zeitlich ausgerichtetes Korrespondenzsignal für den Sprachmustersegment-Rahmen jedes Pegels erzeugt. Ein maximal zulässiges Korrespondenzsignal wird für diesen Sprachmustersegment-Rahmen erzeugt,und die Zeitausrichtung für jedes Bezugswort wird unter Ansprechen darauf beendet, daß das Zeitausrichtungs-Korrespondenzsignal größer als das maximal zulässige Zeitausrichtungssignal für diesen Rahmen ist.
Entsprechend einem weiteren Merkmal der Erfindung wird der Rahmen an der oberen Grenze des Bezugswortbereiches zur Zeitausrichtung mit jedem Sprachmustersegment-Rahmen verglichen mit dem Bezugswort-Endrahmen, und die Pegel-Zeitausrichtung für jedes Bezugswort wird unter Ansprechen darauf beendet, daß der Rahmen an der unteren Grenze des Bezugswortbereichs gleich oder größer als der Bezugswort-Endrahmen ist.
Entsprechend einem zusätzlichen Merkmal der Erfindung werden die Bezugswörter zur zeitlichen Axisrichtung auf jedem Pegel unter Ansprechen auf die Pegelidentifiziersignale gewählt.
Nachfolgend wird die Erfindung anhand der Zeichnungen beschrieben. Es zeigen:
Fig. 1 graphisch ein Erkennungsverfahren für
kontinuierliche Sprache zur Erläuterung der Erfindung;
Fig. 2 und 3 ein Blockschaltbild einer Spracherkennungsschaltung zur Erläuterung der
Erfindung;
Fig. 4 ein genaueres Blockschaltbild sowie eine Steuereinrichtung für die Schaltung nach Fig. 2 und 3; Fig. 5 ein genaueres Blockschaltbild einer
Rahmenfolge-Logikschaltung für die Schaltung gemäß Fig. 2 und 3;
Fig. 6 ein allgemeines Flußdiagramm zur Erläuterung des Spracherkennungs.verfahrens nach der Erfindung ;
Fig. 7 bis 12 genauere Flußdiagramme zur Erläuterung der Spracherkennungsanordnungen nach der Erfindung.
Allgemeine Betrachtungen
Bei der Erkennung einer kontinuierlichen Sprache, beispielsweise eines veibundenen Wort.must.ers, wird eine zeitliche Folge akustischer Merkmalssignale
RV = RV(1), RV(2),..., RV(Mv) (1)
für jedes Wort eines Satzes von Bezugswörtern gespeichert. Die Merkmale lassen sich ableiten aus einer spektralen, vorhersagenden oder anderen Analyseart von Aussprachen jedes Bezugswortes Rv, 1 <Γ ν < V in bekannter Art. Eine Zeitfolge akustischer Merkmalssignale
T = T(I), T(2), ..., T(N ) (2)
wird von einer ähnlichen Analyse eines Eingangssprachmusters abgeleitet. Generell werden alle möglichen Ketten von Bezugswörtern synthetisiert, und die Folge von Merkmals signalen für jede Kette wird mit der Merkmalssignalfolge der Eingangssprachäußerung verglichen. Die am dichtesten korrespondierende Kette wird als die Eingangssprachäußerung identifiziert. Da die Rate der Sprache stark schwankt,
-17-
können bekannte Verfahren der dynamischen Programmierung verwendet werden, um die Merkmale der Bezugswortkette mit den Merkmalen der Eingangssprachäußerung zeitlich auszurichten. Auf diese Weise wird ein verhältnismäßig genaues Maß für die Korrespondenz zwischen den Bezugswortketten und der Eingangssprachäußerung gewonnen.
Jede Bezugswortkette ist eine Verknüpfung von Bezugswörtern
RS = RVl (J) /2 . . . @R LmaX (3 ) .
Die akustischen Merkmalssignale der Kette R werden dynamisch zeitlich verkettet (DTW von Dynamically ^Time Warped) mit den Merkmalssignalen der Sprachäußerung, um das minimale DTW-Abstandssignal zwischen dem Bezugswortketten-Merkmalsvektor zu erzeugen
ς V1 V1 ν, V2
Rb = R -1U), R ■L(2), ..., R (Mv ), R *(1), R 2(2), ... R 2(M ), ...R LmaX(l),
RVLmaX(2)..., RVLmaX(M ) (4)
vLmax
sowie dem Sprachäußerungs-Merkmalsvektor
Das kumulative, durch die zeitliche Verkettung der Kette
g
R mit den Sprachäußerungs-Merkmalsvektoren von T gewonnene Abstandssignal beträgt
S m ς
D(T,Rb) = min Σ d(T(n), Rs(w(n))) (6) ,
W(n) n-1
wobei w(n) der Verkettungsfaktor zwischen den Merkmalsvektoren T und RS ist und d(T(n),RS(w(n))) = d(n,w(n)) der örtliche Abstand zwischen den Merkmalsvektoren des Rahmens η der Sprachäußerung T und dem Rahmen m=w(n) der Kette R ist. w(n) ist üblicherweise so begrenzt, daß die Endpunkte der Sprachäußerung mit den Endpunkten der Kette zusammen-
ι ι \j
fallon,und die Steigung dos Verkettungsfaktors w(n) ist so gewählt, daß sie dsm Bereich der erwarteten Sprachmusterrahmen entspricht. Die direkte Anwendung der dynamischen
Sprachverkettung auf alle möglichen Ketten R führt zu einem unwirtschaftlichen und zeitaufwendigen Umfang der Signalverarbeitung selbst für eine mäßige Anzahl von Bezugswörtern.
Entsprechend der Erfindung wird die dynamische Zeitverkettung in aufeinander folgende Stufen unterteilt/ so daß die Signalverarbeitung wesentlich verringert ist.
Die Anzahl von Ketten R , die als Kandidaten für die Eingangssprachäußerung betrachtet werden, ist jedoch nicht beschränkt, wodurch die Erkennungsgenauigkeit nicht beeinträchtigt ist. Fig. 1 zeigt die Stufenverarbeitungsanordnung. Die horizontale Achse in Fig. 1 entspricht den aufeinander folgenden Rahmen der Sprachäußerung 1,2... n...N . Ein Äußerungssegment ist jeder Stufe zugeordnet, die durch akustische Zeitausrichtungsbegrenzungen definiert ist. Die vertikale Achse ist in Stufen L = 1,2... L
max
unterteilt, wobei L die größte erwartete Anzahl von Wörtern in der Sprachäußerung ist. Jede Stufe auf der vertikalen Achse ist in Rahmen von Bezugswörtern unterteilt. Für jedes Bezugswort hat die Stufe L=M Rahmen. Die Anzahl der Rahmen ist im allgemeinen verschieden für jedes Bezugswort, da die Bezugswortmuster unterschiedliehe Dauer haben. Die Merkmalssignale jedes Bezugsworts R sind zeitlich verkettet mit dem Äußerungssegment, das bei den Anfangsrahmen der Stufe beginnt.
Für jedes Bezugswort führen die möglichen Zeitausrichtungswege zwischen dem Bezugswort und dem Äußerungssegment für die Stufe über Punkte (n, m) entsprechend dem Ausdruck
D. (n,m) = d(n,m) + min D (n-l,j)
(7 ) m-I2 _< j < ^n-I1
wobei 1 < η < N die Äußerungsrahmen sind, 1 < m < M — — m — -w
die Bezugswortrahmen für die Stufe sind und D (n,m) das
akkumulierte Abstandssignal entlang dem Weg am Punkt n,m ist. d(n,m) ist der örtliche Abstand zwischen den Sprachausdruck-Merkmalsvektoren beim Ausdrucksrahmen η und dem Bezugswort-Merkmalsvektor beim Bezugswortrahmen m. Der am weitesten rechts stehende Ausdruck in Gleichung
(7) stellt den akkumulierten Abstand zum Äußerungsrahmen
g
n-1 und zum Bezugswort-R -Rahmen dar, nämlich m-I2- _< j _< m-I, . Der Rahmen I, ist so gewählt, daß er dem zulässigen Unterschiedsbereich für die Sprachrate entspricht. Er wird üblicherweise auf 1 gesetzt, wenn w(n-l) = w(n-2) gilt und im anderen Fall auf 0. I2 wird in typischer Weise auf 2 gesetzt. Demgemäß erstreckt sich j über den Bereich von m-2 bis m-1, wenn w(n-I) = w(n-2) und im anderen Fall über den Bereich von m-2 bis
m. Dynamische Zeitverkettungsanordnungen sind genauer beschrieben in dem Aufsatz "Minimum Prediction Residual Applied to Speech Recognition" von F.Itakura, IEEE Transactions on Acoustics, Speech and Signal Processing, Band ASSP-23, S. 67-72, Februar 1975, und in einem Aufsatz "Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition" von L.R.Rabiner, A.E.Rosenberg und S.E. Levinson, IEEE Transactions on Acoustics, Speech and Signal Processing, Band ASSP-26, S. 575-582, Dezember 1978.
Der Weganfangsrahmen und der Wegendrahmen sowie der kumulative Abstand zwischen dem Bezugswort und den Äußerungsmerkmalen auf jedem Weg werden bestimmt durch das dynamische Zeitverkettungsverfahren gemäß Gleichung (7). Die Äußerungsendrahmen der Stufe entsprechen den möglichen Weganfangsrahmen der nächsten Stufe. Für jeden Stufenendrahmen werden der minimale kumulative Abstand bis dahin, das dem minimalen kumulativen Abstandssignal entsprechende Bezugswort und der Stufenanfangsrahmen für den minimalen kumulativen Abstandsweg gespeichert. Nach Beendigung der Verarbeitung für die letzte Stufe wird die am dichtesten korrespondierende Folge aus den gespeicherten Abstandssigna lon, den Hozugsworten, den Stufenondrahmen und den
O ff
-2 0-Stufenanfangsrahmen rekonstruiert.
Gemäß Pig. 1 ist das dynamische Zeitverkettungsverfahren auf den Bereich erwarteter Sprachrahmen beschränkt, um eine unnötige Verarbeitung zu vermeiden. Beispielsweise kann der Anfangsrahmen der Sprachäußerung n=l in Fig.l akustisch nicht dem Endrahmen eines der Bezugswörter entsprechen. Auf ähnliche Weise sind andere Bereiche in Fig. 1 akustisch nicht möglich. Folglich kann die DTW-Verarbeitung auf den Bereich akustisch wahrscheinlicher Sprachrahmen beschränkt werden, ohne an Erkennungsgenauigkeit zu verlieren. In Fig. 1 ist die DTW-Verarbeitung für eine Eingangsäußerung von 4 Worten beschränkt auf den durch die Linien 101, 102, 103 und 104 begrenzten Bereich. Die äußersten Punkte des zulässigen Bereichs entsprechen den Endpunkten der möglichen Bezugswortketten sowie der Sprachäußerung. Das durch die Linien 101, 102, 103, 104 begrenzte Parallelogramm stellt eine 2:1-Beschleunigung und eine 2:1-Reduzierung der Sprachrate zwischen den Bezugswortketten und der Sprachäußerung dar. Diese Begrenzungslinien sind durch die Bereichsbeschränkungen gemäß Fig. 7 festgelegt. Der Bereich für die DTW-Verarbeitung gemäß Fig. 1 ist zwar für die Zwecke der vorliegenden Erfindung geeignet, es sei aber darauf hingewiesen, daß andere, bekannte Beschränkungsanordnungen in Verbindung mit der Erfindung gewählt werden können.
Fig. 1 zeigt graphisch den stufenförmigen Erkennungsprozeß für ein Sprachmuster, das aus der gesprochenen 4-Wort-Binärzahlfolge 1001 besteht. Das Flußdiagrarnm in Fig. 6 zeigt die Operationsfolge für die Stufenaufbauanordnung.
Nach Speicherung der akustischen Merkmalssignale für jedes Bezugswort, das heißt 0 und 1, wird die im Kästchen 601 angegebene Analyse der Sprachäußerung durchgeführt. Bei der Analyse wird die der Eingangssprachäußerung entsprechende Folge von akustischen Merkmalen erzeugt. Die Wortstufe wird dann zu Anfang auf die Stufe L=O (Kästchen 603) gesetzt, für die ein einzelner Äußerungsbeginnrahmen
-21-N=I vorhanden ist.
Die Verarbeitung der ersten Stufe wird durch Einleitung der Einspeicherung für das AbstandssignaL und der Anfangsrahmensignale der Stufe L+l=l entsprechend dem Kästchen 605 begonnen. Die erste Stufe in Fig. 1 erstreckt sich von der Abszisse 150 zur Linie 160. Diese Linien entsprechen dem Anfangs- und Endrahmen der Bezugswörter auf der Stufe L=I. Das Ende der Stufe L=O entsprechend dei Abszisse 150 wird abgetastet (Köstchen 607), um den ersten Anfangsrahmen festzustellen. Nach Feststellung des Anfangs rahmens n=l bei der Abtastung wird entsprechend der Operation im Kästchen 607 die dynamische Zeitverkettung der Sprachaußerungsmerkmale mit den Bezugswortmerkmalen für die Stufe L+l=l begonnen.
Bei dem zeitlichen Verkettungsverfahrensschritt werden zuerst die Merkmalssignale des Bezugswortes "Null" vom Bezugswortrahmen m=l zum Rahmen M„ dynamisch zeitverkettet πύΛ den Sprachäußerungs-Merkmalssignalen, und zwar beginnend beim Äußerungsrahmen n=l. Auf diese Weise werden die zulässigen Wege in dem durch die Linien 101, 104 und 160 begrenzten Bereich, der das Äußerungsmustersegment für die erste Stufe darstellt, erzeugt. Die Wege 110-1 und 110-2 mit den Endpunkten n, und n„ werden entsprechend der Darstellung in Fig. 1 bestimmt. Die Endpunkte für diese Wege sowie die Korrespondenzen für den kumulativen Abstand entlang dieser Wege und das Bezugswort-Identifiziersignal "Null" werden gespeichert. Wege, die am Endpunkt n., enden, können ebenfalls für das Bezugswort "Null" festgestellt werden. Diese Wege haben jedoch kumulative Abstände, die größer sind als diejenigen, welche später für das Bezugswort "Eins" bestimmt werden.
Anschließend werden die Merkmalssignale des Bezugswortes "Eins" von den Rahmen m=l bis M=M, dynamisch zeitverkettet mit den Äußerungsmerkmalssignalen, beginnend beim Äußerungsrahmen n--l. Entsprechend der Darstellung in Fig.l
.*. j. ι ο ι ο
-22-
werden Wege 110-3, 110-4, 110-5 und 110-6 für das Bezugswort 1 erzeugt. Die Endpunkte n-,, η. , n^ und nfi dieser Wege werden zusammen mit den kumulativen Wegabständen und demBezugswort-Identifizierungssignal "Eins" gespeichert. Für das Bezugswort "Eins" können auch Wege mit den Endpunkten n, und n~ gewonnen worden sein. Es ist jedoch nur der Weg zu einem Endpunkt mit dem minimalen kumulativen Abstand in Fig. 1 dargestellt. Wenn ein Weg für das Bezugswort "Null" und ein Weg für das Bezugswort "Eins" am gleichen Endpunkt zusammenlaufen, wird der Weg mit dem kleineren kumulativen Abstand gewählt. Demgemäß werden nur Wege des Bezugswortes "Null", die an den Punkten n, und n9 enden, zurückbehalten, während nur Wege für das Bezugswort "Eins", die an den Punkten n^ bis nfi enden, festgehalten bleiben. Auf diese Weise werden alle möglichen Kombinationen von Bezugswort-Merkmalssignalen für die Sprachäußerung ausgewertet. Am Ende der dynamischen Zeitverkettung für die Stufe L+l=l wird die Stufe L verglichen mit der maximalen Stufe L =4, wie
ΓΠ3Χ in dem Entscheidungskästchen 611 gezeigt ist. Als Ergebnis des Vergleichs vird die Stufe von L=O auf L=I weitergeschaltet. Dann tritt man erneut über das Entscheidungskästchen 611 in das Kästchen 605 ein, so daß die Abstandsund Anfangsrahmenspeicherung für die Stufe L+l=2 eingeleitet wird. Die Abtastung nach dem ersten Anfangsrahmen ■ der Stufe L=I entsprechend dem Kästchen 60 7 führt zur Feststellung des Rahmens n, als Anfangsrahmen für die dynamische Zeitverkettung der Stufe L+l=2.
Bei der DTW-Verarbeitung der zweiten Stufe (Kästchen 609) liegt die Folge von Bezugswort-Merkmalssignalrahmen zwischen den Linien 160 und 170. Es sind nur DTW-Verarbeitungswege in demjenigen Bereich zugelassen, der durch die Sprachmuster-Segmentlinien 160, 101, 170, 103 und 104 begrenzt ist. Die Anfangsrahmen für die Verarbeitung auf der zweiten Stufe entsprechend den Endrahmen der Wege für die erste Stufe, um die Kontinuität aufrecht zu erhalten. Die Merkmalssignale für das Bezugswort "Null",
beginnend auf der Linie 160, werden dynamisch verkettet mit den Merkmalssignalen der Sprachäußerung, beginnend beim Äußerungsrahmen n, . Wie in Fig. 1 dargestellt, werden unter anderem die DTW-Wege 120-5, 120-7, 120-8, 120-9 und 120-10 erzeugt. Die Endpunkte n5, n_,, nQ, nZ und n,n für diese Wege werden zusammen mit den kumulativen Abständen vom Anfangspunkt der Sprachäußerung zu diesen Endpunkten sowie dem Null-Bezugswort-Identifizierungssignal und den Anfangsrahmen der zweiten Stufe (L+l=2) für die bestimmten Wege gespeichert.
Die Merkmalssignale für das Bezugswort "Eins" zwischen den Linien 160 und 170 werden dann zeitlich verkettet mit den Äußerungsmerkmalssignalen, beginnend beim Rahmen n,, um die Wege der zweiten Stufe für das Bezugswort "Eins" zu bestimmen. Unter anderem werden die Wege 120-1, 120-2, 120-3, 120-4 und 120-6 gebildet. Für die Endpunkte
2 2 2 2 2
n,, n„, n3, n. und n, werden die kumulativen Abstände vor·. Anfangsrahmen der Sprachäußerung, das Identifiziersignal für das Bezuaswort "Eins" und die Rahmen entlang der Linie 160, von aer die Wege ausgehen, gespeichert. Bei Beendigung des Zeitausrichtungsverfahrens (Kästchen 609) der zweiten Stufe (L+l=2) sind alle Zweiwort-Teilketten innerhalb des zulässigen Bereichs ausgewertet worden, und die Signale, die die möglichen Kandidatenketten definieren gespeichert. Man tritt dann erneut in das Entscheidungskästchen 611 ein. Da die letzte Stufe L =4 noch nicht verarbeitet ist, wird die Stufe L weitergeschaltet auf 2 (Kästchen 615).
Es wird jetzt in das Kästchen 605 eingetreten und mit der Speicherung für die nächste Stufe L+l=3 begonnen.
Die Stufe L=2 wird abgetastet (Kästchen 607), um den
Endrahmen n, als Anfangsrahmen für die Zeitausrichtungsverarbeitung der dritten Stufe (L+l=3) festzustellen. Während der Verarbeitung der dritten Stufe (Kästchen 609) werden die Bezugswort-Merkmalssignale auf der dritten
9 9 · ·
-24-
Stufe zwischen den Linien 170 und 180 wiederholt. Die dynamische Zeitverkettung der Bezugswort-Merkrnalssignale mit den Sprachäußerungs-Merkmalssignalen , beginnend
2
beim Außerungsrahmen n" auf der Linie 170 führt zu besten Abstand-swegen 130-1, 130-3, 130-4, 130-5 und 130-6 für das Bezugswort "Null" und besten Abstandswegen 130-2 für das Bezugswort "Eins". Die anderen möglichen Wege von den Anfangsrahmen auf der Linie 170 sind ungültig, da sie außerhalb des durch die Linien 170, 101, 102, 180 und 103 definierten Bereichs liegen oder kumulative Abstände haben, die zu groß sind, um diese Wege in Betracht zu ziehen. Mit der Speicherung der kumulativen Abstandssignale, der Bezugswort-Identifizierungssignale und der Anfangsrahmensignale für die zulässigen Endpunkte sind alle möglichen Ketten der drei Bezugswörter am Ende der dritten Stufe identifiziert.
Es wird dann erneut in das Entscheidungskäst-chen 611 eingetreten und als Ergebnis entsprechend dem Kästchen 615 der Pegelindex geändert auf L=3. Wie oben mit Bezug auf die Verarbeitung der vorhergehenden Stufe erwähnt, wird gemäß Kästchen 605 die Abstandssignal- und Rahmenspeicherung für die Stufe L+l=4 begonnen. Die gespeicherten Rahmensignale für die Stufe L=3 werden gemäß Kästchen 607 abgetastet, und der Anfangsrahmen n. wird als erster Rahmen für die dynamische Zeitverkettung der Stufe L+l=4 gewählt. Es wird dann gemäß Kästchen 609 die DTW-Verarbeitung der vierten Stufe durchgeführt.
Wie in Fig. 1 gezeigt, führt die dynamische Zeitverkettung der vierten Stufe zwischen den Bezugswort-Merkmalssignalen und den Sprachäußerungs-Merkmalssignalen zu einem einzigen Weg 140-1 zwischen dem Äußerungsrahmen nr auf der Linie 180 und dem Äußerungsendrahmen N.. auf der Linie 190. Nach der DTW-Verarbeitung der vierten Stufe wird der Schnittpunkt des dynamischen Zeitverkettungswegs mit dem Äußerungsendrahmen N festgestellt und die Stufenver-
arbeitungskästchen 611 beendet. Man tritt dann in das Kästchen 613 ein , und es wird die beste Bezugswortkette aus den gespeicherten Stufendaten rekonstruiert. Demgemäß ermöglichen nach Fig. 1 die gespeicherten Stufenendpunkte
3 2 1
n5, n„ und n,- eine Rückverfolgung der Wege 140-1, 130-5, 120-8 und 110-5 durch die Stufen 4, 3, 2 und 1. Auf diese Weise wird die Binärfolge 1001 als Eingangssprachäußerung gewählt. Wenn auf irgendeiner Stufe mehr als ein Weg beim Äußerungsendrahmen N endet, kann die am dichtesten entsprechende Bezugswortkette durch einen Vergleich der kumulativen Abstände für die möglichen Zeitausrichtungswege in Fig. 1 gewählt werden. Alternativ wird die Bezugswortkette mit einer bestimmten Anzahl von Ziffern ausgewählt.
Der Bereich zulässiger Ausrichtungswege im Beispiel nach Fig. 1 ist so festgelegt, daß nur Sprachäußerungen mit einer vorbestimmten Anzahl von verbundenen Wörtern durch Angleichen des Äußerungsendrahmons N an die letzten Bezugswort-Endrahmen auf der Linie 190 angenommen werden. Diese Anordnung läßt sich leicht so abändern, daß Sprachäußerungen mit weniger Wörtern angenommen werden, indem der zulässige Bereich so ausgedehnt wird, daß er einen Extrempunkt für jede Stufe enthält, der oberhalb der Grenzlinie 104 für die minimale Sprachrate liegt. Gemäß Fig. 1 können Sprachäußerungen mittels Bezugswortketten von 2 oder 3 Wörtern verarbeitet werden, indem der dynamische ZeitVerkettungsbereich bis zu den gestrichelten Verlängerungen der Linien 104, 170 und 180 sowie der gestrichelten Linie 105 ausgedehnt wird. Der vergrößerte Bereich ermöglicht eine Erkennung von verbundenen Wortäußerungen unterschiedlicher Länge mit der Einschränkung, daß die Maximalzahl von Wörtern in einer Eingangssprachäußerung vorgeschrieben ist.
Bei dem in Fig. 1 gezeigten Beispiel schne.idet der Endpunkt des Wegs 140-1 der vierten Stufe die Linie, die den Endrahmen N der Sprachäußerung definiert. Eine solche Forderung kann die Auswahl der Kandidaten-Bezugswortketten
unzulässicf beschränkten. Eine Anordnung, bei der ein Endbereich von mehreren Rahmen definiert ist, ermöglicht eine gewisse Fehlergrenze bei der Bestimmung des Endrahmens der Eingangssprachäußerung. Demgemäß kann in Fig.1 ein Endbereich zwischen den Linien 192 und 194 einen geeigneten Sprachaußerungs-Endpunktbereich bilden. Die Linie 102 wird zur gestrichelten Linie 109 zwecks Anpassung an den größeren Bereich von Sprachaußerungs-Endrahmen verschoben.
in bekannter Weise führt die zeitliche Ausrichtung von verbundenen Wortsprachmustern mit Verknüpfungen von isolierten Bezugswortmustern im allgemeinen aufgrund einer Coartikulation bei den Sprachmustern mit verbundenen Wörtern zu Fehlern. Diese Fehler können Fehlanpassungen in den Anfangs- und Endbereichen von Wörtern zugeordnet sein, da die Rtezugswörtcr im allgemeinen verlängert sind, wenn sie getrennt gesprochen werden. Die in Fig. 1 gezeigte Anordnung kann so abgeändert werden, daß sie einer solchen Coartikulation Rechnung trägt, indiem die Auswahl der am besten übereinstimmenden Anfangs- und Endrahmen an den Grenzen jeder Stufe zugelassen wird. Demgemäß werden die Zeitausrichtungsanordnungen dicht bei den Stufengrenzen zur Anpassung an Coartikulationseinflüsse eingestellt.
Die Äußerungsanfangsrahmen auf jeder Stufe gemäß Fig.
1 entsprechen den auf der vorhergehenden Stufe erzeugten Endrahmen und sind unabhängig von der Größe der akkumulierten Absl.ände, die den Endpunkten der vorhergehenden Stufe zugeordnet sind. Die Erkennungsanordnung kann so modifiziert werden, daß die Signalverarbeitungsanforderungen weiter verringert sind, und zwar durch eine Begrenzung der Anfangsrahmen entsprechend einem vorgeschriebenen Bereich des besten mittleren kumulativen Abstands, der bei der Verarbeitung der vorhergehenden Stufe bestimmt worden ist. Die Genauigkeit der sich dann ergebenden Erkennung bleibt durch eine solche Beschränkung irn wesentlichen unbeeinflußt, da nur die am wenigsten wahrscheinli-
-2 7-chen Kandidaten aus der Betrachtung ausgeschieden werden.
Ins einzelne gehende Beschreibung
Die Fig. 2 und 3 zeigen ein genaueres Blockschaltbild einer Erkennungseinrichtung für kontinuierliche Sprache als Ausführungsbeispiel der Erfindung. In Fig. 2 kann der Bezugswort-Merkmalssignalspeicher 205,der ein integrierter, programmierbarer Festwertspeicher (ROM) vom Typ 745287 (Data Book ® Electronic Information Series, veröffentlicht von DATA INC. 988 9 Willow Creek Road, P.O.Box 26875, San Diego, Californien, USA, 92126) sein, der eine Vielzahl von Schablonensignalen speichern kann. Jedes Schablonensignal stellt eine Folge von akustischen Merkmalen eines Bezugswortes dar. Diese akustischen Merkmale werden aus isolierten Aussprachen des Wortes mit Hilfe einer linearen Voraussageanalyse bekannter Art abgeleitet. Obzwar lineare Voraussageparameter als Merkmalssignale bei der Schaltungsanordnung nach Fig. 2 und 3 verwendet werden, sei darauf hingewiesen, daß andere akustische Merkmale in Verbindung mit der Erfindung benutzt werden können, beispielsweise Spektral- oder Formantparameter. Die Aussprache jedes Bezugswortes ist in M Rahmen unterteilt, und für jeden Rahmen wird ein Merkmalsvektorsignal (p+l)-ter Ordnung erzeugt. Das Merkmalsvektorsignal entspricht den autokorrelierten linearen Voraussagekoeffizienten des Rahmensprachsignals. Die Bezugswortschablone wird dann durch das Signal gemäß Gleichung (1) dargestellt. Die Schablonensignale für die Bezugswörter Wn , w„, ... w werden im Merkmalsspeicher 105 abgelegt und durch ein Schablonen-Wortnummernsignal w vom Wortzähler 220 adressiert, der binäre Vor/Rückwärtszähler vom Typ 74163 (Data Book (R) ) enthalten kann. Zur Erläuterung wird angenommen, daß die Erkennungseinrichtung gemäß Fig. 2 und 3 in der Lage ist, Folgen von gesprochenen Zahlen zu erkennen. Demgemäß besteht der Bezugswortsatζ aus den Ziffern 0 bis 9.
Der Sprachäußerungs-Merkmalssignalgenerator 201 in Fig. 2
J. I O JO
nimmt ein Srpachsignal von einem elektroakustischen Wandler 200 auf und wandelt die Sprachäußerung in eine Folge von akustischen -Merkmalssignalen des gleichen Typs um, wie sie im Bezugsmerkmalssignalspeicher 105 abgelegt sind. Für jeden Rahmen des Sprachsignals vom Wandler 200 wird eine lineare Voraussagecodier-Analyse durchgeführt, um ein Merkmalsvektorsignal (p+l)-ter Ordnung für den Rahmen zu bilden. Durch die Analyse erhält man die Fulge von Sprachäußerungs-Merkmalssignalen gemäß Gleichung (2).
Diese Merkmalsvektorsignale T(n) werden sequentiell zum · Sprachäußerungs-Merkmalssignalspeicher 203 übertragen (eine Vielzahl von Speichern mit wahlfreiem Zugriff vom Typ 745207 gemäß Data Book (Rj) ), wo sie Rahmen für Rahmen gespeichert werden. Der Sprachäußerungs-Merkmalsgenerator 201 kann ein Generator mit linearen Voraussagekoeffizienten sein, der in der US-PS 4 092 493 beschrieben ist, oder irgendein anderer LPC-Generator bekannter Art.
Die Zeitausrichtungsverarbeitung wird im DTW-Prozessor 20 7 für jede Stufe entsprechend den Sprachäußerungsmerkmalen aus dem Speicher 203 und den Bpzugswortmerkmalen aus dem Speicher 205 durchgeführt. Die im Prozessor 20 7 erzeugten kumulativen Abstandssignale d werden in den
Abschnitt 110-2 des Stufenspeichers 210 eingegeben, der eine Vielzahl von RAM-Speichern (Speicher mit wahlfreiem Zugriff) vom Typ 745207 gemäß Data Book (R) umfassen kann. Der Stufenspeicher wird gemeinsam durch die Sprachäußerungs-Rahmennummer η und die Stufe L adressiert. Der Abschnitt 210-1 speichert die vom DTW-Prozessor 207 bei der dynamischen Zeitverkettungsverarbeitung gewonnenen Anfangsrahmennummern SFN (von Starting Frame Number). Der Abschnitt 210-3 speichert die Bezugswort-Identifiziersignale w, die dor Verarbeitung zugeordnet sind. Die Verarbei tungsorqebni ssv, die durch dies Signale η und L adressiert werden, werden als Anfangsrahmensignal SFN, kumulatives Abstandssignal ά und Bezugswort-Identifiziersignal
w auf den Leitungen 211-1 , 211-2 bzw. 211-3 zur Verfugung gestellt.
QOI 1 οι ο
Die Rahmenfolgelogik 30 7 in E'ig. 3 liefert die Folge von Sprachäußerungsrahmen η, die das Auslesen der Sprachäußerungs-Merkmalssignale aus dem Speicher 203 steuert, und erzeugt außerdem Steuersignale, die die Arbeitsweise des DTW-Prozessors 20 7 bestimmen. Der Rückwärtsverfolgespeicher 260 in Fig. 2 tritt bei Beendigung dor Verarbeitung der letzten Stufe in Tätigkeit und speichert die bei der Stufenverarbeitung bestimmten DTW-Wege derart, daß die am genauesten entsprechende Bezugswortkette gewählt werden kann.
Zur Erläuterung wird angenommen, daß der Spracherkenner gemäß Fig. 2 und 3 zur Identifizierung einer Sprachäußerung benutzt wird, die aus einer Folge von gesprochenen Zahlen mit einer maximalen Länge von 5 Ziffern bestehen. Es sei jedoch darauf hingewiesen, daß der Spracherkenner zur Erkennung gesprochener Wörter oder Phrasen beliebiger Zeichen und einer Länge von mehr als 5 Wörtern benutzt werden kann. Die zur Erläuterung gewählte Sprachäußerung ist die Ziffernfolge "4453", die sich über 128 Rahmen erstreckt. Vor Zuführung der Sprachäußerung zum elektroakustischen Wandler 200 wird das Signal "Start" durch den Signalgenerator 204 unter Steuerung eines externen Bauteils, beispielsweise des Schalters 206, erzeugt.
Das Signal "Start" wird dem Steuergerät 350 zugeführt, das genauer in Fig. 4 dargestellt ist. Das Steuergerät gemäß Fig. 4 weist eine Folge-Steuerschaltung 400 auf, die generell die zeitliche Folge von Operationen der Erkennungsschaltung gemäß Fig. 2 und 3 bestimmen kann, und Steuergeräte 410, 420, 430, 440 und 450, die eine individuelle, durch die Folgesteuerschaltung 400 gewählte Betriebsweise bestimmen. Jede Steuerschaltung in Fig. 4 ist ein Mikrocomputer bekannter Art, beispielsweise der in dem Aufsatz "Let a Bipolar Processor Do Your Control and Take Advantage of Its High Speed" von Stephen Y. Lau beschriebenen Art, der auf den S. 128-139 von "Electronic Design",
ο/, ι,ιο ίο
Nr. 4, 15. Februar 1979, erschienen ist. In bekannter Weise erzeugt ein Steuergerät dieser Art ein oder mehrere gewählte Ausgangssignale unter Ansprechen des Zustande der zugeführten Signale. Jede Steuerschaltung beinhaltet einen Festwertspeicher, in welchem ein Befehlssatz gespeichert ist, der die Betriebsweise bestimmt. Die Befehle für die Folgesteuerschaltung 400 sind im Anhang A in der Programmiersprache FORTRAN gezeigt. In entsprechender Weise sind die Befehle für die Steuergeräte 410, 420, 430, 440 und 450 in den Anhängen B, C, D, E bzw. F angegeben.
Das Signal "Start" vom Generator 204 wird der Folgesteuerschaltung 400 zugeführt, die daraufhin einen Steuerimpuls SA und ein Steuersignal A erzeugt. Der Steuerimpuls SA wird dem Sprachäußerungs-Merkmalssignalgenerator 201 in Fig. 2 und dem Bedingungsgenerator 201 zugeführt, um eine Folge von Sprachäußerungs-Merkmalsvektorsignalen T(n) und Rahmenadressiersignale FSA unter Ansprechen auf das Sprachmustersignal vom Wandler 200 zu erzeugen.
Die Rahmenadressiersignale werden zum Adresseneingang des Sprachäußerungs-Merkmalssignalspeichers 203 über ein UND-Gatter 222 und ein ODER-Gatter 226 zugeführt, während das Steuersignal A betätigt ist.
Das Flußdiagramm gemäß Fig. 7 zeigt die Sprachäußerungsanalyseoperation. Wenn das Signal "Start" gemäß Kästchen 700 vorliegt, wird der Steuerimpuls SA erzeugt, und die Sprachäußerungs-Merkmalssignale werden entsprechend dem Kästchen 710 erzeugt und gespeichert. Bei Beendigung der Sprachäußerungsanalyse und Einspeicherung der Merkmals Signale in den Speicher 203 wird der Steuerimpuls EA vom Generator 201 erzeugt, und der Sprachäußerungs-Endrah-
men N =128 wird vom Generator 201 zum Rahmenzähler rn
gegeben. Die Folgesteuerschaltung 400 in Fig. A erzeugt Steuerimpulse SBO und SLJM unter Ansprechen auf den Impuls ΕΛ. Diese Signale leiten die Stufenverarbeitung für die erste Stufe entsprechend dem Kästchen 720 in Fig.7 ein.
Der Steuerimpuls SBO wird dem Einstelleingang des RückverfolgungsZählers 240 in Fig. 2 zugeführt, der dadurch auf 0 zurückgestellt wird. Der Impuls SLJM durchläuft das ODER-Gatter 46 7 , und das Signal SLJ von diesem Gatter wird dem Stufenzähler 250 zugeführt. Dieser wird dadurch auf 0 zurückgestellt, so daß sein Ausgangssignal L=O und sein Ausgangssignal L+l = 1 ist. Der Zähler 250 weist eine Zählschaltung vom Typ 74163, eine Addierschaltung vom Typ 74163 und eine Komparatorschaltung vom Typ 7485 in bekannter Schaltung auf.
Der Impuls EA am Ende der Sprachäußerungsanalyse veranlaßt außerdem die Steuerschaltung 400, den Steuerimpuls SI zu erzeugen, wie im Flußdiagramm gemäß Fig. 8 gezeigt. Der Steuerimpuls SI versetzt die Erkennungsschaltung gemäß Fig. 2 und 3 in die Lage, in die erste Einleitungsbetriebsweise überzugehen, in der die Speicherstellen der Stufe L+l=l des Pegelspeichers 210 voreingestellt werden. Auf diese Weise wird der Pegelspeicher 210 vor der dynamischen Zeitverkettung der Sprachmuster-Merkmalssignale des ersten Stufensegments mit den Bezugswort-Merkmalssignalen der ersten Stufe in Betrieb genommen. Gemäß Kästchen 810 in Fig. 8 wird die Sprachmuster-Rahmenadresse für die Stufe L+l=l des Speichers 210 zu Anfang auf den ersten Rahmen η =1 eingestellt. Die Abstandssignalspeicherstelle für den ersten Rahmen wird auf den größtmöglichen Zahlencode LPN eingestellt, der in der Schaltung gemäß Fig. 2 und 3 verfügbar ist, und die Anfangsrahmenstelle, die dem Sprachäußerungsrahmen η =1 zugeordnet
ist, wird entsprechend dem Kästchen 820 auf 0 eingestellt.
Die Sprachäußerungs-F .imennummer wird weitergeschaltet (Kästchen 830),und dann wird wiederum über das Entscheidungskästchen 840 in das Kästchen 820 eingetreten, so daß das nächste Sprachäußerungs-Rahmenabstandssignal und die Anfangsrahmennummer-Speicherstelle voreingestellt werden können. Die Speicherbetriebs-Einleitungsoperation läuft weiter, bis die Sprachäußerungs-Rahmennummer größer
als der maximale Sprachäußerungs-Rahmen N = 128 ist. Zu diesem Zeitpunkt wird der Steuerimpuls EI erzeugt.
Zu Beginn der ßetriebseinleitung wird der Steuerimpuls SI von der Steuerung 400 dem Stufeneinleitungs-Steuergerät 410 zugeführt. Das von der Steuerung 410 erzeugte Steuersignal I gelangt zu ODER-Gattern 231 und 254 in der Stufenspeicher-Adressierlogik 290. Unter Ansprechen auf das Steuersignal I wird ein UND-Gatter 233 betätigt. Auf entsprechende Weise wird das UND-Gatter 256 durch das Ausgangssignal des ODER-Gatters 254 in Tätigkeit gesetzt. Dann wird in der Steuerung 410 der Steuerimpuls SNlI erzeugt , so daß das Signal SNl vom ODER-Gatter 461 zum Rückstelleingang des Rahmenzählers 230 übertragen wird. Dieser wird dadurch in seinen ersten Zustand gebracht, in welchem der Ausgang η auf 1 eingestellt ist. Das Signal η =1 durchläuft das UND-Gatter 233 und das ODER-Gatter 238 , so daß die Sprachäußerungs-Rahmensteile n=l des Stufenspeichers 210 adressiert wird. Der Stufenzähler 250 war vorher zurückgestellt worden, so daß sein Ausgangssignal L+l=l ist. Das Signal L+l=l durchläuft das UND-Gatter 256 und das ODER-Gatter 259, wodurch die Stufe L=I des Speichers 210 adressiert wird. Auf diese Weise werden die Speicherstellen des ersten Sprachäußerungsrahmens für die Stufe 1 im Speicher 210 ausgewählt.
Der Speicher 210, der RAM-Speicher vom Typ 745207 und programmierbare , integrierte ROM-Speicher vorn Typ 74528 aufweisen kann, ist in drei Abschnitte unterteilt. Der Zeitausrichtungsweg-Anfangsrahmen SFN für die gewählte Adresse wird im Abschnitt 210-1 gespeichert. Der kumulative Abstand d, der durch die dynamische Zeitverkettung für den adressierten Rahmen gewonnen worden ist, wird im Abschnitt 210-2 gespeichert, und das Bezugswort-Identifiziersignal w, das durch die dynamische Zeitverkettung für den adressierten Rahmen erhalten worden ist, wird im Abschnitt 210-3 gespeichert.
-33-Wenn der Sprachäußerungsrahmen η =1 der Stufe L+l=l im
Speicher 210 adressiert wird, durchläuft ein Codesignal 0 das UND-Gatter 2 74 und das ODER-Gatter 286 unter Ansprechen auf das Signal 1 . Am Informationscingang des Speicherabschnitts 210-1 erscheint ein Signal 0. Das durch das Signal I vorbereitete UND-Gatter 284 läßt das LPN-Signal zum Informationseingang des Speicherabschnitts 210-2 über das ODER-Gatter 282 durchlaufen. Die Steuerung 410 bleibt in Betrieb und erzeugt das Signal WLSI, und das Schreibsignal WLS wird an den Schreibbetatigungseingang des Speichers 210 über das ODER-Gatter 465 angelegt. Dadurch werden ein Code 0 und ein Code LPN in die Speicherstellen L=I , fi=l der Stufenspeicherabschnitte 210-1 bzw. 210-2 eingegeben.
Es wird dann in der Steuerung 410 der Steuerimpuls INlI erzeugt und über das ODER-Gatter 463 dem Rahmenzähler 230 zugeführt. Dieser wird weitergeschaltet. Er liefert das Signal η =2, das bewirkt, daß die Speicherstellen des zweiten Sprachäußerungsrahmens im Stufenspeicher 210 (L=I, fi=2) adressiert werden. Das nächste WLS-Signal von der Steuerung 410 stellt die Speicherstellen SFN(2) und d(2) auf 0 bzw. LPN ein. Die Folge von Impulsen INlI und WLSI der Steuerung 410 wiederholt sich mit einer vorbestimmten Rate, um die Sprachäußerungs-Rahmenstellen 1 bis N(m) der Stufe L+l=l voreinzustellen. Der Ausgang NMS des Rahmenzählers 230 wird betätigt, wenn dessen
Zustand η =N erreicht ist. Unter Ansprechen auf das s m
Signal NMS vom Zähler 230 erzeugt die Steuerung 410 einen Steuerimpuls EI, der die Betriebseinleitung der ersten Stufe beendet, nachdem die Stellen L=I , n=N der Speicherabschnitte 210-1 und 210-2 auf 0 bzw. LPN eingestellt sind.
Die dynamische Zeitverkettung für jede Stufenverarbeitung wird mit dem niedrigsten Endrahmen der vorhergehenden Stufe begonnen, nachdem der höchste Endrahmen der vorher-
gehenden Stufe festgestellt und gespeichert ist. Folglich werden die L=O Stellen im Stufenspeicherabschnitt 210-1 beginnend beim Rahmen η =1 abgetastet, um den ersten Rahmen festzustellen, in welchem sich ein von 0 abweichend bewerteter Anfangsrahmen befindet. Die Stufe L=O entspricht dem Anfang der Sprachäußerung und besitzt einen von 0 abweichend bewerteten Anfangsrahmen SFN=I für den Rahmen
η =1. Im Stufenspeicher 210 sind die Eintragungen für s
L=O fest und befinden sich in einem Nurlese-Speicherabschnitt. Die Stelle η =1 des Abschnitts 210-1 ist dauernd
auf SFN=I eingestellt, und die entsprechende Stelle im Abschnitt 10-2 ist dauernd auf d=0 eingestellt. Alle anderen Rahmenstellen für die Stufe L=O im Abschnitt 210-1 sind dauernd auf SFN=O und alle anderen Stellen im Abschnitt 210-2 auf d=LPN eingestellt.
Die Abtastbetriebsweise wird unter Ansprechen auf einen Impuls EI von der Steuerung 410 gestartet. Dieser Impuls veranlaßt die Steuerschaltung 400, den Steuerimpuls SB zu erzeugen. Unter Ansprechen auf den Impuls SB erzeugt die Abtaststeuerung 420 ein Signal BB, das über ein ODER-Gatter 469 als Signal B zu ODER-Gattern 231 und 252 in der Stufenspeicher-Adressierlogik 290 für die Dauer der Abtastung geführt wird. Das Ausgangssignal des ODER-Gatters 231 bereitet das UND-Gatter 233 vor, so daß die Folge von η -Abtastadressensignalen vom Rahmenzähler 230 über das ODER-Gatter 230 an den fi-Adresscneingang des Stufenspeichers 210 angelegt werden kann. Das Ausgangssignal des ODER-Gatters 252 bereitet das UND-Gatter 258 vor, so daß das L=0-Signal das UND-Gatter 258 sowie das ODER-Gatter 259 durchläuft und als L-Adresseneingang dem Stufenspeicher 210 augeführt werden kann.
Die Abtaststeuerung 420 erzeugt außerdem Impulse BD und SNM am Beginn der Abtastbetriebsweise. Der Impuls SNM setzt entsprechend dem Indexeinstellkästchen 910 in Fig.9 den Rahmenzähler auf den Sprachäußerungs-Endpunktzustand
-35-(η =η ). Die Adressenlogik 209 wählt dann den Rahmen
S Iu
η =n der Stufe L=O, und es werden die Signale SFN=O s m
und S=LPN für den Rahmen N dem Gatter 335 bzw. dem Teiler 355 zugeführt. Das Signals SFN=O gelangt an einen Eingang eines Komparators 338. Unter Ansprechen auf dieses Signal bleibt der Komparator 338 abgeschaltet. Demgemäß bleibt auch das Signal DMTA am Ausgang des UND-Gatters 381 abgeschaltet (Kästchen 912). Die Abtaststeuerung 420 erzeugt dann den Impuls DNl, der den Zähler 230 entsprechend dem Kästchen 914 rückwärts schaltet.' Das Signal NSO bleibt für η =nm abgeschaltet (Kästchen 916). Das Signal η wird im Komparator 385 mit 0 verglichen,
wenn das Signal BD vorhanden ist. Auf diese Weise wird der Rahmenzähler wiederholt rückwärts geschaltet, bis
η =1 ist.
s
Das Signals SFN=I für η =1 betätigt den Ausgang des Kompa-
rators 338. Das Signal d für L=O , η =1 vom Abschnitt
210-2 des Stufenspeichers 210 ist 0. Der Teiler 335 bildet das Signal d(l)/l=0/ das im Komparator 305 mit dem vorher
im Zwischenspeicher 309 abgelegten Signal LPN verglichen wird. Das Signal DMT wird betätigt, und das Gatter 381 liefert ein betätigtes Signal DMTA über das UND-Gatter 359 an den Zwischenspeicher 360. Dadurch wird das Signal η =1 in den Zwischenspeicher 350 gebracht (Kästchen 920).
Das Signal DMTA wird außerdem der Steuerung 420 zugeführt, die das Signal BD ausschaltet und das Signal BU einschaltet. Die Abtaststeuerung 420 liefert dann das Signal SNlB, das das ODER-Gatter 461 als Impuls SNl durchläuft und den Rahmenrähler 230 auf seinen Anfangszustand η =1 zurückstellt (Kästchen 922). Auf diese Weise werden die Sprachäußerungs-Rahmenstellen η =1 der Stufe L=O im Speicher 210 gewählt. Das Abstandssignal d=0 für die gewählte Rahmenstelle vom Stufenspeicherabschnitt 210-2 steht dann auf der Leitung 211-2 zur Vorfügung und wird von dort über den Teiler 335 und das Gatter 304 einem Eingang des Komparators 305 in Fig.3 zugeführt. Das andere
OZI I 0 I J
Eingangssignal des ^Comparators 305 vom Multiplizierer 303 ist zu diesem Zeitpunkt größer als 0, so daß das Signal DMT vom Komparator 305 eingeschaltet wird. Dieses Signal gelangt zum Gatter 381. Da das Signal SFN=I vom Speicherabschnitt 210-1 am Komparator 338 vorhanden ist, wird das Signal DMTA eingeschaltet,und der Zwischenspeicher 370 wird über das UND-Gatter 368 eingestellt. Die Abtaststeuerung 420 erzeugt dann unter Ansprechen auf das Signal DMTR vom Zwischenspeicher 3 70 den Steuerimpuls EB. Dieser Impuls EB beendet die Abtastoperation und veranlaßt das Folgesteuergerät 400, die Impulse FSL und SC zu erzeugen.
Der Impuls FSL gelangt zur Rahmenfolgelogik 307, so daß der augenblickliche SFN-Code (n =1) vom Stufenspeicherabschnitt 210-1 in die Rahmenfolgelogik 207 eingegeben wird. Auf diese Weise wird die dynamische Zeitverkettung für die erste Stufe beim Rahmen n=l eingeleitet. Der Impuls SC veranlaßt die DTW-Steuerung 430, die Steuersignalfolge zu erzeugen, die die Schaltung gemäß Fig.2 und 3 veranlaßt, die dynamische Zeitverkettvng der Sprachmuster-Segmentmerkmalssignale der ersten Stufe mit den Bezugswort-Merkmalssignalen vom Äußerungsrahmen SFN=I der ersten Stufe durchzuführen.
Das Flußdiagramm gemäß Fig. 10 zeigt die dynamischen Zeitverkettungsanordnungen nach der Erfindung. Wie oben erwähnt, bewirkt die dynamische Zeitverkettungsverarbeitung, daß die Zeitausrichtungs-Wegendpunkte für die Stufe L=I bestimmt und die kumulativen Abstandssignale, die Identifiziersignale für das beste Bezugswort und die Anfangsrahmensignale für diese Endpunkte im Pegelspeicher 210 gespeichert werden. Gemäß Fig. 10 wird entsprechend dem Kästchen 1001 zu Anfang ein Merkzeichen (flag) gesetzt, das dann bei Feststellung eines gültigen Stufenendrahmens zurückgestellt wird. Entsprechend dem Kästchen 1005 wird das erste Bezugswort w„ (Null) gewählt, und der Anfangsrahmen für die dynamische Zeitverkettung wird
.32J 1.313
auf den Anfangsrahmen SFN=I «angestellt, der boi der unmittelbar vorhergehenden Abtastbetriebsweise bestimmt worden ist (Kästchen 1010). Der Anfangsrahmen des Bezugswortes "Null" ist der Rahmen n=l. Dann wird die dynamisehe Zeitverkettung der Sprachmuster-Segmentmerkmalssignale mit den Bezugswort-Merkmalssignalen gemäß Kästchen 1015 gestartet.
Die DTW-Verarbeitung erfolgt entsprechend dem allgemeinen, in Gleichung (7) dargestellten Verfahren. Entsprechend der Erfindung werden die Bezugswortrahmen jeder Stufe in drei Abschnitte unterteilt, nämlich einen Anfangsabschnitt 6Rl, einen Endabschnitt 6R2 und den Abschnitt zwischen dem Anfangs- und dem Endabschnitt. Wie oben mit Bezug auf Gleichung (7) erwähnt, werden die zulässigen Bezugswortrahmen so gewählt, daß sie möglichen akustischen Bedingungen genügen. Bei dem mittleren Segment einer Stufe werden die Sprachraten-Einschränkungen gemäß Gleichung (7) befolgt. Die akustischen Bezugswortmerkmale im Speicher 205 werden von getrennt gesprochenen Äußerungen des Wortes abgeleitet. Benachbarte Wörter in Sprachmustern mit verbundenen Wörtern werden im allgemeinen koartikuliert. Demgemäß wird der Bereich der Bezugswortrahmen in den Anfangs- und Endsegmenten so eingestellt, daß der Koartikulation Rechnung getragen ist. Im Anfangs abschnitt wird die Wahl der Bezugsrahmen für den letzten Ausdruck in Gleichung (7) über den Bereich der Rahmen von δRl ausgedehnt. Für das Segment δRi ist I„ =m und I, ist 1 für w(n-l)=w(n-2) oder im anderen Fall 0. Entsprechend wird im Endsegment die Wahl der Rahmen über den Bereich 6R2 hinaus ausgedehnt. Im Segment 6R2 ist I,=l, wenn w (n-1 )-w(n-2 ) und 0 im Bezugswort-Endrahmen
m , und I0 ist 6R2 - M . Auf diese Weise wird die w Z w
zeitliche Ausrichtung der Sprachäußerungsmerkmale zu den Bezugsmerkmalen bei Vorhandensein einer Koartikulation genauer gemacht. In typischer Weise ist 6Rl-4 und
6 R2=6 für durch einen Sprecher erzeugte Bezugsmerkmalssignalschablonen. Der Wert 5Rl wird auf 0 und 6R2
-38-auf 4 für sprecherunabhängige Bezugsmuster gesetzt.
Die dynamische Zeitverkettung gemäß Kästchen 1015 wird über den Bereich 1 _< m _< M von Bezugswortrahmen für jeden aufeinander folgenden Sprachäußerungsrahmen η durchgeführt. Die Rahmenauswahl bei den im DTW-Prozessor 207 durchgeführten dynamischen Zeitverarbeitungsoperationen wird durch die Rahmenfolgelogik 307 gesteuert, die genauer in Fig. 5 dargestellt ist.
Bei dem Ausführungsbeispiel nach Fig. 2-5 liefert die DTW-Prozessorsteuerung 430 Steuerimpulse SWl und E1SR sowie ein Steuersignal C unter Ansprechen auf einen Impuls SC von der Folgesteuerung 400. Durch den Impuls SWl wird der Wortzähler 220 in Fig. 2 auf seinen Zustand W=W0zurückgestellt. Der Impuls FSR stellt den Zähler 505 auf seinen Anfangszustand zurück. Der Zähler 505 speichert die Zahl der Sprachäußerungsrahmen der bereits verarbeiteten Stufe. Der Sprachäußerungs-Anfangsrahmen im Zwischenspeicher 5nl wird durch den Impuls FSR zum Zähler 503 übertragen. Der Ausgang η des Zählers 503 liefert das Eingangssprachmuster-Rahmensignai für die DTW-Verarbeitung. Das Signal FSR stellt außerdem das Flipflop 370 über das ODER-Gatter 369 ein. Dadurch wird das Signal DMTR am Anfang jeder DTW-Abtastung eingestellt.
Das Signal C von der Steuerung 430 wird ODER-Gattern 251 und 252 der Stufenspeicher-Adressierlogik 290 zugeführt. Das Rahmensignal η vom Zähler 503 durchläuft dann das UND-Gatter 236 zum n-Adresseneingang des Speichers 210. Abhängig vom Ausgangssignal des ODER-Gatters 252 überträgt das UND-Gatter 258 das Stufensignal L vom Stufenzähler 250 zum L-Adresseneingang des Speichers 210. Am Anfang der DTW-Verarbeitung für die Stufe liefert der anfängliche Sprachmustersegment-Rahmen vom Zähler 503 in Fig. 5 das Sprachmustersegment-Rcihmenadressensignal r für den Sprachäußerungs-Merkmälsignalspeicher 203 über das UND-Gatter 224 und das ODER-Gatter 226. Die dem Rahmensignal η
entsprechenden Sprachmuster-Merkmalssignale werden dem Eingang des DTW-Prozessors 20 7 zugeführt. Dieser wird zu Anfang so voreingestellt, daß er das erste Bezugswort-Rahmensignal an seinem Ausgang (M ) für den unteren Grenz wert des Bereichs liefert. Dieses Signal M =1 gelangt
Li
zum Komparator 524 in Fig. 5, der feststellt, ob die Verarbeitung im Anfangssegment 6Ri der Stufe stattfindet. In typischer Weise wird 6Rl auf 4 Rahmen eingestellt. Für 1 < M < Rl wird der Ausgang des !Comparators 524
— Li —
betätigt und ein Signal vom UND-Gatter 530 geliefert, wenn der augenblickliche Sprachäußerungsrahmen ein Endrahmen der vorhergehenden Stufe ist und das Signal DMTR vom Flipflop 370 betätigt ist. Das Signal DMTR ist vorhan den, wenn der Sprachsegmentrahmen innerhalb des Bereichs von Endrahmen der vorhergehenden Stufe liegt. Dies ist dann die Kontinuität der dynamischen Zeitverkettungswege von Stufe zu Stufe.
Die DTW-Verarbeitung wird durch einen Steuerimpuls DST von der DTW-Steuerung 430 eingeleitet. Das Bezugswort-Rahmensignal Mu vom Prozessor 207 wird zur Adressierung
des Bezugswort-Merkmalsignalspeichers 205 benutzt, so daß die Bezugsmerkmale der erforderlichen Rahmen für das gewählte Wort w dem DTW-Prozessor gemäß Gleichung (7) zugeführt werden. Wenn das Bezugswort-Rahmensignal M. den Wert 6R1 übersteigt, wird der Ausgang des Kompara-
tors 524 abgeschaltet, und das Signal Rl wird vom DTW-Prozessor getrennt. Demgemäß werden die Einschränkungen der DTW-Verarbeitung gemäß Gleichung (7) so geändert, daß sie den akustischen Bedingungen für das mittlere Segment entsprechen.
Das Bezugswort-Endrahmensignal M vom Speicher 205 entspricht dem Endrahmen des adressierten Bezugswortes und wird dem Subtrahierer 515 sowie dem Komparator 520 in der Rahmenfolge-Logikschaltung gemäß Fig. 5 zugeführt. Das Signal M„ für die obere Grenze des Bezugswort-Rahmen-
bereichs bei der gerade ausgeführten dynamischen Zeitver-
kettung wird vom Prozessor 207 zum Subtrahierer 515 und zum Komparator 520 gegeben. Wenn das Differenzsignal M - M vom Subtrahierer 515 gleich oder kleiner als das Signal 6R2 entsprechend dem Endsegment der Stufe ist, so wird der Ausgang R2 des Komparators 518 betätigt. Das Signal R2 gelangt an einen der Steuereingänge des Prozessors 207, so daß die dynamischen Zeitverkettungseinschränkungen unter Anpassung an das Endsegment der Stufenverarbeitung geändert werden.
Während der Operation des Prozessors 207 wird das Signal d1, das den Abstand zwischen den augenblicklichen Bezugswortmerkmalen und den Sprachmustersegment-Merkmalen bis zum Rahmen (n) der Stufe darstellt, mit einem Schwellenwert T(n) verglichen, wie im Entscheidungskästchen 1020 in Fig. 10 angegeben. Der Schwellenwert T(n) ist das Ausgangssignal des Festwertspeichers 509 und wird auf das größte Abstandssignal eingestellt, das für ein gültiges Kandidatenbezugswort im augenblicklichen Rahmen erwartet wird. Für den Fall, daß das Abstandssignal d1 vom Prozessor 207 den Schwellenwert T übersteigt, wird die Abstandsverarbeitung für das Bezugswort abgebrochen. Es erfolgt dann ein Eintreten in das Indexkästchen 1050, und das nächste Bezugswort wird gewählt. Entsprechend dem Entscheidungskästchen 1055 wird dann bestimmt, ob alle Bezugswörter für die Stufe verarbeitet worden sind. Wenn nicht verarbeitete Bezugswörter vorhanden sind, wird entsprechend dem Kästchen 1015 die dynamische Zeitverkettung erneut gestartet , und zwar nachdem der Sprachäußerungsrahmen für die Verarbeitung auf den Anfangsrahmen zurückgestellt ist, der bei der vorhergehenden Abtastoperation (Kästchen 1010) bestimmt worden ist.
Unter Bezugnahme auf Fig. 2 und 5 wird das Signal d1 vom DTW-Prozessor 20 7 an einen Eingang des Komparators 511 geliefert, dt:r die Schwellenwertentscheidung gemäß Kästchen 1020 durchführt. Wie oben erwähnt, wird der Zähler 505 am Anfang der Abstandsverarbextung durch das
Signal FSR auf 1 zurückgestellt. Der Zähler 505 wird durch das Signal FSI weitergeschaltet, nachdem ein Sprachsegmentrahmen η entsprechend dem Kästchen 1015 verarbeitet worden ist. Das Rahmenausgangssignal des Zählers 505 adressiert den Festwertspeicher (ROM) 509 , und das maximale Abstandsschwellenwertsignal T(n) vom Speicher 509 wird zum anderen Eingang des Komparators 511 geführt. Wenn das Signal d'(n) das dem Rahmen im Festwertspeicher 509 zugeordnete Schwellenwertsignal übersteigt, so wird das Abbruchsignal AB vom Komparator 511 eingeschaltet und der Steuerung 430 zugeführt. Diese erzeugt dann einen Impuls IWl, der den Wortzähler 220 in Fig. 2 weiterschaltet, sowie einen Impuls FSR, der den Zähler 505 zurückstellt und das Rahmensignal im Zwischenspeicher 501 zum Zähler 503 überträgt. Die Schaltung gemäß Fig. 2 und 3 wird dadurch so eingestellt, daß sie die Stufen-DTW-Verarbeitung für das nachfolgende Bezugswort durchführt.
Bei der Verarbeitung der ersten Stufe für die Eingangssprachäußerung 4453 wird das mit dem Rahmen n=l beginnende Sprachmustersegment zuerst dynamisch mit der1 Bezugswort: "Null" im Prozessor 207 zeitverkettet. Bei der Verarbeitung der ersten Stufe erfolgt jedoch für alle Bezugswörter mit Ausnahme von "Vier" ein Abbruch ohne Erzeugung von Zeitausrichtungswegen, und zwar wegen der Unähnlichkeit des Bezugsmerkmalssignals mit den Sprachmustersegment-Merkmalssignalen des ersten Wortes. Während der DTW-Verarbeitung für das Bezugswort "Null" übersteigt ein Abstandssignal d'(n) das Schwellenwertsignal T(n) vor der Feststellung eines DTW-Ausrichtweg-Endpunktes. Das Signal AB vom Komparator 511 wird betätigt, und unter Ansprechen auf das Signal AB erzeugt die DTW-Steuerung 430 in Fig. 4 Steuerimpulse IWl und FSR. Der Impuls IWl schaltet den Wortzähler 220 in Fig. 2 weiter,und dessen Ausgangssignal w adressiert die Merkmalssignale für das Bezugswort "Eins" im Speicher 205. Der Impuls FSR stellt den Zähler 505 auf seinen Anfangszustand zurück und bewirkt, daß das Rahmensignal im Zwischenspeicher
501 zum Zähler 503 übertragen wird. Auf diese Weise wird die dynamische Zeitverkettung des Anfangssegrnents des Sprachmusters mit demBezugswort "Eins" gestartet. Während der DTW-Zeitausrichtung für das Bezugswort "Eins" wird der Komparator 511 wieder betätigt und die Verarbeitung abgebrochen, ohne einen Zeitausrichtungs-Endpunkt zu erreichen. Die dynamische Zeitverkettung der Bezugswörter "Zwei" und "Drei" führt ebenfalls zu Abbruchsignalen AB, da die Abstandssignale d1 vom Prozessor 20 7 das Schwel· lenwertsignal T(n) vom Festwertspeicher 509 übersteigen, bevor ein Zeitausrichtungsweg-Endpunkt erzeugt wird.
Nach Beendigung der DTW-Verarbeitung für das Bezugswort "Drei" erzeugt das DTW-Steuergerät 430 die Impulse FSR und IWl . Der Impuls IWl schaltet den Wortzähler 220 weiter, so daß die Merkmalssignale für das Bezugswort "Vier" im Speicher 205 adressiert werden. Der Impuls FSR stellt den Zähler 503 auf den anfänglichen DTW-Verarbeitungsrahmen n=l im Zwischenspeicher 501 ein und stellt den Zähler 505 auf 1 zurück. Es wird dann das Rahmensignal n=l vom Zähler 503 an den Sprachäußerungs-M^rkmalsspeicher 203 und den Stufenspeicher 210 angelegt. Die Merkmalssignale des Sprachäußerungssegments für die Stufe. 1 werden dann entsprechend der Adressierung durch den Zähler 5OJ dem DTW-Prozessor 20 7 zur Verfügung gestellt,und der Stufenspeicher 210 wird in die Lage versetzt, die Zeitausrichtungsweg-Ergebnisse für das Bezugswort "Vier" aufzunehmen.
Der Prozessor 20 7 kann dann die Merkmalssignale des gewählten Bezugswortes (Vier) für die Rahmen 1 _< m ^ M4 mit den Merkmalssignalen der Sprachäußerung für den im Zähler 503 gespeicherten Rahmen η zeitlich verketten. Die zeitliche Verkettung für den Rahmen n=l wird unter Ansprechen auf das Signal DST von der Steuerung 430 gestartet .
Der DTW-Prozessor 207 kann eine Anordnung enthalten,
wie sie in der Veröffentlichung "Microproducts Hardware System Reference" der Data General Corporation, Westboro, Massachusetts, 1979, beschrieben ist, oder andere Prozessorsysteme bekannter Art. Der Prozessor 207 kann die Micro Nova MPlOO-System-Prozessoreinheit, den dynamischen RAM-Speicher MPIlO 4K/8K, den programmierbaren RAM-Speicher MP/100 8K und eine oder mehrere digitale I/O-Schnittstelleneinheiten Modell 4222 enthalten. Die Operationsfolge des Prozessors 207 wird durch die permanent im Festwertspeicher des Prozessors abgelegten Befehle bestimmt. Diese Befehle sind in der Programmiersprache FORTRAN im Anhang G angegeben. Der Prozessor 20 7 führt entsprechend den dauernd gespeicherten Befehlen gemäß Anhang G die dynamischen Zeitverkettungsoperationen nach Gleichung (7) für jeden Sprachmusterabschnitt-Rahmen η durch. Jede Rahmen-Zeitausrichtoperation wird durch das Signal DST gestartet. Die Auswahl der Bezugswortrahmen für die zeitliche Ausrichtung erfolgt gemäß Gleichung (7) unter Abänderung abhängig von den Signalen Rl und R2.
Der Prozessor 20 7 liefert das Signal d1 entsprechend dem Wegabstand der augenblicklichen Stufe für den Rahmen n=l, das Signal M , das dem Bezugswortrahmen der unteren Grenze entspricht, das Signal M„, das dem Bezugswortrahmen
der oberen Grenze entspricht, das Signal SFN, das dem Anfangsrahmen des Ausrichtungswegs entspricht, und das Signal d , das dem kumulativen Abstand des Zeitausrich-
tungswegs von dem Sprachäußerungssegment-Anfangsrahmen entspricht.
Am Ende der DTW-Operation des Prozessors 207 für den Rahmen n=l legt der Prozessor das Signal DDN an die DTW-Steuerung 430. Das Signal d1 vom Prozessor 20 7 wird mit dem Signal T(n) für den Rahmen 1 vorn Festwertspeicher 509 im Komparator 511 verglichen. Für d'(l) <T(1) wird der Ausgang AB des Komparators abgeschaltet. Zu diesem Zeitpunkt wird der Bezugswortrahmen der oberen Grenze für die Zeitverkettung M„ vom Prozessor 20 7 ausgegeben
und im Komparator 520 mit dem Endrahmen M. des Bezugsworts w. aus dem Speicher 205 verglichen. Der Ausgang EP des Komparators 520 bleibt abgeschaltet, da M M. ist. Unter Ansprechen auf das Signal DDN und die abgeschalteten Signale EP und AB erzeugt die Steuerung 430 das Signal FSI, das die Zähler 503 und 505 auf den Zustand n=2 weiterschaltet, und außerdem das Signal DST, um die DTW-Operation für den Rahmen n=2 im Prozessor 20 7 zu starten.
Im Flußdiagramm gemäß Fig. 10 wird entsprechend dem Ent-Scheidungskästchen 1020 d' mit T bei jeder Zeitverkettungsoperation verglichen und in das Entscheidungskästchen 1025 eingetreten, um den oberen Bezugsrahmen M„ mit dem
Bezugswort-Endrahmen M zu vergleichen. Wenn das Entscheidungskästchen 1025 mit der Angabe "Nein" verlassen wird, tritt man in das Entscheidungskästchen 1040 ein. Dort wird das Bezugswort-Rahmensignal MT der unteren Grenze mit dem Bezugswort-Endrahmen M verglichen,und
der Sprachäußerungsrahmen η wird mit dem Sprachäußerungs-
Endrahmen N.. verglichen. Wenn entweder M = M oder M w
η j> N i&t, so ist das Ende des Sprachmustersegments für die Stufe erreicht. Die Zeitausrichtungsoperationen für das Bezugswort werden dann entsprechend dem Index-Abänderungskästchen 1050 beendet, wie oben beschrieben. Im anderen Fall wird der Sprachmusterrahmen η entsprechend dem Index-Kästchen 1045 weitergeschaltet.
Wenn der Stufen-Wegabstand d'(n) bis zu und einschließlich des Rahmens η kleiner als der im Festwertspeicher 509 festgelegte Schwellenwert T(n) ist (Entscheidungskästchen
1020) und der Bezugsrahmen Mu der oberen Grenze gleigh
L oder größer als der letzte Bezugswortrahmen M
4 ist (Entscheidungskästchen 1025), so ist ein gültiger Zeitausrichtungsweg festgestellt worden. Das kumulative Wegabstandssignal d (n) vom Prozessor 207
s ^,
wird dann mit dem kumulativen Abstandssignal d verglichen, das vorher an der η-ten Rahmenstelle des Stufenspeichers
abgelegt worden ist. Wenn d (n) < d(n) ist. ersetzt das kumulative Abstandssignal d (n) vom Prozessor das Abstandssignal d(n) im Speicherabschnitt 210-2, beginnend mit dem Rahmensignal SPN(n) vom Prozessor, das das Signal SFN(n) im Speicherabschnitt 210-1 ersetzt hat. Die Ersetzung gemäß Kästchen 1035 findet statt, da der zuletzt bestimmte Weg einem besseren Bezugswort-Kandidatenweg entspricht, der beim Rahmen η endet. Wenn jedoch d (n) ä(n) ist, so ist der vorher bestimmte Weg der bessere Kandidat, und es wird aus dem Kästchen 1030 in das Entscheidungskästchen 1040 eingetreten.
Bei dem Ausführungsbeispiel ist M ^L M w beim Rahmen n=29 der ersten Stufe und d (29) =15,2 ist kleiner als d(29) = LPN. Demgemäß wird d(29) zu 15,2 und SFN(29) wird 1. Nach der Ersetzung gemäß Kästchen 1035 wird der Bezugsrahmen M. der unteren Grenze vom DTW-Prozessor mit dem Bezugswort-Endrahmen M verglichen , und der Sprachäußerungsrahmen η wird mit dem Sprachaußerungs-Endrahmen N gemäß Entscheidungskästchen 1040 verglichen, um festzustellen, ob die Grenzen des Sprachmustersegments der Stufe erreicht worden sind. Wenn die untere Grenze
MT > M oder η > N ist, so ist die Stufen-DTW-Verarbei-L — w — m
tung für das Bezugswort "Vier" beendet, und man tritt in das Indexkästchen 1050 ein. Im anderen Fall wird der Sprachäußerungsrahmen weitergeschaltet (Kästchen 1045), und die Zeitverkettung für den nächsten Rahmen wird begonnen.
Bei der Schaltung nach Fig. 2 und 3 wird die dynamische Zeitverkettung der Merkmale des Bezugswortes "Vier" mit den Sprachäußerungsmerkmalen für aufeinander folgende Äußerungsrahmen nach n=l im Prozessor 20 7 durchgeführt. Am Ende der DTW-Operation für den Äußerungsrahmen n=29 wird das Bezugsrahmensignal M„ der oberen Grenze vom
L Prozessor 20 7 gleich dem Signal M. vom Bezugsmerkmalsspeicher 205, was bedeutet, daß ein Endpunkt erreicht i«t.
9 If
m 0 * ·
-46-
Die Signale M und M. gelangen zum Komparator 520, der jetzt betätigt wird. Das Signal EP vom Komparator 520 wird der DTW-Steuerung 4 30 zugeführt. Unter Ansprechen auf das Signal EP schaltet die Steuerung 430 das Signal C aus und das Signal E ein. Dann wird der Komparator 301 in Fig. 3 unter Ansprechen darauf betätigt, daß das akkumulierte Abstandssignal d (29) =15,2 vom Prozessor 207 kleiner als das akkumulierte Abstandssignal d=LPN ist, das für den Rahmen 29 im Speicherabschnitt 210-2 der Stufe L+l=l abgelegt ist. Das Ausgangssignal SFN des DTW-Prozessors 207 ist 1 entsprechend dem Anfangsrahmen der ersten Stufe. Das Ausgangssignal d des Prozessors ist 15,2 entsprechend dem kumulativen Abstand , und zwar bis zum Endpunkt n=2 9 der Stufe 1. Das Signal SFN=I wird dem Eingang des Speicherabschnitts 210-1 über das UND-Gatter 2 72 und das ODER-Gatter 286 zugeführt, und das Signal d =15,2 gelangt über das UND-Gatter 280 und das ODER-Gatter 282 an den Eingang des Speicherabschnitts 210-2. Das Ausgangssignal w=4 des Wortzählers 220 wird an den Eingang des Stufenspeicherabschnitts 210-3 über das UND-Gatter 281 angelegt.
Unter Ansprechen darauf, daß das Signal D eingeschaltet ist, wird das Signal WLSC von der Steuerung 430 als Signal WLS an den Schreibbetätigungseingang des Speichers 210 über das ODER-Gatter 465 angelegt. Auf diese Weise werden das Bezugswort-Identifiziersignal w=4 , das kumulative Abstandssignal d =15,2 und der Anfangsrahmencode SFN=I in die Stellen n=29, L=I des Stufenspeichers 210 eingeschrieben. Das Signal WLSC stellt außerdem das Abbruch-Flipflop 290 zurück. Nach dem Ende des Schreibimpulses WLS liefert die Steuerung 430 den Impuls FSI zur Weiterschaltung der Zähler 503 und 505 in Fig.5. Das Signal E ist ausgeschaltet, und das Signal C ist eingeschalter. Das Signal DST von der Steuerung 430 wird dem Prozessor 207 zugeführt, um die dynamische Zeitverkettung für den Sprachäußerungsrahmen n=30 zu starten.
-4 7-
Die dynamische Zeitverkettung für jeden der Äußerungsrahmen 29-40 führt zu einer Endrahmen-Erzeugung für die Stufe L+l=l. Die Beendigung der Zeitverkettung für jeden Äußerungsrahmen wird durch das Signal DDN vom Prozessor 207 angezeigt. Die gleichzeitige Einschaltung des Ende-Signals DDN vom Prozessor 20 7, des Endrahmensignals EP vom Komparator 520 der Rahmenfolgelogik und des Signals DS vom Komparator 301 leitet die Einspeicherung des akkumulierten Abstandssignals d des Endrahmensweges, des Anfangsrahmen-Wegsignals SFN und des Bezugswort-Identifiziersignals w im Stufenspeicher 210 ein, wie mit Bezug auf den Sprachmusterrahmen 29beschrieben. Die DTW-Verarbeitung des Bezugswortes "Vier" für die Rahmen n=29 bis n=40 führt zu Zeitausrichtungswegen, die vom Anfangsrahmen SFN=I ausgehen.
In der Tabelle 1 sind das Wortidentifiziersignal w, das kumulative Abstandssignal d und das Anfangsrahmensignal SFN aufgeführt, die im Stufenspeicher 210 als Ergebnis der Verarbeitung der Rahmen n=29 bis n=40 für die erste Stufe abgelegt worden sind.
Tabelle 1
ή W d SFN η W d SFN
29 4 15,2 1 35 4 14,3 1
30 4 14,4 1 36 4 14,8 1
31 4 13,1 1 37 4 15,1 1
32 4 12,3 1 38 4 15,4 1
33 4 12,6 1 39 4 16,6 1
34 4 13,3 1 40 4 19,1 1
Während der dynamischen Zeitverkettung der Merkmale des Bezugswortes "Vier" und des Äußerungssegments der ersten Stufe für den Äußerungsrahmen n=41 übersteigt das Signal d1 vom Prozessor 207 das maximale, im Festwertspeicher 509 erzeugte Schwellenwertsignal ohne Erzeugung eines Endpunktsignals EP. Demgemäß wird ein Abbruchsignal AR
vom Komparator 511 erhalten. Dieses Signal veranlaßt die Steuerung 430, den Wortzähler 220 mit Hilfe des Impulses IWl weiterzuschalten, und stellt den Zähler 503 auf den Anfangsrahmen im Zwischenspeicher 501 mit Hilfe des Signals FSR zurück, so daß die dynamische Zeitverkettung für das Bezugswort "Fünf" begonnen wird.
Die dynamische Zeitverkettung der akustischen Bezugswortmerkmale mit den Sprachmustersegmentmerkmalen der ersten Stufe entsprechend dem Flußdiagramm in Fig. 10 wird wiederholt für die Bezugswörter "Fünf", "Sechs", "Sieben", "Acht" und "Neun". Bei dem Ausführungsbeispiel hört jeweils die DTW-Verarbeitung für diese Bezugswörter über das Entscheidungskästchen 20 wegen der Unähnlichkeit zwischen dom Bozugswort und den Sprachaußerungsmerkmals-Signalen auf. Demgemäß gibt Tabelle 1 die Zeitausrichtungswege an, die bei der DTW-Verarbeitung der ersten Stufe bestimmt worden sind. Jedesmal dann, wenn der Bezugswortindex gemäß Kästchen 1050 weitergeschaltet worden ist, wird gemäß Kästchen 1055 bestimmt, ob das letzte Bezugswort verarbeitet worden ist. Nach der Verarbeitung der Merkmale des letzten Bezugswortes wird das Abbruchmerkzeichen gemäß Entscheidungskästchen 1060 überprüft. Wenn - wie beim Ausführungsbeispiel - das Abbruchmerkzeichen zurückgestellt ist, wurde ein gültiger Zeitausrichtweg bestimmt, und die Stufe L wird entsprechend dem Indexkästchen 1065 weitergeschaltet. Wenn das Abbruchmerkzeichen gesetzt bleibt, ist kein gültiger Weg für diese Stufe bestimmt worden. Demgemäß ist kein möglicher Zeitausrichtweg für die nachfolgende Stufe vorhanden.
Wenn die erste Stufe keinen gültigen Weg hat, tritt man über das Entscheidungskästchen 1075 in das Wiederholungskästchen 1080 ein, und der Sprecher wird gebeten, seine Sprachäußerung zu wiederholen. Das Signal RPT wird durch die Folgesteuerschaltung 400 unter Ansprechen auf das Signal ABFF vom Flipflop 291 erzeugt. Das Signal RPT veranlaßt den Nachrichten-Synthetisierer 295 , eine synthetisierte Nachricht zu erzeugen, die den Sprecher veran-
laßt, seine Sprachäußerung zu wiederholen. Wenn bei den nachfolgenden Stufen kein gültiger Weg vorhanden ist, werden die Sprachäußerungs-Kandidaten auf der Grundlage der bereits gespeicherten Wegsignale ausgewertet. Für 5. die Sprachäußerung 4453 wird die Stufe L auf L=I weitergeschaltet, und man tritt über das Entscheidungskästchen 1070 in die Bereichseinsteil-Betriebsweise ein, die im Flußdiagramm gemäß Fig. 11 dargestellt ist.
Wie oben beschrieben, kann das für die Zeitausrichtung auf jeder Stufe gewählte Sprachmustersegment über den gesamten Bereich von Endrahmen erstreckt werden, die für die vorhergehende Stufe bestimmt worden sind. Es wurde jedoch gefunden, daß die End-rahmen an den äußersten Enden eines Stufen-Sprachmustersegments im allgemeinen sehr große kumulative Abstandssignale d haben. Demgemäß sind die über diese Endpunkte erzeugten Wege sehr unwahrscheinlich. Entsprechend der Erfindung wird der Bereich der Anfangsrahmen SFN für jede Stufe beschränkt auf
■ < MT(d )/n, , um diese sehr unwahrscheinlichen Wege η — pd
zu eliminieren. MT ist ein fester Bereichsfaktor und
pd das normierte , minimale , kumulative Abstandssignal, das bei der Verarbeitung der vorhergehenden Stufe erhalten worden ist. Im einzelnen werden die Endpunkte einer Stufe nach der DTW-Verarbeitung der Stufe abgetastet, um den minimalen, normalisierten, kumulativen Abstand « und den entsprechenden Endpunkt η zu bestimmen.
Es wird dann dieser Abstandswert d /n, benutzt, um den
P P Bereich des Anfangsrahmens für die DTW-Verarbeitung der
nachfolgenden Stufe zu begrenzen.
Die Bestimmung des minimalen, normalisierten Abstandssignals und des ihm entsprechenden Rahmens ist im Flußdiagramm gemäß Fig. 11 dargestellt und wird mit der Schaltung gemäß Fig. 2 und 3 unter Steuerung des Bereichs-Steuergeräts 440 durchgeführt. Die Bereichseinstelloperationen werden abhängig vom Signal EC von der Steuerung
430 eingeleitet, das bei der Bestimmung der DTW-Stufenverarbeitungsbetriebsweise auftritt. Unter Ansprechen auf das Signal EC erzeugt die Folgesteuerschaltung 400 den Startimpuls SD. Dieser wird der Bereichssteuerung 440 zugeführt, die zu Anfang die Impulse SNlD, SLPN und das Steuersignal BF erzeugt. Der Impuls SNlD stellt über das ODER-Gatter 461 den Anfangsrahmenzähler 230 zurück, so daß das Signal η =1 entsprechend dem Index-Einstell-
kästchen 1110 in Fig. 11 ist. Der Impuls SLPN von der Steuerung 440 führt ein Signal d =LPN in den Zwischenspeicher 309 ein, während der Impuls SLTl ein Signal 1 in den Zwischenspeicher 320 gibt (Index-Einstellkästchen 1120). Das ODER-Gatter 469 liefert ein Signal B an die Adressenlogik 290 in Fig. 2 , und zwar unter Ansprechen auf das Signal BF von der Steuerung 440. Das Signal B bereitet das UND-Gatter 233 über das ODER-Gatter 231 und außerdem das UND-Gatter 258 über das ODER-Gatter 252 vor. Auf diese Weise werden das Abtast-Rahmenausgangsignal des Anfangsrahmenzählers 230 als Signal η und das Stufensignal L=I vom Stufenzahler 250 als Signal L an die Adresseneingänge des Stufenspeichers 210 geliefert.
Der Komparator 311 vergleicht das normalisierte , kumulative Abstandsausgangssignal d(n )/n vom Teiler 335 ,
S S
Abschnitt 210-2, entsprechend dem Entscheidungskästchen 1130 mit dem Ausgangssignal (d /n, ) des Zwischenspeichers 309. Der Teiler 335 kann eine integrierte, arithmetische Prozessoreinheit AM9511 der Fa. Advanced Micro Devices enthalten. Falls das Signal d(n )/n kleiner als das
S S
Ausgangssignal d /n, des Zwischenspeichers 309 ist,
wird der Ausgang DL p des !Comparators 311 eingeschaltet. Dadurch wird das Signal d(n )/n vom Speicherabschnitt
s s
210-2 in den Zwischenspeicher 309 gegeben, während entsprechend dem Kästchen 1140 der entsprechende Rahmen η in den Zwischenspeicher 320 gegeben wird. Boi Abwesenheit eines Signals DL vom Komparator 311 bleibt der
-51-
Inhalt der Zwischenspeicher 309 und 320 unverändert. Die Steuerung 440 erzeugt dann den Impuls INlD, der dem Anfangsrahmenzähler 230 über das ODER-Gatter 463 zugeführt wird, um entsprechend dem Index-Kästchen 1150 den Abtastrahmen η weiterzuschalten. Wenn der weitergeschaltete Rahmen η der Endrahmen der Sprachäußerung ist, (Entscheidungskästchen 1160), so liefert der Anfangsrahmenzähler 230 das Signal NMS, um die Bereichseinstelloperation zu beenden, indem die Bereichssteuerung 430 veranlaßt wird, das Endesignal ED zu erzeugen.
Während der Folge von Bereichsabtastoperationen wird der Wert η vom Rahmenzähler 230 über das UND-Gatter
324 und das ODER-Gatter 326 einem Eingang des Subtrahierers 330 zugeführt. Dieser erzeugt das Signal Nm - n, .
Der Komparator 332 liefert das Signal DE, wenn das " Signal n, entsprechend dem Entscheidungskästchen 1170 im Endrahinenbereich öEND liegt. Wenn das Signal DE eingeschaltet ist, stellt der Minimalabstandsrahmen nd einen gültigen Endrahmen für die Verarbeitung der Stufe "
dar, und die Verarbeitung wird beendet. Für die Stufe
L-I ist das minimale, normierte Abstandssignal im Zwischenspeicher 309 aus Tabelle 1 d /nd = i|^· = 0,382 und der zugehörige n, -Rahmen ist 33. Folglich wird das Signal DE am Ausging des Komparators 332 nicht eingeschaltet, und es wird die Einleitungsbetriebsweise entsprechend dem Flußdiagramm in Fig. 8 gestartet.
Das Signal ED von der Bereichssteuerung 440 und das Signal DE vom Komparator 332 werden am Ende der Bereichseinstellbetriebsweise der Folgesteuerung 400 zugeführt. Diese startet die Einleitungsbetriebsweise für die zweite Stufe durch Erzeugung des Steuerimpulses SI, der die Stufen-Betriebseinleitungssteuerung 410 aktiviert. In der Steuerung 410 werden unter Ansprechen auf den Impuls SI das Steuersignal I und der Steuerimpuls SNlI erzeugt. Wie oben mit Bezug auf die Betriebseinleitung der ersten
Stufe beschrieben worden ist, veranlaßt das Signal I die Stufenspeicher-Adressierlogik 290, Rahmenabtastsignale vom Rahmenzähler 230 und das Stufensignal L+l=2 vom Stufenzähler 250 den Adresseneingängen des Stufenspeichers
"5 210 zuzuführen. Das Signal bereitet außerdem die Gatter 274 und 284 vor, wodurch ein LPN-Code dem Eingang des Stufenspeicherabschnitts 210-2 und ein Null-Code dem Eingang des Stufenspeicherabschnitts 210-1 zugeführt werden. Der Rahmenzähler 230 wird durch den Impuls SNl vom ODER-Gatter 461 entsprechend dem Index-Einstellkästchen 810 in Fig. 1 auf den Zustand η =1 zurückgestellt. Die Rahmenstellen η der zweiten Stufe für die Stufe L+l=2 werden dann entsprechend dem Kästchen 820, 830 und 840 nacheinander abgeändert.
Zu Anfang adressiert das Signal η =1 vom Rahmenzähler
230 den ersten Sprachäußerungsrahmen η =1 der Stufe L+l=2
im Speicher 210. Der Code LPlSI wird in den Abschnitt 210-2 und der Code "Null" in den Speicherabschnitt 210-1 eingegeben, und zwar unter Ansprechen auf den Schreibbetätigungsimpuls WLS, der aus dem Ausgangssteuerimpuls WLSI der Steuerung 410 abgeleitet wird. Dann wird entsprechend dem Index-Kästchen 830 in Fig. 8 durch einen Impuls INlI von der Steuerung 410 der Rahmenzähler 230 weitergeschaltet. Das Einschreiben wird für die nachfolgenden Signale η vom Rahmenzähler 230 wiederholt, so lange das Signal η den Sprachäußerungs-Endrahmen N nicht übersteigt (Entscheidungskästchen 840). Wenn η =n ist, wird das Signal NMS vom Rahmenzähler 230 eingeschaltet. Die Steuerung 410 liefert dann den Ende-Impuls EI, um die Einleitungsbetriebsweise zu beenden.
Die im Flußdiagramm gemäß Fig. 9 dargestellte Abtastbetriebsweise wird unter Steuerung der Abtaststeuerung 420 durchgeführt. Die Steuerung 420 wird durch einen Steuerimpuls SB von der Folgesteuerschaltung 400 durch den Ende-Impuls KI aktiviert. Am Anfang der Abt.asthe t riofos-weise wird die Adressierlogik 290 veranlaßt, dar, Signa]
η vom Rahmenzähler 230 und das Signal L vom Stufcnzahler 250 mittels dos Signals BB vom Steuergerät 4 20 an die Adresseneingänge des Stufenspeichers 210 anzulegen. Der Impuls SNM stellt den Rahmenzähler 230 auf den Zustand η =n ein (Indexkästchen 910). Die Signale d(N ) und s m m
SFN(N ) vom Stufenspeicher 210 werden dem Teiler 355 bzw. dem UND-Gatter 335 zugeführt. Das Signal MT ist dauernd auf 1,2 eingestellt. Der Teiler 335 erzeugt das Signal d(Nm)/N = LPN/128 f das mit dem Ausgangssignal des Multiplizierers 303 (1,2 d /nd = 0,458) verglichen wird. Der Multiplizierer 303 kann p eine integrierte Schaltung AM 9511 der obenangegebenen Art sein. Das Signal a(Nm)/N übersteigt das Multipliziererausgangssignal. Das Signal DMT vom Komparator 305 wird nicht eingeschaltet, und das Signal DMTA vom UND-Gatter 381 bleibt abgeschaltet (Entscheidungskästchen 912). Unter Ansprechen auf das abgeschaltete DMTA-Signal vom UND-Gatter 381 liefert die Steuerung 420 einen Impuls DNl, der den Rahmenzähler 230 zurückschaltet. Das Rückschalten des Zählers findet unter Ansprechen auf ein abgeschaltetes DMTA-Signal für die aufeinander folgenden Rahmen N , N , usw.statt, bis ein Rahmen η erreicht ist, für den gilt: d (n )/n _< 0,458. Dies findet statt im Rahmen η = 39 , für den gilt: SFN(39) φ 0 und d(ns)/n = 0,426.
Es wird dann das Signal DMTA vom Gatter 381 eingeschaltet. Das Signal η =39 wird unter Ansprechen auf die Signale DMTA und BD in den Zwischenspeicher 350 eingegeben (Kästchen 920). Das Signal η wird über das Gatter 383 einem Eingang des Komparators 385 zugeführt. Falls n<0 ist, wird das Signal NSO betätigt. Unter Ansprechen auf das Signal NSO erzeugt die Abtaststeuerung 420 ein Signal RPT. Das Signal RPT schaltet den Nachrichten-Synthetisierer 295 ein,und der Sprecher wird aufgefordert, seine Sprachäußerung zu wiederholen. In der Steuerung 420 wird durch das Signal DMTA das Signal BD abgeschaltet und das Signal BU eingeschaltet.
Der über das ODER-Gatter 461 von der Steuerung 420 züge-
führte Impuls SNlB stellt entsprechend dem Index-Einstellkästchen 922 in Fig. 9 den Zähler 230 in den Zustand n,=l zurück, so daß die Signale d(l) und SFN(I) auf den Leitungen 211-2 bzw. 211-1 zur Verfügung stehen. Entsprechend dem Entscheidungskästchen 924 wird das Signal d(ng)/MD mit dem Bereichseinstellfaktor (MT)-(dp/n, ) verglichen, und der Anfangsrahmen SFN(n ) wird mit
Null verglichen, um festzustellen, ob der augenblickliche Abtastrahmen η innerhalb des vorgeschriebenen Bereichs liegt. Das während der Verarbeitung der Stufe 1 gewonnene,
minimale, normierte Abstandssignal —E— = - = 0,382
nd wird im Zwischenspeicher 309 in Fig.3^ abgelegt.
Das Signal —S— wird im Multiplizierer 303 mit dem Bereichs-
faktor MT=I,2 multipliziert, und das Ausgangssignal des Multiplizierers wird einem Eingang des Komparators zugeführt. Das Signal d(l)/I=LPN vom Teiler 355 gelangt an den anderen Eingang des Komparators 305. Der Ausgang des Komparators 305 wird nicht betätigt. Das Signal SFN(I)=O wird einem Eingang des Komparators 338 über das UND-Gatter 335 und das ODER-Gatter 337 zugeführt. Der Ausgang des Komparators 338 wird nicht betätigt, weil das Signal SPN nicht größer als Null ist. Demgemäß bleibt das Signal DMTA vom UND-Gatter 381 abgeschaltet. Zu diesem Zeitpunkt erzeugt die Steuerung 420 das Signal INlB, das den Rahmenzähler 230 über das ODER-Gatter weiterschaltet. Auf diese Weise wird das Signal η vom Rahmenzähle.r 230 entsprechend dem Index-Änderungskästchen 930 in Fig. 9 auf Zwei eingestellt.
Die Signale d vom Stufenspeicherabschnitt 210-2 haben den Wert LPN , bis der Rahmen η =29 erreicht ist. Das Signal ä(n )/n für den Rahmen η =29 ist 15,2/29=0,524,
ss a s
und das entsprechende SFN-Signal ist Eins. Wenn die Stellen η =29 des Stufenspeichers 210 adressiert werden, bleibt der Komparator 305 abgeschaltet, und der Komparator
-55-
338 wird betätigt. Das Signal DMTA bleibt abgeschaltet, und der Rahmenzähler 230 wird auf no=30 weitergeschaltet.
Beim Rahmen η =31 wird das Signal DMTA vom UND-Gatter
s ^ γι ("31 )
331 unter Ansprechen auf SFN(3I)=I und = 0,423 der Steuerung 420 zugeführt, und die-: Abtastbetriebsweise der zweiten Stufe wird durch Erzeugung des Signals EB in der Steuerung 420 beendet. Der Impuls EB veranlaßt die Folgesteuerschaltung 400, die Steuerimpulse FSL und SC zu erzeugen. Der Impuls FSL stellt das Abbruch-Flipflop 291 ein und überträgt den Code η =31 in'den Zwischenspeicher 501 in Fig. 5. In diesem Rahmen wird die dynamische Zeitverkettungsverarbeitung der zweiten Stufe gestartet. Das Signal SC veranlaßt die DTW-Steuerung 440, die DTW-Verarbeitung für die zweite Stufe entsprechend dem Flußdiagramm in Fig. 10 einzuleiten.
Bei der DTW-Verarbeitung der zweiten Stufe erstreckt sich der Bereich der Sprachmustersegment-Anfangsrahmen
vom Rahmen η =31 zum Rahmen η =3 9. Zu Anfang werden die s s
Steuerimpulse SWl und FSR sowie das Steuersignal C von der Steuerung 430 unter Ansprechen auf den Impuls SC von der Folgesteuerschaltung 400 geliefert. Der Impuls SWl stellt entsprechend dem Index-Kästchen 1005 in Fig.10 den Wortzähler 220 auf w=wQ zurück. Der Impuls FSR überträgt den Code η =31 vom Zwischenspeicher 501 zum Zähler 503 (Kästchen 1010) und stellt den Zähler 505 auf Eins zurück. Das Signal C veranlaßt die Adressierlogik 290, das Rahmensignal vom Zähler 503 und das Stufensignal L=I vom Stufenzähler 250 an die Adressensteuereingänge η und L des Stufenspeichers 210 anzulegen.
Es wird dann das Signal DST von der Steuerung 430 an den DTW-Prozessor 207 gegeben, um die dynamische Zeitverkettung zwischen den Sprachmustersegment-Merkmalssignalen des Äußerungsrahmens 31 im Speicher 203 und den Merkmals~ Signalen für das Bezugswort Null im Bezugswortspeicher 205 zu starten. Die Zeitausrichtungsverarbeitung des Prozessors 207 schrei tot entsprechend dem Kästchen 1015
in Pig. 10 weiter, wie mit Bezug auf die Verarbeitung der ersten Stufe beschrieben worden ist. Wegen der Unähnlichkeit der Merkmalssignale für das Bezugswort "Null" mit dem Sprachaußerungssegment der zweiten Stufe wird die dynamische Zeitverkettung entsprechend dem Entscheidungskastchen 1020 abgebrochen, bevor entsprechend dem Entscheidungskästchen 1025 ein Endpunkt erreicht ist. Demgemäß werden keine Abstandssignale oder Anfangsrahmensignale für das Eezugswort "Null" im Stufenspeicher 210 abgelegt.
Unter Ansprechen auf das Signal AB vom Komparator 511 und das Signal DDN vom Prozessor 207 zum Zeitpunkt des Abbruchs erzeugt der Prozessor 430 dem Impuls IWl. Dieser schaltet entsprechend dem Index-Kästchen 1050 den Wortzähler 220 weiter, so daß die DTW-Verarbeitung für das Bezugswort "Eins" gestartet werden kann. Es wird das Signal FSR erzeugt und der Zähler 503 auf den Anfangsrahmencode n=31 sowie der Zähler 505 auf den ersten Zustand zurückgestellt. Die DTW-Verarbeitung für das Bezugswort "Eins" wird ausgehend vom Rahmen n=31 für jeden Sprachäußerungsrahmen unter Ansprechen auf nachfolgende Startimpulse DST von der Steuerung 430 , Ende-Impulse DDN vom Prozessor 207 und Weiterschaltimpulse FSI von der Steuerung 430 durchgeführt. Die Operationen folgen der Schleife mit dem Kästchen 1015 , den Entscheidungskastchen 1020, 1025 und 1040 sowie dem Index-Änderungskästchen 1045 in Fig. 10, bis der Sprachäußerungsrahmen 71 verarbeitet wird.
Beim Äußerungsrahmen 71 ist das Bezugswort-Rahmensignal Mu für die obere Grenze vom DTW-Prozessor 207 größer
als der Bezugswort-Endrahmen M1 für das Bezugswort "Eins".
Das Signal EP, nämlich die Endrahmenangabe, wird vom Komparator 520 in Fig.5 entsprechend dem Entscheidungskastchen 1025 erzeugt. Das Signal EP wird durch die Steuerung 430 erzeugt und dann in das Entscheidungskästchen 1030 eingetreten. Das kumulative Abstandssignal d
- * Λ Λ 1 »
-57-
für den Rahmen 71 im Stufenspeicherabschnitt 210-2 wird zum Komparator 301 gegeben und das kumulative DTW-Abstandssignal d vom Prozessor 20 7 wird dem anderen Eingang des Komparators 301 zugeführt. Das Signal d =41,2 ist kleiner als d=LPN .
Das Signal E verändert die Adressierlogik 290 so, daß der Rahmen n=71 der Stellen für die Stufe L+l=2 im Stufenspeicher 210 adressiert werden. Das Signal DS vom Komparator 301 wird eingeschaltet, und die Steuerung 430 erzeugt das Signal WLSC. Es werden dann das kumulative Abstandssignal d (71)= 41,2 und der Anfangsrahmencode SFN(71)=38 über die UND-Gatter 280 bzw. 274 in den Stufenspeicher 210 gegeben, und zwar unter Ansprechen auf das Schreibbetätigungssignal WLS. Das Identifiziersignal für das Bezugswort "Eins" wird über das UND-Gatter 281 in den Stufenspeicher 210 gegeben. Wenn die Einspeicherung der Signale d und SFN entsprechend dem Kästchen 1035 beendet i.st, wird wiederum in das Kästchen 1015 für den Rahmen n=72 eingetreten, und zwar über das Entscheidungskästchen 1040 und das Indexkästchen 1045. Auf entsprechende. Weise wird ein Impuls EP für jeden der Sprachäußerungsrahmen 72 und 73 erzeugt. Das kumulative Abstandssignal d =35,2
für den Rahmen n=72 und der· Anfangsrahmencode SFN=38 vom Prozessor 207 werden in die Stufe L+l=2 des Speichers 210 eingegeben. Für den Sprachäußerungsrahmen 73 werden das kumulative Abstandssignal d =39,1 und das Signal
SFN=38 vom Prozessor 20 7 in die Stufe L+l=2 des Speichers entsprechend dem Kästchen 1035 eingeschrieben.
Nach der Verarbeitung für den Rahmen n=73 führt die dynamische Zeitverkettung entsprechend dem Kästchen 1015 zu einem Abbruchsignal AB vom Komparator 511 (Entscheidungskästchen 1020). Bei Erzeugung des Signals AB wird der Wortzähler 220 entsprechend dem Indexkästchen 1050 durch das Signal IWl weitergeschaltet. Der Zähler 50 3 wird entsprechend dem Kästchen 1010 auf den Rahmen n=31
zurückgestellt , und die dynamische Zeitverkettung für das Bezugswort "Zwei" wird unter Steuerung der Steuerschaltung 430 gestartet.
Die DTW-Verarbeitung des Dezugswort.es "Zwei" für die zweite Stufe führt zu Zeitausrichtungswegen, die bei den Sprachmus ter.sogmen L-Rahmen 47 bis 60 endr-n. Eine Teilaufstellung der kumulativen Abstandssignale d und
der Anfangsrahmensignale SFN für diese Endrahmen ist in Tabelle 2 angegeben.
2 47 Tabelle 2 w=2 48 53
Stufe 25, 26,1 27,5
Ne nd 32 32 32
d
s
5
SFN
Für jeden dieser Sprachäußerungsrahmen betrug das vorher im Speicher 210-2 gespeicherte Abstandssicjno 1 d r= LPN. Das kumulative Abstandssignal vom Prozessor 20 7 läßt den Komparator 301 ansprechen, wodurch das kumulative Abstandssignal und die Anfangsrahmencodierungen vom Prozessor 207 unter Ansprechen auf Signale E und WLSC von der Steuerung 430 in den Stufenspeicher 210 gegeben werden.
Die DTW-Verarbeitung für das Bezugswort "Zwei" wird am Ende der Operation des Prozessors 207 für den Sprachmustersegmentrahmen n=60 beendet, nachdem das Signal EP vom Komparator 520 erzeugt (Kästchen 1025) und die Signale d,(60) und SFN(60) vom Prozessor in den Stufenspeicher 210 gegeben worden sind (Kästchen 1035). Dann wird der Komparator 522 betätigt, und zwar unter Ansprechen darauf, daß der Bezugswortrahmen M der unteren Grenze gleich dem Endrahmen M des Bezugswortes ist. Nach Durchführung der Änderungen im Stufenspeicher für den Außerungsrahmen 60 wird das Signal DN erzeugt.
β · A ·
-59-
Das Signal DN vom ODER-Gatter 528 veranlaßt die DTW-Steuerung 430, die dynamische Zeitverkettung für das Bezugswort "Drei" entsprechend den Index-Einstellkästchen 1050, 1055 und 1010 durchzuführen. Die Steuerung 430 erzeugt den Impuls IWl , der den Wortzähler 220 auf den Zustand W=W^ weiterschaltet, sowie den Impuls FSR. Der Impuls FSR überträgt das Signal n=31 im Zwischenspeicher 501 zum Zähler 503 und stellt den Zähler 505 in seinen ersten ' Zustand zurück. Der Impuls FSR stellt außerdem das Flipflop 3 70 ein, um das Signal DMTR einzuschalten. Der DTW-Prozessor 20 7 wählt nacheinander Zeitausrichtungswege unter Ansprechen auf die Merkmalssignale für das Bezugswort "Drei" aus dem Speicher 205 und die Sprachmustersegment-Merkmalssignale für diejenigen Rahmen, welche durch den Zähler 503 entsprechend dem Kästchen 1015 adressiert werden.
Die Verarbeitung der nächfolgenden Rahmen, ausgehend vom Rahmen n=31, folgt der Schleife, die das Kästchen 1015, die Entscheidungskästchen 1020, 1025, 1040 und das Index-Einstellkästchen 1045 in Fig. 10 umfaßt, und zwar ohne Erzeugung des Signals EP, bis das Signal d1 vom Prozessor 207 das Schwellenwertsignal am Ausgang des Festwertspeichers 509 übersteigt. Wegen der Unähnlichkeit der Merkmalssignale des Bezugswortes "Drei" und derjenigen des Sprachmustersegments für die zweite Stufe wird kein Ausrichtungsendpunkt im Komparator 520 festgestellt, bevor das Abbruchsignal AB im Komparator 511 eingeschaltet wird. Unter Ansprechen auf das Signal AB vom Komparator 511 und das Signal DDN vom Prozessor 207 in demjenigen Rahmen, in welchem die Abbruchbedingungen auftreten, leitet die Steuerung 430 die DTW-Verarbeitung für das Bezugswort "Vier" durch Erzeugung der Signale IWl und FSR entsprechend den Index-Einstellkästcheri 1050, 1055 und 1010 ein.
In Tabelle 3 sind die Endpunkte der Zeitausrichtungswege
-60-
angegeben, die während der DTW-Verarbeitung für das Bezugswort "Vier" erzeugt werden.
Tabelle 3
Stufe 2 w=4
Nend 59 60 64 71 72 73 98 99
d 31,2 216,3—29,2—39,1 37,1 35,9—54,9 57,1 SFN 34 34 32 32 32 . 32 32 32
Am Ende der DTW-Verarbeitung für den Sprachmusterrahmen n=59 im Prozessor 207 wird das Signal d=30,0 vom Stufenspeicher-abschnitt 210-2 mit dem vom Prozessor 207 gewonnenen Signal d im Komparator 301 verglichen. Da das Signal d = 30,0 (Tabelle 2) kleiner als das Signal d =31,2
(Tabelle 3} ist, wird der Komparator 301 nicht erregt, und die DTW-Verarbeitung für den Rahmen 60 wird ohne Einschreiben der Signale d und SFN für den Rahmen 59 vom Stufenprozessor 207 eingeleitet. Im Ergebnis hält der Stufenspeicher 210 die Codierungen w=2 , d=30,0 und SFN=32 fest, die vorher bei der Verarbeitung des Sprachäußerungsrahmens n=59 für das Bezugswort "Zwei" eingeschrieben worden sind.
Das bei der Verarbeitung im Rahmen n=60 für das Bezugswort "Vier" erzeugte Signal EP bewirkt das Einschreiben der Codierungen d =26,3 und SFN=34 vom Prozessor 207
in den Stufenspeicher 210. Dies geschieht deswegen, weil das Signal d =26,3 (Tabelle 3) kleiner als das Signal d= 31,2 (Tabelle 2) ist, das vorher während der DTW-Verarbeitung für das Bezugswort "Zwei" in den Stufenspeicher 210 eingegeben worden ist. Auf entsprechende Weise werden die Rahmenwerte n=71 und n=73 für das Bezugswort "Vier" anstelle der für das Bezugswort "Eins" gewonnenen Werte in den Speicher 210 gegeben. Die Werte für den Rahmen n=72 beim Bezugswort "Eins" werden jedoch im Speicher 210 fesgehalten. Entsprechend der Erfindung wird der beste Ausrichtweg für jeden Endrahmen der Stufe im Pegel-
-61-speicher abgelegt.
Nach der DTW-Verarbeitung für den Äußerungsrahmen n=99 wird kein Endrahmen entsprechend dem Entscheidungskästchen 1025 vor Beendigung der DTW-Verarbeitung über das Abbruchs Entscheidungskästchen 1020 oder das Endrahmen-Entscheidungskästchen 1040 erhalten. Unter Ansprechen auf entweder die Signale DDN und AB oder DDN und DN kann in das Wortindex-Einstellkästchen 1050 eingetreten werden, wodurch die Steuerung 430 Impulse Wl und FSR erzeugt, um.die DTW-Verarbeitung für das Bezugswort "Fünf" zu erzeugen.
Die Verarbeitung für das Bezugswort "Fünf" führt zu Ze.itausrichtungswogen, die bei Äußerungsrahinen 90 bis 102 entsprechend der Auflistung in Ta bei He 4 enden.
Tabelle 4
Stufe 2 w=5
End 98 99 100 101 102
d ■ 55,9 56,6 57,8 59,4 61
S till
SFN 32 32 32 32 32
Zeitausrichtungs-Wegeintragungen werden für die Äußerungsrahmen 98 und 99 des Bezugswortes "Vier" in den Stufenspeicher 210 eingegeben. Bei der DTW-Verarbeitung für das Uuzugswort "FünL" to« Igt1;; I öl I te Worje onden i'bonüi.il 1 r. bei den Rahmen 98 und 99. Mit Bozucj auf den Rahmen 98 ist das kumulative Abstandssignal für das Bezugswort "Vier" kleiner als das für das Bezugswort "Fünf" , und die in Tabelle 3 aufgeführten Signale für den Rahmen werden im Stufenspeicher 210 festgehalten.
Für denÄußerungsrahmen 9 9 ist das in Tabelle 4 aufgeführte Abstandssignal kleiner als das in Tabelle 3. Folglich ersetzen das Abstandssignal d =55,9 und der Anfangsrahmencode SFN=32 am Ausgang des Prozessors 20 7 im Rahmen 99 das Abstandssignal und den Anfangsrahmencode, die für das Bezugswort "Vier" in den Stufenspeicher 210 eingegeben worden sind.
Bei Beendigung der DTW-Verarbeitung für das Bezugswort "Fünf" über das Entscheidungskästchen 1020 oder das Kästchen 1040 wird die Erkennungsschaltung gemäß Fig. 2 und 3 in die Lage versetzt, nacheinander die Bezugswörter "Sechs", "Sieben", "Acht" und "Neun" zu verarbeiten. Die Merkmalssignale für diese Bezugswörter führen jedoch nicht zu Zeitausrichtungswegen,und die Signale d und
SFN für diese Bezugswörter werden nicht in den Stufenspeieher 210 gegeben. Nach Verlassen der DTW-Verarbeitung für das Bezugswort "Neun" über das Abbruch-Entscheidungskästchon .1020 wird der Wortzähler 220 entsprechend dein Wortindex-Einstellkästchen 1050 weitergeschaltet, und es erfolgt ein Eintreten in das Abbruchmerkzeichen-Entscheidungskästchen 1060 über das Letztwort-Entscheidungskästchen 1055 unter Ansprechen auf das Signal W im Wortzähler 220. Das Signal W veranlaßt die Steuerung 400, den Ende-Impuls EC zu erzeugen, der die Abstandsverarbeitung für die Stufe 2 beendet.
Während der DTW-Verarbeitung für jedes Bezugswort steuern die Signale R, und R2 die Operationsbeschränkungen des Prozessors 207. Wie oben erwähnt, ändert sich die Auswahl der Bezugswortrahmen , um einer Coartikulation Rechnung zu tragen. Der Bereich der Anfangsrahmen für die Stufe 2 erstreckt sich vom Äußerungsrahmen 31 bis zum Außerungsrahmen 39. Das Signal DMTR vom Flipflop 370, das nur während des Anfangsrahrnenbereichs auftritt, wird dem UND-Gatter 530 in Fig. 5 zugeführt. Zwischen den Rahmen 31 und 39 ist das Signal DMTR eingeschaltet. Wenn das Bezugswort-Rahmensignal Mr für die untere Grenze vom
Ij
Prozessor 207 kleiner als SRI ist, so wird der zulässige Bezugswort-Rahmenbereich im Prozessor 207 unter Ansprechen auf das Signal R bis zum Bezugsrahmen m=l ausgedehnt. Die Ausgangssignale d und SFN vom Speicher 210 werden dem DTW-Prozessor 207 über die Gatter 242 und 246 zugeführt, so daß der Anfangsrahmen und der Anfangsabstand
-63-
für einen neuen Zeitausrichtweg bei der dynamischen Zeitverkettungsoperation des Prozessors benutzt werden können. Das Signal DMTR begrenzt den Anfangsrahmenbereich der Stufenverarbeitung auf die Zeitausrichtungsweg-Endpunkte der unmittelbar vorhergehenden Stufe. Dies stellt die Kontinuität der Zeitausrichtwege zwischen den Stufen sicher.
Das Sprachmuster-Rahmensignal η für die Grenze des oberen Bereichs im Zwischenspeicher 360 wird mit dem Verarbeitungsrahmensignal η vom Zähler 503 im Komparator 366 verglichen. Das Flipflop 3 70 wird durch das Signal FSR im Rahmen η =31 eingestellt und bleibt zwischen den Rahmen η =31 und η =39 eingestellt. Wenn das Rahmensignal n=40 erreicht ist, so wird der Ausgang des Komparators 366 betätigt, und das Flipflop 370 wird zurückgestellt. Das Gatter 530 wird durch das Signal DMTR vorbereitet, so daß der Bereich des gewählten Bezugswort-Anfangsrahmens zwischen den Sprachmustersegmentrahmen η =31 und η =39 liegt. Danach wird das Gatter 530 in Fig.5 gesperrt, so daß der Prozessor 20 7 unter Ansprechen auf das Signal R2 vom Komparator 511 nur mit den Endbereichseinschränkungen oder den Zwischenbereichseinschriinkungen gemäß Gleichung (7) arbeiten kann.
Tabelle 5 zeigt die Ausrichtungswegsignale w, d und SFNf die im Stufenabschnitt L=2 des Speichers 210 am Ende der DTW-Verarbeitung der zweiten Stufe für die Sprachäußerungsrahmen 47 bis 102 gespeichert sind.
W ά * 64- η ν; . . .
2 25,5 Tabelle 5 75 4 .. ..
2 25,1 7 6 4
2 26,3 SFN 77 4 SFN
n'o 2 25,9 32 78 4 d 32
47 2 27,8 32 79 4 37,2 32
48 2 28,8 32 80 4 3 7,5 32
4 9 2 27,5 32 81 4 38,0 32
50 2 27,7 32 82 4 3 8,7 32
51 2 28,1 32 83 4 39 j 4 32
52 2 28,6 32 84 4 4 0,1 32
53 2 29,5 32 85 4 4 0,9 32
54 2 28,9 32 86 4 41,7 32
55 2 3 0.0 32 87 4 42,3 32
55 4 26,3 32 88 4 42,8 32
57 4 32 8 9 4 43,0 32
59 4 27,'2 32 90 4 4 4,0 32
50 4 27,4 3 4 91 4 45,0 32
6 0 4 29,2 34 92 4 45,7 3 2
61 4 31,0 32 93 4 4 6,7 32
62 4 33,1 32 94 4 '4 7 , Ά 32
63 4 32 95 4 4 8,4 32
54 4 36,' 1 32 96 4 49,5 32
65 4 37,9 32 97 4 50,7 32
56 4 38,5 32 98 4 51,8 32
67 4 39,1 32 99 5 52,7 32
58 1 36,2 32 100 5 53,4 32
69 4 35,9 32 101 5 54,5 32
70 4 35,6 32 102 5 54,9 32
71 38 5 5, 6 32
72 32 57,8 32
73 32 59,4 32
74 61,5
In der ersten Spalte sind die Ausrichtweg-Endrahmen η angegeben. In der Spalte 2 findet sich die Bezugswort-Identifizierung w für den■kleinsten kumulativen Abstandsweg, der beim Endrahmen der Spalte 1 endet. In Spalte 3 ist das kumulative Abstandssignal d für.den Ausrichtweg angegeben, der beim Endrahmen der Spalte 1 endet, und Spalte 4 führt den Anfangsrahmen SPN des Ausrichtweges auf, der beim Endrahmen der Spalte 1 endet. In der ersten Zeile der Tabelle 5 ist beispielsweise der Ausrichtweg-Endrahmen gleich n=47. Das Bezugswort für den kleinsten kumulativen Abstandsweg ist w=2. Der kumulative Wegabstand ist: d = 25,5 und der Anfangsrahmen dieses Siegs ist SPN=32.
Während der DTW-Verarbeitung der zweiten Stufe ist das Abbruch-Flipflop 291 zurückgestellt worden, als Ausrichtwegsignale zuerst in den Stufenspeicher 210.eingegeben worden sind. Da der Stufenzähler 250 sich nicht auf dem Maximalwert L befindet, ist das Signal LMS abqeschalr.ot.
max ' y
Gemeinsam ansprechend auf die abgeschalteten Signale ABPF und LMS sowie den Impuls EC vom Pl ouerg· -rät 4 30 wird die Shcuersch.i ι tugn 400 voran ! aßt, die impuLse If.,1 und SD zu erzeugen. Der Im puls ILl «ehaltet den St.ufcnzähler 250 auf den Zustand L-2 , und der Impuls SD wird der Bereichssteuerung 440 zur Einleitung der Bereichseinstell-Betriebsweise zugeführt.
Wie im Einzelnen mit Bezug auf die Stufe 1 beschrieben, werden die Endrahmen η der gerade verarbeiteten Stufe L=2 entsprechend dem Flußdiacjramm in Fig. 11 abgetastet,, um das minimale, normierte Abstandssignal d /n, zu bestimmen. Dieses Signal wird im Zwischenspeicher 30 9 abgelegt, und der Rahmen, in welchem das Signal n. aufgetreten ist, wird entsprechend der Darstellung inp Fig. 11 im Zwischenspeicher 320 gespeichert. Das für die Stufe 2 bestimmte Signal d /n, ist 0,435 und der entsprechende Rahmen ist 63. Da der Rahmen n, =63 nicht innerhalb der SEND=4-Rahmen des Sprachäußerungs-Endrahmens (128) auf der zweiten Stufe ist (Entscheidungskästchen 1170), wird die Einleitungsbetriebsweise für die dritte Stufe gestartet.
Entsprechend dem Flußdiagramm für die Einleitungsbetriebsweise nach Fig. 8 wird jede der Rahmenspeicherstellen im Stufenspeicher 210 für die Stufe L+l=3 so eingestellt, daß das Signal d(n )=LPN und das Signal SFN(n ) = 0 ist.
S 3
Nachdem die Speicherstelle des Sprachäußerungs--Endrahmens N eingeleitet ist, wird das Signal EI von der Stufen-Be triebsein] ei tungssteueruncj 410 erhalten (Ent sch ο :i dung κ-kästchen 840), und die Afatar·; tbc-trif.ib.v.wei so wird unter Ansprechen auf das Signal SB von der Folgesteuerschaltung 400 eingeleitet. Bei der Abtastbetriebsweise wird der
Bereich von Anfangsrahmen für die dynamische Zeitverkettungsverarbeitung der dritten Stufe entsprechend dem Flußdiagramm in Fig.9 unter Steuerung von Signalen des Abtaststeuergeräts 420 ausgewählt.
Die obere Grenze des Bereichs wird zuerst entsprechend dem Entscheidungskästchen 912 bestimmt. DerRahmen 88 wird als Rahmen nw gewählt, da das Signal d(88)/88=0,519 kleiner als das Signal l,2(d /n )=0,522 im Zwischenspeicher 309 ist. Nachdem der Rahmen η =88 für die obere
Grenze im Zwischenspeicher 360 abgelegt ist (Index-Einstellkästchen 920), wird der Rahmenzähler 230 auf den Zustand η =.l. zurückgestellt (Jndexcinstcllkästchen 922). Die Abstandssignale vom Stufenspeicher 210 für den Rahmen
η =1 werden dann mit dem Signal 1,2(dp/n ) vom Multiplis ρ Λ
zierer 303 verglichen, und das entsprechende Signal SFN wird entsprechend dem Entscheidungskästchen 924 mit Null verglichen, bis der Sprachmusterrahmen 53 erreicht ist. Das normierte Abstandssignal für den Rahmen 53 (0,519) iüt kleiner als 1,2 dp/n (0,522), wodurch das DMTR-Signal vom Flipflop 370 eingeschaltet wird. Die Steuerung 420 liefert dann das Ende-Signal EB (Entscheidungskästchen 924), und es wird in die DTW-Verarbeitungsbetriebsweise des Flußdiagramms gemäß Fig. 10 eingetreten.
Die DTW-Verarbeitung der Stufe 3 entsprechend dem Flußdiagramm in Fig. 10 führt zur Erzeugung der Zeitausrichtungswege , für die die kumulativen Abstandssignale d, die Anfangsrahmensignale SFN und die gewählten Bezugswortsignale w im Stufenspeicher 210 abgelegt werden. In der Tabelle 6 sind die in den Stufenspeicher 10 für die DTW-Verarbeitung der dritten Stufe eingegebenen Signale w, d und SFN aufgeführt.
-67-Tabelle 6
η W d SFH η Vi d 50
75 4 37,1 60 102 5 43,3 78
76 4 37,4 60 103 0 51,2 78
77 4 37,6 60 104 0 52,4 7 8
78 4 39,9 60 105 0 5 3,9 8 5
79 1 35,3 6 3 106 4 54,2 8 5
80 1 38,3 6 3 107 4 53,6 85
81 1 3 8 , 4 63 108 4 53,1 85
32 1 33,7 6 3 109 4 53,3 85
83 5 37,3 6 0 110 4 53,4 8 5
84 5 36, 1 60 111 4 54,1 £5
35 5 35,0 60 112 4 55,0 85
86 5 34,4 60 113 4 56,3 8 5
87 5 33,2 60 114 4 57,6 85
88 5 32,9 60 115 4 58,8 93
89 5 33,0 60 116 3 60,3 89
90 5 33,1 60 117 3 59,6 89
5 33,7 60 118 3 58,4 89
92 5 34,3 60 119 3 58,4 89
93 5 35,0 60 120 3 59,0 89
94 5 35,9 60 121 3 59,7 91
95 5 36,6 6 0 122 3 60,2 91
96 5 36,8 60 123 3 60,6 91
97 5 37,1 60 124 3 6 0,9 89
98 5 37,3 60 125 3 61,4 89
99 5 36,2 60 125 3 61,8 89
100 5 39,5 60 127 3 62,5 89
101 5 41,2 60 128 3 62,9
Die Endrahmen der Stufe 3 erstrecken sich gemäß Tabelle 6 vom Rahmen 75 zum Äußerungsendrahmen 128. Alle Anfangsrahmen SFN in Tabelle 6 liegen im Bereich SFN=53 bis SFN=89 entsprechend der Bereichseinschränkungsoperation, die der Verarbeitung der Stufe 3 vorausgeht.
Nur die Merkmalssignale der Bezugswörter "Null", "Eins", "Drei", "Vier" und "Fünf" waren den Merkmalssignalen des Sprachmustersegments der Stufe 3 ausreichend ähnlich, um zu annehmbaren Ausrichtungswegen zu führen. Für das Bezugswort "Null" haben die Wege Äußerungsendrahmen zv/isehen den Rahmen 103 und 105. Die Endrahmen für die Wege des Bez\j(jswort.■<*£> "Kims" ersLrcckon wich vom Ä'uiterungsrahmen 79 bis zürn Äußerungsrahmen 82. Für das Bezugswort "Vier" erstrecken sich Endrahmen zwischen den Rahmen 75
bis 79 und zwischen den Rahmen 106 bis 115. Für das Bezugswort "Fünf" liegen die Wegendrahmen zwischen den Rahmen 84 und 102.
Am Ende der DTW-Verarbeitung für das Bezugswort "Neun" der Stufe 3 wird entsprechend dem Entscheidungskastchen 1060 das Abbruch-Merkzeichen als zurückgestellt festgestellt, der Stufenzähler 250 wird auf den Zustand L=3 weitergeschaltet, und die Bereichseinstellbetriebsweise gemäß Fig. 11 wird entsprechend dem Entscheidungskastchen 10 70 eingeleitet.
Wie mit Bez\ig auf die vorhergehende Stufe beschrieben worden ist, werden die Ergebnisse der im Stufenspeicher 210 abgelegten DTW-Verarbeitung der Stufe 3 zwischen dem Rahmen η =1 bis zum Äußerungsendrahmen N =128 abge-
o 111
tastet. Das kumulative Abstandssignal für den Endrahmen 90 in Tabelle 6 ist 33,1 und der zugeordnete normierte Abstand (0,368) wird mittels des Teilers 355 , des Zwischenspeichers 309 und des Komparators 311 als Minimum festgestellt. Das Signal 0,368 wird im Zwischenspeicher 309 abgelegt. Das dem minimalen normierten Abstand entsprechende Rahmensignal η =90 wird während der Abtastope-
ro tion in ävn Zwischenspeicher 320 geliefert und dem Subtrahierer 3 30 als Signal n, zugeführt, um zu bestimmen, wie weit n, vom Äußerungsendrahmen N entfernt ist. Das
Ausgangssignal des Subtrahierers 330 wird im Komparator 332 mit dem Signal SEND=4 verglichen. Da N -n, = 38 Rahmen ist, wird das Signal DE vom Komparator 332 nicht betätigt, und es ist die Verarbeitung für die vierte Stufe nötig.
Unter Bezugnahme auf das allgemeine Flußdiagramm in Fig.6 wird die Betriebseinleitung für die Rahmenstellen der vierten Stufe im Stufenspeicher 210 entsprechend dem Kastchen 605 so durchgeführt, daß jedes kumulative Ä'ußerungsr.jhmen-Abst.indiif.ignc-il d auf LPN und jedes Anfangsrah-monsigridl SFN auf Null eingestellt wird. Es werden dann entsprechend dem Kästchen 607 die Äußerungsrahmenste.lien
• ♦ ■ · ♦ #
-69-
für die Stufe 3 abgetastet, vim den Bereich zulässiger Anfangsrahmen zu bestimmen. Gemeinsam ansprechend auf das gespeicherte, minimale, normierte Abstandssicjnal im Zwischenspeicher 309 und die für die kumulativen Abstände bestimmten normierten Abstandssignalo aus dem Stufenspeicherabschnitt 210-2 wird der Rahmen η ~2 der oberen Grenze zu
n, gewählt und in den tfwi.'ichonspoi eher 360 ciogcbon. An
scRließend wird der Rahmen η =84 der unteren Grenze aew'ihü.
und in Vorbereitung der DTW-Verarbeitung der Stufe 4 entsprechend dem Kästchen 609 im Zwischenspeicher 501 abgelegt.
In Tabelle 7 sind die Ausrichtungsweg-Endpunkte, das gewählte Bezugswortsignal, die kumulativen Abstandssignale und die Anfangsrahmensignale für die Zeitausrichtungswege angegeben, die sich bei der Verarbeitung der vierten Stufe (Kästchen 609) ergeben.
r\
W
Tabelle 7 C] SFN η V ä 9 4
η 3 48,2 84 113 3 4 5,5 9 4
96 3 45,3 85 114 3 4 4,7 94
97 2 44,5 85 *115 3 4 4,5 94
98 2 43,0 8 6 116 3 44,6 94
99 2 41,5 87 117 3 45,1 92
100 2 41,1 88 118 3 45,3 92
101 2 42,3 89 119 3 45_,3 92
102 2 42 ,S 90 120 3 45,1 92
133 2 42,4 90 121 3 45j3 92
104 2 43,2 90 122 3 45,3 92
105 2 43,3 90 123 3 45,6 89
106 2 4 4,3 90 124 3 45,9 89
107 2 4 5,2 90 125 3 46,3 89
103 4 44y7 92 125 3 4 6,6 8 9
109 '4 4 5,2 92 127 3 4 5,8 59
110 4 45,5 89 128 3 47;5
111 4 46,3 89
112
Dic festgestellton Endrahmen erstrecken sich zwischen dem Äußerungsrahmen 96 und dem Äußerungsendrahrnen 128. Der Anfangsrahmenbereich liegt innerhalb der Einschränkung, die während der vorhergehenden Abtastbetriebsweise bestimmt worden ist, und es wurden Ausrichtungswege für die Bezugswörter "Zwei", "Drei" und "Vier" gefunden. Bei Beendigung der dynamischen Zeitverkettungsoperation für das Bezugswort "Neun" wird der Stufenzähler 250 auf den Zustand L=4 weitergeschaltet. Da die letzte Stufe noch nicht erreicht ist (Entscheidungskästchen 611), werden die Speicherstellen für die fünfte Stufe (L=5 ) entsprechend dem Kästchen 605 vorbereitet.
Bei der nachfolgenden Abtastung der Endrahmen der Stufe 4 (Kästchen 607) wird der minimale normierte Abstand .15 im Rahmen .127 f e;; I goßt ο 1 It . Diese« Rahmenniijnal wird in den Zwischenspeicher 320 gegeben und von dort zum Subtrahierer 330 übertragen. Das Ausgangssignal des Subtrahierers 330 entspricht N - η, = 1. Der Ort des mini-
m d
malen normierten Rahmens liegt " innerhalb von 6END=4 Rahmen vom Äußerungsendrahmen entfernt, und das Signal DE vom Komparator 332 wird eingeschaltet. Zu diesem Zeitpunkt hat der optimale Ausrichtungsweg den Bereich des Äußerungsendrahmens erreicht,und die Verarbeitung dieser Stufe wird beendet.
Das Endrahmensignal NMS vom Rahmenzähler 230 veranlaßt die Bereichesteuorung 440, einen Ende-Impuls ED zu erzeugen. Abhängig vom Signal DE vom Kump.nr.iLor 332 und vom Signal ED der Bereichssteuerung 440 erzeugt die Folgesteuerschaltung 400 den Steuerimpuls SE. Dieser Impuls aktiviert die Rückverfolgungssteuerung 450, die die Schaltung gernäß Fig. 2 und 3 veranlaßt, die im Stufenspeicher 210 gespeicherten Zeitausrichtungswege zurückzuverfolgen und die gültigen Bezugswort-Kandidatenketten vom Speicher 210 zum Rückverfolgungsspeicher 260 zusammen mit den normierten Abstandssignalen für die Wege zu übertragen. Die Rückverfolgungsoperation wird entsprechend
dem Flußdiagramm gemäß Fig. 12 ausgeführt.
Am Beginn der Rückverfolgungsarbeitswcise veranlaßt der Impuls SE von der Steuerung 400 die Rückverfolgungssteuerung 450, die Impulse SUE, SNM, SLPN, SLTl und
das Signal D zu erzeugen. Der Impuls SLJE wird über das ODER-Gatter 467 dem Stufenzähler 2SO zugeführt und bewirkt, daß das Signal LB=O am Ausgang des Rückverfolgungszählers 240 zum Stufenzahler 250 übertragen wird (Indexkästchen 1205). Der Impuls SNM stellt den Rahmenzähler 230 auf
den Zustand η =128 ein (Indexkästchen 1210). Der Impuls SLPN gibt ein Signal LPN in den Zwischenspeicher 309,
und der Impuls SLTl ein Rahmensignal 1 in den Zwischenspeicher 320. Das Signal D veranlaßt die Adressierlogik 290, das Signal L=O und das Signal η =128 zu den Adressiereingängen des Stufenspeichers 210 zu geben.
Zu diesem Zeitpunkt werden die Rahmenstellen η %=128 der Stufe L=O im Stufenspeicher 210 adressiert. Wie oben
erwähnt, sind das Signal SFN für jeden Rahmen jeder Stufe L=O mit Ausnahme desRahmens η =1 und der Abstandssionale
d für jeden Rahmen mit Ausnahme des Rahmens η ,-Τ. gleich LPN. Das Ausgangssignal d des Stufenspeicherabschnitts
210-2 wird im Teiler 355 normiert, und das normierte
Abstandssignal d(128)/128 vom Teiler 355 wird mit dem
Inhalt des Zwischenspeichers 309 im Komparator 311 verglichen. Der Inhalt des Zwischenspeichers 309 ist kleiner als das Ausgangssignal des Teilers 355 , und das Signal DL vom Komparator 311 wird eingeschaltet. Folglich wird der Inhalt der Zwischenspeicher 309 und 320 auf LPN/128 bzw. 128 geändert.
Der Subtrahierer 3 30 erzeugt das Signal N - η =0 unter Ansprechen auf die Eingangssignale N und das Eingangssignal η ^ vom Gatter 324. Das Signal N --n^-0 ist kleiner als 6END-4 (Entscheidungskästchen 1215). Daher wird aar, Signal DE vom Komparator 332 eingeschaltet. Daß einge-
schaltete Signal DE veranlaß!: die Rückv«rfoJgungs-
steuerung 450, einen Impuls DNl zu erzeugen (Indexkästchen 1225), der den Rahmenzähler 230 auf den Zustand η =127 zurückschaltet. Die Folge von Impulsen DNl der Rückverfolgungssteuerung 450 setzt sich fort, bis der Rahmen η =124 erreicht ist. In diesem Zeitintervall wird das
minimale Signal d(n )/n in frn Zwischenspeicher 309 und das entsprechende Signal η in den Zwischenspeicher 320 eingegeben. Es wird dann das Signal DE vom Komparator 332 abgeschaltet, wodurch die Rückverfolgungssteuerung 450 den Steuerimpuls LSF erzeugt.
Unter Ansprechen auf den Steuerimpuls LSF wird der minimale, normierte Abstandsrahmen n, im Zwischenspeicher 320 über das UND-Gatter 336 und P das ODER-Gatter 337 in den Zwischenspeicher 345 gegeben. Nach einer kurzen Verzögerung erzeugt dieSteuerung 450 das Signal F, das die Adressierlogik 290 so ändert, daß n=n, ist. Das Anfangsrahmensignal SFN(nd ) vom Stufenspexcherabschnitt 210-1 wird an einen Eingang des Komparators 338 über das UND-Gatter 335 und das ODER-Gatter 337 gegeben.
SFN(n, )=0 und der Komparator 338 schaltet das Signal SFNO e?n. Das eingeschaltete Signc-.l SFNO bedeutet, daß keine gültigen Zeitausrichtungswege vorhanden sind, die beim Rahmen n, auf der Stufe 0 enden. Der Rückverfolgungszahler 450 ändert demgemäß seinen Stand, so daß Zeitausrichtungswege, die auf der Stufe 1 enden, festgestellt werden können.
Der Steuerimpuls IBl von der Rückverfolgungssteuerung 450 schaltet den Rückverfolgungszähler 240 auf LB=I weiter. Der Impuls SLJE bewirkt, daß das Signal LB=I vom Zähler 240 zum Stufenzähler 250 übertragen wird. Der Impuls SNM stellt den Rahmenzähler 230 auf den Zustand η =Ν
s m
ein, und die Impulse SLPN und SLTO stellen die Zwischenspeicher 309 und 320 auf LPN/128 bzw. 128 ein. Die Feststellung des minimalen normierten Abstandssignals wird dann für die Stufe 1 entsprechend der Schleife durchgeführt, die im Flußdiagramm gemäß Fig.12 das Entscheidungs-
kästchen 1212, das Kästchen 1214, das Entscheidungskästchen 1215 und das Indexkästchen 1225 enthält.
Wenn der Rahmen η =124 erreicht ist, enthält der Zwischen
speicher 309 das Signal d =LPN/128, und der Zwischenspeieher 320 das Signal η =0. Das gilt deswegen, weil die DTW-Verarbeitung der Stufe 1 nicht zu Zeitausrichtungswegen innerhalb des Außerungsendrahmenbereichs geführt hat. Entsprechend dem Entscheidungskästchen 1230 ist das Signal SFN(SF1) =0. Der Komparator 338 betätigt das Signal SFNO. Der Zähler 240 wird durch das Signal IBl weitergeschaltet (Indexkästchen 1255), und man tritt über das Entscheidungskästchen 1260 in das Indexkästchen 1205 ein.
Es wird dann die Rückverfolgungsoperation für die Stufe L=2 durch die Steuerimpulse SLJE, SNM, SLPN und SLTl sowie das Signal D von der Rückverfolgungssteuerung unter Ansprechen auf das betätigte Signal SFNO vom Komparator 338 eingeleitet. Wie mit Bezug auf die Rückverfolgungsverarbeitung der Stufe 1 beschrieben worden ist, liefert die Adressierlogik 290 die Adressensignale η
vom Rahmenzähler 230 und die Adressensignale L=2 vom Stufenzähler 250 zu den Adressiereingängen des Stufenspeichers 210. Der Rahmenzähler 230 wird auf den Stand η =N eingestellt, und das minimale, normierte Abstandssignal d /n, im Außerungsendrahmenbereich δ Ε ND wird festgestellt" und im Zwischenspeicher 309 abgelegt. Der dem minimalen normierten Abstandssignal n, entsprechende Rahmen wird im Zwischenspeicher 310 gespeichert. Es sind keine Ausrichtungswege für die zweite Stufe innerhalb des Endrahmenbereichs 6END vorhanden. Demgemäß enthält
λ in Vj
der Zwischenspeicher 309 den Wert d /n, = yyp- und der
Zwischenspeicher 320 enthält den Wert ^n,= 125. Im Rahmen η =12 4 wird das Signal DE vom Komparator 332 eingeschaltet, wodurch der Rahmencode n, unter Ansprechen auf das Signal LSF in den Zwischenspeicher 345 gegeben
wird. Das Signal SFN für den Rahmen nd ist Null, da keine Zeitausrichtungswege bei der DTW-VerarSeitung für die Stufe 2 im öEND-Rahmenbereich enden. Das Signal
SFN(n. ) =0 veranlaßt den Komparator 338, das Signal SE1NO d
einzuschalten. Die RückverfOlgungsverarbeitung der Stufe 3 wird durch das Signal IBl von der Rückverfolgungssteuerung 450 gestartet, das den Rückverfolgungszähler 240 auf LB=3 einstellt.
Entsprechend der Angabe in Tabelle 6 hat die DTW-Verarbeitung der Stufe 3 zu Zeitausrichtungswegen mit Endpunkten bei den Rahmen 125, 126, 127 und 128 geführt. Entsprechend dem Entscheidungskästchen 1212, dem Index-Einstellkästchen 1214, dem Entscheidungskästchen 1215 und dem Indexkästchen 1225 in Fig. 12 werden die normierten Abstandssignale d(n )/n für diese Endrahmen der Stufe 3 verarbeitet.
Es wird das minimale, normierte Abstandssignal d /n. =0,49
η für den Rahmen 126 aufgefunden. Nachdem der ^ Rahmenzähler 238 den Rahmen η =124 erreicht hat, wird das Signal n, =126 vom Zwischenspeicher 320 durch das Signal LSF zum Zwischenspeicher 345 übertragen. Die Steuerung 450 erzeugt das Signal F, und das Signal SFN=89 vom Stul tsriMpi-icluT 210 wird übet' daa UNü-Cü 11 er 335 und das ODER-Gatter 327 zu einem Eingang des Komparators 338 geführt. Das Signal SFNO von diesem Komparator bleibt abgeschaltet, und das Signal WBS wird zum Schreibbetätigungseingang des Rückverfolgungsspeichers 260 geliefert. Zu diesem Zeitpunkt werden das Signal w=3 vom Stufenspeicherabschnitt 210-3 und das Signal d(126)/126 vom Teiler 355 in die Adresse L=3, LB=3 des Speichers 260 eingegeben.
Das Signal SFN(126)=89 vom Stufenspeicherabschnitt 210-1 wird dann über das UND-Gatter 335 und das ODER-Gatter 337 unter Annpnx'hon .HiJ" da.". Sicjnal Γ.8Ι·' von der Steuerunq 450 in den Zwischenspeicher 345 gegeben. Der Steuerimpuls DLl von der Rückverfolgungssteuerung 450 schaltet den Stufenzähler 250 in den Zustand L=2 zurück. Die Speicher-
stellen n=89, L=2 des Stufenspeichers 210 werden dann adressiert, so daß die Signale w=4 ,d (89 )/89-0 , 521 in die Speicherstelle L=2 , LB=3 des Ruckverfolgungsspeichers 260 eingeschrieben werden. Das Signal SFN(89)=32 vom Abschnitt 210-1 des Stufenspeichers wird unter Ansprechen auf das Signal LSF in den Zwischenspeicher 345 gegeben, und der Stufenzähler 250 wird durch das Signal DLl in den Zustand L=I zurückgeschaltet. Dadurch wird die Adresse des Ruckverfolgungsspeichers auf L=I, LB=3 geändert, und die Signale w=4, d(32)/32=0,384 aus der Rahmenstelle n=32 der Stufe L=2 werden unter Ansprechen auf das Signal WBS von der Steuerung 450 in den RückverfOlgungsspeicher eingegeben.
Das Signal SFN(32)=1 vom Speicherabschnitt 210-1 wird in den Zwischenspeicher 345 eingeschrieben, und der Stufenzäh]or 250 wird auf den Zustand L-O zurückgeschaltet (Indexkästchen 1250). Das Signal LZS wird eingeschaltet, wenn der Stufenzähler 250 im Zustand L=O ist. Unter Ansprechen auf das Signal LZS erzeugt die Steuerung 45 0 einen Impuls IBl. Es wird dann der Rückverfolgungszähler 240 auf den Zustand LB=4 weitergeschaltet,und dieRückverfolgungsoperation der vierten Stufe wird durch Erzeugung der Impulse SLJE, SNM, SLPN und SLTO sowie des Steuersignals D angefangen.
Bei der Rückverfolgung auf der vierten Stufe werden die Signale für die Folge von Rahmen 128 bis 125 verglichen. Das minimale, normierte Abstandssignal —γψϊ— - 0,369 und der entsprechende Rahmen (n, =127) werden in die Zwischenspeicher 309 bzw. 320 ^eingegeben. Der Anfangsrahmen SFN(127)=89 wird im Komparator 338 mit Null verglichen. Da er von Null verschieden ist, werden die Codierungen w(127) =3 und in die Position L=4, LB=4 des Ruckverfolgungsspeichers 260 eingeschrieben. Es wird dann der Code SFN(127)=39 durch das Signal LSF in den Zwischenspeicher 345 gegeben. Der Stufenzähler 250 wird auf den Zustand L=3 zurückgestellt und dann
erfolgt ein Zugriff zu den Stellen L=3, n=89 des Stufenspeichers 210. Die Signale w(89)=5 und i(89)/89= 0,373 werden in die Position L=3, LB=4 desRückverfolgungsspeichers 260 und das Signal SFN(89)=60 in den Zwischenspeicher 345 gegeben. Der Zähler 250 wird auf den Zustand L=2 zurückgeschaltet.
Das Signal SFN(60)=32 ist von Null verschieden. Folglich werden die Stellen L=2 , n=32 des Stufenspeichers 210 adressiert, so daß die Werte w(60)=4, d(60)/60=0;438 in die Stelle L=2, LB=2 des Speichers 260 eingeschrieben werden. Das Signal SFN(60)=32 gelangt in den Zwischenspeicher 345, und der Stufenzähler 350 wird in den Zustand L=I zurückgeschaltet. Das Signal SFN(32)=1 in den Stellen L=I, fi=32 des Stufenspeichers 210 ist von Null verschieden, wodurch die Signale w(32)=4, i(32)/32=0,384 in die Stelle L=I, LB=4 des Rückverfolgungsspeichers 260 eingeschrieben werden. Das Signal SFN(32)=1 wird in den Zwischenspeicher 345 gegeben. Der Zähler 250 wird in den Zustand L=O gebracht, in welchem das Signal LZS eingeschaltet wird. Unter Ansprechen auf das Signal LZS schaltet das Signal IBl von der Steuerung 450 den Rückverfolgungszähler 240 in den Zustand LB=5 weiter. Zu diesem Zeitpunkt ist LB=LMAX. Der Zähler 240 erzeugt ein Signal LBS, das die Steuerung 450 veranlaßt, einen Ende-Impuls EE zu erzeugen.
Die Rückverfolgungsverarbeitung ist beendet, und der Speicher 260 enthält diejenige Bezugswortkette 443, die auf der Stufe 3 endet, und diejenige Bezugswortkette 4453, die auf der Stufe 4 endet, sowie die entsprechenden Abstandssigrvü e. Das Signal EE wird der Folgesteuerung 400 zuqefuhr t , dio dtu> Signal DONI', erzeugt. Dianes Signal wird der Verbrauchereinrichtung 390 zugeführt, die die Codierungen des durch die Signale LB' und L' adressierten Rückverfolgungsspeichers zurückgewinnen kann. Die Verbrauchereinrichtung kann ein Datenprozessor, ein Nach-
richtennetzwerk oder eine durch einen Code gesteuerte Maschine sein. Die Erkennungseinrichtung gemäß Fig.2 und 3 kann beispielsweise Teil einer Fernsprecheinrichtung sein, die so ausgelegt ist, daß sie gesprochene Rechnungsnummern für Gebührenbelastungszwecko aufnehmen kann.
Die Verbrauchereinrichtung 390 kann so ausgelegt sein, daß sie die Bezugswortkette für minimalen Abstand vom Rückverfolgungsspeicher 260 aufnimmt oder eine Bezugswortkette vorgeschriebener Länge aus dem Speicher 260 wählt.
Bei gewissen Anordnungen können Einschränkungen hinsichtlich der jeweiligen Bezugswörter in jeder Wortposition vorhanden sein. Der Bezugswortwähler 20 7 kann in der Schaltung gemäß Fig. 2 aufgenommen sein, um nur vorbestimmte Bezugswort-Merkmalssignale für jede Stufe L unter Ansprechen auf das Ausgangssignal des Stufenzählers und des Wortzählers 220 zu liefern. Beispielsweise kann das erste Wort jedes Sprachmusters auf die Ziffern 2 und 3 beschränkt sein. Unter Ansprechen auf das Stufensignal L=O und L=I wählt der Wähler 20 7 nur die Merkmalssignale der Ziffern 2 und 3 für die DTW-Verarbeitung.
Das Signal W vom Wähler 20 7 beendet dann die DTW-Verarbeim
tung der ersten Stufe am Ende der Zeitausrichtungs-Wegerzeugung für das Bezugswort "Drei".
nachqereiohtT : :··..:
-78-
Anhang A
C PROGRAM FOR SEQUENCE CONTROL (400/FIG. 6) LOGICAL LEV CONTINUE
LEV=.FALSE.
CALL WAITFOR (START) C GET UTTERANCE
CALL OUTPUT (MODE-A) CALL OUTPUT (SA) CALL WAITFOR (EA) C INITIALIZE BACKTRACK AND LEVEL COUNTERS CALL OUTPUT (SBO) CALL OUTPUT (SLJM) C PROCESSING LOOP CONTINUE
C INITALIZE NEXT LEVEL CALL OUTPUT (SI) CALL WAITFOR (EI) C SCAN TO LIMIT STARTING RANGE · CALL OUTPUT (SB) CALL WAITFOR (EB, REPEAT)
IF (REPEAT .EQ.1) GO TO C TRANSFER STARTING FRAME TO FRAME SEQUENCER
CALL OUTPUT (FSL) C PERFORM DYNAMIC TIME WARP C FOR THIS LEVEL
CALL OUTPUT (SC) CALL WAITFOR (EC) C CHECK ABORT FLOP CALL INPUT (ABFF) IF (ABFF .EQ.1) GO TO C NO ABORT GO TO NEXT LEVEL LEV=.TRUE.
CALL OUTPUT (IL1) CALL INPUT (LMS) IF (IMS.EQ.1) GO TO
C FINISH LOOP - CALCULATE MINIMUM C FOR USE IN RANGE RESTRICTION CALL OUTPUT (SD) CALL WAITFOR (ED) GO TO 100
CONTINUE
C ABORT - IS THIS FIRST LEVEL?
IF (LEV) GO TO C ABORT ON FIRST LEVEL - ERROR CALL OUTPUT (REPEAT 2) GO TO 10
CONTINUi;
C FINISHED ALL LEVEL PROCESSING C BACKTRACK THRU LEVEL STORE CALL OUTPUT Γ SE) CALL WAITFOR (EIi) CALL OUTPUT (DONE) GO TO 10
END
NACHCiiREIGHT
-79-
Anhang B
C PROGRAM FOR G LEVEL INITIALIZATION (410/FIG. 8) 10 CONTINUE
CALL WAITFOR (SI)
CALL OUTPUT CMODE=I) C RESET FRAME COUNTER
CALL OUTPUT (SNII) 100 CONTINUE C WRITE DATA STORE
CALL OUTPUT (WLSI) C FOR ALL FRAMES
CALL INPUT (NMS)
IF (NMS .NE. 1) GO TO C INITIALIZATION FINISHED.
CALL OUTPUT (EI) GO TO 10
END
Anhang C
C PROGRAM FOR C SCAN CONTROL (420/FIG. 9) 10 CONTINUE
CALL WAITFOR (SB)
CALL OUTPUT (MODE=BB) C SET FRAME COUNTER TO MAX AND SCAN FORWARD
CALL OUTPUT (SNM)
CALL OUTPUT (BD) 100 CONTINUE
CALL INPUT (DMTA)
IF (DMTA .EQ. 1) GO TO C CONTINUE SCANNING BACKWARDS
CALL OUTPUT (DN1) CALL INPUT (NSO)
IF (NSO.NE. 1) GO TO
CALL OUTPUT (REP)
GO TO 10 110 CONTINUE C SCAN FORWARD
CALL OUTPUT (SN1B)
CALL OUTPUT (BU) 150 CONTINUE
CALL INPUT (DMTR)
IF (DMTR.EQ. 1) GO TO C CONTINUE SCAN
CALL OUTPUT (INIB)
GO TO 150 200 CONTINUE C SCAN FINISHED
CALL OUTPUT (EB) GO TO 10
END
'■Χ.:
nachqereiohtJ
-80-Anhang D
C PROGRAM FOR DTW CONTROL (430/FIG. 10) 10 CONTINUE
CALL WAITFOR (SC) C SET WORD COUNTER CALL OUTPUT (SW1) 100 CONTINUE C SET COUNTER IN FRAME SEQUENCER
CALL OUTPUT (FSR) 150 CONTINUE
CALL OUTPUT (MODE=C) C RUN DTW
CALL OUTPUT (DST) CALL WAITFOR (DDN) C CHECK DTW ABORT CALL INPUT (AB) IF (AB.ED. 1) GO TO C CHECK ENDPOINT FLAGS CALL INPUT (EP) IF (EP .NE. 1) GO TO C CHECK DISTANCES
CALL OUTPUT (MODE=E) CALL INPUT (OS) IF (DS.NE.1) GO TO C VALID END POINT AND SMALLER DISTANCE-WRITE STORE
CALL OUTPUT (WLS) 200 CONTINUE
C ARE WE FINISHED? CALL INPUT (DN) IF (DN.EQ.1) GO TO C NO- NEXT FRAME
CALL OUTPUT (FSI) 250 CONTINUE
C GO TO NEXT WORD
CALL OUTPUT (IW1) CALL INPUT (WM) IF (WM.NE.1) GO TO C DONE ALL WORDS
CALL OUTPUT (EC) GO TO 10
END
Anhang E
C PROGRAM FOR C RANGE CONTROL (440/FIG. 11) 10 CONTINUE
CALL WAITFOR (SD)
CALL OUTPUT (MODE=BF) C RESET FRAME COUNTER
CALL OUTPUT (SN1D) C LOAD D HAT LATCH WITH LPN
CALL OUTPUT (SLPN) C AND INITIALIZE NDP LATCH
CALL OUTPUT (SLT1) 100 CONTINUE
C FOR ALL FRAMES
NACHanREicHT·] .; .·· .··.*··: .*·.,**. -81- Anhang F (ED)
CIN1D)
CALL OUTPUT (NMS)
CALL INPUT 1) GO TO 100
IF (NMS.NE. SCAN FINISHED
CALL OUTPUT
GO TO 10
END
C PROGRAM FOR BACKTRACK CONTROL (450/FIG. 12) CONTINUE
CALL WAITFOR (SE) CONTINUE C RESET COUNTERS CALL OUTPUT (SLJE)
CALL OUTPUT (SNM) C RESET LATCHES CALL OUTPUT (SLPN) CALL OUTPUT (SLT1)
CALL OUTPUT (MODE=D) C LOOP BACKWARDS FOR 6END FRAMES CONTINUE CALL INPUT (DE) IF (DE.ED.1) GO TO CALL OUTPUT (DNI) "
GO TO 100 CONTINUE C LATCH MINIMUM AS SF CALL OUTPUT (LSF)
CALL OUTPUT (MODE=F) CONTINUE C CHECK FOR VALID PATH CALL INPUT (SFNO)
IF (SFNO.EQ.1) GO TO C UPDATE BACKTRACK STORE
CALL OUTPUT (WBS) C LOOP
CALL OUTPUT (DL1 ) CALL INPUT (LZS)
IF (LZS.EQ.O) GO TO CONTINUE C GO TO NEXT LEVEL CALL OUTPUT (IB1 ) CALL INPUT (LBS)
IF (LBS.ED.O) GO TO C DONE
CALL OUTPUT (EE) GO TO 10 END
Anhang G
C PROGRAM FOR FRAME DTW
C DEFINB VARIABL)-S
C MLW= MAX FRAMIiS IN RIiFIiRHNCB
C MH, ML, MC HIGH.LOW&CENTIiR OF REFERENCE INDEXES
C NMAX= MAX FRAMES IN UTTERANCE
j NACHCn:REICHT|
C NFRM= UTTERANCE FRAME INDEX C LEV=EVEN/ODD FRAME INDICATOR (FOR SLOPE=I/2) C PARAMETER DM=5; RANGE LIMIT MCt DM C PARAMETER DR2 = 1 ; RANGE EXTENSION FOR RULE C PARAMETER IRMAX=50; MAX SIZE OF REFERENCE C PARAMETER NFN=9; ELEMENTS IN FRAME VECTOR C PARAMTER LPN=IE99; LARGEST POSSIBLE #
DIMENSION UR(NFV), RF(NFV), FLOC(IRMAX) DIMENSION DLOC(IRMAX), RLOC(IRMAX) , SFLOC(IRMAX)
DIMENSION DLAST(IRMAX),FLAST(IRMAX),SFLAST(IRMAX)
DIMENSION DTMP (IRMAX) LOGICAL IEV CONTINUE CALL WAITFOR (DST,RFS) IF (RFS) GO TO 900; INITIALIZATION
C CALCULATE VALUES FOR MH, ML FOR THIS FRAME
CALL INPUT (NFRM, DH, SFNH) , NN= NMAX-NFRM
11= MLW-(NN*2)
12= MLW-(NN/2)
IADD=O
IF(IEV) IADD=I IEV .NOT.IEV C CALCULATE ML IF (11.GT.O) GO TO
ML= ML+ IADD; 1/2 SLOPE GO TO 110 CONTINUE ML=ML+2 ' 110 CONTINUE
C CALCULATE MH IF (12. GT. O) GO TO MH=MH+2 GO TO 130 120 CONTINUE
MH=MH+IADD; 1/2 SLOPE W 130 CONTINUE
C CALCULATE + DM AROUND LAST CENTER MLP=MC-DM MHP=MC+DM
C OUTPUT LOW VALUE CALL OUTPUT (ML) C RESTRICT RANGE ML=MAX(MLP,ML,O) MH=MIN(MHP,MH,MLW)
C CALCULATE LOCAL DISTANCES DO 150 J=I, IRMAX DTMP(J) = RLOC(J) = SFLOC(J) =
CONTINUE
DO 170 J=ML1MH CALL OUTPUT (MH=J) CALL INi3UT (R1.R2, UR(I), RF(I), 1 = 1, NFV) DO 160 K=1, NFV
DTMP(J)=DTMP(J)+UF(k)*RF(k) CONTINUE
NAOHQIiREICHT
-83-
IF(RI. EQ. 2) RLOCCk)=I IF(Rl. EQ. 2) RL0C(k)=2 CONTINUE DO 250 J=ML1MH FLOC(J)=I SFLOc(J)=SFLAST(J) DLOC(J)=DTMP(J)+DLAST(J) IF(FLAST(J).ED.1) DLOC(J)=LPN IF (DT+DLAST(J-1) .GT. DLOC(J)) GO TO DLOC(J)= DTMP(J) + DLAST(J-D SFL0C(J)=SFLAST(J-1) FLOC(J)=O CONTINUE IF (DT+DLAST(J-2).GT.DLOC(J)) GO TO DLOC(J)= DTMP(J) + DLAST (J-2) SFL0C(J)=SFLAST(J-2) FLOC(J)=O CONTINUE IF(RLOCK(J).ED.O) GO TO IF(RLOCK(J).ED.2) GO TO C APPLY RULE(D IF (DTMP(J) +DH.GT.DLOC(J)) GO TO DLOCK(J)= DTMP(J) +DH SFLOC(J)= SFNH FLOC(J)=O
GO TO 250 CONTINUE C APPLY RULE
DO 200 K = J-2, MLR2
IF (DTMP(J)+DLAST(K).GT.DLOC(J)) GO TO DLOC(J)=DTMP(J) +DLAST(K) FLOC(J)=O SFLOc(J)=SFLAST(K) CONTINUE C CALCULATE MIN VALUE + UPDATE DATA PMIN=LPN DO 300 J=ML1MH IF (DLOC(J) .GT.PMIN) GO TO PMIN=DLOC(J) IM=J
CONTINUE SFLASt(J)=SFLOC(J) FLAST(J)=FLOC(J) DLAST(J)=DTMP(J) 300 CONTINUE C GENERATE OUTPUT
CALL OUTPUT (DS=DLCC(IM)5DP=DTMP(IM)5SFLOc(IM)) C UPDATE DATA MIN CENTER MC=IM
GO TO 10 C INITIALIZATION SECTION - SET UP FOR NEXT WORD CONTINUE
CALL INPUT (NMAX5MLW) MLRZ=MLW-DR2
LEV=.FALSE.
ML=O
MH=O
N'ACHQCREiCHT
MC=O
DO 910 J»1,IRMAX DLAST(J)=O FLAST(J)=O SFLAST(J)=O CONTINUE
GO TO 10
END

Claims (21)

  1. BLUMBACH · WESEFi · BB&J3&N % ZWIFiNER · HOFFMANN
    PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN
    Patenjconsult Radockestraßo 43 8Q00 Münchun da Telefon (OS?) S33603/8836C4 Telex 05 212313 lolcgramine Patenlconsult Patenlconsult Sonnenberger SjlraiJe 43 6200 Wiesbaden Telefo'i (06121) 562943/561998 Telex 04-186237 Telegramme Palenlconcult
    Western Electric Company Incorporated New York, N.Y. 10038, USA
    Patentansprüche
    [1.1 Vorrichtung zur Erkennung eines Sprachmusters als Kette vorbestimmter Bezugswörter mit einer Einrichtung zur Speicherung eines Satzes von Signalen, die die Zeitrahmenfolge akustischer Merkmale jedes Bezugswortes darstellen, wobei die Zeitrahmenfolge einen Anfangs- und einen Endrahmen enthält, mit einer Einrichtung zur Erzeugung eines Satzes von Signalen, die die Zeitrahmenfolge akustischer Signale des Sprachmusters darstellen,
    mit einer Einrichtung, die unter Ansprechen auf die akustischen Sprachmuster-Merkmalssignale und die akustischen Bezugswort-Merkmalssignale eine Vielzahl von Bezugswortketten erzeugen, und
    mit einer Einrichtung, die die Sprachmuster als eine der erzeugten Bezugswortketten identifizieren, dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung der Bezugswortketten eine Einrichtung zur Erzeugung eines Satzes von Signalen aufweist, die aufeinander folgende Bezugswortstufen dofinieren,
    ferner eine Einrichtung, die jeder aufeinander folgenden Stufe ein Segment des Sprachmustei's zuordnet, eine Einrichtung, die bei jeder aufeinander folgenden Stufe die Sprachmustersegment-Merkmalssignale der Stufe mit den Bezugswort-Merkmalssignalen zeitlich
    München: R. Kramer Dipl.-tng. ■ W. Wessr Dipl.-Phy;. Dr. rur. oat. · F.. Hoffmann Dipi.-Ing. : P. 6. Biumbach Dipl.-lng. · P. Be^eri Prof. Dr. jur. Dipl.-ing., Pat.-Ass., Pai.-Anw, bis 1979 · G. Zvvirner Dipl.-Ing. Dipl.-W.-Ing.
    ausrichtet, um Stufenzeitausrichtungs-Sprachmustersegment-Endrahmensignale und Zeitausrichtungs-Korrespondenzsignale für die Bezugswörter zu erzeugen,
    und eine Einrichtung, die unter Ansprechen auf die Zeitausrichtungs-Endrahmensignale und die Zeitausrichtungs-Korrespondenzsignale der Stufe Bezugswortketten auswählt.
  2. 2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung zur zeitlichen Ausrichtung eine Einrichtung aufweist, die unter Ansprechen auf die Sprachmuster-Endrahmen der unmittelbar vorhergehenden Stufe den Bereich der Zeitausrichtungs-Anfangsrahmen für die augenblickliche Stufe einschränkt, und eine Einrichtung, die unter Ansprechen auf die Zeitausrichtungs-Korrespondenzsignale und auf die Zeitausrichtungs-Sprachmuster-Endrahmen das beste Korrespondenzsignal für jedne Zeitausrichtungs-Endrahmen , ferner ein Signal, das das beste Korrespondenz-Bezugswort für jeden Endrahmen darstellt, und ein Signal speichert, das den Zeitausrichtungs-Sprachmuster-Anfangsrahmen entsprechend dem besten Bezugswort für jeden Endrahmen darstellt.
  3. 3. Vorrichtung nach Anspruch 2,
    dadurch gekennzeichnet, daß die Einrichtung zur Begrenzung des Sprachmuster-Anfangsrahmens eine Einrichtung aufweist, die unter Ansprechen auf die besten Zeitausrichtungs-Korrespondenzsignale der vorhergehenden Stufe das minimale beste Korrespondenzsignal der vorhergehenden Stufe auswählt, und eine Einrichtung, die unter Ansprechen auf die besten Zeitausrichtungs-Korrespondenzsignale der vorhergehenden Stufe und des gewählten minimalen, besten Korrespondenzsignals die Zeitausrichtungs-Sprachmuster-Anfangsrahmen der augenblicklichen Stufe auswählt.
  4. 4. Vorrichtung nach Anspruch 3,
    dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung
    der Bezugswortketten eine Einrichtung aufweist, die unter Ansprechen auf die Sprachmuster-Merkmalssignale ein den Sprachmuster-Endrahmen darstellendes Signal erzeugt, ferner eine Einrichtung, die bei jeder Stufe unter Ansprechen auf das minimale, beste Korrespondenzsignal ein Signal erzeugt, das den Sprachmustersegment-Endrahmen mit dem minimalen, besten Korrespondenzsignal darstellt, und eine Einrichtung, die unter Ansprechen darauf, daß das minimale, beste Korrespondenz-Endrahmensignal innerhalb eines vorgeschriebenen Bereichs des Sprachmuster-Endrahmensignals liegt, die Operation der Bezugswortketten-Auswahleinrichtung einleitet.
  5. 5. Vorrichtung nach Anspruch 4,
    dadurch gekennzeichnet, daß die Bezugswortketten-Auswahleinrichtung eine Einrichtung aufweist, die unter Ansprechen auf die gespeicherten Zeitausrichtungs-Sprachmustersegment-Endrahmensignale , die Anfangsrahmensignale und die Bezugswort-Identifiziersignale sowie das Sprachmuster-Endrahmensignal Signale erzeugt, die jede Bezugswortkette darstellen, die einen Zeitausrichtungs-Sprachmuster-Endrahmen innerhalb des vorgeschriebenen Bereichs des Sprachmuster-Endrahmens besitzt.
  6. 6. Vorrichtung nach Anspruch 1,
    dadurch gekennzeichnet, daß die Zeitausrichtungseinrichtung eine Einrichtung zur Auswahl eines Bereichs von Bezugswortrahmen zur Zeitausrichtung mit jedem Sprachmustersegment-Rahmen jeder Stufe einschließlich von Mitteln aufweist, die unter Ansprechen darauf, daß der untere Grenzrahmen des augenblicklichen Bezugswortbereichs kleiner als eine vorbestimmte Zahl ist, den unteren Grenzrahmen des Bezugswortbereichs bis zum Bezugswort-Anfangsrahmen erstreckt, und eine Einrichtung, die unter Ansprechen darauf, daß der obere Grenzrahmen des augenblicklichen Bezugswortbereichs größer als eine zweite vorbestimmte Zahl ist, den oberen Grenzrahmen des Bezugswortbereichs bis zu dem Bezugswort-Endrahmen ausdehnt, wodurch
    -4-Coartikulationseinflüsse vermindert werden.
  7. 7. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Zeitausrichtungseinrichtung eine Einrichtung aufweist, die unter Ansprechen auf die Merkmalssignale des Bezugswortes und die Stufen-Sprachsegment-Merkmalssignale einen Bereich von Bezugswortrahmen für die Zeitausrichtung zu jedem Stufen-Sprachmuster-Segmentrahmen auswählt, und eine Einrichtung, die unter Ansprechen darauf, daß der untere Grenzrahmen des Bezugswortbereichs gleich oder größer als der Bezugswort-Endrahmen einen Stufen-Sprachmustersegment-Zeitausrichtungsendrahmen erzeugt.
  8. 8. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Zeitausrichtungseinrichtung eine Einrichtung aufweist, die bei jeder Bezugswort-Zeitausrichtung der augenblicklichen Stufe unter Ansprechen auf das Bezugswort-Merkmalssignal und die Sprachmustersegment-Merkmalssignale in Tätigkeit tritt, und einen Bereich von Bezugswortrahmen für jeden Sprachmustersegmentrahmen auswählt, sowie eine Einrichtung, die bei jedem Sprachmustersegmentrahmen unter Ansprechen darauf, daß der untere Grenzrahmen der Bezugswortausrichtung gleich oder größer als der Bezugswort-Endrahmen ist, in Tätigkeit tritt, um die Zeitausrichtung des Bezugs-Wortes zu beenden.
  9. 9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet., daß die Zeitausrichtungseinrichtung eine Einrichtung aufweist, die bei jeder Stufen-Bezugswort-Zeitausrichtung unter Ansprechen auf die Bezugswort-Merkmalssignale und die Sprachmustersegment-Merkmalssignale ein Zeitausrichtungs-Korrespondenzsignal für jeden Stufen-Sprachmustersegmentrahmen erzeugt, ferner eine Einrichtung, die unter Ansprechen auf den Stufen-Sprachmustersegmentrahmen ein maximal zulässiges Korrespondenzsignal für den Sprachmustersegmentrahmen erzeugt,
    und eine Einrichtung, die unter Ansprechen darauf, daß das Zeitausrichtungs-Korrespondenzsignal eines Sprachmustersegmentrahmens das maximal zulässige Korrespondenzsignal für den Sprachmustersegmentrahmen übersteigt, die Zeitausrichtung des Stufen-Bezugswortes beendet.
  10. 10. Vorrichtung zur Erkennung eines Sprachmusters als eine Kette vorbestimmter Bezugswörter nach einem der vorhergehenden Ansprüche,
    dadurch gekennzeichnet, daß die Bezugswort-Erzeugungseinrichtung eine Einrichtung aufweist, die unter Ansprechen auf die Stufenidentifiziersignale einen vorgeschriebenen Satz von Bezugswörtern zur zeitlichen Ausrichtung auf jeder Bezugswortstufe auswählt.
  11. 11. Vorrichtung nach Anspruch 1,
    dadurch gekennzeichnet, daß die Einrichtung, die bei jeder aufeinander folgenden Stufe in Tätigkeit tritt, um die Bezugswort- und Sprachmustersegment-Merkmalssignale zeitlich auszurichten, eine Einrichtung aufweist, um eine dynamische Zeitverkettung von Merkmalssignalen jedes Bezugswortes mit den Merkmalssignalen des Sprachmustersegments durchzuführen.
  12. 12. Verfahren zur Erkennung eines Sprachmusters als Kette vorbestimmter Bezugswörter mit den Verfahrensschritten :
    Speichern eines Satzes von Signalen, die die Zeitrahmenfolge akustischer Merkmale jedes Bezugswortes darstellen, wobei die Zeitrahmenfolge einen Anfangs- und einen Endrahmen enthält,
    Erzeugen eines Satzes von Signalen, die die Zeitrahmenfolge akustischer Signale des Sprachmusters darstellen, Erzeugen wenigstens einer Bezugswortkette unter Ansprechen auf die akustischen Sprachmuster-Merkmalssignale und die akustischen Bezugswort-Merkmalssignale, Identifizieren der Sprachmuster als eine der erzeugten
    Bezugswortketten,
    dadurch gekennzeichnet, daß die Erzeugung der Bezugswortketten folgende Schritte umfaßt:
    Erzeugen eines Satzes von Signalen, die aufeinander folgende Bezugswortstufen definieren, Zuordnen eines Segments des Sprachmusters zu jeder aufeinander folgenden Stufe,
    Zeitausrichtung der Sprachmustersegment-Merkmalssignale der Stufe mit den Bezugswort-Merkmalssignalen für jede Stufe, um Stufenzeitausrichtungs-Sprachmustersegment-Endrahmensignale und Zeitausrichtungs-Korrespondenzsignale für die Bezugswörter zu erzeugen,
    Auswählen von Bezugswortketten unter Ansprechen auf die Zeitausrichtungs-Endrahmensignale und die Zeitausrichtungs-Korrespondenzsignale der Stufen.
  13. 13. Verfahren nach Anspruch 12,
    dadurch gekennzeichnet, daß der Verfahrensschritt zur zeitlichen Ausrichtung die Schritte umfaßt:
    Einschränkung des Bereichs der Zeitausrichtungs-Anfangsrahmen für die augenblickliche Stufe unter Ansprechen auf die Sprachmuster-Endrahmen der unmittelbar vorhergehenden Stufe,
    Speichern für jeden Zeitausrichtungs-Sprachsegment-Endrahmen des besten Korrespondenzsignals für diesen Endrahmen, ferner eines Signals, das das beste Korrespondenz-Bezugswort für diesen Endrahmen darstellt, und eines Signals, das den Zeitausrichtungs-Sprachmuster-Anfangsrahmen entsprechend dem besten Bezugswort für diesen Endrahmen darstellt.
  14. 14. Verfahren nach Anspruch 13,
    dadurch gekennzeichnet, daß die Begrenzung der Stufen-Anfangsrahmen folgende Schritte umfaßt:
    Peststellen des Minimums der besten Korrespondenzsignale der vorhergehenden Stufe unter Ansprechen auf die besten
    Zeitausrichtungs-Korrespondenzsignale der vorhergehenden Stufe,
    Auswählen der Zeitausrichtungs-Sprachmustersegment-Anfangsrahmen der augenblicklichen Stufe unter Ansprechen auf die besten Zeitausrichtungs-Korrespondenzsignale der vorhergehenden Stufe und des festgestellten minimalen, besten Korrespondenzsignals der vorhergehenden Stufe.
  15. 15. Verfahren nach Anspruch 14,
    dadurch gekennzeichnet, daß die Erzeugung der Bezugswortketten folgende Schritte aufweist:
    Erzeugen eines den Sprachmuster-Endrahmen darstellenden Signals unter Ansprechen auf die Sprachmuster-Merkmalssignale ,
    für jede Stufe Erzeugen eines Signals, das den Sprachmustersegment-Endrahmen mit dem minimalen, besten Korrespondenzsignal darstellt,
    Einleiten der Bezugswortketten-Auswahl unter Ansprechen darauf, daß das minimale, beste Korrespondenz-Endrahmensignal innerhalb eines vorgeschriebenen Bereichs des Sprachmuster-Endrahmensignals liegt.
  16. 16. Verfahren nach Anspruch 15,
    dadurch gekennzeichnet, daß die Bezugswortketten-Auswahl den Verfahrensschritt umfaßt:
    Erzeugen von Signalen, die jede Bezugswortkette darstellen, welche einen Zeitausrichtungs-Sprachmuster-Endrahmen innerhalb eines vorgeschriebenen Bereichs des Sprachmuster-Endrahmens besitzt, und zwar unter Ansprechen auf die gespeicherten Zeitausrichtungs-Sprachmustersegment-Endrahmensignale , die Anfangsrahmensignale und die Bezugswort-Identifizierungssignale.
  17. 17. Verfahren nach Anspruch 12,
    dadurch gekennzeichnet, daß die Zeitausrichtung folgende Schritte umfaßt::
    Auswahl eines Bereichs von Bezugswortrahmen zur Zeitausrichtung mit jedem Sprachmustersegment-Rahmen jeder Stufe
    unter Ansprechen auf die Bezugswort-Merkmalssignale und die Sprachmustei'segment-Merkmalssignale einschließlich Ausdehnen des unteren Grenzrahmens des Bezugswortbereichs bis zum Bezugswort-Anfangsrahmen unter Ansprechen darauf, daß der untere Grenzrahmen des gewählten Bezugswortbereichs kleiner als eine vorbestimmte Zahl ist, und aus denen des oberen Grenzrahmens des gewählten Bezugswortbereichs bis zum Bezugswort-Endrahmen unter Ansprechen darauf, daß der obere Grenzrahmen des gewählten Bezugswortbereichs größer als eine zweite vorbestimmte Zahl ist.
  18. 18. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß die Zeitausrichtung folgenden Schritt umfaßt:
    Auswählen eines Bereichs von Bezugswortrahmen für die Zeitausrichtung mit jedem Stufen-Sprachmustersegmentrahmen unter Ansprechen auf die Merkmalssignale des Bezugswortes und die Stufen-Sprachsegment-Merkmalssignale , sowie Erzeugen eines Stufen-Sprachmustersegment-Zeitausrichtungsendrahmens unter Ansprechen darauf, daß der untere Grenzrahmen des gewählten Bezugswortbereichs gleich oder größer als der Bezugswort-Endrahmen ist.
  19. 19. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Zeitausrichtung folgende Schritte umfaßt:
    Auswahl eines Bereichs von Bezugswortrahmen für jeden Sprachmustersegmentrahmen jeder Stufe unter Ansprechen auf die Bezugswort-Merkmalssignale und die Sprachmuster-Merkmalssignale ,
    Beendigen der Zeitausrichtung des Stufen-Bezugswortes unter Ansprechen darauf, daß der untere Grenzrahmen des gewählten Bezugswortbereichs gleich oder größer als der Bezugswort-Endrahmen ist.
  20. 20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, daß die Zeitausrichtung folgende Schritte umfaßt:
    Erzeugen eines Zeitausrichtungs-Korrespondenzsignals für jeden Stufen-Sprachmustersegmentrahmen unter Ansprechen auf die Bezugswort-Merkmalssignale und die Stufen-Sprachmuster-Merkmalssignale,
    Erzeugen eines maximal zulässigen Korrespondenzssignals für den Sprachmustersegmentrahmen unter Ansprechen auf den Stufen-Sprachmustersegmentrahmen , Beendigung der Zeitausrichtung des Stufen-Bezugswortes unter Ansprechen darauf, daß das Zeitausrichtungs-Korrespondenzsignal eines Sprachmustersegmentrahmens das maximal zulässige Korrespondenzsignal für den Rahmen übersteigt.
  21. 21. Verfahren nach einem der Ansprüche 12-20, dadurch gekennzeichnet, daß die Bezugswortkettenerzeugung die Auswahl eines vorgeschriebenen Satzes von Bezugswörtern für die Zeitausrichtung auf jeder Bezugswortstufe unter Ansprechen auf die Stufenidentifiziersignale umfaßt.
DE19823211313 1981-03-27 1982-03-26 Verfahren und vorrichtung zur kontinuierlichen sprachmustererkennung Granted DE3211313A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/248,570 US4400788A (en) 1981-03-27 1981-03-27 Continuous speech pattern recognizer

Publications (2)

Publication Number Publication Date
DE3211313A1 true DE3211313A1 (de) 1982-11-11
DE3211313C2 DE3211313C2 (de) 1988-06-16

Family

ID=22939686

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19823211313 Granted DE3211313A1 (de) 1981-03-27 1982-03-26 Verfahren und vorrichtung zur kontinuierlichen sprachmustererkennung

Country Status (6)

Country Link
US (1) US4400788A (de)
JP (1) JPS57169800A (de)
CA (1) CA1167967A (de)
DE (1) DE3211313A1 (de)
FR (1) FR2502822A1 (de)
GB (1) GB2095882B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3215868A1 (de) * 1982-04-29 1983-11-03 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58100195A (ja) * 1981-12-10 1983-06-14 日本電気株式会社 連続音声認識装置
JPS58111989A (ja) * 1981-12-25 1983-07-04 シャープ株式会社 音声認識装置
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
JPS60122475A (ja) * 1983-11-15 1985-06-29 Nec Corp パタン認識装置
JPS60211498A (ja) * 1984-04-05 1985-10-23 日本電気株式会社 連続音声認識装置
JP2607457B2 (ja) * 1984-09-17 1997-05-07 株式会社東芝 パターン認識装置
US4783809A (en) * 1984-11-07 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Automatic speech recognizer for real time operation
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
JPS61145599A (ja) * 1984-12-19 1986-07-03 日本電気株式会社 連続音声認識装置
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4748670A (en) * 1985-05-29 1988-05-31 International Business Machines Corporation Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPS62169199A (ja) * 1986-01-22 1987-07-25 株式会社デンソー 音声認識装置
JPS62232000A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
DE3711342A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen zusammenhaengend gesprochener woerter
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
US4910669A (en) * 1987-04-03 1990-03-20 At&T Bell Laboratories Binary tree multiprocessor
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
EP0316112A3 (de) * 1987-11-05 1989-05-31 AT&T Corp. Anwendung von statischen und dynamischen Spektralinformationen in Spracherkennungssystemen
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
US5119425A (en) * 1990-01-02 1992-06-02 Raytheon Company Sound synthesizer
WO1992006469A1 (en) * 1990-10-02 1992-04-16 The Dsp Group, Inc. Boundary relaxation for speech pattern recognition
DE19540859A1 (de) * 1995-11-03 1997-05-28 Thomson Brandt Gmbh Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
US6157731A (en) * 1998-07-01 2000-12-05 Lucent Technologies Inc. Signature verification method using hidden markov models
DE10015858C2 (de) * 2000-03-30 2002-03-28 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
DE10015859C2 (de) * 2000-03-30 2002-04-04 Gunthard Born Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
US7050973B2 (en) * 2002-04-22 2006-05-23 Intel Corporation Speaker recognition using dynamic time warp template spotting
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
US9202520B1 (en) 2012-10-17 2015-12-01 Amazon Technologies, Inc. Systems and methods for determining content preferences based on vocal utterances and/or movement by a user

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4049913A (en) * 1975-10-31 1977-09-20 Nippon Electric Company, Ltd. System for recognizing speech continuously spoken with number of word or words preselected
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
JPS5938599B2 (ja) * 1975-03-12 1984-09-18 日本電気株式会社 連続音声認識装置
JPS5938600B2 (ja) * 1975-10-31 1984-09-18 日本電気株式会社 レンゾクオンセイニンシキソウチ
JPS592040B2 (ja) * 1976-08-24 1984-01-17 日本電信電話株式会社 音声認織装置
US4092493A (en) * 1976-11-30 1978-05-30 Bell Telephone Laboratories, Incorporated Speech recognition system
JPS552205A (en) * 1978-06-20 1980-01-09 Kogyo Gijutsuin Real time continuous sound discriminator

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
US4049913A (en) * 1975-10-31 1977-09-20 Nippon Electric Company, Ltd. System for recognizing speech continuously spoken with number of word or words preselected
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ITAKURA, F., Minimum Prediction Residual Applied to Speech Recognition, In: IEEE Transactions on Acoustics, Speech and Signal Processing, Bd. ASSP-23, 1975, S. 67-72 *
LAU, S.Y., Let a Bipolar Processor Do Your Control and Take Advantage of Its Speed In. Electronic Design, 1979, Nr. 4, S. 128-139 *
RABINER ET AL, Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition, Bd. ASSP-26, 1978, S. 575-582 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3215868A1 (de) * 1982-04-29 1983-11-03 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette

Also Published As

Publication number Publication date
CA1167967A (en) 1984-05-22
DE3211313C2 (de) 1988-06-16
JPH0416800B2 (de) 1992-03-25
FR2502822B1 (de) 1985-02-08
GB2095882B (en) 1985-06-19
US4400788A (en) 1983-08-23
FR2502822A1 (fr) 1982-10-01
JPS57169800A (en) 1982-10-19
GB2095882A (en) 1982-10-06

Similar Documents

Publication Publication Date Title
DE3211313A1 (de) Verfahren und vorrichtung zur kontinuierlichen sprachmustererkennung
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
EP0299572B1 (de) Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69914368T2 (de) Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE2953262C2 (de)
DE3317325C2 (de)
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE3242866C2 (de)
DE3135483C2 (de) Verfahren und Schaltungsanordnung zur Erkennung einer alphanumerischen Eingangszeichenkette
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69917960T2 (de) Phonembasierte Sprachsynthese
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE69028021T2 (de) Einrichtung zur Erkennung von kontinuierlicher Sprache
EP1159733B1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1435087A1 (de) Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8125 Change of the main classification

Ipc: G10L 1/00

8127 New person/name/address of the applicant

Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US

D2 Grant after examination
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN