DE3242866A1 - Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern - Google Patents

Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern

Info

Publication number
DE3242866A1
DE3242866A1 DE19823242866 DE3242866A DE3242866A1 DE 3242866 A1 DE3242866 A1 DE 3242866A1 DE 19823242866 DE19823242866 DE 19823242866 DE 3242866 A DE3242866 A DE 3242866A DE 3242866 A1 DE3242866 A1 DE 3242866A1
Authority
DE
Germany
Prior art keywords
pronunciation
signal
frame
signals
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19823242866
Other languages
English (en)
Other versions
DE3242866C2 (de
Inventor
Frank Christopher 07940 Madison N.J. Pirz
Lawrence Richard 07922 Berkeley Heights N.J. Rabiner
Jay Gordon 07060 Warren N.J. Wilpon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of DE3242866A1 publication Critical patent/DE3242866A1/de
Application granted granted Critical
Publication of DE3242866C2 publication Critical patent/DE3242866C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Description

Technisches Gebiet
Die Erfindung bezieht sich auf Sprachverarbeitung und, :
spezieller, auf Sprachmustererzeugung ^ür die automati- j
sehe Sprachsynthese und -erkennung.
Während Menschen die Sprache als bequemes und wirksames Mittel für die Kommunikation empfinden, sind Maschinen im allgemeinen durch programmierte Anordnungen derart organisiert, daß sie mittels Schalter, Tastaturen und Anzeigen in codierten Formaten kommunizieren. Fortschritte in der Elektroniktechnologie haben es möglich gemacht, eine Sprachschnittstelle für Maschinen, wie z. B„ Rechner oder automatische Steuerungsanlagen, zu schaffen. Entsprechend bekannter Methoden werden Maschinensignale an einen Sprachsynthesizer geliefert, -ier ein gespeichertes Vokabular codierter Sprachelemente enthält. Dann wird das Sprachmuster über einen elektroakustischen Wandler in eine gesprochene Nachricht umgesetzt. Ein Spracherkenner empfängt eine Aussprache und vergleicht das Aussprachemuster mit vorab gespeicherten Sprachmustern. Die Aussprache kann identifiziert werden als das am besten übereinstimmende gespeicherte Muster, und es wird ein Maschinensignal erzeugt, welches dem übereinstimmenden Muster entspricht. Hierdurch wird Sprach-
Ϋ'—
kommunikation mit Maschinen erreicht.
In einer anderen Art von Sprachsynthese werden Sprachmuster aufgezeichnet, um ein gespeichertes Vokabular zu schaffen. Ansprechend auf ein codiertes Signal werden aus dem gespeicherten Vokabular von Sprachelementen ausgewählte Muster wiederaufgefunden und zu einem Nachrichtensignal zusammengesetzt. Das Nachrichtensignal wird dann in eire Tonfolge umgesetzt. Bei den Grund-Spracheinheiten in dem gespeicherten Vokabular kann es sich um große Nachrichteneinheitein handeln. Wenn ein umfassendes Vokabular erforderlich ist, wird der Speicherbedarf für die verschiedenen Nachrichten-Sprachmuster unwirtschaftlich.
Die Verwendung von Unternachrichteneinheit-Mustern gestattet größere Flexibilität in der Bildung von Nachrichten und geringeren Vokabularspeicherbedarf. Unterwortspracheinheiten, wie Phoneme, Allephone, Halbsilben oder Dyaden beispielsweise, gestatten die Erzeugung einer großen Vielfalt von Nachrichten aus einem sehr begrenzten gespeicherten Vokabular. Wie bekannt ist, werden Unterwortspracheinheiten im allgemeinen aus Wortlängenmustemder normalen Sprache abgeleitet. Der Vorgang des Erzeugens von Unternachrichteneinheit-
BAD ORIGINAL
Merkmalen aus der normalen Sprache ist jedoch kompliziert,, erfordert eine zeitaufwendige Analyse und das Eingreifen und Modifizieren durch Fachleute.
Die meisten Spracherkennungssysteme sind so ausgelegt, daß sie Eingangs-Sprachsignale empfangen und diese Sprachsignale in eine Folge vorgeschriebener Schallmerkmale umsetzen. Die eingegebene Sprachschallmarkmal-Sequenz wird verglichen mit gespeicherten Sätzen von für identifizierte Spracheinheiten vorab ermittelten Bezugsmerkmalen. Das Sprachsignal wird identifiziert, wenn die eingegebene Sprachmerkmal-Sequens nach Maßgabe vorbestimmter Kriterien einem gespeicherten Satz von Bezugsmerkmalen entspricht. Wenn die Bezugsspracheinheiten gesprochene Worte sind, können aus den Aussprachen des gesprochenen Wortes direkt Bezugs-Sprachmerkmalsohablonen abgeleitet werden. Wort-, Wortverbindungs- oder Satzschablonen eignen sich für begrenzte Vokabulare. Für größere Vokabulare jedoch wird der Schablonenspeicherbedarf unwirtschaftlich.
Wie bei der Sprachsynthese ist es wünschenswert, den Schablonenspeicherbedarf von Spracherkennern durch Verwendung von Unternachrichteneinheit-Sprachmustern zu
-X-
beschränken. Gespeicherte Unternachrichteneinheit-Schablonen können in einem Spracherkenner direkt zum Identifizieren eines eingegebenen Sprachmusters verwendet werden, wie es in dem für G. L. Clapper am 6. Nov. 1973 erteilten US-Patent 3 770 892 beschrieben ist, oder Sie können zur Bildung längerer Nachrichtenmuster-Schablonen selektiv verknüpft werden. Bei auf Sprachmuster spezieller Sprecher angepaßten Erkennern ist es notwendig, für jeden Benutzer des Systems ein Vokabular von Unternachrichteneinheit-Bezugsschablonen zu erhalten. Sprecherunabhängige Anordnungen zum Erkennen der Sprachmuster irgendeines Sprechers benötigen einen Satz von Unternachrichteneinheit-Schablonen, der repräsentativ für eine große Bevölkerung ist. Folglich muß nach dem Mitteln oder Gruppieren der von vielen Sprechern erhaltenen Spracnmustermerkmalen eine Anzahl von Unternachrichteneinheit-Schablonen geschaffen werden.
Im Idealfall sollte für jede einzelne Person, deren Sprache zu erkennen ist, ein Satz von Unternachrichteneinheit-Schablonen erzeugt werden. Jedoch macht es die komplizierte und zeitaufwendige Prozedur der Schablonenbildung schwierig, auf diese Weise mehr als ehige wenige Schablonensätze zu erzeugen. Das am 29. Nov. 1977 an
BAD ORlGINAi.
M. Suzuki erteilte US-Patent 4 060 694 offenbart eine Spracherkennungsanordnung, die für mehrere unterschiedliche Sprecher ausgebildet ist. In diesem System wird ein Satz von Phonemkennzeichenparametern für einen ein-. zelnen Sprecher ermittelt. Anstatt für andere Sprecher zusätzliche Phonemkennzeichen zu bilden, werden die zuvor erzeugten Phonemkennzeichen künstlich variiert, um einen Bereich von Phonemkennzeichensätzen zu erzeugen.
Vor dem Erkennen einer Äußerung wird aus dem künstlich erzeugten Bereich derjenige Phonemsatz ausgewählt, der der Äußerung am meisten ähnlich ist. Auf diese Weise wird die zeitaufwendige Prozedur der Phonemerzeugung vermieden. Der künstliche Phonemsatz jedoch approximiert nur die tatsächlichen Unterschiede in Stimm- und Aussprachekennzeichen zu einem ungewissen Ausmaß. Demzufolge erhöht die Verwendung künstlich gebildeter Phonemsätze den Grad der Unsicherheit der Erkennungsergebnisse. Es ist ein Ziel der Erfindung, eine verbesserte Unternachrichteneinheit-Schablonenerzeugung ohne manuelle Analyse oder dem Hilfsmittel künstlicher Variation eines bekannten Untereinheit-Sprachmusters zu schaffen.
ί. -T
Darstellung der Erfindung
Die Erfindung ist auf eine Anordnung zum Erzeugen von Sprachmustern gerichtet, in der mehrere Bezugs-Sprachmusterschablonen gespeichert sind. Jede Schablone umfaßt eine Sequenz von Schallmerkmalsignalen, die repräsentativ sind für ein vorgeschriebenes gesprochenes Bezugs-Sprachmuster. Für jede Bezugs-Sprachmusterschablone wird außerdem ein Satz von Signalen gespeichert, der repräsentativ ist für eine vorbestimmte Untereinheit in der Merkmalsignalsequenz der Bezugs-Sprachmusterschablone. Die Aussprache aines vorgeschriebenen Bezugs-Sprachmusters wird analysiert, um eine Sequenz von Schallmerkmalsignalen zu erzeugen, die für die Aussprache repräsentativ sind. Ansprechend auf die gespeicherte Merkmalsignalsequenz des Bezugs-Sprachmusters und auf die Merkmalsignalsequenz der Aussprache des Bezugs-Sprachmusters wird ein Satz von Signalen gebildet, die die Zeitausrichtung der Aussprache-Merkmalsignale mit den gespeicherten Merkmalsignalen darstellt. Ansprechend auf die Zeitausrichtungssignale und die für die gespeicherte Untereinheit repräsentativen Signale wird die Sequenz von Aussprache-Merkmalsignalen ausgewählt, die der vorbestimmtan Untereinheit in der gespeicherten Bezugs-Sprachmusterschablone entspricht.
BAD
Die Bezugs-Sprachmuster können Bezugs-Wortmuster sein, und die Untereinheit-Sprachmuster sinä solche Unterworteinheit-Muster, wie sie für Phoneme, Allephone, Halbsilben oder andere bekannte Komponenten gesprochener. Wörter erhalten werden.
Kurze Beschreibung der Zeichnungen
Fig. 1 zeigt ein Blockdiagramm eines für die Erfindung beispielhaften Sprachmustergenerators;
Fig. 2 zeigt ein detailliertes Blockdiagramm des in der Schaltung nach Fig. 1 enthaltenen Halbsilbensegment-Selektors; und
Fig. 3 zeigt ein Flußdiagramm eines für die Erfindung beispielhaften Sprachmuster-rErzeugungsprozesses.
Bester Weg zur Ausführung der Erfindung
Fig. 1 zeigt ein Blockdiagramm eines Unterworteinheit-Sprachmustergenerators, der so ausgebildet ist, daß er einen Satz von Unterworteinheit-Schablonen für unterschiedliche Sprecher auf der Grundlage eines Satzes von vorab
2Z
-y-
gespeicherten Bezugsschablonen liefert. Es soll verstanden werden, da.'i die gespeicherten Bezugsschablonen Wortverbindungen oder Nachrichten und die Untereinheiten Wörter oder andere Nachrichten-Untereinheiten sein können. Ein Speicher 150 enthält einen Satz von vorbestimmten Bezugs-Wortschablonen, die zuvor nach herkömmlichen Methoden gewonnen wurden. Der Speicher 150 kann beispielsweise ein INTEL 2716 2Kx8 EPROM oder ein ähnliches Bauelement sein. Jede Schablone in dem Speicher 150, z. B. R , enthält eine Sequenz von Schallmerkmalsignalen.
R1 = R1O) , ?}(2) , ...,R1Cm), ..., R1CM1) (1)
ist repräsentativ für das Bezugswort, wie es von einem oder mehreren Sprechern gesprochen wird, sowie für Signale, die den Grenzrahmen NRI(I) und NR2(I) eines vorge schriebenen Unterworteinheit-Abschnitts, z. B. einer Halbsilbe des Bezugswortes entsprechen. Beispielsweise kann das phonetische Bezugswort das Wort "back" und der vorgeschriebene Unterworteinheit-Abschnitt die End-Halbsilbe "ack" sein. Die Grenzrahmen bezeichnen die Stelle der Merkmalsignale für die Halbsilbe "ack".
Das Plußdiagramif. in Fig. 3 veranschaulicht den Erzeu-
BAD ORIGINAL·
- yr-
gungsprozeß von Halbsilben-Sprachmustern. Am Anfang liefert ein Sprecher ein Startsignal ST sowie ein Sprecher-Identifizierungssignal SP, wie es in dem Tätigkeitskästchen 300 dargestellt ist. Das Bezugswort -Identifikationssignal I wird in dem Kästchen 305 für Indexinitialisierung auf .1 eingestellt, und gemäß dem Tätigkeitskästchen 310 wird eine Befehlsnachricht erzeugt, die den Sprecher auffordert, seine Aussprache des Bezugswortes I einzugeben. Die Aussprache des Sprechers wird analysiert, und in dem Tätigkeitskästchen 315 wird eine Zeitrahmensequenz von Ausspracheinerkmalsignalen erzeugt:
T1 = T1H), T1 (2), ... T1CN. (2)
Die Länge der Aussprache wird mit einem vorgeschriebenen Bereich verglichen, um mögliche Endpu.iktfehler im Kästchen 315 festzustellen. Für den Fall, daß die Dauer der Aussprache außerhalb des vorgeschriebenen Bereichs liegt, geht die Steuerung über das Entscheiduftgskästchen 320 über zu einem Tätigkeitskästchen 370, und es wird eine Nachricht zum Wiederholen der Ausspräche erzeugt. Dann wird in dem Tätigkeitskästchen 310 erneut die Aufforderung zur Aussprache des Worts I erzeugt, und die wiederholte Aussprache des Wortes I wird in dem Kästchen 315 analysiert.
-VC-
Gemäß Fig. 1 liefert ein identifizierter Sprecher SP, für den Halbsilbenschablonen erzeugt werden sollen, ein kurzes Startsignal ST über einen Codegenerator 103 an eine Steuerung 140, sowie ein Identifikationssignal SP. Der Generator 103 kann einen bekannten Tastatur-Codegenerator enthalten. Bei der Steuerung 140 kann es sich um eine Mikroprozessoranordnung handeln, wie sie z. B. in dem Artikel "Let a Bipolar Processor Do Your Control and Take Advantage of Its High Speed" von Stephen Y. Lau auf den Seiten 128 bis 139 von Electronic Design, 4, Februar 1979 beschrieben ist. Die Steuerung ist entsprechend dauernd gespeicherter Befehle so ausgelegt, daß sie ansprechend auf die an sie angelegte Steuersignalsequenz eine Sequenz von Steuersignalen liefert, die auf ihrer rechten Seite dargestellt sind. Die gespeicherten Befehle für den Betrieb der Steuerung sind im Anhang A in FORTRAN-Sprache aufgelistet.
Ansprechend auf das Signal ST erzeugt die Steuerung Steuerimpulse WRS (Wortzähler zurücksetzen) und MST (Nachrichtenstart). Der Impuls WRS stellt einen Wortzähler 165 auf den Zustand 1=1 zurück, so daß die erste Bezugsschablone in dem Speicher 150 adressiert wird. Bei dem 'Zähler 165 kann es sich um eine integrierte Schaltung vom Typ 74193 handeln. Der Impuls MST wird
BAD ORIGINAL
IS
- γί-
an einen Nachrichtengenerator 135 angelegt, der in bekannter Weise so arbeitet, daß er eine synthetische gesprochene Nachricht erzeugt, die den Sprecher SP auffordert, das Bezugswort 1=1 auszusprechen. Bei dem Nachrichtengenerator 135 kann es sich um den Standard-Vokabularbau sat ζ DT1O5O DIGITALKER (Warenzeichen) von National Semiconductor handeln. Nach Beendigung der Befehlsnachricht liefert der Generator 135 ein Signal MD (Nachricht abgegeben) an die Steuerung 140, um anzuzeigen, daß die Aussprache des Sprechers am Mikrophon 101 erwartet wird.
Ansprechend auf das Signal MD erzeugt die Steuerung einen Steuerimpuls AS. Der Impuls AS wird an einen Merkmalsignalgenerator 115 gelegt, um dessen Betrieb zu veranlassen. Das vom Mikrophon 101 kommende Sprachsignal wird an eine Tiefpaßfilter- und Abtastschaltung 105 gelegt, die die Bandbreite des Sprachsigials auf den Bereich zwischen beispielsweise 100 Hz und 3200 Hz beschränkt und das bandbegrenzte Sprachsignal beispielsweise mit 6667 Hz abtastet. In bekannter Weise werden alle aufeinanderfolgenden Sprachsignalabtastungen von einem Analog-Digital-Umsetzer 110 in ein digitalcodiertes Signal umgewandelt.
- yr-
Der Merkmalsignalgenerator 115 empfängt die digitalen Abtastungen vom Umsetzer 110 und erzeugt die für das Sprachsignal repräsentative Zeitsequenz von linearen Vorhersage-Mer'cmalsignalen T . Der Generator 115 liefert außerdem einen Impuls WR (Schreiben) für alle aufeinanderfolgenden MerkmalSignaIrahmen an FIFO-Speicher und 122. Ansprechend auf die Folge von WR-Impulsen werden die Merkmalsignale von T sukzessive in die First-in-First-out-Speicher 120 und 122 eingegeben. Jeder dieser FIFO-Speicher kann eine 8 χ 60-FIFO-RAM-Steuerung von Signetics sein.
Bei dem Merkmalsignalgenerator 115 kann es sich um den Generator für lineare Prädiktor-Koeffizienten handeln, der in dem für L. R. Rabiner u. a. am 30. Mai 1978 erteilten US-Pat3nt 4 092 493 beschrieben ist, und er kann außerdem einen Endpunktdetektor enthalten, wie er in dem L. R. Rabiner u. a. am 30. September 1975 erteilten US-Patent 3 909 532 offenbart ist. Der Endpunktdetektor ist so ausgebildet, daß er die Beendigung einer an das Mikrophon 101 gelangenden Aussprache erfaßt. Für den Fall, daß ein Endpunkt nicht innerhalb einer vorgeschriebenen Zeitdauer auftritt, wird von dem Generator 115 ein Signal EPE (Endpunktfehler) erzeugt. Das Signal
BAD
EPE gelangt über ein ODER-Glied 137 an den Nachrichtengenerator 135. Das Ausgangssignal ERR des ODER-Gliedes 137 veranlaßt die Steuerung 140 zum Erzeugen eines Signals MSTj, welches seinerseits die Erzeugung einer Nachricht zur Wortwiederholung veranlaßt. Nachdem von dem Generator 135 das Signal MD (Nachricht abgegeben) empfangen ist, liefert die Steuerung 140 einen Impuls AS an den Generator 115. Der Impuls ÄS veranlaßt die Merkmalsignalerzeugung für die erwartete wiederholte Aussprache.
Wie bekannt ist, ändern sich Artikulation und Sprachgeschwindigkeit von Person zu Person beträchtlich. Das gespeicherte Bezugs-Wortrnerkmalmuster R besitzt M Rahmen, während das Aussprachemerkmalmuster T N ψ Μ_ Rahmen haben kann. Um den durch Schwankungen der Sprechgeschwindigkeit verursachten Unterschied zwischen Schallmerkinalmustern zu beseitigen, werden die Aussprachenerkmaisignale linear skaliert, so daß die Dauer der Aussprache auf M geändert wird, wie es dem Tätigkeitskästehen 325 in Fig. 3 entspricht. Der Skalenfaktor N/M wird zurückbehalten , um zu einem späteren Zeitpunkt die umgekehrte Skalierung zu ermöglichen. Das modifizierte Aussprachemuster U ist ein M -Rahmenmuster. Die Artikulationsunterschiede jedoch führen zu einer nicht-linearen Beziehung zwischen der modifizierten Aussprachemerkmal-
Signalsequenz ü und der Bezugswortmerkmal-Sequenz R ,
Um die Beziehung zwischen den modifizierten Aussprachemusterrahmen und den Bezugswortmusterrahmen zu bestimmen, wird die Signalsequenz des modifizierten Aussprachmerkmals gemäß dem Tätigkeitskästchen 330 dynamisch auf die Sequent des Bezugswortmerkmals zeitlich verzogen. Durch das dynamische zeitliche Verziehen werden ein Signal, das repräsentativ ist für die beste Entsprechung zwischen dem Bezugswort und den eingegebenen Aussprachemerkmal-Signaliiiustern, und ein Satz von Signalen d , der repräsentativ ist für diejenige Sequenz von Ausspracherahmen, die am besten den Bezugswortrahmen entspricht, erzeugt. Das Entsprechungssignal wird in dem Entscheidungskästchen 335 mit einem vorbestimmten Schwellenwert TH1 verglichen. Wenn die modifizierten Aussprache- und Bezugswortmuster nicht ausreichend ähnlich sind, wird das Kästchen 370 betreten und die Aussprache wird in der zuvor beschriebenen Weise wiederholt.
Gemäß Fig. 1 liefert der Generator 115 nach Beendigung der Merkmalsignalerzeugung für die Aussprache des Wortes I einen Impuls AD an die Steuerung 140. Zu dieser Zeit enthält jeder der Speicher 120 und 122 den Satz von
BAD ORIGINAL
Merkmalsignalen T für die zugeführte /ussprache. Ein Linear-Zeitverziehungsprozessor T-4 5, der die in dem P, E, Chrochiere u. a. am 26. April 1977 erteilten US-Patent 4 020 332 offenbarte Schaltung enthalten kann,, ist so ausgebildet, daß er die Merkmalsignale vom Speicher 122 derart modifiziert, daß die Aussprachemerkmalsignale denselben Zeitraum belegen wie die gespeicherten Bezugsmerkma!signale für dasselbe Wort in dem Bezugsschablonenspeicher 150«, In der Tat wird die Anzahl von Rahmen der zugeführten Aussprache (N) in die Anzahl von Rahmen (M_) der Bezugsschablone für das Wort in dem Speicher 150 geändert. Ein dem Skalenfaktor N/M entsprechendes Signal SF wird erzeugt und in dem Prozessor 145 gespeichert.
Nach Beendigung der Merkmalsignalerzeugung im Generator 115 wird der Steuerimpuls AD vom Generator 115 an die Steuerung 140 gelegt. Ansprechend auf den Impuls AD liefert die Steuerung 140 einen Steuerimpuls LS an den Linear-Zeitverziehungsprozessor 145, wodurch der Vorqahg der linearen zeitlichen Verziehung in Gang gesetzt wird. Der Prozessor 145 empfängt die Sequenz von Merkmalsignalen vom FIFO-Speicher 122 und modifiziert diese Merkmalsignale derart, daß die Sequenz von M hinsichtlich des Rahmens modifizierten Merkmalsignalen
U1 = U1O) , U1 (2) , . .. UX(j) , . .. U1M ) (3)
erzeugt werden. Die modifizierten Aussprachemerkmalsignale werden in einem rahmenweise adressierbaren Speicher des Prozessors 145 gespeichert.
Die zeitliche Ausrichtung zwischen den modifizierten Aussprachemustern und den gespeicherten Bezugswort-Sprachmustern muß bestimmt werden, um den Unterschieden in der Artikulation zwischen dem Bezugswort R und der modifizierten Ausspnche U Rechnung zu tragen. Wie bekannt ist, können die modifizierten Aussprachemerkmalsignale zeitlich auf die Bezugsmerkmalsignale verzogen werden, um das am besten übereinstimmende Entsprechungssignal zu bilden:
, U1) = Ir ?
™" I
wobei w(i) der optimale Zeitverziehungsfaktor zwischen den Merkmalsvektoren U und R ist und
= d(RT(i), U1 (j)) = 1Og(R1Ci)-U1Cj)) (5)
der örtliche /abstand zwischen den Merkmalsvektoren des Rahmens i der modifizierten Aussprachemerkmale U und dem Rahmen j = w(i) der gespeicherten Bezugsmerkmale R
BAD ORIGINAL·
J I 4 Z ■ ö D D
ist. w(i) ist für gewöhnlich beschränkt,, so daß die Steigung des Verziehungsfaktors w(i) dem Bereich der erwarteten Sprachmusterrahmen entspricht» Nachdem die Verarbeitung der Gleichung (4) abgeschlossen ist, stellt D (R , U ) die beste Ähnlichkeit zwischen den modifizierten AusSprachemerkmalen und den Bezugswortmerkmalen dar, und der Verziehungsfaktor w(i) entspricht dem Zeitausrichtungsweg zwischen den modifizierten Aussprachemerkmalen und den Bezugsmerkmalen nach Gleichung (4).
Bei dem Vorgang der dynamischen Zeitverziehung werden die möglichen Zeitausrichtungswege zwischen den gespeicherten Bezugsmerkmalen und den modifizierten Aussprache™ merkmalen nach Maßgabe folgender Beziehung durch Punkte (i, j) gelegt:
DA(i, j) = d(i, j) +min CD^i-1, Ic)]
1 ~ i £M sind die Bezugswort-Merkmalrahmen. 1ά j ^M sind die modifizierten Aussprache-Merkmalrahmen, und da(i, j) ist das aufgelaufene Abstände signal für einen Weg vom Punkt (1,1) zum Punkt (i,j). 6(i,j) ist der ört
-JW-
liche Abstand (Gleichung (5)) zwischen den modifizierten Aussprachemerkmalsvektoren am modifizierten Aussprache-Merkmalrahmen j und den Bezugsworfcmerkmalsvektoren am Bezugswort-Merkmalrahmen i.
Der Term ganz .rechts in Gleichung (6) stellt die bis zum Bezugswortrahmen i-1 und dem modifizierten Ausspracherahmen j~I2 k J ** 1I aufgelaufene Entfernung dar. Der Rahmen I1 wird so gewählt, daß er den zulässigen Artikulationsunterschieden entspricht. Er wird für gewöhnlich auf 1 eingestellt, wenn w(i-1) = w(i-2), während er sonst auf Null eingestellt wird. I_ wird typischerweise auf 2 eingestellt. Somit erstreckt sich k über den Bereich von j-2 bis j-1, wenn w(i-1) = w(i-2), und erstreckt sich sonst über den Bereich von j-2 bis j. Dynamische ZeitverZiehungsanordnungen sind ausführlicher beschrieben in dem Artikel "Minimum Prediction Residual Principle Applied to Speech Recognition" von F. Itakura in IEEE Transactions on Acoustics, Speech and Speech Processing, Vol. ASSP-23, Seiten 67 bis 72, Februar 1975, sowie in dem Artikel "Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition" von L. R. Rabiner, A. E. Rosenberg und S. E. Levinson, IEEE Transactions on Acoustics, Speech and Signal Processing/ Vol. ASSP-26, Seiten 575 bis 582, Dezember 1978.
BAD ORIGINAL
In der Schaltung nach Fig. 1 ist der dynamische Zeitverziehungsprozessor 155 so ausgebildet, daß er entsprechend Gleichung (4) ein Gesamtabstandssignal D erzeugt» Wie oben erwähnt wurde, ist das Signal D ein Maß für die beste Ähnlichkeit zwischen den modifizierten Aussprachemerkmalen U und den Bezugswortmerkmalen des Bezugswortes R . Es wird weiterhin ein Satz von Zeitausrichtungssignalen erzeugt,, die kennzeichnend sind für den Zeitverziehungsweg w(i) zwischen den am besten entsprechenden Merkmalssignalen U (j) und R (i).
Der dynamische Zeitverziehungsprozessor 155 kann eine Anordnung sein, wie sie in der von Data General Corporation, Westboro, Massachusetts mit Copyright von Data General Corporation in der Druckschrift Microproducts Hardware System aus dem Jahre 1979 beschrieben ist, oder er kann andere bekannte Prozessorsysteme enthalten. Der Prozessor 155 kann die Micro-NOVA MP 100-System-Verarbeitungseinheit, den dynamischen Schreib/Lese-Speicher MP 1100 4K/8K, den programmierbaren Fe.stspeicher MP/100 8K und ein oder mehrere Digital-E/A-Schnittstelleneinheiten vom Typ 422 enthalten. Der Arbeitsablauf des Prozessors wird bestimmt durch die in seinem Festspeicher dauernd gespeicherten Befehle. Diese Befehle sind im Anhang B in FORTRAN-Sprache aufgelistet. Der nach Maßgabe der
dauernd gespeicherten Befehle gemäß Anhang B arbeitende Prozessor 155 führt für jeden Bezugswortrahmen i den dynamischen Zeitverziehungsvorgang gemäß Gleichung (6) durch. Die Auswahl der Bezugswortrahmen für die Zeitausrichtung erfolgt nach Maßgabe der Gleichung (6).
Nach Beendigung der Aussprachemerkmal-Skalierung im Prozessor 155 veranlaßt der Steuerimpuls LD die Steuerung 140 zu einer Zustandsänderung und zum Liefern des Signals DST an den Prozessor 145. Das Signal DST leitet die dynamische Zeitvarziehung für die Sequenz von Merkmalssignal-Zeitrahmen ein. Bei jedem Bezugswortrahmen i wird das Bezugswort-Merkmalssignal R (i) vom Schablonenspeicher 150 zum Prozessor 155 übertragen. Es wird eine Sequenz von ausgewählten modifizierten Ausspracherahmen j innerhalb des Rahmenbereichs von
L(j) = max U (j-1) r M][-2 (M1-J), 1J
H(j) = min [2(j-1)+1, M1 1 (M1-J), M1"] (7)
adressiert, urd die Merkmalssignale U (j) werden an den Prozessor 155 gegeben. In dem Prozessor 155 werden die kumulativen Abstandssignale D für den Bereich gemäß Gleichung (7) erzeugt, und es wird für jeden Punkt (i,j) ein Signal d - i-k erzeugt, das die Versetzung zwischen
BAD ORIGINAL·
25Γ
w(i-1) und w(i) darstellt. Beim letzten Bezugswortrahmen M wird das kleinste kumulative Abstandssignal D ausgewählt und an einen Vergleicher 160 gelegt«
Der Vergleicher 160 erzeugt ein Signal TLE, wenn das ausgewählte Abstandssignal D einen vorbestimmten Schwellenwert überschreitet. In diesem Fall besteht keine ausreichende Ähnlichkeit zwischen dem gespeicherten Bezugswortmuster und dem modifizierten Aussprachemuster, um das Rahmenintervall für die vorgeschriebene Halbsilbe in dem modifizierten Aussprachemuster zu bestimmen. Folglich muß eine neue Eingabe einerAussprache des Wortes I angefordert werden. Das Signal TLE veranlaßt das ODER-Glied 137 zum Erzeugen des Steuersignals ERR. Dieses Steuersignal aktiviert den Nachrichter..generator 135, wie es oben beschrieben wurde. Der Nachrichtengenerator 135 wird dann veranlaßt, eine Nachricht zum Wiederholen der Aussprache und eine Nachricht zum Aussprechen von I zusammenzusetzen. Die Steuerung 140 liefert dann den Steuerimpuls ÄS an den Merkmalssignalgenerator 11 5, um eine Analyse der neuen Aussprache einzuleiten.
Wenn das Abstandssignal DT vom Prozessor 155 nicht den Schwellenwert TH1 überschreitet, veranlaßt ein Steuerimpuls DD vom Prozessor 155 in Fig. 1 die Steuerung 140, einen Impuls BTS und ein Steuersignal BT zu erzeugen.
-JtI -
Der Impuls BTS wird an den dynamischen Zeitverziehungsprozessor 155 gelegt, und in dem Prozessor wird der in dem Tätigkeits--,ästchen 340 in Fig. 3 angedeutete Rücklaufvorgang eingeleitet. Während sich der Prozessor in diesem Rücklaufzustand befindet, wird die Sequenz der Bezugswortrahmen in umgekehrter Reihenfolge erzeugt. Die Bezugswort-Rahmensignale m = M , M -1 ,.„.., i, ... 2,1 werden von dem Prozessor als codierte Signale F ausgegeben. Wenn Aer Bezugswortrahmen i = M adressiert wird, wird der entsprechende Rahmen Fs = M der modifizierten Aussprache erzeugt. Beim Bezugsrahmen M -1 ist der entsprechende Ausspracherahmen M -^(M ). Die Verarbeitung schreitet für jeden Bezugswortrahmen j fort, und der modifizierte Ausspracherahmen
erscheint als Signal Fs. Die Rücklaufvorgänge des Prozessors 155 werden durch gespeicherte Befehle gesteuert, die im Anhang B in FORTRAN-Sprache aufgelistet sind.
Während das Rückläufen weiter von statten geht, wird in dem in Fig. 2 genauer gezeigten Halbsilbenrahmen-Selektor 180 der Halbsilbenabschnitt der modifizierten Aussprache ausgewählt. Für jedes Bezugswort I im Speicher
BAD ORIGINAL
--if-
sind die für den Halbsilbenabschnitt des Bezugswortes repräsentativen Signale vom Speicher verfügbar. In der in Fig. 1 gezeigten Schaltung gelangt ein dem Anfangs-, rahmen des vorgeschriebenen Halbsilbenabschnitts entsprechendes Signal NR1(I) von dem Speicher 150 an einen Eingang eines Vergleichers 201 in dem Selektor 180. Ein dem Endrahmen des Halbsilbenabschnitts entsprechendes Signal NR2(I) gelangt von dem Speicher 150 an einen Eingang eines Vergleichers 203 in dem Selektor 180. Jeder der Vergleicher 201 und 203 kann eine oder mehrere integrierte Schaltungen vom Typ 7485 enthalten.
Die während des RücklaufVorgangs von dem Prozessor 155 kommende Sequenz der Bezugsrahmen F„ wird an beide Ver-
K.
gleicher 201 und 203 gelegt. Wenn das 3ezugswort-Rahmensignal F_ dem Halbsilben-Endpunkt-Rahmensignal NR2(I)
Iv
gleicht, wird das Ausgangssignal des Vergleichers 203 in dem Zeitpunkt freigegeben, in dem der entsprechende modifizierte Ausspracherahmen F vom Prozessor 155 an einen Zwischenspeicher 212 gelegt wird.. Ein UND-Glied 207 wird bei gemeinsamem Ansprechen auf das Steuersignal BT und das Freigabe-Ausgangssignal des Vergleichers 203 geöffnet, wodurch der dem Halbsilben-Endrahmen des Bezugswortes entsprechende modifizierte Ausspracherahmen in den Zwischenspeicher 212 eingegeben wird. Der Zwi-
schenspeicher 212 sowie jeder der anderen Speicher in Fig. 2 können aine oder mehrere integrierte Schaltungen vom Typ 74273 enthalten.
Die Abarbeitung der Bezugswortrahmen im Prozessor 155 wird fortgesetzt. Wenn das Rahmensignal F_ dem Anfangsrahmensignal NR1(I) gleicht, wird der entsprechende Rahmen F für die modifizierte Aussprache ansprechend auf das Freigabe-Ausgangssignal des Vergleichers 201 in den Zwischenspeicher 21O eingegeben. Der Prozessor 155 fährt mit der Durchführung des RücklaufVorgangs fort, bis das Bezugsrahmensignal F_ = 1 ist. Zu diesem Zeitpunkt erzeugt der Prozessor 155 den Steuerimpuls BTD, der die Beendigung des RücklaufVorgangs anzeigt.
Der Zwischenspeicher 210 enthält nun den modifizierten Ausspracherahmen N1, der dem Anfangsrahmen der vorgeschriebenen Halbsilbe entspricht, und der Zwischenspeicher 212 enthält das modifizierte Aussprache-Rahmensignal N2, das dem Endrahmen der vorgegebenen Halbsilbe in der modifizierten Aussprache entspricht. Die modifizierte Aussprache war jedoch das Ergebnis einer Skalierung in dem Prozessor 145 für lineare Zeitverziehung, welcher die Dauer von Aussprache und Bezugswort aneinander an-
BAD ORIGINAL
L Ö D D
geglichen hat. Während des Skalierungsvorgangs war das Signal SF erzeugt worden, das das Verhältnis der Dauer N der modifizierten Aussprache zu der Dauer M der eingegebenen Aussprache darstellt.
Das Signal N1 im Zwischenspeicher 210 wird nun an einen Eingang eines Multiplizierers 215 gegeben, und der Skalierungsfaktor SF wird an dessen anderen Eingang gelegt. Der Multiplizierer 215 bildet das Signal N1', das den Anfangsrahmen der vorgeschriebenen Halbsilbe in der ursprünglichen Aussprache darstellt. In ähnlicher Weise Wird das Signal N2 vom Zwischenspeicher 212 in einem Multiplizierer 218 mit dem Skalenfaktor SF multipliziert, um ein Signal N21 zu erzeugen, welches den Endrahmen der vorgeschriebenen Halbsilbe der ursprünglichen Aussprache darstellt. Somit bestimmt sich der vorgeschriebene HaIbsilbenabschnitt der ursprünglichen Aussprache als das Intervall zwischen den Rahmen N1' und N2' (Tätigkeitskästchen 345 in Fig. 3). Jeder der Multiplizierer 213 und 215 kann eine integrierte Schaltung vom Typ· TRW MPY»16HJ sein.
Am Ende des Rücklaufvorgangs gemäß den Tätigkeitskästchen 340 und 34 5 in Fig. 3 stehen die Grenzrahmen des Halbsilbenabschnitts der Aussprache an den Ausgängen
BAD ORtGSNAL
der Multiplize^er 215 und 213 zur Verfügung.
Die Sequenz der Aussprache-Schallmerkmalsignale wird in dem FIFO-Speicher 120 gespeichert. Wie in dem Tätigkeitskästchen 305 in Fig. 3 angegeben ist, wird der vorgeschriebene Halbsilbenabschnitt der Aussprache ansprechend auf die Signale N1' und N2' ausgewählt und in dem Speicher 125 gespeichert. Bei dem Speicher 125 kann es sich um einen 2kx8-RAM-Speicher vom Typ MK48O2 der Firma Mostek handeln.
Wenn der Rücklaufvorgang abgeschlossen ist, wird der Steuerimpuls PTD an die Steuerung 140 gelegt. Ansprechend auf den Impuls BTD ändert die Steuerung 140 ihren Zustand und erzeugt einen Steuerimpuls XR und ein Steuersignal WDS. Der Impuls XR setzt sowohl den Halbsilbenrahmenzähler 226 als auch den Ausspracherahmenzähler 230 in deren erste Zustände zurück. Diese Zähler können eine oder mehrere integrierte Schaltungen vom Typ 74193 enthalten. Das Signal WDS wird an den Schreib-Eingang des Speichers 125 für Halbsilben-Merkmalschablonen gelegt, um in diesem die Speicherung der Aussprachemerkmalssignale vom FIFO-Speicher 120 zu ermöglichen.
Zu dieser Zeit wird der F =1-Rahmen des I-ten Wortes
BAD ORIGINAL
für den identifizierten Sprecher SP in dem Schablonenspeicher 125 adressiert. Die Steuerung 140 erzeugt eine Sequenz von Impulsen XI, die den Zähler 230 sukzessive erhöhen. Das Ausgangssignal C des Zählers 230, das die aufeinanderfolgenden Ausspracherahmen darstellt, wird an einen Eingang eines Vergleichers 220 uad an einen Eingang eines Vergleichers 222 gelegt. Das Ausgangssignal äes Multiplizierers 215, das den Anfangsrahmen N1' der vorgeschriebenen Halbsilbe darstellt, wird an den anderen Eingang des Vergleichers 220 gelegt. Solange das Ausspracherahmensignal C vom Zähler 230 dem vom Multiplizierer 215 kommenden Rahmensignal NV gleich ist, wird der Ausgang des Vergleichers 220 gesperrt,, und das Rahmenausgangssignal FC des Halbsilbenzählers 226 bleibt unverändert. Folglich wird die Folge von Merkmalssignalen aus dem FIFO-Speicher 120 innerhalb des Halbsilben-MerJanalschablonen-Speichers 125 in die erste Rahmenposition des Bezugswortes I geladen.
Wenn das Ausgangssignal C des Ausspracherahmenzählers 230 gleich dem Halbsilben-Anfangsrahmensignal vom Multiplizierer 215 ist, wird der Vergleicher 220 freigegeben, und anschließende Zählimpulse XI erhöhen den Halbsilbenzähler 226 über das UND-Glied 224. Die Aussprachemerkmäl-
ΨΖ
signale für den Anfangsrahmen N1' der vorgeschriebenen Halbsilbe werden an der FC=1-Stelle für das Bezugswort I im Schablonenspeicher 125 gespeichert. Der Vergleicher 220 bleibt freigegeben, so daß der Halbsilbenzähler 226 sukzessive erhöht wird. Auf- diese Weise wird die Sequenz der Aussprachemerkmalsignale für die vorgeschriebene Halbsilbe in aufeinanderfolgende Stellen des Schablonenspeichers 125 gebracht.
Der Vergleicher 222 wird freigegeben, wenn das Ausgangssignal des Ausspracherahmenzählers230 gleich dem Endrahmen N2' der vorgeschriebenen Halbsilbe ist. Das bei dem Endrahmen der vorgeschriebenen Halbsilbe auftretende Signal XD von dem Vergleicher 222 wird an die Steuerung 140 gelegt. Die Steuerung beendet die Erzeugung der Zählererhöhungsimpulse XI. Somit wird, nachdem alle Aussprachemerkmalssignale in der vorgeschriebenen Halbsilbe im Schablonenspeicher 125 gespeichert sind, der Betrieb des Halbsilbenrahmenselektors 180 beendet.
Die Steuerung 140 liefert den Steuerimpuls WI ansprechend auf den Steuerimpuls XD an den Wortzähler 165. Der Impuls WI erhöht den Wortzähler 165 gemäß dem Indexkästchen 355 in Fig. 3, so daß die nächste Bezugswortschablone im Speicher 150 adressiert wird. Der Ver-
BAD ORIGINAL
gleicher 170 wird freigegeben, wenn da^ Ausgangssignal I des Wortzählers größer ist als der Zählerstand IMAX des letzten Wortes (Entscheidungskästchen 360). In diesem Fall wird das Signal WD erhalten, die die Schaltung nach Fig. 1 in einen Wartezustand versetzt (Tätigkeitskästchen 365), bis ein Signal ST (Start) von der Eingangsschaltung 103 empfangen wird. Entspricht I nicht dem letzten Bezugswort, wird von dem Vergleicher 170 ein Signal WD erhalten. Das Signal WD veranlaßt die Steuerung 140, ein Signal MST zu erzeugen, so daß eine Ausspracheaufforderung für das nächste Bezugswort vom Nachrichtengenerator 135 erzeugt wird. Nachdem die Unterworte inheit-Muster in dem Schablonenspeicher 125 gespeichert sind, werden sie zu einem Verwendungsgerät 130 übertragen, beispielsweise einem Spracherkenner oder einem Sprachsynthesizer, um dort Verwendung zu finden. Das Verwendungsgerät kann selbstverständlich irgendeine sprachverarbeitende Vorrichtung sein, in der Sprachmusterschablonen verwendet warden. Alternativ können die Schablonen in einem Festspeicher gespeichert werden, der in eine sprachverarbeitende Anlage eingesetzt werden kann.
Die Erfindung wurde unter Bezugnahme auf ein spezielles Ausführungsbeispiel beschrieben. Es versteht sich je-
doch, daß von dem Fachmann verschiedene Änderungen
hinsichtlich Form und Einzelheiten vorgenommen werden können, ohne daß vom Grundgedanken der Erfindung abgewichen und ihr Schutzumfang verlassen wird. Beispielsweise können die Bezugs-Sprachmuster einem kontinuierlichen Muster von aneinandergereihten Worten entsprechen, und die Untereinheit-Sprachmuster können den
einzelnen Worten entsprechen.
BAD ORIGINAL
nachtr&gHoh geändert
C STEUERUNG ( ) C BIT-ZUWEISUNG FÜR E/A-GERÄT C WARTECODES (OKTAL·) PARAMElER ST=QIK,'MD=OZK,AD=OUK
PARAMETER LD-010K, DD=020K, BTD=OUOK C AUSGABECODES
PARAMETER MRS=OIK, HST=02K, AS=OUK PARAMErES LS=OIOK, DST=OZOK, Bt=OUOK 1Ö PARAMEIER BTS=OIOOK, XR=0200K, XI=OUOOK
PARAMETER IfDS = OIOQOK, WI=02000K C EINGABECODES PARAMETER ESS=OIK, XD=02K, HD=OUK CALL IOINII 10 COMTINUE
C WARTEN AUF START SIGNAL (ST)
CALL WAIT C3T) C INITIALISIEREN WORTZÄHLER (305) CALL OUTPUT (HRS) 100 CONTINUE
C SENDEN NACHRICHT (310) CALL OUTPUT (MST) CALL WAIT (MD)
C AUFNEHMEN PRÜF-AUSSPRACHE CALL OUTPUT (AS) CALL WAIT (AD) CALL INPUT (IV,ERR) IF (IV. E2. 1) GO TO C LINEARES ZEITVERZIEHEN (325) CALL OUTPUT CLS) CALL HAIT (LD)
C ERSTE PHASE DER DYN. ZEITVERZISHUNG-(330) CALL OUTPUT (DST) CALL HAIT (DD) CALL IJIPUT (IV, ERR)
IF (IV. EO. V) GO TQ C RÜCKLAUF (PHASE ") (340) CALL OUTPUT (BT + BTS) CALL HAIT (3TD) «Q CALL OUTPUT (0) RAKMSNSELSiiTOU 16© ERZEUGT NI1UND N2 · IN HARDWARE (345).
TSANSFER_DER iiERKMALSDATEU VOM FIFO HERKMÄLSCHAßLONENSPEICHER 125 (350)
«*5 CALL OUTPUT (XR) COHTINUE
CALL OUTPUT C(I CALL INPUT (IV,XD) IF (IV. HE. 1) GO Γ0 C ERHÖHEN WORTZÄHLER (355-360) CALL OUTPUT (WI) CALL INPUT (IV,WD)
IF (IV. NS. 1) GD TO C FERTIG-WARTEN AUF NÄCHSTEN SPRECHER
GO TO 10
C ■ AUSGABE FBhLlSRNACHRICHT 900 CONTINUE CALL OUTPUT (Η3Γ> CALL WAIT (MD)
GO TO 100 END
; DATA GENERAL .TITLE DIO .NREL
DC=66 ; DE7ICE ; CALL IOJN IT j MAKE THIS CALL BEFORE DSFARGS
DEFTMPS
rtP/OS (AOS) DEVICE LL1VEL RO(JTIHES
CODE FOR I/O INTERFACE FIRST I/O CALL
FENTRY IOINIT AC33V ; ENAB LE DEVICE I/ IT DATA WORD 3 IHD,3 ; GET HAIT ) ; GET USES Ό USER
STA 3, = DC 3) ISC,3 . DG ; GET FLAG
LDA 0, AC33V DC ; LOOP UNI
? DEEL ,SNZ PUT (IWD,
WAIT FENTHY OUTPUT ATA -VuRD
LDA 3, IT (IWC) LDA O,
FRET ί WAIT FOR BIT FLAG TO 3E 1 ; CALL OUTPUT (IWD DOB O,
AC3SV:0 DEFARGS ; OUTPUT FSET K '.
/ W ft Ij W ft DEF IWC DEFARGS ; CALL IN
DEFTMPS DEF IWD ; INPUT D PUT
FENTRY WA DEFTMPS DEFARGS DC
LDA O, DEF IWD 2 IMGK CODE
LP: DIA 1, DEF IMS 1 ; word
AND 0,1 DEFTMPS 2 IWD IL FLAG
JHP LP FENTSY IN
FRET DIB 1,
LDA O,
AND O,
STA 1,
DATA
; OUTPUT WORD
IMSK)
(MASKED)
; GET DATA
; MASK OFF
; RETURN Tu
SEI
ßAD ORIGINAL
FRET
.END
C DYNAMISCHER ZEITVERZIEHUNGSPROZESSOR (155)
C 2-PHASEN-ZEITVERZIEHÜNGSPROZESSOR :
C DIE DURCH DAS SIGNAL DST (START) EINGELEITETE
C ZEITVERZIEHUNGSPHASE GIBT RAHMENZÄHLSIGNAL FSUBR FÜR
C BEZUG SOWIE FSUBS FÜR TEST AUS;
C AKZEPTIERT RAHMENVEKTOREN RSUPI FÜR
C BEZUG UND USUPI FÜR TEST.
C AM ENDE DER ZEITVERZIEHUNGSPHASE WERDEN DSUBA ALS
C VERZIEHUNGSABSTAND UND DAS SIGNAL DD (FERTIG) AUSGEGEBEN
C RÜCKLAUFPHASE WIRD DURCH SIGNAL ΒΤ;Γ (START) EINGELEITET.
C SIE GIBT RAHMENZÄHLSIGNALE FSUBR UND
C FSUBS (WIE OBEN) UND SIGNAL FT FÜR JEDEN RAHMEN AUS
C (TAKTSIGNAL FÜR HALBSILBEN-RAHMENSICLEKTOR 180).
C AM ENDE DER RÜCKLAUFPHASE WIRD SIGNAL BTD (FERTIG)
C AUSGEGEBEN.
C ANNAHME: BEZUG UND PRÜFUNG HABEN DIESELBE LÄNGE -
-° C (EINGABE ALS M).
C DTW - ZEITVERZIEHUNGSROUTINE
C M = IN RAHMEN GEMESSENE LÄNGE DER TESTAUSSPRACHE UND
C BEZUGSAUSSPRACHE
C FT = WEG, WELCHER DEN KLEINSTEN ABSTAND BESTIMMT v.
DIMENSION FT(UO) DIMENSION D( 100),DCU( 100 ) DOUBLE PRECISION DELTA ( 100) ,VPI ,XHtT ,VPIIM INTEGER DL/O/ DAn XLP.G/1000./
C BITZUWEISUNGEN FÜR E/A-GERÄT C ViARTECODES (OKTAL) PARAMETER D3T=01K, 3TS=02K C AUSGABECODES
PARAMETER DD = OIK, 3TD=02K, FT=OiIK c AUSGLEICH VON E/A durch WÖRTER C DSÜ3A, FSÜ3R, FSUBS (AUSGABEN) C SSUPI, USUPI (EINGABEN). <*Q DATA K/2/
CALL ΙΟΙΜΙΓ
IMAX( I) = MINO ( .<· {1-1) + H-DL, ( I-S >/K+?!f DL,M ) IMIN(I)=MAXOi(1-1)/K+1-DL,K*(I-M)>M-DL,1) 999 DSUBA=O. HS C
CALL HAIT (DST) C
DO 11 = 1,UO 1 FT(I)=O F5UE3i = TMm 1) F3UBR2 = IMA!C( 1) DELTA (D=O. XHLT=L XHND=IOOO. ■
Its
DO 50 FSUB*=FSUBR1,FSU5R2 CALL DIST(:5U3R, 1,DCU(FSUSR) .· -IF(DCU(FSUaR ).LT.XMND) XHND = DCU(FSUBa) DELTA (1)=DELTA( O+XMLT XMLT*XMI.T*3D0
CONTINUE
DO 65 FS0BR=FSU3S2+1,M DCU(F3UBR)=XLRG
CONTINUE DO 200 FSU9S=2,M
XHND=XLSG
F3UBR1P=F3U3R1
F3U3R2P=FSU3S2 F5UBR1 = I^IIN( FSU3S) F3UBR2=IMAX(FSU3S)
DI=XLRG
D2=XLRG
IF(FSUBR1-1.GE.FSUBSIP)DI=DCU(FSOBS1-1)
— IF(FSU3R1-2.GE.FSUBR1P)D2=DCU(FSUBR1-2)
DO 30 FSU5R = FSU3R1 ,F3UBR2
CALL DISK FSUBR, FSUBS,D( FSUB8 )) CONTINUE
DELTA (FSUBS)=O.
XMLT=I. IMP=FSU8R1-FSU3R1P
VPIM1=DELTA(FSUBS-1)
IF(IHP.EQ.O)GO TO
DO 55 IH-1,IMP VPIH1=VPTM1/3D0 55 CONTINUF.
CONTINUE
DO 100 FSUBR=FSU3R1,FSUER2 DO=DCU(FSUBR)
DI=DI LPTH=2
IF(D1-D2)1,C, 11,1 LPTH=I
. * DI=DI
C 11 IF(DO-DI;12,12,20
12 CONTINUE
IF(FSUBR-3r.FSU3R2P)GO TO KVPH = DM0D(VPI.11,3D0) IF(KYPH.EQ.O)GO TO
LPTH=O U5 DI=DO
CONTINJE
VPIH1=VPIM1/3D0
DI = DI + D( FS1UBR) IF(XMND-DI)SO,50,51 51 XMND=DI
FSUBRHN=FSUBr CONTINUE
D2 = D1
DI = DO DCU(FSUB=U = DI
DELTA (F3U35)=D2LTA ( FSU ES ) +DFLOAK LPIH)-XMLT
BAD ORfGfNAL
•100 CO IT ΓI tfITE
CONTINUE
IF(FSUBRI. LE. FSU3B1P)G0 TO 92 5 DO 91 FSU3R=FSUER1P,FSUBR1-i
DCU(FSUBH)=XLRg
CONTINUE
IF(FSU3.R2.GE.FSUSR2P)G0 TO 93· DO 92 FiUBR=F3ü3a2+1,FSUBS2P
DCU(FSUBH)=XLRg
CONTINUE
93 CONTINUE . ; 200 CONTINUE
XSAV=XSAV/FLOAT(NCB)*FL3AT(M) 15 DSUBA=XMND
IF(XSAV.LT.DSUBA) DSUBA=XSAV
C DURCHFÜHRUNG DES RÜCKLAUFS
CALL OTD (D3UBA)
CALL OUIP'JT (DD) CALL WAIT (BTS) C
FI(K)=M - ■■ .
IMiI = FSUSR
DO 250 FSUBS=I,2,-1 VPI=DELIA (FSUBS) IMP=IMN-IMIN(FSU95) IF(IMP.EQ.O) GO TO DO 252 "IMsI, MP
VPI=VPI/3D3 CONTINUE CONTINUE
KVP-DMODiVPI^DO) FT(FSUBS-1)=FT(FSUB3)-KVP
IMN=IMN-KyP
C AUSGABE WEGINFuRi-IATION UO CALL OTFR (FSU3S) CALL OTFS (FSUBS) CALL OUTPUT (FT)
CALL OUTPUT (BTD) C H 5 C RÜCXSPRUNG ZUM ANFANG
GO TO END
Z DIST-ABSTANDSROUTINE MIT
C AUTOCORRELATION DER FELDER
SUSBOUTINEDIST(IRzITiDST) COMMO:i CRO,UO),CT(9,40) PARAMETER 3 = 9,."E = H-H C C CT=PRuFFELD
BAD ORIGINAL
C M=8,ME=9
C CR= NORMIERTE KORRELATIONSFUNKTION DER C DLS REZUGSRAHMENS
C CB(I)=2*COR(I)/C0a<0) WOBEI 'COS DIE WAHRE C KORRELATION DER FELDER IST
C 3C=CR(IzIR)
C TC = LOG .1ESTFEHIiER DES PRÜF RAHMEN S
C TC = CTC;, IT) r
C DST = R Ci-LOG (ACOR DOT P)-TC C FORM R DOT Γ AND STORE IN PR-1 C OuTPUT(FN=IT) ; EINLESEN AUS DEM C AUSSPRACHEMERKMALSIGNALSPEICHER CALL OTFR (FSUBR) CALL OTFS (FSUBS) CALL INR (RSUPI) CALL INU (USUPI) SC = CB(I, IR) PRI=O. DO 5 1 = 2 ,M +
5 ?R1=PR1+C3(I,IR)*CT(I,ID TC = CTd, IT) PR I=PB-. +L IF(PSLLT. 1.E-5) PR 1 = 1. E-5 DST=ALOG(PRI)+RC-TC
RETURN END
; DATA GENERAL MP/OS (AOS) DEVICE LEVEL ROUTINES .TITLE- DIO .NREL
DC=66 ; DEVICE CODS FOB I/O INTERFACE ; CALL IOINIT ; MAKE THIS CALL BEFORE FIRST I/O CALL DEFARSS
DEFTMPS
FENIRY ΙΟΙΝΙΓ STA 3,AC3SV LDA 0,=DC ? DE3L ; ENABLE DEVICE I/O WAIT
IDA 3,AC3SV
FRET
AC33V:Q
; CALL WAIT (IWC) ; WAIT FOR ΒΙΓ FLAÖ TO BE DEFARGS
DEF IHC
DEFTHPS
FFNTRY WAIT
SO LDH O, D I1JC, 3 ; GET WAIT CODE LP: DIA 1,DC ; CET FLAG U03D
AND 0,1, S"NZ ; LOO? UNTIL FLAG SET JXP LP
FSET
BAD ORIGINAL
^-
; CALL OUTPUT (IWD)
ί OUTPUT DATA WORD
DEFARGS
DEF IWD
DEFTMPS
FENTRY OUTPUT
LDA 0, 3 IWD,3 ; GET USER DATA * DO3 O, DC ; OUTPUT WORD .
FRET
; CALL INPUT (IWD, IMSK)
; INPUT DATA WORD (MASKED) ,
DEFAR33
DEF IWD
DEF IMSK . ·.-.'.
DEFTMPS
FENTRY INPUT '
DI3 1, DC ; 5ΕΓ DATA LDA O, 5) IMSK ; MASK OFF
AHD O, 1 -■'■■
STA 1, 5) IWD > BSTURJi TO USER
FRET
.END -*..■■
; DATA GENERAL MP/OS (AOS) DEVICE LEVEL ROUTINES
; EXTENDED ROUTINES FOR WORD I/O -"
.TITLE WID
.NREL ·
DC=57 ; DEVICE CODE FOR WORD I/O DEFARSS ;
DEF IWD 3D DEFTHPS
FENTRY QTD
LDA 0,5 IVD, 3 ; OUTPUT D5U3A DOA O, DC '"
FRET .
FENTRY OTFR
LDA 0,3IWD, 3 ; OUTPUT1* FSUBR DOB O, DC
FRET
FSNTSY OTFS
«0 LDA O, 3 IWD, 3 ; OUTPUT FSUBS :
DOC 0,DC t
FRET :a
DfcFARGS
DEF IWD - "
«5 DEFTIPS
FENT3Y INR
DIA O, DC ; INPUT SS'U^S
3 TA O,ii HiD,3 ^.
FRET FEVTSY INU
DIA 0,DC ; IMPUT USUPI STA O, υ EtfD , 3 ■■■>'· ,'
.END V
Leerseite

Claims (1)

  1. oen
    Verfahren und Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern
    Patentansprüche
    '■ Verfahren zum Erzeugen von Untereinheit-Sprachmustern, mit folgenden Schritten:
    Speichern mehrerer Bezugs-Spraehmuscerschablonen, die jeweils repräsentativ sind für ein vorgeschriebenes gesprochenes Bezugs-Sprachmuster,
    Speichern eines Satzes von Signalen, die repräsentativ sind für wenigstens eine vorbestimmte Untereinheit in der Sequenz der Bezugs-Schallmerkmalsignale jeder Bezugs-Sprachschablone, und
    Analysieren der Aussprache eines Bezugs-Sprachmusters, um eine für die Aussprache repräsentative Zeitrahmensequenz von Schallmerkmalsignalen zu erzeugen,
    dadurch gekennzeichnet,
    daß Signale erzeugt werden, die repräsentativ sind für die Zeitausrichtung der Sequenz der Aussprache-Merk— malssignale mit der Sequenz der gespeicherten Bezugs-
    BAD ORIGINAL
    -,Kf-
    Sprachmuster-Merkmalssignale, und daß ansprechend auf die Zeitausrichtungssignale und die für die Bezugs-Untereinheit repräsentativen Signale die Sequenz der Aussprache-Merkmalsignale ausgewählt wird, die der vorbestimmten Untereinheit in der gespeicherten Bezugs-Sprachmusterschablone entspricht.
    2. Verfahren zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 1,
    dadurch gekennzeichnet, daß beim Speichern der Untereinheit ein erstes Signal gespeichert wird, das repräsentativ ist für den Zeitrahmen der Eszugs-Sprachmusterschablone, bei welchem die Untereinheit beginnt, und ein zweites Signal gespeichert wird, das repräsentativ ist für den Zeitrahmen, bei dem die Untereinheit endet, und daß beim Auswählen ein erster Zeitrahmen der Aussprache erfaßt wird, welcher dem ersten Signal entspricht, und ein zweiter Zeitrahmen der Aussprache erfaßt wird, welcher dem zweiten Signal entspricht, und daß die Aussprachemerkmalssignale vom ersten Zeitrahmen bis zum zweitem Zeitrahmen gespeichert werden.
    BAD ORIGINAL
    3. Verfahren zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 2,
    dadurch g e k e η η ζ e i c h η e t , daß beim Zeitausrichten unter gemeinsamem Ansprechen auf die Aussprachemerkmalssignale und die gespeicherten Bezugs-Sprachmuster-Merkmalssignale die Aussprachemerkmalssignale derart modifiziert werden, daß die Anzahl von Zeitrahmen der Aussprach«.? in Übereinstimmung gebracht wird mit der Anzahl von Zeitrahmen in dem gespeicherten Bezugs-Sprachmuster.
    4. Verfahren zum Erzeugen von Unterwort*-Sprachmuster nach Anspruch 3,
    dadurch gekennzeichnet , daß beim Zeitausrichten unter gemeinsamem Ansprechen auf die modifizierten Aussprachemerkmalssignale und die Bezugs-Sprachmuster-Merkmalssignale ein Satz von Signalen erzeugt wird, der repräsentativ ist für die beste Übereinstimmung des Zeitrahmenweges zwischen den Aussprachemerkmalssignalen und den Bezugs-Sprachmuster-Merkmalssignalen.
    5. Verfahren zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 4,
    dadurch gekennzeichnet , daß
    beim Erfassen des Aussprachezeitrahmens das erste Signal mit der Sequenz der Bezugs-Sprachmuster-Zeitrahmen verglichen wird, um ein Untereinheit-Anfangsrahmensignal zu erzeugen, daß das zweite Signal mit der Sequenz der Bezugs-Sprachmuster-Zeitrahmen verglichen wir 3., um ein Untereinheit-Endrahmensignal zu erzeugen, daß ansprechend auf das Anfangsrahmensignal der Bezugs-Sprachmuster-Untereinheit und die Signale für den am besten übereinstimmenden Zeitrahmenweg ein Signal erzeugt wird, das repräsentativ dafür ist, daß der Aussprachezeitrahmen dem Anfangsrahmen der Bezugs-Spröchmuster-Untereinheit entspricht, und daß ansprechend auf das Endrahmensignal der Bezugs-Sprachmuster-Untereinheit und die Signale für die beste Übereinstimmung des Zeitrahmenwegs ein Signal erzeugt wird, welches repräsentativ dafür ist, daß der Ausspr?chezeitrahmen dem Endrahmen der Bezugs-Sprachmust-'r-Untereinheit entspricht.
    6. Verfahren zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 5,
    dadurch gekennzeichnet , daß beim Erzeugen eines dem Endrahmen der Bezugs-Sprachmuster-Unt.^reinheit entsprechenden Aussprachezeitrahmen-Signals die Zeit des Auftretens des Endrahmens
    BAD ORIGINAL
    der Bezugs-Sprachmuster-Untereinheit in der Sequenz von Bezugs-Sprachmuster-Zeitrahmen ansprechend auf das zweite Signal festgestellt wird,, und daß ansprechend auf die Signale für die beste Übereinstimmung des Zeitrahmenwegs der Aussprachezeitrahmen ausgewählt wird, der der besten zeitlichen Ausrichtung zur Zeit des Auftretens entspricht,
    7. Verfahren zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 5,
    dadurch gekennzeichnet , daß beim Erzeugen eines Signals für die Übereinstimmung zwischen einem Aussprachezeitrahmen und dem Anfangsrahmen der Bezugs-Sprachmuster-Untereinheit die Zeit des Auftretens des Anfangsrahmens der Bezugs-Sprachmuster-Untereinheit in der Sequenz ler Bezugs-Sprachmuster-Zeitrahmen in Abhängigkeit des ersten Signals bestimmt wird und abhängig von den Signalen für die beste Übereinstimmung des Zeitrahmenwegs der Aussprachezeitrahmen ausgewählt wird, der der besten zeitlichen Ausrichtung mit der Zeit des Auftretens entspricht.
    8. Verfahren zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 6,
    dadurch gekennzeichnet , daß beim Modifizieren der Aussprache ein Skalenfaktorsignal erzeugt wird, das repräsentativ ist für das Verhältnis der Anzahl von Rahmen in der Aussprache zu der Anzahl von Rahmen in dem Bezugs-Sprachmuster, und daß bei:n Auswählen des die beste zeitliche Ausrichtung mit dem Endrahmen der vorbestimmten Bezugs-Sprachmuster-Untereinheit aufweisenden Aussprachezeitrahmens in Abhängigkeit der Signale für die beste Übereinstimmung des Zeitrahmenwegs der modifizierte Aussprachezeitrahmen erfaßt wird, der dem Endrahmen der vorbestimmten Bezugs-Sprachmuster-Untereinheit entspricht, und das erfaßte modifizierte Aussprache-Endrahmensignal mit dem Skalenfaktorsignal multipliziert wird.
    9. Verfahren zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 7,
    dadurch gekennzeichnet , daß beim Modifizieren der Aussprache ein Skalenfaktorsignal erzeugt wird, der repräsentativ ist für das Verhältnis der Anzahl von Ausspracherahmen zur Anzahl von Bezugs-Sprachmusterrahmen, und daß beim Auswählen des die beste zeitliche Ausrichtung mit dem Anfangsrahmen der vorbestimmten Bezugs-Sprachmuster-
    BAD ORIGINAL
    Untereinheit aufweisenden Aussprachezeitrahmens in Abhängigkeit der Signale für die beste Übereinstimmung des Zeitrahmenwegs der modifizierte Aussprachezeitrahmen erfaßt wird, der dem Anfangsrahmen der vorbestimmten Bezugs-Sprachmuster-Untereinheit entspricht, und das modifizierte Aussprache-Anfangsrahmensignal mit dem Skalenfaktorsi-gnal multipliziert wird. '
    10. Verfahren zum Erzeugen von Untereinheit-Sprachmustern nach den Ansprüchen 1, 2, 3, 4, 5, 6, 7, 8 oder 9, dadurch gekennzeichnet, daß jedes Bezugs-Sprachmuster ein Bezugs-Wortsprachmuster und jedes Untereinheit-Sprachmuster ein Unterworteinheit-Sprachmuster ist.
    11. Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern, mit einer Einrichtung (150) zum Speichern mehrerer Bezugs-Sprachmusterschablonen, die jeweils repräsentativ sind für ein vorgeschriebenes gesprochenes Bezugs-Sprachmuster, und eines Satzes von Signalen, die repräsentativ sind für wenigstens eine vorbestimmte Untereinheit in der Sequenz der Bezugs-Schallmerkmalsignale jeder Bezugs-Sprachschablone,
    ί * —■ t " ,,
    und einer Einrichtung (115) zum Analysieren einer Auesprache eines Bezugs-Sprachmusters, um eine für die Aussprache repräsentative Zeitrahmensequenz von Schallmerkmalsignalen zu erzeugen, gekennzeichnet durch eine Einrichtung (145, 155) zum Erzeugen von Signalen, die repräsentativ sind für die Zeitausrichtung der Sequenz der Aussprache-Merkmalssignale mit der Sequenz der gespeicherten Bezugs-Sprachmuster-Merkmalssignale, und eine Einrichtung (180) zum Auswählen der Sequenz der Aussprache-Merkmalssignale, die der vorbestimmten Untereinheit in der gespeicherten Bezugs-Sprachmusterschablone entspricht, in Abhängigkeit der Zeitausrichtungssignale und der für die Bezugs-Untereinheit repräsentativen Signale.
    Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 11,
    dadurch gekennzeichnet , daß die Einrichtung zum Speichern (150) derart ausgebildet ist, daß sie ein erstes Signal speichert, das repräsentativ ist für denjenigen Zeitrahmen der Bezugs-Sprachmusterschablone, bei dem die Untereinheit beginnt, und ein zweites Signal speichert, das repräsentativ ist für den Zeitrahmen, bei dem die
    BAD ORIGINAL
    -yf-
    Untereinheit endet; und daß die Einrichtung (180) zum Auswählen eine Einrichtung (210, 2*2) aufweist, die abhängig von den Zeitausrichtungssignalen einen ersten Zeitrahmen der Aussprache erfaßt, der dem ersten Signal entspricht, und einen zweiten Zeitrahmeh der Aussprache erfaßt, der dem zweiten Signal entspricht, und eine Einrichtung (125) aufweist zum Speichern der Aussprachemerkmalssignale des Intervalls von dem ersten Zeitrahmen bis zu dem zweiten Zeitrahmen.
    13« Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 12,
    dadurch gekennzeichnet , daß die Einrichtung zum Erzeugen der Zeitausrichtungssignale eine Einrichtung (145) enthält, um die Aussprachemerkmalssignale in AbhängigKeit der Aussprachemerkmalssignale und der gespeicherten Bezugs-Sprachmuster-Merkmalssignale derart zu modifizieren, daß die Anzahl von Zeitrahmen in der Aussprache übereinstimmt mit der Anzahl von Zeitrahmen in der gespeicherten Bezugs-Sprachmusterschablone.
    14, Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 13,
    dadurch gekennzeichnet , daß die Einrichtung zum Erzeugen der Zeitausrichtungssignale weiterhin eine Einrichtung (155) aufweist, um ansprechend auf die modifizierten Aussprachemerkmalssignale und die Bezugs-Sprachmuster-Merkmalssignale einen Satz von Signalen zu erzeugen, der repräsentativ ist für den am besten übereinstimmenden Zeitrahmenweg zwischen der Sequenz der modifizierten Aussprachemerkmalssignale und der Sequenz der Bezugs-Sprachmuster-MerkmaIs signaIe.
    15. Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern naclx Anspruch 14 ,
    dadurch gekennzeichnet , daß die Einrichtung zum Erfassen des ersten und zweiten Aussprachezeitrahmens eine Einrichtung (201, 210) aufweist, um ansprechend auf das erste Signal und die Signale für die beste Übereinstimmung des Zeitrahmenwegs 3in Signal zu erzeugen, welches kennzeichnend dafür ist, daß der Aussprachezeitrahmen dem Anfangsrahmen der Bezugs-Untereinheit entspricht, und eine Einrichtung (203, 212) enthält, um ansprechend auf das zweite Signal und die Signale für die beste Übereinstimmung des Zeitrahmenwegs ein Signal zu erzeugen, welches kennzeichnend dafür ist, daß der Aussprachezeitrahmen dem Endrahmen der Bezugs-
    BAD ORIGINAL
    Untereinheit entspricht.
    16. Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 15,
    dadurch gekennzeichnet, daß die Einrichtung zum Erfassen von Aussprachezeitrahmen eine Einrichtung (201) enthält zum Vergleichen des ersten Signals mit der Sequenz der Bezugs-Sprachmuster-Zeitrahmen, um ein Untereinheit-Anfangsrahmensignal zu erzeugen, eine Einrichtung (203) enthält zum Vergleichen des zweiten Signals mit der Sequenz der Bezugs-Sprachmuster-Zeitrahmen, um ein Untereinheit-Endrahmensignal zu erzeugen, eine Einrichtung (210) aufweist, die auf das Bezugs-Untereinheit-Anfangsrahmensignal und die Signale für die beste Übereinstimmung des Zeitrahmenwegs anspricht, um ein Signal zu erzeugen, welches kennzeichnend dafür ist, daß der Aussprachezeitrahmen dem Bezugs-Untereinheit-Anfangsrahmen entspricht, und eine Einrichtung (212) enthält, die auf das Bezugswort-Untereinheit-Endrahmensignal und die Signale für die beste Übereinstimmung des Zeitrahmenwegs anspricht, um ein Signal zu erzeugen, welches kennzeichnend dafür isjt, daß er Ausspracherahmen dem Bezugs-Untereinheit-Endrahmen entspricht.
    17. Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 16,
    dadurch gekennzeichnet , daß die Einrichtung zum Erzeugen eines Signals für die Entsprechung des Aussprachezeitrahmens mit dem Endrahmen der Bezugswort-Untereinheit eine Einrichtung (203) enthält, die auf das zweite Signal anspricht, um die Zeit des Auftretens des Endrahmens der Bezugswort-Untereinheit zu bestimmen, und eine Einrichtung (212) enthält, die auf die Signale für die beste Übereinstimmung des Zeitrahmenwegs anspricht, um den Aussprachezeitrahraen auszuwählen, der der besten zeitlichen Ausrichtung zur Zeit des Auftretens entspricht.
    18. Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 16,
    dadurch gekennzeichnet , daß die Einrichtung zum Erzeugen eines Signals für die Entsprechung des Aussprachezeitrahmens mit dem Anfangsrahmen der Bezugs-Sprachmuster-Untereinheit eine Einrichtung (201) aufweist, die auf das erste Signal anspricht, um die Zeit des Auftretens des Anfangsrahmens der Bezugs-Sprachmuster-Untereinheit zu bestimmen, u/.d eine Einrichtung (210) enthält, die auf
    BAD ORIGINAL
    die Signale für die beste Übereinstimmung des Zeitrahmenwegs anspricht, um den Aussprachezeitrahmen auszuwählen, der der besten zeitlichen Ausrichtung zur Zeit des Auftretens entspricht«
    19. Vorrichtung zum Erzeugen von Unterworteinheit-Sprachmustern nach Anspruch 17,
    dadurch gekennzeichnet , daß die Einrichtung (145) zum Modifizieren der Aussprache eine Einrichtung enthält zum Erzeugen eines Skalenfaktorsignals, welches kennzeichnend ist für das Verhältnis der Anzahl von Rahmen in der Aussprache zu der Anzahl von Rahmen in dem Bezugs-Sprachmuster; und daß die Einrichtung zum Auswählen des dem Endrahmen der bestimmten Bezugswort-Untereinheit entsprechenden Äussprachezeitrahmens eine Einrichtung (203, 212) aufweist, die auf die Signale für die beste Übereinstimmung des Zeitrahmenwegs anspricht, um den modifizierten Aussprachezeitrahmen zu erfassen, der dem Endrahmen der bestimmten Bezugs-Sprachmuster-Untereinheit entspricht, und eine Einrichtung (218) zum Multiplizieren des erfaßten modifizierten Aussprache-Endrahmensignals mit dem Skalenfaktor signal auf v/eist.
    ιψ
    --βί-
    20. Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern nach Anspruch 18,
    dadurch gekennzeichnet , daß
    die Einrichtung (145) zum Modifizieren der Aussprache eine Einrichtung enthält zum Erzeugen eines für das
    Verhältnis ler Anzahl von Ausspracherahmen zu der Anzahl der Bei'.ugs-Sprachmuster-Rahmen kennzeichnenden
    Skalenfaktorsignals, und daß die Einrichtung zum Auswählen des dem Anfangsrahmen der bestimmten Bezugs-Sprachmuster-Untereinheit entsprechenden Aussprachezeitrahmens eine Einrichtung (201, 210) aufweist, die auf die Sig.iale für die beste Übereinstimmung des Zeitrahmenwegs anspricht, um den modifizierten Aussprachezeitrahmen zu erfassen, der dem Anfangsrahmen der bestimmten Bezugs-Sprachmuster-Untereinheit entspricht, und eine Einrichtung (215) zum Multiplizieren des erfaßten modifizierten Aussprache-Anfangsrahmen-Signals mit dem Skalenfaktorsignal aufweist.
    21. Vorrichtung zum Erzeugen von Untereinheit-Sprachmustern nach den Ansprüchen 11, 12, 13, 14, 15, 16,
    17, 18, 19 oder 20,
    dadurch gekennzeichnet, daß
    jedes Bezugs-Sprachmuster ein Bezugs-Wort-Sprachmuster und jedes Untereinheit-Sprachmuster ein Unterworteinheit-Sprachmuster ist.
    Dr/ku "T.
    BAD ORIGINAL
DE19823242866 1981-11-19 1982-11-19 Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern Granted DE3242866A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/322,748 US4454586A (en) 1981-11-19 1981-11-19 Method and apparatus for generating speech pattern templates

Publications (2)

Publication Number Publication Date
DE3242866A1 true DE3242866A1 (de) 1983-08-25
DE3242866C2 DE3242866C2 (de) 1988-06-09

Family

ID=23256228

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19823242866 Granted DE3242866A1 (de) 1981-11-19 1982-11-19 Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern

Country Status (5)

Country Link
US (1) US4454586A (de)
JP (1) JPH073640B2 (de)
CA (1) CA1175569A (de)
DE (1) DE3242866A1 (de)
GB (1) GB2109971B (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58129682A (ja) * 1982-01-29 1983-08-02 Toshiba Corp 個人照合装置
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JPS58176699A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 音声標準パタ−ン登録方式
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
US4783811A (en) * 1984-12-27 1988-11-08 Texas Instruments Incorporated Method and apparatus for determining syllable boundaries
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
WO1987004293A1 (en) * 1986-01-03 1987-07-16 Motorola, Inc. Method and apparatus for synthesizing speech without voicing or pitch information
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4866756A (en) * 1986-04-16 1989-09-12 Call It Co. Interactive computerized communications systems with voice input and output
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
KR890702176A (ko) * 1987-10-09 1989-12-23 에드워드 엠, 칸데퍼 디지탈 방식으로 기억된 상호분절 언어세그먼트로부터 언어발생 방법 및 그 장치
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
JP2768561B2 (ja) * 1990-12-19 1998-06-25 富士通株式会社 ネットワーク変形装置および作成装置
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
US5671328A (en) * 1992-12-30 1997-09-23 International Business Machines Corporation Method and apparatus for automatic creation of a voice recognition template entry
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
US6463361B1 (en) * 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US6911916B1 (en) 1996-06-24 2005-06-28 The Cleveland Clinic Foundation Method and apparatus for accessing medical data over a network
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
TW200835315A (en) * 2007-02-01 2008-08-16 Micro Star Int Co Ltd Automatically labeling time device and method for literal file
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
GB201621434D0 (en) * 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
CN110782908B (zh) * 2019-11-05 2020-06-16 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
US4060694A (en) * 1974-06-04 1977-11-29 Fuji Xerox Co., Ltd. Speech recognition method and apparatus adapted to a plurality of different speakers
DE2753277A1 (de) * 1976-11-30 1978-06-01 Western Electric Co Spracherkennungseinrichtung

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
US4060694A (en) * 1974-06-04 1977-11-29 Fuji Xerox Co., Ltd. Speech recognition method and apparatus adapted to a plurality of different speakers
DE2753277A1 (de) * 1976-11-30 1978-06-01 Western Electric Co Spracherkennungseinrichtung

Also Published As

Publication number Publication date
JPS58102299A (ja) 1983-06-17
DE3242866C2 (de) 1988-06-09
CA1175569A (en) 1984-10-02
JPH073640B2 (ja) 1995-01-18
GB2109971A (en) 1983-06-08
US4454586A (en) 1984-06-12
GB2109971B (en) 1985-07-10

Similar Documents

Publication Publication Date Title
DE3242866A1 (de) Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE2953262C2 (de)
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE3244476C2 (de)
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE60004331T2 (de) Sprecher-erkennung
DE10030105A1 (de) Spracherkennungseinrichtung
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE2752607A1 (de) Verfahren zur erkennung von sprache
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE19630109A1 (de) Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE2825082A1 (de) Verfahren zur spracherkennung
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP0633559B1 (de) Verfahren und Vorrichtung zur Spracherkennung

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US

D2 Grant after examination
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN