DE3242866C2

DE3242866C2 -

Info

Publication number: DE3242866C2
Application number: DE3242866A
Authority: DE
Inventors: Frank Christopher Madison N.J. Us Pirz; Lawrence Richard Berkeley Heights N.J. Us Rabiner; Jay Gordon Warren N.J. Us Wilpon
Original assignee: AT&T Technologies Inc
Current assignee: AT&T Corp
Priority date: 1981-11-19
Filing date: 1982-11-19
Publication date: 1988-06-09
Also published as: JPH073640B2; CA1175569A; DE3242866A1; US4454586A; GB2109971A; GB2109971B; JPS58102299A

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erzeugen von Sprachmusterschablonen gemäß den Oberbegrffen der Patentansprüche 1 und 2.

Während Menschen die Sprache als bequemes und wirksames Mittel für die Kommunikation empfinden, sind Maschinen im allgemeinen durch programmierte Anordnungen derart organisiert, daß sie mittels Schalter, Tastaturen und Anzeigen in codierten Formaten kommunizieren. Fortschritte in der Elektroniktechnologie haben es möglich gemacht, eine Sprachschnittstelle für Maschinen, wie z. B. Rechner oder automatische Steuerungsanlagen, zu schaffen. Entsprechend bekannter Methoden werden Maschinensignale an einen Sprachsynthesizer geliefert, der ein gespeichertes Vokabular codierter Sprachelemente enthält. Dann wird das Sprachmuster über einen elektroakustischen Wandler in eine gesprochene Nachricht umgesetzt. Ein Spracherkenner empfängt eine Aussprache und vergleicht das Aussprachemuster mit vorab gespeicherten Sprachmustern. Die Aussprache kann identifiziert werden als das am besten übereinstimmtende gespeicherten Muster, und es wird ein Maschinensignal erzeugt, welches dem übereinstimmenden Muster entspricht. Hierdurch wird Sprachkommunikation mit Maschinen erreicht.

In einer anderen Art von Sprachsynthese werden Sprachmuster aufgezeichnet, um ein gespeichertes Vokabular zu schaffen. Ansprechend auf ein codiertes Signal werden aus dem gespeicherten Vokabular von Sprachelementen ausgewählte Muster wiederaufgefunden und zu einem Nachrichtensignal zusammengesetzt. Das Nachrichtensignal wird dann in einer Tonfolge umgesetzt. Bei den Grund- Spracheinheiten in dem gespeicherten Vokabular kann es sich um große Nachrichteneinheiten handeln. Wenn ein umfassendes Vokabular erforderlich ist, wird der Speicherbedarf für die verschiedenen Nachrichten-Sprachmuster unwirtschaftlich.

Die Verwendung von Sprachmuster-Untereinheiten gestattet größere Flexibilität in der Bildung von Nachrichten und geringeren Vokabularspeicherbedart. Untereinheiten, wie Phoneme, Allephone, Halbsilben oder Dyaden beispielsweise, gestattet die Erzeugung eine großen Vielfalt von Nachrichten aus einem sehr begrenzten gespeicherten Vokabular. Wie bekannt ist, werden Sprachmuster-Untereinheiten im allgemeinen aus Wortlängenmustern der normalen Sprache abgeleitet. Der Vorgang des Erzeugens von Untereinheit- Merkmalen aus der normalen Sprache ist jedoch kompliziert, erfordert eine zeitaufwendige Analyse und das Eingreifen und Modifizieren durch Fachleute.

Die meisten Spracherkennungssysteme sind so ausgelegt, daß die Eingangs-Sprachsignale empfangen und diese Sprachsignale in eine Folge vorgeschriebener Schallmerkmale umsetzen. Die eingegebene Sprachschallmerkmal-Sequenz wird verglichen mit gespeicherten Sätzen von für identifizierte Spracheinheiten vorab ermittelten Bezugsmerkmalen. Das Sprachsignal wird identifiziert, wenn die eingegebene Sprachmerkmal-Sequenz nach Maßgabe vorbestimmter Kriterien einem gespeicherten Satz von Bezugsmerkmalen entspricht. Wenn die Bezugsspracheinheiten gesprochene Worte sind, können aus den Aussprachen des gesprochenen Wortes direkt Bezugs-Sprachmerkmalschablonen abgeleitet werden. Wort-, Wortverbindungs- oder Satzschablonen eignen sich für begrenzte Vokabulare. Für größere Vokabulare jedoch wird der Schablonenspeicherbedarf unwirtschaftlich.

Wie bei der Sprachsynthese ist es wünschenswert, den Schablonenspeicherbedarf von Spracherkennern durch Verwendung von Sprachmuster-Untereinheiten zu beschränken. Gespeicherte Untereinheit- Schablonen können in einem Spracherkenner direkt zum Identifizieren eines eingegebenen Sprachmusters verwendet werden, wie es in dem für G. L. Clapper am 6. Nov. 1973 erteilten US-Patent 37 70 892 beschrieben ist, oder sie können zur Bildung längerer Nachrichtenmuster-Schablonen selektiv verknüpft werden. Bei auf Sprachmuster spezieller Sprecher angepaßten Erkennern ist es notwendig, für jeden Benutzer des Systeme ein Vokabular von Untereinheit- Bezugsschablonen zu erhalten. Sprecherunabhängige Anordnungen zum Erkennen der Sprachmuster irgendeines Sprechers benötigen einen Satz von Untereinheit-Schablonen, der repräsentativ für eine große Bevölkerung ist. Folglich muß nach dem Mitteln oder Gruppieren der von vielen Sprechern erhaltenen Sprachmustermerkmalen eine Anzahl von Untereinheit- Schablonen geschaffen werden.

Im Idealfall sollte für jede einzelne Person, deren Sprache zu erkennen ist, ein Satz von Untereinheit- Schablonen erzeugt werden. Jedoch macht es die komplizierte und zeitaufwendige Prozedur der Schablonenbildung schwierig, auf diese Weise mehr als einige wenige Schablonensätze zu erzeugen.

Die US-PS 40 60 694 offenbart eine Spracherkennungsanordnung, die für mehrere unterschiedliche Sprecher ausgebildet ist. In diesem System wird ein Satz von Phonemkennzeichenparametern für einen einzelnen Sprecher ermittelt. Anstatt für andere Sprecher zusätzliche Phonemkennzeichen zu bilden, werden die zuvor erzeugten Phonemkennzeichen künstlich variiert, um einen Bereich von Phonemkennzeichensätzen zu erzeugen.

Vor dem Erkennen einer Äußerung wird aus dem künstlich erzeugten Bereich derjenige Phonemsatz ausgewählt, der der Äußerung am meisten ähnlich ist. Auf diese Weise wird die zeitaufwendige Prozedur der Phonemerzeugung vermieden. Der künstliche Phonemsatz jedoch approximiert nur die tatsächliche Unterschiede in Stimm- und Aussprachekennzeichen zu einem ungewissen Ausmaß. Demzufolge erhöht die Verwendung künstlich gebildeter Phonemsätze den Grad der Unsicherheit der Erkennungsergebnisse. Es ist ein Ziel der Erfindung, eine verbesserte Unternachrichteneinheit- Schablonenerzeugung ohne manuelle Analyse oder dem Hilfsmittel künstlicher Variation eines bekannten Untereinheit-Sprachmusters zu schaffen.

Die Übereinstimmung mit dem Oberbegriff des Anspruchs 1 bzw. 2 zeigt die DE-OS 27 53 277 ein Verfahren bzw. eine Vorrichtung zum Erzeugen von Sprachmusterschablonen, insbesondere in Verbindung mit der Erkennung von Ziffern. Grundlage dabei ist das Erkennen von ausschließlich stimmhaften Abschnitten gesprochener Wörter. In der Vorbereitungsphase muß eine bestimmte Folge von Ziffern von einem Benutzer gesprochen werden. Die Aussprache wird dann analysiert, um eine Sequenz von Schallmerkmalsignalen zu erzeugen, jeweils bestehend aus einem Satz von linearen Voraussagekoeffizienten (LPC-Koeffizienten). Außerdem wird das von der Bedienungsperson Gesprochene hinsichtlich stimmhafter Abschnitte, stimmloser Abschnitte oder Pausenabschnitte analysiert. Die Untersequenzen von Signalen, die den stimmhaften Abschnitten entsprechen, werden extrahiert und gespeichert, um als Schablonen bei späteren Spracherkennungs-Vorgängen zur Verfügung zu stehen. Für umfangreichere Anwendungszwecke, die nicht auf Ziffern beschränkt sind, erweist sich das bekannte Verfahren als zu wenig flexibel.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zum Erzeugen von Sprachmusterschablonen zu schaffen, die einerseits die spezielle Sprechweise einer oder mehrerer bestimmter Personen berücksichtigt, andererseits aber eine Vorab-Auswahl eines geeigneten Satzes von Sprachschablonen- Untersequenzen möglich macht, ohne daß die Vorbereitungsphase für die beteitigten Personen verkompliziert wird.

Diese Aufgabe wird durch die im Anspruch 1 angegebene Erfindung gelöst. Eine entsprechende Vorrichtung ist in Anspruch 2 angegeben.

Bei der Erfindung wird Gebrauch gemacht von Bezugs-Sequenzen von Schallmerkmalsignalen, in denen die Lagen der Untersequenzen, welche den gewünschten Untereinheiten der Bezugssprachmuster entsprechen, festgelegt wurden. Diese Bezugs- Sequenzen werden nicht direkt als Sprachmusterschablonen verwendet, sondern sie werden verglichen mit Sequenzen von Schallmerkmalsignalen, die abgeleitet sind aus Sprechproben einer Person. Indem eine Person eine ausgesprochene Version der gleichen Sprachmuster liefert, lassen sich durch den Vergleich die Lagen der den gewünschten Untereinheiten entsprechenden Untersequenzen bestimmen. Wenn diese Untersequenzen aus den Aussprache-Sequenzen extrahiert sind, werden sie zur Bildung von Sprachmusterschablonen verwendet. Dadurch vereinigt man folgende Vorteile: Man hat Sprachmusterschablonen zur Verfügung, die vollständig aus Sprechproben von Personen abgeleitet sind; man kann vorab einen nachweislich als günstig anzusehenden Satz von Untersequenzen auswählen. Dabei ist die Belastung der die Sprechproben liefernden Personen in der Vorbereitungsphase gering.

Die Bezugs-Sequenzen können Bezugs-Wortmuster sein, und die Bezugs-Untersequenzen sind solche, wie sie für Phoneme, Allophone, Halbsilben oder andere bekannte Komponenten gesprochener Wörter erhalten werden.

Kurze Beschreibung der Zeichnungen

Fig. 1 zeigt ein Blockdiagramm eines für die Erfindung beispielhaften Sprachmustergenerators;

Fig. 2 zeigt ein detailliertes Blockdiagramm des in der Schaltung nach Fig. 1 enthaltenen Halbsilbensegment- Selektors; und

Fig. 3 zeigt ein Flußdiagramm eines für die Erfindung beispielhaften Sprachmuster-Erzeugungsprozesses.

Bester Weg zur Ausführung der Erfindung

Fig. 1 zeigt ein Blockdiagramm eines Untersequenz- Sprachmustergenerators, der so ausgebildet ist, daß er einen Satz von Sprachmusterschablonen für Unterschiedliche Sprecher auf der Grundlage eins Satzes von vorab gespeicherten Bezugs-Sequenzen von Bezugssprachmuster liefert. Die gespeicherten Bezugs-Sequenzen können Wortverbindungen oder Nachrichten und die Bezugs-Untersequenzen Wörter oder andere Nachrichten-Untereinheiten. Ein Sprecher 150 enthält einen Satz von vorbestimmten Bezugs-Sequenzen, die zuvor nach herkömmlichen Methoden gewonnen wurden. Der Speicher 150 kann beispielsweise ein INTEL 2716 2 K × 8 EPTOM oder ein ähnliches Bauelement sein. Jedes Bezugssprachmuster in dem Speicher 150, z. B. R ^I, enthält eine Sequenz von Schallmerkmalsignalen.

R ^I = R ^I(1), R ^I(2),. . ., R ^I(m),. . ., R ^I(M _I ) (1)

ist repräsentativ für ein Bezugswort, wie es von einem oder mehreren Sprechern gesprochen wird, sowie für Signale, die den Grenzrahmen NR 1 (I) und NR 2 (I) einer vorgeschriebenen Bezugs-Untersequenz, z. B. einer Halbsilbe des Bezugswortes entsprechen. Beispielsweise kann das phonetische Bezugswort das Wort "back" und die vorgeschriebene Untersequenz die End- Halbsilbe "ack" sein. Die Grenzrahmen bezeichnen die Stelle der Merkmalsignale für die Halbsilbe "ack".

Das Flußdiagramm in Fig. 3 veranschaulicht den Erzeugungsprozeß von Halbsilben-Sprachmustern. Am Anfang liefert ein Sprecher ein Startsignal ST sowie ein Sprecher- Identifizierungssignal SP, wie es bei 300 dargestellt ist. Das Bezugswort- Indentifikationssignal I wird in dem Kästchen 305 für Indexinitialisierung auf 1 eingestellt, und gemäß dem Tätigkeitskästchen 310 wird eine Befehlsnachricht erzeugt, die den Sprecher auffordert, seine Aussprache des Bezugswortes I einzugeben. Da von dem Sprechers gesprochene Bezugssprachmuster wird analysiert, und in dem Tätigkeitskästchen 315 wird eine Zeitrahmensequenz von Schallmerkmalsignalen erzeugt:

T ^I = T ^I(1), T ^I(2),. . .T ^I(N) (2)

Die Länge der Aussprache wird mit einem vorgeschriebenen Bereich verglichen, um mögliche Endpunktfehler (im Kästchen 315) festzustellen. Für den Fall, daß die Dauer des gesprochenen Bezugssprachmusters außerhalb des vorgeschriebenen Bereichs liegt, geht die Steuerung über das Entscheidungskästchen 320 über zu einem Tätigkeitskästchen 370, und es wird eine Nachricht zum Wiederholen der Aussprache erzeugt. Dann wird in dem Tätigkeitskästchen 310 erneut die Aufforderung zur Aussprache des Worts I erzeugt, und die wiederholte Aussprache des Wortes I wird in dem Kästchen 315 analysiert.

Gemäß Fig. 1 liefert ein identifizierter Sprecher SP, für den Sprachmusterschablonen erzeugt werden sollen, ein kurzes Startsignal ST über einen Codegenerator 103 an eine Steuerung 140, sowie ein Identifikationssignal SP. Der Generator 103 kann einen bekannten Tastatur-Codegenerator enthalten. Bei der Steuerung 140 kann es sich um einen Mikroprozessoranordnung handeln. Die Steuerung ist entsprechend dauernd gespeicherter Befehle so ausgelegt, daß sie ansprechend auf die an sie angelegten Steuersignale eine Sequenz von Steuersignalen liefert, die auf ihrer rechten Seite dargestellt sind.

Ansprechend auf das Signal ST erzeugt die Steuerung 140 Steuerimpulse WRS (Wortzähler zurücksetzen) und MST (Nachrichtenstart). Der Impuls WRS stellt einen Wortzähler 165 auf den Zustand I = 1 zurück, so daß die erste Bezugs-Sequenz in dem Speicher 150 adressiert wird. Der Impuls MST wird an einen Nachrichtengenerator 135 angelegt, der in bekannter Weise so arbeitet, daß er eine synthetische gesprochene Nachricht erzeugt, die den Sprecher SP auffordert, das Bezugswort I = 1 auszusprechen. Nach Beendigung der Befehlsnachricht liefert der Generator 135 ein Signal MD (Nachricht abgegeben) an die Steuerung 140, um anzuzeigen, daß die Aussprache des Sprechers am Mikrophon 101 erwartet wird.

Ansprechend auf das Signal MD erzeugt die Steuerung 140 einen Steuerimpuls AS. Der Impuls AS wird an einen Merkmalsignalgenerator 115 gelegt, um dessen Betrieb zu veranlassen. Das vom Mikrophon 101 kommende Sprachsignal wird an eine Tiefpaßfilter- und Abtastschaltung 105 gelegt, die die Bandbreite des Sprachsignals auf den Bereich zwischen beispielsweise 100 Hz und 3200 Hz beschränkt und das bandbegrenzte Sprachsignal beispielsweise mit 6667 Hz abtastet. In bekannter Weise werden alle aufeinanderfolgenden Sprachsignalabtastungen von einem Analog-Digital-Umsetzer 110 in ein digitalcodiertes Signal umgewandelt.

Der Merkmalsignalgenerator 115 empfängt die digitalen Abtastungen vom Umsetzer 110 und erzeugt die für das Sprachsignal repräsentative Zeitsequenz von linearen Vorhersage-Merkmalsignalen T ^I. Der Generator 115 liefert außerdem eine Impuls WT (Schreiben) für alle aufeinanderfolgenden Merkmalsignalrahmen an FIFO-Speicher 120 und 122. Ansprechend auf die Folge von WR -Impulsen werden die Merkmalsignale von T ^I sukzessive in die First-in- First-out-Speicher 120 und 122 eingegeben.

Bei dem Merkmalsignalgenerator 115 kann es sich um den Generator für lineare Prädiktor-Koeffizienten handeln, und er kann außerdem einen Endpunktdetektor enthalten. Der Endpunktdetektor ist so ausgebildet, daß er die Beendigung einer an das Mikrophon 101 gelandenden Aussprache erfaßt. Für den Fall, daß ein Endpunkt nicht innerhalb einer vorgeschriebenen Zeitdauer auftritt, wird von dem Generator 115 ein Signal EPE (Endpunktfehler) erzeugt. Das Signal EPE gelangt über ein ODER-Glied 137 an den Nachrichtengenerator 135. Da Ausgangssignal ERR des ODER-Gliedes 137 veranlaßt die Steuerung 140 zum Erzeugen eines Signals MST, welches seinerseits die Erzeugung einer Nachricht zur Wortwiederholung veranlaßt. Nachdem von dem Generator 135 das Signal MD (Nachricht abgegeben) empfangen ist, liefert die Steuerung 140 einen Impuls AS an den Generator 115. Der Impuls AS veranlaßt die Merkmalsignalerzeugung für die erwarteten wiederholte Aussprache.

Wie bekannt ist, ändern sich Artikulation und Sprachgeschwindigkeit von Person zu Person beträchlich. Die gespeicherte Bezugs-Sequenz R ^I besitzt M _I Rahmen, während die geprochene Sequenz T ^I N≠M _I Rahmen haben kann. Um den durch Schwankungen der Sprechgeschwindigkeit verursachten Unterschied zwischen den Sequenzen von Schallmerkmalsignalen zu beseitigen, werden die Schallmerkmalsignale linear skaliert, so daß die Dauer der Aussprache auf M _I geändert wird, wie es dem Tätigkeitskästchen 325 in Fig. 3 entpricht. Der Skalenfaktor N/M _I wird zurückbehalten, um zu einem späteren Zeitpunkt die umgekehrte Skalierung zu ermöglichen. Die modifizierte Sequenz U ^{I ist ein M _I -Rahmenmuster. Die Artikulationsunterschiede
jedoch führen zu einer nicht-linearen Beziehung
zwischen der modifizierten Schallmerkmalsignal-
Sequenz U I und der Bezugs-Sequenz R I.
Um die Beziehung zwischen den Sequenzen
zu bestimmten,
wird die modifizierte Sequenz
gemäß dem Tätigkeitskästchen 330 dynamisch
auf die Sequenz der Bezugs-Sequenz zeitlich verzogen.
Durch das dynamische zeitliche Verziehen werden ein
Signal, das repräsentativ ist für die beste Entsprechung (Ausrichtung)
zwischen der Bezugs-Sequenz und der gesprochenen, modifizierten Sequenz,
und ein Satz von Signalen σ, der
repräsentativ ist für diejenige Sequenz von Signalrahmen,
die am besten den Bezugssequenzrahmen entspricht,
erzeugt. Das Entsprechungssignal wird in dem Entscheidungskästchen
335 mit einem vorbestimmten Schwellenwert
TH 1 verglichen. Wenn die modifizierten Aussprache- und die
Bezugs-Sequenz nicht ausreichend ähnlich sind, wird
das Kästchen 370 betreten, und die Aussprache wird in der
zuvor beschriebenen Weise wiederholt.
Gemäß Fig. 1 liefert der Generator 115 nach Beendigung
der Signalerzeugung für die Aussprache des Wortes
I einen Impuls AD an die Steuerung 140. Zu dieser Zeit
enthält jeder der Speicher 120 und 122 den Satz von
Schallmerkmalsignalen T I für die zugeführte Aussprache. Ein
Linear-Zeitverziehungprozessor 145,
(s. US-PS 40 20 332) ist so
ausgebildet, daß er die Merkmalsignale vom Speicher 122
derart modifiziert, daß die Aussprachemerkmalsignale
denselben Zeitraum belegen wie die gespeicherten Bezugs-
Sequenzen von Schallmerkmalsignalen für dasselbe Wort in dem Bezugs-Sequenz-
Speicher 150. In der Tat wird die Anzahl von Rahmen der
zugeführten Aussprache (N) in die Anzahl von Rahmen (M _I )
der Bezugs-Sequenz für das Wort in dem Speicher 150
geändert. Ein dem Skalenfaktor N/M _I entsprechendes Signal
SF wird erzeugt und in dem Prozessor 145 gespeichert.
Nach Beendigung der Merkmalsignalerzeugung im Generator
115 wird der Steuerimpuls AD vom Generator 115 an die
Steuerung 140 gelegt. Ansprechend auf den Impuls AD liefert
die Steuerung 140 einen Steuerimpuls LS an den
Linear-Zeitverziehungsprozessor 145, wodurch der Vorgang
der linearen zeitlichen Verziehung in Gang gesetzt wird.
Der Prozessor 145 empfängt die Sequenz von Merkmalsignalen
vom FIFO-Speicher 122 und modifiziert diese Merkmalsignale
derart, daß die Sequenz von M _I
modifiziert wird zu der
Sequenz
U I = U I(1), U I(2), . . . U I(j), . . . U I(M _I ) (3)

Die Sequenz der modifizierten Schallmerkmalsignale
werden in einem rahmenweise adressierbaren Speicher
des Prozessors 145 gespeichert.
Die zeitliche Ausrichtung zwischen den modifizierten Sequenzen
und den gespeicherten Bezugs-Sequenzen
muß bestimmt werden, um den Unterschieden in der
Artikulation zwischen der Bezugs-Sequenz R I und der modifizierten
Sequenz U I Rechnung zu tragen. Wie bekannt
ist, können die modifizierten Schallmerkmalsignale
zeitlich auf die Schallmerkmalsignale der Bezugs-Sequenz verzogen werden, um
das am besten übereinstimmende Entsprechnungssignal zu
bilden:

wobei w(i) der optimale Zeitverziehungsfaktor zwischen
den Merkmalsvektoren U I und R I ist und
(i, h) = d(R I(i), U I (j)) = log (R I(i) · U I(j)) (5)
der örtliche Abstand zwischen den Merkmalsvektoren des
Rahmens i der modifizierten Sequenz U I und
dem Rahmen j = w(i) der gespeicherten Bezugs-Sequenz R I
ist. w(i) ist für gewöhnlich beschränkt, so daß die Steigung
des Verziehungsfaktors w(i) dem Bereich der erwarteten
Sprachmusterrahmen entspricht. Nachdem die Verarbeitung
der Gleichung (4) abgeschlossen ist, stellt
D I(R I, U I) die beste Ähnlichkeit zwischen der modifizierten
Sequenz U I und der Bezugs-Sequenz R I dar,
und der Verziehungsfaktor w(i) entspricht dem Zeitausrichtungsweg
zwischen den modifizierten Schallmerkmalsignalen
und den Bezugs-Schallmerkmalsignalen nach Gleichung (4).
Bei dem Vorgang der dynamischen Zeitverziehung werden die
möglichen Zeitausrichtungswege zwischen den gespeicherten
Bezugs-Sequenzen und den modifizierten Sequenzen des
gesprochenen Bezugssprachmusters nach Maßgabe folgender Beziehung durch Punkte
(i, j) gelegt:
D _A (i, j) = d(i, j) + min [D _A(i -1, k)]j-I₂k j-I 1 (6)
1i M _I sind die Bezugssequenz-Merkmalrahmen. 1k M _I
sind die modifizierten Merkmalrahmen, und
d _A(i, j) ist das aufgelaufene Abstandssignal für einen
Weg vom Punkt (1,1) zum Punkt (i, j). d(i, j) ist der örtliche
Abstand (Gleichung (5)) zwischen den modifizierten
Schallmerkmalvektoren am modifizierten Aussrache-Merkmalrahmen
j und den Bezugsmerkmalsvektoren
am Bezugssequenz-Merkmalrahmen i.
Der Term ganz rechts in Gleichung (6) stellt die bis zum
Bezugssequenzrahmen i-1 und dem modifizierten Ausspracherahmen
j-I₂ k j-I ₁ aufgelaufene Entfernung dar. Der
Rahmen I ₁ wird so gewählt, daß er den zulässigen Artikulationsunterschieden
entspricht. Es wird für gewöhnlich
auf 1 eingestellt, wenn w(i-1) = w(i-2), während er
sonst auf Null eingestellt wird. I₂ wird typischerweise
auf 2 eingestellt. Sonst erstreckt sich k über den Bereich
j-2 bis j-1, wenn w(i-1) = w(i-2), und erstreckt
sich sonst über den Bereich von j-2 bis j.
In der Schaltung nach Fig. 1 ist der dynamische Zeitverziehungsprozessor
155 so ausgebildet, daß er entsprechend
Gleichung (4) ein Gesamtabstandssignal D I erzeugt.
Wie oben erwähnt wurde, ist das Signal D I ein
Maß für die beste Ähnlichkeit zwischen der modifizierten
Sequenz U I und der Bezugs-Sequenz
R I. Es wird weiterhin ein Satz von Zeitausrichtungssignalen
erzeugt, die kennzeichnend sind für
den Zeitverziehungsweg w(i) zwischen den am besten entsprechenden
Schallmerkmalssignalen U I(j) und R I)i).
Nach Beendigung der Aussprachemerkmal-Skalierung im Prozessor
155 veranlaßt der Steuerimpuls LD die Steuerung
140 zu einer Zustandsänderung und zum Liefern des Signals
DST an den Prozessor 145. Das Signal DST leitet die dynamische
Zeitverziehung für die Sequenz von Merkmalssignal-
Zeitrahmen ein. Bei jedem Bezugssequenzrahmen i wird
das Bezugssequenz-Merkmalssignal R I(i) vom Schablonenspeicher
150 zum Prozessor 155 übertragen. Es wird eine Sequenz
von ausgewählten modifizierten Ausspracherahmen j
innerhalb des Rahmenbereichs von
L(j) = max [½ (j-1), M _I-2(M _I-j), 1]
H(j) = min [2 (j-1)+1, M _I ½ (M _I-j), M _I] (7)
adressiert, und die Schallmerkmalssignale U I(j) werden an den
Prozessor 155 gegeben. In dem Prozessor 155 werden die
kumulativen Abstandssignale D _A für den Bereich gemäß
Gleichung (7) erzeugt, und es wird für jeden Punkt (i, j)
ein Signal s = i-k erzeugt, das die Versetzung zwischen
w(i-1) und w(i) darstellt. Beim letzten Bezugssequenzrahmen
M _I wird das kleinste kumulative Abstandssignal D _I ausgewählt
und an einen Vergleicher 160 gelegt.
Der Vergleicher 160 erzeugt ein Signal TEL, wenn das ausgewählte
Abstandssignal D _I einen vorbestimmten Schwellenwert
überschreitet. In diesem Fall besteht keine ausreichende
Ähnlichkeit zwischen dem gespeicherten und dem gesprochenen Bezugssprachmuster,
um
das Rahmenintervall für die vorgeschriebene Halbsilbe
in dem modifizierten Aussprachemuster zu bestimmen. Folglich
muß eine neue Eingabe einer Aussprache des Wortes I
angefordert werden. Das Signal TLE veranlaßt das ODER-
Glied 137 zum Erzeugen des Steuersignals ERR. Dieses
Steuersignal aktiviert den Nachrichtengenerator 135, wie
es oben beschrieben wurde. Der Nachrichtengenerator 135
wird dann veranlaßt, eine Nachricht zum Wiederholen der
Aussprache und eine Nachricht zum Aussprechen von I zusammenzusetzen.
Die Steuerung 140 liefert dann den
Steuerimpuls AS an den Merkmalssignalgenerator 115, um
eine Analyse der neuen Aussprache einzuleiten.
Wenn das Abstandssignal D _I vom Prozessor 155 nicht den
Schwellenwert Th 1 überschreitet, veranlaßt ein Steuerimpuls
DD vom Prozessor 155 in Fig. 1 die Steuerung 140
einen Impuls BTS und ein Steuersignal BT zu erzeugen.
Der Impuls BTS wird an den dynamischen Zeitverziehungsprozessor
155 gelegt, und in dem Prozessor wird der in
dem Tätikeitskästchen 340 in Fig. 3 angedeutete Rücklaufvorgang
eingeleitet. Während sich der Prozessor 155
in diesem Rücklaufzustand befindet, wird die Sequenz
der Bezugswortrahmen in umgekehrter Reihenfolge erzeugt.
Die Bezugssequenz-Rahmensignale m = M _I, M _I-1, . . . , i, . . .
2, 1 werden von dem Prozessor als codierte Signale F _R ausgegeben.
Wenn der Bezugswortrahmen i = M _I adressiert
wird, wird der entsprechende Rahmen Fs = M _I der modifizierten
Aussprache erzeugt. Beim Bezugsrahmen M _I-1
ist der entsprechende Ausspracherahmen M _I-σ(M _I). Die Verarbeitung
schreitet für jeden Bezugswortrahmen j fort,
und der modifizierte Ausspracherahmen
j = w(i+1)-σ(i+1) (8)
erscheint als Signal Fs.
Während das Rücklaufen weiter vonstatten geht, wird in
dem in Fig. 2 genauer gezeigten Halbsilbenrahmen-Selektor
180 der Halbsilbenabschnitt der modifizierten Aussprache
ausgewählt. Für jedes Bezugswort I im Speicher 150
sind die für den Halbsilbenabschnitt des Bezugswortes
repräsentativen Signale vom Speicher verfügbar. In der
in Fig. 1 gezeigten Schaltung gelang ein dem Anfangsrahmen
des vorgeschriebenen Halbsilbenabschnitts entsprechendes
Signal NR 2 (I) gelangt von dem Speicher 150 an einen Eingang
eines Vergleichers 203 in dem Selektor 180.
Die während des Rücklaufvorgangs von dem Prozessor 155
kommende Sequenz der Bezugsrahmen F _R wird an beide Vergleicher
201 und 203 gelegt. Wenn das Bezugswort-Rahmensignal
F _R dem Halbsilben-Endpunkt-Rahmemsignal NR 2 (I)
gleicht, wird das Ausgangssignal des Vergleichers 203
in dem Zeitpunkt freigegeben, in dem der entsprechende
modifizierte Ausspracherahmen F _S vom Prozessor 155 an
einen Zwischenspeicher 212 gelegt wird. Ein UND-Glied
207 wird bei gemeinsamen Ansprechen auf das Steuersignal
BT und das Freigabe-Ausgangssignal des Vergleichers 203
geöffnet, wodurch der dem Halbsilben-Endrahmen des Bezugswortes
entsprechende modifizierte Ausspracherahmen
in den Zwischenspeicher 212 eingegeben wird.
Die Abarbeitung der Bezugssequenzrahmen im Prozessor 155
wird fortgesetzt. Wenn das Rahmensignal F _R dem Anfangsrahmensignal
NR 1 (I) gleicht, wird der entsprechende Rahmen
F _S für die modifizierte Aussprache ansprechend auf
das Freigabe-Ausgangssignal des Vergleichers 210 in den
Zwischenspeicher 210 eingegeben. Der Prozessor 155 fährt
mit der Durchführung des Rücklaufvorgangs fort, bis das
Bezugsrahmensignal F _R = 1 ist. Zu diesem Zeitpunkt erzeugt
der Prozessor 155 den Steuerimpuls BTD, der die
Beendigung des Rücklaufvorgangs anzeigt.
Der Zwischenspeicher 210 enthält nun den modifizierten
Ausspracherahmen N 1, der dem Anfangsrahmen der vorgeschriebenen
Halbsilbe entspricht, und der Zwischenspeicher
212 enthält das modifizierte Aussprache-Rahmensignal
N 2, das dem Endrahmen der vorgegebenen Halbsilbe in
der modifizierten Aussprache entspricht. Die modifizierte
Aussprache war jedoch das Ergebnis einer Skalierung
in dem Prozessor 145 für lineare Zeitverziehung, welcher
die Dauer von Aussprache und Bezugswort aneinander angeglichen
hat. Während des Skalierungsvorgangs war das
Signal SF erzeugt worden, das das Verhältnis der Dauer
N der modifizierten Aussprache zu der Dauer M der eingegebenen
Aussprache darstellt.
Das Signal N 1 im Zwischenspeicher 210 wird nur an einen
Eingang eines Multiplizierers 215 gegeben, und der Ekalierungsfaktor
SF wird an dessen anderen Eingang gelegt.
Der Multiplizierer 215 bildet das Signal N 1′, das den Anfangsrahmen
der vorgeschriebenen Halbsilbe in der ursprünglichen
Aussprache darstellt. In ähnlicher Weise
wird das Signal N 2 vom Zwischenspeicher 212 in einem
Multiplizierer 218 mit dem Skalenfaktor SF multipliziert,
um ein Signal N 2′ zu erzeugen, welches den Endrahmen der
vorgeschriebenen Halbsilbe der ursprünglichen Aussprache
darstellt. Somit bestimmt sich der vorgeschriebene Halbsilbenabschnitt
der ursprünglichen Aussprache als das
Intervall zwischen den Rahmen N 1′ und N 2′ (Tätigkeitskästchen
345 in Fig. 3).
Am Ende des Rücklaufvorgangs gemäß den Tätigkeitskästchen
340 und 345 in Fig. 3 stehen die Grenzrahmen des
Halbsilbenabschnitts der Aussprache an den Ausgängen
der Multiplizerer 215 und 213 zur Verfügung.
Die Sequenz der geprochenen Schallmerkmalsignale wird in
dem FIFO-Speicher 120 gespeichert. Wie in dem Tätigkeitskästchen
305 in Fig. 3 angegeben ist, wird der vorgeschriebene
Halbsilbenabschnitt der Aussprache ansprechend
auf die Signale N 1′ und N 2′ ausgewählt und in dem
Speicher 125 gespeichert.
Wenn der Rücklaufvorgang abgeschlossen ist, wird der
Steuerimpuls BTD an die Steuerung 140 gelegt. Ansprechend
auf dem Impuls BTD ändert die Steuerung 140 ihren Zustand
und erzeugt einen Steuerungsimpuls XR und ein Steuersignal
WDS. Der Impuls XR setzt sowohl den Halbsilbenrahmenzähler
226 als auch den Ausspracherahmenzähler 230
in deren erste Zustände zurück. Diese Zähler können eine
oder mehrere integrierte Schaltungen vom Typ 74193 enthalten.
Das Signal WDS wird an den Schreib-Eingang des
Speichers 125 für Halbsilben-Merkmalschablonen gelegt,
um in diesem die Speicherung der Aussprachemerkmalssignale
vom FIFO-Speicher 120 zu ermöglichen.
Zu dieser Zeit wird der F _S = 1-Rahmen des I-ten Wortes
für den identifizierten Sprecher SP in dem Schablonenspeicher
125 adressiert. Die Steuerung 140 erzeugt eine
Sequenz von Impulsen XI, die den Zähler 230 sukzessive
erhöhen. Das Ausgangssignal C des Zählers 230, das die
aufeinanderfolgenden Ausspracherahmen darstellt, wird an
einen Eingang eines Vergleichers 220 und an einen Eingang
eines Vergleichers 222 gelegt. Das Ausgangssignal
des Multiplizierers 215, das den Anfangsrahmen N 1′ der
vorgeschriebenen Halbsilbe darstellt, wird an den anderen
Eingang des Vergleichers 220 gelegt. Solange das
Ausspracherahmensignal C vom Zähler 230 dem vom Multiplizierer
215 kommenden Rahmensignal N 1′ gleich ist,
wird der Ausgang des Vergleichers 220 gesperrt, und das
Rahmenausgangssignal FC des Halbsilbenzählers 226 bleibt
unverändert. Folglich wird die Folge von Merkmalssignalen
aus dem FIFO-Speichers 125 in die erste Rahmenposition
des Bezugswortes I geladen.
Wenn das Ausgangssignal C des Ausspracherahmenzählers
230 gleich dem Halbsilben-Anfangsrahmensignal vom Multiplizierer
215 ist, wird der Vergleicher 220 freigegeben,
und anschließende Zählimpulse XI erhöhen den Halbsilbenzähler
226 über das UND-Glied 224. Die Aussprachemerkmalsignale
für den Anfangsrahmen N 1′ der vorgeschriebenen
Halbsilbe werden an der FC = 1-Stelle für das Bezugswort
I im Schablonenspeicher 125 gespeichert. Der Vergleicher
220 bleibt freigegeben, so daß der Halbsilbenzähler 226
sukzessive erhöht wird. Auf diese Weise wird die Sequenz
der Schallmerkmalsignale für die vorgeschriebene
Halbsilbe in aufeinanderfolgende Stellen des
Schablonenspeichers 125 gebracht.
Der Vergleicher 222 wird freigegeben, wenn das Ausgangssignal
M 2′ der vorgeschriebenen Halbsilbe ist. Das bei
dem Endrahmen der vorgeschriebenen Halbsilbe auftretende
Signal XD von dem Vergleicher 222 wird an die Steuerung
140 gelegt. Die Steuerung beendet die Erzeugung der
Zählererhöhungsimpulse XI. Somit wird, nachdem alle
Schallmerkmalsignale in der vorgeschriebenen Halbsilbe
im Schablonenspeicher 125 gespeichert sind, der
Betrieb des Halbsilbenrahmenselektors 180 beendet.
Die Steuerung 140 liefert den Steuerimpuls WI ansprechend
auf den Steuerimpuls XD an den Wortzähler 165. Der
Impuls WI erhöht den Wortzähler 165 gemäß dem Indexkästchen
335 in Fig. 3, so daß die nächste Bezugswortsequenz
im Speicher 150 adressiert wird. Der Vergleicher
170 wird freigegeben, wenn das Ausgangsmaterial
I des Wortzählers größer ist als der Zählerstand IMAX
des letztes Wortes (Entscheidungskästchen 360). In diesem
Fall wird das Signal WD erhalten, die die Schaltung
nach Fig. 1 in einen Wartezustand versetzt (Tätigkeitskästchen
365), bis ein Signal ST (Start) von der Eingangsschaltung
103 empfangen wird. Entspricht I nicht
dem letzten Bezugswort, wird von dem Vergleicher 170
ein Signal erhalten. Das Signal veranlaßt die
Steuerung 140, ein Signal MST zu erzeugen, so daß eine
Ausspracheaufforderung für das nächste Bezugswort vom
Nachrichtengenerator 135 erzeugt wird. Nachdem die Untersequenzen
in dem Schablonenspeicher 125 gespeichert
sind, werden sie zu einem Verwendungsgerät
130 übertragen, beispielsweise einem Spracherkenner
oder einem Sprachsynthesizer, um dort Verwendung zu
finden. Das Verwendungsgerät kann selbstverständlich
irgendeine sprachverarbeitende Vorrichtung sein, in
der Sprachmusterschablonen verwendet werden. Alternativ
können die Schablonen in einem Festspeicher gespeichert
werden, der in eine sprachverarbeitende Anlage
eingesetzt werden kann.}

Claims

1. Verfahren zum Erzeugen von Sprachmusterschablonen, bei dem gesprochene vorgeschriebene Bezugssprachmuster analysiert werden, um Sequenzen von Schallmerkmalensignalen, die repräsentativ sind für das Gesprochene, zu erzeugen, daraus Untersequenzen von Schallmerkmalsignalen extrahiert werden, die vorbestimmten Untereinheiten der Bezugssprachmuster entsprechen, un die Sprachmusterschablonen aus den extrahierten Untersequenzen gebildet werden, dadurch gekennenzeichnet, daß zum Extrahieren der Untersequenzen aus den für das Gesprochene repräsentativen Sequenzen von Schallmerkmalsignalen letztere Signal für Signal verglichen werden mit vorabgespeicherten Bezugs-Sequenzen von Schallmerkmalsignalen, die repräsentativ sind für die gleichen Bezugssprachmuster, um dadurch Signale zu erzeugen, die kennzeichnend sind für die dynamische Zeitausrichtung zwischen den für das Gesprochene repräsentativen Sequenzen und den Bezugs-Sequenzen, wobei die Lagen von den Untereinheiten entsprechenden Bezugs-Untersequenzen in den Bezugs-Sequenzen vorab festgelegt und gespeichert wurden, und daß diejenigen Untersequenzen der für das Gesprochene repräsentativen Sequenzen ausgewählt werden, die durch die Zeitausrichtung den Bezugs-Untersequenzen der Bezugs-Sequenzen zugeordnet sind.

2. Vorrichtung zum Erzeugen von Sprachmusterschablonen, umfassend eine Einrichtung zum Analysieren von gesprochenen vorbestimmten Bezugssprachmustern, um Sequenzen von Schallmerkmalsignalen, die repräsentativ sind für das Gesprochene, zu erzeugen, und eine Einrichtung zum Extrahieren von Untersequenzen von Schallmerkmalsignalen entsprechend vorbestimmten Untereinheiten der Bezugssprachmuster, sowie zum Bilden der Schablonen aus den extrahierten Untersequenzen, dadurch gekennzeichnet, daß die Untersequenz-Extrahierteinrichtung eine Speichereinrichtung (150) aufweist, in der Bezugs-Sequenz von Schallmerkmalsignalen, die repräsentativ sind für die Bezugssprachmuster, sowie Sätze von Signalen gespeichert sind, die die Lagen der den Untereinheiten entsprechenden Bezugs-Untersequenzen in den Bezugs-Sequenzen kennzeichnen, und daß eine Vergleichseinrichtung (145, 155) vorgesehen ist, die jede Sequenz von Schallmerkmalsignalen, die repräsentativ ist für ein ausgesprochenes Bezugssprachmuster, signalweise vergleicht mit der Bezugs-Sequenz für das gleiche Bezugssprachmuster, um Signale (FT) zu erzeugen, die repräsentativ sind für die dynamische Zeitausrichtung zwischen Sequenzen und Bezugs-Sequenzen, und daß eine Auswahleinrichtung (180) auf die Zeitausrichtungs-Signale und die die Lagen der Bezugs-Untersequenzen der Bezugs-Sequenz kennzeichnenden Signale (NR 1, NR 2) anspricht, um diejenigen Untersequenzen der für das Gesprochene repräsentativen Sequenz auszuwählen, die durch die Zeitausrichtung den gekennzeichneten Bezugs-Untersequenzen in der Bezugs-Sequenz zugeordnet sind.