DE3242866C2 - - Google Patents

Info

Publication number
DE3242866C2
DE3242866C2 DE3242866A DE3242866A DE3242866C2 DE 3242866 C2 DE3242866 C2 DE 3242866C2 DE 3242866 A DE3242866 A DE 3242866A DE 3242866 A DE3242866 A DE 3242866A DE 3242866 C2 DE3242866 C2 DE 3242866C2
Authority
DE
Germany
Prior art keywords
sequences
sub
sequence
signal
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE3242866A
Other languages
English (en)
Other versions
DE3242866A1 (de
Inventor
Frank Christopher Madison N.J. Us Pirz
Lawrence Richard Berkeley Heights N.J. Us Rabiner
Jay Gordon Warren N.J. Us Wilpon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Technologies Inc filed Critical AT&T Technologies Inc
Publication of DE3242866A1 publication Critical patent/DE3242866A1/de
Application granted granted Critical
Publication of DE3242866C2 publication Critical patent/DE3242866C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erzeugen von Sprachmusterschablonen gemäß den Oberbegrffen der Patentansprüche 1 und 2.
Während Menschen die Sprache als bequemes und wirksames Mittel für die Kommunikation empfinden, sind Maschinen im allgemeinen durch programmierte Anordnungen derart organisiert, daß sie mittels Schalter, Tastaturen und Anzeigen in codierten Formaten kommunizieren. Fortschritte in der Elektroniktechnologie haben es möglich gemacht, eine Sprachschnittstelle für Maschinen, wie z. B. Rechner oder automatische Steuerungsanlagen, zu schaffen. Entsprechend bekannter Methoden werden Maschinensignale an einen Sprachsynthesizer geliefert, der ein gespeichertes Vokabular codierter Sprachelemente enthält. Dann wird das Sprachmuster über einen elektroakustischen Wandler in eine gesprochene Nachricht umgesetzt. Ein Spracherkenner empfängt eine Aussprache und vergleicht das Aussprachemuster mit vorab gespeicherten Sprachmustern. Die Aussprache kann identifiziert werden als das am besten übereinstimmtende gespeicherten Muster, und es wird ein Maschinensignal erzeugt, welches dem übereinstimmenden Muster entspricht. Hierdurch wird Sprachkommunikation mit Maschinen erreicht.
In einer anderen Art von Sprachsynthese werden Sprachmuster aufgezeichnet, um ein gespeichertes Vokabular zu schaffen. Ansprechend auf ein codiertes Signal werden aus dem gespeicherten Vokabular von Sprachelementen ausgewählte Muster wiederaufgefunden und zu einem Nachrichtensignal zusammengesetzt. Das Nachrichtensignal wird dann in einer Tonfolge umgesetzt. Bei den Grund- Spracheinheiten in dem gespeicherten Vokabular kann es sich um große Nachrichteneinheiten handeln. Wenn ein umfassendes Vokabular erforderlich ist, wird der Speicherbedarf für die verschiedenen Nachrichten-Sprachmuster unwirtschaftlich.
Die Verwendung von Sprachmuster-Untereinheiten gestattet größere Flexibilität in der Bildung von Nachrichten und geringeren Vokabularspeicherbedart. Untereinheiten, wie Phoneme, Allephone, Halbsilben oder Dyaden beispielsweise, gestattet die Erzeugung eine großen Vielfalt von Nachrichten aus einem sehr begrenzten gespeicherten Vokabular. Wie bekannt ist, werden Sprachmuster-Untereinheiten im allgemeinen aus Wortlängenmustern der normalen Sprache abgeleitet. Der Vorgang des Erzeugens von Untereinheit- Merkmalen aus der normalen Sprache ist jedoch kompliziert, erfordert eine zeitaufwendige Analyse und das Eingreifen und Modifizieren durch Fachleute.
Die meisten Spracherkennungssysteme sind so ausgelegt, daß die Eingangs-Sprachsignale empfangen und diese Sprachsignale in eine Folge vorgeschriebener Schallmerkmale umsetzen. Die eingegebene Sprachschallmerkmal-Sequenz wird verglichen mit gespeicherten Sätzen von für identifizierte Spracheinheiten vorab ermittelten Bezugsmerkmalen. Das Sprachsignal wird identifiziert, wenn die eingegebene Sprachmerkmal-Sequenz nach Maßgabe vorbestimmter Kriterien einem gespeicherten Satz von Bezugsmerkmalen entspricht. Wenn die Bezugsspracheinheiten gesprochene Worte sind, können aus den Aussprachen des gesprochenen Wortes direkt Bezugs-Sprachmerkmalschablonen abgeleitet werden. Wort-, Wortverbindungs- oder Satzschablonen eignen sich für begrenzte Vokabulare. Für größere Vokabulare jedoch wird der Schablonenspeicherbedarf unwirtschaftlich.
Wie bei der Sprachsynthese ist es wünschenswert, den Schablonenspeicherbedarf von Spracherkennern durch Verwendung von Sprachmuster-Untereinheiten zu beschränken. Gespeicherte Untereinheit- Schablonen können in einem Spracherkenner direkt zum Identifizieren eines eingegebenen Sprachmusters verwendet werden, wie es in dem für G. L. Clapper am 6. Nov. 1973 erteilten US-Patent 37 70 892 beschrieben ist, oder sie können zur Bildung längerer Nachrichtenmuster-Schablonen selektiv verknüpft werden. Bei auf Sprachmuster spezieller Sprecher angepaßten Erkennern ist es notwendig, für jeden Benutzer des Systeme ein Vokabular von Untereinheit- Bezugsschablonen zu erhalten. Sprecherunabhängige Anordnungen zum Erkennen der Sprachmuster irgendeines Sprechers benötigen einen Satz von Untereinheit-Schablonen, der repräsentativ für eine große Bevölkerung ist. Folglich muß nach dem Mitteln oder Gruppieren der von vielen Sprechern erhaltenen Sprachmustermerkmalen eine Anzahl von Untereinheit- Schablonen geschaffen werden.
Im Idealfall sollte für jede einzelne Person, deren Sprache zu erkennen ist, ein Satz von Untereinheit- Schablonen erzeugt werden. Jedoch macht es die komplizierte und zeitaufwendige Prozedur der Schablonenbildung schwierig, auf diese Weise mehr als einige wenige Schablonensätze zu erzeugen.
Die US-PS 40 60 694 offenbart eine Spracherkennungsanordnung, die für mehrere unterschiedliche Sprecher ausgebildet ist. In diesem System wird ein Satz von Phonemkennzeichenparametern für einen einzelnen Sprecher ermittelt. Anstatt für andere Sprecher zusätzliche Phonemkennzeichen zu bilden, werden die zuvor erzeugten Phonemkennzeichen künstlich variiert, um einen Bereich von Phonemkennzeichensätzen zu erzeugen.
Vor dem Erkennen einer Äußerung wird aus dem künstlich erzeugten Bereich derjenige Phonemsatz ausgewählt, der der Äußerung am meisten ähnlich ist. Auf diese Weise wird die zeitaufwendige Prozedur der Phonemerzeugung vermieden. Der künstliche Phonemsatz jedoch approximiert nur die tatsächliche Unterschiede in Stimm- und Aussprachekennzeichen zu einem ungewissen Ausmaß. Demzufolge erhöht die Verwendung künstlich gebildeter Phonemsätze den Grad der Unsicherheit der Erkennungsergebnisse. Es ist ein Ziel der Erfindung, eine verbesserte Unternachrichteneinheit- Schablonenerzeugung ohne manuelle Analyse oder dem Hilfsmittel künstlicher Variation eines bekannten Untereinheit-Sprachmusters zu schaffen.
Die Übereinstimmung mit dem Oberbegriff des Anspruchs 1 bzw. 2 zeigt die DE-OS 27 53 277 ein Verfahren bzw. eine Vorrichtung zum Erzeugen von Sprachmusterschablonen, insbesondere in Verbindung mit der Erkennung von Ziffern. Grundlage dabei ist das Erkennen von ausschließlich stimmhaften Abschnitten gesprochener Wörter. In der Vorbereitungsphase muß eine bestimmte Folge von Ziffern von einem Benutzer gesprochen werden. Die Aussprache wird dann analysiert, um eine Sequenz von Schallmerkmalsignalen zu erzeugen, jeweils bestehend aus einem Satz von linearen Voraussagekoeffizienten (LPC-Koeffizienten). Außerdem wird das von der Bedienungsperson Gesprochene hinsichtlich stimmhafter Abschnitte, stimmloser Abschnitte oder Pausenabschnitte analysiert. Die Untersequenzen von Signalen, die den stimmhaften Abschnitten entsprechen, werden extrahiert und gespeichert, um als Schablonen bei späteren Spracherkennungs-Vorgängen zur Verfügung zu stehen. Für umfangreichere Anwendungszwecke, die nicht auf Ziffern beschränkt sind, erweist sich das bekannte Verfahren als zu wenig flexibel.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zum Erzeugen von Sprachmusterschablonen zu schaffen, die einerseits die spezielle Sprechweise einer oder mehrerer bestimmter Personen berücksichtigt, andererseits aber eine Vorab-Auswahl eines geeigneten Satzes von Sprachschablonen- Untersequenzen möglich macht, ohne daß die Vorbereitungsphase für die beteitigten Personen verkompliziert wird.
Diese Aufgabe wird durch die im Anspruch 1 angegebene Erfindung gelöst. Eine entsprechende Vorrichtung ist in Anspruch 2 angegeben.
Bei der Erfindung wird Gebrauch gemacht von Bezugs-Sequenzen von Schallmerkmalsignalen, in denen die Lagen der Untersequenzen, welche den gewünschten Untereinheiten der Bezugssprachmuster entsprechen, festgelegt wurden. Diese Bezugs- Sequenzen werden nicht direkt als Sprachmusterschablonen verwendet, sondern sie werden verglichen mit Sequenzen von Schallmerkmalsignalen, die abgeleitet sind aus Sprechproben einer Person. Indem eine Person eine ausgesprochene Version der gleichen Sprachmuster liefert, lassen sich durch den Vergleich die Lagen der den gewünschten Untereinheiten entsprechenden Untersequenzen bestimmen. Wenn diese Untersequenzen aus den Aussprache-Sequenzen extrahiert sind, werden sie zur Bildung von Sprachmusterschablonen verwendet. Dadurch vereinigt man folgende Vorteile: Man hat Sprachmusterschablonen zur Verfügung, die vollständig aus Sprechproben von Personen abgeleitet sind; man kann vorab einen nachweislich als günstig anzusehenden Satz von Untersequenzen auswählen. Dabei ist die Belastung der die Sprechproben liefernden Personen in der Vorbereitungsphase gering.
Die Bezugs-Sequenzen können Bezugs-Wortmuster sein, und die Bezugs-Untersequenzen sind solche, wie sie für Phoneme, Allophone, Halbsilben oder andere bekannte Komponenten gesprochener Wörter erhalten werden.
Kurze Beschreibung der Zeichnungen
Fig. 1 zeigt ein Blockdiagramm eines für die Erfindung beispielhaften Sprachmustergenerators;
Fig. 2 zeigt ein detailliertes Blockdiagramm des in der Schaltung nach Fig. 1 enthaltenen Halbsilbensegment- Selektors; und
Fig. 3 zeigt ein Flußdiagramm eines für die Erfindung beispielhaften Sprachmuster-Erzeugungsprozesses.
Bester Weg zur Ausführung der Erfindung
Fig. 1 zeigt ein Blockdiagramm eines Untersequenz- Sprachmustergenerators, der so ausgebildet ist, daß er einen Satz von Sprachmusterschablonen für Unterschiedliche Sprecher auf der Grundlage eins Satzes von vorab gespeicherten Bezugs-Sequenzen von Bezugssprachmuster liefert. Die gespeicherten Bezugs-Sequenzen können Wortverbindungen oder Nachrichten und die Bezugs-Untersequenzen Wörter oder andere Nachrichten-Untereinheiten. Ein Sprecher 150 enthält einen Satz von vorbestimmten Bezugs-Sequenzen, die zuvor nach herkömmlichen Methoden gewonnen wurden. Der Speicher 150 kann beispielsweise ein INTEL 2716 2 K × 8 EPTOM oder ein ähnliches Bauelement sein. Jedes Bezugssprachmuster in dem Speicher 150, z. B. R I , enthält eine Sequenz von Schallmerkmalsignalen.
R I = R I (1), R I (2),. . ., R I (m),. . ., R I (M I ) (1)
ist repräsentativ für ein Bezugswort, wie es von einem oder mehreren Sprechern gesprochen wird, sowie für Signale, die den Grenzrahmen NR 1 (I) und NR 2 (I) einer vorgeschriebenen Bezugs-Untersequenz, z. B. einer Halbsilbe des Bezugswortes entsprechen. Beispielsweise kann das phonetische Bezugswort das Wort "back" und die vorgeschriebene Untersequenz die End- Halbsilbe "ack" sein. Die Grenzrahmen bezeichnen die Stelle der Merkmalsignale für die Halbsilbe "ack".
Das Flußdiagramm in Fig. 3 veranschaulicht den Erzeugungsprozeß von Halbsilben-Sprachmustern. Am Anfang liefert ein Sprecher ein Startsignal ST sowie ein Sprecher- Identifizierungssignal SP, wie es bei 300 dargestellt ist. Das Bezugswort- Indentifikationssignal I wird in dem Kästchen 305 für Indexinitialisierung auf 1 eingestellt, und gemäß dem Tätigkeitskästchen 310 wird eine Befehlsnachricht erzeugt, die den Sprecher auffordert, seine Aussprache des Bezugswortes I einzugeben. Da von dem Sprechers gesprochene Bezugssprachmuster wird analysiert, und in dem Tätigkeitskästchen 315 wird eine Zeitrahmensequenz von Schallmerkmalsignalen erzeugt:
T I = T I (1), T I (2),. . .T I (N) (2)
Die Länge der Aussprache wird mit einem vorgeschriebenen Bereich verglichen, um mögliche Endpunktfehler (im Kästchen 315) festzustellen. Für den Fall, daß die Dauer des gesprochenen Bezugssprachmusters außerhalb des vorgeschriebenen Bereichs liegt, geht die Steuerung über das Entscheidungskästchen 320 über zu einem Tätigkeitskästchen 370, und es wird eine Nachricht zum Wiederholen der Aussprache erzeugt. Dann wird in dem Tätigkeitskästchen 310 erneut die Aufforderung zur Aussprache des Worts I erzeugt, und die wiederholte Aussprache des Wortes I wird in dem Kästchen 315 analysiert.
Gemäß Fig. 1 liefert ein identifizierter Sprecher SP, für den Sprachmusterschablonen erzeugt werden sollen, ein kurzes Startsignal ST über einen Codegenerator 103 an eine Steuerung 140, sowie ein Identifikationssignal SP. Der Generator 103 kann einen bekannten Tastatur-Codegenerator enthalten. Bei der Steuerung 140 kann es sich um einen Mikroprozessoranordnung handeln. Die Steuerung ist entsprechend dauernd gespeicherter Befehle so ausgelegt, daß sie ansprechend auf die an sie angelegten Steuersignale eine Sequenz von Steuersignalen liefert, die auf ihrer rechten Seite dargestellt sind.
Ansprechend auf das Signal ST erzeugt die Steuerung 140 Steuerimpulse WRS (Wortzähler zurücksetzen) und MST (Nachrichtenstart). Der Impuls WRS stellt einen Wortzähler 165 auf den Zustand I = 1 zurück, so daß die erste Bezugs-Sequenz in dem Speicher 150 adressiert wird. Der Impuls MST wird an einen Nachrichtengenerator 135 angelegt, der in bekannter Weise so arbeitet, daß er eine synthetische gesprochene Nachricht erzeugt, die den Sprecher SP auffordert, das Bezugswort I = 1 auszusprechen. Nach Beendigung der Befehlsnachricht liefert der Generator 135 ein Signal MD (Nachricht abgegeben) an die Steuerung 140, um anzuzeigen, daß die Aussprache des Sprechers am Mikrophon 101 erwartet wird.
Ansprechend auf das Signal MD erzeugt die Steuerung 140 einen Steuerimpuls AS. Der Impuls AS wird an einen Merkmalsignalgenerator 115 gelegt, um dessen Betrieb zu veranlassen. Das vom Mikrophon 101 kommende Sprachsignal wird an eine Tiefpaßfilter- und Abtastschaltung 105 gelegt, die die Bandbreite des Sprachsignals auf den Bereich zwischen beispielsweise 100 Hz und 3200 Hz beschränkt und das bandbegrenzte Sprachsignal beispielsweise mit 6667 Hz abtastet. In bekannter Weise werden alle aufeinanderfolgenden Sprachsignalabtastungen von einem Analog-Digital-Umsetzer 110 in ein digitalcodiertes Signal umgewandelt.
Der Merkmalsignalgenerator 115 empfängt die digitalen Abtastungen vom Umsetzer 110 und erzeugt die für das Sprachsignal repräsentative Zeitsequenz von linearen Vorhersage-Merkmalsignalen T I . Der Generator 115 liefert außerdem eine Impuls WT (Schreiben) für alle aufeinanderfolgenden Merkmalsignalrahmen an FIFO-Speicher 120 und 122. Ansprechend auf die Folge von WR -Impulsen werden die Merkmalsignale von T I sukzessive in die First-in- First-out-Speicher 120 und 122 eingegeben.
Bei dem Merkmalsignalgenerator 115 kann es sich um den Generator für lineare Prädiktor-Koeffizienten handeln, und er kann außerdem einen Endpunktdetektor enthalten. Der Endpunktdetektor ist so ausgebildet, daß er die Beendigung einer an das Mikrophon 101 gelandenden Aussprache erfaßt. Für den Fall, daß ein Endpunkt nicht innerhalb einer vorgeschriebenen Zeitdauer auftritt, wird von dem Generator 115 ein Signal EPE (Endpunktfehler) erzeugt. Das Signal EPE gelangt über ein ODER-Glied 137 an den Nachrichtengenerator 135. Da Ausgangssignal ERR des ODER-Gliedes 137 veranlaßt die Steuerung 140 zum Erzeugen eines Signals MST, welches seinerseits die Erzeugung einer Nachricht zur Wortwiederholung veranlaßt. Nachdem von dem Generator 135 das Signal MD (Nachricht abgegeben) empfangen ist, liefert die Steuerung 140 einen Impuls AS an den Generator 115. Der Impuls AS veranlaßt die Merkmalsignalerzeugung für die erwarteten wiederholte Aussprache.
Wie bekannt ist, ändern sich Artikulation und Sprachgeschwindigkeit von Person zu Person beträchlich. Die gespeicherte Bezugs-Sequenz R I besitzt M I Rahmen, während die geprochene Sequenz T I NM I Rahmen haben kann. Um den durch Schwankungen der Sprechgeschwindigkeit verursachten Unterschied zwischen den Sequenzen von Schallmerkmalsignalen zu beseitigen, werden die Schallmerkmalsignale linear skaliert, so daß die Dauer der Aussprache auf M I geändert wird, wie es dem Tätigkeitskästchen 325 in Fig. 3 entpricht. Der Skalenfaktor N/M I wird zurückbehalten, um zu einem späteren Zeitpunkt die umgekehrte Skalierung zu ermöglichen. Die modifizierte Sequenz U I ist ein M I -Rahmenmuster. Die Artikulationsunterschiede jedoch führen zu einer nicht-linearen Beziehung zwischen der modifizierten Schallmerkmalsignal- Sequenz U I und der Bezugs-Sequenz R I. Um die Beziehung zwischen den Sequenzen zu bestimmten, wird die modifizierte Sequenz gemäß dem Tätigkeitskästchen 330 dynamisch auf die Sequenz der Bezugs-Sequenz zeitlich verzogen. Durch das dynamische zeitliche Verziehen werden ein Signal, das repräsentativ ist für die beste Entsprechung (Ausrichtung) zwischen der Bezugs-Sequenz und der gesprochenen, modifizierten Sequenz, und ein Satz von Signalen σ, der repräsentativ ist für diejenige Sequenz von Signalrahmen, die am besten den Bezugssequenzrahmen entspricht, erzeugt. Das Entsprechungssignal wird in dem Entscheidungskästchen 335 mit einem vorbestimmten Schwellenwert TH 1 verglichen. Wenn die modifizierten Aussprache- und die Bezugs-Sequenz nicht ausreichend ähnlich sind, wird das Kästchen 370 betreten, und die Aussprache wird in der zuvor beschriebenen Weise wiederholt. Gemäß Fig. 1 liefert der Generator 115 nach Beendigung der Signalerzeugung für die Aussprache des Wortes I einen Impuls AD an die Steuerung 140. Zu dieser Zeit enthält jeder der Speicher 120 und 122 den Satz von Schallmerkmalsignalen T I für die zugeführte Aussprache. Ein Linear-Zeitverziehungprozessor 145, (s. US-PS 40 20 332) ist so ausgebildet, daß er die Merkmalsignale vom Speicher 122 derart modifiziert, daß die Aussprachemerkmalsignale denselben Zeitraum belegen wie die gespeicherten Bezugs- Sequenzen von Schallmerkmalsignalen für dasselbe Wort in dem Bezugs-Sequenz- Speicher 150. In der Tat wird die Anzahl von Rahmen der zugeführten Aussprache (N) in die Anzahl von Rahmen (M I ) der Bezugs-Sequenz für das Wort in dem Speicher 150 geändert. Ein dem Skalenfaktor N/M I entsprechendes Signal SF wird erzeugt und in dem Prozessor 145 gespeichert. Nach Beendigung der Merkmalsignalerzeugung im Generator 115 wird der Steuerimpuls AD vom Generator 115 an die Steuerung 140 gelegt. Ansprechend auf den Impuls AD liefert die Steuerung 140 einen Steuerimpuls LS an den Linear-Zeitverziehungsprozessor 145, wodurch der Vorgang der linearen zeitlichen Verziehung in Gang gesetzt wird. Der Prozessor 145 empfängt die Sequenz von Merkmalsignalen vom FIFO-Speicher 122 und modifiziert diese Merkmalsignale derart, daß die Sequenz von M I modifiziert wird zu der Sequenz U I = U I(1), U I(2), . . . U I(j), . . . U I(M I ) (3) Die Sequenz der modifizierten Schallmerkmalsignale werden in einem rahmenweise adressierbaren Speicher des Prozessors 145 gespeichert. Die zeitliche Ausrichtung zwischen den modifizierten Sequenzen und den gespeicherten Bezugs-Sequenzen muß bestimmt werden, um den Unterschieden in der Artikulation zwischen der Bezugs-Sequenz R I und der modifizierten Sequenz U I Rechnung zu tragen. Wie bekannt ist, können die modifizierten Schallmerkmalsignale zeitlich auf die Schallmerkmalsignale der Bezugs-Sequenz verzogen werden, um das am besten übereinstimmende Entsprechnungssignal zu bilden: wobei w(i) der optimale Zeitverziehungsfaktor zwischen den Merkmalsvektoren U I und R I ist und (i, h) = d(R I(i), U I (j)) = log (R I(i) · U I(j)) (5) der örtliche Abstand zwischen den Merkmalsvektoren des Rahmens i der modifizierten Sequenz U I und dem Rahmen j = w(i) der gespeicherten Bezugs-Sequenz R I ist. w(i) ist für gewöhnlich beschränkt, so daß die Steigung des Verziehungsfaktors w(i) dem Bereich der erwarteten Sprachmusterrahmen entspricht. Nachdem die Verarbeitung der Gleichung (4) abgeschlossen ist, stellt D I(R I, U I) die beste Ähnlichkeit zwischen der modifizierten Sequenz U I und der Bezugs-Sequenz R I dar, und der Verziehungsfaktor w(i) entspricht dem Zeitausrichtungsweg zwischen den modifizierten Schallmerkmalsignalen und den Bezugs-Schallmerkmalsignalen nach Gleichung (4). Bei dem Vorgang der dynamischen Zeitverziehung werden die möglichen Zeitausrichtungswege zwischen den gespeicherten Bezugs-Sequenzen und den modifizierten Sequenzen des gesprochenen Bezugssprachmusters nach Maßgabe folgender Beziehung durch Punkte (i, j) gelegt: D A (i, j) = d(i, j) + min [D A (i -1, k)]j-I₂k j-I 1 (6) 1i M I sind die Bezugssequenz-Merkmalrahmen. 1k M I sind die modifizierten Merkmalrahmen, und d A (i, j) ist das aufgelaufene Abstandssignal für einen Weg vom Punkt (1,1) zum Punkt (i, j). d(i, j) ist der örtliche Abstand (Gleichung (5)) zwischen den modifizierten Schallmerkmalvektoren am modifizierten Aussrache-Merkmalrahmen j und den Bezugsmerkmalsvektoren am Bezugssequenz-Merkmalrahmen i. Der Term ganz rechts in Gleichung (6) stellt die bis zum Bezugssequenzrahmen i-1 und dem modifizierten Ausspracherahmen j-Ik j-I ₁ aufgelaufene Entfernung dar. Der Rahmen I ₁ wird so gewählt, daß er den zulässigen Artikulationsunterschieden entspricht. Es wird für gewöhnlich auf 1 eingestellt, wenn w(i-1) = w(i-2), während er sonst auf Null eingestellt wird. I₂ wird typischerweise auf 2 eingestellt. Sonst erstreckt sich k über den Bereich j-2 bis j-1, wenn w(i-1) = w(i-2), und erstreckt sich sonst über den Bereich von j-2 bis j. In der Schaltung nach Fig. 1 ist der dynamische Zeitverziehungsprozessor 155 so ausgebildet, daß er entsprechend Gleichung (4) ein Gesamtabstandssignal D I erzeugt. Wie oben erwähnt wurde, ist das Signal D I ein Maß für die beste Ähnlichkeit zwischen der modifizierten Sequenz U I und der Bezugs-Sequenz R I. Es wird weiterhin ein Satz von Zeitausrichtungssignalen erzeugt, die kennzeichnend sind für den Zeitverziehungsweg w(i) zwischen den am besten entsprechenden Schallmerkmalssignalen U I(j) und R I)i). Nach Beendigung der Aussprachemerkmal-Skalierung im Prozessor 155 veranlaßt der Steuerimpuls LD die Steuerung 140 zu einer Zustandsänderung und zum Liefern des Signals DST an den Prozessor 145. Das Signal DST leitet die dynamische Zeitverziehung für die Sequenz von Merkmalssignal- Zeitrahmen ein. Bei jedem Bezugssequenzrahmen i wird das Bezugssequenz-Merkmalssignal R I(i) vom Schablonenspeicher 150 zum Prozessor 155 übertragen. Es wird eine Sequenz von ausgewählten modifizierten Ausspracherahmen j innerhalb des Rahmenbereichs von L(j) = max [½ (j-1), M I -2(M I -j), 1] H(j) = min [2 (j-1)+1, M I ½ (M I -j), M I ] (7) adressiert, und die Schallmerkmalssignale U I(j) werden an den Prozessor 155 gegeben. In dem Prozessor 155 werden die kumulativen Abstandssignale D A für den Bereich gemäß Gleichung (7) erzeugt, und es wird für jeden Punkt (i, j) ein Signal s = i-k erzeugt, das die Versetzung zwischen w(i-1) und w(i) darstellt. Beim letzten Bezugssequenzrahmen M I wird das kleinste kumulative Abstandssignal D I ausgewählt und an einen Vergleicher 160 gelegt. Der Vergleicher 160 erzeugt ein Signal TEL, wenn das ausgewählte Abstandssignal D I einen vorbestimmten Schwellenwert überschreitet. In diesem Fall besteht keine ausreichende Ähnlichkeit zwischen dem gespeicherten und dem gesprochenen Bezugssprachmuster, um das Rahmenintervall für die vorgeschriebene Halbsilbe in dem modifizierten Aussprachemuster zu bestimmen. Folglich muß eine neue Eingabe einer Aussprache des Wortes I angefordert werden. Das Signal TLE veranlaßt das ODER- Glied 137 zum Erzeugen des Steuersignals ERR. Dieses Steuersignal aktiviert den Nachrichtengenerator 135, wie es oben beschrieben wurde. Der Nachrichtengenerator 135 wird dann veranlaßt, eine Nachricht zum Wiederholen der Aussprache und eine Nachricht zum Aussprechen von I zusammenzusetzen. Die Steuerung 140 liefert dann den Steuerimpuls AS an den Merkmalssignalgenerator 115, um eine Analyse der neuen Aussprache einzuleiten. Wenn das Abstandssignal D I vom Prozessor 155 nicht den Schwellenwert Th 1 überschreitet, veranlaßt ein Steuerimpuls DD vom Prozessor 155 in Fig. 1 die Steuerung 140 einen Impuls BTS und ein Steuersignal BT zu erzeugen. Der Impuls BTS wird an den dynamischen Zeitverziehungsprozessor 155 gelegt, und in dem Prozessor wird der in dem Tätikeitskästchen 340 in Fig. 3 angedeutete Rücklaufvorgang eingeleitet. Während sich der Prozessor 155 in diesem Rücklaufzustand befindet, wird die Sequenz der Bezugswortrahmen in umgekehrter Reihenfolge erzeugt. Die Bezugssequenz-Rahmensignale m = M I , M I -1, . . . , i, . . . 2, 1 werden von dem Prozessor als codierte Signale F R ausgegeben. Wenn der Bezugswortrahmen i = M I adressiert wird, wird der entsprechende Rahmen Fs = M I der modifizierten Aussprache erzeugt. Beim Bezugsrahmen M I -1 ist der entsprechende Ausspracherahmen M I -σ(M I ). Die Verarbeitung schreitet für jeden Bezugswortrahmen j fort, und der modifizierte Ausspracherahmen j = w(i+1)-σ(i+1) (8) erscheint als Signal Fs. Während das Rücklaufen weiter vonstatten geht, wird in dem in Fig. 2 genauer gezeigten Halbsilbenrahmen-Selektor 180 der Halbsilbenabschnitt der modifizierten Aussprache ausgewählt. Für jedes Bezugswort I im Speicher 150 sind die für den Halbsilbenabschnitt des Bezugswortes repräsentativen Signale vom Speicher verfügbar. In der in Fig. 1 gezeigten Schaltung gelang ein dem Anfangsrahmen des vorgeschriebenen Halbsilbenabschnitts entsprechendes Signal NR 2 (I) gelangt von dem Speicher 150 an einen Eingang eines Vergleichers 203 in dem Selektor 180. Die während des Rücklaufvorgangs von dem Prozessor 155 kommende Sequenz der Bezugsrahmen F R wird an beide Vergleicher 201 und 203 gelegt. Wenn das Bezugswort-Rahmensignal F R dem Halbsilben-Endpunkt-Rahmemsignal NR 2 (I) gleicht, wird das Ausgangssignal des Vergleichers 203 in dem Zeitpunkt freigegeben, in dem der entsprechende modifizierte Ausspracherahmen F S vom Prozessor 155 an einen Zwischenspeicher 212 gelegt wird. Ein UND-Glied 207 wird bei gemeinsamen Ansprechen auf das Steuersignal BT und das Freigabe-Ausgangssignal des Vergleichers 203 geöffnet, wodurch der dem Halbsilben-Endrahmen des Bezugswortes entsprechende modifizierte Ausspracherahmen in den Zwischenspeicher 212 eingegeben wird. Die Abarbeitung der Bezugssequenzrahmen im Prozessor 155 wird fortgesetzt. Wenn das Rahmensignal F R dem Anfangsrahmensignal NR 1 (I) gleicht, wird der entsprechende Rahmen F S für die modifizierte Aussprache ansprechend auf das Freigabe-Ausgangssignal des Vergleichers 210 in den Zwischenspeicher 210 eingegeben. Der Prozessor 155 fährt mit der Durchführung des Rücklaufvorgangs fort, bis das Bezugsrahmensignal F R = 1 ist. Zu diesem Zeitpunkt erzeugt der Prozessor 155 den Steuerimpuls BTD, der die Beendigung des Rücklaufvorgangs anzeigt. Der Zwischenspeicher 210 enthält nun den modifizierten Ausspracherahmen N 1, der dem Anfangsrahmen der vorgeschriebenen Halbsilbe entspricht, und der Zwischenspeicher 212 enthält das modifizierte Aussprache-Rahmensignal N 2, das dem Endrahmen der vorgegebenen Halbsilbe in der modifizierten Aussprache entspricht. Die modifizierte Aussprache war jedoch das Ergebnis einer Skalierung in dem Prozessor 145 für lineare Zeitverziehung, welcher die Dauer von Aussprache und Bezugswort aneinander angeglichen hat. Während des Skalierungsvorgangs war das Signal SF erzeugt worden, das das Verhältnis der Dauer N der modifizierten Aussprache zu der Dauer M der eingegebenen Aussprache darstellt. Das Signal N 1 im Zwischenspeicher 210 wird nur an einen Eingang eines Multiplizierers 215 gegeben, und der Ekalierungsfaktor SF wird an dessen anderen Eingang gelegt. Der Multiplizierer 215 bildet das Signal N 1′, das den Anfangsrahmen der vorgeschriebenen Halbsilbe in der ursprünglichen Aussprache darstellt. In ähnlicher Weise wird das Signal N 2 vom Zwischenspeicher 212 in einem Multiplizierer 218 mit dem Skalenfaktor SF multipliziert, um ein Signal N 2′ zu erzeugen, welches den Endrahmen der vorgeschriebenen Halbsilbe der ursprünglichen Aussprache darstellt. Somit bestimmt sich der vorgeschriebene Halbsilbenabschnitt der ursprünglichen Aussprache als das Intervall zwischen den Rahmen N 1′ und N 2′ (Tätigkeitskästchen 345 in Fig. 3). Am Ende des Rücklaufvorgangs gemäß den Tätigkeitskästchen 340 und 345 in Fig. 3 stehen die Grenzrahmen des Halbsilbenabschnitts der Aussprache an den Ausgängen der Multiplizerer 215 und 213 zur Verfügung. Die Sequenz der geprochenen Schallmerkmalsignale wird in dem FIFO-Speicher 120 gespeichert. Wie in dem Tätigkeitskästchen 305 in Fig. 3 angegeben ist, wird der vorgeschriebene Halbsilbenabschnitt der Aussprache ansprechend auf die Signale N 1′ und N 2′ ausgewählt und in dem Speicher 125 gespeichert. Wenn der Rücklaufvorgang abgeschlossen ist, wird der Steuerimpuls BTD an die Steuerung 140 gelegt. Ansprechend auf dem Impuls BTD ändert die Steuerung 140 ihren Zustand und erzeugt einen Steuerungsimpuls XR und ein Steuersignal WDS. Der Impuls XR setzt sowohl den Halbsilbenrahmenzähler 226 als auch den Ausspracherahmenzähler 230 in deren erste Zustände zurück. Diese Zähler können eine oder mehrere integrierte Schaltungen vom Typ 74193 enthalten. Das Signal WDS wird an den Schreib-Eingang des Speichers 125 für Halbsilben-Merkmalschablonen gelegt, um in diesem die Speicherung der Aussprachemerkmalssignale vom FIFO-Speicher 120 zu ermöglichen. Zu dieser Zeit wird der F S = 1-Rahmen des I-ten Wortes für den identifizierten Sprecher SP in dem Schablonenspeicher 125 adressiert. Die Steuerung 140 erzeugt eine Sequenz von Impulsen XI, die den Zähler 230 sukzessive erhöhen. Das Ausgangssignal C des Zählers 230, das die aufeinanderfolgenden Ausspracherahmen darstellt, wird an einen Eingang eines Vergleichers 220 und an einen Eingang eines Vergleichers 222 gelegt. Das Ausgangssignal des Multiplizierers 215, das den Anfangsrahmen N 1′ der vorgeschriebenen Halbsilbe darstellt, wird an den anderen Eingang des Vergleichers 220 gelegt. Solange das Ausspracherahmensignal C vom Zähler 230 dem vom Multiplizierer 215 kommenden Rahmensignal N 1′ gleich ist, wird der Ausgang des Vergleichers 220 gesperrt, und das Rahmenausgangssignal FC des Halbsilbenzählers 226 bleibt unverändert. Folglich wird die Folge von Merkmalssignalen aus dem FIFO-Speichers 125 in die erste Rahmenposition des Bezugswortes I geladen. Wenn das Ausgangssignal C des Ausspracherahmenzählers 230 gleich dem Halbsilben-Anfangsrahmensignal vom Multiplizierer 215 ist, wird der Vergleicher 220 freigegeben, und anschließende Zählimpulse XI erhöhen den Halbsilbenzähler 226 über das UND-Glied 224. Die Aussprachemerkmalsignale für den Anfangsrahmen N 1′ der vorgeschriebenen Halbsilbe werden an der FC = 1-Stelle für das Bezugswort I im Schablonenspeicher 125 gespeichert. Der Vergleicher 220 bleibt freigegeben, so daß der Halbsilbenzähler 226 sukzessive erhöht wird. Auf diese Weise wird die Sequenz der Schallmerkmalsignale für die vorgeschriebene Halbsilbe in aufeinanderfolgende Stellen des Schablonenspeichers 125 gebracht. Der Vergleicher 222 wird freigegeben, wenn das Ausgangssignal M 2′ der vorgeschriebenen Halbsilbe ist. Das bei dem Endrahmen der vorgeschriebenen Halbsilbe auftretende Signal XD von dem Vergleicher 222 wird an die Steuerung 140 gelegt. Die Steuerung beendet die Erzeugung der Zählererhöhungsimpulse XI. Somit wird, nachdem alle Schallmerkmalsignale in der vorgeschriebenen Halbsilbe im Schablonenspeicher 125 gespeichert sind, der Betrieb des Halbsilbenrahmenselektors 180 beendet. Die Steuerung 140 liefert den Steuerimpuls WI ansprechend auf den Steuerimpuls XD an den Wortzähler 165. Der Impuls WI erhöht den Wortzähler 165 gemäß dem Indexkästchen 335 in Fig. 3, so daß die nächste Bezugswortsequenz im Speicher 150 adressiert wird. Der Vergleicher 170 wird freigegeben, wenn das Ausgangsmaterial I des Wortzählers größer ist als der Zählerstand IMAX des letztes Wortes (Entscheidungskästchen 360). In diesem Fall wird das Signal WD erhalten, die die Schaltung nach Fig. 1 in einen Wartezustand versetzt (Tätigkeitskästchen 365), bis ein Signal ST (Start) von der Eingangsschaltung 103 empfangen wird. Entspricht I nicht dem letzten Bezugswort, wird von dem Vergleicher 170 ein Signal erhalten. Das Signal veranlaßt die Steuerung 140, ein Signal MST zu erzeugen, so daß eine Ausspracheaufforderung für das nächste Bezugswort vom Nachrichtengenerator 135 erzeugt wird. Nachdem die Untersequenzen in dem Schablonenspeicher 125 gespeichert sind, werden sie zu einem Verwendungsgerät 130 übertragen, beispielsweise einem Spracherkenner oder einem Sprachsynthesizer, um dort Verwendung zu finden. Das Verwendungsgerät kann selbstverständlich irgendeine sprachverarbeitende Vorrichtung sein, in der Sprachmusterschablonen verwendet werden. Alternativ können die Schablonen in einem Festspeicher gespeichert werden, der in eine sprachverarbeitende Anlage eingesetzt werden kann.

Claims (2)

1. Verfahren zum Erzeugen von Sprachmusterschablonen, bei dem gesprochene vorgeschriebene Bezugssprachmuster analysiert werden, um Sequenzen von Schallmerkmalensignalen, die repräsentativ sind für das Gesprochene, zu erzeugen, daraus Untersequenzen von Schallmerkmalsignalen extrahiert werden, die vorbestimmten Untereinheiten der Bezugssprachmuster entsprechen, un die Sprachmusterschablonen aus den extrahierten Untersequenzen gebildet werden, dadurch gekennenzeichnet, daß zum Extrahieren der Untersequenzen aus den für das Gesprochene repräsentativen Sequenzen von Schallmerkmalsignalen letztere Signal für Signal verglichen werden mit vorabgespeicherten Bezugs-Sequenzen von Schallmerkmalsignalen, die repräsentativ sind für die gleichen Bezugssprachmuster, um dadurch Signale zu erzeugen, die kennzeichnend sind für die dynamische Zeitausrichtung zwischen den für das Gesprochene repräsentativen Sequenzen und den Bezugs-Sequenzen, wobei die Lagen von den Untereinheiten entsprechenden Bezugs-Untersequenzen in den Bezugs-Sequenzen vorab festgelegt und gespeichert wurden, und daß diejenigen Untersequenzen der für das Gesprochene repräsentativen Sequenzen ausgewählt werden, die durch die Zeitausrichtung den Bezugs-Untersequenzen der Bezugs-Sequenzen zugeordnet sind.
2. Vorrichtung zum Erzeugen von Sprachmusterschablonen, umfassend eine Einrichtung zum Analysieren von gesprochenen vorbestimmten Bezugssprachmustern, um Sequenzen von Schallmerkmalsignalen, die repräsentativ sind für das Gesprochene, zu erzeugen, und eine Einrichtung zum Extrahieren von Untersequenzen von Schallmerkmalsignalen entsprechend vorbestimmten Untereinheiten der Bezugssprachmuster, sowie zum Bilden der Schablonen aus den extrahierten Untersequenzen, dadurch gekennzeichnet, daß die Untersequenz-Extrahierteinrichtung eine Speichereinrichtung (150) aufweist, in der Bezugs-Sequenz von Schallmerkmalsignalen, die repräsentativ sind für die Bezugssprachmuster, sowie Sätze von Signalen gespeichert sind, die die Lagen der den Untereinheiten entsprechenden Bezugs-Untersequenzen in den Bezugs-Sequenzen kennzeichnen, und daß eine Vergleichseinrichtung (145, 155) vorgesehen ist, die jede Sequenz von Schallmerkmalsignalen, die repräsentativ ist für ein ausgesprochenes Bezugssprachmuster, signalweise vergleicht mit der Bezugs-Sequenz für das gleiche Bezugssprachmuster, um Signale (FT) zu erzeugen, die repräsentativ sind für die dynamische Zeitausrichtung zwischen Sequenzen und Bezugs-Sequenzen, und daß eine Auswahleinrichtung (180) auf die Zeitausrichtungs-Signale und die die Lagen der Bezugs-Untersequenzen der Bezugs-Sequenz kennzeichnenden Signale (NR 1, NR 2) anspricht, um diejenigen Untersequenzen der für das Gesprochene repräsentativen Sequenz auszuwählen, die durch die Zeitausrichtung den gekennzeichneten Bezugs-Untersequenzen in der Bezugs-Sequenz zugeordnet sind.
DE19823242866 1981-11-19 1982-11-19 Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern Granted DE3242866A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/322,748 US4454586A (en) 1981-11-19 1981-11-19 Method and apparatus for generating speech pattern templates

Publications (2)

Publication Number Publication Date
DE3242866A1 DE3242866A1 (de) 1983-08-25
DE3242866C2 true DE3242866C2 (de) 1988-06-09

Family

ID=23256228

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19823242866 Granted DE3242866A1 (de) 1981-11-19 1982-11-19 Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern

Country Status (5)

Country Link
US (1) US4454586A (de)
JP (1) JPH073640B2 (de)
CA (1) CA1175569A (de)
DE (1) DE3242866A1 (de)
GB (1) GB2109971B (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58129682A (ja) * 1982-01-29 1983-08-02 Toshiba Corp 個人照合装置
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JPS58176699A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 音声標準パタ−ン登録方式
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
US4783811A (en) * 1984-12-27 1988-11-08 Texas Instruments Incorporated Method and apparatus for determining syllable boundaries
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
WO1987004293A1 (en) * 1986-01-03 1987-07-16 Motorola, Inc. Method and apparatus for synthesizing speech without voicing or pitch information
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4866756A (en) * 1986-04-16 1989-09-12 Call It Co. Interactive computerized communications systems with voice input and output
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
KR890702176A (ko) * 1987-10-09 1989-12-23 에드워드 엠, 칸데퍼 디지탈 방식으로 기억된 상호분절 언어세그먼트로부터 언어발생 방법 및 그 장치
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
JP2768561B2 (ja) * 1990-12-19 1998-06-25 富士通株式会社 ネットワーク変形装置および作成装置
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
US5671328A (en) * 1992-12-30 1997-09-23 International Business Machines Corporation Method and apparatus for automatic creation of a voice recognition template entry
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
US6463361B1 (en) * 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US6911916B1 (en) 1996-06-24 2005-06-28 The Cleveland Clinic Foundation Method and apparatus for accessing medical data over a network
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
TW200835315A (en) * 2007-02-01 2008-08-16 Micro Star Int Co Ltd Automatically labeling time device and method for literal file
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
GB201621434D0 (en) * 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
CN110782908B (zh) * 2019-11-05 2020-06-16 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
JPS50155105A (de) * 1974-06-04 1975-12-15
US4092493A (en) * 1976-11-30 1978-05-30 Bell Telephone Laboratories, Incorporated Speech recognition system

Also Published As

Publication number Publication date
JPH073640B2 (ja) 1995-01-18
CA1175569A (en) 1984-10-02
DE3242866A1 (de) 1983-08-25
US4454586A (en) 1984-06-12
GB2109971A (en) 1983-06-08
GB2109971B (en) 1985-07-10
JPS58102299A (ja) 1983-06-17

Similar Documents

Publication Publication Date Title
DE3242866C2 (de)
DE3244476C2 (de)
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE2953262C2 (de)
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE2752607A1 (de) Verfahren zur erkennung von sprache
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE3149134A1 (de) Verfahren und vorrichtung zur bstimmung von sprachendpunkten
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE69814442T2 (de) Strukturerkennung
EP1457966A1 (de) Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
DE102008024257A1 (de) Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE1547002A1 (de) Vorrichtung,die auf gesprochene Informationen anspricht,insbesondere phonetische Schreibmaschine

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US

D2 Grant after examination
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN