DE3242866C2 - - Google Patents
Info
- Publication number
- DE3242866C2 DE3242866C2 DE3242866A DE3242866A DE3242866C2 DE 3242866 C2 DE3242866 C2 DE 3242866C2 DE 3242866 A DE3242866 A DE 3242866A DE 3242866 A DE3242866 A DE 3242866A DE 3242866 C2 DE3242866 C2 DE 3242866C2
- Authority
- DE
- Germany
- Prior art keywords
- sequences
- sub
- sequence
- signal
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung
zum Erzeugen von Sprachmusterschablonen gemäß den Oberbegrffen
der Patentansprüche 1 und 2.
Während Menschen die Sprache als bequemes und wirksames
Mittel für die Kommunikation empfinden, sind Maschinen
im allgemeinen durch programmierte Anordnungen derart
organisiert, daß sie mittels Schalter, Tastaturen und
Anzeigen in codierten Formaten kommunizieren. Fortschritte
in der Elektroniktechnologie haben es möglich gemacht,
eine Sprachschnittstelle für Maschinen, wie z. B. Rechner
oder automatische Steuerungsanlagen, zu schaffen.
Entsprechend bekannter Methoden werden Maschinensignale
an einen Sprachsynthesizer geliefert, der ein gespeichertes
Vokabular codierter Sprachelemente enthält. Dann
wird das Sprachmuster über einen elektroakustischen
Wandler in eine gesprochene Nachricht umgesetzt. Ein
Spracherkenner empfängt eine Aussprache und vergleicht
das Aussprachemuster mit vorab gespeicherten Sprachmustern.
Die Aussprache kann identifiziert werden als
das am besten übereinstimmtende gespeicherten Muster, und
es wird ein Maschinensignal erzeugt, welches dem übereinstimmenden
Muster entspricht. Hierdurch wird Sprachkommunikation
mit Maschinen erreicht.
In einer anderen Art von Sprachsynthese werden Sprachmuster
aufgezeichnet, um ein gespeichertes Vokabular zu
schaffen. Ansprechend auf ein codiertes Signal werden
aus dem gespeicherten Vokabular von Sprachelementen
ausgewählte Muster wiederaufgefunden und zu einem Nachrichtensignal
zusammengesetzt. Das Nachrichtensignal
wird dann in einer Tonfolge umgesetzt. Bei den Grund-
Spracheinheiten in dem gespeicherten Vokabular kann es
sich um große Nachrichteneinheiten handeln. Wenn ein umfassendes
Vokabular erforderlich ist, wird der Speicherbedarf
für die verschiedenen Nachrichten-Sprachmuster
unwirtschaftlich.
Die Verwendung von Sprachmuster-Untereinheiten gestattet
größere Flexibilität in der Bildung von Nachrichten
und geringeren Vokabularspeicherbedart. Untereinheiten,
wie Phoneme, Allephone,
Halbsilben oder Dyaden beispielsweise, gestattet die
Erzeugung eine großen Vielfalt von Nachrichten aus
einem sehr begrenzten gespeicherten Vokabular. Wie bekannt
ist, werden Sprachmuster-Untereinheiten im allgemeinen
aus Wortlängenmustern der normalen Sprache abgeleitet.
Der Vorgang des Erzeugens von Untereinheit-
Merkmalen aus der normalen Sprache ist jedoch kompliziert,
erfordert eine zeitaufwendige Analyse und das
Eingreifen und Modifizieren durch Fachleute.
Die meisten Spracherkennungssysteme sind so ausgelegt,
daß die Eingangs-Sprachsignale empfangen und diese Sprachsignale
in eine Folge vorgeschriebener Schallmerkmale umsetzen.
Die eingegebene Sprachschallmerkmal-Sequenz
wird verglichen mit gespeicherten Sätzen von für identifizierte
Spracheinheiten vorab ermittelten Bezugsmerkmalen.
Das Sprachsignal wird identifiziert, wenn die eingegebene
Sprachmerkmal-Sequenz nach Maßgabe vorbestimmter
Kriterien einem gespeicherten Satz von Bezugsmerkmalen
entspricht. Wenn die Bezugsspracheinheiten gesprochene
Worte sind, können aus den Aussprachen des gesprochenen
Wortes direkt Bezugs-Sprachmerkmalschablonen
abgeleitet werden. Wort-, Wortverbindungs- oder Satzschablonen
eignen sich für begrenzte Vokabulare. Für
größere Vokabulare jedoch wird der Schablonenspeicherbedarf
unwirtschaftlich.
Wie bei der Sprachsynthese ist es wünschenswert, den
Schablonenspeicherbedarf von Spracherkennern durch Verwendung
von Sprachmuster-Untereinheiten zu
beschränken. Gespeicherte Untereinheit-
Schablonen können in einem Spracherkenner direkt zum Identifizieren
eines eingegebenen Sprachmusters verwendet
werden, wie es in dem für G. L. Clapper am 6. Nov. 1973
erteilten US-Patent 37 70 892 beschrieben ist, oder sie
können zur Bildung längerer Nachrichtenmuster-Schablonen
selektiv verknüpft werden. Bei auf Sprachmuster spezieller
Sprecher angepaßten Erkennern ist es notwendig,
für jeden Benutzer des Systeme ein Vokabular von Untereinheit-
Bezugsschablonen zu erhalten. Sprecherunabhängige
Anordnungen zum Erkennen der Sprachmuster
irgendeines Sprechers benötigen einen Satz von
Untereinheit-Schablonen, der repräsentativ
für eine große Bevölkerung ist. Folglich muß nach dem
Mitteln oder Gruppieren der von vielen Sprechern erhaltenen
Sprachmustermerkmalen eine Anzahl von Untereinheit-
Schablonen geschaffen werden.
Im Idealfall sollte für jede einzelne Person, deren
Sprache zu erkennen ist, ein Satz von Untereinheit-
Schablonen erzeugt werden. Jedoch macht es die
komplizierte und zeitaufwendige Prozedur der Schablonenbildung
schwierig, auf diese Weise mehr als einige wenige
Schablonensätze zu erzeugen.
Die US-PS 40 60 694 offenbart eine
Spracherkennungsanordnung, die für mehrere unterschiedliche
Sprecher ausgebildet ist. In diesem System wird
ein Satz von Phonemkennzeichenparametern für einen einzelnen
Sprecher ermittelt. Anstatt für andere Sprecher
zusätzliche Phonemkennzeichen zu bilden, werden die zuvor
erzeugten Phonemkennzeichen künstlich variiert, um
einen Bereich von Phonemkennzeichensätzen zu erzeugen.
Vor dem Erkennen einer Äußerung wird aus dem künstlich
erzeugten Bereich derjenige Phonemsatz ausgewählt, der
der Äußerung am meisten ähnlich ist. Auf diese Weise
wird die zeitaufwendige Prozedur der Phonemerzeugung vermieden.
Der künstliche Phonemsatz jedoch approximiert
nur die tatsächliche Unterschiede in Stimm- und Aussprachekennzeichen
zu einem ungewissen Ausmaß. Demzufolge
erhöht die Verwendung künstlich gebildeter Phonemsätze
den Grad der Unsicherheit der Erkennungsergebnisse.
Es ist ein Ziel der Erfindung, eine verbesserte Unternachrichteneinheit-
Schablonenerzeugung ohne manuelle
Analyse oder dem Hilfsmittel künstlicher Variation eines
bekannten Untereinheit-Sprachmusters zu schaffen.
Die Übereinstimmung mit dem Oberbegriff des Anspruchs 1
bzw. 2 zeigt die DE-OS 27 53 277 ein Verfahren bzw. eine
Vorrichtung zum Erzeugen von Sprachmusterschablonen, insbesondere
in Verbindung mit der Erkennung von Ziffern. Grundlage
dabei ist das Erkennen von ausschließlich stimmhaften
Abschnitten gesprochener Wörter. In der Vorbereitungsphase
muß eine bestimmte Folge von Ziffern von einem Benutzer gesprochen
werden. Die Aussprache wird dann analysiert, um
eine Sequenz von Schallmerkmalsignalen zu erzeugen, jeweils
bestehend aus einem Satz von linearen Voraussagekoeffizienten
(LPC-Koeffizienten). Außerdem wird das von der Bedienungsperson
Gesprochene hinsichtlich stimmhafter Abschnitte,
stimmloser Abschnitte oder Pausenabschnitte analysiert. Die
Untersequenzen von Signalen, die den stimmhaften Abschnitten
entsprechen, werden extrahiert und gespeichert, um als
Schablonen bei späteren Spracherkennungs-Vorgängen zur Verfügung
zu stehen. Für umfangreichere Anwendungszwecke, die
nicht auf Ziffern beschränkt sind, erweist sich das bekannte
Verfahren als zu wenig flexibel.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und
eine Vorrichtung zum Erzeugen von Sprachmusterschablonen zu
schaffen, die einerseits die spezielle Sprechweise einer
oder mehrerer bestimmter Personen berücksichtigt, andererseits
aber eine Vorab-Auswahl eines geeigneten Satzes von Sprachschablonen-
Untersequenzen möglich macht, ohne daß die Vorbereitungsphase
für die beteitigten Personen verkompliziert
wird.
Diese Aufgabe wird durch die im Anspruch 1 angegebene Erfindung
gelöst. Eine entsprechende Vorrichtung ist in Anspruch 2
angegeben.
Bei der Erfindung wird Gebrauch gemacht von Bezugs-Sequenzen
von Schallmerkmalsignalen, in denen die Lagen der Untersequenzen,
welche den gewünschten Untereinheiten der Bezugssprachmuster
entsprechen, festgelegt wurden. Diese Bezugs-
Sequenzen werden nicht direkt als Sprachmusterschablonen verwendet,
sondern sie werden verglichen mit Sequenzen von
Schallmerkmalsignalen, die abgeleitet sind aus Sprechproben
einer Person. Indem eine Person eine ausgesprochene Version
der gleichen Sprachmuster liefert, lassen sich durch den Vergleich
die Lagen der den gewünschten Untereinheiten entsprechenden
Untersequenzen bestimmen. Wenn diese Untersequenzen
aus den Aussprache-Sequenzen extrahiert sind, werden sie zur
Bildung von Sprachmusterschablonen verwendet. Dadurch vereinigt
man folgende Vorteile: Man hat Sprachmusterschablonen
zur Verfügung, die vollständig aus Sprechproben von Personen
abgeleitet sind; man kann vorab einen nachweislich als
günstig anzusehenden Satz von Untersequenzen auswählen. Dabei
ist die Belastung der die Sprechproben liefernden Personen in
der Vorbereitungsphase gering.
Die Bezugs-Sequenzen können Bezugs-Wortmuster sein,
und die Bezugs-Untersequenzen sind solche,
wie sie für Phoneme, Allophone, Halbsilben
oder andere bekannte Komponenten gesprochener
Wörter erhalten werden.
Fig. 1 zeigt ein Blockdiagramm eines für die Erfindung
beispielhaften Sprachmustergenerators;
Fig. 2 zeigt ein detailliertes Blockdiagramm des in der
Schaltung nach Fig. 1 enthaltenen Halbsilbensegment-
Selektors; und
Fig. 3 zeigt ein Flußdiagramm eines für die Erfindung
beispielhaften Sprachmuster-Erzeugungsprozesses.
Fig. 1 zeigt ein Blockdiagramm eines Untersequenz-
Sprachmustergenerators, der so ausgebildet ist, daß er
einen Satz von Sprachmusterschablonen für Unterschiedliche
Sprecher auf der Grundlage eins Satzes von vorab
gespeicherten Bezugs-Sequenzen von Bezugssprachmuster liefert.
Die gespeicherten Bezugs-Sequenzen können Wortverbindungen
oder Nachrichten und die Bezugs-Untersequenzen
Wörter oder andere Nachrichten-Untereinheiten.
Ein Sprecher 150 enthält einen Satz von vorbestimmten
Bezugs-Sequenzen, die zuvor nach herkömmlichen
Methoden gewonnen wurden. Der Speicher 150 kann
beispielsweise ein INTEL 2716 2 K × 8 EPTOM oder ein ähnliches
Bauelement sein. Jedes Bezugssprachmuster in dem Speicher
150, z. B. R I , enthält eine Sequenz von Schallmerkmalsignalen.
R I = R I (1), R I (2),. . ., R I (m),. . ., R I (M I ) (1)
ist repräsentativ für ein Bezugswort, wie es von einem
oder mehreren Sprechern gesprochen wird, sowie für Signale,
die den Grenzrahmen NR 1 (I) und NR 2 (I) einer vorgeschriebenen
Bezugs-Untersequenz, z. B. einer
Halbsilbe des Bezugswortes entsprechen. Beispielsweise
kann das phonetische Bezugswort das Wort "back" und die
vorgeschriebene Untersequenz die End-
Halbsilbe "ack" sein. Die Grenzrahmen bezeichnen die
Stelle der Merkmalsignale für die Halbsilbe "ack".
Das Flußdiagramm in Fig. 3 veranschaulicht den Erzeugungsprozeß
von Halbsilben-Sprachmustern. Am Anfang
liefert ein Sprecher ein Startsignal ST sowie ein Sprecher-
Identifizierungssignal SP, wie es bei
300 dargestellt ist. Das Bezugswort- Indentifikationssignal
I wird in dem Kästchen 305 für Indexinitialisierung
auf 1 eingestellt, und gemäß dem Tätigkeitskästchen
310 wird eine Befehlsnachricht erzeugt,
die den Sprecher auffordert, seine Aussprache des Bezugswortes
I einzugeben. Da von dem Sprechers gesprochene
Bezugssprachmuster wird analysiert, und in dem Tätigkeitskästchen 315 wird
eine Zeitrahmensequenz von Schallmerkmalsignalen
erzeugt:
T I = T I (1), T I (2),. . .T I (N) (2)
Die Länge der Aussprache wird mit einem vorgeschriebenen
Bereich verglichen, um mögliche Endpunktfehler (im Kästchen
315) festzustellen. Für den Fall, daß die Dauer des gesprochenen
Bezugssprachmusters außerhalb des vorgeschriebenen Bereichs liegt,
geht die Steuerung über das Entscheidungskästchen 320
über zu einem Tätigkeitskästchen 370, und es wird eine
Nachricht zum Wiederholen der Aussprache erzeugt. Dann
wird in dem Tätigkeitskästchen 310 erneut die Aufforderung
zur Aussprache des Worts I erzeugt, und die wiederholte
Aussprache des Wortes I wird in dem Kästchen 315
analysiert.
Gemäß Fig. 1 liefert ein identifizierter Sprecher SP,
für den Sprachmusterschablonen erzeugt werden sollen, ein
kurzes Startsignal ST über einen Codegenerator 103 an
eine Steuerung 140, sowie ein Identifikationssignal SP.
Der Generator 103 kann einen bekannten Tastatur-Codegenerator
enthalten. Bei der Steuerung 140 kann es sich
um einen Mikroprozessoranordnung handeln.
Die Steuerung ist entsprechend
dauernd gespeicherter Befehle so ausgelegt, daß
sie ansprechend auf die an sie angelegten Steuersignale
eine Sequenz von Steuersignalen liefert, die
auf ihrer rechten Seite dargestellt sind.
Ansprechend auf das Signal ST erzeugt die Steuerung 140
Steuerimpulse WRS (Wortzähler zurücksetzen) und MST
(Nachrichtenstart). Der Impuls WRS stellt einen Wortzähler
165 auf den Zustand I = 1 zurück, so daß die
erste Bezugs-Sequenz in dem Speicher 150 adressiert
wird.
Der Impuls MST wird
an einen Nachrichtengenerator 135 angelegt, der in bekannter
Weise so arbeitet, daß er eine synthetische gesprochene
Nachricht erzeugt, die den Sprecher SP auffordert,
das Bezugswort I = 1 auszusprechen.
Nach Beendigung der Befehlsnachricht liefert der Generator 135 ein Signal MD
(Nachricht abgegeben) an die Steuerung 140, um anzuzeigen,
daß die Aussprache des Sprechers am Mikrophon 101
erwartet wird.
Ansprechend auf das Signal MD erzeugt die Steuerung 140
einen Steuerimpuls AS. Der Impuls AS wird an einen Merkmalsignalgenerator
115 gelegt, um dessen Betrieb zu veranlassen.
Das vom Mikrophon 101 kommende Sprachsignal
wird an eine Tiefpaßfilter- und Abtastschaltung 105 gelegt,
die die Bandbreite des Sprachsignals auf den Bereich
zwischen beispielsweise 100 Hz und 3200 Hz beschränkt
und das bandbegrenzte Sprachsignal beispielsweise
mit 6667 Hz abtastet. In bekannter Weise werden
alle aufeinanderfolgenden Sprachsignalabtastungen von
einem Analog-Digital-Umsetzer 110 in ein digitalcodiertes
Signal umgewandelt.
Der Merkmalsignalgenerator 115 empfängt die digitalen
Abtastungen vom Umsetzer 110 und erzeugt die für das
Sprachsignal repräsentative Zeitsequenz von linearen
Vorhersage-Merkmalsignalen T I . Der Generator 115 liefert
außerdem eine Impuls WT (Schreiben) für alle aufeinanderfolgenden
Merkmalsignalrahmen an FIFO-Speicher 120
und 122. Ansprechend auf die Folge von WR -Impulsen werden
die Merkmalsignale von T I sukzessive in die First-in-
First-out-Speicher 120 und 122 eingegeben.
Bei dem Merkmalsignalgenerator 115 kann es sich um den
Generator für lineare Prädiktor-Koeffizienten handeln,
und er kann
außerdem einen Endpunktdetektor enthalten.
Der Endpunktdetektor ist
so ausgebildet, daß er die Beendigung einer an das
Mikrophon 101 gelandenden Aussprache erfaßt. Für den
Fall, daß ein Endpunkt nicht innerhalb einer vorgeschriebenen
Zeitdauer auftritt, wird von dem Generator
115 ein Signal EPE (Endpunktfehler) erzeugt. Das Signal
EPE gelangt über ein ODER-Glied 137 an den Nachrichtengenerator
135. Da Ausgangssignal ERR des ODER-Gliedes
137 veranlaßt die Steuerung 140 zum Erzeugen eines Signals
MST, welches seinerseits die Erzeugung einer Nachricht
zur Wortwiederholung veranlaßt. Nachdem von dem
Generator 135 das Signal MD (Nachricht abgegeben) empfangen
ist, liefert die Steuerung 140 einen Impuls AS an
den Generator 115. Der Impuls AS veranlaßt die Merkmalsignalerzeugung
für die erwarteten wiederholte Aussprache.
Wie bekannt ist, ändern sich Artikulation und Sprachgeschwindigkeit
von Person zu Person beträchlich. Die gespeicherte
Bezugs-Sequenz R I besitzt M I Rahmen,
während die geprochene Sequenz T I N≠M I Rahmen
haben kann. Um den durch Schwankungen der Sprechgeschwindigkeit
verursachten Unterschied zwischen den Sequenzen von Schallmerkmalsignalen
zu beseitigen, werden die Schallmerkmalsignale
linear skaliert, so daß die Dauer der Aussprache
auf M I geändert wird, wie es dem Tätigkeitskästchen 325
in Fig. 3 entpricht. Der Skalenfaktor N/M I wird zurückbehalten,
um zu einem späteren Zeitpunkt die umgekehrte
Skalierung zu ermöglichen. Die modifizierte Sequenz
U I ist ein M I -Rahmenmuster. Die Artikulationsunterschiede
jedoch führen zu einer nicht-linearen Beziehung
zwischen der modifizierten Schallmerkmalsignal-
Sequenz U I und der Bezugs-Sequenz R I.
Um die Beziehung zwischen den Sequenzen
zu bestimmten,
wird die modifizierte Sequenz
gemäß dem Tätigkeitskästchen 330 dynamisch
auf die Sequenz der Bezugs-Sequenz zeitlich verzogen.
Durch das dynamische zeitliche Verziehen werden ein
Signal, das repräsentativ ist für die beste Entsprechung (Ausrichtung)
zwischen der Bezugs-Sequenz und der gesprochenen, modifizierten Sequenz,
und ein Satz von Signalen σ, der
repräsentativ ist für diejenige Sequenz von Signalrahmen,
die am besten den Bezugssequenzrahmen entspricht,
erzeugt. Das Entsprechungssignal wird in dem Entscheidungskästchen
335 mit einem vorbestimmten Schwellenwert
TH 1 verglichen. Wenn die modifizierten Aussprache- und die
Bezugs-Sequenz nicht ausreichend ähnlich sind, wird
das Kästchen 370 betreten, und die Aussprache wird in der
zuvor beschriebenen Weise wiederholt.
Gemäß Fig. 1 liefert der Generator 115 nach Beendigung
der Signalerzeugung für die Aussprache des Wortes
I einen Impuls AD an die Steuerung 140. Zu dieser Zeit
enthält jeder der Speicher 120 und 122 den Satz von
Schallmerkmalsignalen T I für die zugeführte Aussprache. Ein
Linear-Zeitverziehungprozessor 145,
(s. US-PS 40 20 332) ist so
ausgebildet, daß er die Merkmalsignale vom Speicher 122
derart modifiziert, daß die Aussprachemerkmalsignale
denselben Zeitraum belegen wie die gespeicherten Bezugs-
Sequenzen von Schallmerkmalsignalen für dasselbe Wort in dem Bezugs-Sequenz-
Speicher 150. In der Tat wird die Anzahl von Rahmen der
zugeführten Aussprache (N) in die Anzahl von Rahmen (M I )
der Bezugs-Sequenz für das Wort in dem Speicher 150
geändert. Ein dem Skalenfaktor N/M I entsprechendes Signal
SF wird erzeugt und in dem Prozessor 145 gespeichert.
Nach Beendigung der Merkmalsignalerzeugung im Generator
115 wird der Steuerimpuls AD vom Generator 115 an die
Steuerung 140 gelegt. Ansprechend auf den Impuls AD liefert
die Steuerung 140 einen Steuerimpuls LS an den
Linear-Zeitverziehungsprozessor 145, wodurch der Vorgang
der linearen zeitlichen Verziehung in Gang gesetzt wird.
Der Prozessor 145 empfängt die Sequenz von Merkmalsignalen
vom FIFO-Speicher 122 und modifiziert diese Merkmalsignale
derart, daß die Sequenz von M I
modifiziert wird zu der
Sequenz
U I = U I(1), U I(2), . . . U I(j), . . . U I(M I ) (3)
Die Sequenz der modifizierten Schallmerkmalsignale
werden in einem rahmenweise adressierbaren Speicher
des Prozessors 145 gespeichert.
Die zeitliche Ausrichtung zwischen den modifizierten Sequenzen
und den gespeicherten Bezugs-Sequenzen
muß bestimmt werden, um den Unterschieden in der
Artikulation zwischen der Bezugs-Sequenz R I und der modifizierten
Sequenz U I Rechnung zu tragen. Wie bekannt
ist, können die modifizierten Schallmerkmalsignale
zeitlich auf die Schallmerkmalsignale der Bezugs-Sequenz verzogen werden, um
das am besten übereinstimmende Entsprechnungssignal zu
bilden:
wobei w(i) der optimale Zeitverziehungsfaktor zwischen
den Merkmalsvektoren U I und R I ist und
(i, h) = d(R I(i), U I (j)) = log (R I(i) · U I(j)) (5)
der örtliche Abstand zwischen den Merkmalsvektoren des
Rahmens i der modifizierten Sequenz U I und
dem Rahmen j = w(i) der gespeicherten Bezugs-Sequenz R I
ist. w(i) ist für gewöhnlich beschränkt, so daß die Steigung
des Verziehungsfaktors w(i) dem Bereich der erwarteten
Sprachmusterrahmen entspricht. Nachdem die Verarbeitung
der Gleichung (4) abgeschlossen ist, stellt
D I(R I, U I) die beste Ähnlichkeit zwischen der modifizierten
Sequenz U I und der Bezugs-Sequenz R I dar,
und der Verziehungsfaktor w(i) entspricht dem Zeitausrichtungsweg
zwischen den modifizierten Schallmerkmalsignalen
und den Bezugs-Schallmerkmalsignalen nach Gleichung (4).
Bei dem Vorgang der dynamischen Zeitverziehung werden die
möglichen Zeitausrichtungswege zwischen den gespeicherten
Bezugs-Sequenzen und den modifizierten Sequenzen des
gesprochenen Bezugssprachmusters nach Maßgabe folgender Beziehung durch Punkte
(i, j) gelegt:
D A (i, j) = d(i, j) + min [D A (i -1, k)]j-I₂k j-I 1 (6)
1i M I sind die Bezugssequenz-Merkmalrahmen. 1k M I
sind die modifizierten Merkmalrahmen, und
d A (i, j) ist das aufgelaufene Abstandssignal für einen
Weg vom Punkt (1,1) zum Punkt (i, j). d(i, j) ist der örtliche
Abstand (Gleichung (5)) zwischen den modifizierten
Schallmerkmalvektoren am modifizierten Aussrache-Merkmalrahmen
j und den Bezugsmerkmalsvektoren
am Bezugssequenz-Merkmalrahmen i.
Der Term ganz rechts in Gleichung (6) stellt die bis zum
Bezugssequenzrahmen i-1 und dem modifizierten Ausspracherahmen
j-I₂ k j-I ₁ aufgelaufene Entfernung dar. Der
Rahmen I ₁ wird so gewählt, daß er den zulässigen Artikulationsunterschieden
entspricht. Es wird für gewöhnlich
auf 1 eingestellt, wenn w(i-1) = w(i-2), während er
sonst auf Null eingestellt wird. I₂ wird typischerweise
auf 2 eingestellt. Sonst erstreckt sich k über den Bereich
j-2 bis j-1, wenn w(i-1) = w(i-2), und erstreckt
sich sonst über den Bereich von j-2 bis j.
In der Schaltung nach Fig. 1 ist der dynamische Zeitverziehungsprozessor
155 so ausgebildet, daß er entsprechend
Gleichung (4) ein Gesamtabstandssignal D I erzeugt.
Wie oben erwähnt wurde, ist das Signal D I ein
Maß für die beste Ähnlichkeit zwischen der modifizierten
Sequenz U I und der Bezugs-Sequenz
R I. Es wird weiterhin ein Satz von Zeitausrichtungssignalen
erzeugt, die kennzeichnend sind für
den Zeitverziehungsweg w(i) zwischen den am besten entsprechenden
Schallmerkmalssignalen U I(j) und R I)i).
Nach Beendigung der Aussprachemerkmal-Skalierung im Prozessor
155 veranlaßt der Steuerimpuls LD die Steuerung
140 zu einer Zustandsänderung und zum Liefern des Signals
DST an den Prozessor 145. Das Signal DST leitet die dynamische
Zeitverziehung für die Sequenz von Merkmalssignal-
Zeitrahmen ein. Bei jedem Bezugssequenzrahmen i wird
das Bezugssequenz-Merkmalssignal R I(i) vom Schablonenspeicher
150 zum Prozessor 155 übertragen. Es wird eine Sequenz
von ausgewählten modifizierten Ausspracherahmen j
innerhalb des Rahmenbereichs von
L(j) = max [½ (j-1), M I -2(M I -j), 1]
H(j) = min [2 (j-1)+1, M I ½ (M I -j), M I ] (7)
adressiert, und die Schallmerkmalssignale U I(j) werden an den
Prozessor 155 gegeben. In dem Prozessor 155 werden die
kumulativen Abstandssignale D A für den Bereich gemäß
Gleichung (7) erzeugt, und es wird für jeden Punkt (i, j)
ein Signal s = i-k erzeugt, das die Versetzung zwischen
w(i-1) und w(i) darstellt. Beim letzten Bezugssequenzrahmen
M I wird das kleinste kumulative Abstandssignal D I ausgewählt
und an einen Vergleicher 160 gelegt.
Der Vergleicher 160 erzeugt ein Signal TEL, wenn das ausgewählte
Abstandssignal D I einen vorbestimmten Schwellenwert
überschreitet. In diesem Fall besteht keine ausreichende
Ähnlichkeit zwischen dem gespeicherten und dem gesprochenen Bezugssprachmuster,
um
das Rahmenintervall für die vorgeschriebene Halbsilbe
in dem modifizierten Aussprachemuster zu bestimmen. Folglich
muß eine neue Eingabe einer Aussprache des Wortes I
angefordert werden. Das Signal TLE veranlaßt das ODER-
Glied 137 zum Erzeugen des Steuersignals ERR. Dieses
Steuersignal aktiviert den Nachrichtengenerator 135, wie
es oben beschrieben wurde. Der Nachrichtengenerator 135
wird dann veranlaßt, eine Nachricht zum Wiederholen der
Aussprache und eine Nachricht zum Aussprechen von I zusammenzusetzen.
Die Steuerung 140 liefert dann den
Steuerimpuls AS an den Merkmalssignalgenerator 115, um
eine Analyse der neuen Aussprache einzuleiten.
Wenn das Abstandssignal D I vom Prozessor 155 nicht den
Schwellenwert Th 1 überschreitet, veranlaßt ein Steuerimpuls
DD vom Prozessor 155 in Fig. 1 die Steuerung 140
einen Impuls BTS und ein Steuersignal BT zu erzeugen.
Der Impuls BTS wird an den dynamischen Zeitverziehungsprozessor
155 gelegt, und in dem Prozessor wird der in
dem Tätikeitskästchen 340 in Fig. 3 angedeutete Rücklaufvorgang
eingeleitet. Während sich der Prozessor 155
in diesem Rücklaufzustand befindet, wird die Sequenz
der Bezugswortrahmen in umgekehrter Reihenfolge erzeugt.
Die Bezugssequenz-Rahmensignale m = M I , M I -1, . . . , i, . . .
2, 1 werden von dem Prozessor als codierte Signale F R ausgegeben.
Wenn der Bezugswortrahmen i = M I adressiert
wird, wird der entsprechende Rahmen Fs = M I der modifizierten
Aussprache erzeugt. Beim Bezugsrahmen M I -1
ist der entsprechende Ausspracherahmen M I -σ(M I ). Die Verarbeitung
schreitet für jeden Bezugswortrahmen j fort,
und der modifizierte Ausspracherahmen
j = w(i+1)-σ(i+1) (8)
erscheint als Signal Fs.
Während das Rücklaufen weiter vonstatten geht, wird in
dem in Fig. 2 genauer gezeigten Halbsilbenrahmen-Selektor
180 der Halbsilbenabschnitt der modifizierten Aussprache
ausgewählt. Für jedes Bezugswort I im Speicher 150
sind die für den Halbsilbenabschnitt des Bezugswortes
repräsentativen Signale vom Speicher verfügbar. In der
in Fig. 1 gezeigten Schaltung gelang ein dem Anfangsrahmen
des vorgeschriebenen Halbsilbenabschnitts entsprechendes
Signal NR 2 (I) gelangt von dem Speicher 150 an einen Eingang
eines Vergleichers 203 in dem Selektor 180.
Die während des Rücklaufvorgangs von dem Prozessor 155
kommende Sequenz der Bezugsrahmen F R wird an beide Vergleicher
201 und 203 gelegt. Wenn das Bezugswort-Rahmensignal
F R dem Halbsilben-Endpunkt-Rahmemsignal NR 2 (I)
gleicht, wird das Ausgangssignal des Vergleichers 203
in dem Zeitpunkt freigegeben, in dem der entsprechende
modifizierte Ausspracherahmen F S vom Prozessor 155 an
einen Zwischenspeicher 212 gelegt wird. Ein UND-Glied
207 wird bei gemeinsamen Ansprechen auf das Steuersignal
BT und das Freigabe-Ausgangssignal des Vergleichers 203
geöffnet, wodurch der dem Halbsilben-Endrahmen des Bezugswortes
entsprechende modifizierte Ausspracherahmen
in den Zwischenspeicher 212 eingegeben wird.
Die Abarbeitung der Bezugssequenzrahmen im Prozessor 155
wird fortgesetzt. Wenn das Rahmensignal F R dem Anfangsrahmensignal
NR 1 (I) gleicht, wird der entsprechende Rahmen
F S für die modifizierte Aussprache ansprechend auf
das Freigabe-Ausgangssignal des Vergleichers 210 in den
Zwischenspeicher 210 eingegeben. Der Prozessor 155 fährt
mit der Durchführung des Rücklaufvorgangs fort, bis das
Bezugsrahmensignal F R = 1 ist. Zu diesem Zeitpunkt erzeugt
der Prozessor 155 den Steuerimpuls BTD, der die
Beendigung des Rücklaufvorgangs anzeigt.
Der Zwischenspeicher 210 enthält nun den modifizierten
Ausspracherahmen N 1, der dem Anfangsrahmen der vorgeschriebenen
Halbsilbe entspricht, und der Zwischenspeicher
212 enthält das modifizierte Aussprache-Rahmensignal
N 2, das dem Endrahmen der vorgegebenen Halbsilbe in
der modifizierten Aussprache entspricht. Die modifizierte
Aussprache war jedoch das Ergebnis einer Skalierung
in dem Prozessor 145 für lineare Zeitverziehung, welcher
die Dauer von Aussprache und Bezugswort aneinander angeglichen
hat. Während des Skalierungsvorgangs war das
Signal SF erzeugt worden, das das Verhältnis der Dauer
N der modifizierten Aussprache zu der Dauer M der eingegebenen
Aussprache darstellt.
Das Signal N 1 im Zwischenspeicher 210 wird nur an einen
Eingang eines Multiplizierers 215 gegeben, und der Ekalierungsfaktor
SF wird an dessen anderen Eingang gelegt.
Der Multiplizierer 215 bildet das Signal N 1′, das den Anfangsrahmen
der vorgeschriebenen Halbsilbe in der ursprünglichen
Aussprache darstellt. In ähnlicher Weise
wird das Signal N 2 vom Zwischenspeicher 212 in einem
Multiplizierer 218 mit dem Skalenfaktor SF multipliziert,
um ein Signal N 2′ zu erzeugen, welches den Endrahmen der
vorgeschriebenen Halbsilbe der ursprünglichen Aussprache
darstellt. Somit bestimmt sich der vorgeschriebene Halbsilbenabschnitt
der ursprünglichen Aussprache als das
Intervall zwischen den Rahmen N 1′ und N 2′ (Tätigkeitskästchen
345 in Fig. 3).
Am Ende des Rücklaufvorgangs gemäß den Tätigkeitskästchen
340 und 345 in Fig. 3 stehen die Grenzrahmen des
Halbsilbenabschnitts der Aussprache an den Ausgängen
der Multiplizerer 215 und 213 zur Verfügung.
Die Sequenz der geprochenen Schallmerkmalsignale wird in
dem FIFO-Speicher 120 gespeichert. Wie in dem Tätigkeitskästchen
305 in Fig. 3 angegeben ist, wird der vorgeschriebene
Halbsilbenabschnitt der Aussprache ansprechend
auf die Signale N 1′ und N 2′ ausgewählt und in dem
Speicher 125 gespeichert.
Wenn der Rücklaufvorgang abgeschlossen ist, wird der
Steuerimpuls BTD an die Steuerung 140 gelegt. Ansprechend
auf dem Impuls BTD ändert die Steuerung 140 ihren Zustand
und erzeugt einen Steuerungsimpuls XR und ein Steuersignal
WDS. Der Impuls XR setzt sowohl den Halbsilbenrahmenzähler
226 als auch den Ausspracherahmenzähler 230
in deren erste Zustände zurück. Diese Zähler können eine
oder mehrere integrierte Schaltungen vom Typ 74193 enthalten.
Das Signal WDS wird an den Schreib-Eingang des
Speichers 125 für Halbsilben-Merkmalschablonen gelegt,
um in diesem die Speicherung der Aussprachemerkmalssignale
vom FIFO-Speicher 120 zu ermöglichen.
Zu dieser Zeit wird der F S = 1-Rahmen des I-ten Wortes
für den identifizierten Sprecher SP in dem Schablonenspeicher
125 adressiert. Die Steuerung 140 erzeugt eine
Sequenz von Impulsen XI, die den Zähler 230 sukzessive
erhöhen. Das Ausgangssignal C des Zählers 230, das die
aufeinanderfolgenden Ausspracherahmen darstellt, wird an
einen Eingang eines Vergleichers 220 und an einen Eingang
eines Vergleichers 222 gelegt. Das Ausgangssignal
des Multiplizierers 215, das den Anfangsrahmen N 1′ der
vorgeschriebenen Halbsilbe darstellt, wird an den anderen
Eingang des Vergleichers 220 gelegt. Solange das
Ausspracherahmensignal C vom Zähler 230 dem vom Multiplizierer
215 kommenden Rahmensignal N 1′ gleich ist,
wird der Ausgang des Vergleichers 220 gesperrt, und das
Rahmenausgangssignal FC des Halbsilbenzählers 226 bleibt
unverändert. Folglich wird die Folge von Merkmalssignalen
aus dem FIFO-Speichers 125 in die erste Rahmenposition
des Bezugswortes I geladen.
Wenn das Ausgangssignal C des Ausspracherahmenzählers
230 gleich dem Halbsilben-Anfangsrahmensignal vom Multiplizierer
215 ist, wird der Vergleicher 220 freigegeben,
und anschließende Zählimpulse XI erhöhen den Halbsilbenzähler
226 über das UND-Glied 224. Die Aussprachemerkmalsignale
für den Anfangsrahmen N 1′ der vorgeschriebenen
Halbsilbe werden an der FC = 1-Stelle für das Bezugswort
I im Schablonenspeicher 125 gespeichert. Der Vergleicher
220 bleibt freigegeben, so daß der Halbsilbenzähler 226
sukzessive erhöht wird. Auf diese Weise wird die Sequenz
der Schallmerkmalsignale für die vorgeschriebene
Halbsilbe in aufeinanderfolgende Stellen des
Schablonenspeichers 125 gebracht.
Der Vergleicher 222 wird freigegeben, wenn das Ausgangssignal
M 2′ der vorgeschriebenen Halbsilbe ist. Das bei
dem Endrahmen der vorgeschriebenen Halbsilbe auftretende
Signal XD von dem Vergleicher 222 wird an die Steuerung
140 gelegt. Die Steuerung beendet die Erzeugung der
Zählererhöhungsimpulse XI. Somit wird, nachdem alle
Schallmerkmalsignale in der vorgeschriebenen Halbsilbe
im Schablonenspeicher 125 gespeichert sind, der
Betrieb des Halbsilbenrahmenselektors 180 beendet.
Die Steuerung 140 liefert den Steuerimpuls WI ansprechend
auf den Steuerimpuls XD an den Wortzähler 165. Der
Impuls WI erhöht den Wortzähler 165 gemäß dem Indexkästchen
335 in Fig. 3, so daß die nächste Bezugswortsequenz
im Speicher 150 adressiert wird. Der Vergleicher
170 wird freigegeben, wenn das Ausgangsmaterial
I des Wortzählers größer ist als der Zählerstand IMAX
des letztes Wortes (Entscheidungskästchen 360). In diesem
Fall wird das Signal WD erhalten, die die Schaltung
nach Fig. 1 in einen Wartezustand versetzt (Tätigkeitskästchen
365), bis ein Signal ST (Start) von der Eingangsschaltung
103 empfangen wird. Entspricht I nicht
dem letzten Bezugswort, wird von dem Vergleicher 170
ein Signal erhalten. Das Signal veranlaßt die
Steuerung 140, ein Signal MST zu erzeugen, so daß eine
Ausspracheaufforderung für das nächste Bezugswort vom
Nachrichtengenerator 135 erzeugt wird. Nachdem die Untersequenzen
in dem Schablonenspeicher 125 gespeichert
sind, werden sie zu einem Verwendungsgerät
130 übertragen, beispielsweise einem Spracherkenner
oder einem Sprachsynthesizer, um dort Verwendung zu
finden. Das Verwendungsgerät kann selbstverständlich
irgendeine sprachverarbeitende Vorrichtung sein, in
der Sprachmusterschablonen verwendet werden. Alternativ
können die Schablonen in einem Festspeicher gespeichert
werden, der in eine sprachverarbeitende Anlage
eingesetzt werden kann.
Claims (2)
1. Verfahren zum Erzeugen von Sprachmusterschablonen, bei
dem gesprochene vorgeschriebene Bezugssprachmuster
analysiert werden, um Sequenzen von Schallmerkmalensignalen,
die repräsentativ sind für das Gesprochene, zu erzeugen,
daraus Untersequenzen von Schallmerkmalsignalen extrahiert
werden, die vorbestimmten Untereinheiten der Bezugssprachmuster
entsprechen, un die Sprachmusterschablonen aus den
extrahierten Untersequenzen gebildet werden,
dadurch gekennenzeichnet, daß
zum Extrahieren der Untersequenzen aus den für das Gesprochene repräsentativen Sequenzen
von Schallmerkmalsignalen letztere Signal für Signal verglichen
werden mit vorabgespeicherten Bezugs-Sequenzen
von Schallmerkmalsignalen, die repräsentativ sind für die
gleichen Bezugssprachmuster, um dadurch Signale zu erzeugen,
die kennzeichnend sind für die dynamische Zeitausrichtung
zwischen den für das Gesprochene repräsentativen Sequenzen und den Bezugs-Sequenzen, wobei
die Lagen von den Untereinheiten entsprechenden Bezugs-Untersequenzen
in den Bezugs-Sequenzen vorab festgelegt und
gespeichert wurden, und daß diejenigen Untersequenzen
der für das Gesprochene repräsentativen Sequenzen ausgewählt
werden, die durch die Zeitausrichtung den Bezugs-Untersequenzen
der Bezugs-Sequenzen zugeordnet sind.
2. Vorrichtung zum Erzeugen von Sprachmusterschablonen, umfassend
eine Einrichtung zum Analysieren von gesprochenen
vorbestimmten Bezugssprachmustern, um Sequenzen von
Schallmerkmalsignalen, die repräsentativ sind für das
Gesprochene, zu erzeugen, und eine Einrichtung zum Extrahieren
von Untersequenzen von Schallmerkmalsignalen entsprechend
vorbestimmten Untereinheiten der Bezugssprachmuster,
sowie zum Bilden der Schablonen aus den extrahierten
Untersequenzen,
dadurch gekennzeichnet, daß
die Untersequenz-Extrahierteinrichtung eine Speichereinrichtung
(150) aufweist, in der Bezugs-Sequenz von
Schallmerkmalsignalen, die repräsentativ sind für die Bezugssprachmuster,
sowie Sätze von Signalen gespeichert
sind, die die Lagen der den Untereinheiten entsprechenden
Bezugs-Untersequenzen in den Bezugs-Sequenzen kennzeichnen, und
daß eine Vergleichseinrichtung (145, 155) vorgesehen ist,
die jede Sequenz von Schallmerkmalsignalen, die repräsentativ
ist für ein ausgesprochenes Bezugssprachmuster, signalweise
vergleicht mit der Bezugs-Sequenz für das
gleiche Bezugssprachmuster, um Signale (FT) zu erzeugen,
die repräsentativ sind für die dynamische Zeitausrichtung
zwischen Sequenzen und Bezugs-Sequenzen, und daß eine
Auswahleinrichtung (180) auf die Zeitausrichtungs-Signale
und die die Lagen der Bezugs-Untersequenzen der Bezugs-Sequenz
kennzeichnenden Signale (NR 1, NR 2) anspricht, um diejenigen
Untersequenzen der für das Gesprochene repräsentativen
Sequenz auszuwählen, die durch die Zeitausrichtung den
gekennzeichneten Bezugs-Untersequenzen in der Bezugs-Sequenz zugeordnet
sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/322,748 US4454586A (en) | 1981-11-19 | 1981-11-19 | Method and apparatus for generating speech pattern templates |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3242866A1 DE3242866A1 (de) | 1983-08-25 |
DE3242866C2 true DE3242866C2 (de) | 1988-06-09 |
Family
ID=23256228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823242866 Granted DE3242866A1 (de) | 1981-11-19 | 1982-11-19 | Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern |
Country Status (5)
Country | Link |
---|---|
US (1) | US4454586A (de) |
JP (1) | JPH073640B2 (de) |
CA (1) | CA1175569A (de) |
DE (1) | DE3242866A1 (de) |
GB (1) | GB2109971B (de) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58129682A (ja) * | 1982-01-29 | 1983-08-02 | Toshiba Corp | 個人照合装置 |
JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
JPS58176699A (ja) * | 1982-04-09 | 1983-10-17 | 株式会社日立製作所 | 音声標準パタ−ン登録方式 |
JPS58178396A (ja) * | 1982-04-12 | 1983-10-19 | 株式会社日立製作所 | 音声認識用標準パタ−ン登録方式 |
US4696042A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Syllable boundary recognition from phonological linguistic unit string data |
US4783811A (en) * | 1984-12-27 | 1988-11-08 | Texas Instruments Incorporated | Method and apparatus for determining syllable boundaries |
US4751737A (en) * | 1985-11-06 | 1988-06-14 | Motorola Inc. | Template generation method in a speech recognition system |
WO1987004293A1 (en) * | 1986-01-03 | 1987-07-16 | Motorola, Inc. | Method and apparatus for synthesizing speech without voicing or pitch information |
JPS62220998A (ja) * | 1986-03-22 | 1987-09-29 | 工業技術院長 | 音声認識装置 |
US4941178A (en) * | 1986-04-01 | 1990-07-10 | Gte Laboratories Incorporated | Speech recognition using preclassification and spectral normalization |
US4866756A (en) * | 1986-04-16 | 1989-09-12 | Call It Co. | Interactive computerized communications systems with voice input and output |
US4918733A (en) * | 1986-07-30 | 1990-04-17 | At&T Bell Laboratories | Dynamic time warping using a digital signal processor |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US4843562A (en) * | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
KR890702176A (ko) * | 1987-10-09 | 1989-12-23 | 에드워드 엠, 칸데퍼 | 디지탈 방식으로 기억된 상호분절 언어세그먼트로부터 언어발생 방법 및 그 장치 |
US4937870A (en) * | 1988-11-14 | 1990-06-26 | American Telephone And Telegraph Company | Speech recognition arrangement |
JP2768561B2 (ja) * | 1990-12-19 | 1998-06-25 | 富士通株式会社 | ネットワーク変形装置および作成装置 |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
US5671328A (en) * | 1992-12-30 | 1997-09-23 | International Business Machines Corporation | Method and apparatus for automatic creation of a voice recognition template entry |
US5526466A (en) * | 1993-04-14 | 1996-06-11 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus |
US6463361B1 (en) * | 1994-09-22 | 2002-10-08 | Computer Motion, Inc. | Speech interface for an automated endoscopic system |
US6911916B1 (en) | 1996-06-24 | 2005-06-28 | The Cleveland Clinic Foundation | Method and apparatus for accessing medical data over a network |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
US7447626B2 (en) * | 1998-09-28 | 2008-11-04 | Udico Holdings | Method and apparatus for generating a language independent document abstract |
US7233899B2 (en) * | 2001-03-12 | 2007-06-19 | Fain Vitaliy S | Speech recognition system using normalized voiced segment spectrogram analysis |
US7567903B1 (en) * | 2005-01-12 | 2009-07-28 | At&T Intellectual Property Ii, L.P. | Low latency real-time vocal tract length normalization |
TW200835315A (en) * | 2007-02-01 | 2008-08-16 | Micro Star Int Co Ltd | Automatically labeling time device and method for literal file |
US10235993B1 (en) * | 2016-06-14 | 2019-03-19 | Friday Harbor Llc | Classifying signals using correlations of segments |
GB201621434D0 (en) * | 2016-12-16 | 2017-02-01 | Palantir Technologies Inc | Processing sensor logs |
CN110782908B (zh) * | 2019-11-05 | 2020-06-16 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3770892A (en) * | 1972-05-26 | 1973-11-06 | Ibm | Connected word recognition system |
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
JPS50155105A (de) * | 1974-06-04 | 1975-12-15 | ||
US4092493A (en) * | 1976-11-30 | 1978-05-30 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
-
1981
- 1981-11-19 US US06/322,748 patent/US4454586A/en not_active Expired - Lifetime
-
1982
- 1982-10-28 CA CA000414384A patent/CA1175569A/en not_active Expired
- 1982-11-16 GB GB08232717A patent/GB2109971B/en not_active Expired
- 1982-11-19 JP JP57202228A patent/JPH073640B2/ja not_active Expired - Lifetime
- 1982-11-19 DE DE19823242866 patent/DE3242866A1/de active Granted
Also Published As
Publication number | Publication date |
---|---|
JPH073640B2 (ja) | 1995-01-18 |
CA1175569A (en) | 1984-10-02 |
DE3242866A1 (de) | 1983-08-25 |
US4454586A (en) | 1984-06-12 |
GB2109971A (en) | 1983-06-08 |
GB2109971B (en) | 1985-07-10 |
JPS58102299A (ja) | 1983-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3242866C2 (de) | ||
DE3244476C2 (de) | ||
EP1184839B1 (de) | Graphem-Phonem-Konvertierung | |
DE2953262C2 (de) | ||
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69832393T2 (de) | Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
DE2752607A1 (de) | Verfahren zur erkennung von sprache | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
EP1264301B1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE60018696T2 (de) | Robuste sprachverarbeitung von verrauschten sprachmodellen | |
DE60302478T2 (de) | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
DE3149134A1 (de) | Verfahren und vorrichtung zur bstimmung von sprachendpunkten | |
EP0285222A2 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE69814442T2 (de) | Strukturerkennung | |
EP1457966A1 (de) | Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung | |
DE102008024257A1 (de) | Verfahren zur Sprecheridentifikation bei einer Spracherkennung | |
DE1547002A1 (de) | Vorrichtung,die auf gesprochene Informationen anspricht,insbesondere phonetische Schreibmaschine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8127 | New person/name/address of the applicant |
Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN |