DE1547027C3 - Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen - Google Patents

Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen

Info

Publication number
DE1547027C3
DE1547027C3 DE1547027A DEJ0029848A DE1547027C3 DE 1547027 C3 DE1547027 C3 DE 1547027C3 DE 1547027 A DE1547027 A DE 1547027A DE J0029848 A DEJ0029848 A DE J0029848A DE 1547027 C3 DE1547027 C3 DE 1547027C3
Authority
DE
Germany
Prior art keywords
signals
formant
latches
frequency
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE1547027A
Other languages
English (en)
Other versions
DE1547027B2 (de
DE1547027A1 (de
Inventor
Genung Leland Vestal N.Y. Clapper (V.St.A.)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE1547027A1 publication Critical patent/DE1547027A1/de
Publication of DE1547027B2 publication Critical patent/DE1547027B2/de
Application granted granted Critical
Publication of DE1547027C3 publication Critical patent/DE1547027C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Description

45
Die Erfindung betrifft ein Verfahren und. eine Anordnung zur Konsonantenbestimmung in Sprechsignalen nach dem Oberbegriff des Anspruchs 1.
Bisher bekannte Spracherkennungsverfahren beschränken sich auf das Erkennen einer geringen Anzahl von Worten, meist Zahlworten. Beim Versuch, den Wortschatz des Erkennungsverfahrens zu vergrößern, wurden sehr hohe Aufwendungen an Schaltungen und Speicherplatz erforderlich. Trotz des Aufwandes waren die Verfahren auf Stimmen sehr verwandter Charakteristik beschränkt, wenn die Fehlerhäufigkeit nicht stark zunehmen sollte. Deshalb wurde auch der Versuch gemacht, die Erkennungseinrichtungen an den einzelnen Sprecher anpaßbar zu machen.
Aus der Erkenntnis, daß in den Sprachlauten die Energie an bestimmten, verhältnismäßig wenig variablen Stellen konzentriert ist, welche Stellen als Formanten bezeichnet werden, wurden schon frühzeitig die Zerlegung des zu analysierenden Frequenzspektrums in Frequenzbänder vorgenommen. Es ist auch bekannt, das Auftreten von Formanten innerhalb der Frequenzbänder festzustellen (DBP 11 56 996).
Die Prüfung des Auftretens von stimmhaften Laut und von Reibelauten ist auch in den US-Patentschrift 29 03 515 und 29 08 761 sowie in der Zeitschrift »T journal of the Acoustical Society of America«, Mi 1956, Seiten 303 bis 310, 313 beschrieben. Für <. Konsonantenbestimmung ergeben sich hieraus ab noch keine zuverlässigen Anwendungen.
Es ist daher die Aufgabe der Erfindung, e verbessertes Verfahren zur Spracherkennung anzug ben, das bei der Bestimmung von Konsonant zuverlässigere und signifikantere Merkmale in ihr Erkennung liefert, als das bei den bekannten Verfahr' der Fall war.
Außerdem sollen die sprachsignifikanten Merkma in größerer Zahl und kompakterer Form abgeleit werden, um eine zuverlässigere Auswertung und eir Speicherplatzverringerung zu erzielen.
Gelöst wird diese Aufgabe der Erfindung durch die : dem Patentanspruch angegebenen Merkmale.
Auf diese Weise wird der Vorteil erzielt, daß aufgrur. des höheren sprachsignifikanten MerkmalangeboU eine zuverlässigere Spracherkennung bezüglich d·; Konsonanten erzielt wird.
Im folgenden wird die Erfindung an Hand eines durc Zeichnungen erläuterten Ausführungsbeispieles br schrieben.
Es zeigt
F i g. 1 ein Blockschaltbild mit den hauptsächliche Bestandteilen der erfindungsgemäßen Anordnung,
F i g. 2a bis 2d, angeordnet nach F i g. 2, zeige zusammen Einzelheiten der Anordnung.
Wie schon eingangs erwähnt, werden bei de vorliegenden Erfindung Formanten nicht in eine Matri gespeist, deren Koordinaten durch Frequenz und Zei gegeben sind. Dabei sind nämlich die Speicheranforde rungen hoch, außerdem macht die Feststellung voi Konsonanten Schwierigkeiten und ist u. U. ungenau.
Bei der vorliegenden Erfindung werden neut Maßnahmen für die Bestimmung von Konsonantei vorgeschlagen. Es werden hierzu Einrichtungen zu Bestimmung von Reibelauten und stimmhaften Lauter mit Formantbestimmungs-Einrichtungen kombiniert um Konsonanten festzustellen; es ergeben sich dabe verschlüsselte Lautmerkmale, die für die Erkennung aussagekräftiger sind. Es zeigte sich, daß diese Anordnung weniger sprecherabhängig ist als die früher benutzten Anordnungen.
Allgemeine Beschreibung
In dem Übersichtsschaltbild der F i g. 1 gelanger Sprachlaute oder Laute innerhalb des Sprachspektrums zum Mikrophon 1, das sie in elektrische Signale verwandelt, welche vom Vorverstärker 2 verstärkt werden. Die Eingangsempfindlichkeit des Vorverstärkers kann bei 3 eingestellt werden. Der Vorverstärker 2 steht mit der automatischen Verstärkungsregelung 35 in Verbindung, welche das Ausgangssignal des Vorverstärkers auf einem konstanten Pegel hält. Dieses Ausgangssignal hat die Form einer komprimierten Umhüllenden des Sprachsignals; es gelangt über die Leitung 30 zum Frequenzanalysator FS, der mehrere Bandfilter enthält. Jedes der Bandfilter liegt zwischen 260 und 3750 Hz. Bei Auftragung gemäß einer logarithmischen Skala ist das Sprachspektrum zu der Frequenz von 1000 Hz symmetrisch aufgeteilt Weiter ist im Frequenzanalysator ein als Reibelaut-Selektor wirkender Hochpaß großer Bandbreite enthalten, der den Bereich von 4000 bis
10 000 Hz überdeckt. Außerdem ist ein Bandpaß für den Bereich von 100 bis 250 Hz enthalten. Der Frequenzbereich von 250 bis 3750 Hz ist in 14 durch die Bandfilter bestimmten Bänder unterteilt. Mittels dieser Bandfilter können lokale Maxima (Formanten) des angeschlossenen Formant-Bestimmungssystems FL erkannt werden; letzteres enthält Gleichrichter, Vergleichen Und-Schaltungen und Impulsformer.
Bei den Einrichtungen zur Feststeilung von Konsonanten im Sprachspektrum werden die Reibelaute und stimmhafte Laute darstellenden Energieanteile in die zugeordneten Frequenzanalysatoren 60 und 59 eingegeben, deren Ausgänge über erste und zweite Integrierschaltungen 70 und 70a geleitet werden. Der Reibelaut-Ausgang FO und der stimmhafte Ausgang VO gelangen '5 in die Schaltung für Reibelaute und stimmhafte Laute FVD, in der mittels Invertern 390 und Koinzidenzschaltungen Signale für die folgenden Zustände erzeugt werden: _
1. F ■ F Reibelaut ohne stimmhaften Laut, 2· ti. ' Y. stimmhafter Laut ohne Reibelaut,
3.FV gleichzeitig Reibelaut und stimmhafter Laut, 4. F ■ V weder Reibelaut noch stimmhafter Laut.
Diese vier Bedingungen stellen die vier Hauptklassen von Konsonanten dar, nämlich:
1. Reibelaute und Zischlaute f, s, (englisches) sh, k, t, (englisches) ch;
2. Stimmhafte Laute oder Halbvokale w, b,g, m, Iy;
3. Stimmhafte Reibelaute v, d, (englisch) z, zh,j, dj;
4. Stimmlose Hauchlaute A, weiches k,p. Konsonanten sind weiter gekennzeichnet durch das
Vorliegen oder Fehlen von Energiestößen, welche durch Überwachung der Steigung des Verstärkungsregelungs-Signals gefunden werden; letzteres wird über Leitung 37 dem Steigungsdetektor (SD) 145 in Fig. 1 zugeführt, dessen Ausgangssignal über die Und-Schaltung 120r und die Leitung 148 der Konsonanten-Matrix CMS zugeführt und dort gespeichert wird. Letztere vereinigt die Formantenergie aus dem Formantbestimmungssystem FL mit den vier Bedingungen der Formantklassen und liefert im ganzen 15 Vektoren, welche die verschiedenen Konsonantenlaute des Sprachspektrums darstellen. Die Formanten gelangen über die Leitungen Mta bis M 13a in den Formantgeber FD, aus dem fünf Leitungen FDa bis FDe der Formantenergie entsprechende Signale zur Konsonantenmatrix bringen. Die Energiespitze auf Leitung 148 wird in einer entsprechenden Verriegelungsschaltung ebenfalls gespeichert und liefert ein zusätzliches Merkmal für die Konsonanterkennung. Die beschriebene Einrichtung liefert also 56 Vektorgrößen, die alle Spracheigenheiten der zu erkennenden Sprachlaute wiedergeben.
Vor dem Eintritt in die Gesamtbeschreibung der Einrichtung erscheint es vorteilhaft, Einzelheiten der wesentlichen Bausteine anzugeben, die durchweg benutzt werden.
Der normale Arbeitsbereich der automatischen Verstärkungsregelung liegt zwischen ±0,4 V, ein Bereich, der durch das Potentiometer 3 des Vorverstärkers 2 eingestellt wird. Die Verstärkungsregelung ist wirksam bis + oder —0,5 V, und der Schwellwert liegt bei + oder-03 V.
Bandfilter
Jedes der 14 Filter 80 (F i g. 2a) hat eine sehr scharfe Bandfilter-Eigenschaft für einen der nachfolgend aufgeführten Frequenzbereiche:
Filter
Mittelfrequenz
Bandbreite (Hz)
FX 3400 3120-3750
F2 2840 2590-3120
F3 2340 2140-2590
FA 1940 1765-2140
FS 1590 1458-1765
F6 1325 1192-1458
Fl 1060 970-1192
FS 880 800- 970
F9 720 655- 800
FiO 590 535- 655
FU 480 444- 535
F\2 408 375- 444
F13 340 312- 375
F14 284 260- 312
Hochpaß
Der in Fig.2b dargestellte Hochpaß 60 entnimmt dem Sprachsignal hochfrequente Rauschspannungen.
Integrierschaltung
Der Ausgang des Hochpasses 60 gelangt zur Integrierschaltung 70. Sie enthält eine Eingangs-Schwellwertschaltung, so daß Rauschen nur bei Überschreiten eines Mindestwertes wirksam wird. Das integrierte Ausgangssignal gelangt dann zur Und-Schaltung 120 in F i g. 2b.
Bandpaß
Der Bandpaß 59 in F i g. 2b ist ein Breitbandfilter, das Frequenzen unterhalb 100 Hz abschneiden soll, um die Netzbrummspannung zu eliminieren. Der Bandpaß überdeckt den Sprachbereich von 100 bis 250 Hz und erfaßt damit die stimmhaften Laute für Männer- und Frauenstimmen. Der Bandpaß ist für Sprachvorgänge, z. B. Unterbrechungen, bei denen die Lippen zusammengepreßt werden, sehr empfindlich. Sein Ausgangssignal wird der Integrierschaltung 70a in Fig.2b zugeführt. Die Integrierschaltung 70a besteht im wesentlichen aus einem integrierenden Netzwerk, das ein Gleichstrom-Ausgangssignal mit geringem Rauschanteil abgibt.
Gleichrichter, Vergleicher
Die Formantlokalisierung in FL (Fig. 1) macht wesentlichen Gebrauch von den drei Bausteinen: Gleichrichter 100 (Fig.2a), Vergleicher 110, invertierende Und-Schaltung 120. Der Gleichrichter 100 formt den Ausgang des Bandfilters in einen Gleichstrompegel um, der proportional zum Spitze-Spitze-Wert des Bandfilterausgangs ist.
Die Arbeitsweise ist etwa folgende i Der Ausgang des Gleichrichters R 2 liege an einem Eingang des Vergleichers BD2 (Fig.2a), der Ausgang des Gleichrichters A3 an seinem anderen. Wenn die beiden zugeführten Signale gleich sind, entsteht ein Ausgangssignal mit hohem Pegelwert Dies ist die hohe Lage. Eine Arbeitslage mit niedrigem Pegel entsteht, wenn die beiden Eingangssignale voneinander abweichen.
Der Arbeitszustand des Vergleichers zeigt also die Ungleichheit eines Paares von Gleichrichterausgängen an. Der Vergleicher BD 2 kann also anzeigen, daß das Ausgangssignal des Gleichrichters R 2 größer oder kleiner ist als das Ausgangssignal des Gleichrichters R 3.
Die invertierenden Und-Schaltungen 120a bis η dienen zur Bestimmung zweier Ungleichheiten, die ein
lokales Maximum anzeigen. Die Ausgänge benachbarter Paare von Vergleichern, z. B. der Vergleicher BD 2 und BD 3 werden an die invertierende Und-Schaltung 120c angeschlossen, die auf ihrer Ausgangsleitung ein lokales Maximum als Anzeige dafür bildet, daß das Ausgangssignal des Gleichrichters R 3 größer ist als das der Gleichrichter Λ2 und A4. Es werden also die Vergleicherausgänge (d. h. zwei Ausgänge von jedem der Vergleicher Bd 1 bis BD14) an die Und-Schaltungen 120a bis π angelegt.
Wie aus F i g. 2a ersichtlich ist, führen die Ausgangsklemmen der Vergleicher 110 (R 1 bis R 14) zu den Und-Schaltungen 120a bis n. Die Ausgangsklemmen z. B. des Vergleichers BD 2 führen zu den Und-Schaltungen 1206 und 120c. Die Aufgabe der Und-Schaltungen ist es, die Koinzidenz der negativen Arbeitssignale aus den Vergleichern festzustellen.
Die Ausgangssignale der invertierenden Und-Schaltungen 120a bis 120/j werden den (integrierenden) Impulsformern 130 zugeführt, welche aus den lokalen Maxima darstellenden Signalen die Oberwellen entfer
Integrierender Impulsformer
Die Aufgabe dieser Schaltungen 130 in F i g. 2b ist es, Ausgleichsvorgänge aus den hier zugeführten Signalen zu beseitigen und ein integriertes und geformtes Signal zu bilden.
Das Ausgangssignal des Impulsformers ist eine Rechteckkurve mit scharfem Anstieg und Abfall.
Steigungsanzeiger
Der Steigungsanzeiger (SD) 145 aus F i g. 1 untersucht die Kurvenform der automatischen Verstärkungsregelung nach dem Auftreten scharfer Übergänge, die auf rasche Änderungsvorgänge im Sprachsignal hinweisen. Wenn die Steigung einen bestimmten Wert erreicht, wird ein Ausgangssignal erzeugt. Dieses Signal gelangt über die Und-Schaltung 12Or (s. Fig. 1) zu einer die Lautstärkeänderung anzeigenden Verriegelung LSA AQ (Fig.2d).
Sprech-Steuerschaltung
Die Sprech-Steuerschaltung (TCT) 303 nach F i g. 2b wird beim Betätigen der Sprechtaste PT erregt, wenn ein Wort zur Erkennung in das Mikrophon 1 gesprochen wird. Der Ausgang dieser Schaltung erregt die Torleitung 325, die mit allen Und-Schaltungen 120a bis η des Systems verbunden ist und die es dadurch ermöglicht, alle erkannten Formanten, einschließlich der stimmhaften, und Reibelaute in die Formantüberwachungseinrichtung und die Konsonantenmatrix einzugeben. Kein Sprachereignis wird zur Erkennung gespeichert, wenn nicht diese Schaltung eingeschaltet ist.
Arbeitsweise der Einrichtung
Durch Betätigen der in F i g. 2b enthaltenen Sprachtaste PTv/ird die Sprech-Steuerschaltung 303 eingeschaltet; sie liefert ferner über die Leitungen 325 an alle Und-Schaltungen 120a bis 12On (Fig.2a), an die Und-Schaltungen 120o, 120p und 12Or (Fig.2b) Vorbereitungssignale. Sobald das Mikrophon 1 von akustischen Signalen (z. B. der Stimme der Bedienungsperson) getroffen wird, erhält der Vorverstärker 2 Eingangssignale und liefert dine komprimierte Umhül-Iende derselben (eine Folge der automatischen Verstärkungsregelung 35) mit konstantem Pegel. Dieses Signal wird den Bandfiltern FS zugeführt, die in F i g. 2a mit 80 bezeichnet sind. Diese 14 Bandfilter sind alle auf bestimmte Frequenzen im Bereich zwischen 260 und 3750 Hz abgestimmt. Das gleiche Signal wird auch noch dem Hochpaß 60 und dem Bandpaß 59 der Fig.2b zugeführt, welch letztere invertierte und integrierte Signale abgeben, wenn im Lautspektrum Reibelaute und stimmhafte Laute enthalten sind. Die Ausgänge der Bandfilter gehen über Leitungen 95 zum Formant-Bestimmungssystem FL(F i g. 2a).
Das Formant-Bestimmungssystem enthält drei wesentliche Einheiten: die Gleichrichter 100, die Vergleicher 110 und die Und-Schaltungen 120. Beim Vorliegen von Formanten, d. h. von Energiespitzen in bestimmten Frequenzbändern, erhalten die Vergleicher 110, im Beispiel 13 an der Zahl, Eingangssignale. Es werde der Vergleicher BD2 betrachtet. Die obere Ausgangsleitung dieses Vergleichers mit dem Bezugszeichen R2> R3 liefert ein negatives Signal, wenn der Betrag R 2 größer ist als R 3. Wenn umgekehrt der Betrag R 3 größer als R2, so liefert die untere mit R3>R2 bezeichnete Leitung ein negatives Signal. Waren die Eingänge zu dem Vergleicher BD 2 von gleicher Größe, dann erscheint auf keiner der beiden Ausgangsleitungen ein Signal. Sobald irgendwo ein lokales Maximum vorliegt, zeigen zwei Ausgangsleitungen eine Koinzidenz negativer Signale, durch welche die zugeordnete Und-Schaltung 120a bis 120/7, zur Abgabe eines Ausgangssignals an die nachgeordnete Impulsformerschaltung 130 veranlaßt wird, von denen 14 vorgesehen und mit IPSi bis IPSXA bezeichnet sind. Die Impulsformer sollen unerwünschte Ausgleichsvorgänge in den Formanten darstellenden Signalen beseitigen.
Am Ausgang der verschiedenen Impulsformer enthalten die Formantsignale sowohl Vokal- als auch Konsonantenbestandteile.
Es soll nun die Bestimmung der Konsonanten-Merkmale beschrieben werden. Diese Bestimmung geht aus von der Formantbestimmung durch das in Fig.2a mit FL bezeichnete System, das auf den Leitungen M1 bis M14 Formantsignale liefert. Diese Signale werden auf den Abzweigleitungen MXa bis MX3a mit dem Formantgeber FD der Fig.2c verbunden. Dieser enthält Oder-Schaltungen 370, mit DI bezeichnete Inverter 390, Und-Schaltungen 375, den Emitterverstärker (EF) 385 sowie Α/ΟΛ-Schaltungen 410. Den Formantgeber verlassen fünf Ausgangsleitungen FDa, FDb, FDc, FDdund FDe. Diese Ausgänge werden in der Konsonantenmatrix der Fig.2d mit den vier Konsonantenklassen F ■ VTF -V1F- V und F ■ V kombiniert. Die vier Konsonantenklassen werden vom Reibelautgeber FVD der Fig.2b gebildet. Sie liegen auf den Leitungen FO und VO an, welche zwei Eingangsinverter speisen; die Inverter liefern komplementäre Ausgangssignale auf vier Leitungen Dia, DIb, DIc und DId an vier Und-Schaltungen 375, deren Ausgänge mit den obengenannten Klassenbezeichnungen versehen sind. Die Und-Schaltungen des Reibelautgebers FVD haben eine gemeinsame Vorbereitungsleitung Q, die an einen Konsonantschalter CS angeschlossen ist. Die Charakteristika dieser vier Konsonantklassen wurden eingangs aufgezählt.
Durch die Kombination der vier Konsonantklassen und der Signale auf den Leitungen M Xa bis M 13a in der Konsonantenmatrix CMS entstehen auf den mit f, w, v,s, m, z, sh, I, zh, k, gj, h, k'und //'bezeichneten Leitungen Signale.
Hierzu 5 Blatt Zeichnungen

Claims (3)

Patentansprüche:
1. Verfahren zur Konsonantenbestimmung in Sprachsignalen, bei dem das Frequenzspektrum in mehrere Frequenzbänder zerlegt und das Auftreten von Formanten in den Frequenzbändern bestimmt wird, dadurch gekennzeichnet, daß für einige Frequenzbänder das Auftreten von stimmhaften Lauten ^V?und in an sich bekannter Weise auch das Auftreten von Reibelauten (F) und ferner das Auftreten von Kombinationen dieser Laute ermittelt wird (FJg. 2b), wobei die diese Kombinationen (F- V: F- V; F- V;F ■ V)darstellenden Binärsignale eine Koordinate einer Verknüpfungsmatrix (CMS; Fig-1, 2d) aus speichernden Elementen ansteuern, deren andere Koordinate mit Binärsignalen einer bestimmten Anzahl von Formantkombinationen (FDa, FDb, FDd, FDe), die durch die logische Verknüpfung (Fig.2c) der Formanten aller Frequenzbänder gebildet werden, angesteuert wird, wobei zur Erzeugung von Ausgangssignalen, die für die Konsonanten repräsentativ sind, die stimmhaften Laute und Reibelaute und die Formantkombinationen entsprechend ihrer natürlichen Kombination in der Verknüpfungsmatrix kombiniert werden.
Z Anordnung zur Durchführung des Verfahrens nach Anspruch 1, gekennzeichnet durch eine Verriegelungsschaltungen (VERR; F i g. 2d) mit zwei Eingängen als Speicherelemente enthaltende Matrix, deren vier Spalten der Minterm aus den beiden Signalen für stimmhaften Laut (V) und Reibelauf (F) und deren Zeilen durch die logische Verknüpfung gruppenweise zusammengefaßten Formantsignale1 aller Frequenzbänder zugeführt werden, wobei der Ausgang jeder Verriegelungsschaltung einem der Konsonanten fest zugeordnet ist.
3. Anordnung nach Anspruch 2, gekennzeichnet durch eine solche Auslegung, daß die Signale für stimmhafte Laute aus dem Frequenzband 100 bis 250 Hz und die Signale für Reibelaute aus dem Frequenzbereich über 4000 Hz gebildet werden.
DE1547027A 1965-01-22 1966-01-15 Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen Expired DE1547027C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US427371A US3368039A (en) 1965-01-22 1965-01-22 Speech analyzer for speech recognition system

Publications (3)

Publication Number Publication Date
DE1547027A1 DE1547027A1 (de) 1969-11-06
DE1547027B2 DE1547027B2 (de) 1977-08-25
DE1547027C3 true DE1547027C3 (de) 1978-04-27

Family

ID=23694583

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1547027A Expired DE1547027C3 (de) 1965-01-22 1966-01-15 Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen

Country Status (7)

Country Link
US (1) US3368039A (de)
BE (1) BE674341A (de)
CH (1) CH441791A (de)
DE (1) DE1547027C3 (de)
FR (1) FR1466645A (de)
GB (1) GB1070247A (de)
SE (1) SE342104B (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3679830A (en) * 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector
US4862503A (en) * 1988-01-19 1989-08-29 Syracuse University Voice parameter extractor using oral airflow
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
US10546064B2 (en) * 2014-02-04 2020-01-28 Intelligent Voice Limited System and method for contextualising a stream of unstructured text representative of spoken word

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2938079A (en) * 1957-01-29 1960-05-24 James L Flanagan Spectrum segmentation system for the automatic extraction of formant frequencies from human speech
US3215934A (en) * 1960-10-21 1965-11-02 Sylvania Electric Prod System for quantizing intelligence according to ratio of outputs of adjacent band-pass filters
US3238303A (en) * 1962-09-11 1966-03-01 Ibm Wave analyzing system

Also Published As

Publication number Publication date
DE1547027B2 (de) 1977-08-25
BE674341A (de) 1966-04-15
SE342104B (de) 1972-01-24
GB1070247A (en) 1967-06-01
DE1547027A1 (de) 1969-11-06
US3368039A (en) 1968-02-06
FR1466645A (fr) 1967-01-20
CH441791A (de) 1967-08-15

Similar Documents

Publication Publication Date Title
EP0296588B1 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE3306730C2 (de)
EP0277613B1 (de) Verfahren zur Übertragung eines Audiosignals
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825082A1 (de) Verfahren zur spracherkennung
DE2233872A1 (de) Signalanalysator
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2357067A1 (de) Vorrichtung zur sprachanalyse
DE1547027C3 (de) Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen
DE2805478C2 (de) Schaltungsanordnung zur Diskriminierung von Sprachsignalen
DE1572516A1 (de) Schaltungsanordnung fuer die Spracherkennung
DE1937464B2 (de) Sprachanalysiergeraet
DE1194170B (de) Verfahren und Schaltungsanordnung zur Spracherkennung
DE2431458C2 (de) Verfahren und Anordnung zur automatischen Sprechererkennung
DE2505388A1 (de) Verfahren und anordnung zur logarithmischen umwandlung eines messwertes
DE1422056A1 (de) Phonetische Schreibmaschine
DE1547029A1 (de) Spracherkennungsgeraet
DE2939077A1 (de) Verfahren und anordnung zum bestimmen charakteristischer werte aus einem geraeuschsignal
DE1189745B (de) Verfahren zum Identifizieren von Schallereignissen
DE2904426A1 (de) Analog-sprach-codierer und decodierer
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
EP1130577B1 (de) Verfahren zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung
DE19628503A1 (de) Audiosignal-Verarbeitungsschaltung zur Berechnung eines Maskenpegels von quantisierten Audiosignalwerten

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
EHJ Ceased/non-payment of the annual fee