DE1547027B2 - Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen - Google Patents
Verfahren und anordnung zur konsonantenbestimmung in sprachsignalenInfo
- Publication number
- DE1547027B2 DE1547027B2 DE1966J0029848 DEJ0029848A DE1547027B2 DE 1547027 B2 DE1547027 B2 DE 1547027B2 DE 1966J0029848 DE1966J0029848 DE 1966J0029848 DE J0029848 A DEJ0029848 A DE J0029848A DE 1547027 B2 DE1547027 B2 DE 1547027B2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- formant
- latches
- frequency
- inputs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 230000007704 transition Effects 0.000 abstract description 2
- 230000001052 transient effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- WCZDQPXNBJTKPI-UHFFFAOYSA-O Cyanidin 7-glucoside Chemical compound OC1C(O)C(O)C(CO)OC1OC1=CC(O)=C(C=C(O)C(=[O+]2)C=3C=C(O)C(O)=CC=3)C2=C1 WCZDQPXNBJTKPI-UHFFFAOYSA-O 0.000 description 1
- 101000953492 Homo sapiens Inositol hexakisphosphate and diphosphoinositol-pentakisphosphate kinase 1 Proteins 0.000 description 1
- 102100023727 Mitochondrial antiviral-signaling protein Human genes 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrophonic Musical Instruments (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
Description
45
Die Erfindung betrifft ein Verfahren und eine Anordnung zur Konsonantenbestimmung in Sprechsignalen
nach dem Oberbegriff des Anspruchs 1.
Bisher bekannte Spracherkennungsverfahren beschränken sich auf das Erkennen einer geringen Anzahl
von Worten, meist Zahlworten. Beim Versuch, den Wortschatz des Erkennungsverfahrens zu vergrößern,
wurden sehr hohe Aufwendungen an Schaltungen und Speicherplatz erforderlich. Trotz des Aufwandes waren
die Verfahren auf Stimmen sehr verwandter Charakteristik beschränkt, wenn die Fehlerhäufigkeit nicht stark
zunehmen sollte. Deshalb wurde auch der Versuch gemacht, die Erkennungseinrichtungen an den einzelnen
Sprecher anpaßbar zu machen.
Aus der Erkenntnis, daß in den Sprachlauten die Energie an bestimmten, verhältnismäßig wenig variablen
Stellen konzentriert ist, welche Stellen als Formanten bezeichnet werden, wurden schon frühzeitig
die Zerlegung des zu analysierenden Frequenzspektrums in Frequenzbänder vorgenommen. Es ist auch
bekannt, das Auftreten von Formanten innerhalb der Frequenzbänder festzustellen (DBP 11 56 996).
Die Prüfung des Auftretens von stimmhaften Lauten und von Reibelauten ist auch in den US-Patentschriften
29 03 515 und 29 08 761 sowie in der Zeitschrift »The Journal of the Acoustical Society of America«, März
1956, Seiten 303 bis 310, 313 beschrieben. Für die Konsonantenbestimmung ergeben sich hieraus aber
noch keine zuverlässigen Anwendungen.
Es ist daher die Aufgabe der Erfindung, ein verbessertes Verfahren zur Spracherkennung anzugeben,
das bei der Bestimmung von Konsonanten zuverlässigere und signifikantere Merkmale in ihrer
Erkennung liefert, als das bei den bekannten Verfahren der Fall war.
Außerdem sollen die sprachsignifikanten Merkmale in größerer Zahl und kompakterer Form abgeleitet
werden, um eine zuverlässigere Auswertung und eine Speicherplatzverringerung zu erzielen.
Gelöst wird diese Aufgabe der Erfindung durch die in dem Patentanspruch angegebenen Merkmale.
Auf diese Weise wird der Vorteil erzielt, daß aufgrund des höheren sprachsignifikanten Merkmalangebotes
eine zuverlässigere Spracherkennung bezüglich der Konsonanten erzielt wird.
Im folgenden wird die Erfindung an Hand eines durch Zeichnungen erläuterten Ausführungsbeispieles beschrieben.
Es zeigt
F i g. 1 ein Blockschaltbild mit den hauptsächlichen Bestandteilen der erfindungsgemäßen Anordnung,
Fig.2a bis 2d, angeordnet nach Fig.2, zeigen
zusammen Einzelheiten der Anordnung.
Wie schon eingangs erwähnt, werden bei der vorliegenden Erfindung Formanten nicht in eine Matrix
gespeist, deren Koordinaten durch Frequenz und Zeit gegeben sind. Dabei sind nämlich die Speicheranforderungen
hoch, außerdem macht die Feststellung von Konsonanten Schwierigkeiten und ist u. U. ungenau.
Bei der vorliegenden Erfindung werden neue Maßnahmen für die Bestimmung von Konsonanten
vorgeschlagen. Es werden hierzu Einrichtungen zur Bestimmung von Reibelauten und stimmhaften Lauten
mit Formantbestimmungs-Einrichtungen kombiniert, um Konsonanten festzustellen; es ergeben sich dabei
verschlüsselte Lautmerkmale, die für die Erkennung aussagekräftiger sind. Es zeigte sich, daß diese
Anordnung weniger sprecherabhängig ist als die früher benutzten Anordnungen.
Allgemeine Beschreibung
In dem Übersichtsschaltbild der F i g. 1 gelangen Sprachlaute oder Laute innerhalb des Sprachspektrums
zum Mikrophon 1, das sie in elektrische Signale verwandelt, welche vom Vorverstärker 2 verstärkt
werden. Die Eingangsempfindlichkeit des Vorverstärkers kann bei 3 eingestellt werden. Der Vorverstärker 2
steht mit der automatischen Verstärkungsregelung 35 in Verbindung, weiche das Ausgangssignal des Vorverstärkers
auf einem konstanten Pegel hält. Dieses Ausgangssignal hat die Form einer komprimierten Umhüllenden
des Sprachsignals; es gelangt über die Leitung 30 zum Frequenzanalysator FS, der mehrere Bandfilter enthält.
Jedes der Bandfilter liegt zwischen 260 und 3750 Hz. Bei Auftragung gemäß einer logarithmischen Skala ist das
Sprachspektrum zu der Frequenz von 1000 Hz symmetrisch aufgeteilt. Weiter ist im Frequenzanalysator ein
als Reibelaut-Selektor wirkender Hochpaß großer Bandbreite enthalten, der den Bereich von 4000 bis
10 000 Hz überdeckt Außerdem ist ein Bandpaß für den
Bereich von 100 bis 250 Hz enthalten. Der Frequenzbereich von 250 bis 3750 Hz ist in 14 durch die Bandfilter
bestimmten Bänder unterteilt. Mittels dieser Bandfilter können lokale Maxima (Formanten) des angeschlossenen
Formant-Bestimmungssystems FL erkannt werden; letzteres enthält Gleichrichter, Vergleicher, Und-Schaltungen
und Impulsformer.
Bei den Einrichtungen zur Feststellung von Konsonanten im Sprachspektrum werden die Reibelaute und
stimmhafte Laute darstellenden Energieanteile in die zugeordneten Frequenzanalysatoren 60 und 59 eingegeben,
deren Ausgänge über erste und zweite Integrierschaltungen 70 und 70a geleitet werden. Der Reibelaut-Ausgang
FO und der stimmhafte Ausgang VO gelangen «5 in die Schaltung für Reibelaute und stimmhafte Laute
FVD, in der mittels Invertem 390 und Koinzidenzschaltungen Signale für die folgenden Zustände erzeugt
werden:
1. F · V Reibelaut ohne stimmhaften Laut,
2. F · V_ stimmhafter Laut ohne Reibelaut,
3. F · V gleichzeitig Reibelaut und stimmhafter Laut,
4. F · V weder Reibelaut noch stimmhafter Laut.
Diese vier Bedingungen stellen die vier Hauptklassen
Diese vier Bedingungen stellen die vier Hauptklassen
von Konsonanten dar, nämlich:
1. Reibelaute und Zischlaute f, s, (englisches) sh, k, t,
(englisches) ch;
2. Stimmhafte Laute oder Halbvokale w, b, g, m, I, y;
3. Stimmhafte Reibelaute v, d, (englisch) z, zh,j, dj;
4. Stimmlose Hauchlaute h, weiches k, p.
Konsonanten sind weiter gekennzeichnet durch das Vorliegen oder Fehlen von Energiestößen, welche durch
Überwachung der Steigung des Verstärkungsregelungs-Signals gefunden werden; letzteres wird über Leitung 37
dem Steigungsdetektor (SD) 145 in Fig. 1 zugeführt, dessen Ausgangssignal über die Und-Schaltung 12Or
und die Leitung 148 der Konsonanten-Matrix CMS zugeführt und dort gespeichert wird. Letztere vereinigt
die Formantenergie aus dem Formantbestimmungssystem FL mit den vier Bedingungen der Formantklassen
und liefert im ganzen 15 Vektoren, welche die verschiedenen Konsonantenlaute des Sprachspektrums
darstellen. Die Formanten gelangen über die Leitungen MIa bis M 13a in den Formantgeber FD, aus dem fünf
Leitungen FDa bis FDe der Formantenergie entsprechende Signale zur Konsonantenmatrix bringen. Die
Energiespitze auf Leitung 148 wird in einer entsprechenden Verriegelungsschaltung ebenfalls gespeichert
und liefert ein zusätzliches Merkmal für die Konsonanterkennung. Die beschriebene Einrichtung liefert also 56
Vektorgrößen, die alle Spracheigenheiten der zu erkennenden Sprachlaute wiedergeben.
Vor dem Eintritt in die Gesamtbeschreibung der Einrichtung erscheint es vorteilhaft, Einzelheiten der
wesentlichen Bausteine anzugeben, die durchweg benutzt werden.
Der normale Arbeitsbereich der automatischen Verstärkungsregelung liegt zwischen ±0,4 V, ein
Bereich, der durch das Potentiometer 3 des Vorverstärkers 2 eingestellt wird. Die Verstärkungsregelung ist
wirksam bis + oder -0,5 V, und der Schwellwert liegt
bei + oder-03 V.
Bandfilter
Jedes der 14 Filter 80 (F i g. 2a) hat eine sehr scharfe Bandfilter-Eigenschaft für einen der nachfolgend
aufgeführten Frequenzbereiche:
Filter
Mittelfrequenz
Bandbreite (Hz)
Fl | 3400 | 3120-3750 |
F2 | 2840 | 2590-3120 |
F3 | 2340 | 2140-2590 |
F4 | 1940 | 1765-2140 |
F5 | 1590 | 1458-1765 |
F6 | 1325 | 1192-1458 |
F7 | 1060 | 970-1192 |
F8 | 880 | 800-970 |
F9 | 720 | ,655- 800 |
FlO | 590 | "535- 655 |
FIl | 480 | 444- 535 |
F12 | 408 | 375- 444 |
F13 | 340 | "312- 375 |
F14 | 284 | .. "260-312 |
Hochpaß -.·.,.,--. ;
Der in Fig.2b dargestellte Hochpaß 60 entnimmt
dem Sprachsignal hochfrequente Rauschspannungen.
Integrierschaltung
Der Ausgang des Hochpasses 60 gelangt zur Integrierschaltung 70. Sie enthält eine Eingangs-Schwellwertschaltung,
so daß Rauschen nur bei Überschreiten eines Mindestwertes wirksam wird. Das integrierte Ausgangssignal gelangt dann zur Und-Schaltung
120 in F i g. 2b.
Bandpaß
Der Bandpaß 59 in F i g. 2b ist ein Breitbandfilter, das Frequenzen unterhalb 100 Hz abschneiden soll, um die
Netzbrummspannung zu eliminieren. Der Bandpaß überdeckt den Sprachbereich von 100 bis 250 Hz und
erfaßt damit die stimmhaften Laute für Männer- und Frauenstimmen. Der Bandpaß ist für Sprachvorgänge,
z. B. Unterbrechungen, bei denen die Lippen zusammengepreßt werden, sehr empfindlich. Sein Ausgangssignal
wird der Integrierschaltung 70a in Fig.2b zugeführt.
Die Integrierschaltung 70a besteht im wesentlichen aus einem integrierenden Netzwerk, das ein Gleichstrom-Ausgangssignal
mit geringem Rauschanteil abgibt.
Gleichrichter, Vergleicher
Die Formantlokalisierung in FL (Fig. 1) macht
wesentlichen Gebrauch von den drei Bausteinen: Gleichrichter 100 (Fig.2a), Vergleicher 110, invertierende
Und-Schaltung 120. Der Gleichrichter 100 formt den Ausgang des Bandfilters in einen Gleichstrompegel
um, der proportional zum Spitze-Spitze-Wert des Bandfilterausgangs ist. · -" ;■
Die Arbeitsweise ist etwa folgende: Der Ausgang des Gleichrichters R 2 liege an einem Eingang des
Vergleichers BD 2 (F i g. 2a), der Ausgang des Gleichrichters A3 an seinem anderen. Wenn die beiden
zugeführten Signale gleich sind, entsteht ein Ausgangssignal mit hohem Pegelwert. Dies ist die hohe Lage. Eine
Arbeitslage mit niedrigem Pegel entsteht, wenn die beiden Eingangssignale voneinander abweichen.
Der Arbeitszustand des Vergleichers zeigt also die Ungleichheit eines Paares von Gleichrichterausgängen
an. Der Vergleicher BD 2 kann also anzeigen, daß das Ausgangssignal des Gleichrichters R2 größer oder
kleiner ist als das Ausgangssignal des Gleichrichters R 3.
Die invertierenden Und-Schaltungen 120a bis η
dienen zur Bestimmung zweier Ungleichheiten, die ein
lokales Maximum anzeigen. Die Ausgänge benachbarter Paare von Vergleichern, z. B. der Vergleicher BD 2
und BD 3 werden an die invertierende Und-Schaltung 120c angeschlossen, die auf ihrer Ausgangsleitung ein
lokales Maximum als Anzeige dafür bildet, daß das Ausgangssignal des Gleichrichters R 3 größer ist als das
der Gleichrichter R 2 und R 4. Es werden also die Vergleicherausgänge (d. h. zwei Ausgänge von jedem
der Vergleicher Bd 1 bis BD14) an die Und-Schaltungen
120a bis π angelegt
Wie aus F i g. 2a ersichtlich ist, führen die Ausgangsklemmen der Vergleicher 110 (R 1 bis R 14) zu den
Und-Schaltungen 120a bis n. Die Ausgangsklemmen z. B. des Vergleichers BD 2 führen zu den Und-Schaltungen
1206 und 120c Die Aufgabe der Und-Schaltungen ist es, die Koinzidenz der negativen Arbeitssignale aus
den Vergleichern festzustellen.
Die Ausgangssignale der invertierenden Und-Schaltungen 120a bis 120/7 werden den (integrierenden)
Impulsformern 130 zugeführt, welche aus den lokalen Maxima darstellenden Signalen die Oberwellen entfer
Integrierender Impulsformer
Die Aufgabe dieser Schaltungen 130 in F i g. 2b ist es, Ausgleichsvorgänge aus den hier zugeführten Signalen
zu beseitigen und ein integriertes und geformtes Signal zu bilden.
Das Ausgangssignal des Impulsformers ist eine Rechteckkurve mit scharfem Anstieg und Abfall.
Steigungsanzeiger
Der Steigungsanzeiger (SD) 145 aus F i g. 1 untersucht die Kurvenform der automatischen Verstärkungsregelung
nach dem Auftreten scharfer Übergänge, die auf rasche Änderungsvorgänge im Sprachsignal hinweisen.
Wenn die Steigung einen bestimmten Wert erreicht, wird ein Ausgangssignal erzeugt. Dieses Signal gelangt
über die Und-Schaltung 12Or (s. Fig. 1) zu einer die Lautstärkeänderung anzeigenden Verriegelung LSA
(Fig.2d).
Sprech-Steuerschaltung
Die Sprech-Steuerschaltung (TCT) 303 nach F i g. 2b wird beim Betätigen der Sprechtaste PT erregt, wenn
ein Wort zur Erkennung in das Mikrophon 1 gesprochen wird. Der Ausgang dieser Schaltung erregt
die Torleitung 325, die mit allen Und-Schaltungen 120a bis π des Systems verbunden ist und die es dadurch
ermöglicht, alle erkannten Formanten, einschließlich der stimmhaften, und Reibelaute in die Formantüberwachungseinrichtung
und die Konsonantenmatrix einzugeben. Kein Sprachereignis wird zur Erkennung gespeichert,
wenn nicht diese Schaltung eingeschaltet ist.
Arbeitsweise der Einrichtung
Durch Betätigen der in F i g. 2b enthaltenen Sprachtaste PT wird die Sprech-Steuerschaltung 303 eingeschaltet;
sie liefert ferner über die Leitungen 325 an alle Und-Schaltungen 120a bis 12On (Fig.2a), an die
Und-Schaltungen 120o, 120p und 12Or (Fig.2b)
Vorbereitungssignale. Sobald das Mikrophon 1 von akustischen Signalen (z. B. der Stimme der Bedienungsperson)
getroffen wird, erhält der Vorverstärker 2 Eingangssignale und liefert dine komprimierte Umhüllende
derselben (eine Folge der automatischen Verstärkungsregelung 35) mit 1- nstantem Pegel. Dieses Signal
wird den Bandfiltern FS zugeführt, die in F i g. 2a mit 80 bezeichnet sind. Diese 14 Bandfilter sind alle auf
bestimmte Frequenzen im Bereich zwischen 260 und 3750 Hz abgestimmt. Das gleiche Signal wird auch noch
dem Hochpaß 60 und dem Bandpaß 59 der Fig.2b
zugeführt, welch letztere invertierte und integrierte Signale abgeben, wenn im Lautspektrum Reibelaute und
stimmhafte Laute enthalten sind Die Ausgänge der Bandfilter gehen über Leitungen 95 zum Formant-Be-
stimmungssystem FL (F ig. 2a). , -.'...,..-
Das Formant-Bestimmungssystem enthält drei wesentliche
Einheiten: die Gleichrichter 100, die Vergleicher 110 und die Und-Schaltungen 120. Beim Vorliegen
von Formanten, d. h. von Energiespitzen in bestimmten Frequenzbändern, erhalten die Vergleicher 110, im
Beispiel 13 an der Zahl, Eingangssignale. Es werde der Vergleicher BD 2 betrachtet Die obere Ausgangsleitung
dieses Vergleichers mit dem Bezugszeichen R2>R3 liefert ein negatives Signal, wenn der Betrag
R2 größer ist als R3. Wenn umgekehrt der Betrag A3
größer als R 2, so liefert die untere mit R3>R2
bezeichnete Leitung ein negatives Signal. Waren die Eingänge zu dem Vergleicher BD 2 von gleicher Größe,
dann erscheint auf keiner der beiden Ausgangsleitungen ein Signal. Sobald irgendwo ein lokales Maximum
vorliegt, zeigen zwei Ausgangsleitungen eine Koinzidenz negativer Signale, durch welche die zugeordnete
Und-Schaltung 120a bis 120/7, zur Abgabe eines Ausgangssignals an die nachgeordnete Impulsformerschaltung
130 veranlaßt wird, von denen 14 vorgesehen und mit IPSl bis IPS14 bezeichnet sind. Die
Impulsformer sollen unerwünschte Ausgleichsvorgänge in den Formanten darstellenden Signalen beseitigen.
Am Ausgang der verschiedenen Impulsformer enthalten die Formantsignale sowohl Vokal- als auch
Konsonantenbestandteile.
Es soll nun die Bestimmung der Konsonanten-Merkmale beschrieben werden. Diese Bestimmung geht aus
von der Formantbestimmung durch das in Fig.2a mit
FL bezeichnete System, das auf den Leitungen M1 bis
M14 Formantsignale liefert. Diese Signale werden auf den Abzweigleitungen MIa bis M 13a mit dem
Formantgeber FD der Fig.2c verbunden. Dieser enthält Oder-Schaltungen 370, mit DI bezeichnete
Inverter 390, Und-Schaltungen 375, den Emitterverstärker (EF)' 385 sowie NOÄ-Schaltungen 410. Den
Formantgeber verlassen fünf Ausgangsleitungen FDa, FDb, FDc, FDdund FDe. Diese Ausgänge werden in der
Konsonantenmatrix der Fij. 2d mit den_yier Konsonantenklassen
F- V, F- V,F- Vund F ■ ^kombiniert.
Die vier Konsonantenklassen werden vom Reibelautgeber FVD der Fig.2b gebildet. Sie liegen auf den
Leitungen FO und VO an, welche zwei Eingangsinverter speisen; die Inverter liefern komplementäre
Ausgangssignale auf vier Leitungen Dia, DIb, DIc und
DId an vier Und-Schaltungen 375, deren Ausgänge mit den obengenannten Klassenbezeichnungen versehen
sind. Die Und-Schaltungen des Reibelautgebers FVD haben eine gemeinsame Vorbereitungsleitung Q, die an
einen Konsonantschalter CS angeschlossen ist. Die Charakteristika dieser vier Konsonantklassen wurden
eingangs aufgezählt.
Durch die Kombination der vier Konsonantklassen und der Signale auf den Leitungen M Xa bis M 13a in der
Konsonantenmatrix CMS entstehen auf den mit f, w, v, s, m, z, sh, I1 zh, k, g,j, h, k' und A'bezeichneten Leitungen
Signale.
Hierzu 5 Blatt Zeichnungen
Claims (3)
1. Verfahren zur Konsonantenbestimmung in Sprachsignalen, bei dem das Frequenzspektrum in
mehrere Frequenzbänder zerlegt und das Auftreten von Formanten in den Frequenzbändern bestimmt
wird, dadurch gekennzeichnet, daß für einige Frequenzbänder das Auftreten von stimmhaften
Lauten (V^ und in an sich bekannter Weise auch
das Auftreten von Reibelauten (F) und ferner das Auftreten von Kombinationen dieser Laute ermittelt
wird_(F_i g. 2b), wobei _die diese Kombinationen (F- V: F- V; F- V; F- !^darstellenden Binärsignale
eine Koordinate einer Verknüpfungsmatrix (CMS; Fig. 1, 2d) aus speichernden Elementen ansteuern,
deren andere Koordinate mit Binärsignalen einer bestimmten Anzahl von Formantkombinationen
(FDa, FPb, FDd, FDe), die durch die logische Verknüpfung (Fig.2c) der Formanten aller Frequenzbänder
gebildet werden, angesteuert wird, wobei zur Erzeugung von Ausgangssignalen, die für
die Konsonanten repräsentativ sind, die stimmhaften Laute und Reibelaute und die Formantkombinationen
entsprechend ihrer natürlichen Kombination in der Verknüpfungsmatrix kombiniert werden.
2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1, gekennzeichnet durch eine
Verriegelungsschaltungen (VERR1-Fi g. 2d) mit zwei
Eingängen als Speicherelemente enthaltende Matrix, deren vier Spalten der Minterm aus den beiden
Signalen für stimmhaften Laut (V) und Reibelauf (F) und deren Zeilen durch die logische Verknüpfung
gruppenweise zusammengefaßten Formantsignale aller Frequenzbänder zugeführt werden, wobei der
Ausgang jeder Verriegelungsschaltung einem der Konsonanten fest zugeordnet ist.
3. Anordnung nach Anspruch 2, gekennzeichnet durch eine solche Auslegung, daß die Signale für
stimmhafte Laute aus dem Frequenzband 100 bis 250 Hz und die Signale für Reibelaute aus dem
Frequenzbereich über 4000 Hz gebildet werden.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US427371A US3368039A (en) | 1965-01-22 | 1965-01-22 | Speech analyzer for speech recognition system |
Publications (3)
Publication Number | Publication Date |
---|---|
DE1547027A1 DE1547027A1 (de) | 1969-11-06 |
DE1547027B2 true DE1547027B2 (de) | 1977-08-25 |
DE1547027C3 DE1547027C3 (de) | 1978-04-27 |
Family
ID=23694583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1547027A Expired DE1547027C3 (de) | 1965-01-22 | 1966-01-15 | Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen |
Country Status (7)
Country | Link |
---|---|
US (1) | US3368039A (de) |
BE (1) | BE674341A (de) |
CH (1) | CH441791A (de) |
DE (1) | DE1547027C3 (de) |
FR (1) | FR1466645A (de) |
GB (1) | GB1070247A (de) |
SE (1) | SE342104B (de) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3679830A (en) * | 1970-05-11 | 1972-07-25 | Malcolm R Uffelman | Cohesive zone boundary detector |
US4862503A (en) * | 1988-01-19 | 1989-08-29 | Syracuse University | Voice parameter extractor using oral airflow |
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US8050434B1 (en) | 2006-12-21 | 2011-11-01 | Srs Labs, Inc. | Multi-channel audio enhancement system |
US10546064B2 (en) * | 2014-02-04 | 2020-01-28 | Intelligent Voice Limited | System and method for contextualising a stream of unstructured text representative of spoken word |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2938079A (en) * | 1957-01-29 | 1960-05-24 | James L Flanagan | Spectrum segmentation system for the automatic extraction of formant frequencies from human speech |
US3215934A (en) * | 1960-10-21 | 1965-11-02 | Sylvania Electric Prod | System for quantizing intelligence according to ratio of outputs of adjacent band-pass filters |
US3238303A (en) * | 1962-09-11 | 1966-03-01 | Ibm | Wave analyzing system |
-
1965
- 1965-01-22 US US427371A patent/US3368039A/en not_active Expired - Lifetime
- 1965-12-27 BE BE674341D patent/BE674341A/xx unknown
-
1966
- 1966-01-03 FR FR44581A patent/FR1466645A/fr not_active Expired
- 1966-01-15 DE DE1547027A patent/DE1547027C3/de not_active Expired
- 1966-01-18 GB GB2227/66A patent/GB1070247A/en not_active Expired
- 1966-01-21 CH CH84666A patent/CH441791A/de unknown
- 1966-01-21 SE SE779/66A patent/SE342104B/xx unknown
Also Published As
Publication number | Publication date |
---|---|
GB1070247A (en) | 1967-06-01 |
BE674341A (de) | 1966-04-15 |
DE1547027C3 (de) | 1978-04-27 |
DE1547027A1 (de) | 1969-11-06 |
SE342104B (de) | 1972-01-24 |
US3368039A (en) | 1968-02-06 |
CH441791A (de) | 1967-08-15 |
FR1466645A (fr) | 1967-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0296588B1 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
EP0277613B1 (de) | Verfahren zur Übertragung eines Audiosignals | |
DE2240557A1 (de) | Spracherkennungsvorrichtung zum steuern von maschinen | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE2422028C2 (de) | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort | |
DE2347738A1 (de) | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2357067A1 (de) | Vorrichtung zur sprachanalyse | |
DE69020736T2 (de) | Wellenanalyse. | |
DE1547027C3 (de) | Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen | |
DE1572516A1 (de) | Schaltungsanordnung fuer die Spracherkennung | |
DE1937464C3 (de) | Sprachanalysiergerät | |
DE2021126B2 (de) | Spracherkennungsanordnung | |
DE3025937C2 (de) | Vorrichtung zum Anzeigen von Frequenzspektren von Eingangssignalen | |
DE69025932T2 (de) | Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen | |
DE2720666A1 (de) | Verfahren und anordnung zur geraeuschanalyse | |
DE2431458C2 (de) | Verfahren und Anordnung zur automatischen Sprechererkennung | |
DE1194170B (de) | Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE2357949A1 (de) | Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls | |
DE1189745B (de) | Verfahren zum Identifizieren von Schallereignissen | |
DE1422056A1 (de) | Phonetische Schreibmaschine | |
DE1547029A1 (de) | Spracherkennungsgeraet | |
DE68921292T2 (de) | Sprechererkennungssystem. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
EHJ | Ceased/non-payment of the annual fee |