DE2233591A1 - Analysator fuer ein spracherkennungsgeraet - Google Patents

Analysator fuer ein spracherkennungsgeraet

Info

Publication number
DE2233591A1
DE2233591A1 DE19722233591 DE2233591A DE2233591A1 DE 2233591 A1 DE2233591 A1 DE 2233591A1 DE 19722233591 DE19722233591 DE 19722233591 DE 2233591 A DE2233591 A DE 2233591A DE 2233591 A1 DE2233591 A1 DE 2233591A1
Authority
DE
Germany
Prior art keywords
low
analyzer
quantizers
control circuit
pass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19722233591
Other languages
English (en)
Inventor
Joerg Gonschorek
Ove Hinrichs
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE2150336A external-priority patent/DE2150336B2/de
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19722233591 priority Critical patent/DE2233591A1/de
Publication of DE2233591A1 publication Critical patent/DE2233591A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Analysator für ein Spracherkennungsgerät.
  • (Zusatz zu Patent . ... (P 21 50 336.6) ) Die Erfindung betrifft einen Analysator zur Bestimmung der in diskrete Wertebereiche quanbisierten Komponenten eines ein Sprachsignal charakterisierenden Merkmal-Vektors für ein Spracherkennungsgerät mit einer Filterbank, nachgeschalteten Verstärkern mit Gleichrichter und Tiefpaß, einer Steuerschaltung und Quantisierern.
  • Jedes Spracherkennungsgerät kann in einem allgemeinen Blockschaltbild in einen Analysator A und einen Klassifikator K unterteilt werden, wie Fig. 1 zeigt. Der Analysator A untersucht das Sprachsignal a hinsichtlich der durch den tonstrikteur des Spracherkennungsgerätes festgelegten Merkmale und bestimmt so die Komponenten eines Merkmal-Vektor b, der das Sprachsignál a charakterisiert. Der Klassifikator K ordnet den Merkmal-Vektor b nach einer Entscheidungsregel einer Bedeutungsklasse c zu.
  • Fig. 2 zeigt ein Blockschaltbild des Analysators 1 mit zehn Kanälen. Er enthält eine Höhenanhebung H, einen Leistungsverstärker LV, eine Filterbank P mit zehn Bandpässen F1 bis F10, eine Schaltung S mit zehn Verstärkern mit Gleichrichtern und Tiefpässen Si. bis S10, eine Schaltung VG mit zehn Vergleichsschaltungen V1 bis Val 0, einen Speicher Sp und einen Taktgenerator TG.
  • Die Bandbreite der Filter beträgt für alle zehn Kanäle konstant 180 mel. Die Filterbank F und die Schaltung S liefern näherungsweise das Kurzzeit-Leistungsdichtespektrum des Sprachsignals a. Die Integrationszeit wird durch die Tiefpässe bestimmt und iat für die einzelnen Kanäle unterschiedlich eingestellt.
  • Sie beträgt maximal 16 ms bei tiefen Prequenz-en (200 bis 390 Hz) und dann abnehmend bis auf 0,7 ms bei hohen Frequenzen (4,6 bis 6,6 kHz).
  • Jeder Tiefpaß liefert ein kontinuierliches Ausgangssignal vj(t) mit vj(t) - 0,1 j <- 10. Dieses Signal wird in der jeweils folgenden Vergleichsschaltung VG1 bis VG10 mit einem für alle zehn Kanäle gleich eingestellten Schwellenwert verglichen. Sobald die Tiefpaß-Ausgangsspannung v.(t) den Scnwellenwert überschreitet; wird in die dem Kanal zugehörige erste Speicherzelle der Wert "1" eingeschrieben.
  • Vor Beginn der Analyse werden alle Speicherzellen auf den Wert "0" gesetzt. Mit diesem Verfahren werden ausgeprägte Maxima im Kurzzeit-Leistungsdichtespektrum festgestellt und notiert. Allerdings wird nur das erstmalige Überschreiten des Schwellenweries durch eine Tiefpaß-Ausgangsspannung vj(t) registriert. Wird der Schwellenwert von einer Tiefpaß-Ausgangsspannung v.(t) wiederholt überschritten, so J führt dies nicht zu einer Veränderung des Inhaltes der zugehörigen Speicherzelle.
  • Ducrch den Taktgenerator TG wird das Sprachsignal a in Zeitbereiche unterteilt, in denen jeweils die beschriebene Analyse durchteführt wird. Am Ende eines Zeitbereiches werden die bisher gewonnenen Analyse-Informationen im Speicher Sp um eine Spalte nach rechts verschoben und die Speicherzellen 1 bis 10 der ersten Spalte wieder auf den Wert "0" gesetzt, so daß diese Speicherzellen bereit sind, die Analyse-Information des folgenden Zeitbereiches aufzunehmen.
  • Im Hauptpatent ist ein Spracherkennungsgerät beschrieben, bei dem die Merkmal-Vektoren b von der Lautstärke unabhängig sind. Dies wird durch eine Schwellenschaltung erreicht, die die Schwelle der Vergleichsschaltungen VGl bis VG10 in Abhängigkeit von den Tiefpaß-Ausgangsspannungen steuert.
  • Diese Vergleichsschaltungen stellen Quantisierer einfachster Form dar, die eine Quantisierung mit einem Bit ermöglichen.
  • Dadurch wird das gemessene Eurzeit-Leistungsdichtespektrum des Sprachsignals a nur grob wiedergegeben.
  • Aufgabe der Erfindung ist es, demgegenüber eine feinere Darstellung zu realisieren.
  • Ausgehend von einem Analysator der einleitend geschilderten Art wird diese Aufgabe erfindungsgemäß dadurch gelöst, daß Quantisierer zur Erzeugung von jeweils n Bits (n=2,3, ...) mittels einer Treppen-Kennlinie und eine Steuerschaltung zur Erzeugung von 2n-1 Vergleichsspannungen qi(t) vorgesehen sind, die die Stufenhöhen der Treppen-Kennlinie in Abhängigkeit von den Tiefpaß-Ausgangsspannungen v.(t) steuern.
  • Diese Steuerschaltung tritt an die Stelle der Schwellenschaltung der Anordnung nach dem Hauptpaent.
  • Für die praktische Ausführung des Erfindungsgegenstandes ist es vorteilhaft, wenn eine Steuerschaltung (St) vorgesehen ist, die die Vergleichsspannungen qi(t) aus den Tiefpaß-
    Ausgangsspannungen v.(t) nach der Beziehung
    (1i(t) = ki(3r Vå(t) +
    bildet, wobei k. eine Gruppe erster Konstanten und vO eine zweite Konstante darstellt.
  • Dabei ist es vorteilhaft, wenn die ersten Konstanten k.
  • mit zunehmendem Index größer und derart gewählt sind, daß die Merkmal-Vaktoren b das gesprochene Wort ausreichend charakterisieren.
  • Vorteilhaft ist es schließlich, wenn die zweite Konstante vO derart gewählt ist, daß bei fehlendem Sprachsignal a alle Ausgänge der Quantisierer den Binärzustand "O" aufweisen.
  • Anhand eines Ausführungsbeispiels wird die Erfindung nachstehend näher-erläutert.
  • Fig. 3 zeigt einen Teil des Analysators A für eine zweistufige Quantisierung mit der Filterbank F, enthaltend die Bandpässen y 10, mit der Schaltung S, enthaltend Verstärker mit Gleichrichter und Tiefpaß S1-S10, mit einer Steuerschaltung St und mit Quantisierern Ql-Q10.
  • Die Wirkungsweise der Anordnung nach Fig. 3 ist folgende: Das in der Höhe angehobene und verstärkte Spiachkanal a' wird den Eingängen der zehn Bandpässen P1 bis P10 zugeführt.
  • Am Ausgang jedes Bandpasses Fl bis F10 erscheint der Teil des Sprachsignals a', der den Durohlaßbereich des Bandpasses passieren konnte. Das Ausgangssignal jedes Bandpasses wird verstärkt, gleichgerichtet und über einen Tiefpaß abgegeben.
  • Die Tiefpaß-Ausgangsspannungen v1(t) bis v10(t) sind ein paß für die momentane Leistung in den einzelnen Filterbereichen, während ihre Summe ein Naß für den Sprachsignalpegel ist.
  • Die Tiefpaß-Ausgangsspannungen v1(t) bis v10(t) werden in den Quantisierern Q1-Q10 mit den Vergleichsspannungen q1(t), q2(t) und q3(t) verglichen, die in der Steuerschaltung St aus dem Tiefpaß-Ausgangsspannungen v1(t) bis v10(t) abgeleitet wurden.
  • Fig. 4 zeigt die Treppen-Kennlinie T der Quantisierer Ql-QlO.
  • Auf der Abszissenachse sind die variablen Yergleichsspannungen aufgezeichnet. An der Ordinate sind die zugehörigen Binärzustunde aufgezeichnet, die an den beiden Ausgängen der Quantisierer Q1-Q10 auftreten.
  • Eine selbsttätige Anpassung an die Lautstärke erfolgt im Analysator dann, wenn die Gleichung erfüllt ist. Die Grössen ki sind so zu wählen, daß die' Merkmal-Vektoren b das gesprochene Wort ausreichend charakterisieren.
  • Es muß gelten k1 k2 < k3. Die Konstante vO ist so zu wählen, daß bei fehlendem Sprachsignal alle Ausgänge der Quantisierer den Wert Null haben.
  • 4 Patentansprüche 4 Figuren

Claims (4)

P a t e n t a n s p r ü c h e .
1. Analysator zur Bestimmung der in diskrete Wertebereiche quantisierten Komponenten eines ein Sprachsignal charakterisierenden M.erkmal-Vektors für ein Spracherkennungsgerät mit einer Filterbank, nachgeschalteten Verstärkern mit Gleichrichter und Tiefpaß, einer Steuerschaltung und Quantisierern, nach Patent . ... ... (P 21 50 336.6), d a d u r c h g e k e n n z e i c h n e t , daß Quantisierer (Ql?' bis QlO) zur Erzeugung von jeweils n Bits (n=2, 3, ...) mittels einer Treppen-Kennlinie (T) und eine Steuerschaltung (St) zur Erzeugung von 2n-1 Vergleichsspannungen (q1(t) vorgesehen sind, die die Stufenhöhen der Preppen-Kennlinie (T))in Abhängigkeit von den Tiefpaß-Ausgangsspannungen (Vj (t) ) steuern.
2. Analysator nach Anspruch 1, d a d u r c h g e k e n n -z e i c h n e t , daß eine Steuerschaltung (St) vorgesehen ist, die die Vergleichsspannungen (qi (t) ) aus den Tiefpaß-AusgangssDannungen (vå(t) ) nach der Beziehung bildet, wobei ki eine Gruppe erster Konstanten und v0 eine zweite Konstante darstellt.
3. Analysator nach Anspruch 2, d a d u r c h g e k e n n -z e i c h ne t , daß die ersten Konstanten (ki) mit zunehmenden Index größer und derart gewählt sind, daß die Merkmal-Vektoren (b) das gesprochene Wort ausreichend charakterisieren.
4. Analysator nach Anspruch 2 oder 3, d a d u r c h g e k e n n z e i c h n e t , daß die zweite Konstante (vO) derart gewählt ist, daß bei fehlendem Sprachsignal (a) alle Ausgänge der Quantisierer (Ql bis Q10) den Binärzustand "O" aufweisen.
DE19722233591 1971-10-08 1972-07-07 Analysator fuer ein spracherkennungsgeraet Ceased DE2233591A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19722233591 DE2233591A1 (de) 1971-10-08 1972-07-07 Analysator fuer ein spracherkennungsgeraet

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE2150336A DE2150336B2 (de) 1971-10-08 1971-10-08 Analysator fuer ein spracherkennungsgeraet
DE19722233591 DE2233591A1 (de) 1971-10-08 1972-07-07 Analysator fuer ein spracherkennungsgeraet

Publications (1)

Publication Number Publication Date
DE2233591A1 true DE2233591A1 (de) 1974-01-24

Family

ID=5850062

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19722233591 Ceased DE2233591A1 (de) 1971-10-08 1972-07-07 Analysator fuer ein spracherkennungsgeraet

Country Status (1)

Country Link
DE (1) DE2233591A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2649259A1 (de) * 1976-10-29 1978-05-03 Tekade Felten & Guilleaume Verfahren zur automatischen verarbeitung von gestoerter telefonsprache

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2649259A1 (de) * 1976-10-29 1978-05-03 Tekade Felten & Guilleaume Verfahren zur automatischen verarbeitung von gestoerter telefonsprache

Similar Documents

Publication Publication Date Title
DE102004036154B3 (de) Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE3802903A1 (de) Einrichtung zur uebertragung von sprache
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE2406258B1 (de) Schaltung zur automatischen Dynamik-Kompression oder -Expansion
DE2021126C3 (de) Spracherkennungs anordnung
DE820022C (de) Elektrische Amplituden-Kompressionseinrichtung
DE2233591A1 (de) Analysator fuer ein spracherkennungsgeraet
US3238301A (en) Sound actuated devices
DE1937464A1 (de) Sprachanalysiergeraet
EP0035761A2 (de) Verfahren zum Betrieb eines Spracherkennungsgerätes
DE3025627A1 (de) Vorrichtung und system zur aufzeichnung von tonfrequenzsignalen auf einem magnetischen aufzeichnungstraeger
EP1048025A1 (de) Verfahren zur instrumentellen sprachqualitätsbestimmung
US3838217A (en) Amplitude regulator means for separating frequency variations and amplitude variations of electrical signals
DE2150336A1 (de) Analysator fuer ein spracherkennungsgeraet
DE2517024C3 (de) Schaltungsanordnung für einen Signalempfänger zum Sperren von Signalen, deren Pegel schwankt
DE2906192C2 (de)
DE2904426A1 (de) Analog-sprach-codierer und decodierer
EP0527535A2 (de) Anordnung zur Sprachübertragung
DE1187273B (de) Verfahren und Anordnung zur digitalen Codierung und Speicherung akustischer Informationen und zur Erzeugung synthetischer Sprache entsprechend den gespeicherten Informationen
DE1276740B (de) Verfahren und Anordnungen zur Verbesserung der Sprachqualitaet von Kanalvocodern
DE956696C (de) Einrichtung zur Expansion von Signalen mit einem zwischen ihrem Eingang und ihrem Ausgang liegenden Dynamikregler
DE2024963C3 (de) Schaltungsanordnung für eine Übertragungsanlage mit Puls-Code-Modulation
DE1151284B (de) Frequenzanalysator zum Ermitteln des Verlaufes einer in einem Sprechfrequenz-teilband liegenden kennzeichnenden Sprechfrequenz
DE702021C (de) ehens eines Kruemmungshalbmessers bei der elektrischen Schallaufzeichnung, der kleiner oder gleich dem Kruemmungshalbmesser des Schneidstiftes oder des zu erwartenden Wiedergabestiftes ist

Legal Events

Date Code Title Description
8131 Rejection