DE2326517A1 - Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern - Google Patents

Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern

Info

Publication number
DE2326517A1
DE2326517A1 DE2326517A DE2326517A DE2326517A1 DE 2326517 A1 DE2326517 A1 DE 2326517A1 DE 2326517 A DE2326517 A DE 2326517A DE 2326517 A DE2326517 A DE 2326517A DE 2326517 A1 DE2326517 A1 DE 2326517A1
Authority
DE
Germany
Prior art keywords
signals
word
frequency
words
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE2326517A
Other languages
English (en)
Inventor
Genung Clapper
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2326517A1 publication Critical patent/DE2326517A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Description

Verfahren und Schaltungsanordnung zum Erkennen von gesprochenen Wörtern
Die Erfindung betrifft ein ¥erfahren und eine Schaltungsanordnung, die zusammengesogen oder getrennt ausgesprochene Wörter erkennen kann. Dies beruht auf der Verknüpfung -von Lauten im eingeschtran-" genen Zustand, die ein Sprecher bei der Aussprache eines Wortes hervorbringt, für das eiae bestimmte Anordnung von Lauten im ein-
geschwungenen Zustand zuvor in einer Lernphase eingespeichert worden waro Geräte für die automatische Worterkennung müssen irgendeine Form der Sprachanalyse benutzen„ Eiae solche Sprachanalyse arbeitet mit eimern Lautspektrographexi, der ein sichtbares Bild der Resonanzen des Stimmbereichs erzeugt, welche eine Energieverteilung in dem Frequenzbereich liefert, die als Formanten bekannt sind und zur Sprachanalyse und »synthese benutzt wurden. Mit diesem Hilfsmittel wurden die Formanten in der Sprache isoliert„ die zur Erzeugung einer erkennbaren Sprache benutzt werden können· Dadurch x-iird offensichtlich„ daß ,die wichtigen informationsträchtigen Elemente tt zumindest vom Standpunkt
des menschlichen Hörens aus, in Kombinationen eindeutiger Formant en liegen.
Mit einem handelsüblichen Frequenzspektrumanalysator, als Sonograph bekannt, kann eine sichtbare Reproduktion (Sonogramm) der Verteilung von Schallenergie als Funktion der Frequenz, der Zeit und Intensität hergestellt werden.
Das Gerät ist sehr nützlich zur Bestimmung eigenartiger Kehlkopflaute, der Frequenz/Energieverteilung und der Modulationscharakteristik eines bestimmten Sprechers. Unglücklicherweise enthält das Schallspektrogramm oder Sonogramm eine solche Unmenge von Information, daß in seinem Verlauf viele verwirrende Einzelheiten vorhanden sind, so daß das geschulte Auge bestimmte dominierende Merkmale zur weiteren Analyse auswählen muß. In neuerer Zeit wurden Datenverarbeitungsanlagen so programmiert, daß sie spektrographische Information direkt aus einem akustischen Signal erstellen. Wie das Sonogramm, liefert dieses Verfahren jedoch mehr Einzelinformation, als für die Erkennung einzelner Wörter notwendig oder auch nur leicht nutzbar ist.
Um die zur Analyse benutzte Informationsmenge zu reduzieren, wurden von verschiedenen Forschern die Unterbrechungen oder die abrupten. Frequenzübergangspunkte im Spektrogramm als Hauptmerkmale für die Analyse benutzt. Während bisher ein gewisser Erfolgsgrad durch Benutzung dieser Übergangspunkte in einem gesprochenen Wort als Erkennungsmerkmal erreicht wurde, werfen Änderungen in der individuellen Aussprache ein- und desselben Wortes ein großes Problem bei der Erkennung dieses Wortes auf, wenn von mehreren Sprechern gesprochen wird. Umfangreiche Speicher- und Vergleichseinrichtungen waren allgemein exforderlich, um die Verschiedenheit der Übergangsfolgen zusammenzufassen und zu vergleichen, um das gleiche Wort wirksam erkennen zu können, wenn es von verschiedenen Sprechern gesprochen wird.
309849/0998
RA 9-71-031
Noch größere Probleme entstehen bei der Erkennung von zusammengezogen gesprochenen Wörtern, weil die Wortgrenzen nicht eindeutig feststellbar sind und oft auch Verschleifungen vorkommen, in denen das nächste Wort schon begonnen wird, bevor das vorhergehende fertiggesprochen ist. Abhängig vom Zusammenhang , in welchem es benutzt wird, liefert ein bestimmtes gesprochenes Wort auch unterschiedliche akustische Signale. Die leichten Unterschiede in der Aussprache, die der Sprecher zum Ausdruck verschiedener Gefühle, unterschiedlicher Bedeutung oder anderer Grade der Betonung machterzeugen unterschiedliche akustische Signale auch für dasselbe Wort. Dieses Problem führte verschiedene Forscher dazu, nicht die Erkennung eines Wortes als solches, sondern die Erkennung einer kleineren Grundeinheit, wie z.B. einer Silbe oder eines Phonems, anzustreben. Die Erkennung--kleinerer Einheiten erfordert jedoch die nachfolgende Verbindung solcher Untereinheiten zu Wörtern= Diese bisher bekannte Technik fordert eine sehr leistungsfähige Datenverarbeitungsanlage zum Vergleich solcher Verknüpfungen mit gespeicherten Mustern zur Identifizierung eines Wortes.
Die Aufgabe der vorliegenden Erfindung besteht also in.der Schaffung eines verbesserten Spraeherkennungssystemes, das eine relativ kleine Bibliothek idealisierter, im eingesehwungenen Zustand befindlicher Laute benutzt t um damit entweder· einzeln oder zusammengezogen gesprochene Wörter zu erkennen. Das System soll so an die Eigenarten einer bestimmten Person anpaßbar sein, daß von dieser Person gesprochene Worte erkennbar sindο
Diese der Erfindung zugrunde liegende Aufgabe wird durch ein Verfahren zum automatischen Erkennen von gesprochenen Wörtern gelöst, bei dem in voller Bandbreite vorliegende und elektronisch verstärkte Sprachsignale zur Frequenzanalyse in einem Analysator in eine Anzahl frequenzmäßig benachbarter Teilfrequenzbereiche unterteilt werden und das.sich durch folgende
309849/0996
RA 9-71-031
Verfahrensschritte auszeichnet:
Periodisches Abtasten der Momentanwerte der eingeschwungenen Signale in den Teilfreguenzbereichen zur Feststellung, welches der Signale oberhalb eines gleitenden Sehwellwertes liegt.,
zeitweiliges Einspeichern von Mustern von Signalen, die eine Information darüber darstellen, welches der abgetasteten Ausgangssignale des Analysators oberhalb bzw. unterhalb des Schwellwertes liegt.
Vergleichen der so zeitweise gespeicherten Signalmuster mit vorher in einem Speicher eingespeicherten Signalmustern und Bestimmen der weitestgehenden Übereinstimmung zwischen den zum Vergleich stehenden Mustern,
Anzeigen des Vergleichsergebhisses für jeden solchen Vergleich zweier Signalmuster und
sequentielles Abspeichern dieser Signale als Uniphone als codierte Form der abgetasteten eingeschwungenen Sprachsignale und umwandeln von Folgen solcher sequentiell gespeicherter codierter Uniphone in Wörter durch eine entsprechende Umwandlungseinrichtung zur Identifizierung der gesprochenen Wörter.
Ein Äusführungsbeispiel der Erfindung ist in den Zeichnungen dargestellt und wird anschließend näher beschrieben. Es zeigen:
Fig. 1 schematisch die gesamte Anordnung zur Worterkennung; Fig. 2 schematisch einen in der in Fig. 1 gezeigten Anordnung benutzten Sprachanalysator;
Fig. 3 eine die Ausgangssignale des in Fig. 2 gezeigten Sprachanalysators benutzende Auswahlschaltung, die mögliche Uniphonsignale zum Vergleich und zur Identifizierung erzeugt;
309849/0996
RA 9-71-031
Pig. 4 schematisch einen sprachgesteuerten Taktgeber zur Erzeugung von Synchronisationsimpulsen für die Register und die Steuerung der Arbeitsweise der Gesamtanlage;
Fig. 5 schematisch ein gesteuertes Schieberegister? das Merkmalfolgen zum Vergleich und zur Identifizierung von Uniphonen an eine Speicherschaltung abgibt?
Fig. 6 schematisch einen in dem Äusführungsbeispiel der Erfindung benutzten Speicher zum Speichern und Vergleichen der Merkmale eines personalisierten Satzes von uniphonen für einen bestimmten Sprecher?
Fig. 7 ein Schieberegister s in dem identifizierte Uniphone in Wortfolgen für die Weitergabe an Worterkennungs— schaltungen festgehalten werdenι *
Fig. 8 schematisch eine im Äusführungsbeispiel benutzte Schaltung zur Worterkennung und binären Codierung?
Figo 9 die Rückstell-Verriegelungsschaltungen und das Äusgaberegisterg
Fig= IOä und 1OB weitere Verriegelungsschaltungen und Steuerungen im einzelnen?
Fig. 11 eine Schalttafel für die Uniphon-Folge-Wortbibliöthek und
Fig. 1-2 eine willkürlich, gewählt® ünipa.onbi&liot!ielt von Lauten eines hypothetischen SprecfierSo
Das. Gesamtblockschaltbild der Figo 1 zeigt die gesamte Wort— erkemrangsschaltung der Erfindung» In das Mikrofon 1 gesprochene Wörter werden -in elektrische Signale umgewandelt Q
BA 9-71-Ό31
die verstärkt und dann ±n einer Reihe frequenzmäßig benachbarter, aneinander anschließender Bandpaßfilter im Sprachanalysator 2 analysiert werden. Die von den Filtern kommenden Ausgangssignale werden gleichgerichtet und weiter gefiltert zur Erzeugung verschiedener Gleichstromsignale an den Ausgängen des Sprachanalysators 2. Die Ausgangssignale des Sprachanalysators 2 stellen die Signalpegel dar, die durch das Ansprechverhalten der Sprachbereiche des jeweiligen Sprechers bei Aussprache eines gegebenen Wortes oder Tones über dem gesamten durch die Bandpaßfilter im Analysator 2 erfaßten Frequenzspektrum erzeugt werden. Durch jedes Filter wird ein gesondertes Ausgangssignal erzeugt, das der Energieverteilung in dem von dem betreffenden Filter durchgelassenen Teilfrequenzbereich oder Frequenzbandes entspricht»
Die Merkmalauswahlschaltungen 3 identifizieren hervorstechende Merkmale oder Pole der Energiekonzentration innerhalb der Einhüllenden des Frequenzspektrums, die als Spannungssignale am Ausgang des Sprachanalysators 2 auftreten« Die Merkmalauswahlschaltungen 3 sind mit selbstregelnden Schwellwert- und Impulsformeirstufen ausgerüstet, die gut geformte Rechteckimpulse mit einer Standardamplitude als Eingangssignale für das Merkmalschieberegister 4 erzeugen» Durch, die Merkmal— auswahlschaltungen 3 werden nur diejenigen Signale von verschiedenen Bandpaßfiltern zur vorübergehenden Speicherung als ausgewählte Merkmale des analysierten Klanges weitergeleitet, die die selbstregelnden Schwel!werte überschreiten= Ώα Merkmalschieberegister 4 werden die so identif!gierten Merkmale vorübergehend zur bildlichen Darstellung auf dem Bildanzeigegerät 5 gespeichert. Diese Merkmale bilden ein mögliches Uniphon als einer Folge von Einsen und Nullen, die darstellen, wann ein- Ausgangssignal der Merkmal-Auswahlschaltung unterhalb oder oberhalb eines vorgegebenen Schwellwertes liegt. Während der Anpassung der Anlage an einen bestimmten Sprecher wird die Anwesenheit dieser eindeutigen Folge von Einsen und Nullen im Schieberegister 4 dazu be-
9-71-031· 30984'9/0996
nutzt, einen Taktgeber solange anzuhalten, bis die Folge von Einsen und Nullen in einen Adaptivspeicher 6 eingegeben ist. Der Adaptivspeicher 6 umfaßt eine Anzahl von Speichereinheiten, die als elektronische Schablonen bekannt sind. Diese Einheiten sind genauer beschrieben dm lEEE-Spektrum vom August 1971, Seiten 57 bis 69, sowie in der US-Patentschrift Nr. 3539994.
Während der Lernphase der Maschine spricht ein Sprecher eine ausgewählte Liste von Wörtern, aus welcher dann die gewünschten Laute zur willkürlichen Klassifizierung in 10 Konsonanten- und 10 Vokalkategorien erfolgt, die den Satz der Uniphone eines gegebenen Sprechers bilden. In diesem Beispielsatz sind nur 20 uniphone verwendet worden, bei Bedarf kann jedoch auch ein erweiterter Satz Uniphone verwendet werden, um den Erkennungsgrad des Systems zu erhöhen. Diese Uniphone werden in elektronischen Schablonen eines Adaptivspeichers 6 gespeichert.
Während der ersten Vokalerkennung beim Aufbau der Bibliothek werden gesprochene Wörter zur späteren Analyse zuerst im Sprachanalysator 2 analysiert, die herausragenden Merkmale werden durch Merkmalauswahlschaltungen 3 ermittelt und im Merkmalschieberegister 4 gespeichert, von wo aus sie mit dem Inhalt des adaptiven Speichers zur Identifizierung des Uniphongehaltes eines zu analysierenden Wortes verglichen werden können. Die aus dem Adaptivspeicher 6 kommenden Folgen erkannter Uniphone werden vorübergehend im Uniphonschieberegister 7 zur Darstellung auf einer Anzeigevorrichtung 8 gespeichert. Dann kann damit eine Wortbibliothek bestimmter zu erkennender Wörter durch Verbindung identifizierter Uniphonfolgen mit zugeordneten Wortdetektoren aufgebaut werden. Dazu wird eine Einrichtung, wie z.B. eine Schalttafel oder ein gleichwertiger digitaler Speicher, benutzt, so daß die Erzeugung einer gegebenen Folge von Uniphonen ein Signal erregt, das ein gegebenes Wort in der Worterkennungs— und Codiereinrichtung 10 bezeichnet. Während des automatischen Betriebes des Systems ergeben in das Mikrofon gesprochene
RA 9-71-031 . 3-0 9849/0 996
Wörter Uniphonfolgen, die im Adaptivspeicher 6 erkannt, im Schieberegister 7 vorübergehend gespeichert und wahlweise durch, die Schalttafel 9 mit der Worterkennungs— und Codiereinrichtung 10 verbunden werden können. In der Worterkennungsund Codiereinrichtung 10 werden Wörter erkannt und mit einem Wörtcode zum Speichern im Ausgabeschieberegister 11 codiert, wo sie zur überprüfung vor der Benutzung zur Verfügung gestellt werden können.
Aus dieser kurzen Beschreibung ist zu ersehen, daß ein gegebenes Wort, das mittels bekannter Codierverfahren bisher zu Zehn— tausenden den gesamten Frequenzgehalt des Wortes darstellenden Bits codiert werden könnte, schließlich als gültiges Codesignal mit wesentlich weniger Bits am Ausgang des Worterkennungssystems auftreten kann. Herkömmliche Erkennungssysteme basierten auf ganzen Wortmustern und müssen notwendigerweise einen um einige Größenordnungen größeren Speicher haben, um die Wortrauster zu speichern, als ein System, welches auf der Speicherung einer kleinen Anzahl von grundlegenden Sprachmerkmalen aufbaut. Ein großer Vorteil der Erfindung besteht darin, daß erkannte Wörter zur Übertragung digitalisiert und die Anzahl der zur Übertragung erforderlichen Bits um einige Größenordnungen verringert werden kann. Weiterhin können auf diese Weise codierte Wörter während der übertragung vor unberechtigter Erkennung und Abfrage geschützt werden, da jede beliebige Codierung für die Übertragung eines gegebenen Wortes unter der Voraussetzung, verwendet werden kann, daß die Codierung an beiden Seiten des übertragungssystemes bekannt ist. Außerdem kann die Sprachübersetzung leicht angepaßt werden. Wenn ein Wort einmal richtig erkannt und digitalisiert ist, kann man das im Speicher befindliche digitalisierte Worteinfach in einer anderen Sprache ausgeben. Gesprochene Wörter können außerdem in gedruckte Wörter umgesetzt werden, indem man einfach einen Drucker oder ein Sichtanzeigegerät mit der codierten digitalisierten Darstellung eines Wortes ansteuert.
3 0 9 8 4 9/0996
RA 9-71-031
In dem Gesamtsehaltbild der Fig. 1 werden die Funktionen der anderen oben beschriebenen Hauptblocks durch einen sprachgesteuerten Taktgeber 12 und Verriegelungsschaltungen 13 miteinander verbunden und koordiniert. Diese Teile werden anschließend genauer beschrieben.
Fig. 2 zeigt den Sprachanalysator 2 der Fig«, I schematisch dargestellt. Der Analysator 2 arbeitet mit einer Bank relativ breitbandiger Filter, um die vom Mikrofon 1 kommenden Signale über einen Teil des Frequenzbereiches zu analysieren.
Das vom Mikrofon kommende akustische Signal wird im Vorverstärker 14 verstärkt^ dessen Ausgangssignal dann durch den logarithmischen Verstärker 15 normalisiert wird. Diese Verstärker sind in ihrer Art allgemein bekannt und können mit einer nichtlinearen Diodenkennlinie ausgelegt werden. Die im Ausführungsbeispiel verwendeten Verstärker haben eine Einheitsverstärkung für die Eingangssignale mit 5 Volt Spitze= Signale mit niedrigeren Amplituden werden verstärktwährend Signale mit höheren Amplituden gedämpft werden. Der logarithmische Verstärker 15 wird zwischen den Vorverstärker 14 und einer gemeinsamen Treiberstufe 23 eingeschaltet t wo er in einem niedrigeren Signalbereieh von O7I bis 1„Q Volt arbeitet, um die am unteren Ende liegenden Signale auf einen brauchbaren Pegel zu verstärken= Andere logarithmische Verstärker 16 bis 22 sind an den Ausgängen der Frequenzwähler 25 bis 31 angeschlossen und reduzieren die Ausgangssignale deren Spitzenamplitude über 5 Volt liegt» Ein Bereich der Eingangssignale von Qj7I bis 10 Volt wird durch jeden Verstärker zusammengedrückto Dadurch wird der dynamische Bereich, in,dem'der Verstärker arbeiten muß r von 100si auf 22si reduziert.
Das Ausgangssignal des Frequenzwählers 24 hat einen relativ konstanten Wert Spitse/Spitze und liefert SignalSchwankungen auf der Ausgangsleituag Al, die keinen logarithmischen Ver=ä
RA 9-71-031
stärker brauchen. Eingangsdämpfungsglieder sind in allen Frequenzwählern 24 bis 31 eingebaut, die diese auf. einen negativen Amplitudenanstieg von 3 db pro Oktave mit zunehmender Frequenz einstellen, was eine Eigenart der menschlichen Spracherzeugung ist. Der Einfachheit halber sind diese Dämpfungsglieder nicht dargestellt, sie können jedoch Potentiometer sein.
Ein manuelles Empfindlichkeits-Einstellglied 230 wird so eingestellt, daß die vom Mikrofon 1 aufgenommenen Raumstörgeräusche unterdrückt werden. Iri einer gestörten Umgebung neigt der Sprecher naturgemäß dazu, lauter zu sprechen, und unter diesen Umständen wird daher die Empfindlichkeit herabgesetzt. Eine Empfindlichkeits-Rückstellverriegelung 33 reduziert die Empfindlichkeit außerdem während der Rückstellung, Eine Sprache-Anzeigelampe 34· oder eine andere ähnliche Anzeige ist während der Rückstelloperation ausgeschaltet und wird mit einer Zeitverzögerungr die durch die am Eingang des Inverters 35 vorgesehene Kondensator-Widerstandskombination bestimmt ist, wieder eingeschaltet, um sicherzustellen, daß die Verstärkung des Vorverstärkers 14 wieder.in den Normalzustand zurückgekehrt ist, bevor die Anzeigelampe 34 wieder aufleuchtet.
Auf den:Ausgangsleitungen Al bis A8 auftretende Signale stellen, momentan genommen, verschiedene Gleichspannungspegel dar. Sie werden in einem ODER-Glied 36 gemischt und liefern ein Signal zum Start des sprachgesteuerten Taktgebers 12 auf der Leitung 37« Dieses Signal dient auch als Eingangssignal für Steigungs-Detektor und Verriegelungsschaltung 38, die in der US-Patentschrift Nr. 3236947 näher besehrieben ist und einen Spraeh-'^toß" anzeigt«. Ein solcher Sprachstoß ist definiert als ein plötzlicher Intensitätsansta.eg, der einem Endkonsonanten folgt. Eine Verriegelung in,der Verriegelungsschaltung 38 wird eingeschaltet, bis sie durch den nächsten Taktimpuls von dem sprachgesteuerten Takfc-
309849/0998
RA■9-71-031'
geber 12 über den Differentialimpulsgenerator 39 wieder ausgeschaltet wird. Ein Inverter 40 stellt Spannungspegel ein und erzeugt die richtige Phase für das Arbeitsschieberegister 41, das die Phase der Verriegelungsschaltuhg anzeigt und vorübergehend speichert. Die Ausgangsleitungen Al bis Ά8 sind mit den Merkmalauswahlschaltungen 3 verbunden.
Die Frequenzauswahlbereiche der Frequenzwähler 24 bis 31 sind so ausgelegt, daß sie ein Frequenzspektrum von 0,1 Hz bis 10 kHz optimal überdecken. Nach Darstellung in Fig. 2 erfaßt der Breitbandfrequenzwähler 24 den Bereich von 4 kHz bis 1OkHz, der die,hochfrequente Störenergie von Reib- und einigen Zischlauten enthält. Dieser Wähler benutzt ein Tiefpaßfilter und einen Differentialverstärker, um eine breite Hochpaßfilterwirkung mit einem scharfen Abfall bei 4 kHz zu erzielen. Der nächste Wähler 25 ist ein mäßig breites Bandpaßfilter üblicher Bauart, das den Frequenzbereich von 2,7 bis 4,1 kHz überdeckt. In diesem Bereich ist die Storenergie von Zischlauten am stärksten konzentriert. Die übrigen Frequenzwähler haben Frequenzbereiche, die ungefähr gleichen Abstand haben, wenn sie in einem logarithmischen Frequenzmaßstab aufgezeichnet werden, so daß die überdeckten Bereiche dichter in der unteren Hälfte des analysierten Spektrums zusammengedrängt sind. Sieben der acht Wähler überdecken das Frequenzspektrum von 0,1 .kHz bis 4,1 kHz. Der Einfachheit halber sind in Fig. 2 verschiedene derartige Zwischenwähler (27 bis 29) und Verstärker (18 bis 20) weggelassen. Der unterste Frequenzbereich von 0,1 bis 0,41 kHz wird vom Frequenzwähler 31 überdeckt, der als Bandpaßfilter eine breite Durchlaßkurve hat, die die Sprach-Grundschwingungen von männlichen und weiblichen Sprechern umfaßt.
Das Frequenzspektrum ist in Frequenzbänder unterteilt, die breit genug sind, um die harmonische Feinlinienstruktur zu entfernen, die in einem Sonogramm der normalen menschlichen Stimme auftritt. Die von den Wählern 24 bis 31 kommenden
PA9-7X-O3X 309849/0996
Frequenzwähler-Ausgangssignale werden gleichgerichtet und geglättet, um die Umhüllende des Eingangssignales zu ermitteln. Eine Kurzzeit-Integration des Signales wird beim Durchlauf durch jedes Bandpaßfilter erzeugt, und die Ausgangssignale der Tiefpaßfilter sind somit langsam sich ändernde. Gleichspannungspegel, deren Amplituden zu einem gegebenen Zeitpunkt der Einhüllenden des Eingängssignales entsprechen. Die eingangseitige Einstellung der Dämpfung kompensiert den negativen 3db-Anstieg des AmplitudenVerlaufs der normalen menschlichen Stimme. Die Ausgangssignale Al bis A8 des Sprachanalysators stellen frequenzquantisierte Amplitudenwerte der Einhüllenden dar, die die Änderungen der Stimmresonanζ-Hohlräume eines Sprechers in Echtzeit beschreiben.
Die Ausgangssignale Al bis A8 des Spraehanalysators werden in einer Dioden-ODER-Schaltung 36 verknüpft und ergeben ein Steuersignal für den sprachgesteuerten Taktgeber 12, wenn dieses Signal das Ende der Worterkennung im Zeitbasisgenerator steuert.
Die in Fig. 3 gezeigten Merkmalauswahlschaltungen 3 arbeiten etwa wie ein Auge, das ein Sonogramm nach Merkmalen (Energiekonzentrationen um bestimmte Resonanzfrequenzen) absucht. Wie ein _Auge Unterschiede im Schwärzungsgrad verschiedener Teile eines Sonogramms feststellt, so vergleichen die Merkmalauswahlschaltungen 3 die Analysator-Ausgangssignale auf den Leitungen Al bis, A8 mit Schwellwertspannungen, die an einem Widerstandsnetzwerk abgeleitet werden. Jede Schwell— wertspannung versucht ihrer eigenen Eingangsleitung Al bis A8 zu folgen und wird auf einer Spannung gehalten, die nicht niedriger liegt als einige Zehntel Volt unter der Eingahgsspannung. Über das Widerstandsnetzwerk beeinflußt jedes Eingangssignal alle anderen Schwellwerte, wobei die unmittelbar benachbarten Schwellwerte am stärksten beeinflußt werden. Somit erzeugen örtliche Maxima der Einhüllenden des Frequenzspektrums an den Amplitudenvergleichsschaltungen 42 bis 49
RA 9-71-031 309849/099B
Ausgangssignale und verhindern gleichzeitig das Auftreten von Ausgangssignalen an benachbarten Einheiten, an denen Eingangssignale mit kleinerer Amplitude anliegen. Diese Amplitudenvergleichsschaltungen sind wie Differenzierschaltungen aufgebaut, wie sie z.B. in "IBM Technical Disclosure Bulletin", November 1968, Volume 11, Nr. 6, Seite 603, beschrieben sind. Das Widerstandsnetzwerk soll eine gleitende oder selbstnachregelnde SchwelIwertspannung erzeugen, die nur die Pole oder Energiekonzentrationen innerhalb der Einhüllenden mit größeren Amplituden durch die Amplitudenvergleichsschaltungen hindurchläßt, ungeachtet der absoluten Amplitude der Einhüllenden. Eine Konstantstromquelle 50 begrenzt die Zahl der eingeschalteten Amplitudenvergleichsschaltungen 42 bis 49 auf maximal 4. Die Ausgangssignale der Amplitudenvergleichsschaltungen 42 bis 49 werden getrennten Invertern 51 bis 58 zugeführt, die den Spannungspegeln das richtige Vorzeichen geben aur Ankopplung der_. Aus gangs signale an das Merkmalschieberegister 4. Diese Signale treten auf den Leitungen SRI bis SR8 auf» Das Ausgangssignal der Amplitudenvergleiehsschaltung 42 auf der Leitung 59 wird außerdem die Auflösungssteuerung mit Hilfe eines sprachgesteuerten Taktgebers 12 benutzt. Die gleichartig aufgebauten Differenzierschaltungen 42 bis 49 enthalten Schaltungen mit Hysterese- und Impulsformung, so daß das endgültige Ausgangssignal auf den Leitungen SRI bis SR8 ein sauberer Reehteckimpuls mit Einheitsamplitude ist (z.B. von -12 bis 0 VoIt)0 Die Ausgangssignäle auf den Leitungen SRI bis SR8 sind die Eingangssigeale für ein® Speiehermatriac, die -Sas Merkmalsehieberegister 4 bildet, das die aus dem Spraehanalysator 2 zu verschiedenen durch den spraehgesteuerten Taktgeber 12.bestimmten Zeitpunkten abgeleitete Einhüllende speichert.
Anhand von Fig. 4 soll nunmehr der spr angesteuerte Taktgeber 12 und seine Funktion erläutert„werden. Bei diesem spraehgesteuerten Taktgeber 12 handelt es sich um ein sehr wichtiges Merkmal der Erfindung, da die Sprachmerkmale, ge-
RA 9-71-031 " ■ 30984 9/09 96 ;-
steuert durch die Ausgangssignale dieses Taktgebers, im Merkma!schieberegister 4 gespeichert werden. Bisher hat man nichtlineare Schaltungen zur Erzielung einer wünschenswerten Kompression der Information benutzt bei gleichzeitiger Beseitigung der Unsicherheit bezüglich der Zeitlage bei der Erkennung von Mustern ganzer Wörter. In den Fällen, in denen einzelne Wörter erkannt werden sollen, wurde beobachtet? daß Laute unmittelbar am Anfang eines Wortes ihre Zeitlage bezüglich der Punkte genauer einhalten, bei denen Resonanzen in dem Spektrogramm auftreten, als Laute, die näher am Wortende liegen. Bei einer gleichförmigen Abtastung schien sich die Abweichung der Zeitlage, in der Merkmale abgetastet wurden, zeitlieh linear mit dem Abstand von Wortanfang zu vergrößern. Durch.Abtastung mit einer Frequenz, die von einem Anfangswert ausgehend, allmählich kleiner wirdkann man die Anzahl der Zeiteinheiten in jedem nachfolgenden Seitabschnitt linear vergrößern. Somit erweitert sich jeder nachfolgende Zeitabschnitt zur Aufnahme der erwarteten Änderung des in diesem Teil des Spektrogrammes zu findenden wesentlichen Merkmales. -
Natürlich können Merkmale noch in zwei aufeinanderfolgenden Zeitabschnitten erscheinen, sobald sie an der Grense eines Zeitabschnittes liegen. Dieser Fall ist jedoch entschieden einer Ausbreitung über 5 oder 6 Zeitabschnitte oder Äbtast-Zeitpunkte vorzuziehen. Außerdem besteht eine Neigung sur Bündelung der letzten Merkmale eines Wortes, diese wird jedoch ausgeglichen durch die natürliche Neigung äes Spreehers, die Wortendenzu dehnen und am Anfang des Wortes die Laute knapp und präzise zu formulieren. Daraus ergibt sich eine zeitliche Verdichtung und Normalisierung der sprachmerkmale bei einer unerheblichen Verwischung von Einzelheiten.
Eine nichtlineare Schaltung allein liefert jedoch keine 1;::: reichend genaue Definition einer Grenze, an der Wörter bei
R&9-71-O3X 309849/0996
zusammenhängender Sprache ineinander übergehen. Bei einzelnen Wörtern, wo das Wort vom Nachbarwort einen genügenden zeitlichen Abstand für eine Rückstelloperation zwischen den Wörtern aufweist, erweist sich eine nichtlineare Zeitbasis als ganz brauchbar. Bei der Erkennung zusammenhängender Wörter fehlt jedoch die Rucksteilzeit, auch wenn ein Wortende zeitig genug erkannt würde. Der Taktgeber für dieses System benutzt somit die Sprache selbst als Grundlage für eine Zeitbasis für die Abtastung. Betrachtet man z.B. das Wort "six", so beginnt und endet es mit einem langen Zischlaut "s". Dem ersten S-Laut folgt ein kurzes "ih", diesem eine relativ lange Pause oder ein Stopp vor einem sehr kurzen "K"-Laut, der bereits der 'Anfangslaut.des End-x ist. Der Taktgeber tastet die langen Zischlaute mit einer niedrigen Frequenz ab und den kurzen Vokal mit einer höheren Frequenz, um auf diese Weise nicht dieses wichtige Klangelement zu verfehlen. Die "Pause" oder der Stopp wird einmal abgetastet, und dann wird der Taktgeber angehalten, bis die Intonierung mit dem abschließenden "ks"-Laut wieder beginnt. Natürlich liegt auch eine lange Pause vor dem ersten Wort eines Satzes, so daß der Taktgeber mit dem ersten Laut beginnt. Lange Laute werden somit weniger häufig abgetastet, womit eine redundante Abtastung vermieden wird, während kurze Laute mindestens einmal abgetastet werden und nicht ausgelassen werden, was bei einer gleichförmigen Abtastung der Fall wäre.
Die vom Sprachanalysator über die Leitungen Al bis A8 kommenden Signale werden durch das positive ODER-Glied 36 summiert und an die Leitung 37 abgegeben, um den sprachgesteuerten Taktgeber 12 zu starten. Im sprachgesteuerten Taktgeber 12 wird das von der Leitung. 37 kommende Signal in einem Tiefpaß-Widerstands-Kondensatorfilter gefiltert und dann durch den Doppelinverter 60 zweimal invertiert. Das Ausgangssignal des Doppelinverters wird an die einstellbare Verzögerungsstufe 61 weitergeleitet, die bei einem Spannungsanstieg am Eingang sofort ein negatives Ausgangssignal liefert, bei einem nega-
ΗΛ9-7Χ-Ο31 309849/0996
tiven Eingangssignal jedoch erst nach einer Zeitverzögerung t ein positives Ausgangssignal liefert,, die sich durch Einstellen des Wertes eines Kondensators regeln läßt. Diese Verzögerung (in Millisekunden) ist gleich 10 χ C- (Mikrofarad) , wenn das Eingangssignal zur einstellbaren Verzogerungsstufe 61 bei D auf Erdpotential liegt. Die Verzögerung der einstellbaren Verzogerungsstufe 61, mit einer Kapazität, von 12 Mikrofarad, ist also 120 Millisekunden. Ausfälle oder Unterbrechungen im von den Merkmalauswahlschaltungen 3 über die Leitung 37 kommenden Summierungssignal mit bis zu 120 Millisekunden Dauer müssen ignoriert werden, und die Stufe bleibt negativ, bis das auf der Leitung 37 liegende Summierungssignal langer als 120 Millisekunden negativ ist. Diese Zeit wurde aufgrund empirischer Ermittlungen gewählt» Es wird angenommen, daß eine solche Verzögerung die Pause vor Endkonsonanten isoliert, welche an verschiedenen Punkten in den Figuren mit "()" bezeichnet ist und vor sog. Endkonsonanten, wie p, t, k, auftritt. Der Anfang von Tonsignalen schaltet den Taktgeber 12 ein, der dann solange läuft, bis eine Pause vor einem Endkonsonanten erkannt wird, woraufhin der Taktgeber angehalten wird, bis wieder Sprachlaute auf-.treten. · '
Als Beispiel für die Arbeitsweise des Taktgebers 12 sollen die Sprachlaute am Beginn eines Satzes betrachtet werden. Bevor das erste Wort im Satz beginnt, ist das Signal auf der Leitung 37 und das vom Doppelinverter 60 kommende, an der einstellbaren Verzogerungsstufe 61 liegende Eingangssignal negativ. Das von der Stufe 61 kommende Ausgangssignal ist daher positiv (0 Volt) und das Ausgangssignal des ODER-Gliedes 62, an dem die Verzogerungsstufe 61 angeschlossen ist, ist ebenfalls positiv. Dadurch wird die einstellbare Verzogerungsstufe 63, an die das ODER-Glied 62 angeschlossen ist, an ihrem Ausgang negativ gehalten, und der Impulsgenerator 64 kann keinen Taktimpuls erzeugen. Der Impulsgenerator. 64 kann einfach eine monostabile Kippschaltung sein. Wenn
RA 9-71-031 309849/0996
das Signal auf der Leitung 37 positiv wird, steigt das Eingangssignal der Stufe 61 auf 0 Volt und ihr Eingangssignal geht direkt in den negativen Bereich.,, so daß auch das ODER-Glied 62 ein negatives Äusgangssignal liefert» Nach einer Zeitspanne,, die durch den 5,6-Mikrof ar ad -Kondensator der Stufe 63 und die Spannung am Eingang D der Stufe 63 bestimmt ist, wird das Äusgangssignal der einstellbaren Verzögerungsstufe positiv und schaltet den Impulsgenerator 64 ein. Ein positiver Impuls von kurzer Dauer (5 bis 10 ms) wird vom Generator 64 über die Leitung 65 zur Taktgabe an die verschiedenen Einheiten abgegeben» Am Ende des Taktimpulses gibt die Differenzierstufe 66 einen positiven Impuls ab„ der zum ODER-Glied 62 zurückläuft-und dessen Äusgangssignal anhebt sowie die Verzögerungseinheit 63 ausschaltet» Der von der Differenzierstufe 66 kommende Impuls dauert etwa 33 msec und an seinem Ende beginnt die einstellbare Verzögerungsstufe 63 ihren Verzögerungszyklus,, und ihr Äusgangssignal steigt am E-'-de der Verzögerungszeit an und löst einen neuen Taktimpuls des Impulsgenerators 64 aus, .Wenn das Signal am Eingang D der Stufe 63 nahe bei =12 Volt liegt, böträgt die Anfangsverzö= gerung für den ersten Taktimpuls etwa 22 msec, und ein zweiter Impuls tritt etwa 55 msec nach dem Ende des ersten Impulses (der etwa 5 msec dauert! auf» Somit ist die kleinste Taktperiode etwa SO msec lang., Wenn das Eingangssignal bei D für die Stufe S3 ungefähr bei Erdpotential liegt, beträgt die gesamte Periode etwa 56 -s- 5 -fr- 33 oder 94 msec. Das ist die Obergrens® für di© Einstellung der Auflösungss-teuerung7 ■die durch die Steuerung S7 am Eingang D der Stufe 63 ge= liefert wird, die für nichtreibende Laute regelto
Ein voifl Ausgang der Ämplitudenvergleichsschaltung 42 kommendes Signal auf der Leitung 59 bezeichnet einen Reibelaut oder einen Zischlaut entsprechend der Energiekonzentration im höherfrequentea Teil des analysierten Spektrums., Dieses Signal ■wird über dea Inverter'SB weitergeleitet, wo es in ein-negatives Signal umgesetzt und an die Verzögerungsstufe 69 ange-
9-71-031 309849/0936
legt wird, die einen Kondensator von 5 Mikrofarad enthält und hier als Verzögerungsstufe mit fester. Verzögerung benutzt wird, weil der Eingang D permanent geerdet ist» Nach etwa 50 msee Verzögerung steigt das Äusgangssignal der Verzögerungsstufe 69 an und erregt den Eingang des Inverters 70. Das Ausgangssignal des Inverters 70 fällt dann auf -6 Volt 'ab und das an den Eingang D der Stufe 63 angelegte Auflösungssteuersignal fällt auf -3 Volt, ungeachtet der Einstellung der Äuflösungssteuerung 67, afoo In der Verzögerungsstufe 63 verdoppelt sich jetzt die Verzögerung auf etwa 112 msec Die gesamte Periode beträgt somit 112 -§■ 5 -£■ 33 = 150 msec und ergibt so die Äbtastfrequenz für lange Reibelaute» Sie ist, grob gesehen, doppelt so lang wie die durchschnittliche Abtastfrequenz für stimmhafte Laute ohne Reibung» Die durch, die Verzögerung 69 erzeugte 50 msec lange Verzögerung stellt, bevor sich die Äbtastfrequenz ändert, sicher, daß kurze Reibelaute, wie ZoB= 11T", mit einer höheren Frequenz abgetastet werden»
Bei Rückstelloperationen wird ein Taktimpuls zum Löschen der Schieberegister benötigt« Ein in Fig„ 4 nicht· dargestellter Rückstell-Multivibrator ist mit dem ODER-Glied 62 am Eingang C verbundene Das auf der Leitung 37 liegende Signal ist jedoch negativ-* weil die Empfindlichkeit des Vorverstärkers 14 während des negativen Rückstellimpulses herabgesetzt xtfurde, der über die Handeinstellung 32 der Empfindlichkeit an die Verstärkungssteuerung des Vorverstärkers 14 angelegt wurde. Das Ausgangssignal der Verzögerungsstufe 61 wäre dann positiv, so daß es am Punkt B des ODER-Gliedes 62 die Wirkung des Rückstell-HultivIbratorsignales für die an die Leitung 71 am Eingang D.der Verzögerungsstufe 61 liegende Rüekstellverblndung verhindern wurde. Dieses Signal liegt normalerweise etwa auf. Erdpotential, ist bei den Rüekstelloperationen jedoch negativ, so daß das Ausgangssignal der Verzögerungsstufe 61 in den. negativen Bereich gezwungen wird, wodurch das Rückstell— Multivibratorsignal am Eingang C der Stufe 62 wirksam werden
30 9849/0996
RA 9-71-O31
4 ^q tiff \f* "fei ^β ^ST
In Fig. 5 ist das Merkmal-Schieberegister 4 gezeigt«, Von der Merkmalauswahlschaltung 3 kommende> auf den Leitungen SR 1 bis SR8 auftretende Ausgangssignale werden an die Eingänge der Merkmal-Schieberegister 79 bis 86, gesteuert durch vom sprachgesteuerten Taktgeber 12 abgeleitete Synchronisationsimpulse, angelegt» Die direkten Ausgänge D der Schieberegister 79 bis 86 liefern über Emitterfolgeschaltungen 87 bis 90 Signale für die elektronischen Schablonen im Adaptivspeicher 6„ ' Die invertierten Ausgänge I der Schieberegister 79 bis 86 liefern auch Ausgangssignale für die Schablonen im Adaptivspeicher 6, so daß beim Fehlen eines Merkmales" negative Merkmale oder Nullen gespeichert werden. Die invertierten Ausgänge sind auch mit einem ODER-Glied 91 verbunden, das als negatives UND-Glied arbeitet und das Fehlen von Merkmalen im Register, z.B. bei einer Pause, erkennt. Es handelt sich um ein negatives Signal von -E-6 Volt bis -6 Volt, so daß ein Reduzierwiderstand von 4,7 K am Eingang des Inverters 92 benutzt wird. Der Nullinverter 92 liefert eine Anzeige für die Pause und gibt auch ein entsprechendes Verriegelungssignal für den Taktgeber an die Leitung 74 ab. Außerdem ist er mit der Position 1 eines Schalters 93 verbunden, der bei der Anpassungsoder Lernphase zur Auswahl eines gegebenen Uniphons aus einem Wort benutzt wird. Wenn dieser Punkt am Schalter 93 negativ wird, zeigt das an, daß die Pause zwischen den Wörtern durch Eintreten des ersten Lautes des gerade gesprochenen Wortes beendet wurde. Dieser negative Übergang wird durch den Differenzier-Impulsgenerator 94 in einen positiven Impuls umgeformt, der die Verriegelungsschaltung 95 einschaltet, die dann ein adaptives Haltesignal 96 und ein Verriegelungssignal über die Leitung 72 an den ■ Taktgeber' 12 abgibt. Der Rückstellschalter 97 stellt die Verriegelungsschaltung 95 zurück, und der Wählschalter 98 hält sie während der Erkennungsfunktion außer Betrieb.
^9-71-cm 309849/0996
Fig. 6 zeigt den in dieser Erfindung benutzten Adaptivspeicher mit den elektronischen Schablonen. Die bipolaren Ausgangssignale der Emitterfolgeschaltungen 87 bis 90 des Merkmal-Schieberegisters, dargestellt in Fig. 5,. sind die Eingangssignale für die Adaptivspeichereinheiten 6, die als elektronische Schablonen 99 dienen und der Einfachheit halber nicht alle dargestellt sind. Jede vom Merkmalschieberegister 4 kommende Eingangsleitung ist mit allen entsprechenden Einheiten der 20 elektronischen Schablonen 99 verbunden und bildet so eine Schaltung für die Anpassung der elektronischen Schablonen und den nachfolgenden Vergleich von Eingangs* mustern mit in den Schablonen gespeicherten Mustern.
Mit dem Anpaßschalter 155 können über den Konsonant-Vokal-Wählschalter 156 und einen der Schablonenwählschalter 152 oder 153 personalisierte Uniphonmuster in den elektronischen Schablonen eingestellt werden. Das Uniphon Cl z.B., das der Laut "f!t wie in "fünf" sein kann, wird durch Drücken des Anpaßschalters 155 durch die Bedienungskraft nach Aussprache des Wortes eingegeben. Dadurch wird ein Stromkreis zur Schablone Nr. 1 geschlossen, wenn die Schalter so eingestellt sind, wie sie in Fig. 6 gezeigt sind. Die entsprechende Löschstufe 154 für die Schablone 1 wird durch den Anpaßimpuls erregt und entfernt augenblicklich die Haltespannung von -12 Volt von den Speicherelementen in der Schablone 1, wodurch alle vorher gespeicherten Daten gelöscht werden, bevor neue Daten eingegeben werden.
Für den. ersten Laut eines Wortes wird der Schalter 9 3 gemäß Darstellung in Fig. 5 geschaltet. Wenn ein anderer Teil des.Wortes benutzt werden soll, z.B. der dritte Laut des Wortes "drei" zur Erzeugung des "ei"«»Vokals, wird der Schalter 93 in die Stellung 3 geschaltet, die mit dem invertierten Ausgang der zweiten Stufe des Pause-Schieberegisters in Fig. 7 verbunden ist. Somit wird das Signal für die Anpassungsstoppverriegelung 95 bis zu einem Zeitpunkt verzögert,
309849/0396
$A 9-71-031.
der dritten Merkmalabtastung durch den sprachgesteuerten Taktgeber 12 liegt. Das gewünschte Muster von Einsen und Nullen erscheint jetzt im Merkmalschieberegister 4» In diesem Beispiel kann der Schalter in Stellung 4 oder 5 geschaltet werden, da der gewünschte ei·=-Vokal auch in der 4 ooder 5» Abtast— periode auftreten kann, abhängig von der Aussprache des Sprechers. Die beste Stellung des Schalters zum Abtasten eines gegebenen Lautes in einem bestimmten Wort kann sich bei einzelnen Bedienungskräften ändern- Die besten Ergebnisse erzielt man im allgemeinen durch Auswahl von Abtastpositionen-, die relativ früh im Wort liegen. Bei der Anpassung des Uniphons neitt wird der Schalter 156 so umgeschaltet, daß eine Verbindung zwischen dem Anpaßschalter 155, der Vokalseite des Schalters 156,. einerseits und dem in stellung 1 gestellten S ciiablonenwähl schal ter 153 andererseits für die Schablone 99 Position 11 besteht* Somit wird der Code für das "ei" in der Schablone (11) gespeichert e die die Entscheidungs^ einheit 100 für das Uniphon Vl steuerttt In ähnlicher Weise können andere Konsonanten und Vokale aus geeigneten Wörtern ausgewählt und in anderen Abschnitten der adaptiven elektronischen. Schablonen gespeichert werden. Der übereinstimmungs-=- grad zwischen zwei Wustern wird durch die auf den Summierungsleitungen£l bis^20 am Ausgang der Schablone 99 erscheinende Spannung angegeben» Diese Summierungssignale dienen als Eingangssignale für die Entseheidungseinheiten 10O7 die so .modifiziert werden, daß 3 oder 4 Entscheidungseinheiten gleichzeitig eingeschaltet sein können, wenn mehr als ein oder zwei, gleiche Übereinstimmungsgrade vorhanden sind» Die Entscßeidungseinheiten 10© sind einfache Sehwellwertdetektoren mit Gefjealcepplungswiderständen im Emitterkreis „ Diese Einrichtung ein wichtiges Merkmal des adaptiven Uniphonspeichersp £e eiaa'Bündelung gestattet, doiu ein Eernbestandteil fcamn aus einer Gruppe von Uniphonen bestehen und in den Schablonen gespeichert werdeno Dann wird der üniphon^Schwellwert festgesetzt aus Erkennung aller Teil© äieser Gruppe f welche inners Bestimmten Äbstandes von im allgemeinen einem Bit „
3ÖS349/Q
SK71-O31 "
(Hammingabstand gleich 1) liegen. Ein Beispiel für diese An— paßart für die Benutzung der obigen Begriffe folgt. Die Tabelle in Fig. 12 zeigt 20 hypothetische Uniphon-Codierungsanordnungen, zusammen mit einer Liste von 13 allgemeinen Wörtern, die zur Analyse in Vokal-, Konsonanten-, Ruhe- und Intensitätssprungsegmente unterteilt sind. Eine willkürlich zusammengestellte Liste von Lauten mit 10 Konsonanten und 10 Vokalen erwies sieh zur Beschreibung eines Vokabulars von etwa 50 Wörtern als angemessen. Diese 20 Merkmale oder Uniphone werden zusammen mit der Ruheanzeige und der Intensitätssprunganzeige für eine.Erkennungsmöglichkeit dieser Größenordnung benutzt. Wenn größere oder kompliziertere Lautkategorien zu erkennen sind, kann die Uniphonliste und die Anzahl von Stufen im Uniphonschieberegister zum Speichern identifizierter Uniphone erweitert und auch die Anzahl von elektronischen Schablonen zur Erfüllung der Uniphonerfordernisse des erweiterten Satzes vergrößert werden. Natürlich muß dann auch die Sehalttafel 9 vergrößert werden, wenn eine größere Wortmenge erkannt werden soll. In den Tabellen der Fig. 12 ist" die Uniphoncodierung willkürlich. Sie hängt in der Praxis in jedem Fall von der Aussprache des einzelnen Sprechers ab. In der äußersten linken Spalte sind in jeder Hälfte der Tabellen unter der Überschrift "Konsonant" bzw. "Vokal" 10 repräsentative Laute aufgeführt. Rechts von jedem Vokal oder Konsonant gibt in diesen Spalten mit den Nummern 1 bis 8 eine Eins an, daß ein bestimmtes Merkmal aus diesem Segment eines Frequenzanalysefilters auf einen Grad heraufgesetzt wurde, der über dem gleitenden Sehwellwert liegte Wenn keine Eins vorhanden ist, heißt das, daß das Merkmal nicht identifiziert wurde» Die Muster von Einsen und Nullen für jeden Vokal und Konsonanten werden Uniphone genannt? die für jeden Spreeher während der Lernperiode des Systems identifiziert werden müssen. Diese Muster werden in den adaptiven elektronischen Speichersehablonen 99 zum Vergleich mit hereinkommenden Signalen gespeichert»
9-71-031 309849/0996
Anschließend wird ein Beispiel für das Kern- und Bündelungskonzept, gegeben» Ein willkürliches Vokaluniphon ist mit Vl bezeichnet und mit 01100001 codiert und stellt z.B. den EE-Laut oder den zweiten Laut dar, der beim Aussprechen des Wortes "eight!! oder den dritten Laut? der beim Aussprechen des Wortes."three" erzeugt wird. Diese Codierung stellt einen Kern für das Uniphon Vl dar«, Abweichungen von Vl, die innerhalb des Hammingabstandes von einem Bit liegen,, können ebenfalls erkannt werden, wenn die Erkennungs-Sehwellwertschaltung in den Entseheidungseinheiten 100 richtig eingestellt ist= Abweichungen von Vl,, die als gleich erkannt werden können, wären somit 01100011, 011.10001, 00100001. Ein anderes Vokaluniphon mit der Bezeichnung V2 kann z„B„ den AA-Laut oder den erstenKlang .des Wortes "eight" wiedergeben und dargestellt werden als ΟΘ100011 mit den Abweichungen 01100011 und 00100001. Daraus geht klar hervor, daß die erste Abwandlung von Vl und die erste Abwandlung von V2 gleich sind. Wenn dieser-Uniphoneode in der Sprache eines Spreehers erscheint, werden Vl und V2 durch die Entseheidungseinheiten 100 angezeigt. Damit ist die normale Abwandlung in Lauten möglich, die in verschiedenen Wörtern bei der Aussprache eines Sprechers auftreten. Eine Auswahl ist im wesentlichen insofern gegeben., als ein bestimmter Laut in einem Wort entweder Vl oder V2 sein kann. In diesem Fall können beide in einer Wortbibliothek gespeichert werden, so daß jeder Laut erkannt wird, der einen Teil eines zu erkennenden Wortes bildet. Eine als lauter Nmllen vom Merkmalsehieberegister angegebene Pause oder Ruhe liegt innerhalb des Abstandes von einem Bit von einem Einzelbitmerkmal, wie s.B. das willkürliche Konsonantentmighon Cl mit 10000000, welches der F-Laut aus "four" Cder erste Laut) usw. sein kann. In ähnlicher Weise kann der zehnte Konsonant 00000001 sein und den ersten oder fünften Laut im Wort "nine", nämlich das "n" oder den fünften Laut im Wort "one11 bezeichnen usw. Die Entseheidungseinheiten sind durch eine Konstantstromquelle 147 verriegelt, die so eingestellt ist, daß die hochstzulässige Anzahl von Ausgangs-
RA 9-71-031 .. 309849/0996
signalen auf beispielsweise 4 begrenzt ist. Diese gemeinsame Verriegelungsleitung liefert auch die Schwellwertspannung für die Entscheidungseinheiten unter Steuerung der Uniphon-Erkennungssehwellwertsehaltung 148. Diese ist im allgemeinen auf einen Hammingabstand von eins eingestellt. Um den richtigen Betrieb der Entscheidungseinheiten sieherzustellen, wird der Sehwellwert abgeschaltet, wenn eine Entscheidung durch die Stromabfühlstufe 149 festgestellt wurde. Diese Schwellwertabs ehaltung ist genauer besehrieben in "IBM Technical Disclosure Bulletin, Vol. 14, No. 2, July, 1971, pages 493, 494". Die Abschaltung des Sehwellwertes stellt volle Ausgangssignale von allen Entseheidungseinheiten sieher, die den Schwellwert erreicht haben. Der Inverter 150 hält das Potential der gemeinsamen Verriegelungsleitung in Abhängigkeit von den vom sprachgesteuerten Taktgeber 12 kommenden Impulsen. Dadurch werden alle Entseheidungseinheiten abgeschaltet, der Schwellwert zurückgestellt und Entscheidungen unte^r noch zu beschreibenden Umständen verhindert.
Die unmittelbaren Ausgangssignale der Entseheidungseinheiten 100 haben den richtigen Pegel und die richtige Phasenlage und können unmittelbar an die Uniphonschieberegister 7 angelegt werden.
Fig. 7 zeigt die Uniphonschieberegister 7 zusammen mit den Treiberstufen für die Sehalttafel zur Umwandlung von Uniphonfolgen in Wörter. Die in den adaptiven elektronischen Speieherschablonen 99 identifizierten Uniphone werden zusammen mit Ruhe- und Intensitätssprunganzeigern durch eine Reihe von 4 Sehieberegisterstufen verschoben, um Information für mindestens 4 Uniphonmuster eines gegebenen Wortes zu speichern. Die"Sehieberegisterstufen für die Erkennung eines Uniphones für ein gegebenes Wort sind mit 1 bis 4 bezeichnet. Jede Entscheidungseinheit 100 ist mit einer vierstufigen Reihe im Schieberegister 7 verbunden.. Der Inhalt aller Stufen im Schieberegister 7 wird einmal verschoben, wenn ein Uni-
RA 9-71 31 309849/0396
plion erkannt ist» Stufen im Schleberegiater 7, die dem Uniphon Cl (Konsonant üjr. 1) zugeordnet sind;, erscheinen in Fig„ 7 oben. Zu jeder mit den Zahlen 1 bis 4 bezeichneten Schieberegisterstufe gehört eine Treiberst-ufe 101 „ Es. sind 5 Treiberstufen lOl vorhanden,, so daß-eine Anzeigestufe φ in einer Zeile des Registers 7 angegeben werden kann= Diese Treiberstufe wird durch die VlO-Stufe 0 als Treiberstufe für die Cl-Stufe O bezeichnet. In Fig. ? sind der Kürze halber nur die Zeilen im Schieberegister 7 für den Konsonanten Cl bis zum Vokal VlO1. die Ruheanzeige und die Intensitätssprunganzeige dargestellt»
Die Treiberstufen 101 sind mit den Eingängen der ersten Stufen in allen Zeilen des Schieberegisters 7 sowie mit den Ausgängen aller Stufen in jeder Zeile verbunden und liefern Aus- gangssignale an die Sehalttafel 9, die der Umwandlung von Uniphonfolgen in Worte für 5 mögliche Phasen oder Zustände der 4 Registerstufen in jeder Zeile dienen» Die 88 Schieberegisterstufen oder Zellen, die in jeder Zeile des Schieberegisters 7 mit den Nummern 1 bis 4 bezeichnet sind^ liefsrn 110 Ausgangssignaleo Das Merkmalsehieberegister 4 steuert die Zeiteinteilung der von den elektronischen Schablonen 99 kommenden Ausgangssignalej und das Merkmalsehiebregister 4 sowie das Uniphonschieberegister 7 werden durch den sprachgesteuerten Taktgeber 12 so gesteuert, daß alle Phasen aller Schieberegister durch eine Quelle synchronisiert sind» Die im Uniphonsehieberegister. 7 enthaltenen Ruhe-Schieberegister liegen mit einem invertierten Ausgang an dem Sehalter 93» Edn der Rtaheanzeige für jede Stufe in der Sehieberegisterzeile zugeordnetes Ruhs-Sehieberegister arbeitet während der Lern- und Anpassuagsphase«, - Mit. dem Sehalter 93 wird eine von 5 Lautabtastwertea aus einem gegebenen W©rt ausgewählt,, Der invertierte Ausgang in Stufe 4 aller Uniphonregisterzeilen? mit Ausnahme der Ruhezeile und ihres direkten Ausganges,, dient der Äaseige des Worteades^ welch© im Zusammenhang mit den Verriegelxängssehaltungen 13 mäher besehrieben wird»
9-71-Ο31 309849/0996
In Fig. 8 ist die Worterkennungs- und Codierschaltung 10
gezeigt. Im vorliegenden Beispiel ist die spezifische Uniphonfolge , die ein gegebenes Wort als durch einen gegebenen Sprecher ausgesprochen besehreibt, im Uniphonschieberegister 7 von den Treiberstufen 101 nach der Worterkennungsund Codierschaltung 10 verdrahtet» Das Wort "ΟΝΕ" ζ»Β. kann mit dem Uniphon ClO oder VlO beginnen, dann folgt "das Uniphon V8, dann'das Uniphon V7 und dann die Uniphone ClO oder VlO, denen eine Endkonsonantenpause oder das Uniphon. ClO
folgt. Wenn ein Wort mit 5 Uniphonen eingegeben wurde, ist das erste Uniphon zur Stufe 4 im Schieberegister 7 weitergelaufen, das zweite Uniphon steht in der Stufe 3,, das dritte in der Stufe 2 und das vierte in der Stufe 1, so daß das
letzte Uniphon sich in der Stufe 0 befindet. Die 8 möglichen Eingangssignale für das Wort "ONE" werden folgendermaßen zur Schalttafel 9 geleitet; Der Konsonant 10 und der Vokal 10, von denen jeder das erste üriiphon des Wortes "ONE" sein kann, werden von der Stufe 4 dem Eingang der Worterkennungsschaltung für das Wort "ONE" zugeführt» V8 wird von der Stufe 3 dem Eingang der Erkennungsschaltung für das Wort "ONE" zugeleitet, V7 von der Stufe 2, ClO und VlO von der Stufe 1
und ClO und die ENDE-PAUSE von der Stufe 0.
Für jede der folgenden Versionen des Wortes "ONE" sind dann 5 Eingänge zur Worterkennungsschaltung für das Wort "ONE"
erregti '
Stufe 4 Stufe 3 Stufe 2 Stufe 1 Stufe O
ClO · V8 V7 ClO 0
VlO V8 V7 ClO 0
VlO V8 V7 VlO ClO
ClO V8 - V7 VlO ClO
ClO V8 V7 VlO O
VlO V8 V7 VlO 0
309849/0996
RA. 9-71-O3I"
Das Löschen oder der Ersatz eines gegebenen Uniphons reduziert die Anzahl der Eingänge auf 4» Diese Anzahl von Eingangssignalen reicht immer noch zur Erkennung aus. Wie bereits unter dem Oberbegriff "Bündelung ausgeführt wurde, ergibt eine Variante einer der obigen Laute, die im Bündel liegt, das richtige Ausgangssignal, möglicherweise jedoch mit einem anderen Ausgangssignal. Dadurch wird d-ie Erkennung des Wortes "ONE" nicht beeinflußte sie kann jedoch an ein anderes Wort dichter herankommen.
Die Eingangssignale der Worterkennungsschaltungen liefern eine lineare Summe, die mit einer Schwellwertspannung an dem mit P bezeichneten Anschluß der Worterkennungsschaltung Wl in Fig. 8 verglichen wird. Eine Konstantstromquelle 102 gestattet das Einschalten nur eines Wortanzeigers zu einem gegebenen Zeitpunkt. Wenn eine Verknüpfung oder eine Gleichzeitigkeit auftritt, werden beide festgestellten Wörter zurückgewiesen. Eine Rüekweisung erfolgt ebenfalls, wenn alle Wortsummen unterhalb des eingestellten Sehwellwertes liegen= Das Wort "Fehler" oder "falsch"1 wird dann vom, Sprecher zur Korrektur einer Zurückweisung oder eines Ersatzes ausgesprochen. In den Erkennungseinheiten Wl bis W30 erkannte Wörter werden durch den Binäreodierer 151 für den Wortzahldetektor binär codiert. So kann jedes Wort jeden Ausgangsco.de benutzen» (Ausgenommen sind Betriebswörter, die nach festen Positionen verdrahtet sein müssen, wie z.B. Fehler, falsch, Rückstellung und Dateneingabe, die später genauer beschrieben werden.) Das Wort "(MISTAKE (FEHLER),11 erregt die M-Leitung 103, die nach dem Äusgaberegister 11 führt. Die durch die Erkennungsschaltungen Wl bis W30 erkannten Wörter erregen durch ihre codierten Ausgangssignale die übergangsdetektoren 104 und 105, während-das Signal auf der M-Leitung 103 nur den Übergangsdetektor 1O5"erregt.
Fig. 9 zeigt das aus zwei Teilen bestehende Ausgaberegister 11 mit den Synchrontreiberstufen 106 und 107. Der erste Teil,
Ri 9-71-031 309849/0996
durch eine Null an der rechten Seite der obersten Zeile der Speicherzellen bezeichnet, ist ein Kurzzextspeicherregister für den.5-Bit-Code, der von der Worterkennungs- und Codierschaltung 10 kommt. Dieser Teil enthält außerdem ein Register für die M-Leitung 103. Dieser Teil des Registers 11 speichert den Wortcode und stellt ihn zur Überprüfung durch die Bedienungskraft bildlich dar. Wenn der Code gültig ist, d.h. wenn es der richtige Code für das Wort ist und das Wort somit richtig erkannt wurde, spricht der Bediener das nächste Wort, welches in das Register 0 eingegeben wird. Der für gültig be-
fundene Code wird in die Registerstufe 1 verschoben. Jeder andere Code in höheren Schieberegxsterstufen wird ebenfalls um eine Position verschoben. Wenn eine Zurückweisung oder ein Fehler im Register 0 erscheinen, spricht die Bedienungskraft das Wort "MISTAKE (FEHLER)". Jetzt betätigt der Übergangsdetektor 105 nur die Synchrontreiberstufe 1O6 über die Fortschalt-Kippschaltung 108, die den Impulsgenerator 109 betätigt, wenn er durch den Taktimpuls nach dem Einschalten von 1O5 ausgeschaltet wird. Der Impulsgenerator 1O9 gibt einen Impuls ab, der die Synchrontreiberstufe 106 betätigt und das M-Register 110 einschaltet, während gleichzeitig der jetzt im Register 0 gespeicherte Code gelöscht wird. Da der Übergangsdetektor 104 nicht arbeitet, liegt an der Synchrontreiberstufe 107 kein Eingangssignal und das Ausgaberegister 11 schaltet nicht weiter. Auch schaltet das Ausgaberegister nicht weiter, wenn die richtigen Daten in das Register 0 eingelesen werden, weil das M-Register 110 das UND-Glied 111 gesperrt hält. Das -neue Datenwort löscht über den Übergangsdetektor 105 und die Synchrontreiberstufe 106 das M-Register 110 und speichert den neuen Code im Register 0. Die Kippschaltung 108 verzögert das Arbeiten der Synchrontreiberstufe 106 so, daß das M-Register 110 eingeschaltet bleibt und eine Betätigung des Übergangsdetektors 104 sperrt und verhindert damit eine Verschiebung des Ausgaberegisters 11. Weitere gültige Codes können wie vor eingegeben und verschoben werden, bis das Ausgaberegister 11 voll ist. Ein in das Register 8
9-71-031 309849/0996
eintretender Code wirkt über das ODER-Glied 112, den Inverter 113, den Null-Inverter 114, das UND-Glied 115 und das ODER-Glied 116 und hält die Synchrontreiberstufen 106 und 107 angepaßt, wodurch, jede weitere Datenverschiebung verhindert wird.
Das Register 11 kann jederzeit durch die Rucks te lltas'te 117 oder durch. Aussprache des Befehles "RESET" (Rückstellen) gelöscht werden. Der RückstellBefehl wird so decodiert, daß ein Signal über die Leitung 118 an das ODER-Glied 119 übertragen wird, das koordinierte Rucksteilsignale abgibt. Jedes Eingangssignal hekj. den Signalpegel am ODER-Glied 119 an, das eine Rückstellverriegelung 71 über die Verbindung über den Inverter 12Q zum sprac&gesteuerten Taktgeber 12 bildet. Der Null-Inverter 121 liefert eine Ruckstellanzeige, die auch den Multivibrator 122 einschaltet. Dadurch wird vom Impulsgenerator 123 ein Taktimpuls und über das ODER-Glied 116 ein Impuls zum Ausschieben des Inhaltes des Registers 11 geliefert. Das Rückstell signal 71 h.indert die vollständige Ausgabe vom Null-Inverter 114 durch, das UND-Glied 115 daran, die Schiebeaktion zu sperren ? Eine -Ruckstellha!feesch.alfcung wirkt über den Impulsgenerator 124 auf das opES-TGlied 119 ein, Die Zeitverzögerung 125 kann so eingestellt werden, daß die Rückstelloperation zyklisch, für Datenleitoperationen mit fester oder vorgegebener Zykluszeit wiederholt werden kann, Die Stufe liefert einen Impuls während der Taktperiocle, die einer Entscheidung zum Halten der Entscheidungsyerriegelung folgt, und yerhindert so die erneute Erkennung desselben Wortes,
In den Fig. 1OA und 1OB sind die Verriegelungen und Steuerungen dargestellt. Von den invertierten Ausgängen der SChieberegister 1 bis 4 in jeder Zeile der Uniphonschieberegister 7 kommende Wortende-Ausgangssignale werden in den ODER-Gliedern 127 bis 129 gemischt. Der Inverter 130 und der Null-Inverter 131 stellen Signalpegel und Signalphase zur Betätigung der Verriegelungsschaltung 132 wieder her, die ein Ausgangssignal 73.an den sprachgesteuerten Taktgeber 12 und eine optische
RA 9-71-031 .30 9 849/099 θ
Anzeige liefert. Ein Wortende^Schalter 133 verhindert im ausgeschalteten Zustand das Einstellen dieser Verriegelung. Ein Ein-Zyklus-Schalter 134 Betätigt eine Tast-Kippschaltung 135, deren Ausgang über den Impulsgenerator 64 mit dem sprachgesteuerten Taktgeber 12 verbunden ist. Dadurch ist der Ablauf eines Zyklus möglich, mit Ausnahme der Fälle, in denen die Verriegelung für' Anpassung halten und Wortende wirksam sind.
Die Befehlswörter "Rückstellen" und "Dateneingabe" werden aus geeigneten üniphonfolgen für' einen· gegebenen Sprecher so gesteckt, daß sie von den Wortdetektoren 136 bzw. 137 erkannt" werden. Wenn "Rückstellen" erkannt wird, steigt das Ausgabesignal des Wortdetektors 136 an und leitet eine Rück— Stelloperation im Ausgaberegister 11 ein. Außerdem wird dieses Signal mit dem Ausgangssignal der Kippschaltung 108 und dem Ausgangssignal des Wortdetektors 137 (Dateneingabe) im ODER-Glied 142 gemischt, wodurch die Wortschwellwert— spannung· abgeschaltet wird. Das äusgangssignal der Kipp-*- schaltung 108 tritt bei allen Datenwörtern und bei dem Wort "MISTAKE" (Fehler) auf, da es durch den Übergangsdetektor 1O5 in Fig* 8 eingeschaltet wird» Das Ausgangssignal des Inverters 138 verringert die Empfindlichkeit des Sprachvorverstärkers 14 während der Rückstellung. Die Erkennung von "ENTER DATA" (Dateneingabe)1 durch den Wortdetektor 137 schaltet die Verriegelungsschaltung 139 zur Anzeige "E" am Anzeiger 140 und hält das Ausgaberegister 11 über das über die Leitung 141 angeschlossene ODER-Glied 116. Die Verriegelungssehaltungen 95, 132 und 139 werden über die Rückstelltaste 97 oder durch die Decodierung des Befehlswortes "RESET" zurückgestellt,
Das zweite Zyklushaltesignal, gesteuert durch, das Ausgangssignal der Kippschaltung 126 in Fig. 9, wird im ODER-Glied 145 der Fig. 1OB verknüpft und hält die Verriegelungsleitung an den Wortdetektoren■, um die Erkennung nach einer Entscheidung aja. den Eingängen der mit P in Fig. 8 bezeichneten Wort-
RA 9-71-O31 30.9849/0996
detektoren zu verhindern„ Das Schieberegister 143 liefert einen weiteren Verzögerungszyklus, wobei das Schieberegister für Signalpegel verschoben und dieser durch den Null-Iiiverter 144 umgekehrt und mit dem Signal von der Kippschaltung in Fig. 9 und der einstellbaren Schwellwertspannung im ODER-Glied 145 verknüpft wird= Der auf der Leitung 65 vom Impulsgenerator 64 in Fig, 4 kommende Taktimpuls wird ebenfalls im ODER-Glied 145 verknüpft, so daß der Schwellwert bei jedem Taktimpuls zurückgestellt wird. Die Diodenverbindung des Rückstellimpulsgenerators 124 in Fig„ 9 im Ausgaberegister ist ebenfalls zu beachten, ' ■
Die obige Verriegelungsschaltung soll sicherstellen, daß eine Wortentscheidung nur dann, wenn das System nicht zurückstellt, oder zwischen Taktimpulsen getroffen werden kann, und daß diese Entscheidung nach mindestens zwei Taktperioden nach einer vorhergehenden Entscheidung erfolgt. Aus dieser Überlegung folgt, daß ein Wort mindestens drei Taktperioden lang sein muß, eine Annahme, die sich in der Praxis bewährt hat.
Einige Wörter können auch nur eine oder zwei Taktperioden lang sein, wenn der oben beschriebene sprachgesteuerte Taktgeber nicht verwendet wird. Darin liegt einer der Vorteile dieses Systems gegenüber Systemen mit konstantem Takt.
In Fig. 11 ist die Schaltung, die die -Uniphonfolge in ein Wort umwandelt, als Schalttafel 146 dargestellt. Der Raum auf der gezeigten Schalttafel ist zwar auf 33 Worterkennungen mit 8-Eingängen beschränkt, wenn mehr Wörter benötigt werden, kann jedoch eine größere Schalttafel benutzt werden. Eine Alternative zur Schalttafel wäre die Speicherung von Uniphonfolgen als Daten auf einer Plattendatei oder im Speicher einer' Datenverarbeitungsanlage. Der Adaptivspeicher mit elektronischen Schablonen, der für die Uniphonerkennung benutzt wurde, kann auch-, als wortadres.sierbarer. Speicher oder als Assoziativspeicher aufgebaut, sein. Wenn", ein ausreichend
RA 9^71-031
309849/0996 -
-32- " 2328517
großer Speicher zur Verfügung stände, könnte er ebensogut für die gesamte Wortbibliothek verwendet werden.
Als Beispiel ist die Verdrahtung vom Uniphonschieberegister nach. Worterkennungsschaltung für das oben bereits erwähnte Wort "ONE11 gegeben. Die oberen Anschlüsse der Schalttafeln sind die Ausgänge des Uniphonschieberegisters. Alle Anschlüsse sind zur Ermöglichung von Verzweigungen paarweise vorgesehen. Die Stufenbezeichnung von 0 bis 4 ist rechts und links von jeder Zeile der Steckbuchsenpaare angegeben. Im allgemeinen wird nur die- untere Steckbuchse eines Paares benutzt, die obere für Prüfzwecke freigelassen. Gewünschte Ausgänge der Uniphon^Schieberegistersteckbuchsen werden zu einem der 8 Eingänge eines, jeden Wortdetektors verdrahtet. Sie sind' von 1 bis 30 numeriert und die Sonderdetektoren liegen rechts und sind mit M für "MISTAKE", R für "RESET" und E für "ENTER DATA" beschriftet. Die Ausgangssignale der Detektoren für M, R und E haben die oben beschriebene feste Funktion. Die Wortdetektoren oder Erkennungsschaltungen Wl bis W30 liefern binär codierte Ausgangssignale, die den angegebenen Zahlen entsprechen.
RA 9-71-031 309849/0996

Claims (10)

  1. PATENTANSPRÜCHE
    Verfahren zum automatischen Erkennen von gesprochenen Wörtern, bei dem in voller Ba-ndbreite vorliegende und elektronisch verstärkte Sprachsignale zur Frequenzanalyse in einem Analysator in eine Anzahl frequenzmäßig benachbarter Teilfrequenzbereiehe unterteilt werden, gekennzeichnet durch folgende Verfahrensschritte:
    Periodisches Abtasten der Momentanwerte der eingeschwungenen Signale in den Teilfrequenzbereichen zur Feststellung, welches der Signale oberhalb eines gleitenden Sehwellwertes liegt,
    zeitweiliges Einspeichern von Mustern von Signalen, die eine Information darüber darstellen, welches der abgetasteten Ausgangssignale des Analysators oberhalb bzw. unterhalb des Sehwellwertes liegt,
    Vergleichen der se seitweise gespeicherten Signalmuster mit vorher Ia einem Speieher eingespeicherten Signal— mustern und Bestimmen der weitestgehenden Übereinstimmung zwischen den zum Vergleich stehenden Mustern, Anzeigen des Vergleiehsergebaisses für jeden solchen Vergleich zweier Signalmuster und sequentielles Abspeichern dieser Signale als üniphone als codierte Form der abgetasteten eingeschwungenen Sprachsignale und umwandeln von Folgen solcher sequentiell gespeicherter codierter üniphon© in Wörter durch eine entsprechende ümwandlungseinrichtung zur Identifizierung der- gesprochenen Wörter. '
    RA 9-71-O3I - 309849/0996
  2. 2. Verfahren nach Anspruch. 1, dadurch, gekennzeichnet, daß die bei der Umwandlung ermittelten Wörter in erkannte Wörtercodes umgesetzt werden.
  3. 3. Verfahren nach den Ansprüchen 1 und 2, dadurch, gekennzeichnet, daß die Frequenzanalyse, die Speicherung und der Vergleich durch Taktsignale koordiniert und
    gesteuert wird, die durch einen Taktgenerator erzeugt werden, dessen Takt aus der Frequenz und Intensität der Sprachsignale abgeleitet wird»
  4. 4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß der Taktgenerator immer dann angehalten wird, wenn immer die Abwesenheit von Sprachsignalen festgestellt wird und immer dann wieder in Betrieb gesetzt wird, wenn.die Sprachsignale wieder auftreten.
  5. 5. Verfahren nach Anspruch. 3, dadurch gekennzeichnet, daß die taktgesteuerte Ab ta ^ ' u'ig der Sprachsignale dummer dann verlangsamt wird, wenn Reiblaute von mehr als 50 ms Dauer festgestellt werden, um die Anzahl der redundanten Abtastwerte des gleichen Sprachsignals zu vermindern.
  6. 6. Schaltungsanordnung zur Durchführung eines Verfahrens gebnäß Anspruch 1 — 5 mit einem Mikrofon und einem Frequenzanalysator zum Aufspalten der Sprachsignale in. eine Anzahl von Teilfrequenzbereichen und daran jeweils angeschlossenen Verstärkern, dadurch gekennzeichnet, daß auf den Frequenzanalysator (2; 24 bis 31} eine Anzahl logarithmischer Verstärker (16 bis 22) folgt, denen auf einen gleitenden Schwellwert sich einstellende Merkmalsauswahlschaltungen (3) zur Auswahl der den jeweiligen Schwellwert überschreitenden Signale nachgeschaltet sind, wobei die jeweiligen Schwellwerte für jeden Teilfrequehzbereich entspre—
    RA S-71-O31 30 98 49/09 96
    chend dem Energieinhalt In unmittelbar und mittelbar benachbarten Teilfrequenzbereichen durchgelassener Signale schwankenf und daß die so ausgewählten in mehreren Teilfrequenzbereichen durchgelassenen Signale ein typisches Signalmuster bilden, daß ferner eine sprachgesteuerte Synchronisier-"- und Steuerschaltung (12) vorgesehen ist, die, durch den Frequenzanalysator gesteuert r das Arbeiten der ganzen Anordnung koordiniert und steuert. '
  7. 7. Schaltungsanordnung nach Anspruch 6, dadurch gekennzeichnet, daß eine WORT-Detektor- und Codierschaltung ClO) vorgesehen ist, die mit der Umwandlungseinrichtung C9) verbunden ist und eine taktgesteuerte Ausgabevorrichtung CH) ansteuert und daß die zeitweilig in der Ausgabevorrichtung zwischengespeicherten codierten Wörter taktgesteuert als codierte erkannte Wörter ausgegeben werden können.
  8. 8. Schaltungsanordnung nach Anspruch 7, dadurch gekennzeichnetf daß zur Frequenzanalyse eine Anzahl frequenzbenachbarter Bandpaßfilter C24 bis 31) vorgesehen sind, deren gesamter Frequenzbereich der menschlichen Sprache weltgehend überdeckt, daß zur Verstärkung der Sprachsignale ein logartthmlscher Verstärker Cl5) am Eingang aller Bandpaßfilter angeschlossen istr daß eine Anzahl logarithmischer Verstärker (16 bis 22) an alle diejenigen Bandpaßfilter angeschlossen ist, deren Teilfrequenzbereiche unterhalb von 4 kHz liegen und daß zur Merkmalsauswahlschaltung und Signalerzeugung mit dem Verstärker-Ausgang jedes Teilfrequenzbereiches eine SChwellwert-Verglelchsschaltung (42) verbunden ist, die eingangsseitig ein Widerstandsnetzwerk zur Verbindung mit den unmittelbar bzw. mittelbar benachbarten Vergleichsstufen aufweist, um den Schwellwert aller der damit verbundenen Vergleichsstufen anzuheben .
    309849/0996
    RÄ 9-71-031
  9. 9. Schaltungsanordnung nach\ Anspruch. 8^ dadurch, zeichnet, daß zum Vergleichen, zur Auswahl und Signalgabe ein adaptiver Speicher C&) dientf der eine Anzahl elektronischer Schablonen enthält,.an die eine Anzahl von Entscheidungsstufen ClOO) angeschlossen sind, die Signale abgeben, welche der elektronischen Schablonen Signalmuster mit der weitestgehenden Übereinstimmung enthalten.
  10. 10. Schaltungsanordnung nach Anspruch 9f dadurch gekennzeichnet, daß zur Umwandlung eine schalttafel CL46) vorgesehen ist, mit der eine Anzahl von identifizierten Uniphon-Mustern zur Bildung von Wörtern verdrahtet sind, die Ausgangssignale für erkannte gesprochene Wörter liefern.
    309849/0996
DE2326517A 1972-05-26 1973-05-24 Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern Pending DE2326517A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US25725472A 1972-05-26 1972-05-26

Publications (1)

Publication Number Publication Date
DE2326517A1 true DE2326517A1 (de) 1973-12-06

Family

ID=22975512

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2326517A Pending DE2326517A1 (de) 1972-05-26 1973-05-24 Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern

Country Status (7)

Country Link
US (1) US3770892A (de)
JP (1) JPS5412003B2 (de)
CA (1) CA1005914A (de)
DE (1) DE2326517A1 (de)
FR (1) FR2187175A5 (de)
GB (1) GB1418958A (de)
IT (1) IT989203B (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2613258A1 (de) * 1975-04-02 1976-10-21 Rockwell International Corp System zur automatischen spracherkennung
DE2824115A1 (de) * 1977-06-02 1978-12-14 Interstate Electronics Corp Signalmuster-kodierer und -klassifikator
DE3226929A1 (de) * 1981-07-24 1983-02-10 Asulab S.A., 2502 Bienne Sprachgesteuertes geraet
DE3790442C2 (de) * 1986-07-30 1996-05-09 Ricoh Kk Einrichtung zur Berechnung eines Ähnlichkeitsgrades eines Sprachmusters

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3883850A (en) * 1972-06-19 1975-05-13 Threshold Tech Programmable word recognition apparatus
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US3943295A (en) * 1974-07-17 1976-03-09 Threshold Technology, Inc. Apparatus and method for recognizing words from among continuous speech
DE2536640C3 (de) * 1975-08-16 1979-10-11 Philips Patentverwaltung Gmbh, 2000 Hamburg Anordnung zur Erkennung von Geräuschen
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
JPS5272504A (en) * 1975-12-15 1977-06-17 Fuji Xerox Co Ltd Device for recognizing word audio
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system
US4831653A (en) * 1980-11-12 1989-05-16 Canon Kabushiki Kaisha System for registering speech information to make a voice dictionary
JPS5782899A (en) * 1980-11-12 1982-05-24 Canon Kk Voice recognition apparatus
US4454586A (en) * 1981-11-19 1984-06-12 At&T Bell Laboratories Method and apparatus for generating speech pattern templates
GB2126393B (en) * 1982-08-20 1985-12-18 Asulab Sa Speech-controlled apparatus
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
US4797927A (en) * 1985-10-30 1989-01-10 Grumman Aerospace Corporation Voice recognition process utilizing content addressable memory
GB2183880A (en) * 1985-12-05 1987-06-10 Int Standard Electric Corp Speech translator for the deaf
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
GB2234078B (en) * 1989-05-18 1993-06-30 Medical Res Council Analysis of waveforms
DE69203186T2 (de) * 1991-09-20 1996-02-01 Philips Electronics Nv Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze.
EP0590173A1 (de) * 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung
US5706398A (en) * 1995-05-03 1998-01-06 Assefa; Eskinder Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
JP2000221990A (ja) * 1999-01-28 2000-08-11 Ricoh Co Ltd 音声認識装置
US7133827B1 (en) 2002-02-06 2006-11-07 Voice Signal Technologies, Inc. Training speech recognition word models from word samples synthesized by Monte Carlo techniques
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3172954A (en) * 1965-03-09 Acoustic apparatus
US2685615A (en) * 1952-05-01 1954-08-03 Bell Telephone Labor Inc Voice-operated device
US3204030A (en) * 1961-01-23 1965-08-31 Rca Corp Acoustic apparatus for encoding sound
US3234392A (en) * 1961-05-26 1966-02-08 Ibm Photosensitive pattern recognition systems
US3280257A (en) * 1962-12-31 1966-10-18 Itt Method of and apparatus for character recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2613258A1 (de) * 1975-04-02 1976-10-21 Rockwell International Corp System zur automatischen spracherkennung
DE2824115A1 (de) * 1977-06-02 1978-12-14 Interstate Electronics Corp Signalmuster-kodierer und -klassifikator
DE3226929A1 (de) * 1981-07-24 1983-02-10 Asulab S.A., 2502 Bienne Sprachgesteuertes geraet
DE3790442C2 (de) * 1986-07-30 1996-05-09 Ricoh Kk Einrichtung zur Berechnung eines Ähnlichkeitsgrades eines Sprachmusters

Also Published As

Publication number Publication date
JPS5412003B2 (de) 1979-05-19
CA1005914A (en) 1977-02-22
FR2187175A5 (de) 1974-01-11
US3770892A (en) 1973-11-06
JPS4950804A (de) 1974-05-17
IT989203B (it) 1975-05-20
GB1418958A (en) 1975-12-24

Similar Documents

Publication Publication Date Title
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2918533C2 (de)
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE2953262C2 (de)
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69030561T2 (de) Spracherkennungseinrichtung
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE3211313C2 (de)
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE3645118C2 (de)
DE2422028C2 (de) Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort
DE10030105A1 (de) Spracherkennungseinrichtung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE4031638C2 (de)
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3750365T2 (de) Sprecheridentifizierung.
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE19920501A1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
DE69026474T2 (de) System zur Spracherkennung
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE1937464B2 (de) Sprachanalysiergeraet

Legal Events

Date Code Title Description
OHJ Non-payment of the annual fee