DE2021126C3 - Spracherkennungs anordnung - Google Patents

Spracherkennungs anordnung

Info

Publication number
DE2021126C3
DE2021126C3 DE2021126A DE2021126A DE2021126C3 DE 2021126 C3 DE2021126 C3 DE 2021126C3 DE 2021126 A DE2021126 A DE 2021126A DE 2021126 A DE2021126 A DE 2021126A DE 2021126 C3 DE2021126 C3 DE 2021126C3
Authority
DE
Germany
Prior art keywords
signals
signal
arrangement according
mixed
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE2021126A
Other languages
English (en)
Other versions
DE2021126A1 (de
DE2021126B2 (de
Inventor
Stephen Lloyd Cambridge Mass. Moshier (V.St.A.)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dialog Systems Inc Boston Mass (vsta)
Original Assignee
Dialog Systems Inc Boston Mass (vsta)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dialog Systems Inc Boston Mass (vsta) filed Critical Dialog Systems Inc Boston Mass (vsta)
Publication of DE2021126A1 publication Critical patent/DE2021126A1/de
Publication of DE2021126B2 publication Critical patent/DE2021126B2/de
Application granted granted Critical
Publication of DE2021126C3 publication Critical patent/DE2021126C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

Die Erfindung betrifft eine Spracherkennungsanordnung für die Prüfung von Sprachsignalen darstellenden elektrischen Analogsignalcn auf ihre Entsprechung zu einem von mehreren vorgewählten Stimmklängen mit mindestens einer mit den Analogsignalen gespeisten Verzögerungseinrichtung zum Ableiten einer festen Anzahl von unterschiedlich verzögerten Signalen aus jedem elektrischen Eingangssignal.
Eine Spracherkennungsanordnung dieser Art ist in der US-PS 34 00 216 beschrieben. Bei dieser bekannten Sprachcrkcnnungsanordn .ng wird ein zu beurteilendes Sprachsignal zunächst durch ein Filier geleilet und sodann in einem Frcqucnzdiskrimimiior mit Hilfe weiterer Filter in hohe und niedrige Frequenzen unterteilt. Die so erhaltenen Teilsignale werden iiann mit an Anzapfungen je einer Verzögerungsleitung erhaltenen Signalen in Beziehung gesetzt, womit nach Art eines Decodieren eine Digilalinformation erhalten wird, die Eingangssignale für ein Enischcidungsnctzwerk bildet. Eine Bewertung der verschiedenen von den Verzögerungsleitungen abgenommenen Signale hinsichtlich ihrer Entsprechung zu vorgewählten Sprachsignalen oder Stimmklängen erfolgt nicht, die vorgesehene Frcqucnzlrennung dient vielmehr aliein tier Unterscheidung zwischen Vokalen einerseits und bestimmten Konsonanten andererseits.
Bei einer anderen bekannten und in der US-PS 32 02 7b! beschriebenen Anordnung zur Identifizierung von elektrischen Wellenformen werden die zugeluhrlen Eingangssignale mit Ikvugssignalen verglichen, die jinem entsprechenden Speicher entnommen werden. Dabei wird ein mehrmaliger Vergleich vorgenommen, und bei einem Teil dieser Vergleiche wird das Bczugssigni-.l progressiv hi sein „Μ" Phase gegenüber dem zu erkennenden Signal verschoben. Eine Gewichlimg von einzelnen Signalanteilen innerhalb des Eingangssignals erfolgt dagegen nicht, und ebenso wird dieses
bo Signal nicht in eine Mehrzahl von unterschiedlichen verzögerten .Signalen aufgeteilt. Mit Hilfe der bekannten Spraeherkennungsanordnungen ist c'ue genaue Zuordnung eines Eingangssignal zu einem bestimmten Stimmklang und damit eine einwandlreie und eindeutige
b5 Hr 'iinnng eines bestimmten Sprechers nicht möglich, und es ist daher Aufgabe der Erfindung, eine Sprachcrkinnungsanordnung der eingangs erwähnten Art so auszubilden, daß sich unter unmittelbarer
Verarbeitung der eingangsseitigen Sprachsignale deren Zuordnung zu einem von mehreren vorgewählten Stimmklängen in eindeutiger und genauer Weise erhalten läßt.
Die gestellte Aufgabe wird gemäß der Erfindung dadurch gelöst, daß an die Verzögerungseinrichtung für jeden der vorgewählten Stimmklänge eine der Anzahl der verzögerten Signale entsprechende Anzahl vor Bewertungsschaltungen zum Gewichten der verzögerten Signale entsprechend einei den vorgewählten Stimmklängen zugeordneten Charakteristik und eine Mischeinrichtung zum linearen Kombinieren der verzögerten und gewichteten Signale für jeden Stimmklang zu je einem Mischsignal und daran eine Vergleichsein-* richtung angeschlossen sind, die für diejenigen Mischsignale ein Ausgangssignal erzeugt, deren mittlere Amplitude einer vorbestimmten Relation genügt.
Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in Unteransprüchen im einzelnen gekennzeichnet.
Die erfindungsgemäß ausgebildete Spracherkennungsanordnung enthält eine spezielle Konfiguration von Bewertungsschallungen, die eine nach einem vorgegebenen Schema ablaufende Bewertung der verschiedenen verzögerten Signale vornimmt, worauf dann diese bewerteten Signale zu Kombinationssignakn vereinigt werden, die abschließend in einer Vergleichseinrichtung hinsichtlich der Übereinstimmung ihrer mittleren Amplitude mit vorgegebenen Relationen untersucht werden. Dabei laufen alle Vorgänge innerhalb der crfindungsgemäß ausgebildeten Spraeherkennungsanordnung im Realzeitbetrieb ab. und die Anordnung gestattel c:\her eine sofortige Analyse der eintreffenden Sprachsignale noch während des Sprechens selbst. Außerdem ermöglicht die erfindungsgemäß ausgebildete Spracherkenmingsanordnung nicht nur die Erfassung der Sprachsignale hinsichtlich ihres Innalts, sondern auch ihre Zuordnung /ti einer vorgespeicherten Spiacheharakieristik und damit die Erkennung eines bestimmten Sprechers. In diesem Zusammenhang ist von Bedeutung, daß das cingangsscitigc .Sprachsignal vor seiner Einspeisung in die Verzögerungseinrichtung in keiner Weise verzerrt oder sonst beispielsweise durch Filier verändert wird und daß die verschieden verzögerten Signale von der Verzögerungseinrichtung mit konstanten Bewertungsfiiktorjn gcwichtct werden, die ihrerseits v;-r dem Empfang des unbekannten Sprachsignals festgelegt worden sind. Dabei sind die /uvor ausgewählten Stimmkliingc für die Gewiehuing der Signale in l:orm einer begrenzten Anzahl von Gcwichtungskonstanlcn vorgegeben, für die es keines besonderen Speichers bedarf.
In der Zeichnung ist die E'Tindung anhand eines bevorzugten Auslimningsbeispiels veranschaulicht: es zeigt
I'ig. 1 ein Blockschallbild für eine Spracherkennung.anordnung für die Prüfung von Sprachsignale darstellenden elektrischen Analogsignalcn auf ihre Entsprechung zu einem von ■"'■. hiorcn vorgewählten ω Stimmklängen und
Fig. 2 eine Tabelle für Sehwächiingskoeffi/.ienten, wi'j sie im Rahmen der Spracherkennimgsanordnung von I-ig. I für die Gcwichtung von aus den Eingangssignalen gewonnenen verzögerten Signalen zur Ecken- b5 iiung bestimmter Slimmklänge vorgesehen sein können.
Die in Pig. I dargestellte Anordnung dient zur Unterscheidung oder Erkennung verschiedener Stimmklänge, die in einem elektrischen Analogsignal, das an einem Eingangsanschluß 11 eingespeist wird, enthalten oder durch dieses dargestellt sein können. Ein derartiges Analogsigna! kann zum Beispiel direkt von einem Mikrophon gewonnen werden, in das eine Person spricht, oder von einer Aufzeichnung, die vor der Analyse angefertigt wurde. Das gegebene Stimmsignal wird in einem Verstärker 13 mit automatischer Verstärkungsregelung eingespeist, um ein Stimmsignal zu erhalten, das eine im wesentlichen konstante oder vorbestimmte Amplitude hat. Um das Ausgangssignal vom Verstärker 13 auf einem möglichst konstanten Pegel zu halten, ist die Ansprechzeit des Regelkreises für die automatische Verstärkungsregelung vorzugsweise nur etwas langsamer als die niederfrequenteste Stimmkomponente von Bedeutung.
Das Stimmsignal mit konstanter Amplitude, das vom Verstärker 13 abgegeben wird, wird in F i g. 1 einer Verzögerungsleitung 15 mit Anzapfungen 20 bis 29 zugeführt. Es sei jedoch darauf hingewiesen, daß stattdessen auch eine beliebige Verzögerungseinrichtung, die eine Anzahl verschieden verzögerter Signale aus einem gegebenen Eingangssignal erzeugt, verwendet werden kann. Daher kann die Verzögerungsleitung 15 tatsächlich aus einer Anzahl von Verzögerungselementen bestehen, die in Reihe oder parallel geschaltet sind und entweder kontinuierliche Verzögerungsmedien, wie koaxiale oder akustische Verzögerungsleitungen oder Verzögerungsleitungen mit diskreten Bauteilen wie Spulen und Kondensatoren umfassen. Zur Erläuterung soll die Anordnung von Fig. I als eine Phonemerkennungseinrichtung betrachtet werden, das heißt als eine Vorrichtung, die eine Anzahl von Klangen erkennt, die charakteristisch für die menschliche Sprache sind, wenn sie von verschiedenen Personen gesprochen werden. Zu diesem Zweck kann die Verzögerungsleitung 15 zweckmäßigerweise so aufgebaut sein, daß sie eine Gesamtverzögerung von 0.9 msec bewirkt, wobei das Vcrzögcrungsinkrement zwischen aufeinander folgenden Anzapfungen 0.1 msec beträgt. An den Anzapfungen 20 bis 29 der Verzögerungsleitung 15 treten Verzögerungen auf, die von 0,0 auf maximal 0,9 msec zunehmen.
Für jedes zu erkennende Phonem erzeugt die Anordnung .on F i g. 1 ein Mischsignal durch Mischen vorbestimmter Anteile der verschieden verzögerten Signale, die an den Anzapfungen 20 bis 29 erhalten werden. Die dargestellte Anordnung ist dabei so aufgebaut, daß sie vierzehn verschiedene Phoneme erkennen kann, und die entsprechenden Mischsignale werden zu entsprechenden Leitungen A bis N abgenommen. Um Platz in der Zeichnung zu sparen, sind die mittleren Verzögerungslciuingsanzapfungen und die mittleren Mischsignalleitungen zusammen mit deren zugehörigen Baugruppen weggelassen worden. Es ist jedoch ersichtlich, daß diese weggelassenen Bauteile bei im wesentlichen ähnlichem Aufbau mit dem tatsächlich abgebildeten diese zu einer 10 χ I4-Matrix vervollständigen.
Für die Leitung A des ersten Mischsignals beispielsweise wird ein entsprechender vorbestimmter Anteil jedes der verschieden verzögerten Signale durch entsprechend einstellbare Verstärker 31A bis 394 erhalten und in die Leitung A über jeweils einen Mischoder Trenn widerstand RXA bis /?9/t eingespeist. Die einstellbaren Verstärker 31A bis 394 sind so eingestellt, daß sie eine Verstärkung aufweisen, die zwischen +2 und —2 bet.agen kann, so daß die Größe oder das
Gewicht jedes Signalanteils auf einen beliebigen Sollpegel eingestellt und in Vorzeichen oder Phase umgekehrt werden kann. Daher kann der Beitrag von jeder Verzögcrungsleitungsanzapfung im wesentlichen willkürlich benimmt werden. Mischsignale für jedes der verschiedenen zu erkennenden Phoneme werden im wesentlichen m ähnlicher Weise erzeugt, wobei die zugehörigen einstellbaren Verstärker und Mischwiderstände entsprechend mit Bezugszeichen versehen sind, um die zugehörige Anzapfung und die zugehörige Leitung des Mischsignals anzugeben.
Jede Mischsignalleitung A bis N ist jeweils über einen Misch- oder Pufferverstärker 40/1 bis 40Λ/ mit der Verstärkung Eins an jeweils einen Detektor oder Demodulator 4iA bis 4i/V angeschlossen, jeder Demodulator erzeugt ein Spannungssignal, das im wesentlichen proportional zur mittleren Amplitude des in diesen Demodulator eingespeisten Mischsignals ist. Die Signale von den Demodulatoren werden ihrerseits in einen Vergleicher 43 eingespeist. Der Vergleicher 43 bestimmt, welcher der verschiedenen eingespeisten Spannungspegel der niedrigste ist, und erzeugt an einer entsprechenden von Leitungen 45/4 bis 45Λ/είη Signal, das anzeigt, daß das entsprechende Mischsignal die niedrigste mittlere Amplitude der verschiedenen Mischsignale hat. Das vom Vergleicher 43 an einer der Leitungen 45A bis 45N abgegebene Signal kann zweckmäßigerweise die Form eines binären Logiksignals haben, das zum Ansteuern einer digitalen Logikoder Rechnerschaltung geeignet ist. E:ine derartige Schaltung oder Einrichtung zur Logikunalysc kann zusammen mit der dargestellten Anordnung verwendet werden, um weitere Information bezüglich des ursprünglichen Stimmeingangssignals zu liefern. Es ist auch ersichtlich daß digitale Schaltungen, zum Beispiel ein Rechner mit geeigneten peripheren Einrichtungen an »Schnittstellen« zwischen seinen einzelnen Teilen verwendet werden kann, um die eben beschriebenen Vorgänge des Verzögerns, Mischens und Demodulicrens vorzunehmen, wobei an sich bekannte Simulationstechniken angewendet werden, anstatt die vorher beschriebenen Analogelemente vorzusehen.
Da typische Stimmsignale Intervalle von vernachlässigbarer Signalamplitude enthalten, während denen es nicht zweckmäßig wäre, zwischen den verschiedenen möglichen Phonemen zu unterscheiden, wird das Signal aus dem Verstärker 13 auch als Steuersignal in den Vergleicher 43 eingespeist, um die Erzeugung eines Ausgangssignals überhaupt zu verhindern, wenn der Pegel des Stimmeingangssignals unter einen vorbestimmten Pegel fällt.
Bei der praktischen Ausführung wird die Verstärkung jedes der einzelnen Verstärker 31,4 bis 39Λ/ entsprechend einer Charakteristik für den jeweiligen Stimmklang oder das jeweilige Phonems eingestellt, wobei die Einstellung in jedem Fall so vorgenommen wird, daß eine entsprechende Komponente im Stimmklang unterdrückt oder gelöscht wird. Wie bekannt, kann eine derartige Komponente ursprünglich durch Verzögerungsreflexion im Stimmapparat des Sprechers hervorgerufen werden, wenn er das betreffende Phonem spricht In der Praxis können die Verstärker zweckmäßig empirisch eingestellt werden, indem eine Bandschleife verwendet wird, die jedes Phonem aufgezeichnet enthält, um die Anordnung anzusteuern, während die Verstärkungen der jeweiligen Sätze von Verstärkern so eingestellt werden, daß die mittlere Amplitude des jeweiligen Mischsignals auf ein Minimum gebracht wird, wobei jeder Salz von Verstärkern entspreehem einem gegebenen Phonem seinerseits auf diese Weis* eingestellt wird. F i g. 2 zeigt eine Tabelle, die die it diesem Zusammenhang für eine Verzögerungsleitung bestimmten Koeffizienten angibt, nämlich eine Vcr zögerungsleitung wie abgebildet, die zehn Anzapfunger hat, die Verzögerungen schaffen, die stufenweise von (U auf 0.9 msec ansteigt. In dieser Tabelle ist das Phonem das jedem Satz von Mischnetzwerk-Koeffizientcr entspricht, in üblicher Weise zusammen mit einen englischen Wort aufgeführt, das das Phonem enthalt Die gewünschten Verstärkungen können auch numc risch durch ein Programm gemäß der Methode dei kleinsten Quadrate berechnet werden.
Obwohi verständiicherweise Unterschiede von Per son zu Person in der Aussprache dieser verschiedener Phoneme bestehen, ist erkannt worden, daß die Anzah der Anzapfungen, das heißt die Auflösung dei Vorrichtung, so gewählt werden kann, daß sie eine relativ gleichbleibende Erkennung von Phonemen trot/ der Unterschiede der einzelnen Sprecher ergeben. Da; dürfte darauf zurückzuführen sein, daß relativ wenij Unterschiede in der Größe des Kehlkopfes und de; Stimmtrakts bei Erwachsenen auftreten. Entsprechenc sind die Verzögerungen, die die Charakteristik eine; gegebenen Phonems bestimmen, relativ konstant vor Person zu Person. Mit einer Verzögerungsleitung wie abgebildet, die also zehn Anzapfungen aufwies, wurdet Phoneme mit einer Genauigkeit von etwa 90% be Verwendung als Eingangssignale der Stimmen dersel ben Gruppe von sechs Personen, deren Stimmen zui Ziehung der Vorrichtung verwendet worden waren erkannt, das heißt derjenigen Personen, deren Stimmer zur Einstellung der Misch- oder Gewichtskoeffizientcr gemäß der Tabelle in F i g. 2 benutzt worden waren.
Da die dargestellte Anordnung eine Amplitudenmittelung oder -demodulation nur dann vornimmt nachdem die unterschiedlichen Signalkomponenter addiert oder gemischt worden sind, ist ersichtlich, daß die Anordnung im sogenannten Echtzeit- oder Realzeit-Betrieb arbeitet. Das heißt, die Anordnung kann den Phonemgehalt der Stimme eines Sprechers analysieren während dieser spricht. Eine derartige Anordnung ist daher äußert vorteilhaft für eine Anlage zur automatisehen Spracherkennung und -analyse.
Obwohl festgestellt worden ist, daß die Analyse eines Stimmsignals am einfachsten durchgeführt werden kann, indem die verschiedenen Komponenten unterdrückt oder beseitigt werden, die in den verschiedenen
so Phonemen vorhanden sind, und anschließend das kleinsie Ampiiiuuensignai gesucht wird, kann die Analyse auch dadurch erreicht werden, daß die verschiedenen charakteristischen Komponenten wieder erzwungen oder angeregt werden und anschließend die maximale mittlere Amplitude gesucht wird.
Obwohl die Phonemerkennung für einen Personenkreis vorgenommen werden kann, indem ein Verzögerungsleitungsfilter verwendet wird, das eine relativ grobe Auflösung hat, zum Beispiel ein Filter mit zehn Anzapfungen, die eine Gesamtverzögerung von 1 msec wie abgebildet umfassen, kann ein Verzögerungsleitungsfilter mit höherer Auflösung, das heißt, mit mehr Anzapfungen, verwendet werden, um zu bestimmen, ob eine bestimmte Person einen vorbestimmten Klang spricht. Daher kann durch Einstellung der Anzapfungskoeffizienten in einem Verzögerungsleitungsfilter mit relativ hoher Auflösung entsprechend einer gegebenen Person, die einen vorbestimmten Klang oder ein
vorgegebenes Phonem spricht, die dargestellte Anordnung anschließend zur Identifizierung dieser Person benutzt werden. Es ist offensichtlich, daß die Zuverlässigkeit einer derartigen Identifizierung beträchtlich erhöht werden kann, wenn als identifizierende Kriterien eine Anzahl von Phonemen benutzt wird, die die Person nacheinander sprechen muß. Ein gutes Beispiel für eine derartige Anwendung ist die Kreditkartenprüfung, bei der eine Person, die eine Kreditkarte vorzeigt, gebeten werden kann, die Kreditkarten-Nummer zu sprechen. Durch Verwendung der dargestellten Anordnung kann der prüfende Händler dann bestimmen, ob die betreffende Person, die die Nummer aufsagt, zum Gebrauch der Karte autorisiert ist. In Abhängigkeit von der speziellen Anwendung und der erforderlichen Genauigkeit kann die Auflösung der Anordnung, das heißt die Anzahl der verwendeten Anzapfungen, geeignet gewählt werden. Die Erhöhung der Auflösung des Filters führt zu einem zunehmenden Prozentsatz von Zurückweisungen, das heißt zur zunehmenden Anzeige von fehlender Korrespondenz infolge der Nennwertschwankungen in der Stimme eines gegebenen Sprechers. Daher muß ein Kompromiß zwischen Zuverlässigkeit und falscher Zurückweisung erzielt werden, was vom speziellen Verwendungszweck der Anordnung abhängt. Im Extremfall würde die Anordnung nur auf die exakte Aufzeichnung des Klangs ansprechen, für die das Filtermischnetzwerk geeicht worden ist.
Hierzu 2 Blatt Zeichnungen

Claims (10)

Patentansprüche:
1. Spracherkennungsanordnung für die Prüfung von Sprachsignale darstellenden elektrischen Analogsignalen auf ihre Ensprechung zu einem von mehreren vorgewählten Stimmklängen mit mindestens einer mit den Analogsignal gespeisten Verzögerungseinrichtung zum Ableiten einer festen Anzahl von unterschiedlich verzögerten Signalen aus jedem elektrischen Eingangssignal, dadurch gekennzeichnet, daß an die Verzögerungseinrichtung (15) für jeden der vorgewählten Stirnmklänge eine der Anzahl der verzögernden Signale entsprechende Anzahl von Bewertungsschaltungen (31/4 bis.39/VJ zum Gewichten der verzögerten Signale entsprechend einer den vorgewählten Stimmklängen zugeordneten CharaKteristik (F i g. 2) und einer Mischeinrichtung (R \A bis R9N 4OA bis 40N) zum linearen Kombinieren der verzögerten und gewichteten Signale für jeden Stimmklang zu je einem Mischsignal und daran eine Vergleichseinrichtung (4M bis 41/V, 43) angeschlossen sind, die für diejenigen Mischsignale ein Ausgangssignal erzeugt, deren mittlere Amplitude einer vorbestimmten Relation genügt.
2. Anordnung nach Anspruch 1, gekennzeichnet durch einen Verstärker (13) mit automatischer Verstärkungsregelung, der die elektrischen Analogsignale vor ihrer Einspeisung in die Verzögerungseinrichtung (15) auf eine im wesentlichen vorbestimmte mittlere Amplitude bringt.
3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Verzögerungseinrichtung (15) ;ius jedem der elektrischen Analogsignale größcnordnungsniäßig zehn unterschiedlich verzögerte Signale erzeugt.
4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die durch die Vcrzögerungseinridv.iing (15) erzeugten Verzögerungen insgesamt e'wa 1 ms ausmachen.
5. Anordnung nach Anspruch 4, dadurch gekennzeichnet, daß die Verglcieh.seinrichtung Detektoren oder Dcnu'latorcn (4M bis 41 N) für die Einspeisung der Mischsignalc enthält.
6. Anordnung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Mischeinrichtung Baustufen (3M bis 39/Uzur wahl weisen Umkehr der Phase des Beitrags jedes der verzögerten Signale zum Mischsignal aufwci.it.
7. Anordnung nach einem der Ansprüche 1 bis b, dadurch gekennzeichnet, daß zur Feststellung, welcher eine Anzahl von vorgewählten Stimmklüngen durch ein gegebenes elektrisches Analogsignal von im wesentlichen vorbcslimmler mittlerer Amplitude am besten dargestellt wird, die Veigleichseinrichwng(4M bis 41 /V, 43) so aulgebaut ist. daß sie dasjenige der Mischsignale zur Anzeige bringt, dessen mittlere Amplitude in einer vorbestimmten Beziehung zu der mittleren Amplitude der anderen Mischplatte steht.
8. Anordnung nach Anspruch 7, dadurch gekennzeichnet, daß die Vcrgleichseinrichtung (4M bis 41N, 43) ein Ausgangssignal erzeugt, das anzeigt, welches der Mischsignale die kleinste mittlere Amplitude aufweist.
9. Anordnung nach einem der Ansprüche I bis 8, dadurch gekennzeichnet, daß die Verzögerungseinrichtung eine Verzögerungsleitung (15) mit einer
Mehrzahl von Anzapfungen (20 bis 29) ist, an die jeweils eine der Bewertungsschaltungen (3M bis 39N) für die Abnahme und Gewichtung der unterschiedlich verzögerten Signale angeschlossen ist, und daß in der Vergleichseinrichtung für jede der Bewertungsschaltungen ein eigener Detektor oder Demodulator (4M bis 41 N) für die Erzeugung einer jeweils von der mittleren Amplitude des betreffenden Mischsignais abhängigen Signalspannung vorgesehen ist und ein Vergleicher (43) ausgehend von diesen Signalspannungen ein Signal erzeugt, das anzeigt, welches der Mischsignale die kleinste Amplitude aufweist.
10. Anordnung nach Anspruch 9, gekennzeichnet durch eine Einrichtung, die· den Vergleicher (43) abschaltet, wenn die Amplitude eines gegebenen elektrischen Analogrignals unter einen vorbestimmten Pegel abfällt.
DE2021126A 1969-05-26 1970-04-29 Spracherkennungs anordnung Expired DE2021126C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US82777769A 1969-05-26 1969-05-26

Publications (3)

Publication Number Publication Date
DE2021126A1 DE2021126A1 (de) 1970-12-03
DE2021126B2 DE2021126B2 (de) 1979-11-29
DE2021126C3 true DE2021126C3 (de) 1980-08-21

Family

ID=25250140

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2021126A Expired DE2021126C3 (de) 1969-05-26 1970-04-29 Spracherkennungs anordnung

Country Status (6)

Country Link
US (1) US3610831A (de)
JP (1) JPS5144604B1 (de)
CA (1) CA921169A (de)
DE (1) DE2021126C3 (de)
FR (1) FR2048732A5 (de)
GB (1) GB1309700A (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2345980C2 (de) * 1973-09-12 1983-04-14 Siemens AG, 1000 Berlin und 8000 München Mehrfachausnutzung einer Laufzeitkette für eine Schaltungsanordnung zur Sprachauswertung
FR2380612A1 (fr) * 1977-02-09 1978-09-08 Thomson Csf Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif
US4343969A (en) * 1978-10-02 1982-08-10 Trans-Data Associates Apparatus and method for articulatory speech recognition
CA1164569A (en) * 1981-03-17 1984-03-27 Katsunobu Fushikida System for extraction of pole/zero parameter values
ATE41544T1 (de) * 1982-08-04 1989-04-15 Trans Data Associates Einrichtung und verfahren zur spracherkennung unter verwendung von vokaltraktmodell.
US4937872A (en) * 1987-04-03 1990-06-26 American Telephone And Telegraph Company Neural computation by time concentration
US5179624A (en) * 1988-09-07 1993-01-12 Hitachi, Ltd. Speech recognition apparatus using neural network and fuzzy logic
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置
AU6757790A (en) * 1989-11-06 1991-05-31 Summacom, Inc. Speech compression system
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
DE69328275T2 (de) * 1992-06-18 2000-09-28 Seiko Epson Corp Spracherkennungssystem
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2977543A (en) * 1955-03-08 1961-03-28 Hughes Aircraft Co Recognition circuit for pulse code communication systems that provides for variable repetition rates between pulses
US3026475A (en) * 1958-01-13 1962-03-20 Gen Electric Frequency scanning filter arrangement
US2996579A (en) * 1960-01-13 1961-08-15 Gen Dynamics Corp Feedback vocoder
US3069507A (en) * 1960-08-09 1962-12-18 Bell Telephone Labor Inc Autocorrelation vocoder

Also Published As

Publication number Publication date
GB1309700A (en) 1973-03-14
DE2021126A1 (de) 1970-12-03
US3610831A (en) 1971-10-05
JPS5144604B1 (de) 1976-11-30
FR2048732A5 (de) 1971-03-19
CA921169A (en) 1973-02-13
DE2021126B2 (de) 1979-11-29

Similar Documents

Publication Publication Date Title
DE2021126C3 (de) Spracherkennungs anordnung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
EP0296588A2 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE4031638C2 (de)
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE10022586A1 (de) Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
DE1412924A1 (de) Verfahren und Einrichtung zur redundanzarmen Signalabtastung
DE60122257T2 (de) Vorrichtung zur spracherkennung mit referenztransformationsmitteln
DE1194170B (de) Verfahren und Schaltungsanordnung zur Spracherkennung
DE3129353A1 (de) Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen
EP0916206B1 (de) Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals
DE2431458A1 (de) Verfahren zur automatischen sprechererkennung
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE4012337A1 (de) Verfahren zur erkennung von sprache
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung
EP0470411A2 (de) Anpassung von Referenzsprachmustern an umgebungsbedingte Aussprachevarianten
DE3009204C2 (de)
DE3114421A1 (de) Anordnung zur spektralanalyse eines analogsignals

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee