DE2021126C3 - Spracherkennungs anordnung - Google Patents
Spracherkennungs anordnungInfo
- Publication number
- DE2021126C3 DE2021126C3 DE2021126A DE2021126A DE2021126C3 DE 2021126 C3 DE2021126 C3 DE 2021126C3 DE 2021126 A DE2021126 A DE 2021126A DE 2021126 A DE2021126 A DE 2021126A DE 2021126 C3 DE2021126 C3 DE 2021126C3
- Authority
- DE
- Germany
- Prior art keywords
- signals
- signal
- arrangement according
- mixed
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000003111 delayed effect Effects 0.000 claims description 17
- 230000001755 vocal effect Effects 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000001934 delay Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 claims 1
- 210000001061 forehead Anatomy 0.000 claims 1
- 238000000034 method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
Die Erfindung betrifft eine Spracherkennungsanordnung für die Prüfung von Sprachsignalen darstellenden
elektrischen Analogsignalcn auf ihre Entsprechung zu einem von mehreren vorgewählten Stimmklängen mit
mindestens einer mit den Analogsignalen gespeisten Verzögerungseinrichtung zum Ableiten einer festen
Anzahl von unterschiedlich verzögerten Signalen aus jedem elektrischen Eingangssignal.
Eine Spracherkennungsanordnung dieser Art ist in der US-PS 34 00 216 beschrieben. Bei dieser bekannten
Sprachcrkcnnungsanordn .ng wird ein zu beurteilendes Sprachsignal zunächst durch ein Filier geleilet und
sodann in einem Frcqucnzdiskrimimiior mit Hilfe
weiterer Filter in hohe und niedrige Frequenzen unterteilt. Die so erhaltenen Teilsignale werden iiann
mit an Anzapfungen je einer Verzögerungsleitung erhaltenen Signalen in Beziehung gesetzt, womit nach
Art eines Decodieren eine Digilalinformation erhalten
wird, die Eingangssignale für ein Enischcidungsnctzwerk
bildet. Eine Bewertung der verschiedenen von den Verzögerungsleitungen abgenommenen Signale hinsichtlich
ihrer Entsprechung zu vorgewählten Sprachsignalen oder Stimmklängen erfolgt nicht, die vorgesehene
Frcqucnzlrennung dient vielmehr aliein tier
Unterscheidung zwischen Vokalen einerseits und bestimmten Konsonanten andererseits.
Bei einer anderen bekannten und in der US-PS 32 02 7b! beschriebenen Anordnung zur Identifizierung
von elektrischen Wellenformen werden die zugeluhrlen
Eingangssignale mit Ikvugssignalen verglichen, die jinem entsprechenden Speicher entnommen werden.
Dabei wird ein mehrmaliger Vergleich vorgenommen, und bei einem Teil dieser Vergleiche wird das
Bczugssigni-.l progressiv hi sein „Μ" Phase gegenüber dem
zu erkennenden Signal verschoben. Eine Gewichlimg von einzelnen Signalanteilen innerhalb des Eingangssignals
erfolgt dagegen nicht, und ebenso wird dieses
bo Signal nicht in eine Mehrzahl von unterschiedlichen
verzögerten .Signalen aufgeteilt. Mit Hilfe der bekannten Spraeherkennungsanordnungen ist c'ue genaue
Zuordnung eines Eingangssignal zu einem bestimmten Stimmklang und damit eine einwandlreie und eindeutige
b5 Hr 'iinnng eines bestimmten Sprechers nicht möglich,
und es ist daher Aufgabe der Erfindung, eine Sprachcrkinnungsanordnung der eingangs erwähnten
Art so auszubilden, daß sich unter unmittelbarer
Verarbeitung der eingangsseitigen Sprachsignale deren
Zuordnung zu einem von mehreren vorgewählten Stimmklängen in eindeutiger und genauer Weise
erhalten läßt.
Die gestellte Aufgabe wird gemäß der Erfindung dadurch gelöst, daß an die Verzögerungseinrichtung für
jeden der vorgewählten Stimmklänge eine der Anzahl der verzögerten Signale entsprechende Anzahl vor
Bewertungsschaltungen zum Gewichten der verzögerten Signale entsprechend einei den vorgewählten
Stimmklängen zugeordneten Charakteristik und eine Mischeinrichtung zum linearen Kombinieren der verzögerten
und gewichteten Signale für jeden Stimmklang zu je einem Mischsignal und daran eine Vergleichsein-*
richtung angeschlossen sind, die für diejenigen Mischsignale ein Ausgangssignal erzeugt, deren mittlere
Amplitude einer vorbestimmten Relation genügt.
Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in Unteransprüchen im einzelnen
gekennzeichnet.
Die erfindungsgemäß ausgebildete Spracherkennungsanordnung
enthält eine spezielle Konfiguration von Bewertungsschallungen, die eine nach einem
vorgegebenen Schema ablaufende Bewertung der verschiedenen verzögerten Signale vornimmt, worauf
dann diese bewerteten Signale zu Kombinationssignakn vereinigt werden, die abschließend in einer
Vergleichseinrichtung hinsichtlich der Übereinstimmung ihrer mittleren Amplitude mit vorgegebenen
Relationen untersucht werden. Dabei laufen alle Vorgänge innerhalb der crfindungsgemäß ausgebildeten
Spraeherkennungsanordnung im Realzeitbetrieb ab. und die Anordnung gestattel c:\her eine sofortige
Analyse der eintreffenden Sprachsignale noch während des Sprechens selbst. Außerdem ermöglicht die
erfindungsgemäß ausgebildete Spracherkenmingsanordnung
nicht nur die Erfassung der Sprachsignale hinsichtlich ihres Innalts, sondern auch ihre Zuordnung
/ti einer vorgespeicherten Spiacheharakieristik und
damit die Erkennung eines bestimmten Sprechers. In diesem Zusammenhang ist von Bedeutung, daß das
cingangsscitigc .Sprachsignal vor seiner Einspeisung in
die Verzögerungseinrichtung in keiner Weise verzerrt oder sonst beispielsweise durch Filier verändert wird
und daß die verschieden verzögerten Signale von der Verzögerungseinrichtung mit konstanten Bewertungsfiiktorjn
gcwichtct werden, die ihrerseits v;-r dem
Empfang des unbekannten Sprachsignals festgelegt worden sind. Dabei sind die /uvor ausgewählten
Stimmkliingc für die Gewiehuing der Signale in l:orm
einer begrenzten Anzahl von Gcwichtungskonstanlcn vorgegeben, für die es keines besonderen Speichers
bedarf.
In der Zeichnung ist die E'Tindung anhand eines
bevorzugten Auslimningsbeispiels veranschaulicht: es
zeigt
I'ig. 1 ein Blockschallbild für eine Spracherkennung.anordnung
für die Prüfung von Sprachsignale darstellenden elektrischen Analogsignalcn auf ihre
Entsprechung zu einem von ■"'■. hiorcn vorgewählten ω
Stimmklängen und
Fig. 2 eine Tabelle für Sehwächiingskoeffi/.ienten,
wi'j sie im Rahmen der Spracherkennimgsanordnung
von I-ig. I für die Gcwichtung von aus den Eingangssignalen
gewonnenen verzögerten Signalen zur Ecken- b5 iiung bestimmter Slimmklänge vorgesehen sein können.
Die in Pig. I dargestellte Anordnung dient zur Unterscheidung oder Erkennung verschiedener Stimmklänge,
die in einem elektrischen Analogsignal, das an einem Eingangsanschluß 11 eingespeist wird, enthalten
oder durch dieses dargestellt sein können. Ein derartiges Analogsigna! kann zum Beispiel direkt von einem
Mikrophon gewonnen werden, in das eine Person spricht, oder von einer Aufzeichnung, die vor der
Analyse angefertigt wurde. Das gegebene Stimmsignal wird in einem Verstärker 13 mit automatischer
Verstärkungsregelung eingespeist, um ein Stimmsignal zu erhalten, das eine im wesentlichen konstante oder
vorbestimmte Amplitude hat. Um das Ausgangssignal vom Verstärker 13 auf einem möglichst konstanten
Pegel zu halten, ist die Ansprechzeit des Regelkreises für die automatische Verstärkungsregelung vorzugsweise
nur etwas langsamer als die niederfrequenteste Stimmkomponente von Bedeutung.
Das Stimmsignal mit konstanter Amplitude, das vom Verstärker 13 abgegeben wird, wird in F i g. 1 einer
Verzögerungsleitung 15 mit Anzapfungen 20 bis 29 zugeführt. Es sei jedoch darauf hingewiesen, daß
stattdessen auch eine beliebige Verzögerungseinrichtung, die eine Anzahl verschieden verzögerter Signale
aus einem gegebenen Eingangssignal erzeugt, verwendet werden kann. Daher kann die Verzögerungsleitung
15 tatsächlich aus einer Anzahl von Verzögerungselementen bestehen, die in Reihe oder parallel geschaltet
sind und entweder kontinuierliche Verzögerungsmedien, wie koaxiale oder akustische Verzögerungsleitungen
oder Verzögerungsleitungen mit diskreten Bauteilen wie Spulen und Kondensatoren umfassen. Zur
Erläuterung soll die Anordnung von Fig. I als eine Phonemerkennungseinrichtung betrachtet werden, das
heißt als eine Vorrichtung, die eine Anzahl von Klangen
erkennt, die charakteristisch für die menschliche Sprache sind, wenn sie von verschiedenen Personen
gesprochen werden. Zu diesem Zweck kann die Verzögerungsleitung 15 zweckmäßigerweise so aufgebaut
sein, daß sie eine Gesamtverzögerung von 0.9 msec bewirkt, wobei das Vcrzögcrungsinkrement zwischen
aufeinander folgenden Anzapfungen 0.1 msec beträgt. An den Anzapfungen 20 bis 29 der Verzögerungsleitung
15 treten Verzögerungen auf, die von 0,0 auf maximal 0,9 msec zunehmen.
Für jedes zu erkennende Phonem erzeugt die Anordnung .on F i g. 1 ein Mischsignal durch Mischen
vorbestimmter Anteile der verschieden verzögerten Signale, die an den Anzapfungen 20 bis 29 erhalten
werden. Die dargestellte Anordnung ist dabei so aufgebaut, daß sie vierzehn verschiedene Phoneme
erkennen kann, und die entsprechenden Mischsignale werden zu entsprechenden Leitungen A bis N
abgenommen. Um Platz in der Zeichnung zu sparen, sind die mittleren Verzögerungslciuingsanzapfungen
und die mittleren Mischsignalleitungen zusammen mit deren zugehörigen Baugruppen weggelassen worden.
Es ist jedoch ersichtlich, daß diese weggelassenen Bauteile bei im wesentlichen ähnlichem Aufbau mit dem
tatsächlich abgebildeten diese zu einer 10 χ I4-Matrix vervollständigen.
Für die Leitung A des ersten Mischsignals beispielsweise wird ein entsprechender vorbestimmter Anteil
jedes der verschieden verzögerten Signale durch entsprechend einstellbare Verstärker 31A bis 394
erhalten und in die Leitung A über jeweils einen Mischoder Trenn widerstand RXA bis /?9/t eingespeist. Die
einstellbaren Verstärker 31A bis 394 sind so eingestellt,
daß sie eine Verstärkung aufweisen, die zwischen +2 und —2 bet.agen kann, so daß die Größe oder das
Gewicht jedes Signalanteils auf einen beliebigen Sollpegel eingestellt und in Vorzeichen oder Phase
umgekehrt werden kann. Daher kann der Beitrag von jeder Verzögcrungsleitungsanzapfung im wesentlichen
willkürlich benimmt werden. Mischsignale für jedes der verschiedenen zu erkennenden Phoneme werden im
wesentlichen m ähnlicher Weise erzeugt, wobei die zugehörigen einstellbaren Verstärker und Mischwiderstände
entsprechend mit Bezugszeichen versehen sind, um die zugehörige Anzapfung und die zugehörige
Leitung des Mischsignals anzugeben.
Jede Mischsignalleitung A bis N ist jeweils über einen
Misch- oder Pufferverstärker 40/1 bis 40Λ/ mit der
Verstärkung Eins an jeweils einen Detektor oder Demodulator 4iA bis 4i/V angeschlossen, jeder
Demodulator erzeugt ein Spannungssignal, das im wesentlichen proportional zur mittleren Amplitude des
in diesen Demodulator eingespeisten Mischsignals ist. Die Signale von den Demodulatoren werden ihrerseits
in einen Vergleicher 43 eingespeist. Der Vergleicher 43 bestimmt, welcher der verschiedenen eingespeisten
Spannungspegel der niedrigste ist, und erzeugt an einer entsprechenden von Leitungen 45/4 bis 45Λ/είη Signal,
das anzeigt, daß das entsprechende Mischsignal die niedrigste mittlere Amplitude der verschiedenen Mischsignale
hat. Das vom Vergleicher 43 an einer der Leitungen 45A bis 45N abgegebene Signal kann
zweckmäßigerweise die Form eines binären Logiksignals haben, das zum Ansteuern einer digitalen Logikoder
Rechnerschaltung geeignet ist. E:ine derartige Schaltung oder Einrichtung zur Logikunalysc kann
zusammen mit der dargestellten Anordnung verwendet werden, um weitere Information bezüglich des ursprünglichen
Stimmeingangssignals zu liefern. Es ist auch ersichtlich daß digitale Schaltungen, zum Beispiel
ein Rechner mit geeigneten peripheren Einrichtungen an »Schnittstellen« zwischen seinen einzelnen Teilen
verwendet werden kann, um die eben beschriebenen Vorgänge des Verzögerns, Mischens und Demodulicrens
vorzunehmen, wobei an sich bekannte Simulationstechniken angewendet werden, anstatt die vorher
beschriebenen Analogelemente vorzusehen.
Da typische Stimmsignale Intervalle von vernachlässigbarer Signalamplitude enthalten, während denen es
nicht zweckmäßig wäre, zwischen den verschiedenen möglichen Phonemen zu unterscheiden, wird das Signal
aus dem Verstärker 13 auch als Steuersignal in den Vergleicher 43 eingespeist, um die Erzeugung eines
Ausgangssignals überhaupt zu verhindern, wenn der Pegel des Stimmeingangssignals unter einen vorbestimmten
Pegel fällt.
Bei der praktischen Ausführung wird die Verstärkung jedes der einzelnen Verstärker 31,4 bis 39Λ/ entsprechend
einer Charakteristik für den jeweiligen Stimmklang oder das jeweilige Phonems eingestellt, wobei die
Einstellung in jedem Fall so vorgenommen wird, daß eine entsprechende Komponente im Stimmklang
unterdrückt oder gelöscht wird. Wie bekannt, kann eine
derartige Komponente ursprünglich durch Verzögerungsreflexion im Stimmapparat des Sprechers hervorgerufen
werden, wenn er das betreffende Phonem spricht In der Praxis können die Verstärker zweckmäßig
empirisch eingestellt werden, indem eine Bandschleife verwendet wird, die jedes Phonem aufgezeichnet
enthält, um die Anordnung anzusteuern, während die Verstärkungen der jeweiligen Sätze von Verstärkern
so eingestellt werden, daß die mittlere Amplitude des jeweiligen Mischsignals auf ein Minimum gebracht
wird, wobei jeder Salz von Verstärkern entspreehem einem gegebenen Phonem seinerseits auf diese Weis*
eingestellt wird. F i g. 2 zeigt eine Tabelle, die die it diesem Zusammenhang für eine Verzögerungsleitung
bestimmten Koeffizienten angibt, nämlich eine Vcr zögerungsleitung wie abgebildet, die zehn Anzapfunger
hat, die Verzögerungen schaffen, die stufenweise von (U auf 0.9 msec ansteigt. In dieser Tabelle ist das Phonem
das jedem Satz von Mischnetzwerk-Koeffizientcr entspricht, in üblicher Weise zusammen mit einen
englischen Wort aufgeführt, das das Phonem enthalt Die gewünschten Verstärkungen können auch numc
risch durch ein Programm gemäß der Methode dei kleinsten Quadrate berechnet werden.
Obwohi verständiicherweise Unterschiede von Per
son zu Person in der Aussprache dieser verschiedener Phoneme bestehen, ist erkannt worden, daß die Anzah
der Anzapfungen, das heißt die Auflösung dei Vorrichtung, so gewählt werden kann, daß sie eine
relativ gleichbleibende Erkennung von Phonemen trot/ der Unterschiede der einzelnen Sprecher ergeben. Da;
dürfte darauf zurückzuführen sein, daß relativ wenij Unterschiede in der Größe des Kehlkopfes und de;
Stimmtrakts bei Erwachsenen auftreten. Entsprechenc sind die Verzögerungen, die die Charakteristik eine;
gegebenen Phonems bestimmen, relativ konstant vor Person zu Person. Mit einer Verzögerungsleitung wie
abgebildet, die also zehn Anzapfungen aufwies, wurdet
Phoneme mit einer Genauigkeit von etwa 90% be Verwendung als Eingangssignale der Stimmen dersel
ben Gruppe von sechs Personen, deren Stimmen zui Ziehung der Vorrichtung verwendet worden waren
erkannt, das heißt derjenigen Personen, deren Stimmer zur Einstellung der Misch- oder Gewichtskoeffizientcr
gemäß der Tabelle in F i g. 2 benutzt worden waren.
Da die dargestellte Anordnung eine Amplitudenmittelung oder -demodulation nur dann vornimmt
nachdem die unterschiedlichen Signalkomponenter addiert oder gemischt worden sind, ist ersichtlich, daß
die Anordnung im sogenannten Echtzeit- oder Realzeit-Betrieb arbeitet. Das heißt, die Anordnung kann den
Phonemgehalt der Stimme eines Sprechers analysieren während dieser spricht. Eine derartige Anordnung ist
daher äußert vorteilhaft für eine Anlage zur automatisehen Spracherkennung und -analyse.
Obwohl festgestellt worden ist, daß die Analyse eines Stimmsignals am einfachsten durchgeführt werden
kann, indem die verschiedenen Komponenten unterdrückt oder beseitigt werden, die in den verschiedenen
so Phonemen vorhanden sind, und anschließend das kleinsie Ampiiiuuensignai gesucht wird, kann die
Analyse auch dadurch erreicht werden, daß die verschiedenen charakteristischen Komponenten wieder
erzwungen oder angeregt werden und anschließend die maximale mittlere Amplitude gesucht wird.
Obwohl die Phonemerkennung für einen Personenkreis vorgenommen werden kann, indem ein Verzögerungsleitungsfilter
verwendet wird, das eine relativ grobe Auflösung hat, zum Beispiel ein Filter mit zehn
Anzapfungen, die eine Gesamtverzögerung von 1 msec wie abgebildet umfassen, kann ein Verzögerungsleitungsfilter
mit höherer Auflösung, das heißt, mit mehr Anzapfungen, verwendet werden, um zu bestimmen, ob
eine bestimmte Person einen vorbestimmten Klang spricht. Daher kann durch Einstellung der Anzapfungskoeffizienten in einem Verzögerungsleitungsfilter mit
relativ hoher Auflösung entsprechend einer gegebenen Person, die einen vorbestimmten Klang oder ein
vorgegebenes Phonem spricht, die dargestellte Anordnung anschließend zur Identifizierung dieser Person
benutzt werden. Es ist offensichtlich, daß die Zuverlässigkeit einer derartigen Identifizierung beträchtlich
erhöht werden kann, wenn als identifizierende Kriterien eine Anzahl von Phonemen benutzt wird, die die Person
nacheinander sprechen muß. Ein gutes Beispiel für eine derartige Anwendung ist die Kreditkartenprüfung, bei
der eine Person, die eine Kreditkarte vorzeigt, gebeten werden kann, die Kreditkarten-Nummer zu sprechen.
Durch Verwendung der dargestellten Anordnung kann der prüfende Händler dann bestimmen, ob die
betreffende Person, die die Nummer aufsagt, zum Gebrauch der Karte autorisiert ist. In Abhängigkeit von
der speziellen Anwendung und der erforderlichen Genauigkeit kann die Auflösung der Anordnung, das
heißt die Anzahl der verwendeten Anzapfungen, geeignet gewählt werden. Die Erhöhung der Auflösung
des Filters führt zu einem zunehmenden Prozentsatz von Zurückweisungen, das heißt zur zunehmenden
Anzeige von fehlender Korrespondenz infolge der Nennwertschwankungen in der Stimme eines gegebenen
Sprechers. Daher muß ein Kompromiß zwischen Zuverlässigkeit und falscher Zurückweisung erzielt
werden, was vom speziellen Verwendungszweck der Anordnung abhängt. Im Extremfall würde die Anordnung
nur auf die exakte Aufzeichnung des Klangs ansprechen, für die das Filtermischnetzwerk geeicht
worden ist.
Hierzu 2 Blatt Zeichnungen
Claims (10)
1. Spracherkennungsanordnung für die Prüfung von Sprachsignale darstellenden elektrischen Analogsignalen
auf ihre Ensprechung zu einem von mehreren vorgewählten Stimmklängen mit mindestens
einer mit den Analogsignal gespeisten Verzögerungseinrichtung zum Ableiten einer festen
Anzahl von unterschiedlich verzögerten Signalen aus jedem elektrischen Eingangssignal, dadurch
gekennzeichnet, daß an die Verzögerungseinrichtung (15) für jeden der vorgewählten Stirnmklänge
eine der Anzahl der verzögernden Signale entsprechende Anzahl von Bewertungsschaltungen
(31/4 bis.39/VJ zum Gewichten der verzögerten
Signale entsprechend einer den vorgewählten Stimmklängen zugeordneten CharaKteristik (F i g. 2)
und einer Mischeinrichtung (R \A bis R9N 4OA bis 40N) zum linearen Kombinieren der verzögerten
und gewichteten Signale für jeden Stimmklang zu je einem Mischsignal und daran eine Vergleichseinrichtung
(4M bis 41/V, 43) angeschlossen sind, die für diejenigen Mischsignale ein Ausgangssignal erzeugt,
deren mittlere Amplitude einer vorbestimmten Relation genügt.
2. Anordnung nach Anspruch 1, gekennzeichnet durch einen Verstärker (13) mit automatischer
Verstärkungsregelung, der die elektrischen Analogsignale vor ihrer Einspeisung in die Verzögerungseinrichtung
(15) auf eine im wesentlichen vorbestimmte mittlere Amplitude bringt.
3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Verzögerungseinrichtung (15) ;ius
jedem der elektrischen Analogsignale größcnordnungsniäßig zehn unterschiedlich verzögerte Signale
erzeugt.
4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die durch die Vcrzögerungseinridv.iing
(15) erzeugten Verzögerungen insgesamt e'wa 1 ms ausmachen.
5. Anordnung nach Anspruch 4, dadurch gekennzeichnet,
daß die Verglcieh.seinrichtung Detektoren oder Dcnu'latorcn (4M bis 41 N) für die Einspeisung
der Mischsignalc enthält.
6. Anordnung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Mischeinrichtung
Baustufen (3M bis 39/Uzur wahl weisen Umkehr der
Phase des Beitrags jedes der verzögerten Signale zum Mischsignal aufwci.it.
7. Anordnung nach einem der Ansprüche 1 bis b, dadurch gekennzeichnet, daß zur Feststellung,
welcher eine Anzahl von vorgewählten Stimmklüngen durch ein gegebenes elektrisches Analogsignal
von im wesentlichen vorbcslimmler mittlerer Amplitude am besten dargestellt wird, die Veigleichseinrichwng(4M
bis 41 /V, 43) so aulgebaut ist. daß sie dasjenige der Mischsignale zur Anzeige
bringt, dessen mittlere Amplitude in einer vorbestimmten Beziehung zu der mittleren Amplitude der
anderen Mischplatte steht.
8. Anordnung nach Anspruch 7, dadurch gekennzeichnet, daß die Vcrgleichseinrichtung (4M bis
41N, 43) ein Ausgangssignal erzeugt, das anzeigt,
welches der Mischsignale die kleinste mittlere Amplitude aufweist.
9. Anordnung nach einem der Ansprüche I bis 8, dadurch gekennzeichnet, daß die Verzögerungseinrichtung
eine Verzögerungsleitung (15) mit einer
Mehrzahl von Anzapfungen (20 bis 29) ist, an die jeweils eine der Bewertungsschaltungen (3M bis
39N) für die Abnahme und Gewichtung der unterschiedlich verzögerten Signale angeschlossen
ist, und daß in der Vergleichseinrichtung für jede der Bewertungsschaltungen ein eigener Detektor oder
Demodulator (4M bis 41 N) für die Erzeugung einer jeweils von der mittleren Amplitude des betreffenden
Mischsignais abhängigen Signalspannung vorgesehen ist und ein Vergleicher (43) ausgehend von
diesen Signalspannungen ein Signal erzeugt, das anzeigt, welches der Mischsignale die kleinste
Amplitude aufweist.
10. Anordnung nach Anspruch 9, gekennzeichnet durch eine Einrichtung, die· den Vergleicher (43)
abschaltet, wenn die Amplitude eines gegebenen elektrischen Analogrignals unter einen vorbestimmten
Pegel abfällt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US82777769A | 1969-05-26 | 1969-05-26 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2021126A1 DE2021126A1 (de) | 1970-12-03 |
DE2021126B2 DE2021126B2 (de) | 1979-11-29 |
DE2021126C3 true DE2021126C3 (de) | 1980-08-21 |
Family
ID=25250140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2021126A Expired DE2021126C3 (de) | 1969-05-26 | 1970-04-29 | Spracherkennungs anordnung |
Country Status (6)
Country | Link |
---|---|
US (1) | US3610831A (de) |
JP (1) | JPS5144604B1 (de) |
CA (1) | CA921169A (de) |
DE (1) | DE2021126C3 (de) |
FR (1) | FR2048732A5 (de) |
GB (1) | GB1309700A (de) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2345980C2 (de) * | 1973-09-12 | 1983-04-14 | Siemens AG, 1000 Berlin und 8000 München | Mehrfachausnutzung einer Laufzeitkette für eine Schaltungsanordnung zur Sprachauswertung |
FR2380612A1 (fr) * | 1977-02-09 | 1978-09-08 | Thomson Csf | Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif |
US4343969A (en) * | 1978-10-02 | 1982-08-10 | Trans-Data Associates | Apparatus and method for articulatory speech recognition |
CA1164569A (en) * | 1981-03-17 | 1984-03-27 | Katsunobu Fushikida | System for extraction of pole/zero parameter values |
ATE41544T1 (de) * | 1982-08-04 | 1989-04-15 | Trans Data Associates | Einrichtung und verfahren zur spracherkennung unter verwendung von vokaltraktmodell. |
US4937872A (en) * | 1987-04-03 | 1990-06-26 | American Telephone And Telegraph Company | Neural computation by time concentration |
US5179624A (en) * | 1988-09-07 | 1993-01-12 | Hitachi, Ltd. | Speech recognition apparatus using neural network and fuzzy logic |
JP2764277B2 (ja) * | 1988-09-07 | 1998-06-11 | 株式会社日立製作所 | 音声認識装置 |
AU6757790A (en) * | 1989-11-06 | 1991-05-31 | Summacom, Inc. | Speech compression system |
US5440661A (en) * | 1990-01-31 | 1995-08-08 | The United States Of America As Represented By The United States Department Of Energy | Time series association learning |
DE69328275T2 (de) * | 1992-06-18 | 2000-09-28 | Seiko Epson Corp | Spracherkennungssystem |
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2977543A (en) * | 1955-03-08 | 1961-03-28 | Hughes Aircraft Co | Recognition circuit for pulse code communication systems that provides for variable repetition rates between pulses |
US3026475A (en) * | 1958-01-13 | 1962-03-20 | Gen Electric | Frequency scanning filter arrangement |
US2996579A (en) * | 1960-01-13 | 1961-08-15 | Gen Dynamics Corp | Feedback vocoder |
US3069507A (en) * | 1960-08-09 | 1962-12-18 | Bell Telephone Labor Inc | Autocorrelation vocoder |
-
1969
- 1969-05-26 US US827777A patent/US3610831A/en not_active Expired - Lifetime
-
1970
- 1970-04-07 CA CA079396A patent/CA921169A/en not_active Expired
- 1970-04-08 GB GB1656970A patent/GB1309700A/en not_active Expired
- 1970-04-16 JP JP45032015A patent/JPS5144604B1/ja active Pending
- 1970-04-29 DE DE2021126A patent/DE2021126C3/de not_active Expired
- 1970-05-22 FR FR7018836A patent/FR2048732A5/fr not_active Expired
Also Published As
Publication number | Publication date |
---|---|
GB1309700A (en) | 1973-03-14 |
DE2021126A1 (de) | 1970-12-03 |
US3610831A (en) | 1971-10-05 |
JPS5144604B1 (de) | 1976-11-30 |
FR2048732A5 (de) | 1971-03-19 |
CA921169A (en) | 1973-02-13 |
DE2021126B2 (de) | 1979-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2021126C3 (de) | Spracherkennungs anordnung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
EP0296588A2 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE4031638C2 (de) | ||
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung | |
DE102014207437B4 (de) | Spracherkennung mit einer Mehrzahl an Mikrofonen | |
DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
DE1412924A1 (de) | Verfahren und Einrichtung zur redundanzarmen Signalabtastung | |
DE60122257T2 (de) | Vorrichtung zur spracherkennung mit referenztransformationsmitteln | |
DE1194170B (de) | Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE3129353A1 (de) | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen | |
EP0916206B1 (de) | Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals | |
DE2431458A1 (de) | Verfahren zur automatischen sprechererkennung | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE4012337A1 (de) | Verfahren zur erkennung von sprache | |
EP0834859B1 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung | |
EP0470411A2 (de) | Anpassung von Referenzsprachmustern an umgebungsbedingte Aussprachevarianten | |
DE3009204C2 (de) | ||
DE3114421A1 (de) | Anordnung zur spektralanalyse eines analogsignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |