DE2021126A1 - Spracherkennungsvorrichtung - Google Patents
SpracherkennungsvorrichtungInfo
- Publication number
- DE2021126A1 DE2021126A1 DE19702021126 DE2021126A DE2021126A1 DE 2021126 A1 DE2021126 A1 DE 2021126A1 DE 19702021126 DE19702021126 DE 19702021126 DE 2021126 A DE2021126 A DE 2021126A DE 2021126 A1 DE2021126 A1 DE 2021126A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- predetermined
- signals
- mixed
- given
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001755 vocal effect Effects 0.000 claims description 24
- 230000003111 delayed effect Effects 0.000 claims description 15
- 230000001934 delay Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
202112$
Dipl.-Jng. R. ΠΑ-.ΕΤΖ sen.
Dip!-in;,. K. L Y.i"~ !CHT
Dr.-Ing. R. U J. ;C"i" Z Jr.
8 München 22, Steinadoristr. 10
■ 65-15.641P 29.4.1970
Listening, Incorporated, Arlington (Mass.)* V.St.A.
Spracherkennungsvorrichtung
Die Erfindung betrifft eine Spracherkennungsvorrichtung, insbesondere zur Identifizierung mehrerer vorbestimmter
Klänge menschlicher Stimme (kurz Stimmklänge).
Es sind bereits verschiedene Versuche unternommen worden, eine Vorrichtung zu schaffen, die die menschliche
Sprache erkennt oder Personen aufgrund der ihnen eigenen Stimmcharakteristik identifiziert. Letztere werden manchmal Stimmabdriicke genannt. Unter diesen Versuchen befindet
sich die Spektralanalyse einschließlich der Verwendung
einer Pourier-Transformierten und Auto- oder Kreuzkorrelatiori,
Entsprechend diesen Prinzipien sind verschiedene Vorrichtungen entwickelt worden, die Jedoch nur bedingt
einsatzfähig sind. Gegenwärtig ist man der Auffassung, daß
65-(827 777)-Hd-r (7)
009849/1287
die Beschränkung der Einsatzfähigkeit in einem gewissen
Grad auf die Amplitudenmittelung zurückzuführen ist, die zu einem frühen Zeitpunkt bei diesen bekannten Vorrichtungen
stattfindet und die vermutlich einen Verlust an Phaseninformation bewirkt.
Es ist Aufgabe der Erfindung, eine Vorrichtung zu schaffen, die Stimmklänge identifiziert, Phoneme erkennt,
einen Sprecher an seiner Stimmcharakteristik identifiziert,
in Echtzeit oder Real time und genau arbeitet μηά
schließlich einen einfachen Aufbau hat.
Der Erfindung liegt die Betrachtung des menschlichen Stimmsystems als unvollkommener Informationsübertragungskanal zugrunde, der durch weißes Rauschen oder ein Impulseingangssignal
angesteuert wird. Die Stimmbandimpulse und die Bewegung der Luft während stimmloser Sprache sind betriebsfertige
Impulse und Weißes-Rauschen-Testsignale zur Ansteuerung des Stimmtrakts (Rachen- und Mundhohlraums
bzw. des Schallwegs bei der Sprachbildung) entsprechend diesem Modell. Der Stimmtrakt dient dazu, eine Zeitspreizung
zu erzeugen, und zwar durch Innenreflexionen im Stimmtrakt, die jeder Stimme, ihren charakteristischen
Klang oder die Klangfarbe gibt. Anders ausgedrückt, der Sfcimmtrakt hat den Zweck, Energie aus dem Ansteuersignal
zu speichern und diese später dazu zu addieren, so daß eine Erhöhung der mittleren Ausgangsleistung im Vergleich
zu dem Fall eintritt, daß die Wände des Stimmtrakts nicht reflektierend wären.
Erfindungsgemäß wird der unvollkommene Kanal, das heißt der Stimmtrakt bei einer besonderen Sprachetruktur
analysiertj, indem der unvollkommene Kanal einem Verzöge-
009849/ 1287
rungsleitungsfilter zugeordnet wird, das den zu analysierenden
Kanal so anpaßt oder ergänzt, daß das ursprüngliche
Eingangssignal in Form weißen Rauschens minimalisiert
oder wiedergewonnen wird.
Durch die erfindungsgemäße Vorrichtung wird bestimmt,
ob ein gegebenes Eingangssignal einem vorbestimmten Stimmklang
entspricht. Sie verwendet eine Verzögerungseinrichtung,
die eine Anzahl unterschiedlich verzögerter Signale aus dem Eingangssignal erzeugt. Entsprechende vorbestimmte
Teile von jedem der verzögerten Signale werden gemischt, um ein Mischsignal zu erhalten, wobei der Beitrag oder das
Gewicht von jedem verzögerten Signal als Funktion einer entsprechenden Charakteristik des vorbestimmten Stimmklangs
bewertet oder gewichtet ist. Die erfindungsgemäße
Vorrichtung hat auch eine Einrichtung zur Erzeugung eines Ausgangssignals, wenn die mittlere Amplitude des Mischsignals
eine vorbestimmte Schwelle überschreitet, um anzuzeigen, daß das Eingangssignal dem vorbestimmten Stimmklang
entspricht.
Die Erfindung wird anhand der Zeichnung näher erläutert. Es zeigen:
Fig. 1 das Blockschaltbild einer Phonemerkennungsvorrichtung gemäß der Erfindung; und
Fig. 2 eine Tabelle von Sehwäclrungskoef fizienten, die
für die verrichtung von Fig. 1 vorgesehen sein
können, damxt diese eine Anzahl vorbestimmter Phoneme erkennt.
009849712*7
Die in Fig. 1 abgebildete Vorrichtung dient zur Unterscheidung oder Erkennung verschiedener Stimmklänge,
die in einem Stimmeingangssignal, das in einen Eingangsanschluß 11 eingespeist wird, enthalten oder durch dieses
dargestellt sein können. Ein derartiges Eingangssignal
kann zum Beispiel direkt von einem Mikrophon gewonnen werden, in das eine Person spricht, oder von einer Aufzeichnung,
die vor der durch die erfindungsgemäße Vorrichtung
gemachten Analyse angefertigt wurde. Das gegebene Stimmsignal wird in einen Verstärker 13 mit automatischer
Verstärkungsregelung eingespeist, um ein Stimmsignal zu erhalten, das eine im wesentlichen konstante
oder vorbestimmte Amplitude hat. Um das Ausgangssignal
vom Verstärker 13 auf einen möglichst konstanten Pegel zu halten, ist die Ansprechzeit des Regelkreises für die
automatische Verstärkungsregelung vorzugsweise nur etwas
langsamer als die niederfrequenteste Stimmkomponente von Bedeutung.
Das Stimmsignal mit konstanter Amplitude, das vom Verstärker 13 abgegeben wird, wird in eine angezapfte Verzögerungsleitung
15 geleitet. Obwohl die Verzögerungsleitung 15 zweckmäßigerweise als angezapft beschrieben ist,
soll darauf hingewiesen werden, daß eine beliebige Verzögerungseinrichtung, die eine Anzahl verschieden verzögerter
Signale aus einem gegebenen Eingangssignal erzeugt, verwendet werden kann. Daher kann die Verzögerungsleitung
15 tatsächlich aus einer Anzahl von Verzögerungselementen bestehen, die in Reihe oder parallel geschaltet sind, und
entweder kontinuierliche Verzögerungsmedien, zum Beispiel koaxiale oder akustische Verzögerungsleitungen, oder Verzögerungsleitungen
mit diskreten Bauteilen, zum1 Beispiel Spulen und Kondensatoren, umfassen. Zur Erläuterung soll
0098A9/12 87
die Vorrichtung von Fig. 1 als Phonemerkennungsvorrichtung
angenommen werden, das heißt als Vorrichtung, die eine Anzahl von Klängen erkennt, die charakteristisch
für die menschliche Sprache sind, wenn sie von verschiedenen Personen gesprochen werden. Zu diesem Zweck kann
die Verzögerungsleitung 15 zweckmäßigerweise so aufgebaut sein, daß sie eine Gesamtverzögerung von 0,9 msec
bewirkt, wobei das Verzögerungsinkrement zwischen aufeinander folgenden Anzapfungen O,1 msec beträgt. Die Ausgangsleitungen oder Anzapfungen der Verzögerungsleitung
15 sind mit 20 bis 29 bezeichnet und erzeugen Verzögerungen,
die nacheinander von 0,0 auf maximal 0,9 msec Verzögerung ansteigen.
Für jedes zu erkennende Phonem erzeugt die Vorrichtung von Fig. 1 ein Mischsignal durch Mischen vorbestimmter
Anteile der verschieden verzögerten Signale, die- von
den Anzapfungen 20 bis 29 erhalten sind. Die abgebildete Phonemerkennungsvorrichtung ist so aufgebaut, daß sie vierzehn
verschiedene Phoneme erkennt, und die entsprechenden
Mischsignale werden an entsprechenden Leitungen A-N abgenommen. Um Platz in der Zeichnung zu sparen, sind die mittleren
Verzögerungsleitungsanzapfungen und die mittleren Mischsignalleltungen zusammen mit deren zugehörigen Baugruppen
weggelassen worden0 Es ist jedoch ersichtlich,
daß diese weggelassenen Bauteile im wesentlichen ähnlich dem tatsächlich abgebildeten sind und so eine 10 χ 1U-Matrix
vervollständigen. ·
Für die Leitung A des ersten Mischsignals beispielsweise
wird ein entsprechender vorbestimmter Anteil jedes der verschieden verzögerten Signale durch entsprechend
einstellbare Verstärker 31A - 39A erhalten und In die
'■Λ'-ο ν 128?
Leitung A über jeweils einen Misch- oder Trennwiderstand
R1A - R9A eingespeist. Die einstellbaren Verstärker sind
so eingestellt, daß sie eine Verstärkung zeigen, die zwischen +2 und -2 betragen kann, so daß die Größe oder das
Gewicht jedes Signalanteils auf einen beliebigen Sollpegel eingestellt und in Vorzeichen oder Phase umgekehrt werden
kann. Daher kann der Beitrag von jeder Verzögerungsleitungsanzapfung im wesentlichen willkürlich bestimmt werfe
den. Mischsignale für jedes der verschiedenen zu erkennenden Phoneme werden im wesentlichen in ähnlicher Weise erzeugt,
wobei die zugehörigen einstellbaren Verstärker und Mischwiderstände entsprechend mit Bezugszeichen versehen
sind, um die zugehörige Anzapfung und die zugehörige Leitung des Mischsignals anzugeben.
Jede Mischsignalleitung A-N ist jeweils über einen Misch- oder Pufferverstärker 4OA - 4ON mit der Verstärkung
Bins an jeweils einen Detektor oder Demodulator 41A
-UlN angeschlossen» Jeder Demodulator erzeugt ein Spannungssignal,
das im wesenblichen proportional zur mittleren Amplitude des in diesen Demodulator eingespeisten
" Mischsignals ist. Die Signale von den Demodulatoren werden ihrerseits in einen Vergleicher 43 eingespeist. Der,
Vergleicher bestimmt, welcher der verschiedenen eingespeisten Spannungspegel der niedrigste ist, und erzeugt
in einer entsprechenden von Leitungen 45A - 45N ein Signal,
das anzeigt, daß das entsprechende Mischsignal die niedrigste mittlere Amplitude der verschiedenen Mischsignale
hat ο Da3 vom Vergloicher an einer der Leitungen
45A - 45N abgegebene Signal kann zweckmäßigerweise die
Form eines binären Logiksignals haben, das zum Ansteuern
einer digitalen Logik- oder Rechnersohaltung geeignet ist.
Eine derartige Schaltung oder Einrichtung zur Logikanalyse
kann mit der abgebildeten Vorrichtung zusammen verwendet
werden, um weitere Information bezüglich, des ursprünglichen
Stimmeingangssignals zu liefern. Es ist auch ersichtlich,
daß digitale Schaltungen, zum Beispiel ein Rechner mit geeigneten peripheren oder (interface) Einrichtungen an
"Schnittstellen" zwischen seinen einzelnen Teilen verwendet werden kann, um die eben beschriebenen Vorgänge des
Verzögerns, Mischens und Demodulierens vorzunehmen, wobei
an sich bekannte Simulationstechniken angewendet werden,
anstatt die vorher beschriebenen Analogelemente vorzusehen.
Die Patentansprüche sind also so zu lesen, daß sie auch
derartige Xquivalente umfassen.
Da typische Stimmsignale Intervalle von vernachlässigbarer Signalamplitude enthalten, während denen es nicht
zweckmäßig wäre, zwischen den verschiedenen möglichen Phonemen zu unterscheiden, wird das Signal vom Verstärker
in den Vergleicher hj auch als Gattersignal eingespeist,
um die Erzeugung eines Ausgangssignals Ub&rhaupt zu verhindern,
wenn der Pegel des Stiinmeiiigangssignals unter
einen vorbestimmten Pegel fällt.
Bei der praktischen Ausführung wird die Verstärkung
jedes der einzelnen Verstärker 31A - 39N entsprechend einer
Charakteristik des jeweiligen Stimmklangs oder Phonems eingestellt, wobei die Einstellung in jedem Fall so vorgenommen wird, daß eine entsprechende Komponente im Stimmklang
unterdrückt oder gelöscht wird. Wie bereits erwähnt
wurde, kann eine derartige Komponente ursprünglich durch
Verzogerungsreflexiort ι St-jmmapparat des Sprechers hervorgerufen werden, wenn er das betreffende Phonem spricht.
In der Praxis können die Verstärker zweckmäßig empirisch
eingestellt werden, indem eine Bandschleife verwendet wird,
009M97 1287
die jedes Phonem aufgezeichnet enthält, um die Vorrichtung
anzusteuern, während die Verstärkungen der jeweiligen Sätze von Verstärkern so eingestellt werden, daß die mittlere
Amplitude des jeweiligen Mischsignals auf ein Minimum gebracht wird, wobei jeder Satz von Verstärkern entsprechend
einem gegebenen Phonem seinerseits auf diese Weise eingestellt wird. Fig. 2 zeigt eine Tabelle, die
die in diesem Zusammenhang für eine Verzögerungsleitung bestimmten Koeffizienten angibt, nämlich eine Verzögerungsleitung
wie abgebildet, die zehn Anzapfungen hat, die Verzögerungen schaffen, die stufenweise von 0,0 auf
0,9 msec ansteigt. In dieser Tabelle ist das Phonem, das jedem Satz von Mischnetzwerk-Koeffizienten entspricht, in
üblicher Weise zusammen mit einem englischen Wort aufgeführt, das das Phonem enthält» Die gewünschten Verstärkungen
können auch numerisch durch ein Programm gemäß der Methode der kleinsten Quadrate berechnet werden.
Obwohl verständlicherweise Unterschiede von Person zu Person in der Aussprache dieser verschiedenen Phoneme
bestehen, ist erkannt worden, daß die Anzahl der Anzapfungen, das heißt die Auflösung der Vorrichtung, so gewählt
werden kann, daß sie eine relativ gleichbleibende Erkennung von Phonemen trotz der Unterschiede der einzelnen
Sprecher ergeben. Das dürfte darauf zurückzuführen sein, daß relativ wenig Unterschiede in der Größe des
Kehlkopfes und des Stimmtrakts bei Erwachsenen auftreten. Entsprechend sind die Verzögerungen, die die Charakteristik
eines gegebenen Phonems bestimmen, relativ konstant von Person zu Person. Mit einer Verzögerungsleitung
wie abgebildet, die also zehn Anzapfungen aufwies, wurden Phoneme mit einer Genauigkeit von etwa 90 ^ bei
Verwendung als Eingangssignale der Stimmen derselben
009849/1287
Gruppe von sechs Personen, deren Stimmen zur Kalibrierung
der Vorrichtung verwendet worden waren, erkannt, das heißt
derjenigen Personen, deren Stimmen zur Einstellung der Misch- oder Gewichtskoeffizienten gemäß der Tabelle in
Fig. 2 benutzt worden waren.
Da die erfindungsgemäße Vorrichtung eine Amplitudenmittelung oder -demodulation nur dann vornimmt, nachdem
die unterschiedlichen Signalkomponenten addiert oder gemischt worden sind, ist ersichtlidi, daß die Vorrichtung
im sogenannten·Echtzeit- oder Realtime-Betrieb arbeitet.
Das heißt, die Vorrichtung kann den Phonemgehalt der Stimme eines Sprechers analysieren, während dieser spricht.
Eine derartige Vorrichtung ist daher äußerst vorteilhaft für eine Anlage zur automatischen Spracherkennung und
-analyse.
Obwohl festgestellt worden ist, daß die Analyse eines Stimmsignals am einfachsten durchgeführt werden kann, indem
die verschiedenen Komponenten unterdrückt oder beseitigt werden, die in den verschiedenen Phonemen vorhanden sind,
und anschließend das kleinste Amplitudensignal gesucht wird, kann die Analyse auch dadurch erreicht werden, daß
die verschiedenen charakteristischen Komponenten wieder erzwungen oder angeregt werden und anschließend die maximale
mittlere Amplitude gesucht wird.
Obwohl die Phonemerkennung für einen Personenkreis
vorgenommen werden kann, indem ein Verzögerungsleitungsfilter verwendet wird, das eine relativ grobe Auflösung
hat, zum Beispiel ein Filter mit zehn Anzapfungen, die eine Gesamtverzögerung von 1 msec wie abgebildet umfassen,
kann ein Verzögerungeleitungefilter mit höherer Auflösung,
64 9/128
das heißt mit mehr Anzapfungen, verwendet werden, um zu
bestimmen, ob eine bestimmte Person einen vorbestimmten Klang spricht. Daher kann durch Einstellung der Anzapfungskoeffizienten in einem Verzögerungsleitungsfilter mit relativ
hoher Auflösung entsprechend einer gegebenen Person, die einen, vorbestimmten Klang oder ein vorgegebenes Phonem
spricht, die erfindungsgemäß.e Vorrichtung anschließend zur Identifizierung dieser Person benutzt werden. Es ist of-
fc fensichtlich, daß die Zuverlässigkeit einer derartigen
Identifizierung beträchtlich erhöht werden kann, wenn als identifizierende Kriterien eine Anzahl von Phonemen benutzt
wird, die die Person nacheinander sprechen muß. Ein gutes Beispiel für eine derartige Anwendung der Erfindung
ist die Kreditkartenprüfung, bei der eine Person, die eine Kreditkarte vorzeigt, gebeten werden kann, die Kreditkarten-Nummer
zu sprechen. Durch Verwendung der erfindungsgemäßen Vorrichtung kann der prüfende Händler dann
bestimmen« ob die betreffende Person, die die Nummer aufsagt, zum Gebrauch der Karte autorisiert ist. In Abhängigkeit
von der speziellen Anwendung und der erforderlichen Genauigkeit kann die Auflösung der Vorrichtung, das heißt
" die Anzahl der verwendeten Anzapfungen, geeignet gewählt
werden* Die Erhöhung der Auflösung des Filters führt zu einem zunehmenden Prozentsatz von Zurückweisungen,' das
heißt zur zunehmenden Anzeige von fehlender Korrespondenz infolge der Nennwertschwankung en in der Stimme eines gegebenen
Sprechers. Daher muß ein Gleichgewicht zwischen Zuverlässigkeit und falscher Zurückweisung erzielt werden,
was vom speziellen Verwendungszweck der Vorrichtung abhängt* Im Extremfall würde die Vorrichtung nur auf die
exakte Aufzeichnung des Klangs ansprechen, für die das FiI tennis ohne ta; werk kalibriert worden ist.
009849/1287
Claims (1)
- Patentansprüche(i) Spracherkennungsvorrichtung zur Bestimmung, ob
ein gegebenes Signal einem vorbestimmten Stimmklang entspricht, gekennzeichnet durch eine Verzögerungseinrichtung (15)» die aus dem gegebenen Signal eine Anzahl verschieden verzögerter Signale erzeugt; durch eine Einrichtung (z. B. 3IA - 39A, RIA - R9A) zum Mischen eines jeweils vorbestimmten Anteils jedes der verzögerten Signale, um ein Mischsignal zu gewinnen, wobei der Anteil von jedem verzögerten Signal in Abhängigkeit von einer
entsprechenden Charakteristik (Fig. 2) des vorbestimmten
Stimmklangs bewertet wirdj und durch eine Einrichtung
(Jf 1A, 43) zur Erzeugung eines Aus gangs signals, wenn die
mittlere Amplitude des Mischsignals eine vorbestimmte
Schwelle überschreitet, um anzuzeigen, daß das gegebene
Signal dem vorbestimmten Stimmklang entspricht.2. Vorrichtung nach Anspruch 1, gekennzeichnet durch einen Verstärker (13) mit automatischer Verstärkungsregelung, um das gegebene Signal auf eine im wesentlichen vorbestimmte mittlere Amplitude vor seiner Einspeisung in die Verzögerungseinrichtung (15) zu bringen.3· Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Verzögerungseinrichtung (15) größenordnungsmäßig zehn verschieden verzögerte Signale aus dem gegebenen Signal erzeugt.k. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die durch die Verzögerungseinrichtung (15) erzeug-0098 49/12 87ten Verzögerungen insgesamt etwa 1 msec ausmachen.5. Vorrichtung nach Anspruch^, dadurch gekennzeichnet, daß die das Ausgangssignal erzeugende Einrichtung einen Detektor oder Demodulator (4ia) hat, in den das Mischsignal einspeisbar ist.6. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Mischeinrichtung eine Einrichtung (z, B. 31A - 39A) zur wahlweisen Umkehr der Phase des Beitrags jedes verzögerten Signals zum Mischsignal hat.7. Spracherkennungsvorrichtung zur Feststellung, welcher einer Anzahl von vorbestimmten Stimmklängen durch ein gegebenes Sprachsignal von im wesentlichen vorbestimmter mittlerer Amplitude am besten dargestellt wird, g e kennzei chne t durch eine Verzögerungseinrichtung (15), die eine Anzahl unterschiedlich verzögerter Signale entsprechend dem gegebenen Signal erzeugt, durch eine für jeden der vorbestimmten Stimmklänge vorgesehene Einrichtung (z. B. 3IA - 39A, R1A - R9A) zum Mischen eines entsprechenden vorbestimmten Anteils jedes verzögerten Signals, um dadurch jeweils ein Mischsignal zu erhalten, wobei der Anteil von jedem verzögerten Signal in Abhängigkeit von einer entsprechenden Charakteristik (Fig. 2) des betreffenden Stimmklangs bewertet wird, und durch einen Vergleicher (**3) zur Anzeige, welches der Mischsignale eine mittlere Amplitude hat, die in vorbestimmter Beziehung zu der mittleren Amplitude der anderen Mischsignale besteht, um denjenigen der Stimmklänge festzustellen, der am besten durch das gegebene Signal dargestellt ist.009849/1288. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Mischeinrichtung eine Einrichtung (z. B. 31A - 39A) zur wahlweisen Umkehr der Phase jedes Signalanteils an den Mischsignalen hat.9· Vorrichtung nach Anspruch 7» gekennzeichnet durch einen Verstärker (13) mit automatischer Verstärkungsregelung» um Eingangssignale schwankender Amplitude auf die vorbestimmte mittlere Amplitude zu bringen,10. Vorrichtung nach Anspruch 7» dadurch gekennzeichnet, daß der Vergleicher (kj) ein Signal erzeugt, das anzeigt, welches der Mischsignale die kleinste mittlere Amplitude hat.11. Vorrichtung nach einem der Ansprüche 7 - 10, dadurch gekennzeichnet, daß die Verzögerungseinrichtung eine Verzögerungsleitung (15) mit einer Anzahl von Anzapfungen (20 - 29) ist, an denen die unterschiedlich verzögerten Signale auftreten, daß eine Einrichtung (13) das gegebene · Sprachsignal in die Verzögerungsleitung einspeist, daß die für jeden der vorbestimmten Stimmklänge vorgesehene Einrichtung zum Mischen ein Mischnetzwerk ist, das linear die von den verschiedenen Anzapfungen abgenommenen Signale summiert, um das entsprechende Mischsignal zu erzeugen, wobei jedes Netzwerk eine Einrichtung (z. B. 31A - 39A) zum Bewerten des Signalanteils von jeder Anzapfung in Abhängigkeit von einer entsprechenden Charakteristik des betreffenden Stiminklangs hat} daß ein Detektor oder Demodulator (ζ. B. k^A) für jedes Mischnetzwerk vorgesehen 1st und eine Signal spannung in Abhängigkeit von der mittleren Amplitude des betreffenden Mischsignale erzeugt 3 und daßPno(U9/ 1287der Vergleicher (43) auf die Signalspannungen anspricht, um ein Signal zu erzeugen, das anzeigt, welches der Mischsignale die kleinste Amplitude hat, wodurch der betreffende Stimmklang als mit dem gegebenen Signal als am besten übereinstimmend ermittelt wird.12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, daß jedes Netzwerk Einrichtungen (z. B. 31A - 39A) hat, um auch die Phase des Anteils von jeder Anzapfung (20 - 29) in Abhängigkeit von der entsprechenden Charakteristik des jeweiligen Stimmklangs umzukehren,13. Vorrichtung nach Anspruch 12, gekennzeichnet durch eine Einrichtung, die den Vergleicher (43) abschaltet, wenn die Amplitude des gegebenen Signals unter einen vorbestimmten Pegel fällt.009849/1287Leerseite
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US82777769A | 1969-05-26 | 1969-05-26 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2021126A1 true DE2021126A1 (de) | 1970-12-03 |
DE2021126B2 DE2021126B2 (de) | 1979-11-29 |
DE2021126C3 DE2021126C3 (de) | 1980-08-21 |
Family
ID=25250140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2021126A Expired DE2021126C3 (de) | 1969-05-26 | 1970-04-29 | Spracherkennungs anordnung |
Country Status (6)
Country | Link |
---|---|
US (1) | US3610831A (de) |
JP (1) | JPS5144604B1 (de) |
CA (1) | CA921169A (de) |
DE (1) | DE2021126C3 (de) |
FR (1) | FR2048732A5 (de) |
GB (1) | GB1309700A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2345980A1 (de) * | 1973-09-12 | 1975-03-20 | Siemens Ag | Mehrfachausnutzung einer laufzeitkette fuer eine schaltungsanordnung zur sprachauswertung |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2380612A1 (fr) * | 1977-02-09 | 1978-09-08 | Thomson Csf | Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif |
US4343969A (en) * | 1978-10-02 | 1982-08-10 | Trans-Data Associates | Apparatus and method for articulatory speech recognition |
CA1164569A (en) * | 1981-03-17 | 1984-03-27 | Katsunobu Fushikida | System for extraction of pole/zero parameter values |
WO1984000634A1 (en) * | 1982-08-04 | 1984-02-16 | Henry G Kellett | Apparatus and method for articulatory speech recognition |
US4937872A (en) * | 1987-04-03 | 1990-06-26 | American Telephone And Telegraph Company | Neural computation by time concentration |
JP2764277B2 (ja) * | 1988-09-07 | 1998-06-11 | 株式会社日立製作所 | 音声認識装置 |
US5179624A (en) * | 1988-09-07 | 1993-01-12 | Hitachi, Ltd. | Speech recognition apparatus using neural network and fuzzy logic |
WO1991006945A1 (en) * | 1989-11-06 | 1991-05-16 | Summacom, Inc. | Speech compression system |
US5440661A (en) * | 1990-01-31 | 1995-08-08 | The United States Of America As Represented By The United States Department Of Energy | Time series association learning |
EP0574951B1 (de) * | 1992-06-18 | 2000-04-05 | Seiko Epson Corporation | Spracherkennungssystem |
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2977543A (en) * | 1955-03-08 | 1961-03-28 | Hughes Aircraft Co | Recognition circuit for pulse code communication systems that provides for variable repetition rates between pulses |
US3026475A (en) * | 1958-01-13 | 1962-03-20 | Gen Electric | Frequency scanning filter arrangement |
US2996579A (en) * | 1960-01-13 | 1961-08-15 | Gen Dynamics Corp | Feedback vocoder |
US3069507A (en) * | 1960-08-09 | 1962-12-18 | Bell Telephone Labor Inc | Autocorrelation vocoder |
-
1969
- 1969-05-26 US US827777A patent/US3610831A/en not_active Expired - Lifetime
-
1970
- 1970-04-07 CA CA079396A patent/CA921169A/en not_active Expired
- 1970-04-08 GB GB1656970A patent/GB1309700A/en not_active Expired
- 1970-04-16 JP JP45032015A patent/JPS5144604B1/ja active Pending
- 1970-04-29 DE DE2021126A patent/DE2021126C3/de not_active Expired
- 1970-05-22 FR FR7018836A patent/FR2048732A5/fr not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2345980A1 (de) * | 1973-09-12 | 1975-03-20 | Siemens Ag | Mehrfachausnutzung einer laufzeitkette fuer eine schaltungsanordnung zur sprachauswertung |
Also Published As
Publication number | Publication date |
---|---|
DE2021126C3 (de) | 1980-08-21 |
US3610831A (en) | 1971-10-05 |
FR2048732A5 (de) | 1971-03-19 |
JPS5144604B1 (de) | 1976-11-30 |
CA921169A (en) | 1973-02-13 |
GB1309700A (en) | 1973-03-14 |
DE2021126B2 (de) | 1979-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE69816221T2 (de) | Sprachschnellheitsveränderungsverfahren und vorrichtung | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE2659096C2 (de) | ||
DE69334139T2 (de) | Testen von Nachrichtenübertragungsgerät | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE2021126A1 (de) | Spracherkennungsvorrichtung | |
DE1472038A1 (de) | Verfahren zur Spracherkennung | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
DE3750365T2 (de) | Sprecheridentifizierung. | |
DE10018134A1 (de) | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen | |
EP1134726A1 (de) | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem | |
EP0285222A2 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE3853702T2 (de) | Spracherkennung. | |
DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
EP1382034B1 (de) | Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen | |
EP0946015B1 (de) | Verfahren und Vorrichtung zur Beurteilung der Übertragungsqualität | |
DE3129353A1 (de) | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen | |
DE3875894T2 (de) | Adaptive multivariable analyseeinrichtung. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |