DE2021126A1 - Spracherkennungsvorrichtung - Google Patents

Spracherkennungsvorrichtung

Info

Publication number
DE2021126A1
DE2021126A1 DE19702021126 DE2021126A DE2021126A1 DE 2021126 A1 DE2021126 A1 DE 2021126A1 DE 19702021126 DE19702021126 DE 19702021126 DE 2021126 A DE2021126 A DE 2021126A DE 2021126 A1 DE2021126 A1 DE 2021126A1
Authority
DE
Germany
Prior art keywords
signal
predetermined
signals
mixed
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19702021126
Other languages
English (en)
Other versions
DE2021126C3 (de
DE2021126B2 (de
Inventor
Moshier Stephen Lloyd
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Listening Inc
Original Assignee
Listening Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Listening Inc filed Critical Listening Inc
Publication of DE2021126A1 publication Critical patent/DE2021126A1/de
Publication of DE2021126B2 publication Critical patent/DE2021126B2/de
Application granted granted Critical
Publication of DE2021126C3 publication Critical patent/DE2021126C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

202112$
Patentanwälte
Dipl.-Jng. R. ΠΑ-.ΕΤΖ sen.
Dip!-in;,. K. L Y.i"~ !CHT
Dr.-Ing. R. U J. ;C"i" Z Jr.
8 München 22, Steinadoristr. 10
■ 65-15.641P 29.4.1970
Listening, Incorporated, Arlington (Mass.)* V.St.A.
Spracherkennungsvorrichtung
Die Erfindung betrifft eine Spracherkennungsvorrichtung, insbesondere zur Identifizierung mehrerer vorbestimmter Klänge menschlicher Stimme (kurz Stimmklänge).
Es sind bereits verschiedene Versuche unternommen worden, eine Vorrichtung zu schaffen, die die menschliche Sprache erkennt oder Personen aufgrund der ihnen eigenen Stimmcharakteristik identifiziert. Letztere werden manchmal Stimmabdriicke genannt. Unter diesen Versuchen befindet sich die Spektralanalyse einschließlich der Verwendung einer Pourier-Transformierten und Auto- oder Kreuzkorrelatiori, Entsprechend diesen Prinzipien sind verschiedene Vorrichtungen entwickelt worden, die Jedoch nur bedingt einsatzfähig sind. Gegenwärtig ist man der Auffassung, daß
65-(827 777)-Hd-r (7)
009849/1287
die Beschränkung der Einsatzfähigkeit in einem gewissen Grad auf die Amplitudenmittelung zurückzuführen ist, die zu einem frühen Zeitpunkt bei diesen bekannten Vorrichtungen stattfindet und die vermutlich einen Verlust an Phaseninformation bewirkt.
Es ist Aufgabe der Erfindung, eine Vorrichtung zu schaffen, die Stimmklänge identifiziert, Phoneme erkennt, einen Sprecher an seiner Stimmcharakteristik identifiziert, in Echtzeit oder Real time und genau arbeitet μηά schließlich einen einfachen Aufbau hat.
Der Erfindung liegt die Betrachtung des menschlichen Stimmsystems als unvollkommener Informationsübertragungskanal zugrunde, der durch weißes Rauschen oder ein Impulseingangssignal angesteuert wird. Die Stimmbandimpulse und die Bewegung der Luft während stimmloser Sprache sind betriebsfertige Impulse und Weißes-Rauschen-Testsignale zur Ansteuerung des Stimmtrakts (Rachen- und Mundhohlraums bzw. des Schallwegs bei der Sprachbildung) entsprechend diesem Modell. Der Stimmtrakt dient dazu, eine Zeitspreizung zu erzeugen, und zwar durch Innenreflexionen im Stimmtrakt, die jeder Stimme, ihren charakteristischen Klang oder die Klangfarbe gibt. Anders ausgedrückt, der Sfcimmtrakt hat den Zweck, Energie aus dem Ansteuersignal zu speichern und diese später dazu zu addieren, so daß eine Erhöhung der mittleren Ausgangsleistung im Vergleich zu dem Fall eintritt, daß die Wände des Stimmtrakts nicht reflektierend wären.
Erfindungsgemäß wird der unvollkommene Kanal, das heißt der Stimmtrakt bei einer besonderen Sprachetruktur analysiertj, indem der unvollkommene Kanal einem Verzöge-
009849/ 1287
rungsleitungsfilter zugeordnet wird, das den zu analysierenden Kanal so anpaßt oder ergänzt, daß das ursprüngliche Eingangssignal in Form weißen Rauschens minimalisiert oder wiedergewonnen wird.
Durch die erfindungsgemäße Vorrichtung wird bestimmt, ob ein gegebenes Eingangssignal einem vorbestimmten Stimmklang entspricht. Sie verwendet eine Verzögerungseinrichtung, die eine Anzahl unterschiedlich verzögerter Signale aus dem Eingangssignal erzeugt. Entsprechende vorbestimmte Teile von jedem der verzögerten Signale werden gemischt, um ein Mischsignal zu erhalten, wobei der Beitrag oder das Gewicht von jedem verzögerten Signal als Funktion einer entsprechenden Charakteristik des vorbestimmten Stimmklangs bewertet oder gewichtet ist. Die erfindungsgemäße Vorrichtung hat auch eine Einrichtung zur Erzeugung eines Ausgangssignals, wenn die mittlere Amplitude des Mischsignals eine vorbestimmte Schwelle überschreitet, um anzuzeigen, daß das Eingangssignal dem vorbestimmten Stimmklang entspricht.
Die Erfindung wird anhand der Zeichnung näher erläutert. Es zeigen:
Fig. 1 das Blockschaltbild einer Phonemerkennungsvorrichtung gemäß der Erfindung; und
Fig. 2 eine Tabelle von Sehwäclrungskoef fizienten, die für die verrichtung von Fig. 1 vorgesehen sein können, damxt diese eine Anzahl vorbestimmter Phoneme erkennt.
009849712*7
Die in Fig. 1 abgebildete Vorrichtung dient zur Unterscheidung oder Erkennung verschiedener Stimmklänge, die in einem Stimmeingangssignal, das in einen Eingangsanschluß 11 eingespeist wird, enthalten oder durch dieses dargestellt sein können. Ein derartiges Eingangssignal kann zum Beispiel direkt von einem Mikrophon gewonnen werden, in das eine Person spricht, oder von einer Aufzeichnung, die vor der durch die erfindungsgemäße Vorrichtung gemachten Analyse angefertigt wurde. Das gegebene Stimmsignal wird in einen Verstärker 13 mit automatischer Verstärkungsregelung eingespeist, um ein Stimmsignal zu erhalten, das eine im wesentlichen konstante oder vorbestimmte Amplitude hat. Um das Ausgangssignal vom Verstärker 13 auf einen möglichst konstanten Pegel zu halten, ist die Ansprechzeit des Regelkreises für die automatische Verstärkungsregelung vorzugsweise nur etwas langsamer als die niederfrequenteste Stimmkomponente von Bedeutung.
Das Stimmsignal mit konstanter Amplitude, das vom Verstärker 13 abgegeben wird, wird in eine angezapfte Verzögerungsleitung 15 geleitet. Obwohl die Verzögerungsleitung 15 zweckmäßigerweise als angezapft beschrieben ist, soll darauf hingewiesen werden, daß eine beliebige Verzögerungseinrichtung, die eine Anzahl verschieden verzögerter Signale aus einem gegebenen Eingangssignal erzeugt, verwendet werden kann. Daher kann die Verzögerungsleitung 15 tatsächlich aus einer Anzahl von Verzögerungselementen bestehen, die in Reihe oder parallel geschaltet sind, und entweder kontinuierliche Verzögerungsmedien, zum Beispiel koaxiale oder akustische Verzögerungsleitungen, oder Verzögerungsleitungen mit diskreten Bauteilen, zum1 Beispiel Spulen und Kondensatoren, umfassen. Zur Erläuterung soll
0098A9/12 87
die Vorrichtung von Fig. 1 als Phonemerkennungsvorrichtung angenommen werden, das heißt als Vorrichtung, die eine Anzahl von Klängen erkennt, die charakteristisch für die menschliche Sprache sind, wenn sie von verschiedenen Personen gesprochen werden. Zu diesem Zweck kann die Verzögerungsleitung 15 zweckmäßigerweise so aufgebaut sein, daß sie eine Gesamtverzögerung von 0,9 msec bewirkt, wobei das Verzögerungsinkrement zwischen aufeinander folgenden Anzapfungen O,1 msec beträgt. Die Ausgangsleitungen oder Anzapfungen der Verzögerungsleitung 15 sind mit 20 bis 29 bezeichnet und erzeugen Verzögerungen, die nacheinander von 0,0 auf maximal 0,9 msec Verzögerung ansteigen.
Für jedes zu erkennende Phonem erzeugt die Vorrichtung von Fig. 1 ein Mischsignal durch Mischen vorbestimmter Anteile der verschieden verzögerten Signale, die- von den Anzapfungen 20 bis 29 erhalten sind. Die abgebildete Phonemerkennungsvorrichtung ist so aufgebaut, daß sie vierzehn verschiedene Phoneme erkennt, und die entsprechenden Mischsignale werden an entsprechenden Leitungen A-N abgenommen. Um Platz in der Zeichnung zu sparen, sind die mittleren Verzögerungsleitungsanzapfungen und die mittleren Mischsignalleltungen zusammen mit deren zugehörigen Baugruppen weggelassen worden0 Es ist jedoch ersichtlich, daß diese weggelassenen Bauteile im wesentlichen ähnlich dem tatsächlich abgebildeten sind und so eine 10 χ 1U-Matrix vervollständigen. ·
Für die Leitung A des ersten Mischsignals beispielsweise wird ein entsprechender vorbestimmter Anteil jedes der verschieden verzögerten Signale durch entsprechend einstellbare Verstärker 31A - 39A erhalten und In die
'■Λ'-ο ν 128?
Leitung A über jeweils einen Misch- oder Trennwiderstand R1A - R9A eingespeist. Die einstellbaren Verstärker sind so eingestellt, daß sie eine Verstärkung zeigen, die zwischen +2 und -2 betragen kann, so daß die Größe oder das Gewicht jedes Signalanteils auf einen beliebigen Sollpegel eingestellt und in Vorzeichen oder Phase umgekehrt werden kann. Daher kann der Beitrag von jeder Verzögerungsleitungsanzapfung im wesentlichen willkürlich bestimmt werfe den. Mischsignale für jedes der verschiedenen zu erkennenden Phoneme werden im wesentlichen in ähnlicher Weise erzeugt, wobei die zugehörigen einstellbaren Verstärker und Mischwiderstände entsprechend mit Bezugszeichen versehen sind, um die zugehörige Anzapfung und die zugehörige Leitung des Mischsignals anzugeben.
Jede Mischsignalleitung A-N ist jeweils über einen Misch- oder Pufferverstärker 4OA - 4ON mit der Verstärkung Bins an jeweils einen Detektor oder Demodulator 41A -UlN angeschlossen» Jeder Demodulator erzeugt ein Spannungssignal, das im wesenblichen proportional zur mittleren Amplitude des in diesen Demodulator eingespeisten " Mischsignals ist. Die Signale von den Demodulatoren werden ihrerseits in einen Vergleicher 43 eingespeist. Der, Vergleicher bestimmt, welcher der verschiedenen eingespeisten Spannungspegel der niedrigste ist, und erzeugt in einer entsprechenden von Leitungen 45A - 45N ein Signal, das anzeigt, daß das entsprechende Mischsignal die niedrigste mittlere Amplitude der verschiedenen Mischsignale hat ο Da3 vom Vergloicher an einer der Leitungen 45A - 45N abgegebene Signal kann zweckmäßigerweise die Form eines binären Logiksignals haben, das zum Ansteuern einer digitalen Logik- oder Rechnersohaltung geeignet ist. Eine derartige Schaltung oder Einrichtung zur Logikanalyse
kann mit der abgebildeten Vorrichtung zusammen verwendet werden, um weitere Information bezüglich, des ursprünglichen Stimmeingangssignals zu liefern. Es ist auch ersichtlich, daß digitale Schaltungen, zum Beispiel ein Rechner mit geeigneten peripheren oder (interface) Einrichtungen an "Schnittstellen" zwischen seinen einzelnen Teilen verwendet werden kann, um die eben beschriebenen Vorgänge des Verzögerns, Mischens und Demodulierens vorzunehmen, wobei an sich bekannte Simulationstechniken angewendet werden, anstatt die vorher beschriebenen Analogelemente vorzusehen. Die Patentansprüche sind also so zu lesen, daß sie auch derartige Xquivalente umfassen.
Da typische Stimmsignale Intervalle von vernachlässigbarer Signalamplitude enthalten, während denen es nicht zweckmäßig wäre, zwischen den verschiedenen möglichen Phonemen zu unterscheiden, wird das Signal vom Verstärker in den Vergleicher hj auch als Gattersignal eingespeist, um die Erzeugung eines Ausgangssignals Ub&rhaupt zu verhindern, wenn der Pegel des Stiinmeiiigangssignals unter einen vorbestimmten Pegel fällt.
Bei der praktischen Ausführung wird die Verstärkung jedes der einzelnen Verstärker 31A - 39N entsprechend einer Charakteristik des jeweiligen Stimmklangs oder Phonems eingestellt, wobei die Einstellung in jedem Fall so vorgenommen wird, daß eine entsprechende Komponente im Stimmklang unterdrückt oder gelöscht wird. Wie bereits erwähnt wurde, kann eine derartige Komponente ursprünglich durch Verzogerungsreflexiort ι St-jmmapparat des Sprechers hervorgerufen werden, wenn er das betreffende Phonem spricht. In der Praxis können die Verstärker zweckmäßig empirisch eingestellt werden, indem eine Bandschleife verwendet wird,
009M97 1287
die jedes Phonem aufgezeichnet enthält, um die Vorrichtung anzusteuern, während die Verstärkungen der jeweiligen Sätze von Verstärkern so eingestellt werden, daß die mittlere Amplitude des jeweiligen Mischsignals auf ein Minimum gebracht wird, wobei jeder Satz von Verstärkern entsprechend einem gegebenen Phonem seinerseits auf diese Weise eingestellt wird. Fig. 2 zeigt eine Tabelle, die die in diesem Zusammenhang für eine Verzögerungsleitung bestimmten Koeffizienten angibt, nämlich eine Verzögerungsleitung wie abgebildet, die zehn Anzapfungen hat, die Verzögerungen schaffen, die stufenweise von 0,0 auf 0,9 msec ansteigt. In dieser Tabelle ist das Phonem, das jedem Satz von Mischnetzwerk-Koeffizienten entspricht, in üblicher Weise zusammen mit einem englischen Wort aufgeführt, das das Phonem enthält» Die gewünschten Verstärkungen können auch numerisch durch ein Programm gemäß der Methode der kleinsten Quadrate berechnet werden.
Obwohl verständlicherweise Unterschiede von Person zu Person in der Aussprache dieser verschiedenen Phoneme bestehen, ist erkannt worden, daß die Anzahl der Anzapfungen, das heißt die Auflösung der Vorrichtung, so gewählt werden kann, daß sie eine relativ gleichbleibende Erkennung von Phonemen trotz der Unterschiede der einzelnen Sprecher ergeben. Das dürfte darauf zurückzuführen sein, daß relativ wenig Unterschiede in der Größe des Kehlkopfes und des Stimmtrakts bei Erwachsenen auftreten. Entsprechend sind die Verzögerungen, die die Charakteristik eines gegebenen Phonems bestimmen, relativ konstant von Person zu Person. Mit einer Verzögerungsleitung wie abgebildet, die also zehn Anzapfungen aufwies, wurden Phoneme mit einer Genauigkeit von etwa 90 ^ bei Verwendung als Eingangssignale der Stimmen derselben
009849/1287
Gruppe von sechs Personen, deren Stimmen zur Kalibrierung der Vorrichtung verwendet worden waren, erkannt, das heißt derjenigen Personen, deren Stimmen zur Einstellung der Misch- oder Gewichtskoeffizienten gemäß der Tabelle in Fig. 2 benutzt worden waren.
Da die erfindungsgemäße Vorrichtung eine Amplitudenmittelung oder -demodulation nur dann vornimmt, nachdem die unterschiedlichen Signalkomponenten addiert oder gemischt worden sind, ist ersichtlidi, daß die Vorrichtung im sogenannten·Echtzeit- oder Realtime-Betrieb arbeitet. Das heißt, die Vorrichtung kann den Phonemgehalt der Stimme eines Sprechers analysieren, während dieser spricht. Eine derartige Vorrichtung ist daher äußerst vorteilhaft für eine Anlage zur automatischen Spracherkennung und -analyse.
Obwohl festgestellt worden ist, daß die Analyse eines Stimmsignals am einfachsten durchgeführt werden kann, indem die verschiedenen Komponenten unterdrückt oder beseitigt werden, die in den verschiedenen Phonemen vorhanden sind, und anschließend das kleinste Amplitudensignal gesucht wird, kann die Analyse auch dadurch erreicht werden, daß die verschiedenen charakteristischen Komponenten wieder erzwungen oder angeregt werden und anschließend die maximale mittlere Amplitude gesucht wird.
Obwohl die Phonemerkennung für einen Personenkreis vorgenommen werden kann, indem ein Verzögerungsleitungsfilter verwendet wird, das eine relativ grobe Auflösung hat, zum Beispiel ein Filter mit zehn Anzapfungen, die eine Gesamtverzögerung von 1 msec wie abgebildet umfassen, kann ein Verzögerungeleitungefilter mit höherer Auflösung,
64 9/128
das heißt mit mehr Anzapfungen, verwendet werden, um zu bestimmen, ob eine bestimmte Person einen vorbestimmten Klang spricht. Daher kann durch Einstellung der Anzapfungskoeffizienten in einem Verzögerungsleitungsfilter mit relativ hoher Auflösung entsprechend einer gegebenen Person, die einen, vorbestimmten Klang oder ein vorgegebenes Phonem spricht, die erfindungsgemäß.e Vorrichtung anschließend zur Identifizierung dieser Person benutzt werden. Es ist of-
fc fensichtlich, daß die Zuverlässigkeit einer derartigen Identifizierung beträchtlich erhöht werden kann, wenn als identifizierende Kriterien eine Anzahl von Phonemen benutzt wird, die die Person nacheinander sprechen muß. Ein gutes Beispiel für eine derartige Anwendung der Erfindung ist die Kreditkartenprüfung, bei der eine Person, die eine Kreditkarte vorzeigt, gebeten werden kann, die Kreditkarten-Nummer zu sprechen. Durch Verwendung der erfindungsgemäßen Vorrichtung kann der prüfende Händler dann bestimmen« ob die betreffende Person, die die Nummer aufsagt, zum Gebrauch der Karte autorisiert ist. In Abhängigkeit von der speziellen Anwendung und der erforderlichen Genauigkeit kann die Auflösung der Vorrichtung, das heißt
" die Anzahl der verwendeten Anzapfungen, geeignet gewählt werden* Die Erhöhung der Auflösung des Filters führt zu einem zunehmenden Prozentsatz von Zurückweisungen,' das heißt zur zunehmenden Anzeige von fehlender Korrespondenz infolge der Nennwertschwankung en in der Stimme eines gegebenen Sprechers. Daher muß ein Gleichgewicht zwischen Zuverlässigkeit und falscher Zurückweisung erzielt werden, was vom speziellen Verwendungszweck der Vorrichtung abhängt* Im Extremfall würde die Vorrichtung nur auf die exakte Aufzeichnung des Klangs ansprechen, für die das FiI tennis ohne ta; werk kalibriert worden ist.
009849/1287

Claims (1)

  1. Patentansprüche
    (i) Spracherkennungsvorrichtung zur Bestimmung, ob
    ein gegebenes Signal einem vorbestimmten Stimmklang entspricht, gekennzeichnet durch eine Verzögerungseinrichtung (15)» die aus dem gegebenen Signal eine Anzahl verschieden verzögerter Signale erzeugt; durch eine Einrichtung (z. B. 3IA - 39A, RIA - R9A) zum Mischen eines jeweils vorbestimmten Anteils jedes der verzögerten Signale, um ein Mischsignal zu gewinnen, wobei der Anteil von jedem verzögerten Signal in Abhängigkeit von einer
    entsprechenden Charakteristik (Fig. 2) des vorbestimmten
    Stimmklangs bewertet wirdj und durch eine Einrichtung
    (Jf 1A, 43) zur Erzeugung eines Aus gangs signals, wenn die
    mittlere Amplitude des Mischsignals eine vorbestimmte
    Schwelle überschreitet, um anzuzeigen, daß das gegebene
    Signal dem vorbestimmten Stimmklang entspricht.
    2. Vorrichtung nach Anspruch 1, gekennzeichnet durch einen Verstärker (13) mit automatischer Verstärkungsregelung, um das gegebene Signal auf eine im wesentlichen vorbestimmte mittlere Amplitude vor seiner Einspeisung in die Verzögerungseinrichtung (15) zu bringen.
    3· Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Verzögerungseinrichtung (15) größenordnungsmäßig zehn verschieden verzögerte Signale aus dem gegebenen Signal erzeugt.
    k. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die durch die Verzögerungseinrichtung (15) erzeug-
    0098 49/12 87
    ten Verzögerungen insgesamt etwa 1 msec ausmachen.
    5. Vorrichtung nach Anspruch^, dadurch gekennzeichnet, daß die das Ausgangssignal erzeugende Einrichtung einen Detektor oder Demodulator (4ia) hat, in den das Mischsignal einspeisbar ist.
    6. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Mischeinrichtung eine Einrichtung (z, B. 31A - 39A) zur wahlweisen Umkehr der Phase des Beitrags jedes verzögerten Signals zum Mischsignal hat.
    7. Spracherkennungsvorrichtung zur Feststellung, welcher einer Anzahl von vorbestimmten Stimmklängen durch ein gegebenes Sprachsignal von im wesentlichen vorbestimmter mittlerer Amplitude am besten dargestellt wird, g e kennzei chne t durch eine Verzögerungseinrichtung (15), die eine Anzahl unterschiedlich verzögerter Signale entsprechend dem gegebenen Signal erzeugt, durch eine für jeden der vorbestimmten Stimmklänge vorgesehene Einrichtung (z. B. 3IA - 39A, R1A - R9A) zum Mischen eines entsprechenden vorbestimmten Anteils jedes verzögerten Signals, um dadurch jeweils ein Mischsignal zu erhalten, wobei der Anteil von jedem verzögerten Signal in Abhängigkeit von einer entsprechenden Charakteristik (Fig. 2) des betreffenden Stimmklangs bewertet wird, und durch einen Vergleicher (**3) zur Anzeige, welches der Mischsignale eine mittlere Amplitude hat, die in vorbestimmter Beziehung zu der mittleren Amplitude der anderen Mischsignale besteht, um denjenigen der Stimmklänge festzustellen, der am besten durch das gegebene Signal dargestellt ist.
    009849/128
    8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Mischeinrichtung eine Einrichtung (z. B. 31A - 39A) zur wahlweisen Umkehr der Phase jedes Signalanteils an den Mischsignalen hat.
    9· Vorrichtung nach Anspruch 7» gekennzeichnet durch einen Verstärker (13) mit automatischer Verstärkungsregelung» um Eingangssignale schwankender Amplitude auf die vorbestimmte mittlere Amplitude zu bringen,
    10. Vorrichtung nach Anspruch 7» dadurch gekennzeichnet, daß der Vergleicher (kj) ein Signal erzeugt, das anzeigt, welches der Mischsignale die kleinste mittlere Amplitude hat.
    11. Vorrichtung nach einem der Ansprüche 7 - 10, dadurch gekennzeichnet, daß die Verzögerungseinrichtung eine Verzögerungsleitung (15) mit einer Anzahl von Anzapfungen (20 - 29) ist, an denen die unterschiedlich verzögerten Signale auftreten, daß eine Einrichtung (13) das gegebene · Sprachsignal in die Verzögerungsleitung einspeist, daß die für jeden der vorbestimmten Stimmklänge vorgesehene Einrichtung zum Mischen ein Mischnetzwerk ist, das linear die von den verschiedenen Anzapfungen abgenommenen Signale summiert, um das entsprechende Mischsignal zu erzeugen, wobei jedes Netzwerk eine Einrichtung (z. B. 31A - 39A) zum Bewerten des Signalanteils von jeder Anzapfung in Abhängigkeit von einer entsprechenden Charakteristik des betreffenden Stiminklangs hat} daß ein Detektor oder Demodulator (ζ. B. k^A) für jedes Mischnetzwerk vorgesehen 1st und eine Signal spannung in Abhängigkeit von der mittleren Amplitude des betreffenden Mischsignale erzeugt 3 und daß
    Pno(U9/ 1287
    der Vergleicher (43) auf die Signalspannungen anspricht, um ein Signal zu erzeugen, das anzeigt, welches der Mischsignale die kleinste Amplitude hat, wodurch der betreffende Stimmklang als mit dem gegebenen Signal als am besten übereinstimmend ermittelt wird.
    12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, daß jedes Netzwerk Einrichtungen (z. B. 31A - 39A) hat, um auch die Phase des Anteils von jeder Anzapfung (20 - 29) in Abhängigkeit von der entsprechenden Charakteristik des jeweiligen Stimmklangs umzukehren,
    13. Vorrichtung nach Anspruch 12, gekennzeichnet durch eine Einrichtung, die den Vergleicher (43) abschaltet, wenn die Amplitude des gegebenen Signals unter einen vorbestimmten Pegel fällt.
    009849/1287
    Leerseite
DE2021126A 1969-05-26 1970-04-29 Spracherkennungs anordnung Expired DE2021126C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US82777769A 1969-05-26 1969-05-26

Publications (3)

Publication Number Publication Date
DE2021126A1 true DE2021126A1 (de) 1970-12-03
DE2021126B2 DE2021126B2 (de) 1979-11-29
DE2021126C3 DE2021126C3 (de) 1980-08-21

Family

ID=25250140

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2021126A Expired DE2021126C3 (de) 1969-05-26 1970-04-29 Spracherkennungs anordnung

Country Status (6)

Country Link
US (1) US3610831A (de)
JP (1) JPS5144604B1 (de)
CA (1) CA921169A (de)
DE (1) DE2021126C3 (de)
FR (1) FR2048732A5 (de)
GB (1) GB1309700A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2345980A1 (de) * 1973-09-12 1975-03-20 Siemens Ag Mehrfachausnutzung einer laufzeitkette fuer eine schaltungsanordnung zur sprachauswertung

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2380612A1 (fr) * 1977-02-09 1978-09-08 Thomson Csf Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif
US4343969A (en) * 1978-10-02 1982-08-10 Trans-Data Associates Apparatus and method for articulatory speech recognition
CA1164569A (en) * 1981-03-17 1984-03-27 Katsunobu Fushikida System for extraction of pole/zero parameter values
WO1984000634A1 (en) * 1982-08-04 1984-02-16 Henry G Kellett Apparatus and method for articulatory speech recognition
US4937872A (en) * 1987-04-03 1990-06-26 American Telephone And Telegraph Company Neural computation by time concentration
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置
US5179624A (en) * 1988-09-07 1993-01-12 Hitachi, Ltd. Speech recognition apparatus using neural network and fuzzy logic
WO1991006945A1 (en) * 1989-11-06 1991-05-16 Summacom, Inc. Speech compression system
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
EP0574951B1 (de) * 1992-06-18 2000-04-05 Seiko Epson Corporation Spracherkennungssystem
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2977543A (en) * 1955-03-08 1961-03-28 Hughes Aircraft Co Recognition circuit for pulse code communication systems that provides for variable repetition rates between pulses
US3026475A (en) * 1958-01-13 1962-03-20 Gen Electric Frequency scanning filter arrangement
US2996579A (en) * 1960-01-13 1961-08-15 Gen Dynamics Corp Feedback vocoder
US3069507A (en) * 1960-08-09 1962-12-18 Bell Telephone Labor Inc Autocorrelation vocoder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2345980A1 (de) * 1973-09-12 1975-03-20 Siemens Ag Mehrfachausnutzung einer laufzeitkette fuer eine schaltungsanordnung zur sprachauswertung

Also Published As

Publication number Publication date
DE2021126C3 (de) 1980-08-21
US3610831A (en) 1971-10-05
FR2048732A5 (de) 1971-03-19
JPS5144604B1 (de) 1976-11-30
CA921169A (en) 1973-02-13
GB1309700A (en) 1973-03-14
DE2021126B2 (de) 1979-11-29

Similar Documents

Publication Publication Date Title
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE2659096C2 (de)
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
DE10030105A1 (de) Spracherkennungseinrichtung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE2021126A1 (de) Spracherkennungsvorrichtung
DE1472038A1 (de) Verfahren zur Spracherkennung
DE2825082A1 (de) Verfahren zur spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE3750365T2 (de) Sprecheridentifizierung.
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
EP1134726A1 (de) Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE3853702T2 (de) Spracherkennung.
DE10022586A1 (de) Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
EP1382034B1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
EP0946015B1 (de) Verfahren und Vorrichtung zur Beurteilung der Übertragungsqualität
DE3129353A1 (de) Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen
DE3875894T2 (de) Adaptive multivariable analyseeinrichtung.

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee