DE2431458A1 - Verfahren zur automatischen sprechererkennung - Google Patents

Verfahren zur automatischen sprechererkennung

Info

Publication number
DE2431458A1
DE2431458A1 DE2431458A DE2431458A DE2431458A1 DE 2431458 A1 DE2431458 A1 DE 2431458A1 DE 2431458 A DE2431458 A DE 2431458A DE 2431458 A DE2431458 A DE 2431458A DE 2431458 A1 DE2431458 A1 DE 2431458A1
Authority
DE
Germany
Prior art keywords
speech signal
duration
signal
frequency
counter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2431458A
Other languages
English (en)
Other versions
DE2431458C2 (de
Inventor
Ernst Dipl Ing Bunge
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE19742431458 priority Critical patent/DE2431458C2/de
Publication of DE2431458A1 publication Critical patent/DE2431458A1/de
Application granted granted Critical
Publication of DE2431458C2 publication Critical patent/DE2431458C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • Verfahren zur automatischen Sprechererkennung ===================================== Die Erfindung betrifft ein Verfahren zur automatischen Sprechererkennung, bei der ein vom zu erkennenden Sprecher resfçrochener Text in ein elektrisches Signal umgesetzt tlnd dieses Sprachsignal auf zeitliche und spektrale Eifrenscl1aften untersucht wird.
  • Ps ist die Aufgabe eines automatischen Sprechererkennungssystems, aus der Analyse der menschlichen Spreche auf die Identität des Sprechers zu schließen. Dabei wird mit einem Mikrophon das Sprachsignal des zu klassifizierenden Sprechers aufgenommenen und anschließend in einem Rechner analysiert.
  • Das Ergebnis der Analyse besteht aus einer sprecherspezifischen Zahlenmatrix. Diese Matrix wird mit schon im Rechner gespeicherten Referenzmatritzen verglichen und dann klassifiziert.
  • Bisher hat man als Sprachbeispiel, das zur Sprechererkennung herangezogen wurde,für alle Testpersonen einen gleichen Codewortsatz benutzt. Dieser Satz wird digitalisiert und- in einen Rechner zur nachfolgenden Analyse eingelesen.
  • Aus Grunden der begrenzten Kernspeicherkapazität sind bisher nur Sätze von etwa 3 sec. Sprechdauer untersucht worden.
  • Der Nachteil dieses codewortbezogenen Sprechererkennungs verfahrens 14 gt darin, daß ein kooperativer Sprecher vorausgesetzt wird. Man geht davon aus, daß der Sprecher erkannt werden will. Dies gilt zwar für wirtschaftliche Anwindungen, jedoch für anwendungen in der Kriminalistik ist ein solches Verfahren ungeeignet, denn hier ist der Sprecher in der Regel nicht kooperativ. Er wird sich weigern, einen Codesatz zu sprechen, der als Belastungsmaterial gegen ihn verwendet werden könnte. Deshalb ist es notwendig für die Kriminalistik, eine textunabhängige Sprechererkennung durchzuführen.
  • Aufgabe der Erfindung ist es, ein Verfahren anzugeben, mit dem ein Sprecher unabhängig von einem vorgegebenen Text erkannt werden kann. Diese Aufgabe wird durch das im Kennzeichen des Anspruchs 1 angegebene Verfahren gelöst. Dieses Verfahren ist nicht auf die Erkennung eines menschlichen Srechers beschränkt, sondern es läßt sich auch zur Erkennung beliebiger Schallquellen, wie z. B. Nerzgeräusche, Maschinengeräusche usw. verwenden, um Abweichungen von einem Normalgeräusch bzw. die Art der Abweichung zu erkennen.
  • Für die Erkennung eines menschlichen Sprechers ist das Verfahren besonders gut geeignet, da die einzelnen Verfahrensschritte besonders an die verschiedenen Eigenschaften bzw. Merkmale der menschlichen Sprache angepaßt sind, die teilweise auch miteinander kooreliert sind. Dadurch werden einzelne Sprachmerkmals ziimindest indirekt mehrfach untersucht, was jedoch technisch einfacher ist, als die Koorelationen festzustellen. Die genaue technische Realisation der einzelnen Verfahrensschritte ist an sich grundsätzlich bekannt. In den Unteranspri5.chen sind einige besonders vorteilhafte Ausgestaltuxigen einzelner Verfahrens schritte angegeben.
  • Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnung erläutert.-Das zu erkennende bzw. zu analysierende Sprachsignal wird in dem Miltrophon 20 in ein elektrisches Signal umgewandelt und der Einrichtung zugeführt.
  • Die Durchführung des ersten Verfahrensschrities a), die Messung der Nulldurchgangsabstände, erfolgt dadurch, daß das Sprachsignal einem begrenzenden Verstärker 21 mit hoher Verstärkung zugeführt wird. Am Ausgang ergibt sich dann ein Rechtecksignal mit variierenden Flankenabständen.
  • Bei jeder positiven Flanke wird in der Einheit 25 ein Zähler gestartet, der einen festen Zähltakt erhält, und mit der nächsten negativen Flanke wird der dann erreichte Zählerstand ausgewertet und der Zähler wies auf Null gesetzt. Um für das Rücksetzen und die Auswertung mehr Zeit zur Verfügung zu haben, kann in der Einheit 25 ein zweiter Zähler angeordnet sein, der bei jeder negativen Flanke zu zählen beginnt und dessen Zählerstellung mit der jeweils nächsten positiven Flanke ausgewertet wird. Zur Auswertung sind so viele weitere Zähler in der Einheit 28 vorgesehen, wie verschiedene Abstandsbereiche voneinander unterschieden werden sollen, d. h. wie versdiiedene Gruppenvon Zählerständen unterschieden werden sollen. Die Zählerausgänge werden dazu einem Decodierer zugeführt, der für jede voneinander zu unterscheidende Gr.uDpe von Zählerzuständen einen Ausgang besitzt, und an jedem Ausgang ist über ein Ui-Glied einer der weiteren Zähler angeschlossen. Am Ende der Meßdauer enthalten die Zäher also die Nulldurchgangs-Äbstandswahrscheinlichkeitsverteilung, wobei jeder Zähler die Häufigkeit eines von mehreren aneinanderschließenden Nulldurchgangs-Abstandsbereichen angibt.
  • Der nächste Verfahrensschritt b) bildet die Statistik der Sprachmelodie. Dazu wird in der Schaltung 22 die Sprachgrundfrequenz in eine frequenzproportionale Spannung umgewandelt. Von dieser Spannung wird ein Amplitudenhistogramm in der Schaltung 27 erzeugt. Dieses Histogramm kann auf gleiche Weise wie vorstehend beschrieben die Wahrscheinlichkeitsverteilung der Nulldurchgangsabstände gebildet werden, d. h. für jeden aneinandergrenzenden Spannungsbereich wird ein eigener Zähler vorgesehen, der in regelmäßigen Abständen oder bei Anderung der Spannung zum benachbarten Spannungsbereich um eine Zählerstellung weitergeschaltet wird. Die Zustände der Zähler am Ende der Meßdauer geben dann eine Aussage iiber die Wahrscheinlichkeitsverteilung der Sprachgrtmdfreslllenz des Sprechers.
  • Bei Sprechern, die melodisch sprechen, d. h. oft die Stimme heben und senken, ist in etwa eine Gleichverteilung zu erwarten, während bei monotonen Sprechern einige wenige Sprachgrundfrequenzen um so häufiger vorkommen.
  • In dem Verfahrensschritt c) läuft im Prinzip der gleiche Vorgang ab, jedoch statt mit der SprachgrundfrPauenz hier mit der Sprachsignalamplitude. Dazu wird das Sprachsignal linear-gleichgerichtet und über einen Tiefpass geleitet. Aus dieser lautstärkeproportionalen Spannung wird nun wieder in dem Histographen 26 ein Histogramm gebildet, beispielsweise in der gleichen Weise wie bei dem vorhergehend beschr èbenen Verfahrens schritt für die Sprachgrundfrequenz. Die Zustände der Zähler in dem Histographen 26 ergeben am Schluß der Meßdauer die sprecherspezifische Häufigkeitsverteilung der einzelnen Lautstärke stufen, die ein Maß für die Betonungsmonotonie des Sprechers ist.
  • In den Schaltungsblöcken 1 bis 13 werden verschiedene Eigenschaften des Sprachsignals im Spektralbereich untersucht. Dazu wird das Sprachsignal einem Spektralanalysator 24 zugeführt, der auf n Ausgangsleitungen, die jeweils einen Frequenzbereich darstellen und die in der Zeichnung Vereinfacht als eine Leitung gezeichnet sind, in regelmäßigen Zeitabständen ein Kurzzeitspektrum KZS liefert. Jeder Ausgang gibt also die mittlere spektrale Energie des zuCehörigen Frequenzbereiches in dem vorhergehenden Zeitabschnitt an. Die minimalen Zeitabstände hängen nach dem Abtasttheorem von der gewünschten Frequenzauflösung, d. h. von der minimalen Bandbreite der Filter in dem Spektralanalysator 24 ab.
  • Aus diesen Kurzzeitspektren wird in dem Mittelwertrechner 1 das Langzeitspektrum ermittelt. Dazu besitzt der Mittelwertrechner ein für jeden Ausgang des Spektralanalysators 24 einen Kanal, und in jedem Kanal werden die betreffenden Signalwerte über- die Meßdauer addiert. Die einzelnen Signalwerte liegen jedoch in analoger Darstellung vor, und eine analoge Aufsummierung ist wegen der dafür erforderlichen Speicherung technisch nicht ganz einfach.
  • Es kann daher zweckmäßig sein, die Addition bzw. Aufsummierung digital durchzufvhren. Um nur einen Analog-Digital-Wandler verwenden zu müssen, können die Ausgänge des Spektralanalysators 24 durch einen Mulitplexer nacheinander abgetastet und dem Analog-Digital-Wandler zugeführt werden. Die aufsummierten Werte der einzelnen Kanäle können mit parallel in einem mehrzeiligen Schieberegister stehen, d. h. alle letzten Stellen der Schieberegisterzeilen enthalten jeweils einen aufsummierten Wert.
  • Wenn die Abtastung der Ausgänge des Spektralanalysators synchron mit dem Schieben der Schieberegister erfolgt,steht in den letzten Stellen der Schieberegister jeweils der Wert für den Spektralbereich, der gerade vom Multiplexer abgetastet -wird. Diese letzten Stellen der Schieberegister werden mit dem digitalen Ausgang des Analog-Digital-Wandlers additiv verknüpft, in den Anfang der Schieberegister wieder eingegeben und auf den nächsten Kanal bzw. Frequenzbereich geschaltet. Es sind jedoch auch viele andere technische Realisierungen möglich, um das Langzeitspektrum zu erhalten.
  • Das Langzeitspektrum besteht also aus jeweils einem Wert je Frequenzbereich des Spektralanalysators.
  • In der Schaltung 2 wird eintsprechend dem Verfahrens schritt g) jedes Kurzzeitspektrum daraufhin untersucht, in welchem Kanal des Snektralanalysators 24, d.h. in welchem Freauenzbereich ein Minimv1m vorliegt. Fin Minimum ist so definiert, daß beide benachbarten Kanäle ein höheres Signal führen als der betreffende Kanal. Da die Ausgänge des Spektralanalysators analoge Signale führen, kann dieser Vergleich auf analoge Weise durchgeführt werden, beispielsweise mittels Differenzverstärkern, deren Ausgangssignale bei überschreiten einer Schwelle logisch miteinander verknüpft werden. Dazu wird zweckmäßig nur der schaltungstechnische Aufwand für die Feststellung eines Minimums in einem Kanal eingesetzt, was beispielsweise zwei Differenzversta'rker erfordern wurde, und die einzelnen Ausgänge des Spektralanalysators werden durch einen Multiplexer zeitlich nacheinander abgetastet.
  • Statt einer analogen Realisierung kann auch eine digitale Verarbeitung zweckmäßig sein, in-dem dem Multiplexer ein Analog-Digital-Wandler nachgeschaltet wird. Der Multiplexer tastet dann jeweils nur einen Kanal des Spektralanalysators ab, und der zugehörige Digitalwert wird in die erste Stufe eines dreistufigen Schieberegisters eingegeben. An die Ausgänge der drei Schieberegisterstufen ist dann die digitale Vergleichslogik angeschlossen. Ferner ist für jeden Kanal des Spektralanalysators ein Zähler vorgesehen, der das Auftreten eines Minimums in den aufeinanderfolgenden Kurzzeitspektren zählt.
  • In der Schaltung 3 wird in ähnlicher Weise wie vorstehend beschrieben, jedes Kurzzeitspektrum auf ein Maximun untersucht. Ein Maximum ist so definiert, daß beide benachbarten Kanäle ein kleineres Signal führen als der betreffende Kanal. In der Schaltung 4 wird jedes Kurzzeitspektrum untersucht, bei welchem Kanal eine positive Flanke des Kurzzeitspektrums vorliegt. Dazu gehört die Bedingung, daß der nächstniedrigere Kanal bzw. Frequenzbereich ein kleineres Signal und der nächsthöhere Kanal ein größeres Signal als der betreffende Kanal führt. In der Schaltung 5 wird jedes Kurzzeitspektrum untersucht, bei welchem Kanal das Kurzzeitspektrum eine negative Flanke hat, in dem geprüft wird, ob der nächstniedrigere Kanal ein höheres Signal und der nächsthöhere Kanal ein niedrigeres Signal führt. In der Schaltung 6 wird schließlich festgestellt, bei welchem Kanal ein Plateau in dem Kurzzeitspektrum vorliegt, bei dem die beiden benachbarten Kanäle innerhalb vorgegebener Grenzen das gleiche Signal führen wie der betreffende Kanal. An jede der Schaltungen 3 bis 6 ist ebenfalls je Kanal des Spektralanalysators ein Zähler angeschlossen, der die Anzahl der angegebenen Merkmale in diesem Frequenzbereich zählt. Die Vergleiche, die in den Schaltungen 3 bis 6 durchgeführt werden müssen, werden zweckmäßig ebenso wie bei der Schaltung 2 für die einzelnen Kanäle nacheinander durchgeführt.
  • sDazu kann der dort verwendete Multiplexer, der die einzelnen Kanäle des Spektralanalysators 24 nacheinander abtastet, mitverwendet werden, und bei analoger Durchführung des Vergleichs können die Differenzverstärker bzw. bei digitaler Durchführung des Vergleichs der Analog-Digital-Wandler sowie das Schieberegister gemeinsam verwendet werden, um den Aufwand zu verringern.
  • In den Schaltungen 7 bis 10 wird jedes Kurzzeitspektrum mit einem anderen Amplitudenverlauf verglichen. Dazu sind in jeder dieser Schaltungen eine Anzahl Spannungsfenster-Einrichtungen vorgesehen, von denen jede nur dann ein Signal abgibt, wenn das angelegte Signal in einem bestimmten vorgegebenen Bereich liegt. Die Lage dieses Bereichs und dessen Breite bzw. dessen Grenzen sind zweckmäßig einstellbar. Eine solche Spannungsfenster-Einrichtung kann beispielsweise aus Schmitt-Triggern aufgebaut sein. Die Ausgänge aller Spannungsfenster-Einrichtungen jeder der Schaltungen 7 bis 10 werden über ein UND-Glied,zusammengefaßt und nur wenn alle Spannungsfenster-Einrichtungen bei einem Kurzzeitintervall ein Ausgangssignal liefern, erzeugt die betreffende Schaltung ein Ausgangssignal und schaltet einen daran angeschlossenen Zähler um einen Schritt weiter. Es sei an dieser Stelle bemerkt, daß es nicht notwendig ist, für jeden Kanal des Spektralanalysators, das heißt für jeden Frequenzbereich eine Spannungsfenster-Einrichtvmg vorzusehen, da auch mit einer geringeren Anzahl sehr gute Ergebnisse erzielt werden.
  • Die Verbindung der einzelnen Spannungsfenster-Einrichtungen mit den Kanälen des Spektralanalysators -wird dann zweckmäßig einstellbar ausgebildet. Andererseits kann es zweckmäßig sein, eine größere Anzahl von derartigen Schaltungen von 7 bis 10 mit jeweils einer Anzahl von Spannunsfenster-Einrichtungen vorzusehen, um jedes Kurzzeitspektrum mit einer größeren Anzahl von vorgegebenen Amplitudenverläufen zuvergleichen.
  • In der Schaltung 11 wird die Sprechpause sowie deren Zeitdauer festgestellt. Dies erfolgt im vorliegenden Fall mit Hilfe des Kurzzeitspektrums, indem die Signale aller Kanäle des Spektralanalysators zusammengefügt bzw. aufsummiert werden, und wenn dieses Summensignal einen bestimmten Schwellwert nicht überschreitet, wird das Sprachsignal für den Zeitraum des betreffenden Kurzzeitspektrums als Sprechpause ausgewertet, und ein an die Schaltung 11 angeschlossener oder darin enthaltener Zähler wird um einen Schritt weitergeschaltet. Dieser Zähler enthält am Schluß der Meßdauer also ein Maß für die Gesamtdauer der Sprechpausen.
  • Wenn die Zusammenfügung der einzelnen Kanal signale ger wichtet erfolgt, kann dadurch St ein vom Mikrophon 20 mitaufgenommenes Hintergrundgeräusch eliminiert werden.
  • Die Schaltungen 12 und 13 messen die Dauern des Sprache gnals mit stimmhaften bzw. stimmlosen Lauten, entsprechend dem Verfahrensschritt e). Ein Sprachsignal mit einem stimmhaften Laut liegt vor, wenn im Frequenzbereich unterb-lb einer bestimmten Grenze, beispielsweise 500 Hz, ein vorgegebenes Gesamtsignal überschritten wird. Dazu werden im vorliegenden Fall die Kanäle des Spektralanalysators bis zu dieser Grenzfrequenz aufsummiert, gegebenenfalls ebenfalls gewichtet und einem Schwellwertdetektor zugeführt.
  • In der Schaltung 13 wird geprüft, ob ein ausreichendes Sprachsignal bzw. ein ausreichender Anteil im hohen Frequenzbereich des Sprachsignals vorliegt, jedem nur die Kanäle des Spektralanalysators 24 für die hohen Frequenzen zuszammengefaßt werden,und nur wenn außerdem gleichzeitig kein Ausgangssignal der Schaltung 12 erzeugt wird, liefert die Schaltung 13 ein Ausgangssignal. Die Schaltung 12 liefert somit also auch ein Ausgangssignal, wenn zusätzlich zu dem Anteil in den tiefen Frequenzen ein wesentlicher Anteil in hohen Frequenzen des Sprachsignals vorhanden ist. An jede der Schaltungen 12 und 13 ist wieder ein Zähler angeschlossen bzw. darin enthalten, der zählt, wie oft ein Kurzzeitspektrum mit einem stimmhaften bzw. einem stimmlosen Laut aufgetreten ist, und die Zählerstände am Ende der Meßdauer sind ein Maß für die Gesamtdauer des Sprachsignals mit stimmhaften bzw. stimmlosen Lauten. Um ein von der variablen Meßdauer unabhängiges Signal zu erhalten, kann das Verhältnis der Zählerstände der zu den>Schaltungen 11 bis 13 gehörenden Zähler zu einer der Meßdauer entsprechenden Zahl gebildet werden.
  • Die Steuerung der einzelnen Schaltungen geschieht durch die Steuereinheit 29, die im wesentlichen einen stabilen Takt liefert und die Einheiten für die Zeitmessung vorgibt, beispielsweise die Zeitabschnitte für die Kurzzeitspektren.
  • Die in den Schaltungen 1 bis 13 sowie 25 bis 27 erhaltenen Ergebnisse, die alle als Zählerstände einer Vielzahl von Zählern vorliegen bzw bei den Schaltungen 11 bis 13 als Verhältniszahlen, müssen nach Ablauf der Meßdauer mit dem vorgegebenen, sprecherseezrfischen Satz von Zählwerten verglichen werden, um aus dem Grad der übereinstimmung die Identität des Sprechers ableiten zu können. Dies erfolgt zweckmäßig in einem üblichen Allzweckrechner mit entsprechenden Speicher (nicht dargestellt) Weizen der relativ großen Anzahl von Meßdaten werden diese dem Rechner zweckmäßig in Serie über den Multiplexer 28 zugeführt, der die einzelnen Zähler nacheinander abtastet. Der sprecherspezifische Satz von Zählwerten, mit dem die Meßdaten verglichen werden, kann beispielsweise nach dem gleichen Verfahren von dem betreffenden Sprether bekannter Identität gewonnen werden.
  • Das erfindungsgemäße Verfahren berücksichtigt weitgehend alle Charakteristika, die in der menschlichen Sprache vorhanden sein können. Bei einfacheren Ansprüchen an die Erkennungssicherheit können aber auch gegebenenfalls einzelne Schritte weggelassen werden, ohne den Rahmen der Erfindung zu verlassen.
  • Patentansnltiche

Claims (10)

  1. Patentansprüche: 9 Verfahren zur automatischen Sprechererkennung, bei der ein vom zu erkennenden Sprecher gesprochener Text in ein elektrisches Sprachsignal umgesetzt und dieses Sprachsignal auf zeitliche und spektrale Eigenschaften untersucht wird, dadurch gekennzeichnet, daß zuerst während einer vorgegebenen Meßdauer mindestens einige der folgenden Verfahrensschritte gleichzeitig durchgeführt werden: a) in dem Sprachsignal werden die zeitlichen Abstände der Nulldurchgänge gemessen und einem von mehreren anschließenden Abstandsbereichen zugeordnet, und die Anzahlen des Auftretens in den eizelnen A»S+andsbereichen werden getrennt gezählt, b) die Grundfrequenz des Sprachsignals wird in bestimmten Zeitabständen oder bei jeder einen vorgegebenen Inert übersteigenden Änderung gemessen und die Häufigkeit in vorgegebenen Frequenzbereichen gezählt, c) die Amplitude des Sprachsignals wird in bestimten Zeitabständen oder bei jeder einen vorgegebeinen wert übersteigenden Änderung gemessen und die Häufigkeit in vorgegebenen Amplitudenbereichen gezählt, d) ein unterhalb einer vorgebenen Schwelle liefflendes Sprachsignal wird als Sprechpause erkannt und deren Zeitdauer gemessen, und die Zeitdauer aller Sprechpausen werden über die Meßdauer zur Gesamtpausendauer addiert, e) die Zeitdauern der Sprachsignale mit stimmhaften lauten und derjenigen mit stimmlosen Lauten werden gemessen und über die Meßdauer addiert, f) in regelmäßigen Zeitabschnitten wird das Kurzzeitspektrwn des Sprachsignals, d'.h. der Ar-litudenverlauf über mehrere aneinandergrenzende Freauenzbereiche, erzeugt, und die einzelnen Amplitudenwerte je Frequenzbereich werden über die Meßdauer addiert, g) der Amplitudenverlauf jedes Kurzzeitspektrums wird darauf untersucht, in welchem Frequenzbereich ein Minimum, ein Maximum, eine ansteigende Flanke, eine abfallende Flanke und ein Plateau auftritt, und jedes Merkmal wird je Frequenzbereich gezählt, h) der Amplitudenverlauf jedes Kurzzeitspektrums wird mit mindestens einem vorgegebenen Amplitudenverlauf verglichen, und wenn die Amplitudenabweichung für jeden verglichenen Frequenzbereinh unterhalb einer vorgegebenen Grenze liefert, wird die Übereinstimmung je vorgegebenem Amplitudenverlauf gezählt, und das nach der Meßdauer die bei den einzelnen Verfahrensschritten entstandenen Zählwerte, bzw. Summen mit einem vorgegebenen, Sprecher spezifischen Satz Zählwerte verglichen und aus dem Grad der übereinstimmung der Identität des Sprechers abgeleitet wird.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß in dem bzw. in jedem vorgegebenen Amplitudenverlauf des Kurzzeitspetrums die vorgegebenen Grenzen für jeden Frequenzbereich unabhängig voneinander einstellbar sind.
  3. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß für die Mesusg der Sprechpausen die Einzelenergien der einzelnen Frequenzbereiche des Kurzzeitspektrums gewichtet zusammengefügt erden und bei Unterschreiten des zusammengefügten Signals unter den vorgegebenen Schwellwert eine Sprechpause erkannt wird.
  4. 4. Verfahren nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß ein Sprachsignal mit stimmhaften Lauten erkannt wird, wenn das Sprachsignal eine vorgegebenenMindestenergie in dem Frequenzbereich unterhalb einer Grenzwi-'equenz unterschreitet, und daß ein SprachsiPnal mit stimmlosen Lauten erkannt wird, wenn die Mindestenerie in dnesem Frequenzbereich-nicht überschritten wird und gleichzeitig keine Sprechpause erkannt wird.
  5. 5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß zur Erkennung eines Sprachsignals mit ,stimmlosen bzw. mit stimmhaften Lauten das Kurzzeitspektrum verwendet wird.
  6. 6. Verfahren nach Anspruch 1 oder einem der folgenden , dadurch gekennzeichnet, daß das Verhältnis der Gesamtpausendauer, der Gesamtdauer des Sprachsifflnals mit stinmhaften l,aten und der Gesamtdauer des Sprachsignals mit stimmlosen Lauten jeweils zur Meßdauer gebildet wird und die so gewonnenen drei Verhältniswerte nach der Meßdauer weiterverarbeitet werden.
  7. 7. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 - 6, dadurch gekennzeichnet, daß das Sprachsignal einen begrenzenden Verstärker hoher Verstärkme durchläuft, und das an dessem Ausgang entstehende Rechtecksignal mit jeder Flanke einen einen festen Zähltakt enthaltenden ersten Zähler auf die Nullstellung zurücksetzt, wobei der Zählerstand unmittelbar vor der Flanke ein Maß für den Abstand der Nulldurchgänge des Sprachsignals ist.
  8. 8. Anordnung nach Anspruch 7, dadurch gekennzeichnet, daß jeweils einer Zählerstellung bzw. Gruppe von Zählerstellungen ein weiterer Zähler zugeordnet ist-und jede Flanke den weiteren Zähler, der dem Zahlerstand des ersten Zählers in diesem Augenblick zugeord et ist, um eine Stellung weiterschaltet.
  9. 9. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß zur Messung der Gesamtpausendauer der Gesamtdauer des Sprachsignals mit stimmhaften Lauten und der Gesamtdauer des Sprachsignals mit stimmlosen Lauten jeweils ein Zähler vorgesehen ist, der einen konstanten Zähltakt erhält, solange die entsprechende Bedingung im Sprachsignal erkarnft ist.
  10. 10. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6-, dadurch gekennzeichnet, daß das Sprachsignal eine Filterbank mit einer Anzahl Filtern, die auf je einen von aneinandergrenzenden Frequenzbereichen abgestimmt sind, durchläuft und jeder Filterausgang mit einer oder mehreren Spannungsfenster-Einrichtungen verbunden ist, die jeweils ein Signal abgeben, wenn das Filterausgangssignal in einem bestimmten vorgegebenen und gegebenenfalls einstellbaren Spannungsbereich liegt, und daß zur Untersuchung des Amplitudenverlaufs der Kurzzeitspektren die Signale von zu verschiedenen Filterausgängen gehörenden Spannungsfenster-Einrichtungen über ein UND-Glied zusammengefaßt sind.
    L e e r s e i t e
DE19742431458 1974-07-01 1974-07-01 Verfahren und Anordnung zur automatischen Sprechererkennung Expired DE2431458C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19742431458 DE2431458C2 (de) 1974-07-01 1974-07-01 Verfahren und Anordnung zur automatischen Sprechererkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19742431458 DE2431458C2 (de) 1974-07-01 1974-07-01 Verfahren und Anordnung zur automatischen Sprechererkennung

Publications (2)

Publication Number Publication Date
DE2431458A1 true DE2431458A1 (de) 1976-02-05
DE2431458C2 DE2431458C2 (de) 1986-05-28

Family

ID=5919364

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19742431458 Expired DE2431458C2 (de) 1974-07-01 1974-07-01 Verfahren und Anordnung zur automatischen Sprechererkennung

Country Status (1)

Country Link
DE (1) DE2431458C2 (de)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666A1 (de) * 1977-05-07 1978-11-09 Philips Patentverwaltung Verfahren und anordnung zur geraeuschanalyse
DE3029823A1 (de) * 1980-08-06 1982-03-04 Siemens AG, 1000 Berlin und 8000 München Waehlverfahren zum verbindungsaufbau in einem fernsprechvermittlungssystem mit digitaler sprachuebertragung
WO1988004772A1 (en) * 1986-12-17 1988-06-30 British Telecommunications Public Limited Company Speaker identification
WO1990008379A1 (en) * 1989-01-17 1990-07-26 The University Court Of The University Of Edinburgh Speaker recognition
EP1038291A1 (de) * 1997-12-16 2000-09-27 Carmel, Avi Gerät und verfahren zum feststellen von gefühlen
WO2011046474A2 (ru) 2009-09-24 2011-04-21 Общество С Ограниченной Ответственностью "Цeнтp Речевых Технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
RU2530314C1 (ru) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5315688A (en) * 1990-09-21 1994-05-24 Theis Peter F System for recognizing or counting spoken itemized expressions

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Bild und Ton, 1968, Heft 11, Seiten 322-328 *
Elektronik, 13. Jahrgang (1964), Heft 1, S.19-22 *
J.N.Bronstein und K.A.Semandjajew, Taschenbuch der Mathematik, 9. Auflage, 1969, Verlag Harri Deutsch, Zürich und Frankfurt a. M., S. 200 *
NTZ, 1969, Heft 6, Seiten 364-367 *
NTZ, Band 24 (1971), Seiten 177-182 und 389-393 *
NTZ, Jahrgang 20 (1967), Seiten 287-295 u.381-384 *
Wolfgang Hess, Digitale grundfrequenzsynchrone Analyse von Sprachsignalen als Teil eines automatischen Spracherkennungssystems, Dissertation 1972, Seiten 20,23-25,30-34,43-44,166 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666A1 (de) * 1977-05-07 1978-11-09 Philips Patentverwaltung Verfahren und anordnung zur geraeuschanalyse
DE3029823A1 (de) * 1980-08-06 1982-03-04 Siemens AG, 1000 Berlin und 8000 München Waehlverfahren zum verbindungsaufbau in einem fernsprechvermittlungssystem mit digitaler sprachuebertragung
WO1988004772A1 (en) * 1986-12-17 1988-06-30 British Telecommunications Public Limited Company Speaker identification
WO1990008379A1 (en) * 1989-01-17 1990-07-26 The University Court Of The University Of Edinburgh Speaker recognition
EP1038291A1 (de) * 1997-12-16 2000-09-27 Carmel, Avi Gerät und verfahren zum feststellen von gefühlen
EP1038291A4 (de) * 1997-12-16 2000-11-22 Carmel Avi Gerät und verfahren zum feststellen von gefühlen
WO2011046474A2 (ru) 2009-09-24 2011-04-21 Общество С Ограниченной Ответственностью "Цeнтp Речевых Технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
US9047866B2 (en) 2009-09-24 2015-06-02 Speech Technology Center Limited System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type
RU2530314C1 (ru) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке

Also Published As

Publication number Publication date
DE2431458C2 (de) 1986-05-28

Similar Documents

Publication Publication Date Title
DE3306730C2 (de)
EP0296588B1 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE3327139C2 (de) Verfahren und Vorrichtung von für die Rekonstruktion einer Wellenform vorgesehenen Daten
US3416080A (en) Apparatus for the analysis of waveforms
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825082A1 (de) Verfahren zur spracherkennung
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE10223735B4 (de) Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück
DE2431458A1 (de) Verfahren zur automatischen sprechererkennung
DE1572516A1 (de) Schaltungsanordnung fuer die Spracherkennung
DE2021126C3 (de) Spracherkennungs anordnung
DE1937464C3 (de) Sprachanalysiergerät
DE3102385A1 (de) Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern
DE60025333T2 (de) Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums
EP1382034B1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
DE2720666A1 (de) Verfahren und anordnung zur geraeuschanalyse
DE1938090C2 (de) Analysator von Massenspektren
DE1187387B (de) Verfahren zur Herstellung von Vergleichsmustern fuer das Erkennen von gesprochenen Worten
DE1963748B2 (de) Verfahren und vorrichtung zur ueberschlaegigen auswertung von elektrischen spannungsverlaeufen
DE2357949A1 (de) Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls
DE1547027B2 (de) Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen
DE10315372B4 (de) Verfahren und Vorrichtung zum Bereitstellen eines Messsignals und Vorrichtung zur Erfassung einer elektromagnetischen Störung
DE4428658A1 (de) Verfahren zur Erkennung von Signalen mittels Fuzzy-Klassifikation
DE1772633A1 (de) Verfahren zur Spracherkennung

Legal Events

Date Code Title Description
OD Request for examination
8120 Willingness to grant licences paragraph 23
8126 Change of the secondary classification

Ipc: G10L 1/04

D2 Grant after examination
8363 Opposition against the patent
8366 Restricted maintained after opposition proceedings
8305 Restricted maintenance of patent after opposition
D4 Patent maintained restricted
8339 Ceased/non-payment of the annual fee