DE2431458C2 - Verfahren und Anordnung zur automatischen Sprechererkennung - Google Patents

Verfahren und Anordnung zur automatischen Sprechererkennung

Info

Publication number
DE2431458C2
DE2431458C2 DE19742431458 DE2431458A DE2431458C2 DE 2431458 C2 DE2431458 C2 DE 2431458C2 DE 19742431458 DE19742431458 DE 19742431458 DE 2431458 A DE2431458 A DE 2431458A DE 2431458 C2 DE2431458 C2 DE 2431458C2
Authority
DE
Germany
Prior art keywords
speech signal
frequency
speech
counter
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19742431458
Other languages
English (en)
Other versions
DE2431458A1 (de
Inventor
Ernst Dipl.-Ing. 2000 Hamburg Bunge
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE19742431458 priority Critical patent/DE2431458C2/de
Publication of DE2431458A1 publication Critical patent/DE2431458A1/de
Application granted granted Critical
Publication of DE2431458C2 publication Critical patent/DE2431458C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

werden clic betreffenden Werte der Kur/./citspcktrcn über die Meßdaucr addiert. Die einzelnen Werte liegen jedoch in analoger Darstellung vor. und eine analoge Aiifsummierung ist wegen der dafür erforderlichen Speicherung technisch nicht ganz einfach. Es kann daher > zweckmäßig sein, die Addition bzw. Aiifsummierung digital durchzuführen. Um nur einen Analog-Digital-Wandler verwenden zu müssen, können die Ausgänge des Spektralanalysators 24 durch einen Multiplexer nacheinander abgetastet und dem Analog-Digital- ι» Wandler zugeführt werden. Die aufsummierten Werte der einzelnen Kanäle können parallel in einem mehrzelligen Schieberegister stehen, d. h. alle letzten Stellen der Schiebtregisterzeilen enthalten jeweils einen aufsummierten Wert. Wenn die Abtastung der π Ausgänge des Spektralanalysators synchron mit dem Schieben der Schieberegister erfolgt, steht in den letzten Stellen der Schieberegister jeweils der Wert für den Spektralbereich, der gerade vom Multiplexer abgetastet wird. Diese letzten Stellen der Schieberegi- :n ster werden mit dem digitalen Ausgang der Analog-Digital-Wandlcrs additiv verknüpft, in den Anfang der Schieberegister wieder eingegeben und auf den nächsten Kanal bzw. Frequenzbereich geschaltet. Es sind jedoch auch viele andere technische Realisierungen :i möglich, um das Langzeitspektrum zu erhalten.
Das Langzeitspektrum besteht also aus jeweils einem Wert je Frequenzbereich des Spektralanalysators.
In der Schaltung 2 wird entsprechend dem Verfahrensschritt h) jedes Kurzzeitspektrum daraufhin unter- jn sucht, in welchem Kanal des Spektralanalysators 24, d. h. in welchem Frequenzbereich ein Minimum vorliegt. Ein Minimum ist so definiert, daß beide benachbarten Kanäle ein höheres Signal führen als der betreffende Kanal. Da die Ausgänge des Spektralanalysators r> analoge Signale führen, kann dieser Vergleich auf analoge Weise durchgeführt werden, beispielsweise mittels Differenzverstärkern, deren Ausgangssignale bei Überschreiten einer Schwelle logisch miteinander verknüpft werden. Dazu wird zweckmäßig nur der schaltungstechnische Aufwand für die Feststellung eines Minimums in einem Kanal eingesetzt, was beispielsweise zwei Differenzverstärker erfordern würde, und die einzelnen Ausgänge des Spektralanalysators werden durch einen Multiplexer zeitlich nacheinander abgetastet. Statt einer analogen Realisierung kann auch eine digitale Verarbeitung zweckmäßig sein, indem dem Multiplexer ein Analog-Digital-Wandler nachgeschaltet wird. Der Multiplexer tastet dann jeweils nur einen Kanal des Spektralanalysators ab, und der zugehörige w Digitalwert wird in die erste Stufe eines dreistufigen Schieberegisters eingegeben. An die Ausgänge der drei Schieberegisterstufen ist dann die digitale Vergleichslogik angeschlossen. Ferner ist für jeden Kanal des Spektralanalysators ein Zähler vorgesehen, der das Auftreten eines Minimums in den aufeinanderfolgenden Kurzzeitspektren zählt.
In der Schaltung 3 wird in ähnlicher Weise wie vorstehend beschrieben jedes Kurzzeitspektrum auf ein Maximum untersucht. Ein Maximum ist so definiert, daß ^0 beide benachbarten Kanäle ein kleineres Signal führen als der betreffende Kanal. In der Schaltung 4 wird jedes Kurzzeitspektrum untersucht, bei welchem Kanal eine positive Flanke des Kurzzeitspektrums vorliegt Dazu gehört die Bedingung, daß der nächstniedrigere Kanal " bzw. Frequenzbereich ein kleineres Signa! und der nächsthöhere Kanal ein größeres Signal als der betreffende Kanal führt. In der Schaltung 5 wird jedes Kurz/.eitspokiriim untersucht, bei welchem Kanal das Kiir/.zeitspcktrum eine negative Flanke hat. in dem geprüft wird, ob der nächstniedrigere Kanal ein höheres Signal und der nächsthöhere Kanal ein niedrigeres Signal führt. In der Schaltung 6 wird schließlich festgestellt, bei welchem Kanal ein Plateau in dem Kurzzeitspektriim vorliegt, bei dem die beiden benachbarten Kanüle innerhalb vorgegebener Grenzen das gleiche Signal führen wie der betreffende Kanal. An jede der Schaltungen 3 bis 6 ist ebenfalls je Kanal des Spektralanalysators ein Zähler angeschlossen, der die Anzahl der angegebenen Merkmale in diesem Frequenzbereich zahlt. Die Vergleiche, die in den Schaltungen 3 bis 6 durchgeführt werden müssen, werden zweckmäßig ebenso wie bei der Schaltung 2 für die einzelnen Kanäle nacheinander durchgeführt. Dazu kann der dort verwendete Multiplexer, der die einzelnen Kanäle des Spektralanalysators 24 nacheinander abtastet, mitverwendet werden, und bei analoger Durchführung des Vergleichs können die Differenzverstärker bzw. bei digitaler Durchführung des Vergleichs der Analog-Digital-Wandler sowie das Schieberegister gemeinsam verwendet werden, um den Aufwand zu verringern.
In den Schaltungen 7 bis IO wird jedes Kurzzeitspektrum mit einem anderen Amplitudenverlauf verglichen. Dazu sind in jeder dieser Schaltungen eine Anzahl Spannungsfenster-Einrichtungen vorgesehen, von denen jetic nur dann ein Signal abgibt, wenn das angelegte Signal in einem bestimmten vorgegebenen Bereich liegt. Die Lage dieses Bereichs und dessen Breite bzw. dessen Grenzen sind zweckmäßig einstellbar. Eine solche Spannungsfenster-Einrichtung kann beispielsweise aus Schmitt-Triggern aufgebaut sein. Die Ausgänge aller Spannungsfenster-Einrichtungen jeder der Schaltungen 7 bis 10 werden über ein UND-Glied zusammengefaßt und nur wenn alle Spannungsfenster-Einrichtungen bei einem Kurzzeitintervall ein Ausgangssignal liefern, erzeugt die betreffende Schaltung ein Ausgangssignal und schaltet einen daran angeschlossenen Zähler um einen Schritt weiter. Es sei an dieser Stelle bemerkt, daß es nicht notwendig ist, für jeden Kanal des Spektralanalysators. das heißt für jeden Frequenzbereich eine Spannungsfenster-Einrichtung vorzusehen, da auch mit einer geringeren Anzahl sehr gute Ergebnisse erzielt werden. Die Verbindung der einzelnen Spannungsfenster-Einrichtungen mit den Kanälen des Spektralanalysators wird dann zweckmäßig einstellbar ausgebildet. Andererseits kann es zweckmäßig sein, eine größere Anzahl von derartigen Schaltungen von 7 bis 10 mit jeweils einer Anzahl von Spannungsfenster-Einri'-htungen vorzusehen, um jedes Kurzzeitspektrum mit einer größeren Anzahl von vorgegebenen Amplitudenverläufen zu vergleichen.
In der Schaltung 11 wird die Sprechpause sowie deren Zeitdauer festgestellt. Dies erfolgt im vorliegenden Fall mit Hilfe des Kurzzeitspektrums. indem die Signale aller Kanäle des Spektralanalysators zusammengefügt bzw. aufsummiert werden, und wenn dieses Suir.mensignal einen bestimmten Schwellwert nicht überschreitet, wird das Sprachsignal für den Zeitraum des. betreffenden Kurzzeitspektrums als Sprechpause ausgewertet, und ein an die Schaltung 11 angeschlossener oder darin enthaltener Zähler wird um einen Schritt weitergeschaltet. Dieser Zähler enthält am Schluß der Meßdauer also ein Maß für die Gesamtdauer der Sprechpausen. Wenn die Zusammenfügung der einzelnen Kanalsignale gewichtet erfolgt, kann dadurch oft ein vom Mikrophon
20 mitaufgenommenes Hintergrundgeräusch eliminiert werden.
Die Schaltungen 12 und 13 messen die Dauer des .Sprachsignals mit s'immhaften bzw. stimmlosen Lauten entsprechend dem Verfahrensschritt e). Ein Sprachsignal mit einem stimmhaften Laut liegt vor, wenn im Frequenzbereich unterhalb einer bestimmten Grenze, beispielweise 500 Hz. ein vorgegebenes Gcsamtsignal überschritten wird. Dazu werden im vorliegenden Fall die Kanäle des Spektralanalysators bis zu dieser Grenzfrequenz aufsummiert, gegebenenfalls ebenfalls gewichtet und einem Schwellwer.detektor zugeführt. In der Schaltung 13 wird geprüft, ob ein ausreichendes Sprachsianal und ein ausreichender Anteil im hohen Frequenzbereich des Sprachsignals vorliegt, indem nur die Kanäle des Spektralanalysators 24 für die hohen Frequenzen zusammengefaßt werden, und nur wenn außerdem gleichzeitig kein Ausgangssignal der Schaltung 12 erzeugt wird, liefert die Schaltung 13 ein Ausgangssignal. Die Schaltung 12 licfert somit also auch ein Ausgangssignal, wenn zusätzlich zu dem Anteil in den tiefen Frequenzen ein wesentlicher Anteil in hohen Frequenzen des Sprachsignals vorhanden ist. An jede der Schaltungen 12 und 13 ist wieder ein Zähler angeschlossen bzw. darin enthalten, der zählt, wie oft ein Kurzzeitspektrum mit einem stimmhaften bzw. einem stimmlosen Laut aufgetreten ist, und die Zählerstände am Ende der Meßdauer sind ein Maß für die Gesamtdauer des Sprachsignals mit stimmhaften bzw. stimmlosen Lauten. Um ein von der variablen Meßdauer unabhängiges Signal zu erhalten, kann das Verhältnis der Zählerstände der zu den Schaltungen 11 bis 13 gehörenden Zähler zu einer der Meßdauer entsprechenden Zahl gebildet werden.
Die Steuerung der einzelnen Schaltungen geschieht durch die Steuereinheit 29. die im wcsenilichen einen stabilen Takt liefert und die Einheiten für die Zeitmessung vorgibt, beispielsweise die Zeitabschnitte für die Kurzzcitspcktrcn. Die in den Schaltungen 1 bis 13 sowie 25 bis 27 erhaltenen Ergebnisse, die alle als Zählerstände einer Vielzahl von Zählern vorliegen bzw. bei den Schaltungen Il bis 13 als Verhältniszahlen, müssen nach Ablauf der Meßdauer mit dem vorgegebenen, sprecherspezifischen Satz von Zählwerten verglichen werden, um aus dem Grad der Übereinstimmung die Identität des Sprechers ableiten zu können. Dies erfolgt zweckmäßig in einem üblichen Allzweckrechner mit entsprechendem Speicher (nicht dargestellt). Wegen der relativ großen Anzahl von Meßdaten werden diese dem Rechner zweckmäßig in Serie über einen Multiplexer, der in der Einheit 28 enthalten ist und der die einzelnen Zähler nacheinander abtastet, zugeführt. Der sprecherspezifische Satz von Zählwerten, mit dem die Meßdaten verglichen werden, kann beispielsweise nach dem gleicnen Verfahren von dem betreffenden Sprecher bekannter Identität gewonnen werden.
Das erfindungsgemäße Verfahren berücksichtigt weitgehend alle Charakteristika, die in der menschlichen Sprache vorhanden sein können. Bei einfacheren Ansprüchen an die Erkennungssicherheit können aber auch gegebenenfalls einzelne Schritte weggelassen werden.
Hierzu 1 Blatt Zeichnungen
»0 262/185

Claims (10)

  1. Patentansprüche:
    1, Verfahren zur automatischen Sprechererkennung, bei dem ein vom zu erkennenden Sprecher gesprochener Text in ein elektrisches Sprachsignal 5 umgesetzt und dieses Sprachsignal auf zeitliche und spektrale Eigenschaften untersucht wird und die dabei gewonnenen Werte der Eigenschaften mit einem vorgegebenen, sprecherspezifischen Satz von Werten verglichen werden und aus dem Grad der Übereinstimmung eine Entscheidung über die Identität des Sprechers abgeleitet wird, wobei die Untersuchung der Eigenschaften mindestens einen der folgenden Verfahrensschritte umfaßt:
    Ii
    a) Die Grundfrequenz des Sprachsignals wird in bestimmten Zeitabständen gemessen und die Häufigkeit in vorgegebenen Frequenzbereichen gezählt.
    b) die 'mplitude des Sprachsignals wird in bestimmten Zeitabständen gemessen,
    c) das Kurzzeitspektrum des Sprachsignals, d. h. der Amplitudenverlauf über mehrere aneinandergrenzende Frequenzbereiche, wird in bestimmten Zeitabständen erzeugt und die einzelnen Amplitudenwerte je Frequenzbereich über die Meßdauer addiert,
    d) die zeitliche Dauer der Sprechzeit und der Pausenzeit sowie deren Verhältnis wird bestimmt, JO
    «) die Dauer der Zeiten mit stimmhaftem Sprachsignal und stimmlosem Sprachsignal sowie deren Verhältnis .vird benimmt.
    dadurch gekennzeichr :t. daß außerdem κ tiner der folgenden Verfahrensschritte gleichzeitig durchgeführt wird:
    I) Von den gemessenen Amplitudenwerten wird die Häufigkeit in vorgegebenen Amplitudenbcreichen gezählt,
    g) in dem Sprachsignal werden die zeitlichen Abstände der Nulldurchgänge gemessen und einem von mehreren aneinander anschließenden Abstandsbereichen zugeordnet, und die Anzahlen des Auftretens in den einzelnen Abstandsbereichen werden getrennt gezählt,
    I) der Amplitudenverlauf jedes Kurzzeitspektrums wird darauf untersucht, in welchem Frequenzbereich ein Minimum, ein Maximum, M eine ansteigende Flanke, eine abfallende Flanke und ein Plateau auftritt, und jedes Merkmal wird je Frequenzbereich gezählt.
    i) der Amplitudenverlauf jedes Kurzzeitspektrums wird mit mindestens einem vorgegebenen >i Amplitudenverlauf verglichen, und wenn die Amplitudenabweichung für jeden verglichenen Frequenzbereich unterhalb einer vorgegebenen Grenze liegt, wird die Übereinstimmung je vorgegebenem Amplitudenverlauf gezählt. &o
  2. 2. Verfahren nach Anspruch I, dadurch gekennzeichnet, daß in dem bzw. in jedem vorgegebenen Amplitiidenvcrlaiif des Kurzzeitspektrums die vorgegebenen Amplitudenabweichungen für jeden (■> Frequenzbereich unabhängig voneinander einstellbar sind.
  3. 3. Verfahren nach Anspruch I oder 2. dadurch
    gekennzeichnet, daß für die Messung der Sprechpausen die Einzelenergien der einzelnen Frequenzbereiche des Kurzzeitspek'.rums gewichtet zusammengefügt werden und bei Unterschreiten des zusammengefügten Signals unter den vorgegebenen Schwellwert eine Sprechpause erkannt wird.
  4. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß ein Sprachsignal mit stimmhaften Lauten erkannt wird, w:nn das Sprachsignal eine vorgegebene Mindestenergie in dem Frequenzbereich unterhalb einer Grenzfrequenz überschreitet, und daß ein Sprachsignal mit stimmlosen Lauten erkannt wird, wenn die Mindestenergie in diesem Frequenzbereich nicht überschritten wird und gleichzeitig keine Sprechpause erkannt wird.
  5. 5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß zur Erkennung eines Sprach5>gnals mit stimmlosen bzw. mit stimmhaften Lauten das Kurzzeitspektrum verwendet wird.
  6. 6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Verhältnis der Gesamtpausendauer, der Gesamtdauer des Sprachsignals mit stimmhaften Lauten und der Gesamtdauer des Sprachsignals mit stimmlosen Lauten jeweils zur Meßdauer gebildet wird und die so gewonnenen di ii Verhältniswerte nach der Meßdauer weiterverarbeitet werden.
  7. 7. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß das Sprachsignal einen begrenzenden Verstärker hoher Verstärkung durchläuft, und das an dessem Ausgang entstehende Rechtecksignal mit jeder Flanke einen festen Zähltakt enthaltenden ersten Zähler auf die Nullstellung zurücksetzt, wobei der Zählerstand unmittelbar vor der Flanke ein Maß für den Abstand der Nulldurchgänge des Sprachsignals ist.
  8. 8. Anordnung nach Anspruch 7. dadurch gekennzeichnet, daß jeweils einer Zähierstellung bzw. Gruppe von Zählerstellungen d'js ersten Zählers ein bzw. mehrere weitere Zähler zugeordnet sind und jede Flanke den weiteren Zähler, der dem Zählerstand des ersten Zählers in diesem Augenblick zugeordnet ist, um eine Stellung weiterschaltet.
  9. 9. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche I bis 6. dadurch gekennzeichnet, daß zur Messung der Gesamtpausendauer. der Gesamtdauer des Sprachsignals mit stimmhaften Lauten und der Gesamtdauer des Sprachsignals mit stimmlosen Lauten jeweils ein Zähler vorgesehen ist. der einen konstanten Zähltakt erhält, solange die entsprechende Bedingung im Sprachsignal erkannt ist.
  10. 10. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche I b!s 6. dadurch gekennzeichnet, daß das Sprachsignal eine Filterbank mit einer Anzahl von Filtern, die auf je einen von mehreren aneinandergrenzenden Frequenzbereichen abgestimmt sind, rl 'chlauft und jeder Filterausgang mit einer oder n,chrcreri Spahriungsfenster-Einrichtungen verbunden ist. die jeweils ein Signal abgeben, wenn das Filterausgangssignal in einem bestimmten vorgegebenen und gegebenenfalls einstellbaren Spannungsbereich liegt, und daß /ur Untersuchung des Amplitudenverlaufs der Kurzzeitspektren die Signale von zu verschiedenen Filterausgangcn gehörenden .Spannungsfenster-Kin-
    richtungen über ein UND-Glied zusammengefaßt sind.
    Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1 sowie eine Anordnung zur Durchführung dieses Verfahrens.
    Ein derartiges Verfahren ist bekannt aus der Zeilsef.pf! »NTZ«, 1969, Heft 6, Seiten 364 bis 367. Dabei werden zur Sprecheridentifizierung textunabhängige Merkmale des Sprachsignals verwendet. Bei dem dort beschriebenen Untersuchungsergebnis wurden jedoch relativ lange Sprechproben verwendet und die Ergebnisse waren teilweise sehr unbefriedigend.
    Aufgabe der Erfindung ist es, das eingangs genannte Verfahren so auszugestalten, daß auch mit kürzeren Sprechproben eine wesentlich verbesserte Zuverlässigkeit der Sprecheridentifikation möglich ist.
    Diese Aufgabe wird erfindungsgemäß durch die im kennzeichnenden Teil des Patentanspruchs 1 anpegebenen Merkmale gelöst.
    Es werden dabei zusätzliche Verfahrensu-hritte angewendet, deren Ergebnisse sich als sehr charakteristisch für die Unterscheidung verschiedener Sprecher erwiesen haben. Ferner wird bei diesen zusätzlichen Verfahrensschritten eine relativ kleine, jedoch aussagekräftige Datenmenge gewonnen. Daher eignen sich die so gewonnenen Werte besonders für eine sehr kompakte Speicherung.
    Das erfindungsgemäße Verfahren ist nicht nur auf die Erkennung eines menschlichen Sprechers beschränkt, sondern es läßt sich auch zur Erkennung beliebiger Schallquellen, wie z. B. Herzgeräusche. Maschinengeräusche usw. verwenden, um Abweichungen von einem Normalgeräusch bzw. die Art der Abweichung zu erkennen. Für die Erkennung eines menschlichen Sprechers ist das Verfahren besonders gut geeignet, da die einzelnen Verfahrensschritte besonders an die verschiedenen Eigenschaften bzw. Merkmale der menschlichen Sprache angepaßt sind, die teilweise auch miteinander korreliert sind. Dadurch werden einzelne Sprachmerkmale zumindest indirekt mehrfach untersucht, was jedoch technisch einfacher ist. als die Korrelationen festzustellen. Die genaue technische Realisation der einzelnen Verfahrensschritte ist an sich grundsätzlich bekannt. In den Unteranspruchen sind einige besonders vorteilhafte Ausgestaltungen einzelner Verfahrensschritte angegeben.
    Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnung erläutert.
    Das zu erkennende bzw. zu analysierende Sprachsignal wird in dem Mikrophon 20 in ein elektrisches Signal umgewandelt rnd der Einrichtung zugeführt.
    Die Durchführung des Verfahrensschrittes g). die Messung der Nulldun hgangsabstände. erfolgt dadurch, diß das Sprachsign.i, einem begrenzenden Verstärker 21 mit hoher Verstärkung zugeführt wird. Am Ausgang ergibt Mi h dann rin Reihteeksignal mit variierenden Flankendüstanden. Bei jeder positiven Flanke wird in der Einheit 25 ein Zähler gestartet, der einen festen Zahltakt erhalt, und mit der nächsten negativen Flanke wird der darin erreichte Zählerstand ausgewertet und der Zahler wilder auf Null gcsct/.t. Um für das Rücksetzen und die Auswertung mehr Zeil zur Verfügung zu haben, r.arin in der [einheit 25 ein zweiter Zähler angeordnet scm. der bei jeder negativen Flanke zu zählen beginnt und dessen Zahlerstellunp mit der jeweils nächsten positiven Flanke ausgewertet wird. Zur Au' Wertung sind so viele weitere Zähler in der Einheit 28 vorgesehen, wie verschiedene Abstandsbereiche voneinander unterschieden werden sollen, d. h. wie '. ci-ichiedenc Gruppen von Zählerständen unterschieden werden sollen. Die Zählerausgänge werden dazu einem Decodierer zugeführt, der für jede voneinander zu unterscheidende Gruppe von Zählerzuständen einen Ausgang besitzt, und an jedem Ausgang ist über ein UND-Glied einer der weiteren Zähler angeschlossen. Am Ende der Meßdauer enthalten die Zähler also die
    Nulldurchgar.gs-Abstandswahrscheinlichkeitsverteilung, wobei jeder Zähler die Häufigkeit eines von mehreren aneinanderstoßenden Nulldurchgangs-Abstandsbereichen angibt
    Der nächste Verfahrensschritt a) bildet die Statistik der Sprachmelodie. Dazu wird in der Schaitung 23 die Sprachgrundfrequenz in eine frequenzproportionale Spannung umgewandelt. Von dieser Spannung wird ein Amplitudenhistogramm in der Schal . .ig 27 erzeugt. Dieses Histogramm kann auf gleicne weise wie vorstehend beschrieben die Wahrscheinlichkeitsverteilung der Nulldurchgangsabstände gebildet werden, d. h. für jeden aneinandergrenzenden Spannungsbereich wird ein eigener Zähler vorgesehen, der in regelmäßigen Abständen oder bei Änderung der Spannung zum benachbarten Spannungsbereich um eine Zählerstellung weitergeschaltet wird. Die Zustände der Zähler am Ende der Meßdauer geben dann eine Aussage über die Wahrscheinlichkeitsverteilung der Sprachgrundfrequenz des Sprechers. Bei Sprechern, die melodisch sprechen, d. h. oft die Stimme heben und senken, ist in etwa eine Gleichverteilung zu erwarten, während bei monotonen Sprechern einige wenige Sprachgrundfrequenzen um so häufiger vorkommen.
    In den Verfahrcnsschntten b) und f) läuft im Prinzip der gleiche Vorgang ab. jedoch statt mit der Sprachgrundfrequenz hier mit der Sprachsignulamp.itude. Dazu wird in der Schaltung 22 das Sprachsignal linear gleichgerichtet und über einen Tiefpaß geleitet. Aus dieser lautstärkeproportionalen Spannung wird nun wieder in dem Histographen 26 ein Histogramm gebildet, beispielsweise in der gleichen Weise wie bei dem vorhergehend beschriebenen Verfahrensschritt für die Sprachgrundfrequenz. Die Zustände der Zähler in dem Histographen 26 ergeben am Schluß der Meßdauer die sprecherspezifische Häufigkeitsverteilung der einzelnen Lautstärkestufen, die ein Maß für die Betonungsmonotonie des Sprechers ist.
    In den Schaltungsblccken 1 bis 13 werden verschiedene Eigenschaften des Sprachsignals im Spektralbereich untersucht. Dazu wird das iiprachsignal einem Spektralana'ysa'ji 24 zugeführt, der auf π Ausgangsleitungen. " die jeweils einen Frequenzbereich darstellen und die in der Zeichnung vereinfacht als eine Leitung gezeichnet sind, in regelmäßigen Zeitabständen ein Kurzzeitspektrum KZS liefert, leder Ausgang gibt also die mittlere spektrale Energie cies zugehörigen Frequenzbereiches in dem vorhergehenden Zeitabschnitt an. Die minimalen Zeitabstände hangen nach dem Abtasttheorem vun der gewünschten FrequenzauflöMing. d. h. von der mir.imalen Bandbreite tier Filter in dem Spektralanalysator 24 ab.
    " Aus diesen Kurzzeitspektren wird in dem Mitlelwprtrechner 1 uas Langzeuspektrum ermittelt. Dazu besitzt der Mittelwertrechner 1 für jeden Ausgang des Spektralanalysators 24 einen Kanal, und in jedem Kanal
DE19742431458 1974-07-01 1974-07-01 Verfahren und Anordnung zur automatischen Sprechererkennung Expired DE2431458C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19742431458 DE2431458C2 (de) 1974-07-01 1974-07-01 Verfahren und Anordnung zur automatischen Sprechererkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19742431458 DE2431458C2 (de) 1974-07-01 1974-07-01 Verfahren und Anordnung zur automatischen Sprechererkennung

Publications (2)

Publication Number Publication Date
DE2431458A1 DE2431458A1 (de) 1976-02-05
DE2431458C2 true DE2431458C2 (de) 1986-05-28

Family

ID=5919364

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19742431458 Expired DE2431458C2 (de) 1974-07-01 1974-07-01 Verfahren und Anordnung zur automatischen Sprechererkennung

Country Status (1)

Country Link
DE (1) DE2431458C2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992013340A1 (en) * 1991-01-18 1992-08-06 Theis Peter F System for distinguishing or counting spoken itemized expressions

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666C2 (de) * 1977-05-07 1987-01-29 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und Anordnung zur Geräuschanalyse
DE3029823A1 (de) * 1980-08-06 1982-03-04 Siemens AG, 1000 Berlin und 8000 München Waehlverfahren zum verbindungsaufbau in einem fernsprechvermittlungssystem mit digitaler sprachuebertragung
GB8630118D0 (en) * 1986-12-17 1987-01-28 British Telecomm Speaker identification
WO1990008379A1 (en) * 1989-01-17 1990-07-26 The University Court Of The University Of Edinburgh Speaker recognition
IL122632A0 (en) * 1997-12-16 1998-08-16 Liberman Amir Apparatus and methods for detecting emotions
RU2419890C1 (ru) 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
RU2530314C1 (ru) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992013340A1 (en) * 1991-01-18 1992-08-06 Theis Peter F System for distinguishing or counting spoken itemized expressions

Also Published As

Publication number Publication date
DE2431458A1 (de) 1976-02-05

Similar Documents

Publication Publication Date Title
DE3306730C2 (de)
EP0296588B1 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE1472038A1 (de) Verfahren zur Spracherkennung
DE2753277A1 (de) Spracherkennungseinrichtung
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE10223735B4 (de) Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2431458C2 (de) Verfahren und Anordnung zur automatischen Sprechererkennung
DE1572516A1 (de) Schaltungsanordnung fuer die Spracherkennung
DE102005044194B4 (de) Messvorrichtung und Verfahren zum Messen von relativen Phasenlagen von digitalen Signalen
DE2720666C2 (de) Verfahren und Anordnung zur Geräuschanalyse
DE1938090C2 (de) Analysator von Massenspektren
DE60025333T2 (de) Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE1963748B2 (de) Verfahren und vorrichtung zur ueberschlaegigen auswertung von elektrischen spannungsverlaeufen
DE1194170B (de) Verfahren und Schaltungsanordnung zur Spracherkennung
DE10315372B4 (de) Verfahren und Vorrichtung zum Bereitstellen eines Messsignals und Vorrichtung zur Erfassung einer elektromagnetischen Störung
DE1547027B2 (de) Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen
DE1772633A1 (de) Verfahren zur Spracherkennung
DE1122274B (de) Verfahren und Anordnung zur automatischen Erkennung von Sprache
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
DE3629534C2 (de)
DE2334459C3 (de) Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung
DE1160660B (de) Verfahren zur Umwandlung gesprochener Worte in eine optische Darstellung

Legal Events

Date Code Title Description
OD Request for examination
8120 Willingness to grant licences paragraph 23
8126 Change of the secondary classification

Ipc: G10L 1/04

D2 Grant after examination
8363 Opposition against the patent
8366 Restricted maintained after opposition proceedings
8305 Restricted maintenance of patent after opposition
D4 Patent maintained restricted
8339 Ceased/non-payment of the annual fee