DE2431458C2 - Verfahren und Anordnung zur automatischen Sprechererkennung - Google Patents
Verfahren und Anordnung zur automatischen SprechererkennungInfo
- Publication number
- DE2431458C2 DE2431458C2 DE19742431458 DE2431458A DE2431458C2 DE 2431458 C2 DE2431458 C2 DE 2431458C2 DE 19742431458 DE19742431458 DE 19742431458 DE 2431458 A DE2431458 A DE 2431458A DE 2431458 C2 DE2431458 C2 DE 2431458C2
- Authority
- DE
- Germany
- Prior art keywords
- speech signal
- frequency
- speech
- counter
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000001228 spectrum Methods 0.000 claims description 40
- 238000005259 measurement Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims 1
- 208000035211 Heart Murmurs Diseases 0.000 claims 1
- 230000001944 accentuation Effects 0.000 claims 1
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 238000011835 investigation Methods 0.000 claims 1
- 230000000630 rising effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 claims 1
- 230000007774 longterm Effects 0.000 description 2
- 241001631457 Cannula Species 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
werden clic betreffenden Werte der Kur/./citspcktrcn
über die Meßdaucr addiert. Die einzelnen Werte liegen
jedoch in analoger Darstellung vor. und eine analoge Aiifsummierung ist wegen der dafür erforderlichen
Speicherung technisch nicht ganz einfach. Es kann daher > zweckmäßig sein, die Addition bzw. Aiifsummierung
digital durchzuführen. Um nur einen Analog-Digital-Wandler verwenden zu müssen, können die Ausgänge
des Spektralanalysators 24 durch einen Multiplexer nacheinander abgetastet und dem Analog-Digital- ι»
Wandler zugeführt werden. Die aufsummierten Werte der einzelnen Kanäle können parallel in einem
mehrzelligen Schieberegister stehen, d. h. alle letzten Stellen der Schiebtregisterzeilen enthalten jeweils
einen aufsummierten Wert. Wenn die Abtastung der π Ausgänge des Spektralanalysators synchron mit dem
Schieben der Schieberegister erfolgt, steht in den letzten Stellen der Schieberegister jeweils der Wert für
den Spektralbereich, der gerade vom Multiplexer abgetastet wird. Diese letzten Stellen der Schieberegi- :n
ster werden mit dem digitalen Ausgang der Analog-Digital-Wandlcrs
additiv verknüpft, in den Anfang der Schieberegister wieder eingegeben und auf den
nächsten Kanal bzw. Frequenzbereich geschaltet. Es sind jedoch auch viele andere technische Realisierungen :i
möglich, um das Langzeitspektrum zu erhalten.
Das Langzeitspektrum besteht also aus jeweils einem Wert je Frequenzbereich des Spektralanalysators.
In der Schaltung 2 wird entsprechend dem Verfahrensschritt
h) jedes Kurzzeitspektrum daraufhin unter- jn sucht, in welchem Kanal des Spektralanalysators 24, d. h.
in welchem Frequenzbereich ein Minimum vorliegt. Ein Minimum ist so definiert, daß beide benachbarten
Kanäle ein höheres Signal führen als der betreffende Kanal. Da die Ausgänge des Spektralanalysators r>
analoge Signale führen, kann dieser Vergleich auf analoge Weise durchgeführt werden, beispielsweise
mittels Differenzverstärkern, deren Ausgangssignale bei Überschreiten einer Schwelle logisch miteinander
verknüpft werden. Dazu wird zweckmäßig nur der schaltungstechnische Aufwand für die Feststellung eines
Minimums in einem Kanal eingesetzt, was beispielsweise zwei Differenzverstärker erfordern würde, und die
einzelnen Ausgänge des Spektralanalysators werden durch einen Multiplexer zeitlich nacheinander abgetastet.
Statt einer analogen Realisierung kann auch eine digitale Verarbeitung zweckmäßig sein, indem dem
Multiplexer ein Analog-Digital-Wandler nachgeschaltet wird. Der Multiplexer tastet dann jeweils nur einen
Kanal des Spektralanalysators ab, und der zugehörige w Digitalwert wird in die erste Stufe eines dreistufigen
Schieberegisters eingegeben. An die Ausgänge der drei Schieberegisterstufen ist dann die digitale Vergleichslogik
angeschlossen. Ferner ist für jeden Kanal des Spektralanalysators ein Zähler vorgesehen, der das
Auftreten eines Minimums in den aufeinanderfolgenden Kurzzeitspektren zählt.
In der Schaltung 3 wird in ähnlicher Weise wie vorstehend beschrieben jedes Kurzzeitspektrum auf ein
Maximum untersucht. Ein Maximum ist so definiert, daß ^0
beide benachbarten Kanäle ein kleineres Signal führen als der betreffende Kanal. In der Schaltung 4 wird jedes
Kurzzeitspektrum untersucht, bei welchem Kanal eine positive Flanke des Kurzzeitspektrums vorliegt Dazu
gehört die Bedingung, daß der nächstniedrigere Kanal " bzw. Frequenzbereich ein kleineres Signa! und der
nächsthöhere Kanal ein größeres Signal als der betreffende Kanal führt. In der Schaltung 5 wird jedes
Kurz/.eitspokiriim untersucht, bei welchem Kanal das
Kiir/.zeitspcktrum eine negative Flanke hat. in dem geprüft wird, ob der nächstniedrigere Kanal ein höheres
Signal und der nächsthöhere Kanal ein niedrigeres Signal führt. In der Schaltung 6 wird schließlich
festgestellt, bei welchem Kanal ein Plateau in dem Kurzzeitspektriim vorliegt, bei dem die beiden benachbarten
Kanüle innerhalb vorgegebener Grenzen das gleiche Signal führen wie der betreffende Kanal. An
jede der Schaltungen 3 bis 6 ist ebenfalls je Kanal des Spektralanalysators ein Zähler angeschlossen, der die
Anzahl der angegebenen Merkmale in diesem Frequenzbereich zahlt. Die Vergleiche, die in den
Schaltungen 3 bis 6 durchgeführt werden müssen, werden zweckmäßig ebenso wie bei der Schaltung 2 für
die einzelnen Kanäle nacheinander durchgeführt. Dazu kann der dort verwendete Multiplexer, der die einzelnen
Kanäle des Spektralanalysators 24 nacheinander abtastet, mitverwendet werden, und bei analoger Durchführung
des Vergleichs können die Differenzverstärker bzw. bei digitaler Durchführung des Vergleichs der
Analog-Digital-Wandler sowie das Schieberegister gemeinsam verwendet werden, um den Aufwand zu
verringern.
In den Schaltungen 7 bis IO wird jedes Kurzzeitspektrum
mit einem anderen Amplitudenverlauf verglichen. Dazu sind in jeder dieser Schaltungen eine Anzahl
Spannungsfenster-Einrichtungen vorgesehen, von denen
jetic nur dann ein Signal abgibt, wenn das angelegte
Signal in einem bestimmten vorgegebenen Bereich liegt. Die Lage dieses Bereichs und dessen Breite bzw. dessen
Grenzen sind zweckmäßig einstellbar. Eine solche Spannungsfenster-Einrichtung kann beispielsweise aus
Schmitt-Triggern aufgebaut sein. Die Ausgänge aller Spannungsfenster-Einrichtungen jeder der Schaltungen
7 bis 10 werden über ein UND-Glied zusammengefaßt und nur wenn alle Spannungsfenster-Einrichtungen bei
einem Kurzzeitintervall ein Ausgangssignal liefern, erzeugt die betreffende Schaltung ein Ausgangssignal
und schaltet einen daran angeschlossenen Zähler um einen Schritt weiter. Es sei an dieser Stelle bemerkt, daß
es nicht notwendig ist, für jeden Kanal des Spektralanalysators. das heißt für jeden Frequenzbereich eine
Spannungsfenster-Einrichtung vorzusehen, da auch mit einer geringeren Anzahl sehr gute Ergebnisse erzielt
werden. Die Verbindung der einzelnen Spannungsfenster-Einrichtungen mit den Kanälen des Spektralanalysators
wird dann zweckmäßig einstellbar ausgebildet. Andererseits kann es zweckmäßig sein, eine größere
Anzahl von derartigen Schaltungen von 7 bis 10 mit jeweils einer Anzahl von Spannungsfenster-Einri'-htungen
vorzusehen, um jedes Kurzzeitspektrum mit einer größeren Anzahl von vorgegebenen Amplitudenverläufen
zu vergleichen.
In der Schaltung 11 wird die Sprechpause sowie deren
Zeitdauer festgestellt. Dies erfolgt im vorliegenden Fall mit Hilfe des Kurzzeitspektrums. indem die Signale aller
Kanäle des Spektralanalysators zusammengefügt bzw. aufsummiert werden, und wenn dieses Suir.mensignal
einen bestimmten Schwellwert nicht überschreitet, wird das Sprachsignal für den Zeitraum des. betreffenden
Kurzzeitspektrums als Sprechpause ausgewertet, und ein an die Schaltung 11 angeschlossener oder darin
enthaltener Zähler wird um einen Schritt weitergeschaltet. Dieser Zähler enthält am Schluß der Meßdauer also
ein Maß für die Gesamtdauer der Sprechpausen. Wenn
die Zusammenfügung der einzelnen Kanalsignale gewichtet erfolgt, kann dadurch oft ein vom Mikrophon
20 mitaufgenommenes Hintergrundgeräusch eliminiert werden.
Die Schaltungen 12 und 13 messen die Dauer des .Sprachsignals mit s'immhaften bzw. stimmlosen Lauten
entsprechend dem Verfahrensschritt e). Ein Sprachsignal mit einem stimmhaften Laut liegt vor, wenn im
Frequenzbereich unterhalb einer bestimmten Grenze, beispielweise 500 Hz. ein vorgegebenes Gcsamtsignal
überschritten wird. Dazu werden im vorliegenden Fall die Kanäle des Spektralanalysators bis zu dieser
Grenzfrequenz aufsummiert, gegebenenfalls ebenfalls gewichtet und einem Schwellwer.detektor zugeführt. In
der Schaltung 13 wird geprüft, ob ein ausreichendes
Sprachsianal und ein ausreichender Anteil im hohen Frequenzbereich des Sprachsignals vorliegt, indem nur
die Kanäle des Spektralanalysators 24 für die hohen Frequenzen zusammengefaßt werden, und nur wenn
außerdem gleichzeitig kein Ausgangssignal der Schaltung 12 erzeugt wird, liefert die Schaltung 13 ein
Ausgangssignal. Die Schaltung 12 licfert somit also auch
ein Ausgangssignal, wenn zusätzlich zu dem Anteil in den tiefen Frequenzen ein wesentlicher Anteil in hohen
Frequenzen des Sprachsignals vorhanden ist. An jede der Schaltungen 12 und 13 ist wieder ein Zähler
angeschlossen bzw. darin enthalten, der zählt, wie oft ein Kurzzeitspektrum mit einem stimmhaften bzw. einem
stimmlosen Laut aufgetreten ist, und die Zählerstände am Ende der Meßdauer sind ein Maß für die
Gesamtdauer des Sprachsignals mit stimmhaften bzw. stimmlosen Lauten. Um ein von der variablen Meßdauer
unabhängiges Signal zu erhalten, kann das Verhältnis der Zählerstände der zu den Schaltungen 11 bis 13
gehörenden Zähler zu einer der Meßdauer entsprechenden Zahl gebildet werden.
Die Steuerung der einzelnen Schaltungen geschieht durch die Steuereinheit 29. die im wcsenilichen einen
stabilen Takt liefert und die Einheiten für die Zeitmessung vorgibt, beispielsweise die Zeitabschnitte
für die Kurzzcitspcktrcn. Die in den Schaltungen 1 bis
13 sowie 25 bis 27 erhaltenen Ergebnisse, die alle als Zählerstände einer Vielzahl von Zählern vorliegen bzw.
bei den Schaltungen Il bis 13 als Verhältniszahlen, müssen nach Ablauf der Meßdauer mit dem vorgegebenen,
sprecherspezifischen Satz von Zählwerten verglichen werden, um aus dem Grad der Übereinstimmung
die Identität des Sprechers ableiten zu können. Dies erfolgt zweckmäßig in einem üblichen Allzweckrechner
mit entsprechendem Speicher (nicht dargestellt). Wegen der relativ großen Anzahl von Meßdaten werden diese
dem Rechner zweckmäßig in Serie über einen Multiplexer, der in der Einheit 28 enthalten ist und der
die einzelnen Zähler nacheinander abtastet, zugeführt. Der sprecherspezifische Satz von Zählwerten, mit dem
die Meßdaten verglichen werden, kann beispielsweise nach dem gleicnen Verfahren von dem betreffenden
Sprecher bekannter Identität gewonnen werden.
Das erfindungsgemäße Verfahren berücksichtigt weitgehend alle Charakteristika, die in der menschlichen
Sprache vorhanden sein können. Bei einfacheren Ansprüchen an die Erkennungssicherheit können aber
auch gegebenenfalls einzelne Schritte weggelassen werden.
Hierzu 1 Blatt Zeichnungen
»0 262/185
Claims (10)
- Patentansprüche:1, Verfahren zur automatischen Sprechererkennung, bei dem ein vom zu erkennenden Sprecher gesprochener Text in ein elektrisches Sprachsignal 5 umgesetzt und dieses Sprachsignal auf zeitliche und spektrale Eigenschaften untersucht wird und die dabei gewonnenen Werte der Eigenschaften mit einem vorgegebenen, sprecherspezifischen Satz von Werten verglichen werden und aus dem Grad der Übereinstimmung eine Entscheidung über die Identität des Sprechers abgeleitet wird, wobei die Untersuchung der Eigenschaften mindestens einen der folgenden Verfahrensschritte umfaßt:Iia) Die Grundfrequenz des Sprachsignals wird in bestimmten Zeitabständen gemessen und die Häufigkeit in vorgegebenen Frequenzbereichen gezählt.b) die 'mplitude des Sprachsignals wird in bestimmten Zeitabständen gemessen,c) das Kurzzeitspektrum des Sprachsignals, d. h. der Amplitudenverlauf über mehrere aneinandergrenzende Frequenzbereiche, wird in bestimmten Zeitabständen erzeugt und die einzelnen Amplitudenwerte je Frequenzbereich über die Meßdauer addiert,d) die zeitliche Dauer der Sprechzeit und der Pausenzeit sowie deren Verhältnis wird bestimmt, JO«) die Dauer der Zeiten mit stimmhaftem Sprachsignal und stimmlosem Sprachsignal sowie deren Verhältnis .vird benimmt.dadurch gekennzeichr :t. daß außerdem κ tiner der folgenden Verfahrensschritte gleichzeitig durchgeführt wird:I) Von den gemessenen Amplitudenwerten wird die Häufigkeit in vorgegebenen Amplitudenbcreichen gezählt,g) in dem Sprachsignal werden die zeitlichen Abstände der Nulldurchgänge gemessen und einem von mehreren aneinander anschließenden Abstandsbereichen zugeordnet, und die Anzahlen des Auftretens in den einzelnen Abstandsbereichen werden getrennt gezählt,I) der Amplitudenverlauf jedes Kurzzeitspektrums wird darauf untersucht, in welchem Frequenzbereich ein Minimum, ein Maximum, M eine ansteigende Flanke, eine abfallende Flanke und ein Plateau auftritt, und jedes Merkmal wird je Frequenzbereich gezählt.i) der Amplitudenverlauf jedes Kurzzeitspektrums wird mit mindestens einem vorgegebenen >i Amplitudenverlauf verglichen, und wenn die Amplitudenabweichung für jeden verglichenen Frequenzbereich unterhalb einer vorgegebenen Grenze liegt, wird die Übereinstimmung je vorgegebenem Amplitudenverlauf gezählt. &o
- 2. Verfahren nach Anspruch I, dadurch gekennzeichnet, daß in dem bzw. in jedem vorgegebenen Amplitiidenvcrlaiif des Kurzzeitspektrums die vorgegebenen Amplitudenabweichungen für jeden (■> Frequenzbereich unabhängig voneinander einstellbar sind.
- 3. Verfahren nach Anspruch I oder 2. dadurchgekennzeichnet, daß für die Messung der Sprechpausen die Einzelenergien der einzelnen Frequenzbereiche des Kurzzeitspek'.rums gewichtet zusammengefügt werden und bei Unterschreiten des zusammengefügten Signals unter den vorgegebenen Schwellwert eine Sprechpause erkannt wird.
- 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß ein Sprachsignal mit stimmhaften Lauten erkannt wird, w:nn das Sprachsignal eine vorgegebene Mindestenergie in dem Frequenzbereich unterhalb einer Grenzfrequenz überschreitet, und daß ein Sprachsignal mit stimmlosen Lauten erkannt wird, wenn die Mindestenergie in diesem Frequenzbereich nicht überschritten wird und gleichzeitig keine Sprechpause erkannt wird.
- 5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß zur Erkennung eines Sprach5>gnals mit stimmlosen bzw. mit stimmhaften Lauten das Kurzzeitspektrum verwendet wird.
- 6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Verhältnis der Gesamtpausendauer, der Gesamtdauer des Sprachsignals mit stimmhaften Lauten und der Gesamtdauer des Sprachsignals mit stimmlosen Lauten jeweils zur Meßdauer gebildet wird und die so gewonnenen di ii Verhältniswerte nach der Meßdauer weiterverarbeitet werden.
- 7. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß das Sprachsignal einen begrenzenden Verstärker hoher Verstärkung durchläuft, und das an dessem Ausgang entstehende Rechtecksignal mit jeder Flanke einen festen Zähltakt enthaltenden ersten Zähler auf die Nullstellung zurücksetzt, wobei der Zählerstand unmittelbar vor der Flanke ein Maß für den Abstand der Nulldurchgänge des Sprachsignals ist.
- 8. Anordnung nach Anspruch 7. dadurch gekennzeichnet, daß jeweils einer Zähierstellung bzw. Gruppe von Zählerstellungen d'js ersten Zählers ein bzw. mehrere weitere Zähler zugeordnet sind und jede Flanke den weiteren Zähler, der dem Zählerstand des ersten Zählers in diesem Augenblick zugeordnet ist, um eine Stellung weiterschaltet.
- 9. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche I bis 6. dadurch gekennzeichnet, daß zur Messung der Gesamtpausendauer. der Gesamtdauer des Sprachsignals mit stimmhaften Lauten und der Gesamtdauer des Sprachsignals mit stimmlosen Lauten jeweils ein Zähler vorgesehen ist. der einen konstanten Zähltakt erhält, solange die entsprechende Bedingung im Sprachsignal erkannt ist.
- 10. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche I b!s 6. dadurch gekennzeichnet, daß das Sprachsignal eine Filterbank mit einer Anzahl von Filtern, die auf je einen von mehreren aneinandergrenzenden Frequenzbereichen abgestimmt sind, rl 'chlauft und jeder Filterausgang mit einer oder n,chrcreri Spahriungsfenster-Einrichtungen verbunden ist. die jeweils ein Signal abgeben, wenn das Filterausgangssignal in einem bestimmten vorgegebenen und gegebenenfalls einstellbaren Spannungsbereich liegt, und daß /ur Untersuchung des Amplitudenverlaufs der Kurzzeitspektren die Signale von zu verschiedenen Filterausgangcn gehörenden .Spannungsfenster-Kin-richtungen über ein UND-Glied zusammengefaßt sind.Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1 sowie eine Anordnung zur Durchführung dieses Verfahrens.Ein derartiges Verfahren ist bekannt aus der Zeilsef.pf! »NTZ«, 1969, Heft 6, Seiten 364 bis 367. Dabei werden zur Sprecheridentifizierung textunabhängige Merkmale des Sprachsignals verwendet. Bei dem dort beschriebenen Untersuchungsergebnis wurden jedoch relativ lange Sprechproben verwendet und die Ergebnisse waren teilweise sehr unbefriedigend.Aufgabe der Erfindung ist es, das eingangs genannte Verfahren so auszugestalten, daß auch mit kürzeren Sprechproben eine wesentlich verbesserte Zuverlässigkeit der Sprecheridentifikation möglich ist.Diese Aufgabe wird erfindungsgemäß durch die im kennzeichnenden Teil des Patentanspruchs 1 anpegebenen Merkmale gelöst.Es werden dabei zusätzliche Verfahrensu-hritte angewendet, deren Ergebnisse sich als sehr charakteristisch für die Unterscheidung verschiedener Sprecher erwiesen haben. Ferner wird bei diesen zusätzlichen Verfahrensschritten eine relativ kleine, jedoch aussagekräftige Datenmenge gewonnen. Daher eignen sich die so gewonnenen Werte besonders für eine sehr kompakte Speicherung.Das erfindungsgemäße Verfahren ist nicht nur auf die Erkennung eines menschlichen Sprechers beschränkt, sondern es läßt sich auch zur Erkennung beliebiger Schallquellen, wie z. B. Herzgeräusche. Maschinengeräusche usw. verwenden, um Abweichungen von einem Normalgeräusch bzw. die Art der Abweichung zu erkennen. Für die Erkennung eines menschlichen Sprechers ist das Verfahren besonders gut geeignet, da die einzelnen Verfahrensschritte besonders an die verschiedenen Eigenschaften bzw. Merkmale der menschlichen Sprache angepaßt sind, die teilweise auch miteinander korreliert sind. Dadurch werden einzelne Sprachmerkmale zumindest indirekt mehrfach untersucht, was jedoch technisch einfacher ist. als die Korrelationen festzustellen. Die genaue technische Realisation der einzelnen Verfahrensschritte ist an sich grundsätzlich bekannt. In den Unteranspruchen sind einige besonders vorteilhafte Ausgestaltungen einzelner Verfahrensschritte angegeben.Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnung erläutert.Das zu erkennende bzw. zu analysierende Sprachsignal wird in dem Mikrophon 20 in ein elektrisches Signal umgewandelt rnd der Einrichtung zugeführt.Die Durchführung des Verfahrensschrittes g). die Messung der Nulldun hgangsabstände. erfolgt dadurch, diß das Sprachsign.i, einem begrenzenden Verstärker 21 mit hoher Verstärkung zugeführt wird. Am Ausgang ergibt Mi h dann rin Reihteeksignal mit variierenden Flankendüstanden. Bei jeder positiven Flanke wird in der Einheit 25 ein Zähler gestartet, der einen festen Zahltakt erhalt, und mit der nächsten negativen Flanke wird der darin erreichte Zählerstand ausgewertet und der Zahler wilder auf Null gcsct/.t. Um für das Rücksetzen und die Auswertung mehr Zeil zur Verfügung zu haben, r.arin in der [einheit 25 ein zweiter Zähler angeordnet scm. der bei jeder negativen Flanke zu zählen beginnt und dessen Zahlerstellunp mit der jeweils nächsten positiven Flanke ausgewertet wird. Zur Au' Wertung sind so viele weitere Zähler in der Einheit 28 vorgesehen, wie verschiedene Abstandsbereiche voneinander unterschieden werden sollen, d. h. wie '. ci-ichiedenc Gruppen von Zählerständen unterschieden werden sollen. Die Zählerausgänge werden dazu einem Decodierer zugeführt, der für jede voneinander zu unterscheidende Gruppe von Zählerzuständen einen Ausgang besitzt, und an jedem Ausgang ist über ein UND-Glied einer der weiteren Zähler angeschlossen. Am Ende der Meßdauer enthalten die Zähler also dieNulldurchgar.gs-Abstandswahrscheinlichkeitsverteilung, wobei jeder Zähler die Häufigkeit eines von mehreren aneinanderstoßenden Nulldurchgangs-Abstandsbereichen angibtDer nächste Verfahrensschritt a) bildet die Statistik der Sprachmelodie. Dazu wird in der Schaitung 23 die Sprachgrundfrequenz in eine frequenzproportionale Spannung umgewandelt. Von dieser Spannung wird ein Amplitudenhistogramm in der Schal . .ig 27 erzeugt. Dieses Histogramm kann auf gleicne weise wie vorstehend beschrieben die Wahrscheinlichkeitsverteilung der Nulldurchgangsabstände gebildet werden, d. h. für jeden aneinandergrenzenden Spannungsbereich wird ein eigener Zähler vorgesehen, der in regelmäßigen Abständen oder bei Änderung der Spannung zum benachbarten Spannungsbereich um eine Zählerstellung weitergeschaltet wird. Die Zustände der Zähler am Ende der Meßdauer geben dann eine Aussage über die Wahrscheinlichkeitsverteilung der Sprachgrundfrequenz des Sprechers. Bei Sprechern, die melodisch sprechen, d. h. oft die Stimme heben und senken, ist in etwa eine Gleichverteilung zu erwarten, während bei monotonen Sprechern einige wenige Sprachgrundfrequenzen um so häufiger vorkommen.In den Verfahrcnsschntten b) und f) läuft im Prinzip der gleiche Vorgang ab. jedoch statt mit der Sprachgrundfrequenz hier mit der Sprachsignulamp.itude. Dazu wird in der Schaltung 22 das Sprachsignal linear gleichgerichtet und über einen Tiefpaß geleitet. Aus dieser lautstärkeproportionalen Spannung wird nun wieder in dem Histographen 26 ein Histogramm gebildet, beispielsweise in der gleichen Weise wie bei dem vorhergehend beschriebenen Verfahrensschritt für die Sprachgrundfrequenz. Die Zustände der Zähler in dem Histographen 26 ergeben am Schluß der Meßdauer die sprecherspezifische Häufigkeitsverteilung der einzelnen Lautstärkestufen, die ein Maß für die Betonungsmonotonie des Sprechers ist.In den Schaltungsblccken 1 bis 13 werden verschiedene Eigenschaften des Sprachsignals im Spektralbereich untersucht. Dazu wird das iiprachsignal einem Spektralana'ysa'ji 24 zugeführt, der auf π Ausgangsleitungen. " die jeweils einen Frequenzbereich darstellen und die in der Zeichnung vereinfacht als eine Leitung gezeichnet sind, in regelmäßigen Zeitabständen ein Kurzzeitspektrum KZS liefert, leder Ausgang gibt also die mittlere spektrale Energie cies zugehörigen Frequenzbereiches in dem vorhergehenden Zeitabschnitt an. Die minimalen Zeitabstände hangen nach dem Abtasttheorem vun der gewünschten FrequenzauflöMing. d. h. von der mir.imalen Bandbreite tier Filter in dem Spektralanalysator 24 ab." Aus diesen Kurzzeitspektren wird in dem Mitlelwprtrechner 1 uas Langzeuspektrum ermittelt. Dazu besitzt der Mittelwertrechner 1 für jeden Ausgang des Spektralanalysators 24 einen Kanal, und in jedem Kanal
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19742431458 DE2431458C2 (de) | 1974-07-01 | 1974-07-01 | Verfahren und Anordnung zur automatischen Sprechererkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19742431458 DE2431458C2 (de) | 1974-07-01 | 1974-07-01 | Verfahren und Anordnung zur automatischen Sprechererkennung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2431458A1 DE2431458A1 (de) | 1976-02-05 |
DE2431458C2 true DE2431458C2 (de) | 1986-05-28 |
Family
ID=5919364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19742431458 Expired DE2431458C2 (de) | 1974-07-01 | 1974-07-01 | Verfahren und Anordnung zur automatischen Sprechererkennung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE2431458C2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992013340A1 (en) * | 1991-01-18 | 1992-08-06 | Theis Peter F | System for distinguishing or counting spoken itemized expressions |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2720666C2 (de) * | 1977-05-07 | 1987-01-29 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und Anordnung zur Geräuschanalyse |
DE3029823A1 (de) * | 1980-08-06 | 1982-03-04 | Siemens AG, 1000 Berlin und 8000 München | Waehlverfahren zum verbindungsaufbau in einem fernsprechvermittlungssystem mit digitaler sprachuebertragung |
GB8630118D0 (en) * | 1986-12-17 | 1987-01-28 | British Telecomm | Speaker identification |
WO1990008379A1 (en) * | 1989-01-17 | 1990-07-26 | The University Court Of The University Of Edinburgh | Speaker recognition |
IL122632A0 (en) * | 1997-12-16 | 1998-08-16 | Liberman Amir | Apparatus and methods for detecting emotions |
RU2419890C1 (ru) | 2009-09-24 | 2011-05-27 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
RU2530314C1 (ru) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке |
-
1974
- 1974-07-01 DE DE19742431458 patent/DE2431458C2/de not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992013340A1 (en) * | 1991-01-18 | 1992-08-06 | Theis Peter F | System for distinguishing or counting spoken itemized expressions |
Also Published As
Publication number | Publication date |
---|---|
DE2431458A1 (de) | 1976-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3306730C2 (de) | ||
EP0296588B1 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE1472038A1 (de) | Verfahren zur Spracherkennung | |
DE2753277A1 (de) | Spracherkennungseinrichtung | |
DE2659096A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE10223735B4 (de) | Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2431458C2 (de) | Verfahren und Anordnung zur automatischen Sprechererkennung | |
DE1572516A1 (de) | Schaltungsanordnung fuer die Spracherkennung | |
DE102005044194B4 (de) | Messvorrichtung und Verfahren zum Messen von relativen Phasenlagen von digitalen Signalen | |
DE2720666C2 (de) | Verfahren und Anordnung zur Geräuschanalyse | |
DE1938090C2 (de) | Analysator von Massenspektren | |
DE60025333T2 (de) | Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums | |
DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
DE1963748B2 (de) | Verfahren und vorrichtung zur ueberschlaegigen auswertung von elektrischen spannungsverlaeufen | |
DE1194170B (de) | Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE10315372B4 (de) | Verfahren und Vorrichtung zum Bereitstellen eines Messsignals und Vorrichtung zur Erfassung einer elektromagnetischen Störung | |
DE1547027B2 (de) | Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen | |
DE1772633A1 (de) | Verfahren zur Spracherkennung | |
DE1122274B (de) | Verfahren und Anordnung zur automatischen Erkennung von Sprache | |
DE2062589C3 (de) | Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales | |
DE3629534C2 (de) | ||
DE2334459C3 (de) | Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung | |
DE1160660B (de) | Verfahren zur Umwandlung gesprochener Worte in eine optische Darstellung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
8120 | Willingness to grant licences paragraph 23 | ||
8126 | Change of the secondary classification |
Ipc: G10L 1/04 |
|
D2 | Grant after examination | ||
8363 | Opposition against the patent | ||
8366 | Restricted maintained after opposition proceedings | ||
8305 | Restricted maintenance of patent after opposition | ||
D4 | Patent maintained restricted | ||
8339 | Ceased/non-payment of the annual fee |