-
Verfahren zur automatischen Sprechererkennung =====================================
Die Erfindung betrifft ein Verfahren zur automatischen Sprechererkennung, bei der
ein vom zu erkennenden Sprecher resfçrochener Text in ein elektrisches Signal umgesetzt
tlnd dieses Sprachsignal auf zeitliche und spektrale Eifrenscl1aften untersucht
wird.
-
Ps ist die Aufgabe eines automatischen Sprechererkennungssystems,
aus der Analyse der menschlichen Spreche auf die Identität des Sprechers zu schließen.
Dabei wird mit einem Mikrophon das Sprachsignal des zu klassifizierenden Sprechers
aufgenommenen und anschließend in einem Rechner analysiert.
-
Das Ergebnis der Analyse besteht aus einer sprecherspezifischen Zahlenmatrix.
Diese Matrix wird mit schon im Rechner gespeicherten Referenzmatritzen verglichen
und dann klassifiziert.
-
Bisher hat man als Sprachbeispiel, das zur Sprechererkennung herangezogen
wurde,für alle Testpersonen einen gleichen Codewortsatz benutzt. Dieser Satz wird
digitalisiert und- in einen Rechner zur nachfolgenden Analyse eingelesen.
-
Aus Grunden der begrenzten Kernspeicherkapazität sind bisher nur Sätze
von etwa 3 sec. Sprechdauer untersucht worden.
-
Der Nachteil dieses codewortbezogenen Sprechererkennungs verfahrens
14 gt darin, daß ein kooperativer Sprecher vorausgesetzt wird. Man geht davon aus,
daß der Sprecher erkannt werden will. Dies gilt zwar für wirtschaftliche Anwindungen,
jedoch für anwendungen in der Kriminalistik ist ein solches Verfahren ungeeignet,
denn hier ist der Sprecher in der Regel nicht kooperativ. Er wird sich weigern,
einen Codesatz zu sprechen, der als Belastungsmaterial gegen ihn verwendet werden
könnte. Deshalb ist es notwendig für die Kriminalistik, eine textunabhängige Sprechererkennung
durchzuführen.
-
Aufgabe der Erfindung ist es, ein Verfahren anzugeben, mit dem ein
Sprecher unabhängig von einem vorgegebenen Text erkannt werden kann. Diese Aufgabe
wird durch das im Kennzeichen des Anspruchs 1 angegebene Verfahren gelöst. Dieses
Verfahren ist nicht auf die Erkennung eines menschlichen
Srechers
beschränkt, sondern es läßt sich auch zur Erkennung beliebiger Schallquellen, wie
z. B. Nerzgeräusche, Maschinengeräusche usw. verwenden, um Abweichungen von einem
Normalgeräusch bzw. die Art der Abweichung zu erkennen.
-
Für die Erkennung eines menschlichen Sprechers ist das Verfahren besonders
gut geeignet, da die einzelnen Verfahrensschritte besonders an die verschiedenen
Eigenschaften bzw. Merkmale der menschlichen Sprache angepaßt sind, die teilweise
auch miteinander kooreliert sind. Dadurch werden einzelne Sprachmerkmals ziimindest
indirekt mehrfach untersucht, was jedoch technisch einfacher ist, als die Koorelationen
festzustellen. Die genaue technische Realisation der einzelnen Verfahrensschritte
ist an sich grundsätzlich bekannt. In den Unteranspri5.chen sind einige besonders
vorteilhafte Ausgestaltuxigen einzelner Verfahrens schritte angegeben.
-
Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der
Zeichnung erläutert.-Das zu erkennende bzw. zu analysierende Sprachsignal wird in
dem Miltrophon 20 in ein elektrisches Signal umgewandelt und der Einrichtung zugeführt.
-
Die Durchführung des ersten Verfahrensschrities a), die Messung der
Nulldurchgangsabstände, erfolgt dadurch, daß das
Sprachsignal einem
begrenzenden Verstärker 21 mit hoher Verstärkung zugeführt wird. Am Ausgang ergibt
sich dann ein Rechtecksignal mit variierenden Flankenabständen.
-
Bei jeder positiven Flanke wird in der Einheit 25 ein Zähler gestartet,
der einen festen Zähltakt erhält, und mit der nächsten negativen Flanke wird der
dann erreichte Zählerstand ausgewertet und der Zähler wies auf Null gesetzt. Um
für das Rücksetzen und die Auswertung mehr Zeit zur Verfügung zu haben, kann in
der Einheit 25 ein zweiter Zähler angeordnet sein, der bei jeder negativen Flanke
zu zählen beginnt und dessen Zählerstellung mit der jeweils nächsten positiven Flanke
ausgewertet wird. Zur Auswertung sind so viele weitere Zähler in der Einheit 28
vorgesehen, wie verschiedene Abstandsbereiche voneinander unterschieden werden sollen,
d. h. wie versdiiedene Gruppenvon Zählerständen unterschieden werden sollen. Die
Zählerausgänge werden dazu einem Decodierer zugeführt, der für jede voneinander
zu unterscheidende Gr.uDpe von Zählerzuständen einen Ausgang besitzt, und an jedem
Ausgang ist über ein Ui-Glied einer der weiteren Zähler angeschlossen. Am Ende der
Meßdauer enthalten die Zäher also die Nulldurchgangs-Äbstandswahrscheinlichkeitsverteilung,
wobei jeder Zähler die Häufigkeit eines von mehreren aneinanderschließenden Nulldurchgangs-Abstandsbereichen
angibt.
-
Der nächste Verfahrensschritt b) bildet die Statistik der Sprachmelodie.
Dazu wird in der Schaltung 22 die Sprachgrundfrequenz in eine frequenzproportionale
Spannung umgewandelt. Von dieser Spannung wird ein Amplitudenhistogramm in der Schaltung
27 erzeugt. Dieses Histogramm kann auf gleiche Weise wie vorstehend beschrieben
die Wahrscheinlichkeitsverteilung der Nulldurchgangsabstände gebildet werden, d.
h. für jeden aneinandergrenzenden Spannungsbereich wird ein eigener Zähler vorgesehen,
der in regelmäßigen Abständen oder bei Anderung der Spannung zum benachbarten Spannungsbereich
um eine Zählerstellung weitergeschaltet wird. Die Zustände der Zähler am Ende der
Meßdauer geben dann eine Aussage iiber die Wahrscheinlichkeitsverteilung der Sprachgrtmdfreslllenz
des Sprechers.
-
Bei Sprechern, die melodisch sprechen, d. h. oft die Stimme heben
und senken, ist in etwa eine Gleichverteilung zu erwarten, während bei monotonen
Sprechern einige wenige Sprachgrundfrequenzen um so häufiger vorkommen.
-
In dem Verfahrensschritt c) läuft im Prinzip der gleiche Vorgang ab,
jedoch statt mit der SprachgrundfrPauenz hier mit der Sprachsignalamplitude. Dazu
wird das Sprachsignal linear-gleichgerichtet und über einen Tiefpass geleitet. Aus
dieser lautstärkeproportionalen Spannung wird nun wieder in dem Histographen 26
ein Histogramm gebildet, beispielsweise in der gleichen Weise wie bei dem vorhergehend
beschr
èbenen Verfahrens schritt für die Sprachgrundfrequenz. Die
Zustände der Zähler in dem Histographen 26 ergeben am Schluß der Meßdauer die sprecherspezifische
Häufigkeitsverteilung der einzelnen Lautstärke stufen, die ein Maß für die Betonungsmonotonie
des Sprechers ist.
-
In den Schaltungsblöcken 1 bis 13 werden verschiedene Eigenschaften
des Sprachsignals im Spektralbereich untersucht. Dazu wird das Sprachsignal einem
Spektralanalysator 24 zugeführt, der auf n Ausgangsleitungen, die jeweils einen
Frequenzbereich darstellen und die in der Zeichnung Vereinfacht als eine Leitung
gezeichnet sind, in regelmäßigen Zeitabständen ein Kurzzeitspektrum KZS liefert.
Jeder Ausgang gibt also die mittlere spektrale Energie des zuCehörigen Frequenzbereiches
in dem vorhergehenden Zeitabschnitt an. Die minimalen Zeitabstände hängen nach dem
Abtasttheorem von der gewünschten Frequenzauflösung, d. h. von der minimalen Bandbreite
der Filter in dem Spektralanalysator 24 ab.
-
Aus diesen Kurzzeitspektren wird in dem Mittelwertrechner 1 das Langzeitspektrum
ermittelt. Dazu besitzt der Mittelwertrechner ein für jeden Ausgang des Spektralanalysators
24
einen Kanal, und in jedem Kanal werden die betreffenden Signalwerte
über- die Meßdauer addiert. Die einzelnen Signalwerte liegen jedoch in analoger
Darstellung vor, und eine analoge Aufsummierung ist wegen der dafür erforderlichen
Speicherung technisch nicht ganz einfach.
-
Es kann daher zweckmäßig sein, die Addition bzw. Aufsummierung digital
durchzufvhren. Um nur einen Analog-Digital-Wandler verwenden zu müssen, können die
Ausgänge des Spektralanalysators 24 durch einen Mulitplexer nacheinander abgetastet
und dem Analog-Digital-Wandler zugeführt werden. Die aufsummierten Werte der einzelnen
Kanäle können mit parallel in einem mehrzeiligen Schieberegister stehen, d. h. alle
letzten Stellen der Schieberegisterzeilen enthalten jeweils einen aufsummierten
Wert.
-
Wenn die Abtastung der Ausgänge des Spektralanalysators synchron mit
dem Schieben der Schieberegister erfolgt,steht in den letzten Stellen der Schieberegister
jeweils der Wert für den Spektralbereich, der gerade vom Multiplexer abgetastet
-wird. Diese letzten Stellen der Schieberegister werden mit dem digitalen Ausgang
des Analog-Digital-Wandlers additiv verknüpft, in den Anfang der Schieberegister
wieder eingegeben und auf den nächsten Kanal bzw. Frequenzbereich geschaltet. Es
sind jedoch auch viele andere technische Realisierungen möglich, um das Langzeitspektrum
zu erhalten.
-
Das Langzeitspektrum besteht also aus jeweils einem Wert je Frequenzbereich
des Spektralanalysators.
-
In der Schaltung 2 wird eintsprechend dem Verfahrens schritt g) jedes
Kurzzeitspektrum daraufhin untersucht, in welchem Kanal des Snektralanalysators
24, d.h. in welchem Freauenzbereich ein Minimv1m vorliegt. Fin Minimum ist so definiert,
daß beide benachbarten Kanäle ein höheres Signal führen als der betreffende Kanal.
Da die Ausgänge des Spektralanalysators analoge Signale führen, kann dieser Vergleich
auf analoge Weise durchgeführt werden, beispielsweise mittels Differenzverstärkern,
deren Ausgangssignale bei überschreiten einer Schwelle logisch miteinander verknüpft
werden. Dazu wird zweckmäßig nur der schaltungstechnische Aufwand für die Feststellung
eines Minimums in einem Kanal eingesetzt, was beispielsweise zwei Differenzversta'rker
erfordern wurde, und die einzelnen Ausgänge des Spektralanalysators werden durch
einen Multiplexer zeitlich nacheinander abgetastet.
-
Statt einer analogen Realisierung kann auch eine digitale Verarbeitung
zweckmäßig sein, in-dem dem Multiplexer ein Analog-Digital-Wandler nachgeschaltet
wird. Der Multiplexer tastet dann jeweils nur einen Kanal des Spektralanalysators
ab, und der zugehörige Digitalwert wird in die erste Stufe eines dreistufigen Schieberegisters
eingegeben. An die Ausgänge
der drei Schieberegisterstufen ist
dann die digitale Vergleichslogik angeschlossen. Ferner ist für jeden Kanal des
Spektralanalysators ein Zähler vorgesehen, der das Auftreten eines Minimums in den
aufeinanderfolgenden Kurzzeitspektren zählt.
-
In der Schaltung 3 wird in ähnlicher Weise wie vorstehend beschrieben,
jedes Kurzzeitspektrum auf ein Maximun untersucht. Ein Maximum ist so definiert,
daß beide benachbarten Kanäle ein kleineres Signal führen als der betreffende Kanal.
In der Schaltung 4 wird jedes Kurzzeitspektrum untersucht, bei welchem Kanal eine
positive Flanke des Kurzzeitspektrums vorliegt. Dazu gehört die Bedingung, daß der
nächstniedrigere Kanal bzw. Frequenzbereich ein kleineres Signal und der nächsthöhere
Kanal ein größeres Signal als der betreffende Kanal führt. In der Schaltung 5 wird
jedes Kurzzeitspektrum untersucht, bei welchem Kanal das Kurzzeitspektrum eine negative
Flanke hat, in dem geprüft wird, ob der nächstniedrigere Kanal ein höheres Signal
und der nächsthöhere Kanal ein niedrigeres Signal führt. In der Schaltung 6 wird
schließlich festgestellt, bei welchem Kanal ein Plateau in dem Kurzzeitspektrum
vorliegt, bei dem die beiden benachbarten Kanäle innerhalb vorgegebener Grenzen
das gleiche Signal führen wie der betreffende Kanal. An jede der
Schaltungen
3 bis 6 ist ebenfalls je Kanal des Spektralanalysators ein Zähler angeschlossen,
der die Anzahl der angegebenen Merkmale in diesem Frequenzbereich zählt. Die Vergleiche,
die in den Schaltungen 3 bis 6 durchgeführt werden müssen, werden zweckmäßig ebenso
wie bei der Schaltung 2 für die einzelnen Kanäle nacheinander durchgeführt.
-
sDazu kann der dort verwendete Multiplexer, der die einzelnen Kanäle
des Spektralanalysators 24 nacheinander abtastet, mitverwendet werden, und bei analoger
Durchführung des Vergleichs können die Differenzverstärker bzw. bei digitaler Durchführung
des Vergleichs der Analog-Digital-Wandler sowie das Schieberegister gemeinsam verwendet
werden, um den Aufwand zu verringern.
-
In den Schaltungen 7 bis 10 wird jedes Kurzzeitspektrum mit einem
anderen Amplitudenverlauf verglichen. Dazu sind in jeder dieser Schaltungen eine
Anzahl Spannungsfenster-Einrichtungen vorgesehen, von denen jede nur dann ein Signal
abgibt, wenn das angelegte Signal in einem bestimmten vorgegebenen Bereich liegt.
Die Lage dieses Bereichs und dessen Breite bzw. dessen Grenzen sind zweckmäßig einstellbar.
Eine solche Spannungsfenster-Einrichtung kann beispielsweise aus Schmitt-Triggern
aufgebaut sein. Die Ausgänge aller Spannungsfenster-Einrichtungen jeder der Schaltungen
7 bis 10
werden über ein UND-Glied,zusammengefaßt und nur wenn
alle Spannungsfenster-Einrichtungen bei einem Kurzzeitintervall ein Ausgangssignal
liefern, erzeugt die betreffende Schaltung ein Ausgangssignal und schaltet einen
daran angeschlossenen Zähler um einen Schritt weiter. Es sei an dieser Stelle bemerkt,
daß es nicht notwendig ist, für jeden Kanal des Spektralanalysators, das heißt für
jeden Frequenzbereich eine Spannungsfenster-Einrichtvmg vorzusehen, da auch mit
einer geringeren Anzahl sehr gute Ergebnisse erzielt werden.
-
Die Verbindung der einzelnen Spannungsfenster-Einrichtungen mit den
Kanälen des Spektralanalysators -wird dann zweckmäßig einstellbar ausgebildet. Andererseits
kann es zweckmäßig sein, eine größere Anzahl von derartigen Schaltungen von 7 bis
10 mit jeweils einer Anzahl von Spannunsfenster-Einrichtungen vorzusehen, um jedes
Kurzzeitspektrum mit einer größeren Anzahl von vorgegebenen Amplitudenverläufen
zuvergleichen.
-
In der Schaltung 11 wird die Sprechpause sowie deren Zeitdauer festgestellt.
Dies erfolgt im vorliegenden Fall mit Hilfe des Kurzzeitspektrums, indem die Signale
aller Kanäle des Spektralanalysators zusammengefügt bzw. aufsummiert werden, und
wenn dieses Summensignal einen bestimmten Schwellwert nicht überschreitet, wird
das Sprachsignal für den Zeitraum
des betreffenden Kurzzeitspektrums
als Sprechpause ausgewertet, und ein an die Schaltung 11 angeschlossener oder darin
enthaltener Zähler wird um einen Schritt weitergeschaltet. Dieser Zähler enthält
am Schluß der Meßdauer also ein Maß für die Gesamtdauer der Sprechpausen.
-
Wenn die Zusammenfügung der einzelnen Kanal signale ger wichtet erfolgt,
kann dadurch St ein vom Mikrophon 20 mitaufgenommenes Hintergrundgeräusch eliminiert
werden.
-
Die Schaltungen 12 und 13 messen die Dauern des Sprache gnals mit
stimmhaften bzw. stimmlosen Lauten, entsprechend dem Verfahrensschritt e). Ein Sprachsignal
mit einem stimmhaften Laut liegt vor, wenn im Frequenzbereich unterb-lb einer bestimmten
Grenze, beispielsweise 500 Hz, ein vorgegebenes Gesamtsignal überschritten wird.
Dazu werden im vorliegenden Fall die Kanäle des Spektralanalysators bis zu dieser
Grenzfrequenz aufsummiert, gegebenenfalls ebenfalls gewichtet und einem Schwellwertdetektor
zugeführt.
-
In der Schaltung 13 wird geprüft, ob ein ausreichendes Sprachsignal
bzw. ein ausreichender Anteil im hohen Frequenzbereich des Sprachsignals vorliegt,
jedem nur die Kanäle des Spektralanalysators 24 für die hohen Frequenzen zuszammengefaßt
werden,und nur wenn außerdem gleichzeitig kein Ausgangssignal der Schaltung 12 erzeugt
wird, liefert die Schaltung 13 ein Ausgangssignal. Die Schaltung 12 liefert somit
also
auch ein Ausgangssignal, wenn zusätzlich zu dem Anteil in den tiefen Frequenzen
ein wesentlicher Anteil in hohen Frequenzen des Sprachsignals vorhanden ist. An
jede der Schaltungen 12 und 13 ist wieder ein Zähler angeschlossen bzw. darin enthalten,
der zählt, wie oft ein Kurzzeitspektrum mit einem stimmhaften bzw. einem stimmlosen
Laut aufgetreten ist, und die Zählerstände am Ende der Meßdauer sind ein Maß für
die Gesamtdauer des Sprachsignals mit stimmhaften bzw. stimmlosen Lauten. Um ein
von der variablen Meßdauer unabhängiges Signal zu erhalten, kann das Verhältnis
der Zählerstände der zu den>Schaltungen 11 bis 13 gehörenden Zähler zu einer
der Meßdauer entsprechenden Zahl gebildet werden.
-
Die Steuerung der einzelnen Schaltungen geschieht durch die Steuereinheit
29, die im wesentlichen einen stabilen Takt liefert und die Einheiten für die Zeitmessung
vorgibt, beispielsweise die Zeitabschnitte für die Kurzzeitspektren.
-
Die in den Schaltungen 1 bis 13 sowie 25 bis 27 erhaltenen Ergebnisse,
die alle als Zählerstände einer Vielzahl von Zählern vorliegen bzw bei den Schaltungen
11 bis 13 als Verhältniszahlen, müssen nach Ablauf der Meßdauer mit dem vorgegebenen,
sprecherseezrfischen Satz von Zählwerten verglichen werden, um aus dem Grad der
übereinstimmung die Identität des Sprechers ableiten zu können. Dies erfolgt zweckmäßig
in
einem üblichen Allzweckrechner mit entsprechenden Speicher (nicht dargestellt) Weizen
der relativ großen Anzahl von Meßdaten werden diese dem Rechner zweckmäßig in Serie
über den Multiplexer 28 zugeführt, der die einzelnen Zähler nacheinander abtastet.
Der sprecherspezifische Satz von Zählwerten, mit dem die Meßdaten verglichen werden,
kann beispielsweise nach dem gleichen Verfahren von dem betreffenden Sprether bekannter
Identität gewonnen werden.
-
Das erfindungsgemäße Verfahren berücksichtigt weitgehend alle Charakteristika,
die in der menschlichen Sprache vorhanden sein können. Bei einfacheren Ansprüchen
an die Erkennungssicherheit können aber auch gegebenenfalls einzelne Schritte weggelassen
werden, ohne den Rahmen der Erfindung zu verlassen.
-
Patentansnltiche