DE60128270T2

DE60128270T2 - Verfahren und System zur Erzeugung von Sprechererkennungsdaten, und Verfahren und System zur Sprechererkennung

Info

Publication number: DE60128270T2
Application number: DE60128270T
Authority: DE
Inventors: Sang-jin 442-380 Suwon city HONG; Sung-zoo 440-200 Suwon city LEE; Tae-Soo Kim; Tae-sung 412-220 Goyang city LEE; Ho-jin 412-270 Goyang city CHOI; Byoung-Won Hwang
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-08-09
Filing date: 2001-12-06
Publication date: 2008-01-10
Anticipated expiration: 2021-12-07
Also published as: JP2004538526A; US7502736B2; KR100406307B1; KR20030013855A; DE60128270D1; EP1417677A4; EP1417677A1; EP1417677B1; US20050033573A1; WO2003015078A1

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft im Allgemeinen ein Stimmerkennungsverfahren und ein Stimmerkennungssystem auf Basis des Stimmregistrierungsverfahrens und des Stimmregistrierungssystems, die einen Fehler aufgrund der Lautstärke der Stimme des Sprechers verhindern, indem unter Berücksichtigung der Lautstärke der Stimme des Sprechers Stimmlernen und Stimmerkennung durchgeführt wird.
HINTERGRUND DER TECHNIK
Im Allgemeinen wurde ein Sicherheitssystem hauptsächlich für eine nationale Sicherheit oder eine industrielle Sicherheit verwendet, in der letzten Zeit wird es jedoch auch für eine persönliche Sicherheit und eine Computersicherheit verwendet.
Insbesondere hat die Entwicklung von Computernetzwerksystemen einschließlich des Internets das Problem mit sich gebracht, dass ein Computernetzwerksystem zunehmend anfällig gegenüber Angriffen wird, und das dementsprechend einzelne Informationen mit Wahrscheinlichkeit über die Netzwerkbildung, wie beispielsweise dem elektronischen Handel, dem Internet und so weiter, hinausgelangen.
Um dieses Problem zu verhindern, wurden in dem Fall eines Computersystems verschiedene Verfahren entwickelt, mit denen es nur einer bestimmten Personen gestattet wird, auf das Computersystem zuzugreifen. Die Verfahren können in ein Verfahren, das eine ID (Kennung), ein Passwort, einen Zertifizierungsschlüssel und so weiter verwendet, und in ein Verfahren, das eine biometrische Eigenschaft verwendet, klassifiziert werden. Die biometrische Eigenschaft umfasst eine Stimme, einen Fingerabdruck, Linien eines Fingers oder einer Handfläche, ein Netzhautmuster und so weiter.
Die Stimme ist ein universales und einfaches Mittel, um die Absicht eines Menschen auszudrücken. Als Technologien, die die Stimme verwenden, wurden ein Stimmerken nungssystem zum Erkennen der Stimme, ein Sprechererkennungssystem zum Erkennen eines Sprechers, der die Stimme äußert und so weiter, vorgeschlagen.
In einem Sprechererkennungssystem ist es nicht erforderlich, dass ein Benutzer eine ID und ein Passwort verwendet, um eine illegale Nutzung zu verhindern. Des Weiteren sind lediglich eine Soundkarte und ein Mikrofon, die im Allgemeinen in einem Personalcomputersystem bereitgestellt sind, erforderlich, um das Sprechererkennungssystem auszuführen. Darüber hinaus kann in einem Sprechererkennungssystem das Personalcomputersystem so gesteuert werden, dass es in Reaktion auf die Stimme einer bestimmten Person arbeitet.
Ein Sprechererkennungssystem kann hinsichtlich eines Erkennungsverfahrens in eine Sprecheridentifizierung und eine Sprecherverifizierung klassifiziert werden. Die Aufgabe der Sprecheridentifizierung besteht darin, einen Sprecher einer eingegebenen Stimme zu identifizieren, und die Aufgabe der Sprecherverifizierung besteht darin, einen Sprecher zu akzeptieren oder zurückzuweisen, indem die Stimme des Sprechers verifiziert wird.
Im Folgenden wird ein allgemeiner Prozess einer Sprechererkennung wie folgt beschrieben.
Zunächst wird, wenn ein Sprecher seine/ihre Stimme in ein Sprechererkennungssystem eingibt, um sich selbst zu registrieren, eine Wellenform des eingegebenen Stimmsignals als ein Spektrum dargestellt. Das Spektrum wird so analysiert, dass ein isoliertes Wort ausgewählt wird, wodurch die Phoneme des Wortes abgetastet werden. Hierbei werden die Phoneme so vorgegeben, dass sie als eine Referenz für das Erkennen der Stimme verwendet werden. Anschließend erstellt das Sprechererkennungssystem ein Muster für jedes Phonem eines Sprechers und vergleicht dieses anschließend mit Mustern der vorgegebenen Phoneme, wodurch die Eigenschaften des Sprechers gelernt werden. Wenn das Lernen abgeschlossen ist, wird das Muster des Sprechers registriert.
Wenn zu einem späteren Zeitpunkt eine Stimme erneut in das Sprechererkennungssystem eingegeben wird, erstellt das Sprechererkennungssystem ein Muster auf Basis der erneut eingegebenen Stimme mittels des voranstehend beschriebenen Analysiervor ganges, und vergleicht dieses Muster anschließend mit dem Stimmmuster des registrierten Bezugs-Sprechers, wodurch der Sprecher akzeptiert oder zurückgewiesen wird.
In einem herkömmlichen Sprechererkennungssystem wird ein neu erstelltes Muster mit dem Stimmmuster des registrierten Sprechers verglichen, das in einer Datenbank gespeichert ist. Die in der Datenbank gespeicherte Stimme wird jedoch unter Idealbedingungen, wie beispielsweise wenig Störgeräuschen, einem hocheffizienten Mikrofon, der gleichmäßigen Lautstärke der Stimme und so weiter, aufgezeichnet, und aus diesem Grund repräsentiert die in der Datenbank gespeicherte Stimme lediglich ein spezielles Beispiel der tatsächlichen Stimme.
In dem Fall, in dem die Stimme eingegeben wird, die unter Bedingungen geäußert wird, die sich von der in der Datenbank gespeicherten Stimme unterscheiden, wird die Leistung des Stimmerkennungssystems beeinflusst. Insbesondere die Lautstärke der Stimme übt einen erheblichen Einfluss auf die Leistung des Systems aus.
Dementsprechend ist es in dem Stimmerkennungssystem in Anbetracht des Einflusses der Lautstärke der Stimme erforderlich, ein Lernen der Stimme und eine Sprecherverifizierung bereitzustellen.
In dem IBM Technical Disclosure Bulletin Bnd. 36 N.06A, Juni 1993, Seiten 39 bis 40, offenbart die Abhandlung mit dem Titel „Enrollment Monitors for an Automatic Speech Recognizer" ein Verfahren, mit dem verhindert wird, dass Signale, die eine Lautstärke außerhalb eines Bereiches aufweisen, als Spracherkennungs-Muster registriert werden, und mit dem der Benutzer darauf aufmerksam gemacht wird, dass er entweder zu sanft oder zu laut spricht.
Die Patentanmeldung EP0592150-A1 offenbart ein Verfahren des dynamischen Schwellenwertes für die Sprecherverifizierung, um unter anderem das Problem der Nicht-Übereinstimmung von Lautstärken zwischen Trainings- und Testäußerungen zu beheben.
Die Patentanmeldung WO00/23984 offenbart ein Verfahren zur Verstärkungsregulierung zum Anpassen der Lautstärke eines eingegebenen Stimmsignals in Abhängigkeit von dem gemessenen Hintergrundgeräuschpegel, wodurch die Verstärkung eines Verstärkers in Übereinstimmung mit einer Vorhersage des wahrscheinlichen Pegels der Sprachäußerung geändert wird.
Die Patentanmeldung JP2000-163092 A offenbart ein Verfahren zur Verifizierung von Sprecherphonemen als Spracheinheiten zum Modellieren der Bezugs-Sprecher.
OFFENBARUNG DER ERFINDUNG
Dementsprechend wurde die vorliegende Erfindung in Anbetracht der voranstehend beschriebenen Nachteile und Bedürfnisse des Benutzers entwickelt, und es ist eine Aufgabe der vorliegenden Erfindung, ein Stimmregistrierungsverfahren und ein Stimmregistrierungssystem nach den Ansprüchen 1 und 21 sowie ein Sprechererkennungsverfahren und ein Sprechererkennungssystem nach den Ansprüchen 18 und 31 auf Basis des Stimmregistrierungsverfahrens und des Stimmregistrierungssystems, das einen Sprecher auf genaue Weise verifiziert, indem das Lernen der Stimme und das Verifizieren des Sprechers unter Berücksichtigung der Lautstärke der Stimme durchgeführt wird.
Diese sowie weitere Aufgaben der vorliegenden Erfindung können durch das Bereitstellen eines Stimmregistrierungsverfahrens zur Stimmerkennung erfüllt werden, wobei das Verfahren die Schritte des Analysierens eines Spektrums eines Schallsignals, das von außen eingegeben wird; des Extrahierens von vorgegebenen Spracheinheiten für eine Sprechererkennung aus einem Stimmsignal in dem Schallsignal; des Messens der Lautstärke jeder Spracheinheit; des Sammelns von Stimmdaten registrierter Bezugs-Sprecher, die Lautstärkedaten der Vielzahl von Bezugs-Sprechern als Bezug zu einer Stimm-Datenbank enthalten; des Bestimmens auf Basis der Stimm-Datenbank, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches liegt; des Lernens jeder Spracheinheit unter Verwendung eines mehrschichtigen Perzeptrons, wenn wenigstens eine vorgegebene Anzahl von Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegt; und des Speicherns von Daten über die gelernte Spracheinheit als Daten zum Erkennen des Sprechers.
Vorzugsweise umfasst der Stimm-Analysierschritt die Schritte des Darstellens des Sprachsignals des Sprechers als ein Spektrum; und des Komprimierens des Spektrums durch gleichmäßiges Zuweisen von Filterreihen zu einem Sprechererkennungs-Bereich, in dem Sprachcharakteristiken des Sprechers zu erkennen sind.
Vorzugsweise ist der Sprechererkennungs-Bereich 0-3 KHz, in dem die Filterreihen gleichmäßig zugewiesen werden, während über 3 KHz die Intervalle der Filterreihen logarithmisch vergrößert werden.
Vorzugsweise umfasst das Verfahren darüber hinaus den Schritt des Anwendens einer Vielzahl von Phonemen, die aus Nasalen, Vokalen und Approximanten ausgewählt werden, die relativ viel kontinuierlichen Schall enthalten, als die Spracheinheiten, wobei der Schritt des Extrahierens der Spracheinheiten die Schritte des Herstellens einer Vielzahl von Frames durch Unterteilen des Spektrums in mehrere Teile sowie des Extrahierens eines Frame aus den Frames einschließt, der die Spracheinheit aufweist, umfasst.
Vorzugsweise besteht der Schritt des Messens der Lautstärke aus dem Berechnen eines Energiewertes des Frame, der die Spracheinheit des Spektrums aufweist.
Vorzugsweise umfasst das Verfahren darüber hinaus den Schritt des Extrahierens maximaler und minimaler Lautstärke durch Analysieren des Stimmspektrums der Bezugs-Sprecher, die in der Stimm-Datenbank gespeichert sind, sowie durch Berechnen des Energiewertes des Frame, der die Spracheinheit aufweist, wobei der Schritt des Bestimmens der Lautstärke umfasst, dass bestimmt wird, ob die Anzahl der Frames, die die Lautstärke innerhalb der maximalen und der minimalen Lautstärke aufweisen, über einem vorgegebenen Schwellenwert liegt.
Vorzugsweise umfasst das Verfahren darüber hinaus die Schritte des Ausbildens einer Vielzahl von Bezugs-Mustern zu jeder Spracheinheit der Vielzahl von Bezugs-Sprechern sowie des Ausbildens einer Vielzahl von Sprecher-Mustern zu jeder Spracheinheit der Vielzahl von Sprechern, wobei der Schritt des Lernens den Schritt des Lernens einer Muster-Charakteristik des Sprechers durch Vergleichen der Bezugs-Muster mit den Sprecher-Mustern gemäß einem Backpropagation-Algorithmus einschließt.
Vorzugsweise umfasst das Verfahren darüber hinaus den Schritt des Herstellens von Lerngruppen, deren Anzahl der Anzahl von Spracheinheiten der Bezugs-Sprecher ent spricht, durch Anwenden der Vielzahl von Bezugs-Mustern auf jede Spracheinheit eines Bezugs-Sprechers aus einer Lerngruppe, wobei der Schritt des Lernens aus dem Lernen der Muster-Charakteristik des Sprechers durch Vergleichen der Bezugs-Muster jeder Lerngruppe mit der Vielzahl der Sprecher-Muster besteht.
Vorzugsweise besteht der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprechererkennungsdaten.
Vorzugsweise umfasst das Verfahren darüber hinaus den Schritt, mit dem der Sprecher zum erneuten Äußern aufgefordert wird, wenn wenigstens eine vorgegebene Anzahl von Spracheinheiten nicht innerhalb des vorgegebenen Lautstärkebereiches liegt.
In Übereinstimmung mit einer weiteren Ausführungsform der vorliegenden Erfindung können die voranstehend beschriebenen sowie weitere Aufgaben auch durch Bereitstellen eines Sprechererkennungsverfahrens zum Erkennen, ob ein Sprecher ein registrierter Sprecher ist, erfüllt werden, wobei das Verfahren die Schritte des Analysierens eines Spektrums eines Schallsignals, das von außen eingegeben wurde; des Extrahierens von vorgegebenen Spracheinheiten für eine Sprechererkennung aus einem Stimmsignal in dem Schallsignal; des Messens der Lautstärke jeder Spracheinheit; des Bestimmens, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches liegt; des Berechnens eines Sprecher-Score durch Berechnen der Wahrscheinlichkeit, dass die Spracheinheit zu dem Sprecher gehört, über ein mehrschichtiges Perzeptron und durch Mitteln der Wahrscheinlichkeit, wenn wenigstens eine vorgegebene Anzahl von Spracheinheiten innerhalb eines vorgegebenen Lautstärkebereiches liegt; und des Verifizierens, dass der Sprecher registriert ist, wenn der Sprecher-Score jenseits eines Schwellenwertes liegt, durch Vergleichen des berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert, der ein vorgegebener minimaler Sprecher-Score zum Verifizieren des registrierten Sprechers ist, umfasst.
Vorzugsweise kann der Sprecher-Score anhand der folgenden Gleichung berechnet werden:
wobei P(LU_i) ein Score der Wahrscheinlichkeit ist, dass der abfragende Sprecher der Bezugs-Sprecher eines i-ten Spracheinheit-Frame ist, und M die Nummer des Spracheinheit-Frame ist, der aus einem isolierten Wort extrahiert wird.
Darüber hinaus kann der Sprecher-Score auf Basis des Gewichts der Spracheinheiten berechnet werden, das gemäß der Verifizierbarkeit verliehen wird.
In Übereinstimmung mit einem weiteren Aspekt der vorliegenden Erfindung können die voranstehend beschriebenen sowie weitere Aufgaben auch durch das Bereitstellen eines Sprachregistrierungssystems, das zum Erzeugen von Sprechererkennungs-Daten geeignet ist, erfüllt werden, wobei das System eine Stimm-Analysiereinrichtung, die ein Spektrum eines Schallsignals analysiert, das von außen eingegeben wird; eine Stimm-Extrahiereinrichtung, die ein Stimmsignal aus dem Schallsignal extrahiert und vorgegebene Spracheinheiten zum Erkennen eines Sprechers aus dem Stimmsignal extrahiert; eine Stimm-Datenbank, in der Stimmdaten von Bezugs-Sprechern einschließlich der Lautstärke einer Vielzahl von Bezugs-Sprechern gespeichert sind; einer Lautstärken-Bestimmungseinrichtung, die die Lautstärke jeder Spracheinheit bestimmt und auf Basis der Stimm-Datenbank feststellt, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches registrierter Bezugs-Sprecher liegt; eine Lerneinrichtung, die die Spracheinheit lernt, wenn wenigstens eine minimale Anzahl der Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegt; einen Speicher, der Daten über die gelernten Spracheinheiten als Erkennungsdaten für den Sprecher speichert; und eine Steuereinheit, die Funktionen der Stimm-Analysiereinrichtung, der Stimm-Extrahiereinrichtung, der Lautstärken-Bestimmungseinrichtung und der Lerneinrichtung steuert, wenn eine Stimme eingegeben wird, und die die Erkennungsdaten für den Sprecher in dem Speicher speichert, umfasst.
In Übereinstimmung mit einer weiteren Ausführungsform der vorliegenden Erfindung können die voranstehend beschriebenen sowie weitere Aufgaben auch durch das Bereitstellen eines Sprecher-Erkennungssystems zum Erkennen, ob ein Sprecher ein re gistrierter Sprecher ist, erfüllt werden, wobei das System eine Stimm-Analysiereinrichtung, die ein Spektrum eines Stimmsignals analysiert, das von äußeren Schallsignalen eingegeben wird; eine Stimm-Extrahiereinrichtung, die Stimmsignale aus eingegebenen Schallsignalen auswählt und vorgegebene Spracheinheiten zum Erkennen des Sprechers aus den Stimmsignalen abstrahiert; eine Lautstärken-Bestimmungseinrichtung, die die Lautstärke jeder Spracheinheit bestimmt und bestimmt, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches liegt; eine Einrichtung zum Berechnen eines Sprecher-Score, die einen Sprecher-Score berechnet, indem sie die Wahrscheinlichkeit berechnet, dass die Spracheinheit zu dem Sprecher gehört, und die Wahrscheinlichkeit mittelt; und eine Steuereinheit umfasst, die die Einrichtung zum Berechnen des Sprecher-Score so steuert, dass sie den Sprecher-Score berechnet, wenn eine minimale Anzahl von allen Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegt, und nachweist, dass der Sprecher registriert worden ist, wenn der Sprecher-Score jenseits eines Schwellenwertes liegt, indem sie den berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert vergleicht, der ein vorgegebener minimaler Sprecher-Score zum Bestätigen des registrierten Sprechers ist.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Erfindung wird besser verständlich und ihre verschiedenen Aufgaben und Vorteile werden eher offensichtlich, wenn die folgende Beschreibung im Zusammenhang mit den beigefügten Zeichnungen betrachtet wird, in denen:
1 ein Blockdiagramm eines Sprechererkennungssystems in Übereinstimmung mit der vorliegenden Erfindung ist;
2 ist ein Graph, der eine Filterreihe des Sprecher-Erkennungssystems in Übereinstimmung mit der vorliegenden Erfindung darstellt;
3 ist ein Graph, der eine Rate der Abweichung des mittleren Abstandes zwischen registrierten Sprechern in Übereinstimmung mit der in 2 dargestellten Filterreihenzuweisung zeigt;
4 ist ein Graph, der den Grad der Abweichung der registrierten Sprecher in Übereinstimmung mit der in 2 dargestellten Filterreihenzuweisung zeigt;
5 ist ein Ablaufplan, der den Vorgang des Auswählens eines isolierten Wortes in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung darstellt;
6 ist ein Ablaufplan, der den Vorgang des Registrierens eines Stimmmusters in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung darstellt; und
7 ist ein Ablaufplan, der den Vorgang des Verifizierens eines Sprechers in Übereinstimmung mit der vorliegenden Erfindung darstellt.
ARTEN UND WEISEN DES AUSFÜHRENS DER ERFINDUNG
Im Folgenden wird die vorliegende Erfindung ausführlicher in Bezug auf die beigefügten Zeichnungen beschrieben.
In einem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung wird ein mehrschichtiges Perzeptron MLP (Multilager Perceptron) zum Abtasten von Kontinuanten und zum Verifizieren eines Sprechers eigenständig oder zusammen mit einem HMM (Hidden Markov Model) zum Zeitpunkt einer Stimmerkennung verwendet. Der Vorteil des MLP besteht darin, dass es möglich ist, zu lernen, eine konkurrierende Gruppe zurückzuweisen; dass vorläufige Daten über statistische Charakteristiken der Stimme nicht erforderlich sind; und dass es einfach ist, das MLP aufgrund des hohen Grades einer parallelen Berechnung und Regularität in Hardware auszuführen.
In der vorliegenden Erfindung wird das MLP zum Verifizieren eines Sprechers verwendet. Im Folgenden wird, um zu demonstrieren, dass das MLP beim Verifizieren eines Sprechers verwendet wird, ein stochastisches Verfahren zum Verifizieren des Sprechers zuerst beschrieben, und anschließend wird beschrieben, dass eine Operation des MLP auf dem stochastischen Verfahren basiert.
Bei der Verifizierung des Sprechers wird das Äußern von Stimme als eine Stichprobe O definiert, wobei es sich um eine beobachtete Warteschlange handelt, die in Bezug auf einen Sprecher S durch ein Stimm-Modell M(S) erzeugt wird. Die Beziehung der eingegebenen Stichprobe O und des Stimm-Modells M(S) wird als eine a-posteriori-Wahrscheinlichkeit P(M(S)| O) ausgedrückt. Ein Verifizierungsprozess V(S) wird durchgeführt, indem die a-posteriori-Wahrscheinlichkeit P(M(S)| O) mit einem vorgegebenen Schwellenwert θ verglichen wird.
[Gleichung 1]
Gleichung 1 zeigt, dass der Sprecher zurückgewiesen und akzeptiert wird, wenn die a-posteriori-Wahrscheinlichkeit jeweils kleiner als und größer als der Schwellenwert θ ist, beziehungsweise diesem entspricht.
Unter Verwendung der Bayes-Regel kann eine a-posteriori-Wahrscheinlichkeit P(M(S)| O) wie folgt dargestellt werden: [Gleichung 2]
Da hierin der Sprecher, der verifiziert werden soll, nicht zu einer geschlossenen Gruppe sondern zu einer offenen Gruppe gehört, ist es unmöglich, auf genaue Weise nicht nur die a-posteriori-Wahrscheinlichkeit P(M(S)| O), bei der es sich um einen festen Wert in einer geschlossenen Gruppe handelt, sondern auch die P(O) zu berechnen, wobei es sich um eine Aussage des Sprechers handelt.
[Gleichung 3]
Demzufolge kann unter der Bedingung der ungewissen P(M(S)) und P(O) die P(O)|M(S)) nicht zum Berechnen einer a-posteriori-Wahrscheinlichkeit verwendet werden.
Um das voranstehend beschriebene Problem zu lösen, wurde ein Verfahren vorgeschlagen, bei dem P(O)|M(S)) mittels eines Vergleiches mit anderen Sprechern, das heißt, einem Ähnlichkeits-Score des abfragenden Sprechers, unter einem Ähnlichkeits-Score von registrierten Bezugs-Sprechern gemittelt wird. Ein Ähnlichkeitsverhältnis aufgrund des Vergleiches zwischen dem Sprecher und den Bezugs-Sprechern kann folgendermaßen ausgedrückt werden: [Gleichung 4]
wobei L(O) das Ähnlichkeitsverhältnis ist, P(O|M(Si)) eine Likelihood-Wahrscheinlichkeit des abfragenden Sprechers ist und P(O|M(S)) eine Likelihood-Wahrscheinlichkeit des Bezugs-Sprechers ist.
Unter Verwendung des voranstehend beschriebenen Verfahrens wird die a-posteriori-Wahrscheinlichkeit P(M(S)| O) geschätzt, indem die Gleichung 3 ungefähr berechnet wird, wenn die Gruppe aus Bezugs-Sprechern ausreichend groß ist, um jeden abfragenden Sprecher zu repräsentieren.
Im Gegensatz dazu führt in Übereinstimmung mit Studien von Gish das MLP das voranstehende mathematische Modell aus.
Unter der Annahme, dass das MLP eine Funktion von x und θ ist, wobei x ein eingegebener Merkmalsvektor und θ ein Parameter ist, der das MLP definiert, sei a eine Zielausgabe, wenn x zu C_enr des abfragenden Sprechers gehört und b eine Zielausgabe, wenn x zu C_bg des Bezugs-Sprechers gehört. Ein Bezug zum Schätzen der Effizienz des MLP kann wie folgt mit einem mittleren quadratischen Fehler ausgedrückt werden. [Gleichung 5]
wobei N die Anzahl der Stichproben für das Lernen ist.
Wenn folglich N ausreichend groß ist und die Anzahl der Stichproben von beiden der Sprechergruppen durch eine a-priori-Wahrscheinlichkeit der Gruppenverteilung gegeben ist, kann die obige Summe wie folgt approximiert werden. [Gleichung 6]
wobei p(x,C) eine Dichtefunktion einer Verbundwahrscheinlichkeit eines Beobachtungsergebnisses und einer Beoabachtungs-Sprechergruppe ist.
[Gleichung 7]
Unter Verwendung der Gleichung 7 ergibt sich aus der Gleichung 6 die [Gleichung 8]
In der Gleichung 8 erhält lediglich der erste Term den auf das MLP bezogenen Parameter. Folglich ist zum Minimieren von E das Variieren der Parameter von f(x,θ) dasselbe wie das Minimieren des mittleren quadratischen Fehlers zwischen einer Ausgabe des MLP und der Zielwahrscheinlichkeit d(x).
Beim Lernen wird, wenn der Vektor [0 1] oder [1 0] für a und b einer Zielausgabe des MLP wegen als Ersatz verwendet wird, die Gleichung 7 als Gleichung 9 ausgedrückt. Das bedeutet, dass die a-posteriori-Wahrscheinlichkeit von einer zwischen beiden der Sprechergruppen der Zielausgabe des MLP wegen ausgewählt wird.
[Gleichung 9]
Das heißt entsprechend der Gleichung 8, das MLP lernt, sich auf Basis des mittleren quadratischen Fehlers an die ausgewählte a-posteriori-Wahrscheinlichkeit anzunähern. Um diese Erwähnung zu validieren, muss der mittlere quadratische Fehler verringert werden, und um den mittleren quadratischen Fehler zu verringern, muss das MLP eine richtige Struktur aufweisen.
Im Folgenden wird gezeigt, dass eine Operation des MLP den Vorgang des Abschwächens der a-posteriori-Wahrscheinlichkeit einschließt. Die Ausgabe des MLP wird wie folgt mit einer Sigmoidfunktion ausgedrückt. [Gleichung 10]
wobei Z(x,θ) eine Eingabe der Sigmoidfunktion in einer Ausgabeschicht ist.
Eine inverse Funktion der Gleichung 10 kann wie folgt ausgedrückt werden: [Gleichung 11]
Darüber hinaus kann für den abfragenden Sprecher, wenn die Ausgabe des MLP als die a-posteriori-Wahrscheinlichkeit definiert ist, [Gleichung 12]
die Gleichung 11 wie folgt umgeschrieben werden.
[Gleichung 13]
Als ein Ergebnis kann das Ähnlichkeitsverhältnis der Gleichung 6 durch das MLP ausgedrückt werden. Das heißt, da das Ähnlichkeitsverhältnis in dem MLP angewendet werden kann, kann die a-posteriori-Wahrscheinlichkeit (P(M(S)|0) anhand der Gleichung 3 durch eine Approximation geschätzt werden. Aus diesem Grund ist unter Verwendung der a-posteriori-Wahrscheinlichkeit die Sprecherverifizierung in der offenen Gruppe durch das MLP mit dem Ähnlichkeitsverhältnis möglich.
Im Folgenden wird andererseits das Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung, das das MLP anwendet, beschrieben.
Wie dies in 1 dargestellt ist, umfasst das Sprecher-Erkennungssystem 1 in Übereinstimmung mit der vorliegenden Erfindung einen lernenden Teil 5 zum Lernen vor der Sprecherregistrierung, eine Sprecherverifizierungsteil 7 zum Verifizieren des Sprechers sowie einen Analysierteil 3, der allgemein für die Sprecherregistrierung und Sprecherverifizierung verwendet wird.
Der Analysierteil 3 umfasst eine Stimm-Analysiereinrichtung 11, die ein Stimmsignal eines Sprechers analysiert, eine Stimm-Extrahiereinrichtung 13, die ein Stimmsignal aus dem eingegebenen Schall extrahiert und vorgegebene Spracheinheiten zum Erkennen eines Sprechers extrahiert, eine Lautstärken-Bestimmungseinrichtung 15, die die Lautstärke jeder Spracheinheit bestimmt und misst, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches liegt.
Der lernende Teil 5 enthält eine Lerneinrichtung 23, die die Spracheinheiten lernt, wenn einige der Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegen, einen Speicher 25, der Daten über die gelernten Spracheinheiten als Erkennungsdaten für den Sprecher speichert, und eine Stimm-Datenbank 21, in der die Lautstärke und die Sprachcharakteristiken des Bezugs-Sprechers, die mit dem abfragenden Sprecher zu vergleichen sind, gespeichert sind.
Der Sprecherverifizierungsteil 7 enthält eine Einrichtung 31 zum Berechnen eines Sprecher-Score, die die Wahrscheinlichkeit, dass die Spracheinheit zu dem Sprecher gehört, über das MLP berechnet, wenn einige Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegen, und anschließend den Sprecher-Score über das Mittel der Wahrscheinlichkeit berechnet, sowie eine Steuereinheit 33, die den berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert vergleicht und verifiziert, dass der Sprecher registriert worden ist, wenn der Sprecher-Score jenseits des Schwellenwertes liegt.
Da Stimmsignale jedoch nichtlinear sind, ist die Sprechererkennungseffizienz nicht perfekt. Die Sprechererkennungsrate entsprechend den Resonanzfrequenzbändern des Stimmsignals wurde durch Christea et al. in der Publikation „New Cepstrum frequency scale for neural network speaker verification", Proceedings of ICECS'99, 6th IEEE International Conference an Electronics, Circuits und Systems, 5. bis 8. Sept. 1999, Seiten 1573-1576, gemessen. Als Ergebnis der Messung in dem Fall der Stimmerkennung für das Verstehen der Bedeutung der Sprache betrug die Erkennungsrate mehr als 80 % bei 0,3 KHz-2 KHz, wobei bei der Sprechererkennung zum Identifizieren, zu wem die Stimme gehört, die Erkennungsrate mehr als 80 % bei 1,5 KHz-2,7 KHz betrug. Gemäß dem Ergebnis hat Christea et al. die Sprechererkennungsrate durch Verengen von Filterreihen bei 1,5 KHz-2,5 KHz im Vergleich zu 0-1,5 KHz verbessert.
Wie dies in 2 dargestellt ist, sind in Übereinstimmung mit der vorliegenden Erfindung durch Komprimieren des Spektrums die Intervalle der Filterreihen gleichmäßig bei 0-3 KHz, während über 3 KHz die Intervalle der Filterreihen logarithmisch vergrößert werden. Zu diesem Zeitpunkt sind zwei Drittel der fünfzig Filterreihen, ungefähr dreiunddreißig, 0-3 KHz zugewiesen, und die anderen Filterreihen sind logarithmisch über 3 KHz zugewiesen.
Die Erfinder der vorliegenden Erfindung haben bestätigt, dass das vorangehend beschriebene Verfahren zum Zuweisen von Filterreihen effizienter als das Verfahren von Christea et al. bezüglich der Sprechererkennungseffizienz ist. Im Folgenden wird dies durch einen mittleren Abstand zwischen den Sprechern, der als Gleichung 1-1 ausgedrückt wird, und den Grad der Abweichung zwischen Sprechergruppen, der als Gleichung 1-2 ausgedrückt wird, demonstriert. [Gleichung 1-1]
[Gleichung 1-2]
Als das Ergebnis des mittleren Abstandes zwischen Sprechern und dem Grad der Abweichung zwischen den Sprechergruppen, die jeweils aus den Gleichungen 1-1 und 1-2 hergeleitet werden, wenn die Filterreihen in Übereinstimmung mit der vorliegenden Erfindung im Vergleich zu dem Verfahren von Christea et al. zugewiesen werden, beträgt der mittlere Abstand zwischen den Sprechern jeder Spracheinheit, wie in 3 dargestellt, 20,7 % gemittelter Abstand, und der Grad der Abweichung zwischen den Sprechergruppen jeder Spracheinheit beträgt, wie in 4 dargestellt, 6,3 % durchschnittliche Verringerung. Im Allgemeinen erhöht sich die Klassifizierungseffizienz der Spracheinheit proportional zu dem mittleren Abstand zwischen Sprechern und zu der Verringerung des Grades der Abweichung der Sprechergruppe, und folglich werden, wie dies in den 3 und 4 dargestellt ist, sowohl der mittlere Abstand zwischen Sprechern als auch der Grad der Abweichung der Sprechergruppe in Übereinstimmung mit der vorliegenden Erfindung verbessert.
Wie dies vorangehend beschrieben wird, komprimiert in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung die Stimm-Analysiereinrichtung 11 das Spektrum in dem Zustand, dass Intervalle der Filterreihen gleichmäßig bei 0-3 KHz sind, während die Intervalle der Filterreihen über 3 KHz logarithmisch vergrößert werden. Darüber hinaus unterteilt die Stimm-Analysiereinrichtung 11 das eingegebene Stimmsignal durch einen vorgegebenen Frame vor dem Komprimieren des Spektrums, und extrahiert anschließend das Spektrum jedes Frames.
In Übereinstimmung mit der vorliegenden Erfindung werden die Spracheinheiten aus Nasalen, Vokalen und Approximanten ausgewählt, die relativ viel kontinuierlichen Schall enthalten, und folglich werden insgesamt neun Phoneme, /a/, /e/, /v/, /o/, /u/, /eu/, /i/, /liq/, /nas/, als die Spracheinheiten angewendet. Im Folgenden werden die vorangehenden Spracheinheiten, die viel kontinuierlichen Schall aufweisen, als Kontinuanten bezeichnet.
Die Stimm-Extrahiereinrichtung 13 extrahiert Verschlusslaute (Mutae), die Kontinuanten und stimmlosen Schall aus dem komprimierten Spektrum und erfasst ein isoliertes Wort. Das isolierte Wort ist die Einheit einer Sprache, die für die Sprechererkennung erforderlich ist, wie beispielsweise eine Phrase, ein Wort, eine Silbe, ein Phonem und so weiter. Die Stimm-Extrahiereinrichtung 13 klassifiziert die durch die Stimm-Analysiereinrichtung 11 erfassten Frames in elf Typen des Verschlusslautes, die neun Kontinuanten sowie den stimmlosen Schall über ein TDNN (Time-Delay Neural Network), und wendet anschließend ein Ergebnis von dem TDNN und die Energie jedes Frames auf einen Algorithmus zum Erfassen des isolierten Wortes an. Hierin enthält das TDNN zusätzlich eine Zeitverzögerungsdauer in Vergleich zu dem MLP.
Im Folgenden wird der Vorgang zum Erfassen des isolierten Wortes in Bezug auf 5 beschrieben.
Zunächst beginnt der Schall und anschließend wird bestimmt, ob eine Schalldauer über einer MinSD (Minimum Sound Duration – Minimale Schalldauer) liegt. Die MinSD wird als ein Bezug zum Erfassen des isolierten Wortes verwendet. Wenn die Schalldauer nicht über der MinSD liegt, wird der Beginn der Äußerung erneut erfasst, während, wenn die Schalldauer über der MinSD liegt, erfasst wird, ob Nichtschall begonnen wird. Zu diesem Zeitpunkt wird, wenn der Nichtschall begonnen wird, bestimmt, ob eine Nicht-schalldauer über einer MaxNSD (Maximum Non-Sound Durstion – Maximale Nicht-schalldauer) liegt. Wenn die Nichtschalldauer über einer MaxNSD liegt, wird der Vorgang zum Erfassen des isolierten Wortes unterbrochen.
Dementsprechend kann, wenn das isolierte Wort erfasst wird, der Frame, der die Kontinuanten einschließt, über das TDNN von dem isolierten Wort abstrahiert werden. Ein Frame kann lediglich einen Kontinuant oder eine Vielzahl von Kontinuanten einschließen. Anschließend wird der Frame, der die Kontinuanten einschließt, erneut analysiert und kann folglich als Sprecher-Muster jedes Kontinuanten für die Sprechererkennung und die Sprecherverifizierung verwendet werden.
Wenn dementsprechend der Frame, der die Kontinuanten enthält, extrahiert wird, berechnet die Lautstärken-Bestimmungseinrichtung 15 andererseits einen Energiewert des Kontinuantenspektrums und bestimmt die Lautstärke davon. Darüber hinaus bestimmt die Lautstärken-Bestimmungseinrichtung 15, ob die Lautstärke des abfragenden Sprechers bei der Sprecherregistrierung verwendet werden kann, indem sie mit der Lautstärke des Bezugs-Sprechers, die zuvor in der Stimm-Datenbank 21 gespeichert wurde, verglichen wird.
Die Stimm-Datenbank 21 ist eine Sammlung von Daten über die Stimmen einer großen Anzahl von Bezugs-Sprechern, die mit den abfragenden Sprechern zu vergleichen sind, und in ihr werden die maximale und minimale Lautstärke jedes Kontinuanten der Bezugs-Sprecher zuvor gespeichert. An dieser Stelle kann die Lautstärke jedes Kontinuanten jedes Bezugs-Sprechers mit dem Energiewert jedes Kontinuanten berechnet und folgendermaßen ausgedrückt werden. [Gleichung 1-3]
wobei S eine Stimmprobe ist, P ein Kontinuant ist, M die Anzahl der Stimmproben in dem Frame ist und N eine Frame-Nummer ist.
Unter Verwendung von Gleichung 1-3 wird bestimmt, ob der Frame des abfragenden Sprechers, der die Kontinuanten enthält, zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt. Zu diesem Zeitpunkt kann der Frame, der die Kontinuanten enthält, durch zwei Verfahren registriert werden. Ein Verfahren ist, dass ohne Rücksicht auf den Gesamt-Frame der isolierten Wörter, die aus der Stimme des abfragenden Sprechers extrahiert wurden, lediglich die Frames, die zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegen, registriert werden dürfen. Das andere Verfahren besteht darin, dass, wenn die Frames, die zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegen, über dem vorgegebenen Prozentsatz liegen, die Frames registriert werden dürfen. Im Allgemeinen ist, da die Kontinuanten eines langen Wortes durch eine unterschiedliche Lautstärke entsprechend dem Akzent und der Grammatik geäußert werden, das letztere Verfahren unter Berücksichtigung einer durchschnittlichen Lautstärke von Gesamt-Frames des isolierten Wortes erstrebenswert.
Demgegenüber wird die in der vorliegenden Erfindung verwendete Stimm-Datenbank 21 für einen Effizienztest gemeinsam von dem Korea Institute of Technology und der Kwangwoon University untersucht. Die Stimm-Datenbank 21 verfügt über einen Äuße rungs-Katalog, der eine einzelne Zahl, ein Demonstrativwort, eine vierstellige Zahl, einen kurzen Satz und ein PWB (Phone Balanced Word – phonausgeglichenes Wort) enthält. In Übereinstimmung mit der vorliegenden Erfindung werden das PWB und die vierstellige Zahl jeweils in dem TDNN zu Erkennen der Kontinuanten und in dem MLP zum Verifizieren der Sprecher verwendet.
Wenn der Frame, der die Kontinuanten enthält, durch Bestimmen der Lautstärke registriert werden darf, bildet die Stimm-Extrahiereinrichtung 13 eine Vielzahl von Sprecher-Mustern entsprechend jeder Spracheinheit eines Sprechers aus. Die Sprecher-Muster, die jeder Spracheinheit von Bezugs-Sprechern entsprechen, werden zuvor in der Stimm-Datenbank 21 gespeichert.
Um einen Sprecher zu registrieren, wird eine Vorlage für ein Registrierungswort, das dem isolierten Wort entspricht, ausgebildet und gespeichert, und das Lernen entsprechend den Kontinuanten wird durch das MLP durchgeführt. Um das Registrierungswort durch eine Vorlage als eine Einheit zu speichern, sind 2 bis 3 Vorlagen für ein Wort erforderlich. Folglich muss der abfragende Sprecher zum Zeitpunkt der Sprecherregistrierung dasselbe Wort mehrere Male äußern.
Bei dem herkömmlichen Lernen der Kontinuanten für die Sprecherregistrierung werden die Muster des abfragenden Sprechers für jedes Bezugs-Sprecher-Muster gelernt, und dies wird als eine Epoche bezeichnet. In dem Fall des Lernens eines Bezugs-Musters durch eine Epoche wird, da ein Lernunterbrechungs-Bezug auf jeden Bezugs-Sprecher angewendet wird, die Unterscheidungsrate zwischen dem abfragenden Sprecher und dem Bezugs-Sprecher, der ein Muster aufweist, das dem des abfragenden Sprechers ähnlich ist, verringert. Hierin ist der Lernunterbrechungs-Bezug eine vorgegebene aprioristische Änderungsrate. Die vorgegebene aprioristische Änderungsrate ist ein mittlerer quadratischer Fehler, der als ein Bezug zum Bestimmen dafür angewendet wird, ob das Lernen über das MLP ausreichend ist oder nicht, und der durch Experimentieren bestimmt wird. Der mittlere quadratische Fehler drückt den Bereich eines Fehlers aus, der zwischen den Bezugs-Sprechern ausgetreten ist.
Das heißt, wenn sich die mittlere quadratische Fehlerrate einer vorgegebenen aprioristischen Änderungsrate im Verlauf des Lernens durch Vergleichen des abfragenden Spre chers mit dem Bezugs-Sprecher annähert, unterbricht die Lerneinrichtung 23 das Lernen. Da jedoch die aprioristische Festsetzungsrate lediglich ein experimenteller Wert ist, kann es möglich sein, dass der Bezugs-Sprecher den Fehlereintrittsbereich aufweist, der kleiner ist als die aprioristische Änderungsrate. Wenn folglich der Bereich eines zwischen dem Bezugs-Sprecher und dem abfragenden Sprecher eingetretenen Fehlers kleiner als eine aprioristische Festsetzungsrate ist, wird die Verifizierbarkeit verringert, wodurch eine Falschakzeptanz-(False Acceptance – FA) Rate erhöht wird. Die Falschakzeptanzrate drückt die Rate des falschen Akzeptierens eines nicht registrierten Sprechers aus, und wenn ein System den nicht registrierten Sprecher akzeptiert, ist es wahrscheinlich, dass Informationen des Systems durch einen Betrüger bekannt werden, so dass die falsche Akzeptanz verringert werden muss.
In Übereinstimmung mit der vorliegenden Erfindung wird, um die Sprecher-Charakteristiken korrekt zu lernen, eine Vielzahl von Bezugs-Mustern, die entsprechend jedem Kontinuant eines Bezugs-Sprechers ausgebildet sind, als eine Lerngruppe angewendet. Folglich hat, da jeder Kontinuant die Lerngruppe ausbildet, jeder Bezugs-Sprecher jeweils die Vielzahl von Lerngruppen. Das heißt, wenn ein Bezugs-Sprecher neun Kontinuanten aufweist und jeder Kontinuant zehn Bezugs-Muster aufweist, hat ein Bezugs-Sprecher neun Lerngruppen, die jeweils zehn Bezugs-Muster enthalten.
Unter Verwendung des MLP vergleicht die Lerneinrichtung 23 die Bezugs-Muster jedes Bezugs-Sprechers mit der Vielzahl von Mustern des abfragenden Sprechers und lernt die Muster-Eigenschaft des abfragenden Sprechers gemäß einem Backpropagation-Algorithmus. Hierin wird, da das eine Lernen durch Vergleichen der Bezugs-Muster jedes Bezugs-Sprechers mit der Vielzahl von Mustern des befragenden Sprechers als die Epoche bezeichnet wird, ein Lernen durch Vergleichen eines der Lerngruppen des Bezugs-Sprechers mit einem der Muster des abfragenden Sprechers als Unter-Epoche bezeichnet.
Folglich durchläuft das Muster des abfragenden Sprechers eine Vielzahl von Unter-Epochen gegen die Bezugs-Muster des Bezugs-Sprechers. Beim Durchlaufen der Vielzahl von Unter-Epochen werden die Bezugs-Muster jedes Bezugs-Sprechers mit den Mustern des abfragenden Sprechers verglichen. Hierbei gilt, je ähnlicher das Bezugs-Muster des Bezugs-Sprechers den Mustern des abfragenden Sprechers ist, desto mehr wird das Lernen wiederholt. Folglich wird die Unterscheidung des Musters zwischen dem abfragenden Sprecher und dem Bezugs-Sprecher erhöht.
Im Anschluss daran werden die gelernten Muster in dem Speicher 25 gespeichert und als ein Bezugs-Wert verwendet, wenn die Stimme des abfragenden Sprechers erneut eingegeben wird.
Im Folgenden wird andererseits der Vorgang des Verifizierens eines Sprechers beschrieben. Wenn der abfragende Sprecher seine/ihre Stimme eingibt, bestimmt die Lautstärken-Bestimmungseinrichtung 15, ob eine minimale vorgegebene Anzahl von allen Spracheinheiten des isolierten Wortes innerhalb des vorgegebenen Lautstärkebereiches liegt. Wenn das eingegebene isolierte Wort nicht innerhalb des vorgegebenen Lautstärkebereiches liegt, wird der abfragende Sprecher aufgefordert, seine/ihre Stimme erneut einzugeben. Wenn andererseits das eingegebene isolierte Wort innerhalb des vorgegebenen Lautstärkebereiches liegt, wird durch einen DTW-(Dynamic Time Warping) Algorithmus bestimmt, ob das isolierte Wort und die Registrierungswortvorlage einander identisch sind. Anschließend wird, wenn das eingegebene isolierte Wort und die gespeicherte Registrierungswortvorlage einander identisch sind, der Sprecher-Score durch Eingeben des gelernten Sprecher-Musters der durch das MLP abstrahierten Kontinuanten berechnet. Der Sprecher-Score wird aus der Gleichung 1-4 hergeleitet. [Gleichung 1-4]
wobei P(LUi) ein Score der Wahrscheinlichkeit ist, dass der abfragende Sprecher der Bezugs-Sprecher eines i-ten Spracheinheit-Frame ist, und M die Nummer des Spracheinheit-Frame ist, der aus dem isolierten Wort extrahiert wird.
Der Sprecher-Score kann durch Legen eines gewichteten Wertes auf die Kontinunaten guter Unterscheidung berechnet werden.
Im Anschluss daran wird der berechnete Sprecher-Score mit dem vorgegebenen Schwellenwert verglichen, und wenn der berechnete Sprecher-Score jenseits des Schwellenwertes liegt, wird die eingegebene Stimme als die Stimme eines registrierten Sprechers bestimmt, wodurch die Stimme akzeptiert wird. Hierin ist der Schwellenwert ein minimaler Sprecher-Score, um zu verifizieren, dass die eingegebene Stimme die Stimme des registrierten Sprechers ist, und wird als ein Wert bestimmt, der lediglich eine Falschrückweisungs-(False Rejection) Rate minimiert, da die Verifizierung des Registrierungswortes bei der Sprecherverifizierung nicht von Bedeutung ist. Die Falschrückweisungsrate drückt die Rate des falschen Zurückweisens des registrierten Sprechers aus.
Mit dieser Konfiguration in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung wird im Folgenden in Bezug auf 6 der Vorgang des Registrierens einer Stimme beschrieben.
Zunächst unterteilt die Stimm-Analysiereinrichtung 11, wenn der abfragende Sprecher seine/ihre Stimme eingibt (S10), das eingegebene Sprachsignal durch einen vorgegebenen Frame (S20), stellt es als ein Spektrum dar (S30) und komprimiert das Spektrum durch die Filterreihe, wodurch das isolierte Wort ausgewählt wird (S40). Anschließend wählt die Stimm-Extrahiereinrichtung 13 den Frame, der die Spracheinheit aufweist, von den Frames des isolierten Wortes aus (S50). Die Lautstärken-Bestimmungseinrichtung 15 bestimmt die Lautstärke der Spracheinheit (S60) und bestimmt, ob die Lautstärke zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt (S70). An dieser Stelle fordert die Steuereinheit 33, wenn die Lautstärke des abfragenden Sprechers nicht zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt, den abfragenden Sprecher auf, seine/ihre Stimme erneut einzugeben (S75).
Wenn demgegenüber die Lautstärke der Spracheinheit des abfragenden Sprechers zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt, wird das Muster jeder Spracheinheit des abfragenden Sprechers erstellt (S80). Darüber hinaus vergleicht die Lerneinrichtung 23 die Bezugs-Muster jedes Bezugs-Sprechers mit den Mustern des abfragenden Sprechers und lernt die Muster-Eigenschaft des abfragenden Sprechers mit dem MLP (S90). Hierin werden die Bezugs-Muster des Bezugs-Sprechers in die Vielzahl von Lerngruppen gemäß jeder Spracheinheit klassifiziert, und alle Muster des abfragenden Sprechers werden mit den Bezugs-Mustern der Bezugs-Sprecher entsprechend der Spracheinheit verglichen. Anschließend werden, wenn das Lernen abgeschlossen ist, die verglichenen Muster und die Lautstärke des abfragenden Sprechers registriert (S100).
Im Folgenden wird darüber hinaus der Vorgang der Sprecherverifizierung, der verifiziert, ob die Stimme des abfragenden Sprechers die registrierte Stimme ist oder nicht, in Bezug auf 7 beschrieben.
Zunächst unterteilt die Stimm-Analysiereinrichtung 11, wenn der abfragende Sprecher seine/ihre Stimme eingibt (P10), das eingegebene Sprachsignal durch einen vorgegebenen Frame (P20), stellt es als ein Spektrum dar (P30) und wählt das isolierte Wort aus (P40). Anschließend wählt die Stimm-Extrahiereinrichtung 13 den Frame, der die Spracheinheit aufweist, von den Frames des isolierten Wortes aus (P50). Die Lautstärken-Bestimmungseinrichtung 15 bestimmt die Lautstärke der Spracheinheit (P60) und bestimmt, ob die Lautstärke zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt (P70). An dieser Stelle fordert die Steuereinheit 33, wenn die Lautstärke der Spracheinheit des abfragenden Sprechers nicht zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt, den abfragenden Sprecher auf, seine/ihre Stimme erneut einzugeben (P75), während, wenn die Lautstärke jeder Spracheinheit des abfragenden Sprechers zwischen der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt, die Einrichtung 31 zum Berechnen des Sprecher-Score den Sprecher-Score jeder Spracheinheit mit dem MLP berechnet (P80). Im Anschluss daran vergleicht die Steuereinheit 33 den berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert (P90) und verifiziert, dass der abfragende Sprecher registriert wurde, wenn der Sprecher-Score jenseits des Schwellenwertes liegt, wodurch der abfragende Sprecher akzeptiert wird (P100). Wenn demgegenüber der Sprecher-Score unterhalb des Schwellenwertes liegt, verifiziert die Steuereinheit 33, dass der abfragende Sprecher nicht registriert wurde, wodurch der abfragende Sprecher zurückgewiesen wird (P105).

Die im Folgenden aufgeführten Tabellen 4 bis 6 zeigen das Ergebnis der Sprecherregistrierung unter Verwendung des Stimmregistrierungssystems 1 in Übereinstimmung mit der vorliegenden Erfindung, wobei sich der abfragende Sprecher jeweils mit 180 %, 140 %, 120 %, 100 %, 80 % Lautstärke äußerst, nachdem er jeweils mit 180 %, 140 %, 120 %, 100 %, 80 % Lautstärke registriert wurde. Die Tabellen 1 bis 3 zeigen jeweils die Falschrückweisung, die Falschakzeptanz und die Akzeptanz eines isolierten Wortes in dem herkömmlichen Spracherkennungssystem. Darüber hinaus zeigen die Tabellen 4 bis 6 jeweils die Falschrückweisung, die Falschakzeptanz und die Akzeptanz eines isolierten Wortes in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung. Hierin bezeichnet die Falschrückweisung die Rate des falschen Zurückweisens des registrierten Sprechers, und die Akzeptanz des isolierten Wortes bezeichnet die Rate der Akzeptanz, wenn der abfragende Sprecher das Registrierungswort des Bezugs-Sprechers äußert. [Tabelle 1] Falschrückweisung in dem herkömmlichen Sprecher-Erkennungssystem.

Verifizierung Lernen	180 %	140 %	120 %	100 %	80 %
180 %	0,78	7,67	24,02	71,23	47,29
140 %	1,28	1,79	4,67	34,71	19,24
120 %	3,58	2,21	2,80	17,53	12,67
100 %	30,91	20,86	14,23	2,79	34,59
80 %	11,64	8,49	9,95	34,74	3,59

[Tabelle 2] Falschakzeptanz in dem herkömmlichen Sprecher-Erkennungssystem.

Verifizierung Lernen	180 %	140 %	120 %	100 %	80 %
180 %	25,17	12,47	7,38	2,41	6,99
140 %	19,19	12,11	8,82	3,39	8,26
120 %	14,13	10,26	8,26	3,95	7,34
100 %	3,91	2,97	2,79	2,79	2,49
80 %	14,45	10,61	8,17	3,47	12,91

[Tabelle 3] Akzeptanz des isolierten Wortes in dem herkömmlichen Sprecher-Erkennungssystem.

Verifizierung Lernen	180 %	140 %	120 %	100 %	80 %
180 %	99,73	99,52	99,19	99,45	97,19
140 %	99,70	99,71	99,38	99,73	99,67
120 %	99,62	99,67	99,34	99,71	97,67
100 %	99,40	99,55	99,26	99,68	97,53
80 %	98,89	99,02	98,82	99,14	96,86

[Tabelle 4] Falschrückweisung in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung.

Verifizierung Lernen	180 %	140 %	120 %	100 %	80 %
180 %	1,22	10,19	31,08	74,07	48,30
140 %	2,23	2,25	6,16	37,37	18,14
120 %	4,07	2,65	3,29	2,97	10,64
100 %	34,04	22,59	16,05	2,70	32,27
80 %	11,57	7,84	9,20	33,44	3,26

Wie dies in Tabelle 4 dargestellt ist, wird, je ähnlicher die abfragende Lautstärke der Lernlautstärke ist, die Falschrückweisung desto mehr verringert, und je unterschiedlicher die abfragende Lautstärke zu der Lernlautstärke ist, desto mehr wird die Falschrückweisung erhöht. Die Falschrückweisung wird insbesondere in dem Fall maximiert, in dem die Lernlautstärke höher und die abfragende Lautstärke geringer ist. [Tabelle 5] Falschakzeptanz in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung.

Verifizierung Lernen	180 %	140 %	120 %	100 %	80 %
180 %	23,16	12,08	7,35	2,41	7,26
140 %	17,08	11,58	8,23	3,19	8,98
120 %	12,72	9,72	7,72	8,46	8,15
100 %	3,35	2,75	2,56	2,71	2,61
80 %	13,38	10,05	7,66	3,26	11,85

Wie dies in Tabelle 5 dargestellt ist, wird die Falschakzeptanz, die die Rate des falschen Akzeptierens des nicht registrierten Sprechers bezeichnet, in dem Fall von 100 % Lern- oder abfragender Lautstärke minimiert. In dem anderen Fall wird die Falschakzeptanz erhöht. Im Vergleich zu der Tabelle 2 zeigt die Tabelle 5, dass die Falschakzeptanz des Sprecher-Erkennungssystems 1 in Übereinstimmung mit der vorliegenden Erfindung insgesamt verbessert wird. [Tabelle 6] Akzeptanz des isolierten Wortes in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden Erfindung.

Verifizierung Lernen	180 %	140 %	120 %	100 %	80 %
180 %	46,41	56,89	59,32	60,44	58,68
140 %	57,28	75,91	80,43	82,89	81,09
120 %	60,04	81,66	87,70	87,70	89,42
100 %	60,54	82,91	90,33	94,63	93,04
80 %	59,19	80,77	88,10	92,33	90,92

Wie dies in Tabelle 6 dargestellt ist, wird die Akzeptanz des isolierten Wortes in dem Fall der 180 % Lern- und abfragenden Lautstärke minimiert. Verglichen mit der Tabelle 3 zeigt die Tabelle 6, dass die Akzeptanz des isolierten Wortes des Sprecher-Erkennungssystems 1 in Übereinstimmung mit der vorliegenden Erfindung insgesamt verringert wird. Folglich kann der registrierte Sprecher am genausten verifiziert werden, indem dem abfragenden Sprecher ermöglicht wird, sich erneut zu äußern, wenn der abfragende Sprecher sich mit unzureichender Lautstärke äußert.
Wie dies vorangehend beschrieben ist, wird in dem Sprecher-Erkennungssystem 1 der vorliegenden Erfindung beim Lernen der Stimme bestimmt, ob die Stimme des abfragenden Sprechers innerhalb des vorgegebenen Lautstärkebereiches der Bezugs-Sprecher liegt, und es wird lediglich die Stimme innerhalb des vorgegebenen Lautstärkebereiches analysiert, wodurch das Sprecher-Muster ausgebildet wird. Darüber hinaus wird bei der Sprecherverifizierung bestimmt, ob die Stimme des abfragenden Sprechers innerhalb des vorgegebenen Lautstärkebereiches der Bezugs-Sprecher liegt, und es werden die Sprecher-Scores lediglich der Stimmen innerhalb des vorgegebenen Lautstärkebereiches berechnet, wodurch der abfragende Sprecher zurückgewiesen oder akzeptiert wird.
Wie dies vorangehend beschrieben wird, ist die Erkennung in dem Sprecher-Erkennungssystem 1 in Übereinstimmung mit der vorliegenden Erfindung mit 100 % Lautstärke beim Lernen und beim Verifizieren am effizientesten, und je mehr die Lautstärke von 100 % verschieden ist, desto mehr wird die Erkennungseffizienz verringert.
Das heißt, in dem herkömmlichen Sprecher-Erkennungssystem korrelieren die Erkennungseffizienz und die Lautstärke nicht miteinander, in dem Sprecher-Erkennungssystem in Übereinstimmung mit der Erfindung jedoch wird die Akzeptanz des isolierten Wortes proportional zu einem Anstieg des Lautstärkeunterschiedes zwi schen den abfragenden und den lernenden Sprechern verringert, um dadurch zu bewirken, dass sich der abfragende Sprecher erneut äußert. Folglich wird die Falschakzeptanz, die die Rate des falschen Akzeptierens des nicht registrierten Sprechers ausdrückt, verringert, und der abfragende Sprecher hat die Möglichkeit, sich erneut zu äußern, wenn seine/ihre Stimme nicht innerhalb des vorgegebenen Lautstärkebereiches der Bezugs-Sprecher liegt, wodurch das Vertrauen in das Sprecher-Erkennungssystem verbessert wird.
Wie dies vorangehend beschrieben ist, wird in Übereinstimmung mit der vorliegenden Erfindung die Lautstärke eines Sprechers beim Lernen zum Registrieren seiner/ihrer Stimme sowie beim Verifizieren eines Sprechers berücksichtigt, so dass es möglich ist, den Sprecher genauer zu verifizieren.
Obwohl die bevorzugten Ausführungsformen der vorliegenden Erfindung zu illustrativen Zwecken offenbart wurden, ist es für Personen mit gewöhnlicher Erfahrung auf dem Gebiet der Technik offensichtlich, dass verschiedene Modifizierungen, Ergänzungen und Ersetzungen möglich sind, ohne von dem in den angehängten Patentansprüchen offenbarten Umfang der Erfindung abzuweichen.

Claims

Stimmregistrierungsverfahren, das für die Erzeugung von Sprechererkennungs-Daten geeignet ist und die folgenden Schritte umfasst: Aktualisieren eines Spektrums eines Schallsignals, das von außen eingegeben wird; Extrahieren vorgegebener Spracheinheiten für Sprechererkennung aus einem Stimmsignal in dem Schallsignal; gekennzeichnet durch, Messen der Lautstärke jeder Spracheinheit; Sammeln von Stimmdaten registrierter Bezugs-Sprecher, die Lautstärkedaten der Vielzahl von Bezugs-Sprechern als Bezug zu einer Stimm-Datenbank enthalten; auf Basis der Stimm-Datenbank Bestimmen, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches der Bezugs-Sprecher liegt; Lernen jeder Spracheinheit unter Verwendung eines mehrschichtigen Perzeptrons, wenn wenigstens eine vorgegebene Anzahl von Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegt; und Speichern von Daten über die gelernte Spracheinheit als Daten zum Erkennen des Sprechers.
Verfahren nach Anspruch 1, wobei der Stimm-Analysierschritt die folgenden Schritte einschließt: Darstellen des Sprachsignals des Sprechers als ein Spektrum; und Komprimieren des Spektrums durch gleichmäßiges Zuweisen von Filterreihen zu einem Sprechererkennungs-Bereich, in dem Sprachcharakteristiken des Sprechers zu erkennen sind.
Verfahren nach Anspruch 2, wobei der Sprechererkennungs-Bereich 0-3 KHz ist und darin die Filterreihen gleichmäßig zugewiesen werden, während über 3 KHz die Intervalle der Filterreihen logarithmisch vergrößert werden.
Verfahren nach Anspruch 3, das des Weiteren den Schritt des Anwendens einer Vielzahl von Phonemen, die aus Nasalen, Vokalen und Approximanten ausgewählt werden, die relativ viel kontinuierlichen Schall enthalten, als die Spracheinheiten umfasst, wobei der Schritt des Extrahierens der Spracheinheiten den Schritt des Herstellens einer Vielzahl von Frames durch Unterteilen des Spektrums in mehrere Teile sowie des Extrahierens eines Frame aus den Frames einschließt, der die Spracheinheit aufweist.
Verfahren nach Anspruch 4, wobei der Schritt des Messens der Lautstärke aus dem Berechnen eines Energiewertes des Frame besteht, der die Spracheinheit des Spektrums aufweist.
Verfahren nach Anspruch 5, das des Weiteren den Schritt des Extrahierens maximaler und minimaler Lautstärke durch Analysieren des Stimmspektrums der Bezugs-Sprecher, die in der Stimm-Datenbank gespeichert sind, sowie durch Berechnen des Energiewertes des Frame umfasst, der die Spracheinheit aufweist, wobei der Schritt des Bestimmens der Lautstärke umfasst, dass bestimmt wird, ob die Anzahl der Frames, die die Lautstärke innerhalb der maximalen und der minimalen Lautstärke aufweisen, über einem vorgegebenen Schwellenwert liegt.
Verfahren nach Anspruch 6, das des Weiteren den Schritt des Ausbildens einer Vielzahl von Bezugs-Mustern zu jeder Spracheinheit der Vielzahl von Bezugs-Sprechern sowie des Ausbildens einer Vielzahl von Sprecher-Mustern zu jeder Spracheinheit der Vielzahl von Sprechern umfasst, wobei der Schritt des Lernens den Schritt des Lernens einer Muster-Charakteristik des Sprechers durch Vergleichen der Bezugs-Muster mit den Sprecher-Mustern gemäß einem Backpropagation-Algorithmus einschließt.
Verfahren nach Anspruch 7, das des Weiteren den Schritt des Herstellens von Lerngruppen, deren Anzahl der Anzahl von Spracheinheiten der Bezugs-Spre cher entspricht, durch Anwenden der Vielzahl von Bezugs-Mustern auf jede Spracheinheit eines Bezugs-Sprechers als einer Lerngruppe umfasst, wobei der Schritt des Lernens aus dem Lernen der Muster-Charakteristik des Sprechers durch Vergleichen der Bezugs-Muster jeder Lerngruppe mit der Vielzahl der Sprecher-Muster besteht.
Verfahren nach Anspruch 1, wobei der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprechererkennungs-Daten besteht.
Verfahren nach Anspruch 2, wobei der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprechererkennungs-Daten besteht.
Verfahren nach Anspruch 3, wobei der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprecherkennungs-Daten besteht.
Verfahren nach Anspruch 4, wobei der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprechererkennungs-Daten besteht.
Verfahren nach Anspruch 5, wobei der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprechererkennungs-Daten besteht.
Verfahren nach Anspruch 6, wobei der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprechererkennungs-Daten besteht.
Verfahren nach Anspruch 7, wobei der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprecherkennungs-Daten besteht.
Verfahren nach Anspruch 8, wobei der Schritt des Speicherns aus dem Speichern der Vielzahl von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder Spracheinheit als Sprechererkennungs-Daten besteht.
Verfahren nach Anspruch 1, das des Weiteren den Schritt umfasst, mit dem der Sprecher zum erneuten Äußern aufgefordert wird, wenn wenigstens eine vorgegebene Anzahl von Spracheinheiten nicht innerhalb des vorgegebenen Lautstärkebereiches liegt.
Sprechererkennungsverfahren, mit dem erkannt wird, ob ein Sprecher ein registrierter Sprecher ist, wobei es die folgenden Schritte umfasst: Analysieren eines Spektrums eines Schallsignals, das von außen eingegeben wird; Extrahieren vorgegebener Spracheinheiten für Sprechererkennung aus einem Stimmsignal in dem Schallsignal; gekennzeichnet durch Messen der Lautstärke jeder Spracheinheit; Bestimmen, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches registrierter Bezugs-Sprecher liegt; Berechnen eines Sprecher-Score durch Berechnen der Wahrscheinlichkeit, dass die Spracheinheit zu dem Sprecher gehört, über ein mehrschichtiges Perzeptron und durch Mitteln der Wahrscheinlichkeit, wenn wenigstens eine vorgegebene Anzahl von Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegt; und Verifizieren, dass der Sprecher registriert ist, wenn der Sprecher-Score jenseits eines Schwellenwertes liegt, durch Vergleichen des berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert, der ein vorgegebener minimaler Sprecher-Score zum Verifizieren des registrierten Sprechers ist.
Verfahren nach Anspruch 18, wobei der Sprecher-Score anhand der folgenden Gleichung berechnet werden kann
wobei P(LU_i) ein Score der Wahrscheinlichkeit ist, dass der abfragende Sprecher der Bezugs-Sprecher eines i-ten Spracheinheit-Frame ist, und M die Nummer des Spracheinheit-Frame ist, der aus einem isolierten Wort extrahiert wird.
Verfahren nach Anspruch 19, wobei der Sprecher-Score auf Basis des Gewichts der Spracheinheiten berechnet werden kann, das gemäß der Verifizierbarkeit verliehen wird.
Sprachregistrierungssystem, das zum Erzeugen von Sprechererkennungs-Daten geeignet ist, und das umfasst: eine Stimm-Analysiereinrichtung, die ein Spektrum eines Schallsignals analysiert, das von außen eingegeben wird; eine Stimm-Extrahiereinrichtung, die ein Stimmsignal aus dem Schallsignal extrahiert und vorgegebene Spracheinheiten zum Erkennen eines Sprechers aus dem Stimmsignal extrahiert; eine Stimm-Datenbank, in der Stimmdaten von Bezugs-Sprechern einschließlich der Lautstärke einer Vielzahl von Bezugs-Sprechern gespeichert sind; gekennzeichnet dadurch, dass eine Lautstärken-Bestimmungseinrichtung, die die Lautstärke jeder Spracheinheit bestimmt und auf Basis der Stimm-Datenbank feststellt, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches registrierter Bezugs-Sprecher liegt; eine Lerneinrichtung, die die Spracheinheit lernt, wenn wenigstens eine vorgegebene Anzahl der Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegt; einen Speicher, der Daten über die gelernten Spracheinheiten als Erkennungsdaten für den Sprecher speichert; und eine Steuereinheit, die Funktionen der Stimm-Analysiereinrichtung, der Stimm-Extrahiereinrichtung, der Lautstärke-Bestimmungseinrichtung und der Lerneinrichtung steuert, wenn eine Stimme eingegeben wird, und die die Erkennungsdaten für den Sprecher in dem Speicher speichert.
System nach Anspruch 21, wobei die Stimm-Analysiereinrichtung das Stimm-Signal des Sprechers als ein Spektrum darstellt und das Spektrum komprimiert, indem sie einen Sprechererkennungs-Bereich, in dem der Sprecher zu erkennen ist, Filterreihen in einer vorgegebenen intervallrate zuweist.
System nach Anspruch 22, wobei der Sprechererkennungs-Bereich 0-3 KHz ist und darin die Filterreihen gleichmäßig zugewiesen werden, während über 3 KHz die Intervalle der Filterreihen logarithmisch vergrößert werden.
System nach Anspruch 23, wobei die Stimm-Extrahiereinrichtung eine Vielzahl von Frames herstellt, indem sie das Spektrum in mehrere Teile unterteilt, und aus der Vielzahl von Frames einen Frame, der Phoneme aufweist, die aus Nasalen, Vokalen und Approximanten ausgewählt werden, die relativ viel kontinuierlichen Schall enthalten, als die Spracheinheiten extrahiert.
System nach Anspruch 24, wobei die Lautstärke-Bestimmungseinrichtung einen Energiewert des Frame berechnet, der die Spracheinheit des Spektrums aufweist.
System nach Anspruch 25, wobei die Lautstärke-Bestimmungseinrichtung zuvor maximale und minimale Lautstärke bestimmt, indem sie das Stimm-Spektrum der in der Stimm-Datenbank gespeicherten Bezugs-Sprecher analysiert und indem sie den Energiewert des Frames mit der Spracheinheit berechnet, und bestimmt, ob die Nummer des Frame, der die Lautstärke innerhalb der maximalen und der minimalen Lautstärke aufweist, jenseits einer vorgegebenen Rate liegt.
System nach Anspruch 26, wobei die Stimm-Extrahiereinrichtung eine Vielzahl von Bezugs-Mustern ausbildet, die jeder Spracheinheit der Vielzahl von Bezugs-Sprechern entspricht, und eine Vielzahl von Sprecher-Mustern für jede Spracheinheit der Vielzahl von Sprechern ausbildet; eine Vielzahl von Lerngruppen herstellt, indem sie die Vielzahl von Bezugs-Mustern für jede Spracheinheit eines der Bezugs-Sprecher als eine Lerngruppe anwendet.
System nach Anspruch 27, wobei die Lerneinrichtung eine Muster-Eigenschaft des Sprechers lernt, indem sie die Bezugs-Muster mit den Sprecher-Mustern gemäß einem Backpropagation-Algorithmus vergleicht.
System nach Anspruch 28, wobei in dem Speicher die Vielzahl von Sprecher-Mustern jeder Spracheinheit und die Lautstärke jeder Spracheinheit als Sprechererkennungs-Daten gespeichert werden.
System nach Anspruch 29, wobei die Steuereinheit den Sprecher zum erneuten Äußern auffordert, wenn wenigstens eine vorgegebene Zahl von allen Spracheinheiten des isolierten Worts nicht innerhalb des vorgegebenen Lautstärkebereiches liegt.
Sprecher-Erkennungssystem mit dem erkannt wird, ob ein Sprecher ein registrierter Sprecher ist, wobei es umfasst: eine Stimm-Analysiereinrichtung, die ein Spektrum eines Sprachsignals analysiert, das von äußeren Schallsignalen eingegeben wird; eine Stimm-Extrahiereinrichtung, die Stimm-Signale aus dem eingegebenen Schall auswählt und vorgegebene Spracheinheiten zum Erkennen des Sprechers aus den Stimm-Signalen abstrahiert; gekennzeichnet dadurch, dass eine Lautstärkenbestimmungs-Einrichtung, die die Lautstärke jeder Spracheinheit bestimmt und bestimmt, ob die Lautstärke jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches registrierter Bezugs-Sprecher liegt; eine Einrichtung zum Berechnen eines Sprecher-Score, die einen Sprecher-Score berechnet, indem sie die Wahrscheinlichkeit berechnet, dass die Spracheinheit zu dem Sprecher gehört, und die Wahrscheinlichkeit mittelt; und eine Steuereinheit, die die Einrichtung zum Berechnen des Sprecher-Score so steuert, dass sie den Sprecher-Score berechnet, wenn wenigstens eine vorgegebene Anzahl von allen Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches liegt, und nachweist, dass der Sprecher registriert worden ist, wenn der Sprecher-Score jenseits eines Schwellenwertes liegt, indem sie den berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert vergleicht, der ein vorgegebener minimaler Sprecher-Score zum Bestätigen des registrierten Sprechers ist.
System nach Anspruch 31, wobei der Sprecher-Score aus
hergeleitet werden kann, wobei P(LU_i) ein Score der Wahrscheinlichkeit ist, dass der abfragende Sprecher der Bezugs-Sprecher eines i-ten Spracheinheit-Frame ist, und M die Nummer des Spracheinheit-Frame ist, der aus dem isolierten Wort extrahiert wird.
System nach Anspruch 32, wobei die Einrichtung zum Berechnen des Sprecher-Score auf Basis der Spracheinheiten gemäß Unterscheidung berechnet.