-
GEBIET DER ERFINDUNG
-
Die
vorliegende Erfindung betrifft im Allgemeinen ein Stimmerkennungsverfahren
und ein Stimmerkennungssystem auf Basis des Stimmregistrierungsverfahrens
und des Stimmregistrierungssystems, die einen Fehler aufgrund der
Lautstärke
der Stimme des Sprechers verhindern, indem unter Berücksichtigung
der Lautstärke
der Stimme des Sprechers Stimmlernen und Stimmerkennung durchgeführt wird.
-
HINTERGRUND DER TECHNIK
-
Im
Allgemeinen wurde ein Sicherheitssystem hauptsächlich für eine nationale Sicherheit
oder eine industrielle Sicherheit verwendet, in der letzten Zeit
wird es jedoch auch für
eine persönliche
Sicherheit und eine Computersicherheit verwendet.
-
Insbesondere
hat die Entwicklung von Computernetzwerksystemen einschließlich des
Internets das Problem mit sich gebracht, dass ein Computernetzwerksystem
zunehmend anfällig
gegenüber
Angriffen wird, und das dementsprechend einzelne Informationen mit
Wahrscheinlichkeit über
die Netzwerkbildung, wie beispielsweise dem elektronischen Handel,
dem Internet und so weiter, hinausgelangen.
-
Um
dieses Problem zu verhindern, wurden in dem Fall eines Computersystems
verschiedene Verfahren entwickelt, mit denen es nur einer bestimmten
Personen gestattet wird, auf das Computersystem zuzugreifen. Die
Verfahren können
in ein Verfahren, das eine ID (Kennung), ein Passwort, einen Zertifizierungsschlüssel und
so weiter verwendet, und in ein Verfahren, das eine biometrische
Eigenschaft verwendet, klassifiziert werden. Die biometrische Eigenschaft
umfasst eine Stimme, einen Fingerabdruck, Linien eines Fingers oder einer
Handfläche,
ein Netzhautmuster und so weiter.
-
Die
Stimme ist ein universales und einfaches Mittel, um die Absicht
eines Menschen auszudrücken. Als
Technologien, die die Stimme verwenden, wurden ein Stimmerken nungssystem
zum Erkennen der Stimme, ein Sprechererkennungssystem zum Erkennen
eines Sprechers, der die Stimme äußert und
so weiter, vorgeschlagen.
-
In
einem Sprechererkennungssystem ist es nicht erforderlich, dass ein
Benutzer eine ID und ein Passwort verwendet, um eine illegale Nutzung
zu verhindern. Des Weiteren sind lediglich eine Soundkarte und ein Mikrofon,
die im Allgemeinen in einem Personalcomputersystem bereitgestellt
sind, erforderlich, um das Sprechererkennungssystem auszuführen. Darüber hinaus
kann in einem Sprechererkennungssystem das Personalcomputersystem
so gesteuert werden, dass es in Reaktion auf die Stimme einer bestimmten
Person arbeitet.
-
Ein
Sprechererkennungssystem kann hinsichtlich eines Erkennungsverfahrens
in eine Sprecheridentifizierung und eine Sprecherverifizierung klassifiziert
werden. Die Aufgabe der Sprecheridentifizierung besteht darin, einen
Sprecher einer eingegebenen Stimme zu identifizieren, und die Aufgabe
der Sprecherverifizierung besteht darin, einen Sprecher zu akzeptieren
oder zurückzuweisen,
indem die Stimme des Sprechers verifiziert wird.
-
Im
Folgenden wird ein allgemeiner Prozess einer Sprechererkennung wie
folgt beschrieben.
-
Zunächst wird,
wenn ein Sprecher seine/ihre Stimme in ein Sprechererkennungssystem
eingibt, um sich selbst zu registrieren, eine Wellenform des eingegebenen
Stimmsignals als ein Spektrum dargestellt. Das Spektrum wird so
analysiert, dass ein isoliertes Wort ausgewählt wird, wodurch die Phoneme
des Wortes abgetastet werden. Hierbei werden die Phoneme so vorgegeben,
dass sie als eine Referenz für
das Erkennen der Stimme verwendet werden. Anschließend erstellt
das Sprechererkennungssystem ein Muster für jedes Phonem eines Sprechers
und vergleicht dieses anschließend
mit Mustern der vorgegebenen Phoneme, wodurch die Eigenschaften
des Sprechers gelernt werden. Wenn das Lernen abgeschlossen ist,
wird das Muster des Sprechers registriert.
-
Wenn
zu einem späteren
Zeitpunkt eine Stimme erneut in das Sprechererkennungssystem eingegeben
wird, erstellt das Sprechererkennungssystem ein Muster auf Basis
der erneut eingegebenen Stimme mittels des voranstehend beschriebenen
Analysiervor ganges, und vergleicht dieses Muster anschließend mit dem
Stimmmuster des registrierten Bezugs-Sprechers, wodurch der Sprecher
akzeptiert oder zurückgewiesen wird.
-
In
einem herkömmlichen
Sprechererkennungssystem wird ein neu erstelltes Muster mit dem
Stimmmuster des registrierten Sprechers verglichen, das in einer
Datenbank gespeichert ist. Die in der Datenbank gespeicherte Stimme
wird jedoch unter Idealbedingungen, wie beispielsweise wenig Störgeräuschen,
einem hocheffizienten Mikrofon, der gleichmäßigen Lautstärke der
Stimme und so weiter, aufgezeichnet, und aus diesem Grund repräsentiert
die in der Datenbank gespeicherte Stimme lediglich ein spezielles
Beispiel der tatsächlichen
Stimme.
-
In
dem Fall, in dem die Stimme eingegeben wird, die unter Bedingungen
geäußert wird,
die sich von der in der Datenbank gespeicherten Stimme unterscheiden,
wird die Leistung des Stimmerkennungssystems beeinflusst. Insbesondere
die Lautstärke
der Stimme übt
einen erheblichen Einfluss auf die Leistung des Systems aus.
-
Dementsprechend
ist es in dem Stimmerkennungssystem in Anbetracht des Einflusses
der Lautstärke der
Stimme erforderlich, ein Lernen der Stimme und eine Sprecherverifizierung
bereitzustellen.
-
In
dem IBM Technical Disclosure Bulletin Bnd. 36 N.06A, Juni 1993,
Seiten 39 bis 40, offenbart die Abhandlung mit dem Titel „Enrollment
Monitors for an Automatic Speech Recognizer" ein Verfahren, mit dem verhindert wird,
dass Signale, die eine Lautstärke
außerhalb
eines Bereiches aufweisen, als Spracherkennungs-Muster registriert
werden, und mit dem der Benutzer darauf aufmerksam gemacht wird,
dass er entweder zu sanft oder zu laut spricht.
-
Die
Patentanmeldung
EP0592150-A1 offenbart
ein Verfahren des dynamischen Schwellenwertes für die Sprecherverifizierung,
um unter anderem das Problem der Nicht-Übereinstimmung
von Lautstärken
zwischen Trainings- und Testäußerungen
zu beheben.
-
Die
Patentanmeldung
WO00/23984 offenbart
ein Verfahren zur Verstärkungsregulierung
zum Anpassen der Lautstärke
eines eingegebenen Stimmsignals in Abhängigkeit von dem gemessenen
Hintergrundgeräuschpegel,
wodurch die Verstärkung
eines Verstärkers
in Übereinstimmung
mit einer Vorhersage des wahrscheinlichen Pegels der Sprachäußerung geändert wird.
-
Die
Patentanmeldung
JP2000-163092
A offenbart ein Verfahren zur Verifizierung von Sprecherphonemen
als Spracheinheiten zum Modellieren der Bezugs-Sprecher.
-
OFFENBARUNG DER ERFINDUNG
-
Dementsprechend
wurde die vorliegende Erfindung in Anbetracht der voranstehend beschriebenen Nachteile
und Bedürfnisse
des Benutzers entwickelt, und es ist eine Aufgabe der vorliegenden
Erfindung, ein Stimmregistrierungsverfahren und ein Stimmregistrierungssystem
nach den Ansprüchen
1 und 21 sowie ein Sprechererkennungsverfahren und ein Sprechererkennungssystem
nach den Ansprüchen
18 und 31 auf Basis des Stimmregistrierungsverfahrens und des Stimmregistrierungssystems,
das einen Sprecher auf genaue Weise verifiziert, indem das Lernen
der Stimme und das Verifizieren des Sprechers unter Berücksichtigung
der Lautstärke
der Stimme durchgeführt
wird.
-
Diese
sowie weitere Aufgaben der vorliegenden Erfindung können durch
das Bereitstellen eines Stimmregistrierungsverfahrens zur Stimmerkennung
erfüllt
werden, wobei das Verfahren die Schritte des Analysierens eines
Spektrums eines Schallsignals, das von außen eingegeben wird; des Extrahierens
von vorgegebenen Spracheinheiten für eine Sprechererkennung aus
einem Stimmsignal in dem Schallsignal; des Messens der Lautstärke jeder
Spracheinheit; des Sammelns von Stimmdaten registrierter Bezugs-Sprecher, die Lautstärkedaten
der Vielzahl von Bezugs-Sprechern als Bezug zu einer Stimm-Datenbank
enthalten; des Bestimmens auf Basis der Stimm-Datenbank, ob die
Lautstärke
jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches
liegt; des Lernens jeder Spracheinheit unter Verwendung eines mehrschichtigen
Perzeptrons, wenn wenigstens eine vorgegebene Anzahl von Spracheinheiten
innerhalb des vorgegebenen Lautstärkebereiches liegt; und des
Speicherns von Daten über
die gelernte Spracheinheit als Daten zum Erkennen des Sprechers.
-
Vorzugsweise
umfasst der Stimm-Analysierschritt die Schritte des Darstellens
des Sprachsignals des Sprechers als ein Spektrum; und des Komprimierens
des Spektrums durch gleichmäßiges Zuweisen
von Filterreihen zu einem Sprechererkennungs-Bereich, in dem Sprachcharakteristiken
des Sprechers zu erkennen sind.
-
Vorzugsweise
ist der Sprechererkennungs-Bereich 0-3 KHz, in dem die Filterreihen
gleichmäßig zugewiesen
werden, während über 3 KHz
die Intervalle der Filterreihen logarithmisch vergrößert werden.
-
Vorzugsweise
umfasst das Verfahren darüber
hinaus den Schritt des Anwendens einer Vielzahl von Phonemen, die
aus Nasalen, Vokalen und Approximanten ausgewählt werden, die relativ viel
kontinuierlichen Schall enthalten, als die Spracheinheiten, wobei
der Schritt des Extrahierens der Spracheinheiten die Schritte des
Herstellens einer Vielzahl von Frames durch Unterteilen des Spektrums
in mehrere Teile sowie des Extrahierens eines Frame aus den Frames
einschließt,
der die Spracheinheit aufweist, umfasst.
-
Vorzugsweise
besteht der Schritt des Messens der Lautstärke aus dem Berechnen eines
Energiewertes des Frame, der die Spracheinheit des Spektrums aufweist.
-
Vorzugsweise
umfasst das Verfahren darüber
hinaus den Schritt des Extrahierens maximaler und minimaler Lautstärke durch
Analysieren des Stimmspektrums der Bezugs-Sprecher, die in der Stimm-Datenbank gespeichert
sind, sowie durch Berechnen des Energiewertes des Frame, der die
Spracheinheit aufweist, wobei der Schritt des Bestimmens der Lautstärke umfasst,
dass bestimmt wird, ob die Anzahl der Frames, die die Lautstärke innerhalb
der maximalen und der minimalen Lautstärke aufweisen, über einem
vorgegebenen Schwellenwert liegt.
-
Vorzugsweise
umfasst das Verfahren darüber
hinaus die Schritte des Ausbildens einer Vielzahl von Bezugs-Mustern
zu jeder Spracheinheit der Vielzahl von Bezugs-Sprechern sowie des
Ausbildens einer Vielzahl von Sprecher-Mustern zu jeder Spracheinheit
der Vielzahl von Sprechern, wobei der Schritt des Lernens den Schritt
des Lernens einer Muster-Charakteristik des Sprechers durch Vergleichen
der Bezugs-Muster mit den Sprecher-Mustern gemäß einem Backpropagation-Algorithmus
einschließt.
-
Vorzugsweise
umfasst das Verfahren darüber
hinaus den Schritt des Herstellens von Lerngruppen, deren Anzahl
der Anzahl von Spracheinheiten der Bezugs-Sprecher ent spricht, durch
Anwenden der Vielzahl von Bezugs-Mustern auf jede Spracheinheit
eines Bezugs-Sprechers aus einer Lerngruppe, wobei der Schritt des
Lernens aus dem Lernen der Muster-Charakteristik des Sprechers durch
Vergleichen der Bezugs-Muster jeder Lerngruppe mit der Vielzahl
der Sprecher-Muster besteht.
-
Vorzugsweise
besteht der Schritt des Speicherns aus dem Speichern der Vielzahl
von Sprecher-Mustern jeder Spracheinheit und der Lautstärke jeder
Spracheinheit als Sprechererkennungsdaten.
-
Vorzugsweise
umfasst das Verfahren darüber
hinaus den Schritt, mit dem der Sprecher zum erneuten Äußern aufgefordert
wird, wenn wenigstens eine vorgegebene Anzahl von Spracheinheiten
nicht innerhalb des vorgegebenen Lautstärkebereiches liegt.
-
In Übereinstimmung
mit einer weiteren Ausführungsform
der vorliegenden Erfindung können
die voranstehend beschriebenen sowie weitere Aufgaben auch durch
Bereitstellen eines Sprechererkennungsverfahrens zum Erkennen, ob
ein Sprecher ein registrierter Sprecher ist, erfüllt werden, wobei das Verfahren
die Schritte des Analysierens eines Spektrums eines Schallsignals,
das von außen
eingegeben wurde; des Extrahierens von vorgegebenen Spracheinheiten
für eine
Sprechererkennung aus einem Stimmsignal in dem Schallsignal; des
Messens der Lautstärke
jeder Spracheinheit; des Bestimmens, ob die Lautstärke jeder
Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches
liegt; des Berechnens eines Sprecher-Score durch Berechnen der Wahrscheinlichkeit,
dass die Spracheinheit zu dem Sprecher gehört, über ein mehrschichtiges Perzeptron
und durch Mitteln der Wahrscheinlichkeit, wenn wenigstens eine vorgegebene
Anzahl von Spracheinheiten innerhalb eines vorgegebenen Lautstärkebereiches
liegt; und des Verifizierens, dass der Sprecher registriert ist,
wenn der Sprecher-Score jenseits eines Schwellenwertes liegt, durch
Vergleichen des berechneten Sprecher-Score mit dem vorgegebenen
Schwellenwert, der ein vorgegebener minimaler Sprecher-Score zum
Verifizieren des registrierten Sprechers ist, umfasst.
-
Vorzugsweise
kann der Sprecher-Score anhand der folgenden Gleichung berechnet
werden:
wobei P(LU
i)
ein Score der Wahrscheinlichkeit ist, dass der abfragende Sprecher
der Bezugs-Sprecher eines i-ten Spracheinheit-Frame ist, und M die
Nummer des Spracheinheit-Frame ist, der aus einem isolierten Wort extrahiert
wird.
-
Darüber hinaus
kann der Sprecher-Score auf Basis des Gewichts der Spracheinheiten
berechnet werden, das gemäß der Verifizierbarkeit
verliehen wird.
-
In Übereinstimmung
mit einem weiteren Aspekt der vorliegenden Erfindung können die
voranstehend beschriebenen sowie weitere Aufgaben auch durch das
Bereitstellen eines Sprachregistrierungssystems, das zum Erzeugen
von Sprechererkennungs-Daten geeignet ist, erfüllt werden, wobei das System
eine Stimm-Analysiereinrichtung, die ein Spektrum eines Schallsignals
analysiert, das von außen
eingegeben wird; eine Stimm-Extrahiereinrichtung,
die ein Stimmsignal aus dem Schallsignal extrahiert und vorgegebene
Spracheinheiten zum Erkennen eines Sprechers aus dem Stimmsignal
extrahiert; eine Stimm-Datenbank, in der Stimmdaten von Bezugs-Sprechern
einschließlich
der Lautstärke
einer Vielzahl von Bezugs-Sprechern gespeichert sind; einer Lautstärken-Bestimmungseinrichtung,
die die Lautstärke
jeder Spracheinheit bestimmt und auf Basis der Stimm-Datenbank feststellt,
ob die Lautstärke
jeder Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches
registrierter Bezugs-Sprecher liegt; eine Lerneinrichtung, die die
Spracheinheit lernt, wenn wenigstens eine minimale Anzahl der Spracheinheiten
innerhalb des vorgegebenen Lautstärkebereiches liegt; einen Speicher,
der Daten über
die gelernten Spracheinheiten als Erkennungsdaten für den Sprecher
speichert; und eine Steuereinheit, die Funktionen der Stimm-Analysiereinrichtung,
der Stimm-Extrahiereinrichtung, der Lautstärken-Bestimmungseinrichtung
und der Lerneinrichtung steuert, wenn eine Stimme eingegeben wird,
und die die Erkennungsdaten für
den Sprecher in dem Speicher speichert, umfasst.
-
In Übereinstimmung
mit einer weiteren Ausführungsform
der vorliegenden Erfindung können
die voranstehend beschriebenen sowie weitere Aufgaben auch durch
das Bereitstellen eines Sprecher-Erkennungssystems zum Erkennen,
ob ein Sprecher ein re gistrierter Sprecher ist, erfüllt werden,
wobei das System eine Stimm-Analysiereinrichtung,
die ein Spektrum eines Stimmsignals analysiert, das von äußeren Schallsignalen eingegeben
wird; eine Stimm-Extrahiereinrichtung, die Stimmsignale aus eingegebenen
Schallsignalen auswählt
und vorgegebene Spracheinheiten zum Erkennen des Sprechers aus den
Stimmsignalen abstrahiert; eine Lautstärken-Bestimmungseinrichtung, die die Lautstärke jeder
Spracheinheit bestimmt und bestimmt, ob die Lautstärke jeder
Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches
liegt; eine Einrichtung zum Berechnen eines Sprecher-Score, die
einen Sprecher-Score
berechnet, indem sie die Wahrscheinlichkeit berechnet, dass die
Spracheinheit zu dem Sprecher gehört, und die Wahrscheinlichkeit
mittelt; und eine Steuereinheit umfasst, die die Einrichtung zum
Berechnen des Sprecher-Score so steuert, dass sie den Sprecher-Score
berechnet, wenn eine minimale Anzahl von allen Spracheinheiten innerhalb
des vorgegebenen Lautstärkebereiches
liegt, und nachweist, dass der Sprecher registriert worden ist,
wenn der Sprecher-Score jenseits eines Schwellenwertes liegt, indem
sie den berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert
vergleicht, der ein vorgegebener minimaler Sprecher-Score zum Bestätigen des
registrierten Sprechers ist.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
Die
vorliegende Erfindung wird besser verständlich und ihre verschiedenen
Aufgaben und Vorteile werden eher offensichtlich, wenn die folgende
Beschreibung im Zusammenhang mit den beigefügten Zeichnungen betrachtet
wird, in denen:
-
1 ein
Blockdiagramm eines Sprechererkennungssystems in Übereinstimmung
mit der vorliegenden Erfindung ist;
-
2 ist
ein Graph, der eine Filterreihe des Sprecher-Erkennungssystems in Übereinstimmung
mit der vorliegenden Erfindung darstellt;
-
3 ist
ein Graph, der eine Rate der Abweichung des mittleren Abstandes
zwischen registrierten Sprechern in Übereinstimmung mit der in 2 dargestellten
Filterreihenzuweisung zeigt;
-
4 ist
ein Graph, der den Grad der Abweichung der registrierten Sprecher
in Übereinstimmung
mit der in 2 dargestellten Filterreihenzuweisung
zeigt;
-
5 ist
ein Ablaufplan, der den Vorgang des Auswählens eines isolierten Wortes
in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden
Erfindung darstellt;
-
6 ist
ein Ablaufplan, der den Vorgang des Registrierens eines Stimmmusters
in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden
Erfindung darstellt; und
-
7 ist
ein Ablaufplan, der den Vorgang des Verifizierens eines Sprechers
in Übereinstimmung
mit der vorliegenden Erfindung darstellt.
-
ARTEN UND WEISEN DES AUSFÜHRENS DER
ERFINDUNG
-
Im
Folgenden wird die vorliegende Erfindung ausführlicher in Bezug auf die beigefügten Zeichnungen beschrieben.
-
In
einem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden
Erfindung wird ein mehrschichtiges Perzeptron MLP (Multilager Perceptron)
zum Abtasten von Kontinuanten und zum Verifizieren eines Sprechers
eigenständig
oder zusammen mit einem HMM (Hidden Markov Model) zum Zeitpunkt
einer Stimmerkennung verwendet. Der Vorteil des MLP besteht darin,
dass es möglich
ist, zu lernen, eine konkurrierende Gruppe zurückzuweisen; dass vorläufige Daten über statistische
Charakteristiken der Stimme nicht erforderlich sind; und dass es
einfach ist, das MLP aufgrund des hohen Grades einer parallelen
Berechnung und Regularität
in Hardware auszuführen.
-
In
der vorliegenden Erfindung wird das MLP zum Verifizieren eines Sprechers
verwendet. Im Folgenden wird, um zu demonstrieren, dass das MLP
beim Verifizieren eines Sprechers verwendet wird, ein stochastisches
Verfahren zum Verifizieren des Sprechers zuerst beschrieben, und
anschließend
wird beschrieben, dass eine Operation des MLP auf dem stochastischen
Verfahren basiert.
-
Bei
der Verifizierung des Sprechers wird das Äußern von Stimme als eine Stichprobe
O definiert, wobei es sich um eine beobachtete Warteschlange handelt,
die in Bezug auf einen Sprecher S durch ein Stimm-Modell M(S) erzeugt
wird. Die Beziehung der eingegebenen Stichprobe O und des Stimm-Modells
M(S) wird als eine a-posteriori-Wahrscheinlichkeit
P(M(S)| O) ausgedrückt.
Ein Verifizierungsprozess V(S) wird durchgeführt, indem die a-posteriori-Wahrscheinlichkeit
P(M(S)| O) mit einem vorgegebenen Schwellenwert θ verglichen wird.
-
-
Gleichung
1 zeigt, dass der Sprecher zurückgewiesen
und akzeptiert wird, wenn die a-posteriori-Wahrscheinlichkeit
jeweils kleiner als und größer als
der Schwellenwert θ ist,
beziehungsweise diesem entspricht.
-
Unter
Verwendung der Bayes-Regel kann eine a-posteriori-Wahrscheinlichkeit
P(M(S)| O) wie folgt dargestellt werden: [Gleichung
2]
-
Da
hierin der Sprecher, der verifiziert werden soll, nicht zu einer
geschlossenen Gruppe sondern zu einer offenen Gruppe gehört, ist
es unmöglich,
auf genaue Weise nicht nur die a-posteriori-Wahrscheinlichkeit P(M(S)|
O), bei der es sich um einen festen Wert in einer geschlossenen
Gruppe handelt, sondern auch die P(O) zu berechnen, wobei es sich
um eine Aussage des Sprechers handelt.
-
-
Demzufolge
kann unter der Bedingung der ungewissen P(M(S)) und P(O) die P(O)|M(S))
nicht zum Berechnen einer a-posteriori-Wahrscheinlichkeit verwendet
werden.
-
Um
das voranstehend beschriebene Problem zu lösen, wurde ein Verfahren vorgeschlagen,
bei dem P(O)|M(S)) mittels eines Vergleiches mit anderen Sprechern,
das heißt,
einem Ähnlichkeits-Score
des abfragenden Sprechers, unter einem Ähnlichkeits-Score von registrierten Bezugs-Sprechern
gemittelt wird. Ein Ähnlichkeitsverhältnis aufgrund
des Vergleiches zwischen dem Sprecher und den Bezugs-Sprechern kann
folgendermaßen
ausgedrückt
werden: [Gleichung
4]
wobei L(O) das Ähnlichkeitsverhältnis ist,
P(O|M(Si)) eine Likelihood-Wahrscheinlichkeit
des abfragenden Sprechers ist und P(O|M(S)) eine Likelihood-Wahrscheinlichkeit
des Bezugs-Sprechers ist.
-
Unter
Verwendung des voranstehend beschriebenen Verfahrens wird die a-posteriori-Wahrscheinlichkeit
P(M(S)| O) geschätzt,
indem die Gleichung 3 ungefähr
berechnet wird, wenn die Gruppe aus Bezugs-Sprechern ausreichend
groß ist,
um jeden abfragenden Sprecher zu repräsentieren.
-
Im
Gegensatz dazu führt
in Übereinstimmung
mit Studien von Gish das MLP das voranstehende mathematische Modell
aus.
-
Unter
der Annahme, dass das MLP eine Funktion von x und θ ist, wobei
x ein eingegebener Merkmalsvektor und θ ein Parameter ist, der das
MLP definiert, sei a eine Zielausgabe, wenn x zu C
enr des
abfragenden Sprechers gehört
und b eine Zielausgabe, wenn x zu C
bg des
Bezugs-Sprechers gehört.
Ein Bezug zum Schätzen
der Effizienz des MLP kann wie folgt mit einem mittleren quadratischen
Fehler ausgedrückt
werden. [Gleichung
5]
wobei N die Anzahl der Stichproben für das Lernen
ist.
-
Wenn
folglich N ausreichend groß ist
und die Anzahl der Stichproben von beiden der Sprechergruppen durch
eine a-priori-Wahrscheinlichkeit der Gruppenverteilung gegeben ist,
kann die obige Summe wie folgt approximiert werden. [Gleichung
6]
wobei p(x,C) eine Dichtefunktion einer Verbundwahrscheinlichkeit
eines Beobachtungsergebnisses und einer Beoabachtungs-Sprechergruppe
ist.
-
-
Unter
Verwendung der Gleichung 7 ergibt sich aus der Gleichung 6 die [Gleichung
8]
-
In
der Gleichung 8 erhält
lediglich der erste Term den auf das MLP bezogenen Parameter. Folglich
ist zum Minimieren von E das Variieren der Parameter von f(x,θ) dasselbe
wie das Minimieren des mittleren quadratischen Fehlers zwischen
einer Ausgabe des MLP und der Zielwahrscheinlichkeit d(x).
-
Beim
Lernen wird, wenn der Vektor [0 1] oder [1 0] für a und b einer Zielausgabe
des MLP wegen als Ersatz verwendet wird, die Gleichung 7 als Gleichung
9 ausgedrückt.
Das bedeutet, dass die a-posteriori-Wahrscheinlichkeit von einer
zwischen beiden der Sprechergruppen der Zielausgabe des MLP wegen
ausgewählt
wird.
-
-
Das
heißt
entsprechend der Gleichung 8, das MLP lernt, sich auf Basis des
mittleren quadratischen Fehlers an die ausgewählte a-posteriori-Wahrscheinlichkeit
anzunähern.
Um diese Erwähnung
zu validieren, muss der mittlere quadratische Fehler verringert
werden, und um den mittleren quadratischen Fehler zu verringern,
muss das MLP eine richtige Struktur aufweisen.
-
Im
Folgenden wird gezeigt, dass eine Operation des MLP den Vorgang
des Abschwächens
der a-posteriori-Wahrscheinlichkeit einschließt. Die Ausgabe des MLP wird
wie folgt mit einer Sigmoidfunktion ausgedrückt. [Gleichung
10]
wobei Z(x,θ)
eine Eingabe der Sigmoidfunktion in einer Ausgabeschicht ist.
-
Eine
inverse Funktion der Gleichung 10 kann wie folgt ausgedrückt werden: [Gleichung
11]
-
Darüber hinaus
kann für
den abfragenden Sprecher, wenn die Ausgabe des MLP als die a-posteriori-Wahrscheinlichkeit
definiert ist, [Gleichung
12]
die Gleichung 11 wie folgt umgeschrieben werden.
-
-
Als
ein Ergebnis kann das Ähnlichkeitsverhältnis der
Gleichung 6 durch das MLP ausgedrückt werden. Das heißt, da das Ähnlichkeitsverhältnis in
dem MLP angewendet werden kann, kann die a-posteriori-Wahrscheinlichkeit
(P(M(S)|0) anhand der Gleichung 3 durch eine Approximation geschätzt werden.
Aus diesem Grund ist unter Verwendung der a-posteriori-Wahrscheinlichkeit
die Sprecherverifizierung in der offenen Gruppe durch das MLP mit
dem Ähnlichkeitsverhältnis möglich.
-
Im
Folgenden wird andererseits das Sprecher-Erkennungssystem in Übereinstimmung
mit der vorliegenden Erfindung, das das MLP anwendet, beschrieben.
-
Wie
dies in 1 dargestellt ist, umfasst das
Sprecher-Erkennungssystem 1 in Übereinstimmung mit der vorliegenden
Erfindung einen lernenden Teil 5 zum Lernen vor der Sprecherregistrierung,
eine Sprecherverifizierungsteil 7 zum Verifizieren des
Sprechers sowie einen Analysierteil 3, der allgemein für die Sprecherregistrierung
und Sprecherverifizierung verwendet wird.
-
Der
Analysierteil 3 umfasst eine Stimm-Analysiereinrichtung 11,
die ein Stimmsignal eines Sprechers analysiert, eine Stimm-Extrahiereinrichtung 13,
die ein Stimmsignal aus dem eingegebenen Schall extrahiert und vorgegebene
Spracheinheiten zum Erkennen eines Sprechers extrahiert, eine Lautstärken-Bestimmungseinrichtung 15,
die die Lautstärke
jeder Spracheinheit bestimmt und misst, ob die Lautstärke jeder
Spracheinheit innerhalb eines vorgegebenen Lautstärkebereiches
liegt.
-
Der
lernende Teil 5 enthält
eine Lerneinrichtung 23, die die Spracheinheiten lernt,
wenn einige der Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches
liegen, einen Speicher 25, der Daten über die gelernten Spracheinheiten
als Erkennungsdaten für
den Sprecher speichert, und eine Stimm-Datenbank 21, in
der die Lautstärke
und die Sprachcharakteristiken des Bezugs-Sprechers, die mit dem
abfragenden Sprecher zu vergleichen sind, gespeichert sind.
-
Der
Sprecherverifizierungsteil 7 enthält eine Einrichtung 31 zum
Berechnen eines Sprecher-Score, die die Wahrscheinlichkeit, dass
die Spracheinheit zu dem Sprecher gehört, über das MLP berechnet, wenn
einige Spracheinheiten innerhalb des vorgegebenen Lautstärkebereiches
liegen, und anschließend
den Sprecher-Score über
das Mittel der Wahrscheinlichkeit berechnet, sowie eine Steuereinheit 33,
die den berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert
vergleicht und verifiziert, dass der Sprecher registriert worden
ist, wenn der Sprecher-Score jenseits des Schwellenwertes liegt.
-
Da
Stimmsignale jedoch nichtlinear sind, ist die Sprechererkennungseffizienz
nicht perfekt. Die Sprechererkennungsrate entsprechend den Resonanzfrequenzbändern des
Stimmsignals wurde durch Christea et al. in der Publikation „New Cepstrum
frequency scale for neural network speaker verification", Proceedings of ICECS'99, 6th IEEE International
Conference an Electronics, Circuits und Systems, 5. bis 8. Sept.
1999, Seiten 1573-1576, gemessen. Als Ergebnis der Messung in dem
Fall der Stimmerkennung für
das Verstehen der Bedeutung der Sprache betrug die Erkennungsrate
mehr als 80 % bei 0,3 KHz-2 KHz, wobei bei der Sprechererkennung
zum Identifizieren, zu wem die Stimme gehört, die Erkennungsrate mehr
als 80 % bei 1,5 KHz-2,7 KHz betrug. Gemäß dem Ergebnis hat Christea
et al. die Sprechererkennungsrate durch Verengen von Filterreihen
bei 1,5 KHz-2,5 KHz im Vergleich zu 0-1,5 KHz verbessert.
-
Wie
dies in 2 dargestellt ist, sind in Übereinstimmung
mit der vorliegenden Erfindung durch Komprimieren des Spektrums
die Intervalle der Filterreihen gleichmäßig bei 0-3 KHz, während über 3 KHz
die Intervalle der Filterreihen logarithmisch vergrößert werden.
Zu diesem Zeitpunkt sind zwei Drittel der fünfzig Filterreihen, ungefähr dreiunddreißig, 0-3
KHz zugewiesen, und die anderen Filterreihen sind logarithmisch über 3 KHz
zugewiesen.
-
Die
Erfinder der vorliegenden Erfindung haben bestätigt, dass das vorangehend
beschriebene Verfahren zum Zuweisen von Filterreihen effizienter
als das Verfahren von Christea et al. bezüglich der Sprechererkennungseffizienz
ist. Im Folgenden wird dies durch einen mittleren Abstand zwischen
den Sprechern, der als Gleichung 1-1 ausgedrückt wird, und den Grad der
Abweichung zwischen Sprechergruppen, der als Gleichung 1-2 ausgedrückt wird,
demonstriert. [Gleichung
1-1]
[Gleichung
1-2]
-
Als
das Ergebnis des mittleren Abstandes zwischen Sprechern und dem
Grad der Abweichung zwischen den Sprechergruppen, die jeweils aus
den Gleichungen 1-1 und 1-2 hergeleitet werden, wenn die Filterreihen
in Übereinstimmung
mit der vorliegenden Erfindung im Vergleich zu dem Verfahren von
Christea et al. zugewiesen werden, beträgt der mittlere Abstand zwischen
den Sprechern jeder Spracheinheit, wie in 3 dargestellt,
20,7 % gemittelter Abstand, und der Grad der Abweichung zwischen
den Sprechergruppen jeder Spracheinheit beträgt, wie in 4 dargestellt,
6,3 % durchschnittliche Verringerung. Im Allgemeinen erhöht sich
die Klassifizierungseffizienz der Spracheinheit proportional zu
dem mittleren Abstand zwischen Sprechern und zu der Verringerung
des Grades der Abweichung der Sprechergruppe, und folglich werden,
wie dies in den 3 und 4 dargestellt
ist, sowohl der mittlere Abstand zwischen Sprechern als auch der
Grad der Abweichung der Sprechergruppe in Übereinstimmung mit der vorliegenden
Erfindung verbessert.
-
Wie
dies vorangehend beschrieben wird, komprimiert in dem Sprecher-Erkennungssystem
in Übereinstimmung
mit der vorliegenden Erfindung die Stimm-Analysiereinrichtung 11 das
Spektrum in dem Zustand, dass Intervalle der Filterreihen gleichmäßig bei
0-3 KHz sind, während
die Intervalle der Filterreihen über
3 KHz logarithmisch vergrößert werden.
Darüber
hinaus unterteilt die Stimm-Analysiereinrichtung 11 das
eingegebene Stimmsignal durch einen vorgegebenen Frame vor dem Komprimieren
des Spektrums, und extrahiert anschließend das Spektrum jedes Frames.
-
In Übereinstimmung
mit der vorliegenden Erfindung werden die Spracheinheiten aus Nasalen,
Vokalen und Approximanten ausgewählt,
die relativ viel kontinuierlichen Schall enthalten, und folglich
werden insgesamt neun Phoneme, /a/, /e/, /v/, /o/, /u/, /eu/, /i/,
/liq/, /nas/, als die Spracheinheiten angewendet. Im Folgenden werden
die vorangehenden Spracheinheiten, die viel kontinuierlichen Schall
aufweisen, als Kontinuanten bezeichnet.
-
Die
Stimm-Extrahiereinrichtung 13 extrahiert Verschlusslaute
(Mutae), die Kontinuanten und stimmlosen Schall aus dem komprimierten
Spektrum und erfasst ein isoliertes Wort. Das isolierte Wort ist
die Einheit einer Sprache, die für
die Sprechererkennung erforderlich ist, wie beispielsweise eine
Phrase, ein Wort, eine Silbe, ein Phonem und so weiter. Die Stimm-Extrahiereinrichtung 13 klassifiziert
die durch die Stimm-Analysiereinrichtung 11 erfassten Frames
in elf Typen des Verschlusslautes, die neun Kontinuanten sowie den stimmlosen
Schall über
ein TDNN (Time-Delay Neural Network), und wendet anschließend ein
Ergebnis von dem TDNN und die Energie jedes Frames auf einen Algorithmus
zum Erfassen des isolierten Wortes an. Hierin enthält das TDNN
zusätzlich
eine Zeitverzögerungsdauer
in Vergleich zu dem MLP.
-
Im
Folgenden wird der Vorgang zum Erfassen des isolierten Wortes in
Bezug auf 5 beschrieben.
-
Zunächst beginnt
der Schall und anschließend
wird bestimmt, ob eine Schalldauer über einer MinSD (Minimum Sound
Duration – Minimale
Schalldauer) liegt. Die MinSD wird als ein Bezug zum Erfassen des
isolierten Wortes verwendet. Wenn die Schalldauer nicht über der
MinSD liegt, wird der Beginn der Äußerung erneut erfasst, während, wenn
die Schalldauer über
der MinSD liegt, erfasst wird, ob Nichtschall begonnen wird. Zu
diesem Zeitpunkt wird, wenn der Nichtschall begonnen wird, bestimmt,
ob eine Nicht-schalldauer über einer MaxNSD
(Maximum Non-Sound Durstion – Maximale
Nicht-schalldauer)
liegt. Wenn die Nichtschalldauer über einer MaxNSD liegt, wird
der Vorgang zum Erfassen des isolierten Wortes unterbrochen.
-
Dementsprechend
kann, wenn das isolierte Wort erfasst wird, der Frame, der die Kontinuanten
einschließt, über das
TDNN von dem isolierten Wort abstrahiert werden. Ein Frame kann
lediglich einen Kontinuant oder eine Vielzahl von Kontinuanten einschließen. Anschließend wird
der Frame, der die Kontinuanten einschließt, erneut analysiert und kann
folglich als Sprecher-Muster jedes Kontinuanten für die Sprechererkennung
und die Sprecherverifizierung verwendet werden.
-
Wenn
dementsprechend der Frame, der die Kontinuanten enthält, extrahiert
wird, berechnet die Lautstärken-Bestimmungseinrichtung 15 andererseits
einen Energiewert des Kontinuantenspektrums und bestimmt die Lautstärke davon.
Darüber
hinaus bestimmt die Lautstärken-Bestimmungseinrichtung 15,
ob die Lautstärke
des abfragenden Sprechers bei der Sprecherregistrierung verwendet
werden kann, indem sie mit der Lautstärke des Bezugs-Sprechers, die
zuvor in der Stimm-Datenbank 21 gespeichert wurde, verglichen wird.
-
Die
Stimm-Datenbank
21 ist eine Sammlung von Daten über die
Stimmen einer großen
Anzahl von Bezugs-Sprechern, die mit den abfragenden Sprechern zu
vergleichen sind, und in ihr werden die maximale und minimale Lautstärke jedes
Kontinuanten der Bezugs-Sprecher zuvor gespeichert. An dieser Stelle
kann die Lautstärke
jedes Kontinuanten jedes Bezugs-Sprechers mit dem Energiewert jedes
Kontinuanten berechnet und folgendermaßen ausgedrückt werden. [Gleichung
1-3]
wobei S eine Stimmprobe ist, P ein Kontinuant
ist, M die Anzahl der Stimmproben in dem Frame ist und N eine Frame-Nummer
ist.
-
Unter
Verwendung von Gleichung 1-3 wird bestimmt, ob der Frame des abfragenden
Sprechers, der die Kontinuanten enthält, zwischen der maximalen
und der minimalen Lautstärke
der Bezugs-Sprecher liegt. Zu diesem Zeitpunkt kann der Frame, der
die Kontinuanten enthält,
durch zwei Verfahren registriert werden. Ein Verfahren ist, dass
ohne Rücksicht
auf den Gesamt-Frame der isolierten Wörter, die aus der Stimme des abfragenden
Sprechers extrahiert wurden, lediglich die Frames, die zwischen
der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegen,
registriert werden dürfen.
Das andere Verfahren besteht darin, dass, wenn die Frames, die zwischen
der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegen, über dem
vorgegebenen Prozentsatz liegen, die Frames registriert werden dürfen. Im
Allgemeinen ist, da die Kontinuanten eines langen Wortes durch eine
unterschiedliche Lautstärke
entsprechend dem Akzent und der Grammatik geäußert werden, das letztere Verfahren
unter Berücksichtigung
einer durchschnittlichen Lautstärke
von Gesamt-Frames des isolierten Wortes erstrebenswert.
-
Demgegenüber wird
die in der vorliegenden Erfindung verwendete Stimm-Datenbank 21 für einen
Effizienztest gemeinsam von dem Korea Institute of Technology und
der Kwangwoon University untersucht. Die Stimm-Datenbank 21 verfügt über einen Äuße rungs-Katalog,
der eine einzelne Zahl, ein Demonstrativwort, eine vierstellige
Zahl, einen kurzen Satz und ein PWB (Phone Balanced Word – phonausgeglichenes
Wort) enthält.
In Übereinstimmung
mit der vorliegenden Erfindung werden das PWB und die vierstellige
Zahl jeweils in dem TDNN zu Erkennen der Kontinuanten und in dem
MLP zum Verifizieren der Sprecher verwendet.
-
Wenn
der Frame, der die Kontinuanten enthält, durch Bestimmen der Lautstärke registriert
werden darf, bildet die Stimm-Extrahiereinrichtung 13 eine
Vielzahl von Sprecher-Mustern
entsprechend jeder Spracheinheit eines Sprechers aus. Die Sprecher-Muster,
die jeder Spracheinheit von Bezugs-Sprechern entsprechen, werden
zuvor in der Stimm-Datenbank 21 gespeichert.
-
Um
einen Sprecher zu registrieren, wird eine Vorlage für ein Registrierungswort,
das dem isolierten Wort entspricht, ausgebildet und gespeichert,
und das Lernen entsprechend den Kontinuanten wird durch das MLP
durchgeführt.
Um das Registrierungswort durch eine Vorlage als eine Einheit zu
speichern, sind 2 bis 3 Vorlagen für ein Wort erforderlich. Folglich
muss der abfragende Sprecher zum Zeitpunkt der Sprecherregistrierung
dasselbe Wort mehrere Male äußern.
-
Bei
dem herkömmlichen
Lernen der Kontinuanten für
die Sprecherregistrierung werden die Muster des abfragenden Sprechers
für jedes
Bezugs-Sprecher-Muster gelernt, und dies wird als eine Epoche bezeichnet. In
dem Fall des Lernens eines Bezugs-Musters durch eine Epoche wird,
da ein Lernunterbrechungs-Bezug auf jeden Bezugs-Sprecher angewendet
wird, die Unterscheidungsrate zwischen dem abfragenden Sprecher
und dem Bezugs-Sprecher, der ein Muster aufweist, das dem des abfragenden
Sprechers ähnlich
ist, verringert. Hierin ist der Lernunterbrechungs-Bezug eine vorgegebene
aprioristische Änderungsrate.
Die vorgegebene aprioristische Änderungsrate
ist ein mittlerer quadratischer Fehler, der als ein Bezug zum Bestimmen
dafür angewendet
wird, ob das Lernen über
das MLP ausreichend ist oder nicht, und der durch Experimentieren
bestimmt wird. Der mittlere quadratische Fehler drückt den
Bereich eines Fehlers aus, der zwischen den Bezugs-Sprechern ausgetreten
ist.
-
Das
heißt,
wenn sich die mittlere quadratische Fehlerrate einer vorgegebenen
aprioristischen Änderungsrate
im Verlauf des Lernens durch Vergleichen des abfragenden Spre chers
mit dem Bezugs-Sprecher annähert,
unterbricht die Lerneinrichtung 23 das Lernen. Da jedoch
die aprioristische Festsetzungsrate lediglich ein experimenteller
Wert ist, kann es möglich
sein, dass der Bezugs-Sprecher den Fehlereintrittsbereich aufweist,
der kleiner ist als die aprioristische Änderungsrate. Wenn folglich
der Bereich eines zwischen dem Bezugs-Sprecher und dem abfragenden
Sprecher eingetretenen Fehlers kleiner als eine aprioristische Festsetzungsrate
ist, wird die Verifizierbarkeit verringert, wodurch eine Falschakzeptanz-(False
Acceptance – FA) Rate
erhöht
wird. Die Falschakzeptanzrate drückt
die Rate des falschen Akzeptierens eines nicht registrierten Sprechers
aus, und wenn ein System den nicht registrierten Sprecher akzeptiert,
ist es wahrscheinlich, dass Informationen des Systems durch einen
Betrüger
bekannt werden, so dass die falsche Akzeptanz verringert werden
muss.
-
In Übereinstimmung
mit der vorliegenden Erfindung wird, um die Sprecher-Charakteristiken
korrekt zu lernen, eine Vielzahl von Bezugs-Mustern, die entsprechend
jedem Kontinuant eines Bezugs-Sprechers ausgebildet sind, als eine
Lerngruppe angewendet. Folglich hat, da jeder Kontinuant die Lerngruppe
ausbildet, jeder Bezugs-Sprecher
jeweils die Vielzahl von Lerngruppen. Das heißt, wenn ein Bezugs-Sprecher
neun Kontinuanten aufweist und jeder Kontinuant zehn Bezugs-Muster
aufweist, hat ein Bezugs-Sprecher neun Lerngruppen, die jeweils
zehn Bezugs-Muster enthalten.
-
Unter
Verwendung des MLP vergleicht die Lerneinrichtung 23 die
Bezugs-Muster jedes Bezugs-Sprechers mit der Vielzahl von Mustern
des abfragenden Sprechers und lernt die Muster-Eigenschaft des abfragenden
Sprechers gemäß einem
Backpropagation-Algorithmus.
Hierin wird, da das eine Lernen durch Vergleichen der Bezugs-Muster
jedes Bezugs-Sprechers mit der Vielzahl von Mustern des befragenden
Sprechers als die Epoche bezeichnet wird, ein Lernen durch Vergleichen
eines der Lerngruppen des Bezugs-Sprechers mit einem der Muster
des abfragenden Sprechers als Unter-Epoche bezeichnet.
-
Folglich
durchläuft
das Muster des abfragenden Sprechers eine Vielzahl von Unter-Epochen gegen die
Bezugs-Muster des Bezugs-Sprechers. Beim Durchlaufen der Vielzahl
von Unter-Epochen werden die Bezugs-Muster jedes Bezugs-Sprechers
mit den Mustern des abfragenden Sprechers verglichen. Hierbei gilt,
je ähnlicher
das Bezugs-Muster
des Bezugs-Sprechers den Mustern des abfragenden Sprechers ist,
desto mehr wird das Lernen wiederholt. Folglich wird die Unterscheidung
des Musters zwischen dem abfragenden Sprecher und dem Bezugs-Sprecher
erhöht.
-
Im
Anschluss daran werden die gelernten Muster in dem Speicher 25 gespeichert
und als ein Bezugs-Wert verwendet, wenn die Stimme des abfragenden
Sprechers erneut eingegeben wird.
-
Im
Folgenden wird andererseits der Vorgang des Verifizierens eines
Sprechers beschrieben. Wenn der abfragende Sprecher seine/ihre Stimme
eingibt, bestimmt die Lautstärken-Bestimmungseinrichtung
15,
ob eine minimale vorgegebene Anzahl von allen Spracheinheiten des
isolierten Wortes innerhalb des vorgegebenen Lautstärkebereiches
liegt. Wenn das eingegebene isolierte Wort nicht innerhalb des vorgegebenen
Lautstärkebereiches
liegt, wird der abfragende Sprecher aufgefordert, seine/ihre Stimme
erneut einzugeben. Wenn andererseits das eingegebene isolierte Wort
innerhalb des vorgegebenen Lautstärkebereiches liegt, wird durch
einen DTW-(Dynamic Time Warping) Algorithmus bestimmt, ob das isolierte
Wort und die Registrierungswortvorlage einander identisch sind.
Anschließend
wird, wenn das eingegebene isolierte Wort und die gespeicherte Registrierungswortvorlage
einander identisch sind, der Sprecher-Score durch Eingeben des gelernten
Sprecher-Musters der durch das MLP abstrahierten Kontinuanten berechnet.
Der Sprecher-Score wird aus der Gleichung 1-4 hergeleitet. [Gleichung
1-4]
![Figure 00220001](https://patentimages.storage.googleapis.com/be/1f/cb/d5778a11ac795d/00220001.png)
wobei P(LUi) ein Score der Wahrscheinlichkeit
ist, dass der abfragende Sprecher der Bezugs-Sprecher eines i-ten
Spracheinheit-Frame ist, und M die Nummer des Spracheinheit-Frame
ist, der aus dem isolierten Wort extrahiert wird.
-
Der
Sprecher-Score kann durch Legen eines gewichteten Wertes auf die
Kontinunaten guter Unterscheidung berechnet werden.
-
Im
Anschluss daran wird der berechnete Sprecher-Score mit dem vorgegebenen
Schwellenwert verglichen, und wenn der berechnete Sprecher-Score
jenseits des Schwellenwertes liegt, wird die eingegebene Stimme
als die Stimme eines registrierten Sprechers bestimmt, wodurch die
Stimme akzeptiert wird. Hierin ist der Schwellenwert ein minimaler
Sprecher-Score, um zu verifizieren, dass die eingegebene Stimme
die Stimme des registrierten Sprechers ist, und wird als ein Wert
bestimmt, der lediglich eine Falschrückweisungs-(False Rejection)
Rate minimiert, da die Verifizierung des Registrierungswortes bei
der Sprecherverifizierung nicht von Bedeutung ist. Die Falschrückweisungsrate
drückt
die Rate des falschen Zurückweisens
des registrierten Sprechers aus.
-
Mit
dieser Konfiguration in dem Sprecher-Erkennungssystem in Übereinstimmung
mit der vorliegenden Erfindung wird im Folgenden in Bezug auf 6 der
Vorgang des Registrierens einer Stimme beschrieben.
-
Zunächst unterteilt
die Stimm-Analysiereinrichtung 11, wenn der abfragende
Sprecher seine/ihre Stimme eingibt (S10), das eingegebene Sprachsignal
durch einen vorgegebenen Frame (S20), stellt es als ein Spektrum
dar (S30) und komprimiert das Spektrum durch die Filterreihe, wodurch
das isolierte Wort ausgewählt
wird (S40). Anschließend
wählt die
Stimm-Extrahiereinrichtung 13 den Frame, der die Spracheinheit
aufweist, von den Frames des isolierten Wortes aus (S50). Die Lautstärken-Bestimmungseinrichtung 15 bestimmt die
Lautstärke
der Spracheinheit (S60) und bestimmt, ob die Lautstärke zwischen
der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt
(S70). An dieser Stelle fordert die Steuereinheit 33, wenn
die Lautstärke
des abfragenden Sprechers nicht zwischen der maximalen und der minimalen
Lautstärke
der Bezugs-Sprecher liegt, den abfragenden Sprecher auf, seine/ihre
Stimme erneut einzugeben (S75).
-
Wenn
demgegenüber
die Lautstärke
der Spracheinheit des abfragenden Sprechers zwischen der maximalen
und der minimalen Lautstärke
der Bezugs-Sprecher liegt, wird das Muster jeder Spracheinheit des
abfragenden Sprechers erstellt (S80). Darüber hinaus vergleicht die Lerneinrichtung 23 die
Bezugs-Muster jedes Bezugs-Sprechers mit den Mustern des abfragenden
Sprechers und lernt die Muster-Eigenschaft des abfragenden Sprechers
mit dem MLP (S90). Hierin werden die Bezugs-Muster des Bezugs-Sprechers in
die Vielzahl von Lerngruppen gemäß jeder
Spracheinheit klassifiziert, und alle Muster des abfragenden Sprechers werden
mit den Bezugs-Mustern der Bezugs-Sprecher entsprechend der Spracheinheit
verglichen. Anschließend
werden, wenn das Lernen abgeschlossen ist, die verglichenen Muster
und die Lautstärke
des abfragenden Sprechers registriert (S100).
-
Im
Folgenden wird darüber
hinaus der Vorgang der Sprecherverifizierung, der verifiziert, ob
die Stimme des abfragenden Sprechers die registrierte Stimme ist
oder nicht, in Bezug auf 7 beschrieben.
-
Zunächst unterteilt
die Stimm-Analysiereinrichtung 11, wenn der abfragende
Sprecher seine/ihre Stimme eingibt (P10), das eingegebene Sprachsignal
durch einen vorgegebenen Frame (P20), stellt es als ein Spektrum
dar (P30) und wählt
das isolierte Wort aus (P40). Anschließend wählt die Stimm-Extrahiereinrichtung 13 den
Frame, der die Spracheinheit aufweist, von den Frames des isolierten
Wortes aus (P50). Die Lautstärken-Bestimmungseinrichtung 15 bestimmt
die Lautstärke
der Spracheinheit (P60) und bestimmt, ob die Lautstärke zwischen
der maximalen und der minimalen Lautstärke der Bezugs-Sprecher liegt
(P70). An dieser Stelle fordert die Steuereinheit 33, wenn
die Lautstärke
der Spracheinheit des abfragenden Sprechers nicht zwischen der maximalen
und der minimalen Lautstärke
der Bezugs-Sprecher liegt, den abfragenden Sprecher auf, seine/ihre
Stimme erneut einzugeben (P75), während, wenn die Lautstärke jeder
Spracheinheit des abfragenden Sprechers zwischen der maximalen und
der minimalen Lautstärke
der Bezugs-Sprecher liegt, die Einrichtung 31 zum Berechnen
des Sprecher-Score
den Sprecher-Score jeder Spracheinheit mit dem MLP berechnet (P80).
Im Anschluss daran vergleicht die Steuereinheit 33 den
berechneten Sprecher-Score mit dem vorgegebenen Schwellenwert (P90)
und verifiziert, dass der abfragende Sprecher registriert wurde,
wenn der Sprecher-Score jenseits des Schwellenwertes liegt, wodurch
der abfragende Sprecher akzeptiert wird (P100). Wenn demgegenüber der
Sprecher-Score unterhalb des Schwellenwertes liegt, verifiziert
die Steuereinheit 33, dass der abfragende Sprecher nicht
registriert wurde, wodurch der abfragende Sprecher zurückgewiesen
wird (P105).
-
Die
im Folgenden aufgeführten
Tabellen 4 bis 6 zeigen das Ergebnis der Sprecherregistrierung unter Verwendung
des Stimmregistrierungssystems
1 in Übereinstimmung mit der vorliegenden
Erfindung, wobei sich der abfragende Sprecher jeweils mit 180 %,
140 %, 120 %, 100 %, 80 % Lautstärke äußerst, nachdem
er jeweils mit 180 %, 140 %, 120 %, 100 %, 80 % Lautstärke registriert
wurde. Die Tabellen 1 bis 3 zeigen jeweils die Falschrückweisung,
die Falschakzeptanz und die Akzeptanz eines isolierten Wortes in
dem herkömmlichen Spracherkennungssystem.
Darüber
hinaus zeigen die Tabellen 4 bis 6 jeweils die Falschrückweisung,
die Falschakzeptanz und die Akzeptanz eines isolierten Wortes in
dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden
Erfindung. Hierin bezeichnet die Falschrückweisung die Rate des falschen
Zurückweisens
des registrierten Sprechers, und die Akzeptanz des isolierten Wortes
bezeichnet die Rate der Akzeptanz, wenn der abfragende Sprecher
das Registrierungswort des Bezugs-Sprechers äußert. [Tabelle 1] Falschrückweisung in dem herkömmlichen
Sprecher-Erkennungssystem.
Verifizierung Lernen | 180
% | 140
% | 120
% | 100
% | 80
% |
180
% | 0,78 | 7,67 | 24,02 | 71,23 | 47,29 |
140
% | 1,28 | 1,79 | 4,67 | 34,71 | 19,24 |
120
% | 3,58 | 2,21 | 2,80 | 17,53 | 12,67 |
100
% | 30,91 | 20,86 | 14,23 | 2,79 | 34,59 |
80
% | 11,64 | 8,49 | 9,95 | 34,74 | 3,59 |
[Tabelle 2] Falschakzeptanz in dem herkömmlichen
Sprecher-Erkennungssystem.
Verifizierung Lernen | 180
% | 140
% | 120
% | 100
% | 80
% |
180
% | 25,17 | 12,47 | 7,38 | 2,41 | 6,99 |
140
% | 19,19 | 12,11 | 8,82 | 3,39 | 8,26 |
120
% | 14,13 | 10,26 | 8,26 | 3,95 | 7,34 |
100
% | 3,91 | 2,97 | 2,79 | 2,79 | 2,49 |
80
% | 14,45 | 10,61 | 8,17 | 3,47 | 12,91 |
[Tabelle 3] Akzeptanz des isolierten Wortes
in dem herkömmlichen
Sprecher-Erkennungssystem.
Verifizierung Lernen | 180
% | 140
% | 120
% | 100
% | 80
% |
180
% | 99,73 | 99,52 | 99,19 | 99,45 | 97,19 |
140
% | 99,70 | 99,71 | 99,38 | 99,73 | 99,67 |
120
% | 99,62 | 99,67 | 99,34 | 99,71 | 97,67 |
100
% | 99,40 | 99,55 | 99,26 | 99,68 | 97,53 |
80
% | 98,89 | 99,02 | 98,82 | 99,14 | 96,86 |
[Tabelle 4] Falschrückweisung in dem Sprecher-Erkennungssystem
in Übereinstimmung
mit der vorliegenden Erfindung.
Verifizierung Lernen | 180
% | 140
% | 120
% | 100
% | 80
% |
180
% | 1,22 | 10,19 | 31,08 | 74,07 | 48,30 |
140
% | 2,23 | 2,25 | 6,16 | 37,37 | 18,14 |
120
% | 4,07 | 2,65 | 3,29 | 2,97 | 10,64 |
100
% | 34,04 | 22,59 | 16,05 | 2,70 | 32,27 |
80
% | 11,57 | 7,84 | 9,20 | 33,44 | 3,26 |
-
Wie
dies in Tabelle 4 dargestellt ist, wird, je ähnlicher die abfragende Lautstärke der
Lernlautstärke
ist, die Falschrückweisung
desto mehr verringert, und je unterschiedlicher die abfragende Lautstärke zu der
Lernlautstärke
ist, desto mehr wird die Falschrückweisung
erhöht.
Die Falschrückweisung
wird insbesondere in dem Fall maximiert, in dem die Lernlautstärke höher und
die abfragende Lautstärke
geringer ist. [Tabelle 5] Falschakzeptanz in dem Sprecher-Erkennungssystem
in Übereinstimmung
mit der vorliegenden Erfindung.
Verifizierung Lernen | 180
% | 140
% | 120
% | 100
% | 80
% |
180
% | 23,16 | 12,08 | 7,35 | 2,41 | 7,26 |
140
% | 17,08 | 11,58 | 8,23 | 3,19 | 8,98 |
120
% | 12,72 | 9,72 | 7,72 | 8,46 | 8,15 |
100
% | 3,35 | 2,75 | 2,56 | 2,71 | 2,61 |
80
% | 13,38 | 10,05 | 7,66 | 3,26 | 11,85 |
-
Wie
dies in Tabelle 5 dargestellt ist, wird die Falschakzeptanz, die
die Rate des falschen Akzeptierens des nicht registrierten Sprechers
bezeichnet, in dem Fall von 100 % Lern- oder abfragender Lautstärke minimiert.
In dem anderen Fall wird die Falschakzeptanz erhöht. Im Vergleich zu der Tabelle
2 zeigt die Tabelle 5, dass die Falschakzeptanz des Sprecher-Erkennungssystems
1 in Übereinstimmung
mit der vorliegenden Erfindung insgesamt verbessert wird. [Tabelle 6] Akzeptanz des isolierten Wortes
in dem Sprecher-Erkennungssystem in Übereinstimmung mit der vorliegenden
Erfindung.
Verifizierung Lernen | 180
% | 140
% | 120
% | 100
% | 80
% |
180
% | 46,41 | 56,89 | 59,32 | 60,44 | 58,68 |
140
% | 57,28 | 75,91 | 80,43 | 82,89 | 81,09 |
120
% | 60,04 | 81,66 | 87,70 | 87,70 | 89,42 |
100
% | 60,54 | 82,91 | 90,33 | 94,63 | 93,04 |
80
% | 59,19 | 80,77 | 88,10 | 92,33 | 90,92 |
-
Wie
dies in Tabelle 6 dargestellt ist, wird die Akzeptanz des isolierten
Wortes in dem Fall der 180 % Lern- und abfragenden Lautstärke minimiert.
Verglichen mit der Tabelle 3 zeigt die Tabelle 6, dass die Akzeptanz
des isolierten Wortes des Sprecher-Erkennungssystems 1 in Übereinstimmung
mit der vorliegenden Erfindung insgesamt verringert wird. Folglich
kann der registrierte Sprecher am genausten verifiziert werden,
indem dem abfragenden Sprecher ermöglicht wird, sich erneut zu äußern, wenn
der abfragende Sprecher sich mit unzureichender Lautstärke äußert.
-
Wie
dies vorangehend beschrieben ist, wird in dem Sprecher-Erkennungssystem 1 der
vorliegenden Erfindung beim Lernen der Stimme bestimmt, ob die Stimme
des abfragenden Sprechers innerhalb des vorgegebenen Lautstärkebereiches
der Bezugs-Sprecher
liegt, und es wird lediglich die Stimme innerhalb des vorgegebenen
Lautstärkebereiches
analysiert, wodurch das Sprecher-Muster ausgebildet wird. Darüber hinaus
wird bei der Sprecherverifizierung bestimmt, ob die Stimme des abfragenden
Sprechers innerhalb des vorgegebenen Lautstärkebereiches der Bezugs-Sprecher
liegt, und es werden die Sprecher-Scores lediglich der Stimmen innerhalb
des vorgegebenen Lautstärkebereiches
berechnet, wodurch der abfragende Sprecher zurückgewiesen oder akzeptiert
wird.
-
Wie
dies vorangehend beschrieben wird, ist die Erkennung in dem Sprecher-Erkennungssystem 1 in Übereinstimmung
mit der vorliegenden Erfindung mit 100 % Lautstärke beim Lernen und beim Verifizieren
am effizientesten, und je mehr die Lautstärke von 100 % verschieden ist,
desto mehr wird die Erkennungseffizienz verringert.
-
Das
heißt,
in dem herkömmlichen
Sprecher-Erkennungssystem korrelieren die Erkennungseffizienz und
die Lautstärke
nicht miteinander, in dem Sprecher-Erkennungssystem in Übereinstimmung mit der Erfindung
jedoch wird die Akzeptanz des isolierten Wortes proportional zu
einem Anstieg des Lautstärkeunterschiedes
zwi schen den abfragenden und den lernenden Sprechern verringert,
um dadurch zu bewirken, dass sich der abfragende Sprecher erneut äußert. Folglich
wird die Falschakzeptanz, die die Rate des falschen Akzeptierens
des nicht registrierten Sprechers ausdrückt, verringert, und der abfragende
Sprecher hat die Möglichkeit,
sich erneut zu äußern, wenn
seine/ihre Stimme nicht innerhalb des vorgegebenen Lautstärkebereiches der
Bezugs-Sprecher liegt, wodurch das Vertrauen in das Sprecher-Erkennungssystem
verbessert wird.
-
Wie
dies vorangehend beschrieben ist, wird in Übereinstimmung mit der vorliegenden
Erfindung die Lautstärke
eines Sprechers beim Lernen zum Registrieren seiner/ihrer Stimme
sowie beim Verifizieren eines Sprechers berücksichtigt, so dass es möglich ist,
den Sprecher genauer zu verifizieren.
-
Obwohl
die bevorzugten Ausführungsformen
der vorliegenden Erfindung zu illustrativen Zwecken offenbart wurden,
ist es für
Personen mit gewöhnlicher
Erfahrung auf dem Gebiet der Technik offensichtlich, dass verschiedene
Modifizierungen, Ergänzungen
und Ersetzungen möglich
sind, ohne von dem in den angehängten
Patentansprüchen
offenbarten Umfang der Erfindung abzuweichen.