DE69721395T2

DE69721395T2 - Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation

Info

Publication number: DE69721395T2
Application number: DE69721395T
Authority: DE
Inventors: Erik Sundberg; Hakan Melin
Original assignee: MULTICOM SECURITY AB; MULTICOM SECURITY STOCKHOLM AB
Current assignee: MULTICOM SECURITY AB; MULTICOM SECURITY STOCKHOLM AB
Priority date: 1996-07-01
Filing date: 1997-06-05
Publication date: 2004-03-11
Anticipated expiration: 2017-06-06
Also published as: NO972670D0; EP0817170B1; NO972670L; EP0817170A3; SE9602622L; SE505522C2; DE69721395D1; SE9602622D0; EP0817170A2; US5960392A; NO309549B1; DK0817170T3

Description

GEBIET DER ERFINDUNG
Die vorliegender Erfindung betrifft ein Verfahren und eine Anordnung, um Modelle in Sprecherverifizierungssystem oder ähnlichen Systemen unter Verwendung von Modellen anzupassen, die auf Daten beruhen, die von einer Person während einer gewissen Zeitperiode gesammelt sind. Die gesammelten Daten können sich auf die Physiologie, das Verhalten, das Alter einer Person usw. beziehen. Ein damit zusammenhängendes Gebiet ist z. B. eine an den Sprecher anpaßbare Spracherkennung. In Systemen dieses Typs werden gesammelte Daten mit einem Modell für die Verifizierung der Identität des Sprechers oder Erkennung der Sprache verglichen, um einen Verlauf von Ereignissen in einem Vorgang oder einer Vorrichtung zu steuern. Damit das Modell seine Aufgabe erfüllen kann, muß es mit Sprachdaten trainiert werden. Einfachere Modelle verlangen weniger Training, liefern aber ein weniger zuverlässiges Resultat, während komplexere Modelle ein längeres Training erfordern und ein zuverlässigeres Ergebnis der Verifizierung liefern.
Die Erfindung kann in allen Sprecherverifizierungssystemen angewendet werden, die bei einer Mehrzahl von Gelegenheiten benutzt werden sollen, d. h., daß Sprache der selben Person bei wiederholten Gelegenheit verifiziert werden soll. Wie dies bekannt ist, werden Sprecherverifizierungssysteme verwendet, um Information oder ökonomische Werte zu schützen. Die Erfindung ist eine Alternative zu dem Lösungsweg, PIN-Codes zu verwenden, um einen Benutzer zu identifizieren. Die Sprachaufzeichnung als solche kann entweder direkt bei der Ausrüstung, wo die Verifizierung durchgeführt wird, bewirkt werden, oder wird durch verschiedene Medien übertragen. Das Medium kann Telefonie oder andere Fernmeldemedia sein.
STAND DER TECHNIK
Bei den vorbekannten Sprecherverifizierungssystem ist nur ein Modell verwendet worden mit den speziellen Problemen, die mit dem Modell verknüpft sind. Ist ein einfaches Modell benutzt worden, so hat man eine weniger zuverlässige Verifizierung erhalten. Wenn ein komplexeres Modell verwendet wird, ist andererseits das Problem die lange Trainingsperiode.
Ein weiterer Stand der Technik ist in Dokument EP-A-0 621 532 offenbart, bei dem ein Sprecherverifizierungssystem vorbestimmte Bezugsstimmendateien verwendet, die auf Spracheingaben durch unterschiedliche Personen beruhen, um ein zusammengesetztes Modell eines Sprechers zusammenzusetzen.
Die vorliegende Erfindung löst dieses Problem, indem eine Mehrzahl unterschiedlicher Modelle im selben Sprecherverifizierungssystem verwendet werden. Verifizierung wird mit dem Modell in Betrieb gesetzt, das die geringste Menge von Sprachdaten erfordert. Während der Benutzung werden mehr Sprachdaten dauernd gesammelt. Dieses Material wird verwen det, um dann weiter nur das komplexere Modell oder sowohl das einfachere Modell, das bereits in Betrieb ist, und das komplexere Modell zu trainieren. Zu geeigneten Zeitpunkten werden Vergleiche der Leistung der Modelle durchgeführt. Wenn das komplexere Modell ein zuverlässigeres Verifizierungsergebnis liefert, wird es die Verifizierung in der Betriebssituation übernehmen.
Es wird erkannt, daß aufgrund der Erfindung ein Sprecherverifizierungssystem erhalten wird, das leicht in Betrieb gesetzt werden kann, dann aber allmählich zunehmend zuverlässige Verifizierungsergebnisse liefern wird. Die Erfindung ermäglicht die Verwendung der Vorteile unterschiedlicher Modelle, während gleichzeitig die Wirkung ihrer entsprechenden Nachteile minimalisiert werden. Ohne Benutzung dieser Technik muß man ein Modell mit seinen damit verknüpften Vorteilen und Nachteilen beim Start des Sprecherverifizierungssystems auswählen. Indem man zwischen Modellen wechselt, wird erreicht, daß das System sich dynamisch an die zur Verfügung stehende Menge von Sprachdaten anpaßt. Dies bedeutet einen großen Vorteil gegenüber dem Stand der Technik.
ZUSAMMENFASSUNG DER ERFINDUNG
Die Erfindung, wie sie in den Ansprüchen 1 bis 12 beansprucht wird, schafft also ein Verfahren zum Anpassen eines Modells bei z. B. Sprecherverifizierung, das Modelleinheiten zum Empfangen und Auswerten von Sprache aufweist. Erfindungsgemäß werden Sprachdaten gesammelt, und eine erste Modelleinheit wird in Betrieb gesetzt, während die nachfolgende Modelleinheit mit Sprachdaten trainiert wird, die während des Betriebs der ersten Modelleinheit gesammelt werden. Die Leistungsver mögen der Modelleinheiten werden geprüft und ausgewertet, und eine nachfolgende Modelleinheit wird in Betrieb gesetzt, wenn deren Leistung einen geeigneten Pegel erreicht hat.
Die nachfolgende Modelleinheit kann entweder plötzlich oder allmählich, z. B. unter Verwendung einer Gewichtsfunktion in Betrieb gesetzt werden.
Die Erfindung bezieht sich auch auf eine Anordnung zum Durchführen des Verfahrens.
Die Erfindung ist im Detail in den beigefügten Ansprüchen definiert.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Erfindung wird unten im Detail unter Bezugnahme auf die beigefügte Zeichnung beschrieben, wobei die einzige Figur eine schematische Darstellung einer Ausführungsform der Erfindung ist.
DETALLIERTE BESCHREIBUNG EINER BEVORZUGTEN AUSFÜHRUNGSFORM
In Sprecherverifizierungssystemen, Systemen für die automatische Verifizierung der Identität eines Sprechers, ist die Menge von Sprachdaten, die von dem Benutzer gesammelt werden muß, eine entscheidende Einschränkung der Benutzung. von komplexen Sprechermodellen, die eine große Menge gesammelter Sprachdaten erfordern, kann erwartet werden, daß sie ein besseres Ergebnis ergeben als Modelle, die eine kleine Menge von Trainingsmaterial erfordern. Für eine kleine Menge von Trai ningsmaterial kann jedoch das komplexere Modell ein schlechteres Resultat als das einfachere Modell ergeben.
Komplexe Modelle, die viele Parameter haben, haben ein besseres Leistungsvermögen als einfachere Modelle, wenn die Parameter des Modells richtig geschätzt sind. Für eine richtige Schätzung der Parameter ist jedoch eine große Menge von Trainingsdaten erforderlich. Im Falle, wo die Trainingsdaten eines Modells durch einen Kunden geliefert werden, ist die Menge von Trainingsdaten ein Faktor der Unbequemlichkeit für den Kunden. Schlechtes Leistungsvermögen innerhalb eines Modells wird auch zu Systemfehlern führen, was ein anderer Faktor der Unzweckmäßigkeit für den Kunden ist. Ein Problem, das durch die vorliegende Erfindung gelöst wird, besteht darin, Modelltopologien zu finden, die ein gutes Leistungsvermögen mit einem Minimum von Trainingsdaten haben.
Die Lösung des Problems, die hiermit vorgeschlagen wird, sowohl das Leistungsvermögen des Modells zu maximieren als auch das Erfordernis der Trainingsdaten zu minimieren, bestellt darin, ein Modellsystem zu verwenden, das eine dynamische Topologie hat. Das Modell hat eine Kombination von Modelleinheiten oder Teilen, die ein wechselndes Ausmaß der Komplexität haben. Die effektive Topologie des Modells wird geändert, so daß für eine gegebene Menge von Trainingsdaten die optimale Topologie verwendet wird, beruhend auf der vorgegebenen Modelleinheit. Durch Verwendung dieser Technik wird die wirksame Komplexität des Modells mit der zur Verfügung stehenden Menge von Trainingsdaten anwachsen.
Am Anfang der Dienstlebensdauer des Modells werden die einfachsten Modelleinheiten verwendet, was nur eine kleine Menge von Daten für eine zuverlässige Schätzung von deren Parametern erfordert. Während die Menge der zur Verfügung stehenden Daten anwächst, können nacheinander komplexere Teile trainiert werden.
Sind einmal die Parameter der komplexeren Einheit in zuverlässiger Weise geschätzt, so ist das Leistungsvermögen derselben wahrscheinlich besser als das jenige der einfacheren Einheit, und die Topologie des Modells kann zugunsten der komplexen Einheit geändert werden.
In der einzigen Figur ist ein Sprecherverifizierungssystem in Übereinstimmung mit der vorliegenden Erfindung schematisch dargestellt. Das System weist eine Steuereinheit, die zwei Schalter steuert, und eine Anzahl von Modelleinheiten P₁ bis P_n auf. Einerseits empfängt das System Sprache oder Sprachdaten und liefert Verifizierungsdaten als das Ausgangssignal.
Die verschiedenen Modelleinheiten P₁ bis P_n des Sprechermodells haben unterschiedliche Erfordernisse für Trainingsdaten. Eine Modelleinheit P₁ sollte nur für Überprüfung verwendet werden, wenn sie ausreichend Trainingsdaten empfangen hat. Die Einheiten, die eine kleinere Menge von Daten erfordern, werden früher in Betrieb gesetzt werden, während die anspruchsvolleren Einheiten nicht benutzt werden, bis eine längere Trainingsperiode abgelaufen ist. Auf diese Weise kann das Leistungsvermögen des Sprechermodells zu dessen voller Kapazität hin erweitert werden. Während der Wachstumsperiode kann das Modell immer noch für die Prüfung verwendet werden, indem die einfacheren Modelleinheiten des Sprechermodells verwendet werden.
Die einfacheren Teile können außer Betrieb gesetzt werden, wenn die komplexeren Einheiten ein besseres Leistungsvermögen erreichen.
Die Verschiebung zu neueren Modellen kann über mehrere Generationen bewirkt werden, so daß weiter und weiter fortgeschrittene Modelle, die mehr Sprachdaten erfordern, kontinuierlich in Betrieb gesetzt werden. Auf diese Weise kann das Sprecherprüfsystem erweitert werden, ohne außer Betrieb gesetzt zu werden. Zusätzlich wird in Erwägung gezogen, daß jedes Modell aus mehreren Untermodellen besteht, die auf unterschiedliche Weisen miteinander gewichtet sind, um ein Modell zu definieren.
Wenn das Sprecherverifizierungssystem das allererste Mal in Betrieb gesetzt wird, erfordert es eine kurze Trainingsperiode, um die einfachste Modelleinheit zu trainieren. Die einfachste Modelleinheit kann von von einem Sprecher unabhängigen Muster trainiert werden. Danach wird das Betrieb mit wachsenden Leistungsvermögen in Übereinstimmung mit dem in Betrieb gesetzt, was oben angegeben ist.
Jede Einheit der Sprechermodellhierarchie wird Information speichern müssen, die sich darauf bezieht, wie gut trainiert sie ist. Diese Information kann entweder durch die Modelleinheit selber oder durch irgendein Leistungsvermögenprüfverfahren geliefert werden. Im ersten Fall wird die Information Trainingsniveau genannt, während im letzteren Fall die Information Leistungsvermögensniveau genannt ist. Das Trainingsniveau beruht auf einer angenommenen Vorwegkenntnis, wieviel Trainingsdaten durch die Einheit benötigt werden. Der Unter schied zwischen den beiden Arten von Information besteht darin, daß das Leistungsniveau auf irgendeiner Auswertung von Prüfdaten (einem Datenbanklauf) beruht, während das Trainingsniveau auf gespeicherter Information über verwendete Trainingsdaten beruht. Das Leistungsvermögensniveau kann auf Vergleichen mit anderen Einheiten des Sprechermodells und sogar mit anderen Sprechermodellen verglichen werden.
Schwellwerte für das Trainingsniveau und das Leistungsfähigkeitsniveau müssen in der Steuereinheit geschaffen und gespeichert werden. Im ersten Fall beruht der Schwellwert auf vorher gemachten Annahmen. Im letzten Fall sollte es möglich sein, den Wert des Schwellwertes auf einem Kriterium der Leistungsvermögensanforderungen zu basieren.
Um die Benutzung eines Leistungsvermögenspegels, der auf Datenbanksimulation beruht, zu ermöglichen, ist es notwendig, eine solche Datenbank zu verwalten. Das Sprechermodell sollte auch imstande sein, einen Wert seines gesamten Trainingsniveaus oder Leistungsvermögensniveaus anzugeben. Dieser Wert kann durch Anwendung benutzt werden, um das Wesentlichkeitsniveau einer Entscheidung zu schätzen, die durch das Verifizierungssystem getroffen worden ist.
Das Leistungsvermögen der Modelleinheiten wird in geeigneten Intervallen geprüft, um zu überprüfen, ob sie betrieben werden sollten oder nicht. Dies kann zyklisch oder auf einen besonderen Befehl hin erfolgen.
Die Erfindung wurde unter Bezugnahme auf ein Sprecherverifizierungssystem beschrieben. Wie dies oben erwähnt wurde, kann die Erfindung jedoch ebenso in anderen Systemen verwendet werden, die Modelle verwenden, die auf Daten beruhen, die von einer Person über eine gewisse Zeitperiode gesammelt wurden, z. B. an den Sprecher anpaßbare Spracherkennungssysteme. Die Erfindung ist nur durch die unten aufgeführten Ansprüche begrenzt.

Claims

Verfahren zum Anpassen eines Modells für ein Sprecherverifikationssystem, das eine Mehrzahl von Modelleinheiten zum Empfangen und Auswerten von Sprache aufweist, gekennzeichnet durch Sammeln von Sprachdaten und durch Inbetriebsetzen einer ersten Modelleinheit (P₁) der Mehrzahl von Modelleinheiten, durch Trainieren einer nachfolgenden Modelleinheit (P_n) mit Sprachdaten, die während des Betriebs der ersten Modelleinheit gesammelt worden sind, durch Prüfen und Auswerten der Leistungsfähigkeiten der Modelleinheiten und durch Inbetriebsetzen der nachfolgenden Modelleinheit, sobald deren Leistungsvermögen ein geeignetes Niveau erreicht hat.
Verfahren nach Anspruch 1, gekennzeichnet durch sofortiges Inbetriebsetzen der nachfolgenden Modelleinheit, sobald deren Leistungsvermögen einen vorbestimmten Schwellenwert überschreitet.
Verfahren nach Anspruch 1, gekennzeichnet durch allmähliches Inbetriebsetzen der nachfolgenden Modelleinheit, sobald deren Leistungsvermögen einen entsprechenden Schwellwert einer Mehrzahl von vorbestimmten Schwellwerten überschreitet.
Verfahren nach Anspruch 3, gekennzeichnet durch allmähliches Inbetriebsetzen der nachfolgenden Modelleinheit durch Gewichten der verschiedenen Modelleinheiten mit einer variablen Gewichtsfunktion.
Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch Verbinden einer neuen Modelleinheit als nachfolgendes Modell.
Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch Trainieren aller Modelleinheiten mit gesammelten Sprachdaten.
Verfahren nach einem der Ansprüche 1 bis 6, gekennzeichnet durch Trainieren aller Modelleinheiten mit Ausnahme der in Betrieb befindlichen Modelleinheiten mit gesammelten Sprachdaten.
Vorrichtung zum Anpassen eines Modells für ein Sprecherverifikationssystem, das eine Mehrzahl von Modelleinheiten zum Empfangen und Auswerten von Sprache und eine Steuereinheit aufweist, gekennzeichnet durch einen ersten Schalter zum Richten von Sprachdaten zu den verschiedenen Modelleinheiten (P₁–P_n), einen zweiten Schalter zum Richten von Verifikationsdaten von den verschiedenen Modelleinheiten (P₁–P_n), welche Schalter durch die Steuereinheit so gesteuert werden, daß die Modelleinheiten Sprachdaten sammeln und daß eine erste Modelleinheit (P₁) der Mehrzahl von Modelleinheiten in Betrieb gesetzt wird, eine nachfolgende Modelleinheit (P_n) mit Sprachdaten trainiert wird, die während des Betriebs der ersten Modelleinheit gesammelt sind oder werden, daß das Leistungsvermögen der Modelleinheiten geprüft und ausgewertet wird und daß die nachfolgende Modelleinheit in Betrieb gesetzt wird, sobald deren Leistungsvermögen ein geeignetes Niveau erreicht hat.
Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß ein vorbestimmter Schwellwert in der Steuereinheit gespeichert wird, um die nachfolgende Modelleinheit sofort in Betrieb zu setzen, sobald das Leistungsvermögen derselben den vorbestimmten Schwellwert überschreitet.
Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß eine Mehrzahl von vorbestimmten Schwellwerten in der Steuereinheit gespeichert wird, um die nachfolgende Modelleinheit allmählich in Betrieb zu setzen, sobald deren Leistungsvermögen einen entsprechenden Schwellwert der vorbestimmten Mehrzahl von Schwellwerten überschreitet.
Vorrichtung nach Anspruch 10, dadurch gekennzeichnet, daß die Steuereinheit eine variable Gewichtsfunktion aufweist, um die nachfolgende Modelleinheit allmählich in Betrieb zu setzen, indem die unterschiedlichen Modelle mit der Gewichtsfunktion gewichtet werden.
Vorrichtung nach einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß die Modelleinheit aus Untermodellen oder Teilmodellen besteht.