-
GEBIET DER
ERFINDUNG
-
Die
vorliegende Erfindung betrifft ein Verfahren bei einem System zur
Verifizierung/Identifizierung eines Sprechers, das es dem Systemoperator ermöglicht,
die Identität
eines Kunden mit Hilfe von Analyse einer Aufzeichnung der Sprachdaten
des Kunden herauszufinden.
-
STAND DER
TECHNIK
-
Bei
Sprecher-Verifizierungs-Systemen, Systemen für automatische Verifizierung
der Identität
eines Sprechers, ist die Menge von Sprachdaten, die vom Kunden gesammelt
worden ist, eine entscheidende Grenze für die Benutzung. Je mehr Parameter ein
Modell hat, desto besser kann es an gegebene Trainingsdaten angepaßt werden,
gleichzeitig werden aber jedoch mehr und mehr Trainingsdaten (Zeit, die
der Kunde in einer anfänglichen
Phase aufwenden muss) benötigt,
um in zuverlässiger
Weise alle Parameter schätzen
zu können.
-
Ein
Problem in Verbindung mit der Sprecher-Verifizierung besteht daher
darin, ein ausreichend gutes Modell der Stimme des Sprechers zu schaffen
aufgrund von so wenig wie möglich
Sprachdaten, um die Identität
des Kunden mit Hilfe von Analyse der Aufzeichnung der Sprachdaten
des Kunden herauszufinden. Mit Kunde wird hier ein Benutzer irgendeines
Dienstes mit der Notwendigkeit der Prüfung der Berechtigung gemeint.
-
Man
könnte
daher sagen, dass das oben erwähnte
Problem ein Typ von Optimalisierungsproblemen ist, wo es wichtig
ist, die kleinstmögliche
Menge von Sprachdaten zu verwenden, um auf zuverlässige Weise
imstande zu sein, die Identität
des Sprechers zuzuordnen.
-
Das
Ziel der vorliegenden Erfindung ist es daher, das oben erwähnte Problem
zu lösen.
-
EP-A-0
744 734 offenbart ein Sprecher-Verifizierungsverfahren, das Mischungsauflösungsdiskriminierung
verwendet.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Das
oben erwähnte
Ziel wird mit Hilfe eines Verfahrens bei einem Verifizierungs-/Identifizierungssystem
eines Sprechers gelöst,
das im kennzeichnenden Teil von Patentanspruch 1 präsentiert
wird.
-
Die
vorliegende Erfindung hat den Vorteil im Vergleich mit vorbekannten
Verifizierungs-/Identifizierungssystemen eines Sprechers, dass trotz
der Verwendung einer minimalen Menge von Sprachdaten die Identität des Sprechers
schnell herausgefunden werden kann.
-
Weitere
Charakteristiken sind in den Unteransprüchen angegeben.
-
DETAILLIERTE
BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
DER ERFINDUNG
-
In
technischen Zusammenhängen
macht man normalerweise einen Unterschied zwischen Sprecheridentifizierung
und Sprecherverifizierung.
-
Mit
Sprecheridentifizierung meint man dann ein Verifizierungssystem,
bei dem ein Sprecher/eine Sprecherin sich dadurch identifiziert,
dass er/sie nur irgendwelche Sätze
spricht, wobei das Identifizierungssystem die Sprache analysiert
und Charakteristiken der Sprache identifiziert, wodurch die Sprecheridentifizierung
durchgeführt
wird.
-
Mit
Sprecherverifizierung meint man ein Verifizierungssystem, bei dem
die Identität
eines Sprechers dadurch verifiziert wird, dass der Sprecher eine besondere
vorher bestimmte Information spricht (oder mit der Tastatur eingibt),
wobei das Verifizierungssystem direkt die Echtheit der Information
(und Identität)
bestätigt
oder sie zurückweist
(ein Beispiel eines solchen Systems ist ein Geldautomat, in Schweden „Bancomat").
-
Die
beiden Systeme beziehen sich im Wesentlichen auf dieselbe Sache,
das daraus besteht, die Identität
eines Sprechers zu unterscheiden und deutlich herauszufinden.
-
Es
sollte daher bemerkt werden, dass bei der vorliegenden Erfindung
die Konzepte „Sprecherverifizierung" und „Sprecheridentifizierung" gleichgesetzt werden.
-
Die
Erfindung soll in allen Sprecherverifizierungssystemen verwendet
werden, insbesondere in solchen, die bei einem Dienst verwendet
werden, wo man Informationen über
die Benutzer hat.
-
Die
Sprachaufzeichnung kann entweder direkt bei der Ausrüstung, wo
die Verifizierung durchgeführt
wird, durchgeführt
werden oder über
unterschiedliche Medien übertragen
werden. Medium können
Telefon oder andere Telekommunikationsmedien einschließlich Computer
sein.
-
Bei
Sprecherverifizierungssystemen wird heute häufig eine „Wahrscheinlichkeitsnormalisierung" verwendet, das heißt, ein
Typ von Wahrscheinlichkeitsnormalisierung. Im Prinzip arbeiten diese Sprecherverifizierungssysteme
in der folgenden Weise.
-
Es
soll angenommen werden, dass ein Kunde, z. B. Leif, die Absicht
hat, seine Identität
mit Hilfe eines Sprecherverifzierungssystemes zu verifizieren, um
Zugang zu einem gewissen Dienst zu erhalten. In diesem Fall wird
angenommen, dass das Sprachprofil von Leif vorher in einer Datenbank
gespeichert worden ist, die zum Sprecherverifizierungssystem gehört.
-
Wenn
Leif eine Sprachmeldung z. B. über
ein Telefon in der Sprecherverifizierungseinheit spricht, wird das
Sprachprofil gespeichert und analysiert. Die Sprecherverifizierungseinheit
findet heraus, dass die Wahrscheinlichkeit sehr hoch ist, dass Leif
ein Mann ist, der über
40 Jahre alt ist. Zusätzlich
findet die Sprecherverifizierungseinheit heraus, dass Leif Stakkato
spricht. Die Sprecherverifizierungseinheit sucht nun in der Hierarchie
unterschiedlicher Gruppen in der Datenbank und findet eine Gruppe,
die Männer über 40 aufweist,
die Stakkato sprechen.
-
Diese
Gruppe ist ziemlich begrenzt (z. B. 40 Personen), und die Sprecherverifizierungseinheit vergleicht
Leif's gespeichertes
Sprachprofil mit allen Sprachprofilen, die in dieser speziellen
Gruppe gespeichert sind. Mit sehr großer Wahrscheinlichkeit findet
die Sprecherverifizierungseinheit daher Leif's Sprachprofil in dieser Gruppe, woraufhin
die Identifizierung vorgenommen wird.
-
Das
oben erwähnte
Verfahren beruht daher darauf, dass die Sprecherverifizierungseinheit
aufgrund von Wahrscheinlichkeit herausfindet, zu welcher Gruppe
eine Person in einer Datenbank gehört, z. B. Leif. Danach wird
das gespeicherte Sprachprofil mit allen Sprachprofilen in dieser
Gruppe verglichen.
-
Dieses
Verfahren ist natürlich
wesentlich wirksamer, als wenn die Sprecherverifizierungseinheit
unterschiedslos ein gespeichertes Sprachprofil mit allen in der
Datenbank enthaltenen Sprachprofilen vergleichen würde. Dieses
würde eine
sehr große Zeit
benötigen,
wenn die Datenbank z. B. einige tausend Sprachprofile enthält.
-
Die
vorliegende Erfindung ist eine Weiterentwicklung und Verbesserung
des oben erwähnten Verfahrens
und beruht darauf, dass man unter Verwendung eines vorher trainierten
Referenzmodells als Komponenten in einem Sprechermodell von gesammelten
Daten zusätzlich
zu diesen profitieren kann, die ein Sprecher/eine Sprecherin selbst
in seinem/ihrem aufzuzeichnenden Ruf spricht, und dadurch die Länge des
Rufes verringert. Die zentrale Idee der Erfindung besteht darin,
diese Referenzmodelle in einem Satz von Pro-Modellen und Anti-Modellen
zu organisieren. Die Idee besteht darin, dass die Pro-Modelle eine
Qualität
modellieren sollen, die der Kunde hat (z. B. Frau, zwischen 20 und
25 Jahren), und die Anti-Modelle eine Qualität, die der Kunde nicht hat
(z. B. Mann, nicht zwischen 20 und 25 Jahren). Rein mathematisch
erzeugte Referenzmodelle, die normalerweise nicht einer unterscheidbaren
Qualität
des Kunden entsprechen, können
ebenfalls verwendet werden.
-
Komplementäre Sätze von
Pro-Modellen und Anti-Modellen sollten benutzt werden. Wenn die Referenzmodelle
konkreten Qualitäten
des Kunden entsprechen, kann zusätzlich
eine bereits vorhandene Kenntnis verwendet werden, die Auswahl von
Referenzmodellen zu steuern. Die Kenntnis kann auf unterschiedliche
Weise in dem System zugänglich gemacht
werden.
-
Eine
detailliertere Beschreibung wird weiter unten in der Beschreibung
gegeben werden.
-
Bei
Sprecherverifizierungsverbindungen verwendet man, wie dies oben
erwähnt
wurde, „Wahrscheinlichkeitsnormalisierung", wo man den Beitrag von
einem kundenspezifischen Modell mit einem oder mehreren „Weltmodellen" oder „Betrügermodellen" standarisiert, die
mit der oben verwendeten Terminologie Anti-Modelle sind. Das kundenspezifische Modell
entspricht der Funktion fc unten in Gleichung (1).
Die Neuheit in (1) besteht daher darin, die Anti-Modelle mit „komplementären" Pro-Modellen zu kombinieren.
Ob es eine Neuheit ist, generell Verwendung von bereits vorhandener
Kenntnis Gebrauch zu machen, um Bezugsmodelle auszuwählen, ist
zweifelhaft, die Anordnung mit Pro-Modellen und Anti-Modellen dagegen
verträgt
sich gut mit bereits mit vorhandener Kenntnis. Die Theorie der Auswahl
eines optimalen Satzes von Referenzmodellen und einer dazu gehörenden Projektion
ist natürlich
in der Mathematik/Signaltheorie und ist daher für sich genommen keine Neuigkeit,
die Anwendung dieses Denkens in Verbindung mit Sprecherverifizierung
ist jedoch nach unserer Ansicht ganz neu.
-
Im
Folgenden soll die Erfindung detaillierter beschrieben werden.
-
Es
soll ein Sprechermodell so angesehen werden, dass es a) aus Referenzmodellen
und b) einer Projektion auf diese Referenzmodelle besteht. Die Projektion
kann z. B. eine gewichtete Summe von Beiträgen von den Referenzmodellen
(eine lineare Kombination) sein. Zusätzlich kann ein Sprechermodell
natürlich
Modellelemente einschließen,
die ausschließlich
aus Sprachmaterial von dem Kunden/der Kundin selbst gebaut sind
und die keine Referenzmodelle verwenden. Die folgende Beschreibung
konzentriert sich aber auf den Teil, wo irgendeine Form von Referenzmodellen
eingeschlossen ist.
-
Die
Referenzmodelle werden normalerweise aus Sprache in einer Datenbank
trainiert, die in der Designphase des Systems gesammelt ist, das
heißt, bevor
ein Sprecher/eine Sprecherin sich in dem System registriert. Ein
Referenzmodell kann entweder I) eine vorbestimmte Größe (z. B. „weiblicher
Sprecher", „Sprecher
unter 16 Jahren" oder „Ruf von GSM-Telefon") oder II) etwas
modellieren, das durch mathematische Optimierung bestimmt ist und
das dadurch nicht sehr gut mit einer bereits vorhandenen Kenntnis
wie in Fall I) verbunden werden kann.
-
Ordne
die Referenzmodelle in einem Satz mit Pro-Modellen und einem Satz
von Anti-Modellen an und berechne die „Trefferwahrscheinlichkeit" P des gesamten Modells,
so dass Beiträge
von den Pro-Modellen P sich erhöhen
und Beiträge
von den Anti-Modellen
P verringern. Diese Prozedur kann mathematisch gemäß fc (1) ausgedrückt werden, wo fp und
fa Funktionen von Beiträgen der Pro-Modelle bzw. Anti-Modelle
sind und zusammen den Projektionsteil des gesamten Modells bilden.
fc ist eine Funktion von Untermodellen, die auf Daten vom Kunden/von
der Kundin selbst trainiert sind. Man kann auch Verwendung von einer
logarithmischen Variante von (1) machen,
-
-
Wenn
Referenzmodelle entsprechend Fall I verwendet werden, kann man eine
bereits vorhandene Kenntnis über
den Kunden verwenden, um das Sprechermodell des Kunden zu bauen,
z. B. Kenntnis über
das Geschlecht des Sprechers, indem richtige Referenzmodelle ausgewählt werden.
-
Beispiel:
Für einen
männlichen
Sprecher kann man ein Promodell für „männlicher Sprecher" und ein Antimodell
für „weiblicher
Sprecher" auswählen.
-
Auf
diese Weise kann man in einfacher Weise von einer bereits vorhandenen
Kenntnis profitieren, wenn man das Sprechermodell einer Person bildet.
Die Kenntnis wird ein Beitrag zu gesammelten Sprachdaten sein, und
man kann ein besser funktionierendes Modell mit weniger gesammelten
Sprachdaten von dem entsprechenden Kunden machen. Man wählt auf
geeignete Weise komplementäre
Referenzmodelle als Pro-Modelle und Anti-Modelle wie im obigen Beispiel.
Auf diese Weise sollte man ein zuverlässigeres besser ausgewogenes
Modell erhalten, und man kann eine Unterscheidungswirkung dadurch
erhalten, dass die beiden komplementären Modelle in unterschiedlichen
Richtungen „ziehen".
-
Die
oben erwähnte „bereits
vorhandene Kenntnis" kann
in das System in unterschiedlichen Phasen und auf unterschiedliche
Weisen eingeführt werden:
- a) Bei dem (ersten) aufzuzeichnenden Ruf und dadurch
in Verbindung mit Bau des ersten Sprechermodells. Wenn der Kunde/die
Kundin bereits registriert ist und sich daher bei dem System bei der
Registrierung zum Sprecherverifizierungssystem identifiziert, kann
man Kundeninformationen verwenden, die bereits in einer Datenbank
gespeichert ist, z. B. Geschlecht und Alter. Wenn der Kunde/die
Kundin bei dem Dienst noch nicht vorher registriert ist, kann er/sie
seine/ihre zivile Registrierungsnummer bei dem Registrierungsruf präsentieren,
und man kann dann Informationen über
das Geschlecht erhalten, indem man bei der zivilen Registrierungsnummer
nachsieht. Man kann auch während
des Rufes ausdrücklich
nach dem Geschlecht und Alter fragen.
- b) Nach dem ersten aufzuzeichnenden Ruf: Hierbei kann man bereits
die Modelle in Betrieb genommen haben, und es wird eine Frage des
erneuten Bauens des Modells mit neuer Information sein. Die Information
kann z. B. von einem ausgefüllten
und eingesendeten Formular kommen, das der Kunde/die Kundin unterzeichnet,
um es ihm/ihr zu erlauben, mit dem Dienst nach einer anfänglichen
Phase weiter zu arbeiten. Die Anpassung des Sprechermodells und
insbesondere die Änderung
der Turbologie während
seines/ihres Lebenszeitraumes wird in Telias Patentanmeldung Nr.
9602622-4 behandelt, die sich auf „Verfahren und Anordnung zur
Anpassung bei z. B. Sprecherverifizierungssystemen" bezieht und in Fall
520 behandelt ist.
-
Anstatt,
dass man eine reine bereits vorhandene Kenntnis verwendet, kann
man seine Referenzmodelle auswählen,
indem ein optimaler Satz von Referenzmodellen und dazu gehörende Projektionen auf
diese berechnet werden.
-
Das
Obige sollte nur als vorteilhafte Ausführungsform der Erfindung angesehen
werden, und das Ausmaß des
Schutzes der Erfindung wird nur durch das begrenzt, was in den folgenden
Patentansprüchen
angegeben ist.