DE69828888T2

DE69828888T2 - Sprecherbeweissystem

Info

Publication number: DE69828888T2
Application number: DE69828888T
Authority: DE
Inventors: Hakan Melin; Erik Sundberg
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1997-03-13
Filing date: 1998-03-10
Publication date: 2006-03-23
Anticipated expiration: 2018-03-11
Also published as: NO994361L; EP1008139A1; SE511418C2; WO1998040875A1; JP2001514768A; NO316871B1; EE03633B1; SE9700898L; SE9700898D0; NO994361D0; EE9900401A; EP1008139B1; DK1008139T3; DE69828888D1

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Verfahren bei einem System zur Verifizierung/Identifizierung eines Sprechers, das es dem Systemoperator ermöglicht, die Identität eines Kunden mit Hilfe von Analyse einer Aufzeichnung der Sprachdaten des Kunden herauszufinden.
STAND DER TECHNIK
Bei Sprecher-Verifizierungs-Systemen, Systemen für automatische Verifizierung der Identität eines Sprechers, ist die Menge von Sprachdaten, die vom Kunden gesammelt worden ist, eine entscheidende Grenze für die Benutzung. Je mehr Parameter ein Modell hat, desto besser kann es an gegebene Trainingsdaten angepaßt werden, gleichzeitig werden aber jedoch mehr und mehr Trainingsdaten (Zeit, die der Kunde in einer anfänglichen Phase aufwenden muss) benötigt, um in zuverlässiger Weise alle Parameter schätzen zu können.
Ein Problem in Verbindung mit der Sprecher-Verifizierung besteht daher darin, ein ausreichend gutes Modell der Stimme des Sprechers zu schaffen aufgrund von so wenig wie möglich Sprachdaten, um die Identität des Kunden mit Hilfe von Analyse der Aufzeichnung der Sprachdaten des Kunden herauszufinden. Mit Kunde wird hier ein Benutzer irgendeines Dienstes mit der Notwendigkeit der Prüfung der Berechtigung gemeint.
Man könnte daher sagen, dass das oben erwähnte Problem ein Typ von Optimalisierungsproblemen ist, wo es wichtig ist, die kleinstmögliche Menge von Sprachdaten zu verwenden, um auf zuverlässige Weise imstande zu sein, die Identität des Sprechers zuzuordnen.
Das Ziel der vorliegenden Erfindung ist es daher, das oben erwähnte Problem zu lösen.
EP-A-0 744 734 offenbart ein Sprecher-Verifizierungsverfahren, das Mischungsauflösungsdiskriminierung verwendet.
ZUSAMMENFASSUNG DER ERFINDUNG
Das oben erwähnte Ziel wird mit Hilfe eines Verfahrens bei einem Verifizierungs-/Identifizierungssystem eines Sprechers gelöst, das im kennzeichnenden Teil von Patentanspruch 1 präsentiert wird.
Die vorliegende Erfindung hat den Vorteil im Vergleich mit vorbekannten Verifizierungs-/Identifizierungssystemen eines Sprechers, dass trotz der Verwendung einer minimalen Menge von Sprachdaten die Identität des Sprechers schnell herausgefunden werden kann.
Weitere Charakteristiken sind in den Unteransprüchen angegeben.
DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN DER ERFINDUNG
In technischen Zusammenhängen macht man normalerweise einen Unterschied zwischen Sprecheridentifizierung und Sprecherverifizierung.
Mit Sprecheridentifizierung meint man dann ein Verifizierungssystem, bei dem ein Sprecher/eine Sprecherin sich dadurch identifiziert, dass er/sie nur irgendwelche Sätze spricht, wobei das Identifizierungssystem die Sprache analysiert und Charakteristiken der Sprache identifiziert, wodurch die Sprecheridentifizierung durchgeführt wird.
Mit Sprecherverifizierung meint man ein Verifizierungssystem, bei dem die Identität eines Sprechers dadurch verifiziert wird, dass der Sprecher eine besondere vorher bestimmte Information spricht (oder mit der Tastatur eingibt), wobei das Verifizierungssystem direkt die Echtheit der Information (und Identität) bestätigt oder sie zurückweist (ein Beispiel eines solchen Systems ist ein Geldautomat, in Schweden „Bancomat").
Die beiden Systeme beziehen sich im Wesentlichen auf dieselbe Sache, das daraus besteht, die Identität eines Sprechers zu unterscheiden und deutlich herauszufinden.
Es sollte daher bemerkt werden, dass bei der vorliegenden Erfindung die Konzepte „Sprecherverifizierung" und „Sprecheridentifizierung" gleichgesetzt werden.
Die Erfindung soll in allen Sprecherverifizierungssystemen verwendet werden, insbesondere in solchen, die bei einem Dienst verwendet werden, wo man Informationen über die Benutzer hat.
Die Sprachaufzeichnung kann entweder direkt bei der Ausrüstung, wo die Verifizierung durchgeführt wird, durchgeführt werden oder über unterschiedliche Medien übertragen werden. Medium können Telefon oder andere Telekommunikationsmedien einschließlich Computer sein.
Bei Sprecherverifizierungssystemen wird heute häufig eine „Wahrscheinlichkeitsnormalisierung" verwendet, das heißt, ein Typ von Wahrscheinlichkeitsnormalisierung. Im Prinzip arbeiten diese Sprecherverifizierungssysteme in der folgenden Weise.
Es soll angenommen werden, dass ein Kunde, z. B. Leif, die Absicht hat, seine Identität mit Hilfe eines Sprecherverifzierungssystemes zu verifizieren, um Zugang zu einem gewissen Dienst zu erhalten. In diesem Fall wird angenommen, dass das Sprachprofil von Leif vorher in einer Datenbank gespeichert worden ist, die zum Sprecherverifizierungssystem gehört.
Wenn Leif eine Sprachmeldung z. B. über ein Telefon in der Sprecherverifizierungseinheit spricht, wird das Sprachprofil gespeichert und analysiert. Die Sprecherverifizierungseinheit findet heraus, dass die Wahrscheinlichkeit sehr hoch ist, dass Leif ein Mann ist, der über 40 Jahre alt ist. Zusätzlich findet die Sprecherverifizierungseinheit heraus, dass Leif Stakkato spricht. Die Sprecherverifizierungseinheit sucht nun in der Hierarchie unterschiedlicher Gruppen in der Datenbank und findet eine Gruppe, die Männer über 40 aufweist, die Stakkato sprechen.
Diese Gruppe ist ziemlich begrenzt (z. B. 40 Personen), und die Sprecherverifizierungseinheit vergleicht Leif's gespeichertes Sprachprofil mit allen Sprachprofilen, die in dieser speziellen Gruppe gespeichert sind. Mit sehr großer Wahrscheinlichkeit findet die Sprecherverifizierungseinheit daher Leif's Sprachprofil in dieser Gruppe, woraufhin die Identifizierung vorgenommen wird.
Das oben erwähnte Verfahren beruht daher darauf, dass die Sprecherverifizierungseinheit aufgrund von Wahrscheinlichkeit herausfindet, zu welcher Gruppe eine Person in einer Datenbank gehört, z. B. Leif. Danach wird das gespeicherte Sprachprofil mit allen Sprachprofilen in dieser Gruppe verglichen.
Dieses Verfahren ist natürlich wesentlich wirksamer, als wenn die Sprecherverifizierungseinheit unterschiedslos ein gespeichertes Sprachprofil mit allen in der Datenbank enthaltenen Sprachprofilen vergleichen würde. Dieses würde eine sehr große Zeit benötigen, wenn die Datenbank z. B. einige tausend Sprachprofile enthält.
Die vorliegende Erfindung ist eine Weiterentwicklung und Verbesserung des oben erwähnten Verfahrens und beruht darauf, dass man unter Verwendung eines vorher trainierten Referenzmodells als Komponenten in einem Sprechermodell von gesammelten Daten zusätzlich zu diesen profitieren kann, die ein Sprecher/eine Sprecherin selbst in seinem/ihrem aufzuzeichnenden Ruf spricht, und dadurch die Länge des Rufes verringert. Die zentrale Idee der Erfindung besteht darin, diese Referenzmodelle in einem Satz von Pro-Modellen und Anti-Modellen zu organisieren. Die Idee besteht darin, dass die Pro-Modelle eine Qualität modellieren sollen, die der Kunde hat (z. B. Frau, zwischen 20 und 25 Jahren), und die Anti-Modelle eine Qualität, die der Kunde nicht hat (z. B. Mann, nicht zwischen 20 und 25 Jahren). Rein mathematisch erzeugte Referenzmodelle, die normalerweise nicht einer unterscheidbaren Qualität des Kunden entsprechen, können ebenfalls verwendet werden.
Komplementäre Sätze von Pro-Modellen und Anti-Modellen sollten benutzt werden. Wenn die Referenzmodelle konkreten Qualitäten des Kunden entsprechen, kann zusätzlich eine bereits vorhandene Kenntnis verwendet werden, die Auswahl von Referenzmodellen zu steuern. Die Kenntnis kann auf unterschiedliche Weise in dem System zugänglich gemacht werden.
Eine detailliertere Beschreibung wird weiter unten in der Beschreibung gegeben werden.
Bei Sprecherverifizierungsverbindungen verwendet man, wie dies oben erwähnt wurde, „Wahrscheinlichkeitsnormalisierung", wo man den Beitrag von einem kundenspezifischen Modell mit einem oder mehreren „Weltmodellen" oder „Betrügermodellen" standarisiert, die mit der oben verwendeten Terminologie Anti-Modelle sind. Das kundenspezifische Modell entspricht der Funktion f_c unten in Gleichung (1). Die Neuheit in (1) besteht daher darin, die Anti-Modelle mit „komplementären" Pro-Modellen zu kombinieren. Ob es eine Neuheit ist, generell Verwendung von bereits vorhandener Kenntnis Gebrauch zu machen, um Bezugsmodelle auszuwählen, ist zweifelhaft, die Anordnung mit Pro-Modellen und Anti-Modellen dagegen verträgt sich gut mit bereits mit vorhandener Kenntnis. Die Theorie der Auswahl eines optimalen Satzes von Referenzmodellen und einer dazu gehörenden Projektion ist natürlich in der Mathematik/Signaltheorie und ist daher für sich genommen keine Neuigkeit, die Anwendung dieses Denkens in Verbindung mit Sprecherverifizierung ist jedoch nach unserer Ansicht ganz neu.
Im Folgenden soll die Erfindung detaillierter beschrieben werden.
Es soll ein Sprechermodell so angesehen werden, dass es a) aus Referenzmodellen und b) einer Projektion auf diese Referenzmodelle besteht. Die Projektion kann z. B. eine gewichtete Summe von Beiträgen von den Referenzmodellen (eine lineare Kombination) sein. Zusätzlich kann ein Sprechermodell natürlich Modellelemente einschließen, die ausschließlich aus Sprachmaterial von dem Kunden/der Kundin selbst gebaut sind und die keine Referenzmodelle verwenden. Die folgende Beschreibung konzentriert sich aber auf den Teil, wo irgendeine Form von Referenzmodellen eingeschlossen ist.
Die Referenzmodelle werden normalerweise aus Sprache in einer Datenbank trainiert, die in der Designphase des Systems gesammelt ist, das heißt, bevor ein Sprecher/eine Sprecherin sich in dem System registriert. Ein Referenzmodell kann entweder I) eine vorbestimmte Größe (z. B. „weiblicher Sprecher", „Sprecher unter 16 Jahren" oder „Ruf von GSM-Telefon") oder II) etwas modellieren, das durch mathematische Optimierung bestimmt ist und das dadurch nicht sehr gut mit einer bereits vorhandenen Kenntnis wie in Fall I) verbunden werden kann.
Ordne die Referenzmodelle in einem Satz mit Pro-Modellen und einem Satz von Anti-Modellen an und berechne die „Trefferwahrscheinlichkeit" P des gesamten Modells, so dass Beiträge von den Pro-Modellen P sich erhöhen und Beiträge von den Anti-Modellen P verringern. Diese Prozedur kann mathematisch gemäß f_c (1) ausgedrückt werden, wo f_p und f_a Funktionen von Beiträgen der Pro-Modelle bzw. Anti-Modelle sind und zusammen den Projektionsteil des gesamten Modells bilden. fc ist eine Funktion von Untermodellen, die auf Daten vom Kunden/von der Kundin selbst trainiert sind. Man kann auch Verwendung von einer logarithmischen Variante von (1) machen,
Wenn Referenzmodelle entsprechend Fall I verwendet werden, kann man eine bereits vorhandene Kenntnis über den Kunden verwenden, um das Sprechermodell des Kunden zu bauen, z. B. Kenntnis über das Geschlecht des Sprechers, indem richtige Referenzmodelle ausgewählt werden.
Beispiel: Für einen männlichen Sprecher kann man ein Promodell für „männlicher Sprecher" und ein Antimodell für „weiblicher Sprecher" auswählen.
Auf diese Weise kann man in einfacher Weise von einer bereits vorhandenen Kenntnis profitieren, wenn man das Sprechermodell einer Person bildet. Die Kenntnis wird ein Beitrag zu gesammelten Sprachdaten sein, und man kann ein besser funktionierendes Modell mit weniger gesammelten Sprachdaten von dem entsprechenden Kunden machen. Man wählt auf geeignete Weise komplementäre Referenzmodelle als Pro-Modelle und Anti-Modelle wie im obigen Beispiel. Auf diese Weise sollte man ein zuverlässigeres besser ausgewogenes Modell erhalten, und man kann eine Unterscheidungswirkung dadurch erhalten, dass die beiden komplementären Modelle in unterschiedlichen Richtungen „ziehen".
Die oben erwähnte „bereits vorhandene Kenntnis" kann in das System in unterschiedlichen Phasen und auf unterschiedliche Weisen eingeführt werden:

a) Bei dem (ersten) aufzuzeichnenden Ruf und dadurch in Verbindung mit Bau des ersten Sprechermodells. Wenn der Kunde/die Kundin bereits registriert ist und sich daher bei dem System bei der Registrierung zum Sprecherverifizierungssystem identifiziert, kann man Kundeninformationen verwenden, die bereits in einer Datenbank gespeichert ist, z. B. Geschlecht und Alter. Wenn der Kunde/die Kundin bei dem Dienst noch nicht vorher registriert ist, kann er/sie seine/ihre zivile Registrierungsnummer bei dem Registrierungsruf präsentieren, und man kann dann Informationen über das Geschlecht erhalten, indem man bei der zivilen Registrierungsnummer nachsieht. Man kann auch während des Rufes ausdrücklich nach dem Geschlecht und Alter fragen.
b) Nach dem ersten aufzuzeichnenden Ruf: Hierbei kann man bereits die Modelle in Betrieb genommen haben, und es wird eine Frage des erneuten Bauens des Modells mit neuer Information sein. Die Information kann z. B. von einem ausgefüllten und eingesendeten Formular kommen, das der Kunde/die Kundin unterzeichnet, um es ihm/ihr zu erlauben, mit dem Dienst nach einer anfänglichen Phase weiter zu arbeiten. Die Anpassung des Sprechermodells und insbesondere die Änderung der Turbologie während seines/ihres Lebenszeitraumes wird in Telias Patentanmeldung Nr. 9602622-4 behandelt, die sich auf „Verfahren und Anordnung zur Anpassung bei z. B. Sprecherverifizierungssystemen" bezieht und in Fall 520 behandelt ist.

Anstatt, dass man eine reine bereits vorhandene Kenntnis verwendet, kann man seine Referenzmodelle auswählen, indem ein optimaler Satz von Referenzmodellen und dazu gehörende Projektionen auf diese berechnet werden.
Das Obige sollte nur als vorteilhafte Ausführungsform der Erfindung angesehen werden, und das Ausmaß des Schutzes der Erfindung wird nur durch das begrenzt, was in den folgenden Patentansprüchen angegeben ist.

Claims

Verfahren bei einem System zur Verifizierung/Identifizierung eines Sprechers, um zu ermöglichen, dass ein Systemoperator die Identität eines Kunden mittels Analyse der Aufzeichnung der Sprachdaten des Kunden herausfinden kann, gekennzeichnet durch die Schritte: – Einrichten von Referenzmodellen in einem Satz Pro-Modelle und einem Satz Anti-Modelle, wobei diese Modelle durch Sprache trainiert sind, die in der Designphase des Systems gesammelt worden ist und in einer Datenbank gespeichert worden sind, wobei die Pro-Modelle Qualitäten nachbilden, die ein Kunde hat und die Anti-Modelle Qualitäten nachbilden, die ein Kunde nicht hat, – Bauen eines ersten Sprechermodells basierend auf einer ersten Kenntnis über einen Kunden, bestehend aus Referenzmodellen und der Projektion dieser Referenzmodelle, d.h. einer funktionalen Beschreibung der Beiträge von Pro- und Anti-Modellen, – Berechnen der Trefferwahrscheinlichkeit P des ersten Sprechermodells, d.h. der Gesamtwahrscheinlichkeit, dass ein Kunde zu einer gewissen Kategorie gehört, so dass die Beiträge der Pro-Modelle P steigen und die Beiträge der Anti-Modelle P sinken, – Speichern des ersten Sprechermodells zusammen mit der Identität des Kunden, – Herausfinden der Kundenidentität bei der Verifizierung/Identifizierung mit minimal aufgezeichneten Sprachdaten durch Bauen eines zweiten Sprechermodels basierend auf der Sprache, die in der Designphase gesammelt worden ist, zusätzlich zu den Daten, die der Kunde selbst gesprochen hat, um verifiziert/identifiziert zu werden, Berechnen der Trefferwahrscheinlichkeit P des zweiten Sprechermodells und Vergleichen des zweiten Sprechermodells mit den gespeicherten Sprechermodellen in der bestimmten Kategorie.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Referenzmodelle trainiert sind, jede Sprachinformation zu erkennen, wobei die Sprachinformation in der Designphase des Sprecher-Verifizierungs/Identifizierungs-Systems gespeichert worden ist, bevor ein Kunde Zeit hatte, sich selbst im System zu registrieren.
Verfahren nach einem der vorstehenden Patentansprüche, dadurch gekennzeichnet, dass die Trefferwahrscheinlichkeit des Sprechermodells, d.h. die Gesamtwahrscheinlichkeit, dass ein gewisser Kunde zu einer gewissen Kategorie gehört, durch die Formel gegeben ist:
wobei P der Trefferwahrscheinlichkeit des Referenzmodels entspricht, fp und fa Funktionen der Beteiligung der Pro- bzw. Anti-Modelle sind, die zusammen den Projektionsteil des Gesamtmodells bilden und fc eine Funktion der Submodelle ist, die auf die Sprachdaten vom Kunden selbst trainiert worden sind.