DE60104284T2

DE60104284T2 - Verfahren zur Adaption von Sprecheridentifikationsdaten unter Verwendung von im Betrieb gewonnener Sprache

Info

Publication number: DE60104284T2
Application number: DE60104284T
Authority: DE
Inventors: Thomas Kemp
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2001-05-08
Filing date: 2001-05-08
Publication date: 2005-08-25
Anticipated expiration: 2021-05-09
Also published as: EP1256934A1; EP1256934B1; JP2002372992A; US20020169609A1; DE60104284D1; US7085718B2

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Sprecheridentifikation, und insbesondere ein Verfahren zur Sprecheridentifikation, bei dem Sprache einer Eintragungs- oder Benutzungsphase bei dem Identifikationsprozess verwendet wird.
Eine große Vielzahl von Einrichtungen und Endgeräten verwenden Mensch-Maschine-Dialogsysteme oder dergleichen, um eine einfache und zuverlässige Verwendung der Einrichtung zu gewährleisten, oder um die Identität eines Nutzers, beispielsweise in einem Eingangsbereich oder dergleichen, zu überprüfen. Es ist daher in vielen Fällen nötig, die Identifizierung einer Person allein anhand einer Spracheingabe durchzuführen. Aktuelle und bekannte Sprecheridentifikationsverfahren und -systeme müssen trainiert werden und mögliche Sprecher, die mit dem System in Verbindung stehen, müssen registriert werden. Um besonders hohe Identifikationsraten und eine große Zuverlässigkeit des Identifikationsergebnisses zu gewährleisten, muss jeder Sprecher registriert und eingetragen werden, indem eine bestimmte Menge von vorbestimmtem und vordefiniertem Text gesprochen wird.
Die Menge an Sprache von jedem der eingetragenen Sprecher sollte so groß wie möglich sein, um innerhalb des Identifikationsprozesses eine gute Performanz zu gewährleisten. Andererseits sollte die aufzunehmende Sprache in der Eintragungsphase so kurz wie möglich sein, um die Unbequemlichkeit für einen Benutzer zu minimieren.
In "Behaviour of Bayesian Adaptation Method For Incremental Enrolment in Speaker Verification" von C. Fredouille et al., Proceedings of 2000 International Conference on Acoustics, Speech and Signal Processing, Istanbul, Türkei, 5. bis 9. Juni 2000, wird ein inkrementelles Training von Client-Modellen in einem Sprecherverifikationssystem vorgeschlagen. Dabei wird ein initiales Modell anhand einer sehr begrenzten Menge von Daten trainiert und anschließend progressiv mittels Zugangsdaten aktualisiert.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur zur Sprecheridentifikation bereitzustellen, welches die Last der Eintragungsphase für den Benutzer reduziert, und welches dabei eine gute Performanz gewährleistet, insbesondere bezüglich der Identifikationsrate der beteiligten Sprecher.
Die Aufgabe wird gelöst durch ein Verfahren zur Sprecheridentifikation gemäß Anspruch 1. Bevorzugte und vorteilhafte Ausführungsformen des erfindungsgemäßen Verfahrens zur Sprecheridentifikation befinden sich innerhalb der abhängigen Ansprüche. Die Aufgabe wird ebenso gelöst durch ein System zur Sprecheridentifikation gemäß Anspruch 14 und ein Computerprogrammprodukt gemäß Anspruch 15.
Das erfindungsgemäße Verfahren zur Sprecheridentifikation, insbesondere für ein Verfahren und/oder ein System zur Spracherkennung, umfasst eine anfängliche Eintragungs- und/oder Trainingsphase und eine Anwendungsphase. In der anfänglichen Eintragungs- und/oder Trainingsphase wird gesprochene Eintragungssprache wenigstens eines Sprechers gesammelt und/oder gespeichert als anfängliche Identifikationssprachdaten innerhalb einer Menge von Identifikationssprachdaten. Von den gesamten Identifikationssprachdaten werden Sprecheridentifikations- und/oder Klassifizierungsdaten für den Sprecher abgeleitet und/oder in einer Sprecherdatenbank gespeichert. Während der Anwendungsphase wird gesprochene Anwendungssprache von wenigstens einem aktuellen Sprecher empfangen und bezüglich der Sprecheridentifikations- und/oder Klassifizierungsdaten ausgewertet, die in der Sprecherdatenbank enthalten sind. Dies wird durchgeführt, um wenigstens den aktuellen Sprecher als bekannt oder unbekannt zu klassifizieren. Weiterhin werden zumindest ein Teil der empfangenen Anwendungssprache des aktuellen Sprechers, der als bereits bekannter Sprecher klassifiziert wurde, als zusätzliche Identifikationssprachdaten verwendet, um die Menge Identifikationssprachdaten für den aktuellen Sprecher zu vergrößern und/oder die Rate und Zuverlässigkeit der Sprecheridentifikation zu verbessern, wobei Teile der Anwendungssprache mit niedrigem Vertrauen bzw. Konfidenz als zusätzliche Identifikationssprachdaten für einen gegebenen bekannten Sprecher verwendet werden, die in Teilen der Anwendungssprache mit hohem Vertrauen bzw. Konfidenz enthalten, eingebettet oder von diesen umgeben sind, wobei diese Teile ein vergleichsweise hohes Vertrauen, eine hohe Zuverlässigkeit oder eine hohe Wahrscheinlichkeit, zu dem gegebenen bekannten Sprecher zu gehören, aufweisen.
Es ist somit eine wesentliche Idee der vorliegenden Idee, nicht nur gesprochene Sprache als anfängliche Identifikationssprachdaten zu verwenden, die während einer anfänglichen Eintragungs- und/oder Trainingsphase gesammelt wurden, um die Menge von Identifikationssprachdaten zu bilden, auf welchen das Training und die Performanz des Verfahrens zur Sprecheridentifikation basiert. Es wird stattdessen vorgeschlagen, während der Anwendung des Verfahrens zur Sprecheridentifikation empfangene und gesammelte gesprochene Sprache als eine Datenquelle zu verwenden, auf welcher das Training und die Verfeinerung des Identifikationsprozesses ebenso basieren. Dies erhöht die Menge von Identifikationssprachdaten und macht den Identifikationsprozess daher sicherer und zuverlässiger.
Gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Sprecheridentifikation wird daher vorgeschlagen, die zusätzlichen Identifikationssprachdaten in die Menge von Identifikationssprachdaten für jeden Sprecher einzufügen und einen zusätzlichen Schritt zur Generierung und Aktualisierung der Sprecheridentifikationsdaten durchzuführen, in Abhängigkeit von der angereicherten Menge von Identifikationssprachdaten.
Der Schritt zur Erzeugung und Aktualisierung der Sprecheridentifikations- und/oder Klassifizierungsdaten kann online und in Echtzeit durchgeführt werden oder als ein Nachverarbeitungsschritt. Falls der Generierungs- und Aktualisierungsschritt online durchgeführt wird, kann dieser parallel zur Anwendung oder sequentiell während einer Unterbrechung oder Pause der Anwendung ausgeführt werden.
Zu Beginn des Anwendungs- oder Identifikationsprozesses oder -verfahrens, erfolgt die Identifikation per se in Abhängigkeit von den anfänglichen Identifi kationssprachdaten. Ganz zu Beginn der Anwendung des erfindungsgemäßen Verfahrens wird die eingehende gesprochene Anwendungssprache daher klassifiziert mit Bezug zu den Merkmalen bzw. Features und dem Vergleich zu den gegebenen anfänglichen Identifikationssprachdaten.
Es ist daher von besonderem Vorteil, Teile der Anwendungssprache als zusätzliche Identifikationssprachdaten für einen gegebenen und bekannten Sprecher zu verwenden, die ein vergleichsweise niedriges Vertrauen, eine niedrige Zuverlässigkeit oder eine niedrige Wahrscheinlichkeit zu dem gegebenen bekannten Sprecher zu gehören, aufweisen, da diese Teile mit niedrigem Vertrauen der Anwendungssprache eine große Menge neuer Information übertragen, die bisher noch nicht gesammelt wurde. Der Vergleich des Vertrauens, der Zuverlässigkeit oder der Wahrscheinlichkeit kann in Abhängigkeit eines ersten gegebenen Schwellenwerts ausgeführt werden.
Insbesondere können im Falle von kontinuierlichen Äußerungen Teile mit niedrigem Vertrauen der Anwendungssprache als zusätzliche Identifikationssprachdaten für einen gegebenen bekannten Sprecher verwendet werden, falls sie in Teilen der Anwendungssprache mit hohem Vertrauen enthalten, eingebettet oder von diesem umgeben sind, wobei diese Teile ein vergleichsweise hohes Vertrauen, eine hohe Zuverlässigkeit oder eine hohe Wahrscheinlichkeit zu dem gegebenen bekannten Sprecher zu gehören, aufweisen, insbesondere in Bezug zu einem gegebenen zweiten Schwellenwert, welcher nicht niedriger als der erste Schwellenwert ist. Dies bietet den Vorteil, dass Teile mit niedrigem Vertrauen, die in Teilen der Anwendungssprache mit hohem Vertrauen eingebettet sind, wahrscheinlich zum gleichen Sprecher gehören, aufgrund der Kontinuität der gesprochenen Äußerung.
Die Unterteilung von kontinuierlicher Sprache in Teile kann unter Verwendung eines kontinuierlichen Abschnitts von Anwendungssprache ausgeführt werden, die dann in Abschnitte eingeteilt wird, um die Teile der Anwendungssprache zu bilden. Da Konfidenzmaße das Vertrauen bzw. die Konfidenz oft in Abhängigkeit von Wörtern, Wortuntereinheiten oder dergleichen bewerten, ist es von besonderem Vorteil, die Abschnitte als Gruppen oder kurze Folgen von Wörtern oder dergleichen zu bilden, anstatt diese als Teile des akustischen Signals auszuwählen.
Bevorzugt werden die Abschnitte anschließend bezüglich ihres Vertrauens, ihrer Zuverlässigkeit und/oder ihrer Wahrscheinlichkeit von einem gegebenen bekannten Sprecher zu stammen, klassifiziert. Jeder Abschnitt wird separat und isoliert klassifiziert, insbesondere durch den Vergleich mit dem gegebenen ersten und zweiten Schwellenwert.
In einer weiteren Ausführungsform des erfindungsgemäßen Verfahrens werden Äußerungen innerhalb der Anwendungssprache nicht als zusätzliche Identifikationssprachdaten verwendet, falls das Vertrauen bzw. die Konfidenz all ihrer Teile, Abschnitte oder dergleichen niedrig sind, insbesondere unterhalb des ersten Schwellenwerts. Andererseits werden Äußerungen innerhalb der Anwendungssprache als bestimmte Äußerungen innerhalb der zusätzlichen Identifikationssprachdaten verwendet, falls das Vertrauen bzw. die Konfidenz all ihrer Teile, Abschnitte oder dergleichen hoch sind, und insbesondere falls das jeweilige Vertrauen bzw. der jeweilige Konfidenzwert über dem zweiten Schwellenwert liegen.
Da die bestimmten Äußerungen bezüglich eines eingetragenen und registrierten Sprechers nicht viel neue Information übertragen, werden diese bestimmten Äußerungen für einen gegebenen Sprecher von der Eintragung in die zusätzlichen Identifikationssprachdaten für den Sprecher zurückgewiesen, falls die Menge der bestimmten Äußerungen, die bereits gesammelt und in die zusätzliche Identifikationssprachdaten eingefügt wurden, einen gegebenen Schwellenwert für den Sprecher überschreiten. Demgemäß kann die Menge der bestimmten Äußerungen innerhalb der zusätzlichen Identifikationssprachdaten oder innerhalb der Identifikationssprachdaten begrenzt werden, so dass das Verfahren auf Teile der Anwendungssprache fokussiert wird, welche bezüglich des aktuellen Sprechers wesentlich mehr Informationen übertragen, d. h. die Teile mit geringem Vertrauen.
Das erfindungsgemäße Verfahren und sein Identifikationsprozess kann auf einem offenen Szenario basieren, das Beiträge von nicht eingetragenen Sprechern ermöglicht, und J oder es kann in diesem Fall auf einem gewöhnlichen Sprechermodell basieren.
Ein weiterer Aspekt der vorliegenden Erfindung ist, ein System gemäß Anspruch 14 bereitzustellen.
Zusätzlich ist es ein weiterer Aspekt der vorliegenden Erfindung ein Computerprogrammprodukt gemäß Anspruch 15 bereitzustellen.
Die oben erwähnten Aspekte und weitere Vorteile der vorliegenden Erfindung werden weiter ausgeführt, wobei die folgenden Bemerkungen mit einbezogen werden:
Zur Sprecheridentifikation sollte die Menge an Sprache von jedem eingetragenen Sprecher so groß wie möglich sein, um eine gute Performanz bzw. Leistung und eine hohe Identifikationsrate zu gewährleisten. Die aufgenommene Sprache in der Eintragungsphase sollte jedoch kurz sein, um die Unbequemlichkeit für den Benutzer zu minimieren.
Es wird daher vorgeschlagen, Sprache von Benutzern zu verwenden, die nicht in der Eintragungsphase gesprochen wird, sondern in der Benutzungs- oder Anwendungsphase, um die Datenmenge zu erhöhen, auf welcher das Identifikationstraining basiert. Es wird daher vorgeschlagen, Sprache zu verwenden, die mit einer niedrigen Zuverlässigkeit klassifiziert wurde, welche jedoch in Sprache enthalten oder umgeben ist, welche als Sprache mit hoher Zuverlässigkeit von einem gegebenen und eingetragenen Sprecher klassifiziert wurde.
Alle Sprecheridentifikationssysteme benötigen eine so genannte Eintragungsphase, in der Sprache von allen Benutzern gesammelt und dem System zusammen mit der entsprechenden Sprecheridentität bekanntgegeben wird.
Im Allgemeinen wird dem Problem von ungenügendem Eintragungsmaterial durch eine Verlängerung der Eintragungsphase begegnet. Bei einigen Sprecherverifikationssystemen, falls die Sprecheridentität durch den Sprecher beansprucht wird, wurde vorgeschlagen, alle Sprache zu verwenden, die die Verifikationsphase durchläuft, d. h. es wird angenommen, dass diese Sprache von dem wahren Zielsprecher stammt, um die Menge von Eintragungsmaterial zu erhöhen.
Die Situation ist jedoch bei der Sprecheridentifikation unterschiedlich, da die Sprecheridentität zunächst bestimmt werden muss, und die a priori Wahrscheinlichkeit, einen Sprecher korrekt zu klassifizieren generell wesentlich niedriger ist, als die a priori Wahrscheinlichkeit eines Gauklers bzw. Betrügers in einem Sprecherverifikationssystem.
Zwei wichtige Ideen der Erfindung sind die Verwendung von konfidenzverifizierter Eingabesprache, um die Menge von Eintragungssprache zu erhöhen und die Verwendung von Segmenten zwischen zwei Hoch-Konfidenzsegmenten anstatt der ausschließlichen Verwendung der beiden Hoch-Konfidenzsegmenten.
Aufgrund der oben erwähnten Situation müssen aktuelle Verfahren des Standes der Technik zur Sprecheridentifikation einen Ausgleich finden zwischen den beiden Zielen einer hohen Genauigkeit bei der Erkennung und einer Bequemlichkeit für den Benutzer, da eine hohe Erkennungsgenauigkeit nur erreicht werden kann, falls der Benutzer für eine lange Zeit spricht – mehrere Minuten oder mehr – während der Eintragungsphase; dies ist für den Benutzer selbstverständlich unbequem. Diese Eintragung umfasst das Lesen oder Wiederholen von Äußerungen, die dem Benutzer durch das System oder das Verfahren angezeigt werden. Die Eintragungsaufgabe ist fehleranfällig, mühsam und unbequem.
Es wird daher vorgeschlagen, Sprache von dem Benutzer zu verwenden, die nicht bei der Eintragung geäußert wird, sondern während der Anwendungsphase, um die Menge von Daten zu erhöhen, auf welchen das Identifikationstraining basieren kann. Da diese Sprache von dem Anwendungsszenario ausgewählt wird, besteht für den Sprecher oder Benutzer kein zusätzliches Hindernis. Der neue Ansatz vereint somit eine große Identifikationsgenauigkeit mit einer hohen Benutzerbequemlichkeit und arbeitet gänzlich unüberwacht.
Anfänglich muss eine Eintragung für jeden Benutzer vorgenommen werden, die jedoch durch das System erkannt wird. Die Eintragungsphase ist nicht unterschiedlich von der Eintragung in aktuellen Sprecheridentifikationssystemen, mit der Ausnahme, dass die Menge von aufgenommener Sprache geringer ist, um den Komfort des Benutzers zu erhöhen.
Mit den Eintragungsdaten wird ein Standardsprecheridentifikationssystem trainiert gemäß einem der in der Literatur beschriebenen Wege. Das vorgeschlagene erfindungsgemäße Verfahren ist unabhängig von dem Trainingsverfahren und der Modellart. Die einzige Forderung ist, dass die Modellqualität für mehr Eintragungsdaten besser ist. Diese Bedingung ist sehr schwach und wird bisher für alle bekannten Algorithmen erfüllt.
Während der Anwendungsphase des Systems wird die eingegebene Sprache als Sprache klassifiziert von beispielsweise einem Sprecher B gegenüber den Sprechern A und C. Anschließend wird die aufgenommene kontinuierliche Äußerung in Abschnitte c1, ..., c5 unterteilt, wobei insbesondere jeder der Abschnitte c1, ..., c5 als Gruppe oder kurze Sequenz von Wörtern oder dergleichen aufgebaut ist. Jeder der Abschnitte wird dann wiederum klassifiziert, und das Vertrauen bzw. die Konfidenz für das Klassifizierungergebnis wird aufgenommen bzw. gespeichert. Solch eine Konfidenz kann für ein probabilistisches Modell durch Normalisierung einer relativen Likelihood (der Modellauswertung) für Sprecher B berechnet werden, wobei die Normalisierung mittels der addierten Likelihoods von allen Sprechern erfolgt, die bei einem geschlossenen Szenario per Definition 1 ergeben. Für ein offenes Szenario, bei dem auch nicht eingetragene Sprecher das System verwenden können und die als nicht eingetragen erkannt werden sollen, kann ein generisches Sprechermodell zu dem Modell addiert werden, um die Unterscheidung zu unterstützen. Falls die Konfidenzen von allen Teilen unterhalb eines vorbestimmten Schwellenwerts liegen, wird die Äußerung nicht verwendet. Falls alle Konfidenzen oberhalb des vorbestimmten Schwellenwerts liegen, werden die Daten oder Äußerungen zu den Eintragungsdaten addiert und das Modell wird nachtrainiert, falls das System nicht verwendet wird. Nachtraining kann bei einem Unterhaltungsroboter z. B. während der Wiederaufladungsphase der Batterien ausgeführt werden, oder im Falle eines Hilfeschalters während einer Unterbrechung oder während der Nacht. Dies erhöht die Leistung bzw. Performanz des Systems.
Der zur Speicherung der Daten verfügbare Speicher ist jedoch begrenzt. Zusätzlich bedeutet die hohe Konfidenz in die Sprecheridentität für den unbekannten Sprecher, dass die Sprache sehr genau mit der gespeicherten Sprechercharakteristik übereinstimmt. Dies wiederum bedeutet, dass diese Sprache nicht viel Information zu dem Modell hinzufügt. Die Menge von gesammelten Eintragungsdaten wird daher kontinuierlich überwacht. Nachdem eine bestimmte Länge von Sprache gespeichert wurde, werden keine weiteren Segmente mit hohem Vertrauen hinzugefügt und gespeichert.
In dieser letzten Anpassungsphase werden nur Äußerungen verwendet, bei denen das Vertrauen für die Untersegmente – z. B. c2 und c4 – gering ist, jedoch für angrenzende Untersegmente – z. B. c1, c3 und c5 – hoch sind. Da die Sprache nicht unterbrochen ist, kann angenommen werden, dass sie von einer einzelnen Quelle oder einem einzelnen Sprecher stammt. Teile der gesamten Äußerung – c2 und c4 – weisen neue Eigenschaften auf, die den Modellen oder dem System bisher unbekannt sind. In der letzten Anpassungsphase werden daher im oben erwähnten Beispiel nur die Untersegmente c2 und c4 dem Eintragungsdatenspeicher hinzugefügt. Dies erhöht die Robustheit der automatischen Anpassung durch Auswahl der wertvollsten Teile der Daten.
Die Erfindung kann wie folgt zusammengefasst werden: Die Eintragungsphase wird verkürzt und die anfängliche Leistung des Systems oder des Verfahrens kann niedriger sein. Die Leistung erhöht sich jedoch automatisch, da der Benutzer während der Benutzung oder der Anwendungsphase dem System mehr Sprache hinzufügt. Das System arbeitet besser für Benutzer, die das System häufiger verwenden. Durch dieses Verhalten wird das durchschnittliche Leistungsniveau automatisch erhöht. Durch die besondere Auswahl von Benutzerdaten wird den Daten mehr Einfluss gegeben, die den Systemmodellen weniger ähnlich sind. Dabei wird die Robustheit gegenüber Veränderungen der Stimme eines Sprechers erhöht, die beispielsweise durch Halsweh des Sprechers oder dergleichen verursacht werden.
Im Folgenden werden weitere Vorteile und Aspekte der Erfindung mit Bezug zu den Figuren beschrieben.
1 ist ein schematisches Blockdiagramm das eine bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens zur Sprecheridentifikation beschreibt.
Die Ausführungsform des erfindungsgemäßen Verfahrens, das in 1 gezeigt wird, ist im Wesentlichen aus drei Abschnitten S10, S20 und S30 aufgebaut. Im ersten Abschnitt S10 wird die anfängliche Eintragung ausgeführt. Im zweiten Abschnitt S20 wird das Verfahren oder System anhand von gegebenen Identifikationssprachdaten ISD trainiert. Im dritten Abschnitt S30 wird das Verfahren bei einer bestimmten Anwendung angewendet, nachdem der erste und zweite Abschnitt S10 und S20 der Eintragung und des ersten Trainings zumindest einmal durchgeführt wurden.
In einem ersten Schritt S11 des ersten Abschnitts S10 der anfänglichen Eintragungsphase wird gesprochene Eintragungssprache ES empfangen. In einem zweiten Schritt S12 wird die Eintragungssprache ES als anfängliche Identifikationssprachdaten IISD festgelegt und als ein Teil der gesamten Menge von Identifikationssprachdaten ISD in einer Sprecherdatenbank SDB im Schritt S13 gespeichert.
Im zweiten Abschnitt S20 der Ausführungsform von 1 wird die Trainingsphase durchgeführt, die auf der Menge von Identifikationssprachdaten ISD basiert, welche aktuell verfügbar sind. Die Menge von Identifikationssprachdaten wird aus der Sprecherdatenbank SDB im Schritt S21 abgerufen und im Schritt S22 werden dann Sprecheridentifikations- und/oder Klassifizierungsdaten von der Menge von Identifikationssprachdaten ISD generiert. Die generierten Sprecheridentifikations- und/oder Klassifizierungsdaten SID werden in der Sprecherdatenbank SDB gespeichert.
Nachdem die Schritte S10 und S20 der Eintragung und des Trainings zumindest einmal ausgeführt wurden, kann das Verfahren und das System angewendet werden. Der Anwendungsschritt S30 kann in Personenverifikations- und -identifikationssystemen, in ein System zur Spracherkennung oder dergleichen, eingefügt bzw. integriert werden.
Im ersten Schritt S31 der Anwendungsphase S30 wird gesprochene Anwendungssprache AS empfangen. Die empfangene Anwendungssprache AS wird dann im Schritt S32 klassifiziert und evaluiert. Im folgenden Schritt S33 werden Sprecheridentifikations- und/oder -klassifizierungsdaten SID aus den empfangenen und klassifizierten Anwendungssprachdaten AS generiert. Im Vergleich zu der gegebenen Sprecherdatenbank SDB wird im Schritt S34 überprüft, ob der aktuelle Sprecher dem System oder dem Verfahren bekannt oder unbekannt ist. Im Falle eines unbekannten Sprechers wird die empfangene Anwendungssprache AS in der Ausführungsform von 1 nicht weiter verarbeitet.
Falls der aktuelle Sprecher im Schritt S34 als bekannter Sprecher klassifiziert wird anhand der empfangenen Anwendungssprache AS und der gegebenen Sprecherdatenbank SDB, wird die Anwendungssprache AS in Teile oder Abschnitte unterteilt, nämlich in drei Abschnitte c1, c2 und c3 im Schritt S35 in der Ausführungsform von 1. Im folgenden Schritt S36 wird jeder der unterteilten Abschnitte c1, c2 und c3 klassifiziert bezüglich deren jeweiliger Wahrscheinlichkeit pj, die jeweils von einem gegebenen Wahrscheinlichkeitsmaß prob: pj = prob(cj) abhängt.
In den folgenden Schritten S37, S38, ..., werden unterschiedliche Fälle evaluiert, wobei alle oder nur ausgewählte Abschnitte c1, c2, c3 der Anwendungssprache als zusätzliche Identifikationssprachdaten AISD in die Menge von Identifikationssprachdaten ISD und in die Sprecherdatenbank SDB eingefügt werden.

Claims

Verfahren zur Sprecheridentifikation, insbesondere für ein Verfahren oder ein System zur Spracherkennung, wobei: – während einer anfänglichen Eintragungsphase gesprochene Eintragungssprache (ES) wenigstens eines Sprechers gesammelt und als anfängliche Identifikationssprachdaten (IISD) von Identifikationssprachdaten (ISD) gespeichert werden, von welchen Sprecheridentifikationsdaten (SID) für den Sprecher abgeleitet und in einer Sprecherdatenbank (SDB) gespeichert werden, – während einer Anwendungsphase gesprochene Anwendungssprache (AS) wenigstens eines aktuellen Sprechers empfangen und bezüglich der Sprecheridentifikationsdaten (SID) der Sprecherdatenbank (SDB) ausgewertet wird, um den wenigstens einen aktuellen Sprecher als bekannt oder unbekannt zu klassifizieren, – zumindest ein Teil der empfangenen Anwendungssprache (AS) des aktuellen Sprechers, der als bereits bekannter Sprecher klassifiziert wurde, als zusätzliche Identifikationssprachdaten (AISD) verwendet wird, um die Menge Identifikationssprachdaten (ISD) für den aktuellen Sprecher zu vergrößern und/oder die Rate und Zuverlässigkeit der Sprecheridentifikation zu verbessern, wobei Teile (c2) der Anwendungssprache (AS) mit niedrigem Vertrauen als zusätzliche Identifikationssprachdaten (AISD) für einen gegebenen bekannten Sprecher verwendet werden, die in Teilen (c1, c2) der Anwendungssprache (AS) mit hohem Vertrauen enthalten, eingebettet oder von diesen umgeben sind, wobei diese Teile ein vergleichsweise hohes Vertrauen, eine hohe Zuverlässigkeit oder eine hohe Wahrscheinlichkeit zu dem gegebenen bekannten Sprecher zu gehören aufweisen.
Verfahren gemäß Anspruch 1, wobei die Anwendungssprache (ASD) in die Identifikationssprachdaten (ISD) für jeden Sprecher eingefügt wird und ein Schritt zur Generierung und Aktualisierung der Sprecheridentifikationsdaten (SID) in Abhängigkeit von angereicherten Identifikationssprachdaten (ISD) durchgeführt wird, wobei angereicherte Sprachdaten aus Identifikationssprachdaten bestehen, in welche die zusätzlichen Identifikationssprachdaten (AISD) eingefügt wurden.
Verfahren gemäß Anspruch 2, wobei der Schritt zur Generierung und Aktualisierung der Sprecheridentifikationsdaten (SID) online und in Echtzeit durchgeführt wird oder als ein Nachverarbeitungsschritt.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei Teile (c 1, c2, c3) der Anwendungssprache (AS) als zusätzliche Identifikationssprachdaten (AISD) für einen gegebenen bekannten Sprecher verwendet werden, die ein vergleichsweise niedriges Vertrauen, eine niedrige Zuverlässigkeit oder eine niedrige Wahrscheinlichkeit zu dem bekannten Sprecher zu gehören, aufweisen, insbesondere bezogen auf einen gegebenen ersten Schwellenwert (t_L).
Verfahren gemäß Anspruch 4, wobei ein zusammenhängender Abschnitt von Anwendungssprache (AS) in Abschnitte (c1, c2, c3) eingeteilt wird, um die Teile der Anwendungssprache (AS) zu bilden, wobei jeder der Abschnitte (c1, c2, c3) insbesondere eine Gruppe oder eine kurze Sequenz von Wörtern oder dergleichen ist.
Verfahren gemäß Anspruch 5, wobei die Abschnitte bezüglich ihres Vertrauens, ihrer Zuverlässigkeit und/oder ihrer Wahrscheinlichkeit zu einem gegebenen bekannten Sprecher zu gehören klassifiziert werden.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei Äußerungen innerhalb der Anwendungssprache (AS) nicht als zusätzliche Identifikationssprachdaten (AISD) verwendet werden, für die das Vertrauen von allen Teilen, Abschnitten oder dergleichen niedrig ist und insbesondere unterhalb des ersten Schwellenwertes (t_L) liegt.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei Äußerungen innerhalb der Anwendungssprache (AS) als bestimmte Äußerungen innerhalb der zusätzlichen Identifikationssprachdaten (AISD) verwendet werden, für die das Vertrauen von allen Teilen, Abschnitten oder dergleichen hoch ist und insbesondere über einem zweiten Schwellenwert (t_H) liegt.
Verfahren gemäß Anspruch 8, wobei bestimmte Äußerungen eines gegebenen Sprechers vom Einfügen in die zusätzlichen Identifikationssprachdaten (AISD) für den Sprecher für den Fall zurückgewiesen werden, dass die Menge der bestimmten Äußerungen innerhalb der zusätzlichen Identifikationssprachdaten (AISD) einen gegebenen Schwellenwert für den Sprecher überschreitet.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei der Identifikationsprozess auf einem geschlossenen Szenario basiert, wobei nur Beiträge von eingetragenen Sprechern verwendet werden, oder wobei der Identifikationsprozess auf einem probabilistischen Modell basiert.
Verfahren gemäß einem der Ansprüche 1 bis 9, wobei der Identifikationsprozess auf einem offenen Szenario basiert, wobei Beiträge von nicht eingetragenen Sprechern ermöglicht werden, oder wobei der Identifikationsprozess auf einem generischen Sprechermodell basiert.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei eine minimale Menge von anfänglichen Identifikationssprachdaten (IISD) verwendet wird, um zumindest eine minimale Unterscheidung und Identifikationsraten zu ermöglichen.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei das Ende der anfänglichen Eintragungsphase von einem Sprecher befohlen werden kann.
System zur Sprecheridentifikation, das eine Vorrichtung umfasst, die eingerichtet ist zur Durchführung jeder der Schritte eines Verfahrens zur Sprecheridentifikation gemäß einem der vorstehenden Ansprüche 1 bis 13.
Computerprogrammerzeugnis, das eine Computerprogrammeinrichtung aufweist, die eingerichtet ist, jeden der Schritte eines Verfahrens zur Sprecheridentifikation gemäß einem der vorstehenden Ansprüche 1 bis 13 durchzuführen, wenn es auf einem Computer oder einer digitalen Signalverarbeitungseinrichtung ausgeführt wird.