-
Die
vorliegende Erfindung betrifft ein Verfahren zur Sprecheridentifikation,
und insbesondere ein Verfahren zur Sprecheridentifikation, bei dem
Sprache einer Eintragungs- oder Benutzungsphase bei dem Identifikationsprozess
verwendet wird.
-
Eine
große
Vielzahl von Einrichtungen und Endgeräten verwenden Mensch-Maschine-Dialogsysteme
oder dergleichen, um eine einfache und zuverlässige Verwendung der Einrichtung
zu gewährleisten,
oder um die Identität
eines Nutzers, beispielsweise in einem Eingangsbereich oder dergleichen, zu überprüfen. Es
ist daher in vielen Fällen
nötig,
die Identifizierung einer Person allein anhand einer Spracheingabe
durchzuführen.
Aktuelle und bekannte Sprecheridentifikationsverfahren und -systeme
müssen
trainiert werden und mögliche
Sprecher, die mit dem System in Verbindung stehen, müssen registriert
werden. Um besonders hohe Identifikationsraten und eine große Zuverlässigkeit
des Identifikationsergebnisses zu gewährleisten, muss jeder Sprecher
registriert und eingetragen werden, indem eine bestimmte Menge von
vorbestimmtem und vordefiniertem Text gesprochen wird.
-
Die
Menge an Sprache von jedem der eingetragenen Sprecher sollte so
groß wie
möglich
sein, um innerhalb des Identifikationsprozesses eine gute Performanz
zu gewährleisten.
Andererseits sollte die aufzunehmende Sprache in der Eintragungsphase so
kurz wie möglich
sein, um die Unbequemlichkeit für
einen Benutzer zu minimieren.
-
In "Behaviour of Bayesian
Adaptation Method For Incremental Enrolment in Speaker Verification" von C. Fredouille
et al., Proceedings of 2000 International Conference on Acoustics,
Speech and Signal Processing, Istanbul, Türkei, 5. bis 9. Juni 2000, wird
ein inkrementelles Training von Client-Modellen in einem Sprecherverifikationssystem
vorgeschlagen. Dabei wird ein initiales Modell anhand einer sehr begrenzten
Menge von Daten trainiert und anschließend progressiv mittels Zugangsdaten
aktualisiert.
-
Der
vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren
zur zur Sprecheridentifikation bereitzustellen, welches die Last
der Eintragungsphase für
den Benutzer reduziert, und welches dabei eine gute Performanz gewährleistet, insbesondere
bezüglich
der Identifikationsrate der beteiligten Sprecher.
-
Die
Aufgabe wird gelöst
durch ein Verfahren zur Sprecheridentifikation gemäß Anspruch
1. Bevorzugte und vorteilhafte Ausführungsformen des erfindungsgemäßen Verfahrens
zur Sprecheridentifikation befinden sich innerhalb der abhängigen Ansprüche. Die
Aufgabe wird ebenso gelöst
durch ein System zur Sprecheridentifikation gemäß Anspruch 14 und ein Computerprogrammprodukt
gemäß Anspruch
15.
-
Das
erfindungsgemäße Verfahren
zur Sprecheridentifikation, insbesondere für ein Verfahren und/oder ein
System zur Spracherkennung, umfasst eine anfängliche Eintragungs- und/oder
Trainingsphase und eine Anwendungsphase. In der anfänglichen
Eintragungs- und/oder Trainingsphase wird gesprochene Eintragungssprache
wenigstens eines Sprechers gesammelt und/oder gespeichert als anfängliche
Identifikationssprachdaten innerhalb einer Menge von Identifikationssprachdaten.
Von den gesamten Identifikationssprachdaten werden Sprecheridentifikations-
und/oder Klassifizierungsdaten für den
Sprecher abgeleitet und/oder in einer Sprecherdatenbank gespeichert.
Während
der Anwendungsphase wird gesprochene Anwendungssprache von wenigstens
einem aktuellen Sprecher empfangen und bezüglich der Sprecheridentifikations- und/oder Klassifizierungsdaten
ausgewertet, die in der Sprecherdatenbank enthalten sind. Dies wird
durchgeführt,
um wenigstens den aktuellen Sprecher als bekannt oder unbekannt
zu klassifizieren. Weiterhin werden zumindest ein Teil der empfangenen
Anwendungssprache des aktuellen Sprechers, der als bereits bekannter
Sprecher klassifiziert wurde, als zusätzliche Identifikationssprachdaten
verwendet, um die Menge Identifikationssprachdaten für den aktuellen
Sprecher zu vergrößern und/oder
die Rate und Zuverlässigkeit
der Sprecheridentifikation zu verbessern, wobei Teile der Anwendungssprache
mit niedrigem Vertrauen bzw. Konfidenz als zusätzliche Identifikationssprachdaten
für einen
gegebenen bekannten Sprecher verwendet werden, die in Teilen der
Anwendungssprache mit hohem Vertrauen bzw. Konfidenz enthalten,
eingebettet oder von diesen umgeben sind, wobei diese Teile ein
vergleichsweise hohes Vertrauen, eine hohe Zuverlässigkeit
oder eine hohe Wahrscheinlichkeit, zu dem gegebenen bekannten Sprecher
zu gehören,
aufweisen.
-
Es
ist somit eine wesentliche Idee der vorliegenden Idee, nicht nur
gesprochene Sprache als anfängliche
Identifikationssprachdaten zu verwenden, die während einer anfänglichen
Eintragungs- und/oder Trainingsphase gesammelt wurden, um die Menge
von Identifikationssprachdaten zu bilden, auf welchen das Training
und die Performanz des Verfahrens zur Sprecheridentifikation basiert.
Es wird stattdessen vorgeschlagen, während der Anwendung des Verfahrens
zur Sprecheridentifikation empfangene und gesammelte gesprochene
Sprache als eine Datenquelle zu verwenden, auf welcher das Training
und die Verfeinerung des Identifikationsprozesses ebenso basieren.
Dies erhöht
die Menge von Identifikationssprachdaten und macht den Identifikationsprozess
daher sicherer und zuverlässiger.
-
Gemäß einer
bevorzugten Ausführungsform des
erfindungsgemäßen Verfahrens
zur Sprecheridentifikation wird daher vorgeschlagen, die zusätzlichen
Identifikationssprachdaten in die Menge von Identifikationssprachdaten
für jeden
Sprecher einzufügen
und einen zusätzlichen
Schritt zur Generierung und Aktualisierung der Sprecheridentifikationsdaten durchzuführen, in
Abhängigkeit
von der angereicherten Menge von Identifikationssprachdaten.
-
Der
Schritt zur Erzeugung und Aktualisierung der Sprecheridentifikations- und/oder Klassifizierungsdaten
kann online und in Echtzeit durchgeführt werden oder als ein Nachverarbeitungsschritt. Falls
der Generierungs- und Aktualisierungsschritt online durchgeführt wird,
kann dieser parallel zur Anwendung oder sequentiell während einer
Unterbrechung oder Pause der Anwendung ausgeführt werden.
-
Zu
Beginn des Anwendungs- oder Identifikationsprozesses oder -verfahrens,
erfolgt die Identifikation per se in Abhängigkeit von den anfänglichen Identifi kationssprachdaten.
Ganz zu Beginn der Anwendung des erfindungsgemäßen Verfahrens wird die eingehende
gesprochene Anwendungssprache daher klassifiziert mit Bezug zu den
Merkmalen bzw. Features und dem Vergleich zu den gegebenen anfänglichen
Identifikationssprachdaten.
-
Es
ist daher von besonderem Vorteil, Teile der Anwendungssprache als
zusätzliche
Identifikationssprachdaten für
einen gegebenen und bekannten Sprecher zu verwenden, die ein vergleichsweise niedriges
Vertrauen, eine niedrige Zuverlässigkeit oder
eine niedrige Wahrscheinlichkeit zu dem gegebenen bekannten Sprecher
zu gehören,
aufweisen, da diese Teile mit niedrigem Vertrauen der Anwendungssprache
eine große
Menge neuer Information übertragen,
die bisher noch nicht gesammelt wurde. Der Vergleich des Vertrauens,
der Zuverlässigkeit oder
der Wahrscheinlichkeit kann in Abhängigkeit eines ersten gegebenen
Schwellenwerts ausgeführt werden.
-
Insbesondere
können
im Falle von kontinuierlichen Äußerungen
Teile mit niedrigem Vertrauen der Anwendungssprache als zusätzliche
Identifikationssprachdaten für
einen gegebenen bekannten Sprecher verwendet werden, falls sie in
Teilen der Anwendungssprache mit hohem Vertrauen enthalten, eingebettet
oder von diesem umgeben sind, wobei diese Teile ein vergleichsweise
hohes Vertrauen, eine hohe Zuverlässigkeit oder eine hohe Wahrscheinlichkeit
zu dem gegebenen bekannten Sprecher zu gehören, aufweisen, insbesondere
in Bezug zu einem gegebenen zweiten Schwellenwert, welcher nicht
niedriger als der erste Schwellenwert ist. Dies bietet den Vorteil,
dass Teile mit niedrigem Vertrauen, die in Teilen der Anwendungssprache
mit hohem Vertrauen eingebettet sind, wahrscheinlich zum gleichen
Sprecher gehören,
aufgrund der Kontinuität der
gesprochenen Äußerung.
-
Die
Unterteilung von kontinuierlicher Sprache in Teile kann unter Verwendung
eines kontinuierlichen Abschnitts von Anwendungssprache ausgeführt werden,
die dann in Abschnitte eingeteilt wird, um die Teile der Anwendungssprache
zu bilden. Da Konfidenzmaße
das Vertrauen bzw. die Konfidenz oft in Abhängigkeit von Wörtern, Wortuntereinheiten oder
dergleichen bewerten, ist es von besonderem Vorteil, die Abschnitte
als Gruppen oder kurze Folgen von Wörtern oder dergleichen zu bilden,
anstatt diese als Teile des akustischen Signals auszuwählen.
-
Bevorzugt
werden die Abschnitte anschließend
bezüglich
ihres Vertrauens, ihrer Zuverlässigkeit
und/oder ihrer Wahrscheinlichkeit von einem gegebenen bekannten
Sprecher zu stammen, klassifiziert. Jeder Abschnitt wird separat
und isoliert klassifiziert, insbesondere durch den Vergleich mit
dem gegebenen ersten und zweiten Schwellenwert.
-
In
einer weiteren Ausführungsform
des erfindungsgemäßen Verfahrens
werden Äußerungen
innerhalb der Anwendungssprache nicht als zusätzliche Identifikationssprachdaten
verwendet, falls das Vertrauen bzw. die Konfidenz all ihrer Teile,
Abschnitte oder dergleichen niedrig sind, insbesondere unterhalb
des ersten Schwellenwerts. Andererseits werden Äußerungen innerhalb der Anwendungssprache als
bestimmte Äußerungen
innerhalb der zusätzlichen
Identifikationssprachdaten verwendet, falls das Vertrauen bzw. die
Konfidenz all ihrer Teile, Abschnitte oder dergleichen hoch sind,
und insbesondere falls das jeweilige Vertrauen bzw. der jeweilige
Konfidenzwert über
dem zweiten Schwellenwert liegen.
-
Da
die bestimmten Äußerungen
bezüglich eines
eingetragenen und registrierten Sprechers nicht viel neue Information übertragen,
werden diese bestimmten Äußerungen
für einen
gegebenen Sprecher von der Eintragung in die zusätzlichen Identifikationssprachdaten
für den
Sprecher zurückgewiesen, falls
die Menge der bestimmten Äußerungen,
die bereits gesammelt und in die zusätzliche Identifikationssprachdaten
eingefügt
wurden, einen gegebenen Schwellenwert für den Sprecher überschreiten.
Demgemäß kann die
Menge der bestimmten Äußerungen innerhalb
der zusätzlichen
Identifikationssprachdaten oder innerhalb der Identifikationssprachdaten
begrenzt werden, so dass das Verfahren auf Teile der Anwendungssprache
fokussiert wird, welche bezüglich
des aktuellen Sprechers wesentlich mehr Informationen übertragen,
d. h. die Teile mit geringem Vertrauen.
-
Das
erfindungsgemäße Verfahren
und sein Identifikationsprozess kann auf einem offenen Szenario
basieren, das Beiträge
von nicht eingetragenen Sprechern ermöglicht, und J oder es kann
in diesem Fall auf einem gewöhnlichen
Sprechermodell basieren.
-
Ein
weiterer Aspekt der vorliegenden Erfindung ist, ein System gemäß Anspruch
14 bereitzustellen.
-
Zusätzlich ist
es ein weiterer Aspekt der vorliegenden Erfindung ein Computerprogrammprodukt gemäß Anspruch
15 bereitzustellen.
-
Die
oben erwähnten
Aspekte und weitere Vorteile der vorliegenden Erfindung werden weiter ausgeführt, wobei
die folgenden Bemerkungen mit einbezogen werden:
-
Zur
Sprecheridentifikation sollte die Menge an Sprache von jedem eingetragenen
Sprecher so groß wie
möglich
sein, um eine gute Performanz bzw. Leistung und eine hohe Identifikationsrate
zu gewährleisten.
Die aufgenommene Sprache in der Eintragungsphase sollte jedoch kurz
sein, um die Unbequemlichkeit für
den Benutzer zu minimieren.
-
Es
wird daher vorgeschlagen, Sprache von Benutzern zu verwenden, die
nicht in der Eintragungsphase gesprochen wird, sondern in der Benutzungs-
oder Anwendungsphase, um die Datenmenge zu erhöhen, auf welcher das Identifikationstraining basiert.
Es wird daher vorgeschlagen, Sprache zu verwenden, die mit einer
niedrigen Zuverlässigkeit klassifiziert
wurde, welche jedoch in Sprache enthalten oder umgeben ist, welche
als Sprache mit hoher Zuverlässigkeit
von einem gegebenen und eingetragenen Sprecher klassifiziert wurde.
-
Alle
Sprecheridentifikationssysteme benötigen eine so genannte Eintragungsphase,
in der Sprache von allen Benutzern gesammelt und dem System zusammen
mit der entsprechenden Sprecheridentität bekanntgegeben wird.
-
Im
Allgemeinen wird dem Problem von ungenügendem Eintragungsmaterial
durch eine Verlängerung
der Eintragungsphase begegnet. Bei einigen Sprecherverifikationssystemen,
falls die Sprecheridentität
durch den Sprecher beansprucht wird, wurde vorgeschlagen, alle Sprache
zu verwenden, die die Verifikationsphase durchläuft, d. h. es wird angenommen,
dass diese Sprache von dem wahren Zielsprecher stammt, um die Menge
von Eintragungsmaterial zu erhöhen.
-
Die
Situation ist jedoch bei der Sprecheridentifikation unterschiedlich,
da die Sprecheridentität
zunächst
bestimmt werden muss, und die a priori Wahrscheinlichkeit, einen
Sprecher korrekt zu klassifizieren generell wesentlich niedriger
ist, als die a priori Wahrscheinlichkeit eines Gauklers bzw. Betrügers in einem
Sprecherverifikationssystem.
-
Zwei
wichtige Ideen der Erfindung sind die Verwendung von konfidenzverifizierter
Eingabesprache, um die Menge von Eintragungssprache zu erhöhen und
die Verwendung von Segmenten zwischen zwei Hoch-Konfidenzsegmenten
anstatt der ausschließlichen
Verwendung der beiden Hoch-Konfidenzsegmenten.
-
Aufgrund
der oben erwähnten
Situation müssen
aktuelle Verfahren des Standes der Technik zur Sprecheridentifikation
einen Ausgleich finden zwischen den beiden Zielen einer hohen Genauigkeit
bei der Erkennung und einer Bequemlichkeit für den Benutzer, da eine hohe
Erkennungsgenauigkeit nur erreicht werden kann, falls der Benutzer
für eine
lange Zeit spricht – mehrere
Minuten oder mehr – während der
Eintragungsphase; dies ist für
den Benutzer selbstverständlich
unbequem. Diese Eintragung umfasst das Lesen oder Wiederholen von Äußerungen, die
dem Benutzer durch das System oder das Verfahren angezeigt werden.
Die Eintragungsaufgabe ist fehleranfällig, mühsam und unbequem.
-
Es
wird daher vorgeschlagen, Sprache von dem Benutzer zu verwenden,
die nicht bei der Eintragung geäußert wird,
sondern während
der Anwendungsphase, um die Menge von Daten zu erhöhen, auf
welchen das Identifikationstraining basieren kann. Da diese Sprache
von dem Anwendungsszenario ausgewählt wird, besteht für den Sprecher
oder Benutzer kein zusätzliches
Hindernis. Der neue Ansatz vereint somit eine große Identifikationsgenauigkeit
mit einer hohen Benutzerbequemlichkeit und arbeitet gänzlich unüberwacht.
-
Anfänglich muss
eine Eintragung für
jeden Benutzer vorgenommen werden, die jedoch durch das System erkannt
wird. Die Eintragungsphase ist nicht unterschiedlich von der Eintragung
in aktuellen Sprecheridentifikationssystemen, mit der Ausnahme, dass
die Menge von aufgenommener Sprache geringer ist, um den Komfort
des Benutzers zu erhöhen.
-
Mit
den Eintragungsdaten wird ein Standardsprecheridentifikationssystem
trainiert gemäß einem der
in der Literatur beschriebenen Wege. Das vorgeschlagene erfindungsgemäße Verfahren
ist unabhängig
von dem Trainingsverfahren und der Modellart. Die einzige Forderung
ist, dass die Modellqualität
für mehr
Eintragungsdaten besser ist. Diese Bedingung ist sehr schwach und
wird bisher für
alle bekannten Algorithmen erfüllt.
-
Während der
Anwendungsphase des Systems wird die eingegebene Sprache als Sprache klassifiziert
von beispielsweise einem Sprecher B gegenüber den Sprechern A und C.
Anschließend
wird die aufgenommene kontinuierliche Äußerung in Abschnitte c1, ...,
c5 unterteilt, wobei insbesondere jeder der Abschnitte c1, ...,
c5 als Gruppe oder kurze Sequenz von Wörtern oder dergleichen aufgebaut ist.
Jeder der Abschnitte wird dann wiederum klassifiziert, und das Vertrauen
bzw. die Konfidenz für
das Klassifizierungergebnis wird aufgenommen bzw. gespeichert. Solch
eine Konfidenz kann für
ein probabilistisches Modell durch Normalisierung einer relativen
Likelihood (der Modellauswertung) für Sprecher B berechnet werden,
wobei die Normalisierung mittels der addierten Likelihoods von allen
Sprechern erfolgt, die bei einem geschlossenen Szenario per Definition
1 ergeben. Für
ein offenes Szenario, bei dem auch nicht eingetragene Sprecher das
System verwenden können
und die als nicht eingetragen erkannt werden sollen, kann ein generisches
Sprechermodell zu dem Modell addiert werden, um die Unterscheidung
zu unterstützen.
Falls die Konfidenzen von allen Teilen unterhalb eines vorbestimmten
Schwellenwerts liegen, wird die Äußerung nicht
verwendet. Falls alle Konfidenzen oberhalb des vorbestimmten Schwellenwerts
liegen, werden die Daten oder Äußerungen
zu den Eintragungsdaten addiert und das Modell wird nachtrainiert,
falls das System nicht verwendet wird. Nachtraining kann bei einem
Unterhaltungsroboter z. B. während
der Wiederaufladungsphase der Batterien ausgeführt werden, oder im Falle eines Hilfeschalters
während
einer Unterbrechung oder während
der Nacht. Dies erhöht
die Leistung bzw. Performanz des Systems.
-
Der
zur Speicherung der Daten verfügbare Speicher
ist jedoch begrenzt. Zusätzlich
bedeutet die hohe Konfidenz in die Sprecheridentität für den unbekannten
Sprecher, dass die Sprache sehr genau mit der gespeicherten Sprechercharakteristik übereinstimmt.
Dies wiederum bedeutet, dass diese Sprache nicht viel Information
zu dem Modell hinzufügt.
Die Menge von gesammelten Eintragungsdaten wird daher kontinuierlich überwacht.
Nachdem eine bestimmte Länge
von Sprache gespeichert wurde, werden keine weiteren Segmente mit
hohem Vertrauen hinzugefügt
und gespeichert.
-
In
dieser letzten Anpassungsphase werden nur Äußerungen verwendet, bei denen
das Vertrauen für
die Untersegmente – z.
B. c2 und c4 – gering
ist, jedoch für
angrenzende Untersegmente – z.
B. c1, c3 und c5 – hoch
sind. Da die Sprache nicht unterbrochen ist, kann angenommen werden,
dass sie von einer einzelnen Quelle oder einem einzelnen Sprecher stammt.
Teile der gesamten Äußerung – c2 und
c4 – weisen
neue Eigenschaften auf, die den Modellen oder dem System bisher
unbekannt sind. In der letzten Anpassungsphase werden daher im oben
erwähnten
Beispiel nur die Untersegmente c2 und c4 dem Eintragungsdatenspeicher
hinzugefügt.
Dies erhöht
die Robustheit der automatischen Anpassung durch Auswahl der wertvollsten
Teile der Daten.
-
Die
Erfindung kann wie folgt zusammengefasst werden: Die Eintragungsphase
wird verkürzt und
die anfängliche
Leistung des Systems oder des Verfahrens kann niedriger sein. Die
Leistung erhöht sich
jedoch automatisch, da der Benutzer während der Benutzung oder der
Anwendungsphase dem System mehr Sprache hinzufügt. Das System arbeitet besser
für Benutzer,
die das System häufiger
verwenden. Durch dieses Verhalten wird das durchschnittliche Leistungsniveau
automatisch erhöht. Durch
die besondere Auswahl von Benutzerdaten wird den Daten mehr Einfluss
gegeben, die den Systemmodellen weniger ähnlich sind. Dabei wird die Robustheit
gegenüber
Veränderungen
der Stimme eines Sprechers erhöht,
die beispielsweise durch Halsweh des Sprechers oder dergleichen
verursacht werden.
-
Im
Folgenden werden weitere Vorteile und Aspekte der Erfindung mit
Bezug zu den Figuren beschrieben.
-
1 ist
ein schematisches Blockdiagramm das eine bevorzugte Ausführungsform
des erfindungsgemäßen Verfahrens
zur Sprecheridentifikation beschreibt.
-
Die
Ausführungsform
des erfindungsgemäßen Verfahrens,
das in 1 gezeigt wird, ist im Wesentlichen aus drei Abschnitten
S10, S20 und S30 aufgebaut. Im ersten Abschnitt S10 wird die anfängliche
Eintragung ausgeführt.
Im zweiten Abschnitt S20 wird das Verfahren oder System anhand von
gegebenen Identifikationssprachdaten ISD trainiert. Im dritten Abschnitt
S30 wird das Verfahren bei einer bestimmten Anwendung angewendet,
nachdem der erste und zweite Abschnitt S10 und S20 der Eintragung
und des ersten Trainings zumindest einmal durchgeführt wurden.
-
In
einem ersten Schritt S11 des ersten Abschnitts S10 der anfänglichen
Eintragungsphase wird gesprochene Eintragungssprache ES empfangen.
In einem zweiten Schritt S12 wird die Eintragungssprache ES als
anfängliche
Identifikationssprachdaten IISD festgelegt und als ein Teil der
gesamten Menge von Identifikationssprachdaten ISD in einer Sprecherdatenbank
SDB im Schritt S13 gespeichert.
-
Im
zweiten Abschnitt S20 der Ausführungsform
von 1 wird die Trainingsphase durchgeführt, die
auf der Menge von Identifikationssprachdaten ISD basiert, welche
aktuell verfügbar
sind. Die Menge von Identifikationssprachdaten wird aus der Sprecherdatenbank
SDB im Schritt S21 abgerufen und im Schritt S22 werden dann Sprecheridentifikations-
und/oder Klassifizierungsdaten von der Menge von Identifikationssprachdaten
ISD generiert. Die generierten Sprecheridentifikations- und/oder
Klassifizierungsdaten SID werden in der Sprecherdatenbank SDB gespeichert.
-
Nachdem
die Schritte S10 und S20 der Eintragung und des Trainings zumindest
einmal ausgeführt
wurden, kann das Verfahren und das System angewendet werden. Der
Anwendungsschritt S30 kann in Personenverifikations- und -identifikationssystemen,
in ein System zur Spracherkennung oder dergleichen, eingefügt bzw.
integriert werden.
-
Im
ersten Schritt S31 der Anwendungsphase S30 wird gesprochene Anwendungssprache
AS empfangen. Die empfangene Anwendungssprache AS wird dann im Schritt
S32 klassifiziert und evaluiert. Im folgenden Schritt S33 werden
Sprecheridentifikations- und/oder -klassifizierungsdaten SID aus den
empfangenen und klassifizierten Anwendungssprachdaten AS generiert.
Im Vergleich zu der gegebenen Sprecherdatenbank SDB wird im Schritt
S34 überprüft, ob der
aktuelle Sprecher dem System oder dem Verfahren bekannt oder unbekannt
ist. Im Falle eines unbekannten Sprechers wird die empfangene Anwendungssprache
AS in der Ausführungsform
von 1 nicht weiter verarbeitet.
-
Falls
der aktuelle Sprecher im Schritt S34 als bekannter Sprecher klassifiziert
wird anhand der empfangenen Anwendungssprache AS und der gegebenen
Sprecherdatenbank SDB, wird die Anwendungssprache AS in Teile oder
Abschnitte unterteilt, nämlich
in drei Abschnitte c1, c2 und c3 im Schritt S35 in der Ausführungsform
von 1. Im folgenden Schritt S36 wird jeder der unterteilten
Abschnitte c1, c2 und c3 klassifiziert bezüglich deren jeweiliger Wahrscheinlichkeit
pj, die jeweils von einem gegebenen Wahrscheinlichkeitsmaß prob:
pj = prob(cj) abhängt.
-
In
den folgenden Schritten S37, S38, ..., werden unterschiedliche Fälle evaluiert,
wobei alle oder nur ausgewählte
Abschnitte c1, c2, c3 der Anwendungssprache als zusätzliche
Identifikationssprachdaten AISD in die Menge von Identifikationssprachdaten
ISD und in die Sprecherdatenbank SDB eingefügt werden.