-
Die
Erfindung betrifft ein Verfahren zur Sprecheridentifikation bei
einer Spracherkennung gemäß dem Oberbegriff
des Anspruchs 1.
-
In
vielen Fahrzeug-Infotainmentsystemen werden sprecherabhängige Verfahren
zur sprachlichen Namenswahl oder Favoritenauswahl angeboten, um
einem Benutzer die Auswahl eines zu sprechenden Wortes flexibel
gestalten lassen zu können. Der
Benutzer kann damit auch bei starkem Akzent, bei spezifischen Aussprachevarianten
oder gar einer zum sonstigen Dialog unterschiedlichen Sprache den von
ihm spezifisch trainierten Eintrag per Sprache auswählen.
-
Da
es gerade im Fahrzeug-Umfeld häufig vorkommt,
dass ein Fahrzeug beziehungsweise Automobil von verschiedenen Benutzern
verwendet wird, haben oft mehrere Benutzer sprecherabhängige Einträge trainiert.
Ziel ist es jedoch, automatisiert nur die für die gerade sprechende Person
in Frage kommenden Einträge
für die
Spracherkennersuche zu verwenden und nur einen der selbst trainierten Einträge auszugeben.
Besonders wenn die Benutzer z. B. bei Fahrzeugpools, Taxis oder
Mietwagen aus unterschiedlichen Umfeldern kommen, ist eine gegenseitige
fälschliche
Erkennung im Rahmen der Spracherkennung unerwünscht, da sonst Adresseinträge anderer
Benutzer angezeigt oder gar gewählt werden.
-
In
höherwertigen
Fahrzeugklassen sind Benutzerprofile bekannt und werden über Schlüsselzuordnungen
durchgeführt.
Dieses Konzept könnte auch
auf sprecherabhängige
Verfahren erweitert werden, bleibt aber dabei auf die Menge der
Schlüsselinhaber
begrenzt und ist daher für
die oben genannten Szenarien, wie beispielsweise Fahrzeugpools,
eher ungeeignet.
-
Andere
Verfahren zur bewussten Auswahl von Benutzerprofilen erfordern manuelle
Interaktionen zur Auswahl und Administration der Benutzer und sind
damit ein zusätzlicher
unerwünschter
Aufwand für
die Benutzer.
-
Schließlich bleibt
noch das Löschen
der Einträge
nach deren Verwendung. Dieses ist jedoch aufgrund des Trainingsaufwandes
impraktikabel.
-
Als
eine Aufgabe der Erfindung kann es daher angesehen werden, ein Verfahren
zu entwickeln, welches eine automatische Auswahl der von einem aktuellen
Sprecher beziehungsweise Benutzer trainierten Einträge erlaubt.
-
Die
Aufgabe wird gelöst
durch ein Verfahren zur Sprecheridentifikation bei einer Spracherkennung,
bei welcher Sprecheridentifikation ein von einem Benutzer trainierter,
zumindest einen Teil eines Vokabulars einer Spracherkennung bildender
sprecherabhängiger
Eintrag aus mehreren von unterschiedlichen Benutzern trainierten
Einträgen
ausgewählt
wird. Erfindungsgemäß ist dieses
Verfahren dadurch gekennzeichnet, dass zunächst beim Training sprecherabhängiger Einträge für eine spätere Sprecheridentifikation
notwendige, benutzerspezifische Merkmale während eines so genannten Enrollments
extrahiert, und als Benutzermodell abgespeichert werden und dieses
Benutzermodell dem zugehörigen
Eintrag beziehungsweise den zugehörigen Einträgen in einer die Einträge aufbewahrenden
Datenbasis zugeordnet wird. Bei einer späteren Sprecheridentifikation
beziehungsweise bei einem späteren
Sprechererkennungsvorgang, werden dann aus einer sprachlichen Äußerung eines
Benutzers beziehungsweise aus der Sprache des Benutzers erzeugten
Audio-Daten benutzerspezifische Merkmale extrahiert. Anschließend wird
mit diesen Merkmalen eine Sprecheridentifikation beziehungsweise
-erkennung auf Basis der in der Datenbasis vorhandenen Benutzermodelle
beziehungsweise auf Basis der den Einträgen zugeordneten Benutzermodellen
durchgeführt,
indem aus mehreren von unterschiedlichen Benutzern trainierten Einträgen zumindest
ein von einem Benutzer trainierter sprecherabhängiger Eintrag ausgewählt wird,
dessen zugeordnetes benutzerspezifisches Modell den während der
Sprecheridentifikation beziehungsweise -erkennung extrahierten aktuellen
Merkmalen am ähnlichsten
ist, so dass nur die mit einer vorgegebenen Konfidenz passenden
sprecherabhängigen
Einträge
dem Vokabular für
die Spracherkennung zugeführt,
freigeschaltet oder in einer Nachverarbeitung ausselektiert werden.
-
Vorteile
der Erfindung gegenüber
dem Stand der Technik ergeben sich dadurch, dass nur die von dem
jeweiligen Benutzer eingegebenen sprecherabhängigen Einträge in beziehungsweise
bei der Spracherkennung berücksichtigt
werden. Mit dem erfindungsgemäßen Verfahren
wird es ermöglicht,
ein automatisiertes Benutzerkonzept für specherabhängige Einträge aufzubauen.
Benutzer bekommen so am Ende der Spracherkennung nur Ergebnisse
aus ihren jeweils eigenen Einträgen,
auch wenn verschiedene Benutzer gleich klingende Namen trainiert
haben. Die Erkennungsrate bei der Spracherkennung steigt, da keine
anderen Einträge
fälschlich
erkannt werden können.
Ebenso kann potentiell eine Performance-Verbesserung erzielt werden,
wenn bei der Suche nur eigene Einträge berücksichtigt werden. Ein Löschen der
eigenen Einträge
nach Benutzung des Systems ist ebenfalls hinfällig. Ein kommerzieller Vorteil
ergibt sich dadurch, dass mit der Erfindung die Technologie einer
Sprecheridentifikation bei der Spracherkennung in das breite Anwendungsgebiet der
Low- und Mid-Range Infotainmentprodukte eingesetzt werden kann.
-
Eine
vorteilhafte Ausgestaltung der Erfindung sieht vor, dass das Ergebnis
der Sprecheridentifikation beziehungsweise -erkennung die Auswahl desjenigen
Eintrags beziehungsweise derjenige Eintrag ist, dessen zugeordnetes
Benutzermodell den aktuellen Merkmalen am ähnlichsten ist. Dadurch ist das
Ergebnis der Sprecheridentifikation beziehungsweise -erkennung der
Benutzer, dessen Benutzermodell den aktuellen Merkmalen am ähnlichsten
ist.
-
Eine
andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass
das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung
die Auswahl einer Liste einer bestimmten Anzahl von Einträgen ist
beziehungsweise derjenige Eintrag ist, deren zugeordnete Benutzermodelle
den aktuellen Merkmalen am ähnlichsten
ist. Anders ausgedrückt
ist das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung
eine Liste mit einer bestimmten Anzahl an Benutzern, deren Benutzermodelle
den aktuellen Merkmalen am ähnlichsten
sind.
-
Die
benutzerspezifischen Merkmale umfassen vorzugsweise biometrische
Merkmale.
-
Eine
vorteilhafte Ausgestaltung der Erfindung sieht vor, dass das Training
sprecherabhängiger
Einträge
zumindest zweimal durchgeführt
wird.
-
Eine
besonders vorteilhafte Ausgestaltung der Erfindung sieht vor, dass
sowohl Spracherkennung als auch Sprecheridentifikation beziehungsweise
-erkennung, beziehungsweise der Identifikationsvorgang parallel
ablaufen, um die Audio-Daten nicht für den jeweiligen anderen Prozess
zwischenpuffern zu müssen.
-
Dabei
ist denkbar, dass zu Beginn einer sprachlichen Äußerung vorzugsweise noch keine qualifizierte
Aussage zur Sprecheridentifikation beziehungsweise zur Sprecheridentität erfolgt,
so dass es zu keiner Vorab-Einschränkung des Vokabulars kommt
beziehungsweise so dass nur vereinzelt eine Vorab-Einschränkung des
Vokabulars gegeben ist, z. B. wenn der sprecherabhängige Eintrag
am Ende einer Äußerung auftaucht.
Es können
jedoch bereits im Verlauf der Spracherkennung dann bestimmte Hypothesen
eliminiert werden und somit eine potentielle Verschnellerung erreicht
werden. Die Nachbearbeitung der Ergebnisse bleibt dabei bestehen.
-
Eine
weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass
zumindest eine Vorab-Eingrenzung der Auswahl über eine Schlüsselzuordnung
erfolgt.
-
Eine
zusätzliche,
besonders vorteilhafte Ausgestaltung der Erfindung sieht vor, dass
beim extrahieren benutzerspezifischer Merkmale zumindest beim Training
sprecherabhängiger
Einträge
ein Akkumulieren z. B. des Datenmaterials über eine Benutzersitzung, beispielsweise
während
einer Fahrt, vorzugsweise im Rahmen von Merkmalsschwellwerten durchgeführt wird.
Da bei der Spracherkennung in der Regel eher kurze Äußerungen
verwendet werden, kann ein Akkumulieren des Datenmaterials über eine
Benutzersitzung, d. h. während
einer Fahrt, im Rahmen von Merkmalsschwellwerten durchgeführt werden.
Falls der Sprecher dabei in einzelnen Äußerungen zu stark von den Merkmalsschwellwerten
abweicht, werden diese Äußerungen
nicht zur Akkumulation des Datenmaterials verwendet.
-
Vorzugsweise
wird ein über
eine Sprachbedienung angebotenes Vorlesen existierender Einträge auf den
jeweiligen Benutzer beschränkt,
so dass dieser nur seine eigenen Einträge vorgelesen bekommt.
-
Eine
andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass
zur Sprecheridentifikation zusätzliche
andere biometrische Identifikationsmechanismen verwendet werden,
wie etwa Gesichts- oder Fingerabdruckerkennung.
-
Dabei
ist denkbar, dass durch die zusätzlichen
anderen biometrische Identifikationsmechanismen zu einer Vorab-Auswahl
des Vokabulars verwendet werden.
-
Ein
Ausführungsbeispiel
der Erfindung ist in der einzigen Zeichnung 1 dargestellt
und wird nachfolgend näher
erläutert.
Dabei zeigt
-
1 eine
schematische Darstellung eines Verfahrens zur Sprecheridentifikation
bei einer Spracherkennung, wobei ein von einem Benutzer trainierter,
zumindest einen Teil eines Vokabulars einer Spracherkennung bildender
sprecherabhängiger Eintrag
aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird.
-
Bei
einer Spracherkennung wird vorzugsweise zumindest ein Teil eines
Vokabulars durch einen von einem Benutzer trainierten, sprecherabhängigen Eintrag
gebildet. Um solche Einträge
benutzerspezifisch eindeutig aus einer Vielzahl von in einer Datenbasis
abgelegten Einträgen
auszuwählen
ist erfindungsgemäß eine automatische
Sprecheridentifikation vorgesehen, welche eine automatische Auswahl des
beziehungsweise der von einem aktuellen Sprecher beziehungsweise
Benutzer trainierten Einträge erlaubt.
-
Hierzu
werden beim Training der sprecherabhängigen Einträge, das
in der Regel zweimal durchgeführt
wird, die für
eine spätere
Sprecheridentifikation notwendigen, benutzerspezifischen, vorzugsweise
biometrischen Merkmale während
eines sogenannten Enrollments extrahiert, als Benutzermodell abgespeichert
und dieses Benutzermodell dem zugehörigen Eintrag beziehungsweise
den zugehörigen
Einträgen
in der Datenbasis zugeordnet.
-
Bei
einem späteren
Spracherkennungsvorgang werden aus einem Audio-Signal einer sprachlichen Äußerung eines
Benutzers beziehungsweise Sprechers erzeugten Audio-Daten bei einer
Spracherkennung die biometrischen Benutzermerkmale extrahiert. Mit
diesen Merkmalen kann nun eine Sprecheridentifikation auf Basis
der in der Datenbasis vorhandenen Benutzermodelle durchgeführt werden.
Das Ergebnis der Sprecheridentifikation ist der Benutzer, dessen
Modell den aktuellen Merkmalen am ähnlichsten ist beziehungsweise
eine Liste mit einer bestimmten Anzahl an Benutzern, deren Modelle den
aktuellen Merkmalen am ähnlichsten
sind.
-
Für die Spracherkennung
werden dann nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular
zugeführt,
freigeschaltet oder in einer Nachverarbeitung ausselektiert. Vorzugsweise
werden sowohl Spracher kennung als auch der Identifikationsvorgang
parallel durchgeführt,
um die Audio-Daten nicht für
den jeweiligen anderen Prozess zwischenpuffern zu müssen. Daher
wird zu Beginn der Äußerung vorzugsweise
noch keine qualifizierte Aussage zur Identität des Sprechers gegeben und
damit nur vereinzelt eine Vorab-Einschränkung des Vokabulars erfolgen,
z. B. wenn der sprecherabhängige
Eintrag am Ende einer Äußerung auftaucht.
Es können
jedoch bereits im Verlauf der Spracherkennung dann bestimmte Hypothesen
eliminiert werden und somit eine potentielle Verschnellerung der
Spracherkennung erreicht werden. Die Nachbearbeitung der Ergebnisse
bleibt dabei bestehen.
-
1 zeigt
einen schematischen Aufbau zur Durchführung eines erfindungsgemäßen Verfahrens beziehungsweise
eine schematische Darstellung dessen Ablaufs. Über ein Mikrophon 01 werden sprachliche Äußerungen
eines Benutzers erfasst und in einen auch als Audio-Signal bezeichneten
Audio-Input AI beziehungsweise in Audio-Daten AI umgewandelt. Die
Audio-Daten AI werden einem die Spracherkennung durchführenden
Spracherkennungsmodul 02 zugeführt. Parallel dazu erfolgt
in einem Modul 03 eine Extraktion von Sprechermerkmalen
SM beziehungsweise von benutzerspezifischen, vorzugsweise biometrischen
Merkmalen SM.
-
Die
Sprechermerkmale SM werden während des
Trainings eines sprecherabhängigen
Eintrags als Benutzermodell abgespeichert und dem zugehörigen Eintrag
in einer Datenbasis 05 zugeordnet, so dass die Datenbasis 05 dann
sprecherabhängige
Einträge beziehungsweise
Vokabulareinträge
sowie Benutzer beziehungsweise Sprechermodelle mit Zuordnung zwischen
Sprechermodellen und sprecherabhängigen
Einträgen
enthält.
-
Bei
einem späteren
Spracherkennungsvorgang werden die Sprechermerkmale SM dazu verwendet,
mittels eines Sprecheridentifikationsmoduls 04 eine Sprecheridentifikation
auf Basis der in der Datenbasis 05 vorhandenen Benutzermodelle
durchzuführen.
Das Ergebnis der Sprecheridentifikation ist eine Auswahl AV an in
Frage kommenden sprecherabhängigen
Vokabulareinträ gen.
Diese Auswahl AV kann genau der Benutzer, dessen Modell den aktuellen
Merkmalen SM am ähnlichsten
ist, oder eine Liste mit einer bestimmten Anzahl an Benutzern, deren Modelle
den aktuellen Merkmalen SM am ähnlichsten
sind umfassen. Das Sprecheridentifikationsmodul 04 stellt
diese Auswahl dem Spracherkennungsmodul 02 zur Verfügung, so
dass für
die Spracherkennung dann nur die mit einer vorgegebenen Konfidenz
passenden sprecherabhängigen
Einträge
dem Vokabular zugeführt,
freigeschaltet oder in einer Nachverarbeitung ausselektiert werden.
Als Ergebnis wird so ein besseres und schnelleres Spracherkennungsergebnis
SE der von dem Spracherkennungsmodul 02 durchgeführten Spracherkennung
erreicht.
-
Mit
dem erfindungsgemäßen Verfahren
wird es ermöglicht,
ein automatisiertes Benutzerkonzept für specherabhängige Einträge aufzubauen.
Benutzer bekommen am Ende der Spracherkennung nur Ergebnisse aus
ihren jeweils eigenen Einträgen, auch
wenn verschiedene Benutzer gleich klingende Namen trainiert haben.
Die Erkennungsrate bei der Spracherkennung steigt, da keine anderen
Einträge fälschlich
erkannt werden können.
Ebenso kann potentiell eine Performance-Verbesserung erzielt werden,
wenn bei der Suche nur eigene Einträge berücksichtigt werden.
-
Ein
Löschen
der eigenen Einträge
nach Benutzung des Systems ist ebenfalls hinfällig.
-
Ein
kommerzieller Vorteil ist, dass mit der Erfindung die Technologie
einer Sprecheridentifikation in das breite Anwendungsgebiet der
Low- und Mid-Range Infotainmentprodukte eingesetzt werden kann.
-
Da
bei der Spracherkennung in der Regel eher kurze Äußerungen verwendet werden,
kann ein Akkumulieren des Datenmaterials über eine Benutzersitzung, d.
h. während
einer Fahrt, im Rahmen von Merkmalsschwellwerten durchgeführt werden. Falls
der Sprecher dabei in einzelnen Äußerungen
zu stark von den Merkmalsschwellwerten abweicht, werden diese Äußerungen
nicht zur Akkumulation des Datenmaterials verwendet.
-
Ferner
kann auch das Vorlesen der existierenden Einträge, das in der Regel über die
Sprachbedienung angeboten wird, auf den jeweiligen Benutzer beschränkt sein,
so dass er nur seine eigenen Einträge vorgelesen bekommt.
-
Das
erfindungsgemäße Verfahren
kann darüber
hinaus natürlich
noch um andere biometrische Identifikationsmechanismen erweitert
werden, wie etwa Gesichts- oder Fingerabdruckerkennung, sofern diese
in Fahrzeugen verfügbar
sind. Hierbei kann die Identifikation bereits vor Eingabe einer Äußerung erfolgen,
beziehungsweise eine Identität
eines Sprechers beziehungsweise Benutzers bereits vor Eingabe einer Äußerung festgestellt
werden, und somit eine Vorab-Auswahl des Vokabulars getroffen werden.