DE102008024257A1

DE102008024257A1 - Verfahren zur Sprecheridentifikation bei einer Spracherkennung

Info

Publication number: DE102008024257A1
Application number: DE102008024257A
Authority: DE
Inventors: Stephan Dr. Grashey; Klaus Lukas
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2008-05-20
Filing date: 2008-05-20
Publication date: 2009-11-26

Abstract

Es wird ein Verfahren zur Sprecheridentifikation bei einer Spracherkennung beschrieben, bei dem ein von einem Benutzer trainierter, zumindest einen Teil eines Vokabulars der Spracherkennung bildender sprecherabhängiger Eintrag aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird. Dabei werden zunächst beim Training sprecherabhängiger Einträge für eine spätere Sprecheridentifikation notwendige, benutzerspezifische Merkmale extrahiert und als Benutzermodell abgespeichert. Dieses Benutzermodell wird dem zugehörigen Eintrag zugeordnet. Bei einer späteren Sprecheridentifikation werden dann aus einer sprachlichen Äußerung eines Benutzers benutzerspezifische Merkmale extrahiert. Anschließend wird aus mehreren von unterschiedlichen Benutzern trainierten Einträgen zumindest ein Eintrag ausgewählt, dessen zugeordnetes benutzerspezifisches Modell den während der Sprecheridentifikation extrahierten aktuellen Merkmalen am ähnlichsten ist, so dass nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular für die Spracherkennung zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert werden.

Description

Die Erfindung betrifft ein Verfahren zur Sprecheridentifikation bei einer Spracherkennung gemäß dem Oberbegriff des Anspruchs 1.
In vielen Fahrzeug-Infotainmentsystemen werden sprecherabhängige Verfahren zur sprachlichen Namenswahl oder Favoritenauswahl angeboten, um einem Benutzer die Auswahl eines zu sprechenden Wortes flexibel gestalten lassen zu können. Der Benutzer kann damit auch bei starkem Akzent, bei spezifischen Aussprachevarianten oder gar einer zum sonstigen Dialog unterschiedlichen Sprache den von ihm spezifisch trainierten Eintrag per Sprache auswählen.
Da es gerade im Fahrzeug-Umfeld häufig vorkommt, dass ein Fahrzeug beziehungsweise Automobil von verschiedenen Benutzern verwendet wird, haben oft mehrere Benutzer sprecherabhängige Einträge trainiert. Ziel ist es jedoch, automatisiert nur die für die gerade sprechende Person in Frage kommenden Einträge für die Spracherkennersuche zu verwenden und nur einen der selbst trainierten Einträge auszugeben. Besonders wenn die Benutzer z. B. bei Fahrzeugpools, Taxis oder Mietwagen aus unterschiedlichen Umfeldern kommen, ist eine gegenseitige fälschliche Erkennung im Rahmen der Spracherkennung unerwünscht, da sonst Adresseinträge anderer Benutzer angezeigt oder gar gewählt werden.
In höherwertigen Fahrzeugklassen sind Benutzerprofile bekannt und werden über Schlüsselzuordnungen durchgeführt. Dieses Konzept könnte auch auf sprecherabhängige Verfahren erweitert werden, bleibt aber dabei auf die Menge der Schlüsselinhaber begrenzt und ist daher für die oben genannten Szenarien, wie beispielsweise Fahrzeugpools, eher ungeeignet.
Andere Verfahren zur bewussten Auswahl von Benutzerprofilen erfordern manuelle Interaktionen zur Auswahl und Administration der Benutzer und sind damit ein zusätzlicher unerwünschter Aufwand für die Benutzer.
Schließlich bleibt noch das Löschen der Einträge nach deren Verwendung. Dieses ist jedoch aufgrund des Trainingsaufwandes impraktikabel.
Als eine Aufgabe der Erfindung kann es daher angesehen werden, ein Verfahren zu entwickeln, welches eine automatische Auswahl der von einem aktuellen Sprecher beziehungsweise Benutzer trainierten Einträge erlaubt.
Die Aufgabe wird gelöst durch ein Verfahren zur Sprecheridentifikation bei einer Spracherkennung, bei welcher Sprecheridentifikation ein von einem Benutzer trainierter, zumindest einen Teil eines Vokabulars einer Spracherkennung bildender sprecherabhängiger Eintrag aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird. Erfindungsgemäß ist dieses Verfahren dadurch gekennzeichnet, dass zunächst beim Training sprecherabhängiger Einträge für eine spätere Sprecheridentifikation notwendige, benutzerspezifische Merkmale während eines so genannten Enrollments extrahiert, und als Benutzermodell abgespeichert werden und dieses Benutzermodell dem zugehörigen Eintrag beziehungsweise den zugehörigen Einträgen in einer die Einträge aufbewahrenden Datenbasis zugeordnet wird. Bei einer späteren Sprecheridentifikation beziehungsweise bei einem späteren Sprechererkennungsvorgang, werden dann aus einer sprachlichen Äußerung eines Benutzers beziehungsweise aus der Sprache des Benutzers erzeugten Audio-Daten benutzerspezifische Merkmale extrahiert. Anschließend wird mit diesen Merkmalen eine Sprecheridentifikation beziehungsweise -erkennung auf Basis der in der Datenbasis vorhandenen Benutzermodelle beziehungsweise auf Basis der den Einträgen zugeordneten Benutzermodellen durchgeführt, indem aus mehreren von unterschiedlichen Benutzern trainierten Einträgen zumindest ein von einem Benutzer trainierter sprecherabhängiger Eintrag ausgewählt wird, dessen zugeordnetes benutzerspezifisches Modell den während der Sprecheridentifikation beziehungsweise -erkennung extrahierten aktuellen Merkmalen am ähnlichsten ist, so dass nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular für die Spracherkennung zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert werden.
Vorteile der Erfindung gegenüber dem Stand der Technik ergeben sich dadurch, dass nur die von dem jeweiligen Benutzer eingegebenen sprecherabhängigen Einträge in beziehungsweise bei der Spracherkennung berücksichtigt werden. Mit dem erfindungsgemäßen Verfahren wird es ermöglicht, ein automatisiertes Benutzerkonzept für specherabhängige Einträge aufzubauen. Benutzer bekommen so am Ende der Spracherkennung nur Ergebnisse aus ihren jeweils eigenen Einträgen, auch wenn verschiedene Benutzer gleich klingende Namen trainiert haben. Die Erkennungsrate bei der Spracherkennung steigt, da keine anderen Einträge fälschlich erkannt werden können. Ebenso kann potentiell eine Performance-Verbesserung erzielt werden, wenn bei der Suche nur eigene Einträge berücksichtigt werden. Ein Löschen der eigenen Einträge nach Benutzung des Systems ist ebenfalls hinfällig. Ein kommerzieller Vorteil ergibt sich dadurch, dass mit der Erfindung die Technologie einer Sprecheridentifikation bei der Spracherkennung in das breite Anwendungsgebiet der Low- und Mid-Range Infotainmentprodukte eingesetzt werden kann.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung die Auswahl desjenigen Eintrags beziehungsweise derjenige Eintrag ist, dessen zugeordnetes Benutzermodell den aktuellen Merkmalen am ähnlichsten ist. Dadurch ist das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung der Benutzer, dessen Benutzermodell den aktuellen Merkmalen am ähnlichsten ist.
Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung die Auswahl einer Liste einer bestimmten Anzahl von Einträgen ist beziehungsweise derjenige Eintrag ist, deren zugeordnete Benutzermodelle den aktuellen Merkmalen am ähnlichsten ist. Anders ausgedrückt ist das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung eine Liste mit einer bestimmten Anzahl an Benutzern, deren Benutzermodelle den aktuellen Merkmalen am ähnlichsten sind.
Die benutzerspezifischen Merkmale umfassen vorzugsweise biometrische Merkmale.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass das Training sprecherabhängiger Einträge zumindest zweimal durchgeführt wird.
Eine besonders vorteilhafte Ausgestaltung der Erfindung sieht vor, dass sowohl Spracherkennung als auch Sprecheridentifikation beziehungsweise -erkennung, beziehungsweise der Identifikationsvorgang parallel ablaufen, um die Audio-Daten nicht für den jeweiligen anderen Prozess zwischenpuffern zu müssen.
Dabei ist denkbar, dass zu Beginn einer sprachlichen Äußerung vorzugsweise noch keine qualifizierte Aussage zur Sprecheridentifikation beziehungsweise zur Sprecheridentität erfolgt, so dass es zu keiner Vorab-Einschränkung des Vokabulars kommt beziehungsweise so dass nur vereinzelt eine Vorab-Einschränkung des Vokabulars gegeben ist, z. B. wenn der sprecherabhängige Eintrag am Ende einer Äußerung auftaucht. Es können jedoch bereits im Verlauf der Spracherkennung dann bestimmte Hypothesen eliminiert werden und somit eine potentielle Verschnellerung erreicht werden. Die Nachbearbeitung der Ergebnisse bleibt dabei bestehen.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zumindest eine Vorab-Eingrenzung der Auswahl über eine Schlüsselzuordnung erfolgt.
Eine zusätzliche, besonders vorteilhafte Ausgestaltung der Erfindung sieht vor, dass beim extrahieren benutzerspezifischer Merkmale zumindest beim Training sprecherabhängiger Einträge ein Akkumulieren z. B. des Datenmaterials über eine Benutzersitzung, beispielsweise während einer Fahrt, vorzugsweise im Rahmen von Merkmalsschwellwerten durchgeführt wird. Da bei der Spracherkennung in der Regel eher kurze Äußerungen verwendet werden, kann ein Akkumulieren des Datenmaterials über eine Benutzersitzung, d. h. während einer Fahrt, im Rahmen von Merkmalsschwellwerten durchgeführt werden. Falls der Sprecher dabei in einzelnen Äußerungen zu stark von den Merkmalsschwellwerten abweicht, werden diese Äußerungen nicht zur Akkumulation des Datenmaterials verwendet.
Vorzugsweise wird ein über eine Sprachbedienung angebotenes Vorlesen existierender Einträge auf den jeweiligen Benutzer beschränkt, so dass dieser nur seine eigenen Einträge vorgelesen bekommt.
Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zur Sprecheridentifikation zusätzliche andere biometrische Identifikationsmechanismen verwendet werden, wie etwa Gesichts- oder Fingerabdruckerkennung.
Dabei ist denkbar, dass durch die zusätzlichen anderen biometrische Identifikationsmechanismen zu einer Vorab-Auswahl des Vokabulars verwendet werden.
Ein Ausführungsbeispiel der Erfindung ist in der einzigen Zeichnung 1 dargestellt und wird nachfolgend näher erläutert. Dabei zeigt
1 eine schematische Darstellung eines Verfahrens zur Sprecheridentifikation bei einer Spracherkennung, wobei ein von einem Benutzer trainierter, zumindest einen Teil eines Vokabulars einer Spracherkennung bildender sprecherabhängiger Eintrag aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird.
Bei einer Spracherkennung wird vorzugsweise zumindest ein Teil eines Vokabulars durch einen von einem Benutzer trainierten, sprecherabhängigen Eintrag gebildet. Um solche Einträge benutzerspezifisch eindeutig aus einer Vielzahl von in einer Datenbasis abgelegten Einträgen auszuwählen ist erfindungsgemäß eine automatische Sprecheridentifikation vorgesehen, welche eine automatische Auswahl des beziehungsweise der von einem aktuellen Sprecher beziehungsweise Benutzer trainierten Einträge erlaubt.
Hierzu werden beim Training der sprecherabhängigen Einträge, das in der Regel zweimal durchgeführt wird, die für eine spätere Sprecheridentifikation notwendigen, benutzerspezifischen, vorzugsweise biometrischen Merkmale während eines sogenannten Enrollments extrahiert, als Benutzermodell abgespeichert und dieses Benutzermodell dem zugehörigen Eintrag beziehungsweise den zugehörigen Einträgen in der Datenbasis zugeordnet.
Bei einem späteren Spracherkennungsvorgang werden aus einem Audio-Signal einer sprachlichen Äußerung eines Benutzers beziehungsweise Sprechers erzeugten Audio-Daten bei einer Spracherkennung die biometrischen Benutzermerkmale extrahiert. Mit diesen Merkmalen kann nun eine Sprecheridentifikation auf Basis der in der Datenbasis vorhandenen Benutzermodelle durchgeführt werden. Das Ergebnis der Sprecheridentifikation ist der Benutzer, dessen Modell den aktuellen Merkmalen am ähnlichsten ist beziehungsweise eine Liste mit einer bestimmten Anzahl an Benutzern, deren Modelle den aktuellen Merkmalen am ähnlichsten sind.
Für die Spracherkennung werden dann nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert. Vorzugsweise werden sowohl Spracher kennung als auch der Identifikationsvorgang parallel durchgeführt, um die Audio-Daten nicht für den jeweiligen anderen Prozess zwischenpuffern zu müssen. Daher wird zu Beginn der Äußerung vorzugsweise noch keine qualifizierte Aussage zur Identität des Sprechers gegeben und damit nur vereinzelt eine Vorab-Einschränkung des Vokabulars erfolgen, z. B. wenn der sprecherabhängige Eintrag am Ende einer Äußerung auftaucht. Es können jedoch bereits im Verlauf der Spracherkennung dann bestimmte Hypothesen eliminiert werden und somit eine potentielle Verschnellerung der Spracherkennung erreicht werden. Die Nachbearbeitung der Ergebnisse bleibt dabei bestehen.
1 zeigt einen schematischen Aufbau zur Durchführung eines erfindungsgemäßen Verfahrens beziehungsweise eine schematische Darstellung dessen Ablaufs. Über ein Mikrophon 01 werden sprachliche Äußerungen eines Benutzers erfasst und in einen auch als Audio-Signal bezeichneten Audio-Input AI beziehungsweise in Audio-Daten AI umgewandelt. Die Audio-Daten AI werden einem die Spracherkennung durchführenden Spracherkennungsmodul 02 zugeführt. Parallel dazu erfolgt in einem Modul 03 eine Extraktion von Sprechermerkmalen SM beziehungsweise von benutzerspezifischen, vorzugsweise biometrischen Merkmalen SM.
Die Sprechermerkmale SM werden während des Trainings eines sprecherabhängigen Eintrags als Benutzermodell abgespeichert und dem zugehörigen Eintrag in einer Datenbasis 05 zugeordnet, so dass die Datenbasis 05 dann sprecherabhängige Einträge beziehungsweise Vokabulareinträge sowie Benutzer beziehungsweise Sprechermodelle mit Zuordnung zwischen Sprechermodellen und sprecherabhängigen Einträgen enthält.
Bei einem späteren Spracherkennungsvorgang werden die Sprechermerkmale SM dazu verwendet, mittels eines Sprecheridentifikationsmoduls 04 eine Sprecheridentifikation auf Basis der in der Datenbasis 05 vorhandenen Benutzermodelle durchzuführen. Das Ergebnis der Sprecheridentifikation ist eine Auswahl AV an in Frage kommenden sprecherabhängigen Vokabulareinträ gen. Diese Auswahl AV kann genau der Benutzer, dessen Modell den aktuellen Merkmalen SM am ähnlichsten ist, oder eine Liste mit einer bestimmten Anzahl an Benutzern, deren Modelle den aktuellen Merkmalen SM am ähnlichsten sind umfassen. Das Sprecheridentifikationsmodul 04 stellt diese Auswahl dem Spracherkennungsmodul 02 zur Verfügung, so dass für die Spracherkennung dann nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert werden. Als Ergebnis wird so ein besseres und schnelleres Spracherkennungsergebnis SE der von dem Spracherkennungsmodul 02 durchgeführten Spracherkennung erreicht.
Mit dem erfindungsgemäßen Verfahren wird es ermöglicht, ein automatisiertes Benutzerkonzept für specherabhängige Einträge aufzubauen. Benutzer bekommen am Ende der Spracherkennung nur Ergebnisse aus ihren jeweils eigenen Einträgen, auch wenn verschiedene Benutzer gleich klingende Namen trainiert haben. Die Erkennungsrate bei der Spracherkennung steigt, da keine anderen Einträge fälschlich erkannt werden können. Ebenso kann potentiell eine Performance-Verbesserung erzielt werden, wenn bei der Suche nur eigene Einträge berücksichtigt werden.
Ein Löschen der eigenen Einträge nach Benutzung des Systems ist ebenfalls hinfällig.
Ein kommerzieller Vorteil ist, dass mit der Erfindung die Technologie einer Sprecheridentifikation in das breite Anwendungsgebiet der Low- und Mid-Range Infotainmentprodukte eingesetzt werden kann.
Da bei der Spracherkennung in der Regel eher kurze Äußerungen verwendet werden, kann ein Akkumulieren des Datenmaterials über eine Benutzersitzung, d. h. während einer Fahrt, im Rahmen von Merkmalsschwellwerten durchgeführt werden. Falls der Sprecher dabei in einzelnen Äußerungen zu stark von den Merkmalsschwellwerten abweicht, werden diese Äußerungen nicht zur Akkumulation des Datenmaterials verwendet.
Ferner kann auch das Vorlesen der existierenden Einträge, das in der Regel über die Sprachbedienung angeboten wird, auf den jeweiligen Benutzer beschränkt sein, so dass er nur seine eigenen Einträge vorgelesen bekommt.
Das erfindungsgemäße Verfahren kann darüber hinaus natürlich noch um andere biometrische Identifikationsmechanismen erweitert werden, wie etwa Gesichts- oder Fingerabdruckerkennung, sofern diese in Fahrzeugen verfügbar sind. Hierbei kann die Identifikation bereits vor Eingabe einer Äußerung erfolgen, beziehungsweise eine Identität eines Sprechers beziehungsweise Benutzers bereits vor Eingabe einer Äußerung festgestellt werden, und somit eine Vorab-Auswahl des Vokabulars getroffen werden.

Claims

Verfahren zur Sprecheridentifikation bei einer Spracherkennung, wobei ein von einem Benutzer trainierter, zumindest einen Teil eines Vokabulars der Spracherkennung bildender sprecherabhängiger Eintrag aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird, dadurch gekennzeichnet, dass zunächst beim Training sprecherabhängiger Einträge für eine spätere Sprecheridentifikation notwendige, benutzerspezifische Merkmale extrahiert und als Benutzermodell abgespeichert werden, und dieses Benutzermodell dem zugehörigen Eintrag zugeordnet wird, dann bei einer späteren Sprecheridentifikation aus einer sprachlichen Äußerung eines Benutzers benutzerspezifische Merkmale extrahiert werden, und anschließend aus mehreren von unterschiedlichen Benutzern trainierten Einträgen zumindest ein Eintrag ausgewählt wird, dessen zugeordnetes benutzerspezifisches Modell den während der Sprecheridentifikation extrahierten aktuellen Merkmalen am ähnlichsten ist, so dass nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular für die Spracherkennung zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Ergebnis der Sprecheridentifikation die Auswahl desjenigen Eintrags ist, dessen zugeordnetes Benutzermodell den aktuellen Merkmalen am ähnlichsten ist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Ergebnis der Sprecheridentifikation die Auswahl einer Liste von Einträgen ist, deren zugeordnete Benutzermodelle den aktuellen Merkmalen am ähnlichsten ist.
Verfahren nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, dass die benutzerspezifischen Merkmale biometrische Merkmale umfassen.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Training sprecherabhängiger Einträge zumindest zweimal durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass sowohl Spracherkennung als auch Sprecheridentifikation parallel ablaufen.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass zu Beginn einer sprachlichen Äußerung vorzugsweise noch keine qualifizierte Aussage zur Sprecheridentifikation erfolgt, um eine Vorab-Einschränkung des Vokabulars zu vermeiden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zumindest eine Vorab-Eingrenzung der Auswahl über eine Schlüsselzuordnung erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass beim extrahieren benutzerspezifischer Merkmale zumindest beim Training sprecherabhängiger Einträge ein Akkumulieren über eine Benutzersitzung durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein über eine Sprachbedienung angebotenes Vorlesen existierender Einträge auf den jeweiligen Benutzer beschränkt wird, so dass dieser nur seine eigenen Einträge vorgelesen bekommt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Sprecheridentifikation zusätzliche andere biometrische Identifikationsmechanismen verwendet werden, wie etwa Gesichts- oder Fingerabdruckerkennung.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass durch die zusätzlichen anderen biometrische Identifikationsmechanismen zu einer Vorab-Auswahl des Vokabulars verwendet werden.