DE102008024257A1 - Verfahren zur Sprecheridentifikation bei einer Spracherkennung - Google Patents

Verfahren zur Sprecheridentifikation bei einer Spracherkennung Download PDF

Info

Publication number
DE102008024257A1
DE102008024257A1 DE102008024257A DE102008024257A DE102008024257A1 DE 102008024257 A1 DE102008024257 A1 DE 102008024257A1 DE 102008024257 A DE102008024257 A DE 102008024257A DE 102008024257 A DE102008024257 A DE 102008024257A DE 102008024257 A1 DE102008024257 A1 DE 102008024257A1
Authority
DE
Germany
Prior art keywords
user
speaker
entries
entry
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102008024257A
Other languages
English (en)
Inventor
Stephan Dr. Grashey
Klaus Lukas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102008024257A priority Critical patent/DE102008024257A1/de
Publication of DE102008024257A1 publication Critical patent/DE102008024257A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Es wird ein Verfahren zur Sprecheridentifikation bei einer Spracherkennung beschrieben, bei dem ein von einem Benutzer trainierter, zumindest einen Teil eines Vokabulars der Spracherkennung bildender sprecherabhängiger Eintrag aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird. Dabei werden zunächst beim Training sprecherabhängiger Einträge für eine spätere Sprecheridentifikation notwendige, benutzerspezifische Merkmale extrahiert und als Benutzermodell abgespeichert. Dieses Benutzermodell wird dem zugehörigen Eintrag zugeordnet. Bei einer späteren Sprecheridentifikation werden dann aus einer sprachlichen Äußerung eines Benutzers benutzerspezifische Merkmale extrahiert. Anschließend wird aus mehreren von unterschiedlichen Benutzern trainierten Einträgen zumindest ein Eintrag ausgewählt, dessen zugeordnetes benutzerspezifisches Modell den während der Sprecheridentifikation extrahierten aktuellen Merkmalen am ähnlichsten ist, so dass nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular für die Spracherkennung zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert werden.

Description

  • Die Erfindung betrifft ein Verfahren zur Sprecheridentifikation bei einer Spracherkennung gemäß dem Oberbegriff des Anspruchs 1.
  • In vielen Fahrzeug-Infotainmentsystemen werden sprecherabhängige Verfahren zur sprachlichen Namenswahl oder Favoritenauswahl angeboten, um einem Benutzer die Auswahl eines zu sprechenden Wortes flexibel gestalten lassen zu können. Der Benutzer kann damit auch bei starkem Akzent, bei spezifischen Aussprachevarianten oder gar einer zum sonstigen Dialog unterschiedlichen Sprache den von ihm spezifisch trainierten Eintrag per Sprache auswählen.
  • Da es gerade im Fahrzeug-Umfeld häufig vorkommt, dass ein Fahrzeug beziehungsweise Automobil von verschiedenen Benutzern verwendet wird, haben oft mehrere Benutzer sprecherabhängige Einträge trainiert. Ziel ist es jedoch, automatisiert nur die für die gerade sprechende Person in Frage kommenden Einträge für die Spracherkennersuche zu verwenden und nur einen der selbst trainierten Einträge auszugeben. Besonders wenn die Benutzer z. B. bei Fahrzeugpools, Taxis oder Mietwagen aus unterschiedlichen Umfeldern kommen, ist eine gegenseitige fälschliche Erkennung im Rahmen der Spracherkennung unerwünscht, da sonst Adresseinträge anderer Benutzer angezeigt oder gar gewählt werden.
  • In höherwertigen Fahrzeugklassen sind Benutzerprofile bekannt und werden über Schlüsselzuordnungen durchgeführt. Dieses Konzept könnte auch auf sprecherabhängige Verfahren erweitert werden, bleibt aber dabei auf die Menge der Schlüsselinhaber begrenzt und ist daher für die oben genannten Szenarien, wie beispielsweise Fahrzeugpools, eher ungeeignet.
  • Andere Verfahren zur bewussten Auswahl von Benutzerprofilen erfordern manuelle Interaktionen zur Auswahl und Administration der Benutzer und sind damit ein zusätzlicher unerwünschter Aufwand für die Benutzer.
  • Schließlich bleibt noch das Löschen der Einträge nach deren Verwendung. Dieses ist jedoch aufgrund des Trainingsaufwandes impraktikabel.
  • Als eine Aufgabe der Erfindung kann es daher angesehen werden, ein Verfahren zu entwickeln, welches eine automatische Auswahl der von einem aktuellen Sprecher beziehungsweise Benutzer trainierten Einträge erlaubt.
  • Die Aufgabe wird gelöst durch ein Verfahren zur Sprecheridentifikation bei einer Spracherkennung, bei welcher Sprecheridentifikation ein von einem Benutzer trainierter, zumindest einen Teil eines Vokabulars einer Spracherkennung bildender sprecherabhängiger Eintrag aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird. Erfindungsgemäß ist dieses Verfahren dadurch gekennzeichnet, dass zunächst beim Training sprecherabhängiger Einträge für eine spätere Sprecheridentifikation notwendige, benutzerspezifische Merkmale während eines so genannten Enrollments extrahiert, und als Benutzermodell abgespeichert werden und dieses Benutzermodell dem zugehörigen Eintrag beziehungsweise den zugehörigen Einträgen in einer die Einträge aufbewahrenden Datenbasis zugeordnet wird. Bei einer späteren Sprecheridentifikation beziehungsweise bei einem späteren Sprechererkennungsvorgang, werden dann aus einer sprachlichen Äußerung eines Benutzers beziehungsweise aus der Sprache des Benutzers erzeugten Audio-Daten benutzerspezifische Merkmale extrahiert. Anschließend wird mit diesen Merkmalen eine Sprecheridentifikation beziehungsweise -erkennung auf Basis der in der Datenbasis vorhandenen Benutzermodelle beziehungsweise auf Basis der den Einträgen zugeordneten Benutzermodellen durchgeführt, indem aus mehreren von unterschiedlichen Benutzern trainierten Einträgen zumindest ein von einem Benutzer trainierter sprecherabhängiger Eintrag ausgewählt wird, dessen zugeordnetes benutzerspezifisches Modell den während der Sprecheridentifikation beziehungsweise -erkennung extrahierten aktuellen Merkmalen am ähnlichsten ist, so dass nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular für die Spracherkennung zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert werden.
  • Vorteile der Erfindung gegenüber dem Stand der Technik ergeben sich dadurch, dass nur die von dem jeweiligen Benutzer eingegebenen sprecherabhängigen Einträge in beziehungsweise bei der Spracherkennung berücksichtigt werden. Mit dem erfindungsgemäßen Verfahren wird es ermöglicht, ein automatisiertes Benutzerkonzept für specherabhängige Einträge aufzubauen. Benutzer bekommen so am Ende der Spracherkennung nur Ergebnisse aus ihren jeweils eigenen Einträgen, auch wenn verschiedene Benutzer gleich klingende Namen trainiert haben. Die Erkennungsrate bei der Spracherkennung steigt, da keine anderen Einträge fälschlich erkannt werden können. Ebenso kann potentiell eine Performance-Verbesserung erzielt werden, wenn bei der Suche nur eigene Einträge berücksichtigt werden. Ein Löschen der eigenen Einträge nach Benutzung des Systems ist ebenfalls hinfällig. Ein kommerzieller Vorteil ergibt sich dadurch, dass mit der Erfindung die Technologie einer Sprecheridentifikation bei der Spracherkennung in das breite Anwendungsgebiet der Low- und Mid-Range Infotainmentprodukte eingesetzt werden kann.
  • Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung die Auswahl desjenigen Eintrags beziehungsweise derjenige Eintrag ist, dessen zugeordnetes Benutzermodell den aktuellen Merkmalen am ähnlichsten ist. Dadurch ist das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung der Benutzer, dessen Benutzermodell den aktuellen Merkmalen am ähnlichsten ist.
  • Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung die Auswahl einer Liste einer bestimmten Anzahl von Einträgen ist beziehungsweise derjenige Eintrag ist, deren zugeordnete Benutzermodelle den aktuellen Merkmalen am ähnlichsten ist. Anders ausgedrückt ist das Ergebnis der Sprecheridentifikation beziehungsweise -erkennung eine Liste mit einer bestimmten Anzahl an Benutzern, deren Benutzermodelle den aktuellen Merkmalen am ähnlichsten sind.
  • Die benutzerspezifischen Merkmale umfassen vorzugsweise biometrische Merkmale.
  • Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass das Training sprecherabhängiger Einträge zumindest zweimal durchgeführt wird.
  • Eine besonders vorteilhafte Ausgestaltung der Erfindung sieht vor, dass sowohl Spracherkennung als auch Sprecheridentifikation beziehungsweise -erkennung, beziehungsweise der Identifikationsvorgang parallel ablaufen, um die Audio-Daten nicht für den jeweiligen anderen Prozess zwischenpuffern zu müssen.
  • Dabei ist denkbar, dass zu Beginn einer sprachlichen Äußerung vorzugsweise noch keine qualifizierte Aussage zur Sprecheridentifikation beziehungsweise zur Sprecheridentität erfolgt, so dass es zu keiner Vorab-Einschränkung des Vokabulars kommt beziehungsweise so dass nur vereinzelt eine Vorab-Einschränkung des Vokabulars gegeben ist, z. B. wenn der sprecherabhängige Eintrag am Ende einer Äußerung auftaucht. Es können jedoch bereits im Verlauf der Spracherkennung dann bestimmte Hypothesen eliminiert werden und somit eine potentielle Verschnellerung erreicht werden. Die Nachbearbeitung der Ergebnisse bleibt dabei bestehen.
  • Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zumindest eine Vorab-Eingrenzung der Auswahl über eine Schlüsselzuordnung erfolgt.
  • Eine zusätzliche, besonders vorteilhafte Ausgestaltung der Erfindung sieht vor, dass beim extrahieren benutzerspezifischer Merkmale zumindest beim Training sprecherabhängiger Einträge ein Akkumulieren z. B. des Datenmaterials über eine Benutzersitzung, beispielsweise während einer Fahrt, vorzugsweise im Rahmen von Merkmalsschwellwerten durchgeführt wird. Da bei der Spracherkennung in der Regel eher kurze Äußerungen verwendet werden, kann ein Akkumulieren des Datenmaterials über eine Benutzersitzung, d. h. während einer Fahrt, im Rahmen von Merkmalsschwellwerten durchgeführt werden. Falls der Sprecher dabei in einzelnen Äußerungen zu stark von den Merkmalsschwellwerten abweicht, werden diese Äußerungen nicht zur Akkumulation des Datenmaterials verwendet.
  • Vorzugsweise wird ein über eine Sprachbedienung angebotenes Vorlesen existierender Einträge auf den jeweiligen Benutzer beschränkt, so dass dieser nur seine eigenen Einträge vorgelesen bekommt.
  • Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zur Sprecheridentifikation zusätzliche andere biometrische Identifikationsmechanismen verwendet werden, wie etwa Gesichts- oder Fingerabdruckerkennung.
  • Dabei ist denkbar, dass durch die zusätzlichen anderen biometrische Identifikationsmechanismen zu einer Vorab-Auswahl des Vokabulars verwendet werden.
  • Ein Ausführungsbeispiel der Erfindung ist in der einzigen Zeichnung 1 dargestellt und wird nachfolgend näher erläutert. Dabei zeigt
  • 1 eine schematische Darstellung eines Verfahrens zur Sprecheridentifikation bei einer Spracherkennung, wobei ein von einem Benutzer trainierter, zumindest einen Teil eines Vokabulars einer Spracherkennung bildender sprecherabhängiger Eintrag aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird.
  • Bei einer Spracherkennung wird vorzugsweise zumindest ein Teil eines Vokabulars durch einen von einem Benutzer trainierten, sprecherabhängigen Eintrag gebildet. Um solche Einträge benutzerspezifisch eindeutig aus einer Vielzahl von in einer Datenbasis abgelegten Einträgen auszuwählen ist erfindungsgemäß eine automatische Sprecheridentifikation vorgesehen, welche eine automatische Auswahl des beziehungsweise der von einem aktuellen Sprecher beziehungsweise Benutzer trainierten Einträge erlaubt.
  • Hierzu werden beim Training der sprecherabhängigen Einträge, das in der Regel zweimal durchgeführt wird, die für eine spätere Sprecheridentifikation notwendigen, benutzerspezifischen, vorzugsweise biometrischen Merkmale während eines sogenannten Enrollments extrahiert, als Benutzermodell abgespeichert und dieses Benutzermodell dem zugehörigen Eintrag beziehungsweise den zugehörigen Einträgen in der Datenbasis zugeordnet.
  • Bei einem späteren Spracherkennungsvorgang werden aus einem Audio-Signal einer sprachlichen Äußerung eines Benutzers beziehungsweise Sprechers erzeugten Audio-Daten bei einer Spracherkennung die biometrischen Benutzermerkmale extrahiert. Mit diesen Merkmalen kann nun eine Sprecheridentifikation auf Basis der in der Datenbasis vorhandenen Benutzermodelle durchgeführt werden. Das Ergebnis der Sprecheridentifikation ist der Benutzer, dessen Modell den aktuellen Merkmalen am ähnlichsten ist beziehungsweise eine Liste mit einer bestimmten Anzahl an Benutzern, deren Modelle den aktuellen Merkmalen am ähnlichsten sind.
  • Für die Spracherkennung werden dann nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert. Vorzugsweise werden sowohl Spracher kennung als auch der Identifikationsvorgang parallel durchgeführt, um die Audio-Daten nicht für den jeweiligen anderen Prozess zwischenpuffern zu müssen. Daher wird zu Beginn der Äußerung vorzugsweise noch keine qualifizierte Aussage zur Identität des Sprechers gegeben und damit nur vereinzelt eine Vorab-Einschränkung des Vokabulars erfolgen, z. B. wenn der sprecherabhängige Eintrag am Ende einer Äußerung auftaucht. Es können jedoch bereits im Verlauf der Spracherkennung dann bestimmte Hypothesen eliminiert werden und somit eine potentielle Verschnellerung der Spracherkennung erreicht werden. Die Nachbearbeitung der Ergebnisse bleibt dabei bestehen.
  • 1 zeigt einen schematischen Aufbau zur Durchführung eines erfindungsgemäßen Verfahrens beziehungsweise eine schematische Darstellung dessen Ablaufs. Über ein Mikrophon 01 werden sprachliche Äußerungen eines Benutzers erfasst und in einen auch als Audio-Signal bezeichneten Audio-Input AI beziehungsweise in Audio-Daten AI umgewandelt. Die Audio-Daten AI werden einem die Spracherkennung durchführenden Spracherkennungsmodul 02 zugeführt. Parallel dazu erfolgt in einem Modul 03 eine Extraktion von Sprechermerkmalen SM beziehungsweise von benutzerspezifischen, vorzugsweise biometrischen Merkmalen SM.
  • Die Sprechermerkmale SM werden während des Trainings eines sprecherabhängigen Eintrags als Benutzermodell abgespeichert und dem zugehörigen Eintrag in einer Datenbasis 05 zugeordnet, so dass die Datenbasis 05 dann sprecherabhängige Einträge beziehungsweise Vokabulareinträge sowie Benutzer beziehungsweise Sprechermodelle mit Zuordnung zwischen Sprechermodellen und sprecherabhängigen Einträgen enthält.
  • Bei einem späteren Spracherkennungsvorgang werden die Sprechermerkmale SM dazu verwendet, mittels eines Sprecheridentifikationsmoduls 04 eine Sprecheridentifikation auf Basis der in der Datenbasis 05 vorhandenen Benutzermodelle durchzuführen. Das Ergebnis der Sprecheridentifikation ist eine Auswahl AV an in Frage kommenden sprecherabhängigen Vokabulareinträ gen. Diese Auswahl AV kann genau der Benutzer, dessen Modell den aktuellen Merkmalen SM am ähnlichsten ist, oder eine Liste mit einer bestimmten Anzahl an Benutzern, deren Modelle den aktuellen Merkmalen SM am ähnlichsten sind umfassen. Das Sprecheridentifikationsmodul 04 stellt diese Auswahl dem Spracherkennungsmodul 02 zur Verfügung, so dass für die Spracherkennung dann nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert werden. Als Ergebnis wird so ein besseres und schnelleres Spracherkennungsergebnis SE der von dem Spracherkennungsmodul 02 durchgeführten Spracherkennung erreicht.
  • Mit dem erfindungsgemäßen Verfahren wird es ermöglicht, ein automatisiertes Benutzerkonzept für specherabhängige Einträge aufzubauen. Benutzer bekommen am Ende der Spracherkennung nur Ergebnisse aus ihren jeweils eigenen Einträgen, auch wenn verschiedene Benutzer gleich klingende Namen trainiert haben. Die Erkennungsrate bei der Spracherkennung steigt, da keine anderen Einträge fälschlich erkannt werden können. Ebenso kann potentiell eine Performance-Verbesserung erzielt werden, wenn bei der Suche nur eigene Einträge berücksichtigt werden.
  • Ein Löschen der eigenen Einträge nach Benutzung des Systems ist ebenfalls hinfällig.
  • Ein kommerzieller Vorteil ist, dass mit der Erfindung die Technologie einer Sprecheridentifikation in das breite Anwendungsgebiet der Low- und Mid-Range Infotainmentprodukte eingesetzt werden kann.
  • Da bei der Spracherkennung in der Regel eher kurze Äußerungen verwendet werden, kann ein Akkumulieren des Datenmaterials über eine Benutzersitzung, d. h. während einer Fahrt, im Rahmen von Merkmalsschwellwerten durchgeführt werden. Falls der Sprecher dabei in einzelnen Äußerungen zu stark von den Merkmalsschwellwerten abweicht, werden diese Äußerungen nicht zur Akkumulation des Datenmaterials verwendet.
  • Ferner kann auch das Vorlesen der existierenden Einträge, das in der Regel über die Sprachbedienung angeboten wird, auf den jeweiligen Benutzer beschränkt sein, so dass er nur seine eigenen Einträge vorgelesen bekommt.
  • Das erfindungsgemäße Verfahren kann darüber hinaus natürlich noch um andere biometrische Identifikationsmechanismen erweitert werden, wie etwa Gesichts- oder Fingerabdruckerkennung, sofern diese in Fahrzeugen verfügbar sind. Hierbei kann die Identifikation bereits vor Eingabe einer Äußerung erfolgen, beziehungsweise eine Identität eines Sprechers beziehungsweise Benutzers bereits vor Eingabe einer Äußerung festgestellt werden, und somit eine Vorab-Auswahl des Vokabulars getroffen werden.

Claims (12)

  1. Verfahren zur Sprecheridentifikation bei einer Spracherkennung, wobei ein von einem Benutzer trainierter, zumindest einen Teil eines Vokabulars der Spracherkennung bildender sprecherabhängiger Eintrag aus mehreren von unterschiedlichen Benutzern trainierten Einträgen ausgewählt wird, dadurch gekennzeichnet, dass zunächst beim Training sprecherabhängiger Einträge für eine spätere Sprecheridentifikation notwendige, benutzerspezifische Merkmale extrahiert und als Benutzermodell abgespeichert werden, und dieses Benutzermodell dem zugehörigen Eintrag zugeordnet wird, dann bei einer späteren Sprecheridentifikation aus einer sprachlichen Äußerung eines Benutzers benutzerspezifische Merkmale extrahiert werden, und anschließend aus mehreren von unterschiedlichen Benutzern trainierten Einträgen zumindest ein Eintrag ausgewählt wird, dessen zugeordnetes benutzerspezifisches Modell den während der Sprecheridentifikation extrahierten aktuellen Merkmalen am ähnlichsten ist, so dass nur die mit einer vorgegebenen Konfidenz passenden sprecherabhängigen Einträge dem Vokabular für die Spracherkennung zugeführt, freigeschaltet oder in einer Nachverarbeitung ausselektiert werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Ergebnis der Sprecheridentifikation die Auswahl desjenigen Eintrags ist, dessen zugeordnetes Benutzermodell den aktuellen Merkmalen am ähnlichsten ist.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Ergebnis der Sprecheridentifikation die Auswahl einer Liste von Einträgen ist, deren zugeordnete Benutzermodelle den aktuellen Merkmalen am ähnlichsten ist.
  4. Verfahren nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, dass die benutzerspezifischen Merkmale biometrische Merkmale umfassen.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Training sprecherabhängiger Einträge zumindest zweimal durchgeführt wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass sowohl Spracherkennung als auch Sprecheridentifikation parallel ablaufen.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass zu Beginn einer sprachlichen Äußerung vorzugsweise noch keine qualifizierte Aussage zur Sprecheridentifikation erfolgt, um eine Vorab-Einschränkung des Vokabulars zu vermeiden.
  8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zumindest eine Vorab-Eingrenzung der Auswahl über eine Schlüsselzuordnung erfolgt.
  9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass beim extrahieren benutzerspezifischer Merkmale zumindest beim Training sprecherabhängiger Einträge ein Akkumulieren über eine Benutzersitzung durchgeführt wird.
  10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein über eine Sprachbedienung angebotenes Vorlesen existierender Einträge auf den jeweiligen Benutzer beschränkt wird, so dass dieser nur seine eigenen Einträge vorgelesen bekommt.
  11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Sprecheridentifikation zusätzliche andere biometrische Identifikationsmechanismen verwendet werden, wie etwa Gesichts- oder Fingerabdruckerkennung.
  12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass durch die zusätzlichen anderen biometrische Identifikationsmechanismen zu einer Vorab-Auswahl des Vokabulars verwendet werden.
DE102008024257A 2008-05-20 2008-05-20 Verfahren zur Sprecheridentifikation bei einer Spracherkennung Ceased DE102008024257A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102008024257A DE102008024257A1 (de) 2008-05-20 2008-05-20 Verfahren zur Sprecheridentifikation bei einer Spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102008024257A DE102008024257A1 (de) 2008-05-20 2008-05-20 Verfahren zur Sprecheridentifikation bei einer Spracherkennung

Publications (1)

Publication Number Publication Date
DE102008024257A1 true DE102008024257A1 (de) 2009-11-26

Family

ID=41212502

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102008024257A Ceased DE102008024257A1 (de) 2008-05-20 2008-05-20 Verfahren zur Sprecheridentifikation bei einer Spracherkennung

Country Status (1)

Country Link
DE (1) DE102008024257A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977547B2 (en) 2009-01-30 2015-03-10 Mitsubishi Electric Corporation Voice recognition system for registration of stable utterances
CN109643549A (zh) * 2016-08-31 2019-04-16 三星电子株式会社 基于说话者识别的语音识别方法和装置
CN113571069A (zh) * 2021-08-03 2021-10-29 北京房江湖科技有限公司 一种信息处理的方法、装置和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19636452A1 (de) * 1996-09-07 1998-03-12 Altenburger Ind Naehmasch Mehrnutzersystem zur Spracheingabe
DE10011178A1 (de) * 2000-03-08 2001-09-13 Siemens Ag Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
DE10063796A1 (de) * 2000-12-21 2002-07-18 Daimler Chrysler Ag Verfahren zur Sprecherkennung für Sicherheitssysteme in Kombination mit Spracherkennung
DE10111121A1 (de) * 2001-03-08 2002-09-19 Daimler Chrysler Ag Verfahren zur Sprechererkennung für die Bedienung von Geräten
DE10209324C1 (de) * 2002-03-02 2002-10-31 Daimler Chrysler Ag Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
WO2005042314A1 (en) * 2003-10-21 2005-05-12 Johnson Controls Technology Company System and method for selecting a user speech profile for a device in a vehicle
DE102004030054A1 (de) * 2004-06-22 2006-01-12 Bayerische Motoren Werke Ag Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19636452A1 (de) * 1996-09-07 1998-03-12 Altenburger Ind Naehmasch Mehrnutzersystem zur Spracheingabe
DE10011178A1 (de) * 2000-03-08 2001-09-13 Siemens Ag Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
DE10063796A1 (de) * 2000-12-21 2002-07-18 Daimler Chrysler Ag Verfahren zur Sprecherkennung für Sicherheitssysteme in Kombination mit Spracherkennung
DE10111121A1 (de) * 2001-03-08 2002-09-19 Daimler Chrysler Ag Verfahren zur Sprechererkennung für die Bedienung von Geräten
DE10209324C1 (de) * 2002-03-02 2002-10-31 Daimler Chrysler Ag Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
WO2005042314A1 (en) * 2003-10-21 2005-05-12 Johnson Controls Technology Company System and method for selecting a user speech profile for a device in a vehicle
DE102004030054A1 (de) * 2004-06-22 2006-01-12 Bayerische Motoren Werke Ag Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Reynolds D.A. et al.: "Integration of Speaker and Speech Recognition Systems" Proc. IEEE ICASSP 91, Vol. 2, S. 869-872, Apr. 1991 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977547B2 (en) 2009-01-30 2015-03-10 Mitsubishi Electric Corporation Voice recognition system for registration of stable utterances
DE112009004357B4 (de) * 2009-01-30 2019-06-13 Mitsubishi Electric Corp. Spracherkennungssystem
CN109643549A (zh) * 2016-08-31 2019-04-16 三星电子株式会社 基于说话者识别的语音识别方法和装置
CN109643549B (zh) * 2016-08-31 2023-09-05 三星电子株式会社 基于说话者识别的语音识别方法和装置
CN113571069A (zh) * 2021-08-03 2021-10-29 北京房江湖科技有限公司 一种信息处理的方法、装置和存储介质

Similar Documents

Publication Publication Date Title
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
WO2009140781A1 (de) Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung
EP3430615B1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
WO2001069591A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
DE10246029B4 (de) Spracherkennungssystem, Computerprogramm, Navigationssystem und Kollationsverfahren
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE19532114C2 (de) Sprachdialog-System zur automatisierten Ausgabe von Informationen
DE102010040553A1 (de) Spracherkennungsverfahren
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
DE102008024257A1 (de) Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE102005030965A1 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
EP2006835B1 (de) Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
EP1457966A1 (de) Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
EP1063633A2 (de) Verfahren zum Training eines automatischen Spracherkenners

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection