DE102008040002A1 - Verfahren zur szenariounabhängigen Sprechererkennung - Google Patents

Verfahren zur szenariounabhängigen Sprechererkennung Download PDF

Info

Publication number
DE102008040002A1
DE102008040002A1 DE200810040002 DE102008040002A DE102008040002A1 DE 102008040002 A1 DE102008040002 A1 DE 102008040002A1 DE 200810040002 DE200810040002 DE 200810040002 DE 102008040002 A DE102008040002 A DE 102008040002A DE 102008040002 A1 DE102008040002 A1 DE 102008040002A1
Authority
DE
Germany
Prior art keywords
speaker
determined
extracted
speech signal
statistical distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE200810040002
Other languages
English (en)
Inventor
Stephan Dr. Grashey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sivantos Pte Ltd
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE200810040002 priority Critical patent/DE102008040002A1/de
Publication of DE102008040002A1 publication Critical patent/DE102008040002A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Eine grundlegende Aufgabe bei der Sprechererkennung ist es, einen Schwellwert geeignet zu wählen, anhand dessen entschieden wird, ob ein Benutzer akzeptiert oder abgelehnt wird. Die Erfindung löst die Aufgabe, ein Verfahren zur Sprechererkennung anzugeben, welches einen an das jeweilige, aktuelle Szenario angepassten Schwellwert bereitstellt. Hierzu werden aus einem zu verifizierenden Sprachsignal Hintergrundgeräusche extrahiert, auf Grundlage dessen eine Anpassung des Schwellwertes an das aktuelle Szenario vorgenommen wird.

Description

  • Die Erfindung betrifft die Erkennung des Sprechers anhand seiner Stimme, insbesondere mit Hilfe einer automatischen Schwellwertbestimmung. Derartige Verfahren lassen sich grob in Verfahren zur Sprecheridentifikation und Verfahren zur Sprecherverifikation unterteilen. Das Problem der Sprecheridentifikation besteht darin, zwischen verschiedenen Sprechern zu unterscheiden oder einen Sprecher aus einer Menge von erfassten Sprechern zu identifizieren. Das Problem der Sprecherverifikation besteht darin, die vorgegebene Identität des Sprechers anhand seiner Stimme zu überprüfen. In beiden Fällen ist in der Regel die einzige Eingangsinformation die Aufzeichnung der Stimme des Sprechers.
  • In der Sprechererkennung werden während sogenannter Enrollments die charakteristischen Merkmale der Stimme einer bestimmten Person extrahiert und in einem Referenzmodell (Sprechermodell, Voiceprint) abgelegt. Während einer Verifikation oder Identifikation werden erneut die Merkmale des aktuellen Sprechers extrahiert und diese mit dem hinterlegten Sprechermodell verglichen. Sind sie ähnlich genug, so wird der Sprecher akzeptiert, sind sie zu unterschiedlich, wird er zurückgewiesen.
  • Da nicht jede Messung einer Stimmprobe exakt den gleichen Wert erbringen kann, und sich einige Merkmale auch verändern können, muss dem System zur Sprechererkennung eine gewisse Toleranzschwelle eingeräumt werden. Man spricht hier auch von skalierbaren Schwellenwerten. Die Erkennung einer Person muss auch trotz Heiserkeit oder störenden Hintergrundgeräuschen im Auto hinreichend sicher erfolgen können. Insofern sollte auch bei einer nicht hundertprozentigen Übereinstimmung der Merkmale eine Erkennung möglich sein. Im Allgemeinen stellt die Festlegung der Toleranzschwelle hohe Anforderungen an das System. Ist sie zu niedrig angesetzt, werden Personen trotz Berechtigung abgelehnt. Ist sie zu hoch angesetzt, ist keine Garantie für eine ausreichende Sicherheit mehr vorhanden.
  • In diesem Zusammenhang bezeichnet die Falschakzeptanzrate (FAR) eine Zulassungsrate Unberechtigter und die Falschrückweisungsrate (FRR) ein Abweisungsrate Berechtigter. Beide Raten hängen gegenläufig vom Entscheidungsschwellwert ab: Eine höher gewählte Schwelle verringert zwar die FAR, erhöht zugleich aber die FRR und umgekehrt.
  • Ein biometrisches System hat vier Grundkomponenten:
    • (1) Merkmalsaufnahme (Sensor module): Dieses Modul nimmt die biometrischen Daten eines Benutzers auf (z. B. optischer Scanner, Videokamera, ...).
    • (2) Merkmalsextraktion (Feature extraction module): Hier werden die für die Klassifikation benötigten Merkmalvektoren generiert (z. B. Orientierung der Rillen und Position markanter Punkte im Fingerabdruck).
    • (3) Vergleich (Matching module): Die Merkmalvektoren werden mit den Referenztemplates verglichen und ein Ähnlichkeitsgrad (matching score) wird ermittelt.
    • (4) Entscheidung (Decision making module): Auf Grund des Ähnlichkeitsgrades wird die Benutzeridentität festgestellt bzw. die vom Benutzer vorgegebene Identität akzeptiert oder abgelehnt.
  • In einem zwei-Klassen-Problem werden die FAR und FRR berechnet, indem alle matching scores berechnet und durch einen Schwellenwert voneinander abgegrenzt werden. FAR und FRR sind abhängig von der eingestellten Schwelle T und damit eine Funktion von T. Wenn man den Schwellenwert verkleinert, um die Toleranz des Gesamtsystems zu erhöhen, dann nimmt die FRR ab und entsprechend die FAR zu.
  • Eine grundlegende Aufgabe bei der Sprechererkennung ist es daher, diesen Schwellwert geeignet zu wählen. In der Praxis ist der optimale Schwellwert jedoch nicht nur Personen-, sondern zudem szenarioabhängig. Der optimale Schwellwert ist also beispielsweise davon abhängig, ob sich eine Person gerade in einem Büro oder in einem Auto befindet.
  • Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren zur Sprechererkennung anzugeben, welches einen an die jeweilige Person oder das jeweilige Szenario angepassten Schwellwert bereitstellt.
  • Diese Aufgabe wird durch ein Verfahren und eine Vorrichtung mit den Merkmalen der Ansprüche 1 und 8 gelöst. Vorteilhafte Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen angegeben.
  • Das erfindungsgemäße Verfahren zur Sprechererkennung umfasst die folgenden Schritte:
    • – ein Sprachsignal eines Sprechers wird empfangen,
    • – aus dem Sprachsignal werden sprecherspezifische Merkmale extrahiert,
    • – zumindest ein Ähnlichkeitsmaß für die Übereinstimmung der extrahierten Merkmale und Referenzmerkmalen wird ermittelt,
    • – durch Vergleich des Ähnlichkeitsmaßes mit einem zugeordneten Schwellwert wird der Sprecher klassifiziert, dadurch gekennzeichnet, dass
    • – aus dem Sprachsignal Anteile extrahiert werden, in denen der Sprecher nicht spricht,
    • – eine statistische Verteilung der extrahierten Anteile des Sprachsignals ermittelt wird,
    • – mit Hilfe der ermittelten statistischen Verteilung der zugeordnete Schwellwert zur Klassifikation des Sprechers ermittelt wird.
  • Die erfindungsgemäße Vorrichtung zur Sprechererkennung weist auf:
    • – eine Empfangseinrichtung, welche Sprachdaten empfängt, die eine gesprochene Äußerung eines Sprechers repräsentieren;
    • – eine Sprechererkennungseinrichtung, welche aus dem Sprachsignal sprecherspezifische Merkmale extrahiert, zumindest ein Ähnlichkeitsmaß für die Übereinstimmung der extrahierten Merkmale und Referenzmerkmalen ermittelt und durch Vergleich des Ähnlichkeitsmaßes mit einem zugeordneten Schwellwert den Sprecher klassifiziert, dadurch gekennzeichnet, dass eine Schwellwertermittlungseinrichtung vorgesehen ist, welche aus dem Sprachsignal Anteile extrahiert werden, in denen der Sprecher nicht spricht, eine statistische Verteilung der extrahierten Anteile des Sprachsignals ermittelt, und mit Hilfe der ermittelten statistischen Verteilung den zugeordneten Schwellwert zur Klassifikation des Sprechers ermittelt.
  • Die Erfindung wird nachfolgend mit Ausführungsbeispielen anhand der Figuren näher erläutert. Dabei zeigen:
  • 1 in einer schematischen Darstellung eine prinzipielle Darstellung der Sprecheridentifikation,
  • 2 in einer schematischen Darstellung eine prinzipielle Darstellung der Sprecherverifikation,
  • 3a, b examplarische Wahrscheinlichkeitsdichteverteilungen einer Originalsprecher- und einer Fälscherklasse in jeweils unterschiedlichen Szenarien.
  • Bei Systemen zur Sprechererkennung wird nach statistischen Prinzipien geprüft, ob der gesprochene Satz von einem der vom Sprechererkennungssystem erfassten Sprecher gesprochen wurde. Dabei gibt es grundsätzlich zwei Arten von Sprechererkennungssystemen, die textabhängigen und die textunabhängigen Systeme. Die Textunabhängigkeit des Systems wird beispielsweise durch eine erweiterte Trainingsphase erreicht, in der der Sprecher ein vielfältiges Material aufzeichnen muss und die Wahrscheinlichkeitsverteilungen der Sprachsignalparameter aus dem gesamten Sprachmaterial bestimmt werden. Das Trainie ren eines textabhängigen Systems ist eine einfachere Aufgabe, weil das Sprachmaterial, das vom Sprecher während der Nutzungsphase gesprochen wird, auf einige Schlüsselworte oder bestimmte Sätze begrenzt ist. Die Vorbereitungsphase wird so lange durchgeführt, bis das System sicher die Stimme des Sprechers erkennt.
  • Sprecheridentifikation
  • Das Prinzip der Sprecheridentifikation ist in 1 dargestellt. Sie wird als ein Problem der Multiplen Detektion behandelt. Die zu unterscheidenden Klassen, eine für jeden Sprecher, das vom System erkannt werden soll, werden als spi i = 1..M bezeichnet, mit M-Anzahl der von dem Sprechererkennungssystem erfassten Sprecher. Die Sprechererkennung basiert auf den aufgezeichneten Sprachsignalen der jeweiligen Sprecher. Das Sprachsignal wird segmentiert in die Signalrahmen x = [x(1)..x(K)] (z. B. für einen Signalrahmen von 20 ms Länge und eine Abtastfrequenz von 8 kHz beträgt K = 160). Die Segmentierung liefert die Sprachsignalrahmen x(1)..x(N), wobei N von der Gesamtlänge des von dem Sprecher gesprochenen Satzes oder Schlüsselwortes abhängt. Die Entscheidung über den Sprecher wird aus den Wahrscheinlichkeiten oder Wahrscheinlichkeitsdichten (zusammen als Wahrscheinlichkeitsscores bezeichnet) getroffen, dass die Vektoren der Abtastwerte x(l) l = 1..N der Klasse spi zugehören. Das statistisch optimale Entscheidungsschema wählt die Klasse spi mit dem höchsten Wahrscheinlichkeitswert bei gegebenen x(l), l = 1..N. D. h. der Vektor x(l) wird der Klasse spj zugeordnet, für die: p(x(1)...x(N)|spj) > p(x(1)...x(N)|spi) für alle j ≠ i
  • Zusätzlich wird der Wahrscheinlichkeitsscore für die ermittelte Klasse mit einer Schwelle verglichen, um eine Identifikation eines dem System nicht bekannten Sprechers zu vermeiden. Die Identität des Sprechers wird also anhand seiner Stimme bestätigt, wenn: p(x(1)..x(N)|spj) > schwellewobei spj der vorgegebenen Sprecheridentität entspricht.
  • Sprecherverifikation
  • Das Prinzip der Sprecherverifikation ist in 2 dargestellt. Das zugrundeliegende Problem besteht darin, die vorgegebene Identität des Sprechers anhand seiner Stimme zu überprüfen.
  • Der Prozess der Sprecherverifikation verläuft auf ähnliche Weise wie der bei der Sprecheridentifikation, d. h. es wird ebenfalls die Segmentierung des gesprochenen Satzes durchgeführt. Danach wird jedoch keine Klassifizierung der Stimme gemacht, sondern für die vorgegebene Sprecheridentität ein Wahrscheinlichkeitsscore berechnet und mit einer Schwelle verglichen. Die Identität des Sprechers wird also anhand seiner Stimme bestätigt, wenn: p(x(1)..x(N)|spj) > schwellewobei spj der vorgegebenen Sprecheridentität entspricht. Die Schwelle muss entsprechend hoch gesetzt werden, um die Situation zu vermeiden, in der ein Sprecher mit einer anderer Identität als die vorgegebene zugelassen/autorisiert wird.
  • Trainingsphase eines Sprechererkennungssystems
  • Die Wahrscheinlichkeitsdichteverteilungen für die Sprecherklassen werden üblicherweise aus dem Trainingsmaterial geschätzt. Für die textabhängige Sprechererkennung (Sprecheridentifikation/Sprecherverifikation) wird ein bestimmter Satz oder Schlüsselwort während der Trainingphase so lange wiederholt bis die Sprechererkennung sicher funktioniert.
  • Für die textunabhängige Sprecherverifikation muss ein phonetisch ausgewogenes Sprachmaterial aufgenommen werden. Auch in diesem Fall muss die Trainingphase solange wiederholt werden bis die Sprecheridentifikation/verifikation sicher funktioniert.
  • Das während der Trainingphase aufgenommene Material wird zum Training mehrmals jeweils phasenverschoben verwendet, um das Sprechererkennungssystem unabhängig von der Anfangsphase der aufgezeichneten Stimmen zu machen. Die zum Training verwendeten Daten wird als Trainingssatz
    Figure 00070001
    bezeichnet, wobei spi den Sprecher symbolisiert.
  • Zur Schätzung der Wahrscheinlichkeitsdichten werden beispielsweise in einem Histogramm die Häufigkeiten der Wahrscheinlichkeitsscores unterschiedlicher Sprachproben aufgetragen, wobei der Ursprung der Sprachproben (Originalsprecher/Fälscher) im Vorhinein bekannt ist.
  • Die Erfindung macht sich nun zunutze, dass die Merkmale, die aus Sprachaufnahmen von Sprechern extrahiert werden, sich in zwei Klassen einteilen lassen: In der einen Klasse sind alle Daten, die nicht von dem Sprecher stammen, von dem das aktuelle Sprechermodell stammt. Diese Klasse, auch Fälscherklasse genannt, enthält Hintergrundgeräusche und Lärm, aber auch die Merkmale fremder Personen. In der anderen Klasse sind alle Daten, die von dem Sprecher stammen, dem das Sprechermodell zugeordnet ist (Originalsprecher).
  • Würde man beide Verteilungen kennen, könnte man den Schwellwert optimal einstellen. Da man jedoch nicht weiß, ob und wann der Originalsprecher gesprochen hat, lässt sich dessen Verteilung nicht ermitteln.
  • In den 3a und 3b sind diese beiden Verteilungen (jeweils: links: Fälscher, rechts: Originalsprecher) für zwei verschiedene Szenarien zu sehen. Der optimale Schwellwert liegt jeweils im Überlappungsbereich der beiden Verteilungen. Wie man sehen kann, sind die Verteilungen in beiden Szenario jeweils unterschiedlich. Daher ist für jedes der beiden Szenerien ein anderer Schwellwert erforderlich.
  • Gemäß der Erfindung wird jedoch die Fälscherverteilung mit den Hintergrundgeräuschen geschätzt, um mit deren Hilfe einen an das aktuelle Szenario angepassten Schwellwert zu ermitteln.
  • Eine erste Möglichkeit hierzu ist die Verwendung einer Voice-Activity Detection (VAD), um Sprache von Nicht-Sprache, also von sonstigen Geräuschen zu separieren. Immer wenn sich die VAD für Nicht-Sprache entscheidet, kann man den zugehörigen Signalabschnitt zur Schätzung der Verteilung der Fälscherklasse nutzen.
  • Ein Voice Activity Detector (VAD) ist eine Vorrichtung, die es erlaubt, zwischen Sprache inklusive Hintergrundgeräuschen (”Sprache”) und dem Hintergrundgeräusch alleine (”Nicht-Sprache”) zu unterscheiden. Der Eingang eines VAD kann beispielsweise ein durch ein Mikrofon aufgenommenes Sprachsignal eines Kommunikationsendgerätes sein. Während der Nutzer spricht, setzt sich das Signal aus seiner Stimme und dem Hintergrundlärm (beispielsweise Straßenlärm) zusammen. In den Sprechpausen dagegen besteht das Signal alleine aus dem Hintergrundlärm. Der Ausgang eines Voice Activity Detectors fügt dem Eingangssignal nun jeweils die Information hinzu, ob es Sprache enthält, oder nicht.
  • VADs werden entweder auf Basis von Heuristiken eingestellt oder aber im Lauf einer Trainingsphase trainiert. Als Eingangssignal dient jeweils das in geeigneter Weise vorverarbeitete Audiosignal. In einer Eigenschaftenextraktion erhält man dabei je nach Anzahl der verwendeten Eigenschaften unterschiedlich große Eigenschaftenvektoren.
  • Die einfachste, aber immer noch weit verbreitete Heuristik ist, ein Signal anhand einer bestimmten, festgelegten Energieschwelle zu beurteilen. Überschreitet die Signalenergie die Schwelle, so wird ”Sprache” angenommen, ansonsten ”Nicht-Sprache”.
  • Ein anderes Beispiel ist die Bestimmung der Nulldurchgangsrate der Autokorrelationsfunktion des Sprachsignals und ein entsprechender Schwellwert zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht.
  • Daneben gibt es komplexere Verfahren, um anhand einer mehr oder weniger großen Anzahl von Schwellen auf Basis verschiedenster Eigenschaften die gewünschte Unterscheidung zu treffen.
  • Zu VADs, die im Laufe einer Trainingsphase trainiert werden, gehören beispielsweise statistische VADs oder auch neuronale Netze. Diese werden dazu mit Daten trainiert, bei denen bekannt ist, wann Sprache und wann ein Geräusch auftritt. Es handelt sich also um Daten, die vorab zum Beispiel händisch gelabelt sind.
  • Eine andere Möglichkeit zur Ermittlung der Hintergrundgeräusche ist die Verwendung eines Minimum- Statistik Ansatzes. Selbst wenn der Originalsprecher spricht, werden im Millisekunden Bereich Anteile enthalten sein, in denen nicht seine stimme, sondern die restlichen Geräusche zu hören sein werden. Dies ist beispielsweise zwischen einzelnen Wörtern oder am Ende von Sätzen der Fall. Diese kurzen Bereiche sind dadurch charakterisiert, dass ihre Merkmale sehr unähnlich zum Sprechermodell sind. Man sammelt also innerhalb eines gewissen Zeitfensters alle Merkmale, die innerhalb dieses Fensters die schlechteste Übereinstimmung mit dem Sprechermodell aufweisen und versucht damit, die Fälscherverteilung zu ermitteln.
  • Nachdem die Fälscherverteilung mit zumindest einer dieser Möglichkeiten geschätzt wurde, wird der Schwellwert anhand der Parameter der Fälscherverteilung (bspw. Mittelwert, Standardabweichung) bestimmt. Ein möglicher Ansatz wäre beispielsweise: Schwellwert = Mittelwert – Standardabweichung.
  • Folglich zeichnet sich die Erfindung dadurch aus, dass eine Fälscherverteilung mit Hilfe eine Voice-Activity-Detection Entscheidung oder mit Hilfe einer Minimum Statistik geschätzt wird. Auf Grundlage dieser Schätzung erfolgt dann die Ermittlung des Schwellwertes.
  • Die Erfindung weist somit die Vorteile auf, dass eine automatische Anpassung des Schwellwertes an verschiedene Szenarien erfolgt und zu besseren Sprechererkennungsergebnissen in verschiedenen Szenarien führt. Das erfindungsgemäße Verfahren erfordert zudem wesentlich weniger Rechenaufwand zur Schwellwertermittlung, als klassische Schwellwert-Normalisierungsverfahren. Außerdem werden durch die Erfindung neue Anwendungsmöglichkeiten für die Sprechererkennung eröffnet, beispielsweise eine fortwährende Sprecherauthentifizierung in einem mobilen Gerät.
  • Die Erfindung kann für Anwendungen der Zutrittskontrolle, wie z. B. die mit der Stimme gesteuerte Tür, oder als Verifikation, beispielsweise für Bankzugangssysteme genutzt werden. Die Prozedur kann als ein Programmmodul auf einem Prozessor implementiert werden, der die Aufgabe der Sprechererkennung im System realisiert.

Claims (8)

  1. Verfahren zur Sprechererkennung, bei dem – ein Sprachsignal eines Sprechers empfangen wird, – aus dem Sprachsignal sprecherspezifische Merkmale extrahiert werden, – zumindest ein Ähnlichkeitsmaß für die Übereinstimmung der extrahierten Merkmale und Referenzmerkmalen ermittelt wird, – durch Vergleich des Ähnlichkeitsmaßes mit einem zugeordneten Schwellwert der Sprecher klassifiziert wird, dadurch gekennzeichnet, dass – aus dem Sprachsignal Anteile extrahiert werden, in denen der Sprecher nicht spricht, – eine statistische Verteilung der extrahierten Anteile des Sprachsignals ermittelt wird, – mit Hilfe der ermittelten statistischen Verteilung der zugeordnete Schwellwert zur Klassifikation des Sprechers ermittelt wird.
  2. Verfahren nach Anspruch 1, bei dem die Ermittlung der statistischen Verteilung mit Hilfe der für die extrahierten Anteile des Sprachsignals ermittelten Ähnlichkeitsmaße erfolgt.
  3. Verfahren nach Anspruch 1 oder 2, wobei Die Anteile des Sprachsignals, in denen der Sprecher nicht spricht, mit Hilfe einer Voice Activity Detection (VAD) extrahiert werden.
  4. Verfahren nach Anspruch 1 oder 2, wobei Die Anteile des Sprachsignals, in denen der Sprecher nicht spricht, extrahiert werden, indem – Sprachsignalanteile ermittelt werden, bei denen die zugehörigen ermittelten Ähnlichkeitsmaße einen vorgebbaren Wert über- oder unterschreiten.
  5. Verfahren nach Anspruch 1 oder 2, wobei Die Anteile des Sprachsignals, in denen der Sprecher nicht spricht, extrahiert werden, indem – eine vorgebbare Anzahl von ermittelten kleinsten oder größten Ähnlichkeitsmaßen und die zugehörigen Sprachsignalanteile ermittelt werden.
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in Abhängigkeit des Ergebnis der Klassifikation der Sprecher identifiziert wird.
  7. Verfahren nach einem der Ansprüche 1–5, bei dem In Abhängigkeit des Ergebnis der Klassifikation der Sprecher verifiziert wird.
  8. Vorrichtung zur Sprechererkennung, aufweisend: – eine Empfangseinrichtung, welche Sprachdaten empfängt, die eine gesprochene Äußerung eines Sprechers repräsentieren; – eine Sprechererkennungseinrichtung, welche aus dem Sprachsignal sprecherspezifische Merkmale extrahiert, zumindest ein Ähnlichkeitsmaß für die Übereinstimmung der extrahierten Merkmale und Referenzmerkmalen ermittelt und durch Vergleich des Ähnlichkeitsmaßes mit einem zugeordneten Schwellwert den Sprecher klassifiziert, dadurch gekennzeichnet, dass eine Schwellwertermittlungseinrichtung vorgesehen ist, welche aus dem Sprachsignal Anteile extrahiert werden, in denen der Sprecher nicht spricht, eine statistische Verteilung der extrahierten Anteile des Sprachsignals ermittelt, und mit Hilfe der ermittelten statistischen Verteilung den zugeordneten Schwellwert zur Klassifikation des Sprechers ermittelt.
DE200810040002 2008-08-27 2008-08-27 Verfahren zur szenariounabhängigen Sprechererkennung Withdrawn DE102008040002A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE200810040002 DE102008040002A1 (de) 2008-08-27 2008-08-27 Verfahren zur szenariounabhängigen Sprechererkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200810040002 DE102008040002A1 (de) 2008-08-27 2008-08-27 Verfahren zur szenariounabhängigen Sprechererkennung

Publications (1)

Publication Number Publication Date
DE102008040002A1 true DE102008040002A1 (de) 2010-03-04

Family

ID=41605799

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200810040002 Withdrawn DE102008040002A1 (de) 2008-08-27 2008-08-27 Verfahren zur szenariounabhängigen Sprechererkennung

Country Status (1)

Country Link
DE (1) DE102008040002A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977547B2 (en) 2009-01-30 2015-03-10 Mitsubishi Electric Corporation Voice recognition system for registration of stable utterances
EP3836567A1 (de) 2019-12-13 2021-06-16 Sivantos Pte. Ltd. Verfahren zum betrieb eines hörsystems und hörsystem

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070100620A1 (en) * 2005-10-31 2007-05-03 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070100620A1 (en) * 2005-10-31 2007-05-03 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
M. Neffe et al.: "Robust speaker verification in air traffic control using improved voice activity detection". Proceedings of the Fourth conference on IASTED International Conference: Signal Processing, Pattern Recognition, and Applications. Innsbruck, Österreich (2007), S. 298-303 *
M. Neffe et al.: "Robust speaker verification in air traffic control using improved voice activity detection". Proceedings of the Fourth conference on IASTED International Conference: Signal Processing, Pattern Recognition, and Applications. Innsbruck, Österreich (2007), S. 298-303 S.G. Tanyer, H. Ozer: "Voice activity detection in nonstationary Gaussian noise". In: Signal Processing Proceedings, Fourt International Conference on Signal Processing (ICSP '98), Bejing, China (1998), Vol. 2, S. 1620-1623
S.G. Tanyer, H. Ozer: "Voice activity detection in nonstationary Gaussian noise". In: Signal Processing Proceedings, Fourt International Conference on Signal Processing (ICSP '98), Bejing, China (1998), Vol. 2, S. 1620-1623 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977547B2 (en) 2009-01-30 2015-03-10 Mitsubishi Electric Corporation Voice recognition system for registration of stable utterances
DE112009004357B4 (de) * 2009-01-30 2019-06-13 Mitsubishi Electric Corp. Spracherkennungssystem
EP3836567A1 (de) 2019-12-13 2021-06-16 Sivantos Pte. Ltd. Verfahren zum betrieb eines hörsystems und hörsystem

Similar Documents

Publication Publication Date Title
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69432570T2 (de) Spracherkennung
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
DE60004331T2 (de) Sprecher-erkennung
DE102008058883A1 (de) Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs
DE60128270T2 (de) Verfahren und System zur Erzeugung von Sprechererkennungsdaten, und Verfahren und System zur Sprechererkennung
DE69920047T2 (de) Detektion von reiner sprache in einem audio signal, mit hilfe einer detektionsgrösse (valley percentage)
EP0964390A2 (de) Vorrichtung zur Verifizierung von Signalen
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
DE69026474T2 (de) System zur Spracherkennung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: SIEMENS MEDICAL INSTRUMENTS PTE. LTD., SINGAPO, SG

8128 New person/name/address of the agent

Representative=s name: MAIER, D., DIPL.-ING. UNIV., PAT.-ASS., 81739 MUEN

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20130301