DE112009004357B4 - Spracherkennungssystem - Google Patents

Spracherkennungssystem Download PDF

Info

Publication number
DE112009004357B4
DE112009004357B4 DE112009004357.7T DE112009004357T DE112009004357B4 DE 112009004357 B4 DE112009004357 B4 DE 112009004357B4 DE 112009004357 T DE112009004357 T DE 112009004357T DE 112009004357 B4 DE112009004357 B4 DE 112009004357B4
Authority
DE
Germany
Prior art keywords
registration
unit
speech
data
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112009004357.7T
Other languages
English (en)
Other versions
DE112009004357T5 (de
Inventor
Michihiro Yamazaki
Jun Ishii
Hiroki Sakashita
Kazuyuki Nogi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112009004357T5 publication Critical patent/DE112009004357T5/de
Application granted granted Critical
Publication of DE112009004357B4 publication Critical patent/DE112009004357B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

Spracherkennungssystem zur Durchführung einer Spracherkennung einer zu erkennenden Äußerung unter Verwendung eines Standardmusters miteiner Spracheingabeeinheit (11) zum Empfangen einer mehrfach geäußerten Sprachäußerung und Erzeugen von Registrierungsstimmdaten entsprechend der Anzahl der Sprachäußerungen;einer Speichereinheit (12) zum Speichern der mehrfach von der Spracheingabeeinheit erzeugten Sprachdaten;einer Stabilitätsverifizierungseinheit (13a)- zum Bestimmen einer Ähnlichkeit zwischen den Sprachdaten, die der mehrmals geäußerten Sprachäußerung entsprechen und die aus der Speichereinheit ausgelesen werden, und- zum Bestimmen, dass eine Registrierung von Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein erster Schwellenwert ist;einer Standardmuster-Erzeugungseinheit (14) zum Erzeugen eines Standardmusters durch Verwenden der Sprachdaten, wenn die Stabilitäts-Verifizierungseinheit (13a) feststellt, dass die Registrierung der Sprachdaten akzeptabel ist; undeine Wiederäußerungsanforderungseinheit (15) zum Ausführen einer Wiederäußerungsanforderung einer einzelnen Sprachäußerung,wobei die Spracheingabeeinheit eine eine vorbestimmte Mehrzahl von Malen geäußerte Sprache eingibt und wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit (12) eingelesen werden, nicht enthalten sind,- die Stabilitätsverifizierungseinheit (13a)o die Wiederäußerungsanforderungseinheit (15) veranlasst, die Wiederäußerungsanforderung auszuführen,o die Sprachdaten-Ähnlichkeit aller Kombinationen zwischen den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung und den mehrfachen Sprachdaten, die bereits in der Speichereinheit (12) gespeichert sind, bestimmt und o wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als ein zweiter Schwellenwert ist, bestimmt, dass die Sprachdaten der Kombination mit der maximalen Ähnlichkeit registriert werden.

Description

  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem vom Sprachregistrierungstyp.
  • Bei einem bekannten Spracherkennungssystem vom Sprachregistrierungstyp wird eine zu registrierende Äußerung einmal geäußert, die Äußerung wird mit einem vorregistrierten Standardmuster verglichen und wenn festgestellt wird, dass die Äußerung sich von dem Standardmuster (dem vorregistriertem Vokabular) unterscheidet, (wahrscheinlich nicht verwechselt wird), wird Registrierungsverarbeitung durchgeführt (siehe beispielsweise JP 2002-297181 ).
  • Bei dem bekannten Spracherkennungssystem vom Sprachregistrierungstyp wird nur eine Äußerung der zu registrierenden Äußerung empfangen und es wird die Bestimmung vorgenommen, ob eine Registrierung durchzuführen ist oder nicht, basierend auf dem Ergebnis des Vergleiches zwischen der Äußerung und dem vorab registrierten Standardmuster. Daher kann eine Stabilität der zu registrierenden Äußerung nicht überprüft werden. Wenn beispielsweise ein Sprachabschnitt in einer lauten Umgebung teils verloren ist oder ein nicht gleichmäßiges Geräusch fehlerhaft als ein Sprachabschnitt detektiert wird, kann festgestellt werden, dass eine Registrierung akzeptabel ist, solange der Inhalt der Äußerung sich vom vorregistrierten Standardmuster unterscheidet; als Ergebnis kann eine Sprache fehlerhaft zum Standardmuster registriert werden. Somit wird in einem Fall, bei dem auf diese Weise eine falsche Eingabe als Standardmuster registriert wird, die Registrierung durch eine andere Sprache als dem tatsächlich durch einen Sprecher geäußerten Inhalt, der sich registrieren möchte, durchgeführt, und daher kann ein Registrierungsfehler auftreten, wenn eine zu erfassende Äußerung durch den Sprecher geäußert wird.
  • Zudem ist aus EP 0 424 071 A2 ein Sprechererkennungssystem bekannt, bei dem für den Fall, dass eine Sprecherregistrierung auf der Basis von einer anfänglichen Anzahl von Sprachäußerungen nicht möglich ist, eine weitere Sprachäußerung von dem Sprecher angefordert wird und erneut der Versuch der Registrierung unter Einbeziehung der neuen Sprachäußerung vollständig vorgenommen wird.
  • Aus DE 698 22 179 T2 und EP 2 006 836 A2 sind jeweils Vorrichtungen bekannt, in denen über ein Mikrofon eine mehrfach geäußerte Sprachäußerung empfangen wird und in denen jeweils eine Ähnlichkeit zwischen den mehrfach geäußerten Sprachäußerungen bestimmt wird. Wenn eine Ähnlichkeit geringer als ein Schwellenwert ist, wird eine Wiederholungsanforderung an den Benutzer ausgegeben.
  • Die vorliegende Erfindung hat das Ziel, die oben beschriebenen Probleme zu lösen. Dementsprechend besteht eine Aufgabe darin, ein Spracherkennungssystem bereitzustellen, so dass durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektierung eines Sprachabschnittes usw. reduziert werden können, womit eine Spracherkennungs-Leistungsfähigkeit verbessert wird, und dass eine Verbesserung bei der Bequemlichkeit und eine Reduzierung hinsichtlich unnötigen Speicherverbrauchs erzielt werden kann.
  • Diese Aufgabe wird gelöst durch ein Spracherkennungssystem mir den Merkmalen gemäß Patentanspruch 1. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.
  • Eine Ausführungsform der vorliegenden Erfindung wird weiter unten unter Bezugnahme auf die anhängenden Zeichnungen erläutert, um die vorliegende Erfindung detaillierter zu illustrieren. Die Figuren zeigen Folgendes:
    • 1 ist ein Blockdiagramm, das den Aufbau eines beispielhaften Spracherkennungssystems vom Sprachregistrierungstyp zeigt;
    • 2 ist ein Flussdiagramm, das den Fluss eines Betriebs zeigt, der durch eine Registrierungsverarbeitungs-einheit in 1 durchgeführt wird;
    • 3 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystems vom Sprachregistrierungstyp gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 4 ist ein Flussdiagramm, das den durch eine Registrierungsverarbeitungseinheit in 3 durchgeführten Betrieb zeigt;
    • 5 ist ein Flussdiagramm, das ein anderes Beispiel des durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt; und
    • 6 ist ein Flussdiagramm, das noch ein anderes Beispiel des durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt.
  • 1 ist ein Blockdiagramm, das den Aufbau eines beispielhaft erläuterten Spracherkennungssystems vom Sprachregistrierungstyp zeigt. In 1 beinhaltet das beispielhafte Spracherkennungssystem eine Registrierungsverarbeitungseinheit 1, eine Standardmuster-Speichereinheit 2 und eine Erkennungsverarbeitungseinheit 3. Die Registrierungsverarbeitungseinheit 1 ist ein Mittel zur Eingabe einer Äußerung, von der beabsichtigt ist, dass sie registriert wird (nachfolgend als Registrierungsäußerung bezeichnet), die durch einen Sprecher geäußert wird (nachfolgend als Registrierungssprecher bezeichnet), der die Äußerung als ein Standardmuster registrieren möchte, und zur Erzeugung eines Standardmusters, und beinhaltet eine Spracheingabeeinheit 11, eine Registrierungsstimmdaten-Speichereinheit 12, eine Äußerungsstabilitäts-Verifizierungseinheit (Stabilitätsverifizierungseinheit) 13 und eine Standardmuster-Erzeugungseinheit 14.
  • Die Spracheingabeeinheit 11 ist ein Mittel zum mehrmaligen Empfangen der Registrierungsäußerung und Erzeugen von mehrfachen Registrierungsstimmdaten entsprechend diesen mehrmaligen Registrierungsäußerungen. Die Registrierungsstimmdaten-Speichereinheit 12 ist eine Speichereinheit zum Speichern der durch die Spracheingabeeinheit 11 erzeugten Registrierungsstimmdaten. Die Äußerungsstabilitäts-Verifizierungseinheit 13 ist ein Mittel zum Berechnen einer Ähnlichkeit zwischen den mehrfachen Registrierungsstimmdaten, die in der Registrierungsstimmdaten-Speichereinheit 12 gespeichert sind, und zum Bestimmen, dass die Registrierung der mehrfachen Registrierungsstimmdaten akzeptabel ist, wenn die Ähnlichkeit gleich oder größer einem vorbestimmten Schwellenwert ist, während bestimmt wird, dass die Registrierung der mehrfachen Registrierungsstimmdaten nicht akzeptabel ist, wenn die Ähnlichkeit niedriger als der Schwellenwert ist. Die Standardmuster-Erzeugungseinheit 14 ist ein Mittel zum Erzeugen eines Standardmusters unter Verwendung der registrierten Äußerungs- (Sprach-)Daten, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13 feststellt, dass eine Registrierung akzeptabel ist.
  • Die Standardmuster-Speichereinheit 2 ist eine Speichereinheit zum Speichern des durch die Registrierungsverarbeitungseinheit 1 erzeugten Standardmusters. Die Erkennungsverarbeitungseinheit 3 ist ein Mittel zum Ausführen von Spracherkennung einer Äußerung, von der beabsichtigt ist, dass sie erkannt wird (nachfolgend als zu erkennende Äußerung bezeichnet), die vom Sprecher geäußert wird, unter Verwendung des in der Standardmuster-Speichereinheit 2 gespeicherten Standardmusters.
  • Man beachte, dass die Spracheingabeeinheit 11, die Äußerungsstabilitäts-Verifizierungseinheit 13, die Standardmuster-Erzeugungseinheit 14 und die Erkennungsverarbeitungseinheit 3 auf einem Computer als ein durch eine Kooperation zwischen Software und Hardware durch Einlesen eines Sprachregistrierungs-/Erkennungsprogramms entsprechend dem Zweck der vorliegenden Erfindung auf den Computer und Ausführen des Programms auf einer CPU desselben erzeugtes spezifisches Mittel realisiert werden kann. Weiterhin können die Registrierungsstimmdaten-Speichereinheit 12 und die Standardmuster-Speichereinheit 2 in einem Speicherbereich einer Speichervorrichtung (beispielsweise einer Festplattenvorrichtung, einem externen Speichermedium usw.), die auf einem Computer vorgesehen sind, aufgebaut werden.
  • Als Nächstes wird ein Betrieb derselben erläutert.
  • 2 ist ein Flussdiagramm, das den Ablauf eines durch die Registrierungsverarbeitungseinheit in 1 durchgeführten Prozesses zeigt. Unter Bezugnahme auf diese Zeichnung wird der Betrieb der Bestandteilseinheiten der Registrierungsverarbeitungseinheit 1 detailliert beschrieben. Wenn durch eine Bedienung von außerhalb des Systems oder dergleichen die Registrierungsverarbeitung gestartet wird, initialisiert die Spracheingabeeinheit 11 die in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten (löscht die Registrierungsstimmdaten) (Schritt ST1) und stellt einen Zählwert eines Zählers (in 1 nicht gezeigt) zum Zählen der Anzahl von Äußerungen N auf Null ein (Schritt ST2).
  • Unter dieser Bedingung äußert der Registrierungssprecher eine Äußerung (Registrierungsäußerung) gegenüber der Registrierungsverarbeitungseinheit 1. Die Spracheingabeeinheit 11 erhöht dann den Zählwert des Zählers zum Zählen der Anzahl von Äußerungen N um Eins (Schritt ST3), woraufhin die durch den Registrierungssprecher geäußerte Registrierungsäußerung sequentiell eingegeben wird (Schritt ST4). Als Nächstes speichert die Spracheingabeeinheit 11 die eingegebene Registrierungsäußerung in der Registrierungsstimmdaten-Speichereinheit 12 als Registrierungsstimmdaten (Schritt ST5).
  • Jedes Mal, wenn die Registrierungsäußerung eingegeben wird, vergleicht die Spracheingabeeinheit 11 die Anzahl von Äußerungen N, die durch den Zähler gezählt ist, mit einem vorbestimmten Schwellenwert M, um festzustellen, ob die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist oder nicht (Schritt ST6). Der Schwellenwert M ist die Anzahl von Malen, die ein identischer Inhalt als geäußert angenommen wird und der definiert ist durch einen Ganzzahlwert von Zwei oder größer. Wenn die Anzahl von Äußerungen N kleiner als der Schwellenwert M ist (Schritt ST6: NEIN), kehrt die Spracheingabeeinheit 11 zur Verarbeitung des Schritts ST3 zurück und wiederholt die Verarbeitung vom Schritt ST3 bis zum Schritt ST5, bis die Anzahl von Äußerungen N den Schwellenwert M erreicht oder übersteigt.
  • Wenn andererseits die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist (Schritt ST6: JA), berechnet die Äußerungsstabilitäts-Verifizierungseinheit 13 eine Ähnlichkeit mit den in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten (Schritt ST7). Die Ähnlichkeit der Mehrzahl von Stücken von Registrierungsstimmdaten wird beispielsweise unter Verwendung der nachfolgenden Verfahren berechnet.
  • Berechnungsverfahren 1
  • Wenn Registrierungsstimmdaten, welche den identischen Inhalt der Anzahl von Äußerungen M anzeigen, in der Registrierungsstimmdaten-Speichereinheit 12 gespeichert sind, bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13 alle Kombinationen von zwei Äußerungen in den Registrierungsstimmdaten der Anzahl von Äußerungen M. Als Nächstes extrahiert die Äußerungsstabilitäts-Verifizierungseinheit 13 ein Merkmal der Registrierungsstimmdaten für jede der zwei Äußerungen und berechnet eine Ähnlichkeit mit den Registrierungsstimmdaten zwischen den zwei Äußerungen durch das Merkmal verwendende dynamische Programmierung. Diese Ähnlichkeit wird bei allen Kombinationen von zwei Äußerungen festgestellt, woraufhin ein Durchschnittswert der erhaltenen Ähnlichkeiten als die Ähnlichkeit mit den Registrierungsstimmdaten der Anzahl von Äußerungen M eingestellt wird.
  • Berechnungsverfahren 2
  • Im Berechnungsverfahren 2 wird eine minimale Ähnlichkeit (Ähnlichkeit zwischen den unwahrscheinlichsten Äußerungen) aus den Ähnlichkeiten aller Kombinationen von zwei Äußerungen als die Ähnlichkeit mit den Registrierungsstimmdaten der Anzahl von Äußerungen M anstelle des Durchschnittswertes der Ähnlichkeiten eingestellt.
  • Berechnungsverfahren 3
  • Wenn die Ähnlichkeiten zwischen den Registrierungsstimmdaten in den Kombinationen von zwei Äußerungen berechnet wird, kooperieren die Äußerungsstabilitäts-Verifizierungseinheit 13, die Standardmuster-Erzeugungseinheit 14 und die Erkennungsverarbeitungseinheit 3, um eine Äußerung der obigen Kombinationen als ein zeitweiliges Standardmuster zu registrieren, führen Spracherkennung unter Verwendung der anderen Äußerung als eine Eingabe durch und verwenden eine Bewertung (Wahrscheinlichkeit), die als ein Erkennungsergebnis erhalten wird, als die Ähnlichkeit der Registrierungsstimmdaten zwischen den zwei Äußerungen. Dann wird die Ähnlichkeit von allen Kombinationen von zwei Äußerungen bestimmt, woraufhin der Durchschnittswert oder die minimale Ähnlichkeit der erhaltenen Ähnlichkeiten als die Ähnlichkeit mit den Registrierungsstimmdaten der Anzahl von Äußerungen M eingestellt wird.
  • Als Nächstes bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13, ob die im Schritt ST7 berechnete Ähnlichkeit mit den Registrierungsstimmdaten der Anzahl von Äußerungen M oder größer, gleich oder größer einem vorbestimmten Schwellenwert T1 (einem ersten Schwellenwert) ist (Schritt ST8). Wenn die Ähnlichkeit kleiner als der Schwellenwert T1 ist (Schritt ST8: NEIN), bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13, dass den eingegebenen Äußerungen Stabilität fehlt und beendet die Registrierungsbestimmung als ein sogenanntes Registrierungsversagen, d.h. Nichterzeugen eines Standardmusters für die in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten.
  • Wenn die Ähnlichkeit gleich oder größer dem Schwellenwert T1 ist (Schritt ST8: JA), benachrichtigt die Äußerungsstabilitäts-Verifizierungseinheit 13 die Standardmuster-Erzeugungseinheit 14 über die Zustimmung. Bei Empfang dieser Benachrichtigung erzeugt die Standardmuster-Erzeugungseinheit 14 ein Standardmuster aus dem in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten und registriert das erzeugte Standardmuster in der Standardmuster-Speichereinheit 2 (Schritt ST9, Registrierungsverarbeitung).
  • Als ein Beispiel des Standardmusters können beispielsweise, wenn ein Sprachmerkmal für jede Einheitszeit in Bezug auf die Registrierungsstimmdaten extrahiert wird (Eingabeäußerungsstimme), Zeitreihendaten (Merkmalsvektorzeitreihen) dieser Sprachmerkmale spezifiziert werden. Alternativ kann, wenn ein die Charakteristika jedes Sprachstücks repräsentierendes Modell, das für jedes Sprachstück erzeugt wird (Silben, Phoneme usw.) in einer Sprache vorab erzeugt wird, eine Zeitreihe (Beschriftungsreihe) der Modelle des Sprachstücks als das Standardmuster registriert werden.
  • In einem Schritt ST9 erzeugt die Standardmuster-Erzeugungseinheit 14 entsprechende Standardmuster, basierend auf den Registrierungsstimmdaten von K Registrierungsstimmdaten (wobei K eine Ganzzahl zwischen 1 und M ist), die in der Registrierungsstimmdaten-Speichereinheit 12 gespeichert worden sind, und registriert diese K Standardmuster in der Standardmuster-Speichereinheit 2. Beispiele von Verfahren zum Auswählen der K Stücke von Registrierungsstimmdaten beinhalten: ein Verfahren des Auswählens der K Stücke von Daten in der Reihenfolge der Nähe der Ähnlichkeiten, die durch die Äußerungsstabilitäts-Verifizierungseinheit 13 für die jeweiligen Kombinationen berechnet worden sind; und ein Verfahren zum Bestimmen eines Schwerpunkts als das Merkmal der Registrierungsstimmdaten und Auswählen von K Stücken der Daten in der Reihenfolge der Nähe zum Schwerpunkt.
  • Man beachte, dass anstelle des Erzeugens der K Standardmuster jeweils Sprachmerkmale in Relation auf die K Stücke von Registrierungsstimmdaten extrahiert werden können, woraufhin Sprachdaten zur Registrierung mit einem Durchschnittsmerkmal der Merkmale erzeugt und als das Standardmuster registriert werden.
  • Wie oben beschrieben, beinhaltet das beispielhafte Spracherkennungssystem die Spracheingabeeinheit 11 zum Eingeben einer mehrmals geäußerten Sprache, die Registrierungsstimmdaten-Speichereinheit 12 zum Speichern von Sprachdaten, die mehrmals geäußert worden und an der Spracheingabeeinheit 11 eingegeben sind, die Äußerungsstabilitäts-Verifizierungseinheit 13 zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten und aus der Registrierungsstimmdaten-Speichereinheit 12 eingelesenen Sprachdaten, und Bestimmen, dass die Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als der Schwellenwert T1 ist, und die Standardmuster-Erzeugungseinheit 14 zum Erzeugen eines Standardmusters unter Verwendung der Sprachdaten, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13 feststellt, dass die Registrierung akzeptabel ist. Mit diesem Aufbau wird die Registrierungsäußerung mehrmals eingegeben und eine Registrierungsverarbeitung wird nur durchgeführt, wenn die Ähnlichkeit zwischen den Äußerungen einen vorgegebenen Schwellenwert oder größer beträgt und eine weitere Registrierung wird nur durchgeführt, wenn die Mehrzahl von Eingabeäußerungen nahe beieinander sind (ähnlich sind). Daher, da die Registrierung nur abgeschlossen wird, wenn eine Mehrzahl von Äußerungen mit identischem Inhalt nahe aneinander liegen, das heißt, nur wenn die Eingabeäußerung stabil ist, können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektion eines Sprachabschnitts usw. reduziert werden, wodurch eine Spracherkennungs-Leistungsfähigkeit (Erkennungsrate) verbessert werden kann.
  • Weiterhin kann bei dem beispielhaften Spracherkennungssystem, da ein Standardmuster aus der Mehrzahl von Äußerungen während der Registrierung erzeugt wird, ein Standardmuster entsprechend von den Variationen bei der Äußerung erzeugt werden, wodurch die Leistungsfähigkeit des Spracherkennungsbetriebs, der das Standardmuster verwendet, verbessert wird.
  • 3 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystem vom Sprachregistrierungstyps gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. In 3 beinhaltet das Spracherkennungssystem gemäß der Ausführungsform gemäß der Erfindung eine Registrierungsverarbeitungseinheit 1A, die Standardmuster-Speichereinheit 2 und die Erkennungsverarbeitungseinheit 3. Die Registrierungsverarbeitungseinheit 1A beinhaltet die Spracheingabeeinheit 11, die Registrierungsstimmdaten-Speichereinheit 12, eine Äußerungsstabilitäts-Verifizierungseinheit 13A, die Standardmuster-Erzeugungseinheit 14 und eine Wiederäußerungsanforderungseinheit 15.
  • Die Äußerungsstabilitäts-Verifizierungseinheit 13a ist ein Mittel zur Berechnung von Ähnlichkeiten zwischen entsprechenden Kombinationen von Registrierungsstimmdaten, die geäußert worden sind, identischen Inhalt aufzuweisen, von einer Anzahl M von Äußerungen, aus den mehrfachen Registrierungsstimmdaten, die in der Registrierungsstimmdaten-Speichereinheit 12 gespeichert sind, Bestimmen der Kombination von M Äußerungen mit einer maximalen Ähnlichkeit und der Ähnlichkeit derselben; und Bestimmen, dass eine Registrierung akzeptabel ist, wenn die Ähnlichkeit gleich oder größer einem vorbestimmten Schwellenwert ist, während bestimmt wird, dass die Registrierung nicht akzeptabel ist, wenn die Ähnlichkeit kleiner dem Schwellenwert ist. Die Wiederäußerungsanforderungseinheit 15 ist ein Mittel, um eine Wiederäußerungsanforderung an den Registrierungssprecher vorzunehmen, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13a feststellt, dass die Registrierung nicht akzeptabel ist. Man beachte, dass andere Bestandteilselemente als die Äußerungsstabilitäts-Verifizierungseinheit 13a und die Wiederäußerungsanforderungseinheit 15 identisch mit jenen des beispielhaft geschilderten Spracherkennungssystems sind und daher deren Beschreibungen weggelassen wird.
  • Als Nächstes wird ein Betrieb der erfindungsgemäßen Ausführungsform beschrieben.
  • 4 ist ein Flussdiagramm, das den Ablauf eines durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt. Bezug nehmend auf diese Zeichnung wird der Betrieb der Bestandteilseinheiten der Registrierungsverarbeitungseinheit 1A detailliert beschrieben. In 4 sind die Verarbeitungen von Schritt ST1 bis Schritt ST6 im Inhalt ähnlich jenen des in 2 gezeigten Spracherkennungssystems und daher wird deren Beschreibung weggelassen.
  • Wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist (Schritt ST6: JA), berechnet die Äußerungsstabilitäts-Verifizierungseinheit 13a Ähnlichkeiten in Bezug auf Kombinationen der Registrierungsstimmdaten von M Äußerungen, die identischen Inhalt aufweisen, aus den in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten und bestimmt dann die Kombination von M Äußerungen mit der maximalen Ähnlichkeit und die Ähnlichkeit derselben (Schritt ST7a). Man beachte, dass die Ähnlichkeiten zwischen den entsprechenden Kombinationen der Registrierungsstimmdaten entsprechend der Mehrzahl von Äußerungen (M Äußerungen) in einer ähnlichen Weise wie bei dem beispielhaften Spracherkennungssystem berechnet werden.
  • Nach Bestimmen der Kombination von M Äußerungen mit maximaler Ähnlichkeit und deren Ähnlichkeit bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13a, ob die festgestellte maximale Ähnlichkeit gleich oder größer dem vorbestimmten Schwellenwert T1 ist (Schritt ST8). Wenn die maximale Ähnlichkeit gleich oder größer dem Schwellenwert T1 ist (Schritt ST8: JA), benachrichtigt die Äußerungsstabilitäts-Verifizierungseinheit 13a die Standardmuster-Erzeugungseinheit 14 über die Zustimmung. Beim Empfang dieser Benachrichtigung erzeugt die Standardmuster-Erzeugungseinheit 14 ein Standardmuster aus den Registrierungsstimmdaten der M Äußerungen und registriert das erzeugte Standardmuster in der Standardmuster-Speichereinheit 2 (Schritt ST9, Registrierungsverarbeitung).
  • Wenn andererseits die maximale Ähnlichkeit kleiner als der Schwellenwert ist (Schritt ST8: NEIN), benachrichtigt die Äußerungsstabilitäts-Verifizierungseinheit 13a die Wiederäußerungsanforderungseinheit 15 über die Negierung. Beim Empfang dieser Benachrichtigung fordert die Wiederäußerungsanforderungseinheit 15 eine Wiederäußerung einer einzelnen Äußerung beim Registrierungssprecher durch Dokumentenanzeige oder Sprachausgabe unter Verwendung einer Anzeigevorrichtung, eines Lautsprechers oder dergleichen an, die in den Zeichnungen nicht gezeigt sind (Schritt ST8-1).
  • Wenn der Registrierungssprecher die einzelne Äußerung unter dieser Bedingung tätigt, erhöht die Spracheingabeeinheit 11 den Zählwert des Zählers zum Zählen der Anzahl von Äußerungen N um Eins (Schritt ST3), woraufhin die Verarbeitung von Schritt ST4 bis Schritt ST8 wiederholt wird, bis die maximale Ähnlichkeit den Schwellenwert T1 erreicht oder übersteigt (Schritt ST8: JA).
  • In diesem Fall, da die Ähnlichkeiten der Kombinationen von Registrierungsstimmdaten von M Äußerungen nicht einschließlich der wieder geäußerten einzelnen Äußerungen bereits berechnet worden sind, sollte eine Ähnlichkeit für eine Kombination der Registrierungsstimmdaten der M Äußerungen einschließlich der einzelnen, durch die erneute Äußerung hinzugefügten Äußerung neu berechnet werden. Beispielsweise wird eine Ähnlichkeit zwischen den Sprachdaten von M Äußerungen, welche die Sprachdaten der neu hinzugefügten einzelnen Äußerung mit den Sprachdaten von (M-1) Mal bereits in der Registrierungsstimmdaten-Speichereinheit 12 registrierten kombinieren, festgestellt. Die Kombination der Äußerungen mit der maximalen Ähnlichkeit wird dann spezifiziert und wenn die maximale Ähnlichkeit gleich oder größer dem Schwellenwert ist, werden die Sprachdaten der entsprechenden Kombination registriert.
  • Wie oben beschrieben, beinhaltet die Ausführungsform eine Wiederäußerungsanforderungseinheit zum Ausführen einer Wiederäußerungsanforderung einer einzelnen Sprachäußerung, wobei wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit eingelesen werden, nicht enthalten sind, die Stabilitätsverifizierungseinheit die Wiederäußerungsanforderungseinheit veranlasst, die Wiederäußerungsanforderung auszuführen, die Sprachdaten-Ähnlichkeit aller Kombinationen zwischen den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung und den mehrfachen Sprachdaten, die bereits in der Speichereinheit gespeichert sind zu berechnen, und wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als ein zweiter Schwellenwert ist, zu bestimmen, dass die Sprachdaten der Kombination mit der maximalen Ähnlichkeit registriert werden.
  • Bei diesem Aufbau werden ähnliche Effekte wie jene des weiter oben beschriebenen Spracherkennungssystems erhalten und es kann auch die Anzahl von Äußerungen, die zur Registrierung erforderlich sind, im Vergleich mit einem Fall verringert werden, bei dem die Registrierungsäußerung M Mal wieder geäußert wird, nachfolgend einem Registrierungsversagen, wodurch eine dem Registrierungssprecher auferlegte Last reduziert wird.
  • Weiterhin kann in der obigen Ausführungsform der Erfindung, wie in 5 gezeigt, der folgende Schritt ST10 hinzugefügt werden: die Spracheingabeeinheit 11 vergleicht die Anzahl von Äußerungen N (wobei N gleich oder größer M ist), die durch den Zähler gezählt ist, mit einem vorbestimmten Schwellenwert Tn, der eine Obergrenze der Anzahl von Äußerungen anzeigt, wenn die maximale Ähnlichkeit kleiner als der Schwellenwert T1 ist, um festzustellen, ob die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist.
  • Wenn hier die Anzahl von Äußerungen N kleiner als der Schwellenwert Tn ist (Schritt ST10: NEIN), benachrichtigt die Spracheingabeeinheit 11 die Äußerungsstabilitäts-Verifizierungseinheit 13 über das Negierung über die Äußerungsstabilitäts-Verifizierungseinheit 13a. Beim Empfang dieser Benachrichtigung macht die Wiederäußerungsanforderungseinheit 15 eine Anforderung nach Wiederäußerung einer einzelnen Äußerung an den Registrierungssprecher (Schritt ST10-1).
  • Weiterhin, wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist (Schritt ST10: JA), bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13a ein Registrierungsversagen. Daher, wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist, wird die Registrierungsbestimmung als ein Registrierungsversagen abgeschlossen, ohne die Registrierungsäußerung wieder einzugeben.
  • Weiterhin kann in der Ausführungsform der Erfindung, wie in 6 gezeigt, der folgende Schritt ST11 hinzugefügt werden: die Äußerungsstabilitäts-Verifizierungseinheit 13a selektiert Registrierungsstimmdaten der neuesten L (wobei L ein Ganzzahlwert von M oder mehr ist) Äußerungen aus den in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten und löscht die verbleibenden Registrierungsstimmdaten, wenn die Anzahl von Äußerungen N kleiner als der Schwellenwert Tn ist (Schritt ST10: NEIN). Wenn die Verarbeitung des Schrittes ST11 abgeschlossen ist, macht die Wiederäußerungsanforderungseinheit 15 eine Anforderung bezüglich Wiederäußerung einer einzelnen Äußerung an den Registrierungssprecher (Schritt ST11-1). Somit werden Ähnlichkeitsbestätigung und Registrierungsverarbeitung unter Verwendung von Sprachdaten entsprechend L+1 Äußerungen durchgeführt, welche die Sprachdaten der neu erhaltenen einzelnen Äußerungen mit den Registrierungsstimmdaten für die L bereits in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Äußerungen kombinieren.
  • Weiterhin kann die Registrierungsstimmdaten-Kombination, aus der die maximale Ähnlichkeit erhalten wird, als ein Standard zum Bewahren der Registrierungsstimmdaten der L Äußerungen beibehalten werden. Das Verfahren zum Berechnen der maximalen Ähnlichkeit ist ähnlich dem Schritt ST7a, bei dem Ähnlichkeiten von Registrierungsstimmdaten-Kombinationen von M Äußerungen berechnet werden.
  • Man beachte, dass, wenn L = M die Kombination der Registrierungsstimmdaten der L Äußerungen die eine der Registrierungsstimmdaten von M Äußerungen mit der maximalen Ähnlichkeit, die in Schritt ST7a bestimmt wird, ist.
  • Wie oben beschrieben, kann durch Eingeben der Registrierungsäußerung als eine Äußerung nach der anderen ohne Bestimmen eines Registrierungsversagens in einem Fall, wenn die Registrierungsäußerung einer Registrierungsbedingung nicht genügt, die Anzahl von eingegebenen Äußerungen im Vergleich mit einem Fall reduziert werden, wenn jedes Mal, wenn die Registrierung versagt, die Äußerung M Mal wieder geäußert wird; als ein Ergebnis kann ein Spracherkennungssystem vom Sprachregistrierungstyp erhalten werden, das für den Registrierungssprecher sehr bequem ist.
  • Weiterhin kann durch Einstellen einer Obergrenze (Schwellenwert Tn) zur Anzahl von Malen, mit der die Äußerung zum Zeitpunkt eines Registrierungsversagens wieder geäußert wird, eine Situation, bei der eine Registrierung nicht durchgeführt werden kann, obwohl die Registrierungsäußerung kontinuierlich geäußert wird, ausgeschlossen werden. Bei einer solchen Situation ist es sehr wahrscheinlich, dass die Ursache des Registrierungsversagens eine schwache Registrierungs-(Äußerungs-) Umgebung ist. Daher kann durch Beenden der Registrierungsverarbeitung als ein Scheitern, wenn die Anzahl von Äußerungen den Schwellenwert Tn erreicht oder übersteigt, eine Belehrung wie etwa eine Empfehlung, die Äußerungsumgebung des Registrierungsbetriebs zu verändern, erlassen werden und somit kann ein Anwender-freundliches System bereitgestellt werden.
  • Darüber hinaus kann durch Einstellen einer Obergrenze (L Äußerungen) zur Anzahl von Stücken von aufgezeichneten Registrierungsstimmdaten ein Aufzeichnungsbereich der Registrierungsstimmdaten-Speichereinheit 12 ökonomisch verwendet werden und kann ein zum Berechnen der maximalen Ähnlichkeit erforderlicher Berechnungsbetrag reduziert werden.
  • INDUSTRIELLE ANWENDBARKEIT
  • Mit dem Spracherkennungssystem gemäß der vorliegenden Erfindung können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektion eines Sprachabschnittes und so weiter reduziert werden, wodurch eine Spracherkennungsleistungsfähigkeit verbessert wird und auch eine Verbesserung in Bequemlichkeit und eine Reduzierung beim unnötigen Speicherverbrauch erzielt werden, indem ein unnötiges Anwachsen bei der Anzahl von Äußerungen vermieden wird. Entsprechend ist die vorliegende Erfindung zur Verwendung als ein Spracherkennungssystem vom Sprachregistrierungstyp oder dergleichen geeignet.

Claims (4)

  1. Spracherkennungssystem zur Durchführung einer Spracherkennung einer zu erkennenden Äußerung unter Verwendung eines Standardmusters mit einer Spracheingabeeinheit (11) zum Empfangen einer mehrfach geäußerten Sprachäußerung und Erzeugen von Registrierungsstimmdaten entsprechend der Anzahl der Sprachäußerungen; einer Speichereinheit (12) zum Speichern der mehrfach von der Spracheingabeeinheit erzeugten Sprachdaten; einer Stabilitätsverifizierungseinheit (13a) - zum Bestimmen einer Ähnlichkeit zwischen den Sprachdaten, die der mehrmals geäußerten Sprachäußerung entsprechen und die aus der Speichereinheit ausgelesen werden, und - zum Bestimmen, dass eine Registrierung von Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein erster Schwellenwert ist; einer Standardmuster-Erzeugungseinheit (14) zum Erzeugen eines Standardmusters durch Verwenden der Sprachdaten, wenn die Stabilitäts-Verifizierungseinheit (13a) feststellt, dass die Registrierung der Sprachdaten akzeptabel ist; und eine Wiederäußerungsanforderungseinheit (15) zum Ausführen einer Wiederäußerungsanforderung einer einzelnen Sprachäußerung, wobei die Spracheingabeeinheit eine eine vorbestimmte Mehrzahl von Malen geäußerte Sprache eingibt und wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit (12) eingelesen werden, nicht enthalten sind, - die Stabilitätsverifizierungseinheit (13a) o die Wiederäußerungsanforderungseinheit (15) veranlasst, die Wiederäußerungsanforderung auszuführen, o die Sprachdaten-Ähnlichkeit aller Kombinationen zwischen den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung und den mehrfachen Sprachdaten, die bereits in der Speichereinheit (12) gespeichert sind, bestimmt und o wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als ein zweiter Schwellenwert ist, bestimmt, dass die Sprachdaten der Kombination mit der maximalen Ähnlichkeit registriert werden.
  2. Spracherkennungssystem gemäß Anspruch 1, wobei, wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit (12) eingelesen werden, nicht enthalten sind und auch die Anzahl von einzelnen Sprachäußerungen einen dritten Schwellenwert erreicht, die Stabilitäts-Verifizierungseinheit eine Registrierung von Sprachdaten beendet, statt die Wiederäußerungsanforderungseinheit zu veranlassen, die Wiederäußerungsanforderung auszuführen.
  3. Spracherkennungssystem gemäß Anspruch 1, wobei, wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit (12) eingelesen werden, nicht enthalten sind, die Stabilitätsverifizierungseinheit (13a) - die Sprachdaten aus der Speichereinheit (12) löscht, während eine vorbestimmte Anzahl von Sprachdaten zurückbleibt, - Sprachdaten-Ähnlichkeiten zwischen den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung und der vorbestimmten Anzahl von Sprachdaten bestimmt, die in der Speichereinheit zurückgeblieben sind, und - wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als der zweite Schwellenwert ist, bestimmt, dass die Sprachdaten der Kombination mit der maximalen Ähnlichkeit registriert werden.
  4. Spracherkennungssystem gemäß Anspruch 3, wobei die Stabilitätsverifizierungseinheit (13a) die vorbestimmte Anzahl von Sprachdaten aus der Kombination von Sprachdaten mit der maximalen Ähnlichkeit zwischen den Sprachdaten aus den mehrfachen Sprachdaten, die bereits in der Speichereinheit gespeichert sind, und den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung identifiziert und die identifizierten Sprachdaten in der Speichereinheit belässt.
DE112009004357.7T 2009-01-30 2009-10-08 Spracherkennungssystem Active DE112009004357B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009019692 2009-01-30
JP2009-019692 2009-01-30
PCT/JP2009/005244 WO2010086925A1 (ja) 2009-01-30 2009-10-08 音声認識装置

Publications (2)

Publication Number Publication Date
DE112009004357T5 DE112009004357T5 (de) 2012-07-12
DE112009004357B4 true DE112009004357B4 (de) 2019-06-13

Family

ID=42395195

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112009004357.7T Active DE112009004357B4 (de) 2009-01-30 2009-10-08 Spracherkennungssystem

Country Status (5)

Country Link
US (1) US8977547B2 (de)
JP (1) JP5172973B2 (de)
CN (1) CN102301419B (de)
DE (1) DE112009004357B4 (de)
WO (1) WO2010086925A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630971B2 (en) * 2009-11-20 2014-01-14 Indian Institute Of Science System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns
TWI475558B (zh) * 2012-11-08 2015-03-01 Ind Tech Res Inst 詞語驗證的方法及裝置
JP6348903B2 (ja) * 2013-06-10 2018-06-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別方法、話者識別装置及び情報管理方法
US9443508B2 (en) * 2013-09-11 2016-09-13 Texas Instruments Incorporated User programmable voice command recognition based on sparse features
WO2016015687A1 (zh) * 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
CN105185379B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
US10044710B2 (en) 2016-02-22 2018-08-07 Bpip Limited Liability Company Device and method for validating a user using an intelligent voice print
US10559305B2 (en) 2016-05-06 2020-02-11 Sony Corporation Information processing system, and information processing method
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US9984688B2 (en) 2016-09-28 2018-05-29 Visteon Global Technologies, Inc. Dynamically adjusting a voice recognition system
WO2020111880A1 (en) 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. User authentication method and apparatus

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
EP0424071A2 (de) 1989-10-16 1991-04-24 Logica Uk Limited Sprechererkennung
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
DE69822179T2 (de) 1997-09-17 2004-07-29 Ameritech Corp., Hoffman Estates Verfahren zum lernen von mustern für die sprach- oder die sprechererkennung
EP2006836A2 (de) 2006-03-24 2008-12-24 Pioneer Corporation Sprechermodell-registrationseinrichtung und verfahren in einem sprechererkennungssystem und computerprogrramm
DE102008024257A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE102008040002A1 (de) * 2008-08-27 2010-03-04 Siemens Aktiengesellschaft Verfahren zur szenariounabhängigen Sprechererkennung

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59192A (ja) * 1982-06-25 1984-01-05 株式会社東芝 個人照合装置
JP2838848B2 (ja) * 1989-02-10 1998-12-16 株式会社リコー 標準パターン登録方式
JPH075890A (ja) 1993-06-16 1995-01-10 Nippon Telegr & Teleph Corp <Ntt> 音声対話装置
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
KR100241901B1 (ko) * 1997-08-28 2000-02-01 윤종용 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법
JP3699608B2 (ja) * 1999-04-01 2005-09-28 富士通株式会社 話者照合装置及び方法
KR100297833B1 (ko) * 1999-07-07 2001-11-01 윤종용 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
JP4213716B2 (ja) * 2003-07-31 2009-01-21 富士通株式会社 音声認証システム
JP4672003B2 (ja) * 2005-02-18 2011-04-20 富士通株式会社 音声認証システム
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8347247B2 (en) * 2008-10-17 2013-01-01 International Business Machines Corporation Visualization interface of continuous waveform multi-speaker identification
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
EP0424071A2 (de) 1989-10-16 1991-04-24 Logica Uk Limited Sprechererkennung
DE69822179T2 (de) 1997-09-17 2004-07-29 Ameritech Corp., Hoffman Estates Verfahren zum lernen von mustern für die sprach- oder die sprechererkennung
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
EP2006836A2 (de) 2006-03-24 2008-12-24 Pioneer Corporation Sprechermodell-registrationseinrichtung und verfahren in einem sprechererkennungssystem und computerprogrramm
DE102008024257A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE102008040002A1 (de) * 2008-08-27 2010-03-04 Siemens Aktiengesellschaft Verfahren zur szenariounabhängigen Sprechererkennung

Also Published As

Publication number Publication date
US20110276331A1 (en) 2011-11-10
CN102301419A (zh) 2011-12-28
CN102301419B (zh) 2013-06-12
JPWO2010086925A1 (ja) 2012-07-26
WO2010086925A1 (ja) 2010-08-05
DE112009004357T5 (de) 2012-07-12
JP5172973B2 (ja) 2013-03-27
US8977547B2 (en) 2015-03-10

Similar Documents

Publication Publication Date Title
DE112009004357B4 (de) Spracherkennungssystem
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE60213195T2 (de) Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE60126722T2 (de) Aussprache von neuen Wörtern zur Sprachverarbeitung
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
DE112016004008T5 (de) Neuronales netz für sprecherverifikation
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE112015003382B4 (de) Spracherkennungseinrichtung und Spracherkennungsverfahren
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE60108373T2 (de) Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE102017124264A1 (de) Bestimmen phonetischer Beziehungen
DE69937854T2 (de) Verfahren und Vorrichtung zur Spracherkennung unter Verwendung von phonetischen Transkriptionen
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE60023398T2 (de) Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015060000

Ipc: G10L0017040000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015060000

Ipc: G10L0017040000

Effective date: 20121121

R016 Response to examination communication
R084 Declaration of willingness to licence
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0017040000

Ipc: G10L0015060000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final