DE112009004357B4

DE112009004357B4 - Spracherkennungssystem

Info

Publication number: DE112009004357B4
Application number: DE112009004357.7T
Authority: DE
Inventors: Michihiro Yamazaki; Jun Ishii; Hiroki Sakashita; Kazuyuki Nogi
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-01-30
Filing date: 2009-10-08
Publication date: 2019-06-13
Anticipated expiration: 2029-10-09
Also published as: US20110276331A1; CN102301419A; CN102301419B; JPWO2010086925A1; WO2010086925A1; DE112009004357T5; JP5172973B2; US8977547B2

Abstract

Spracherkennungssystem zur Durchführung einer Spracherkennung einer zu erkennenden Äußerung unter Verwendung eines Standardmusters miteiner Spracheingabeeinheit (11) zum Empfangen einer mehrfach geäußerten Sprachäußerung und Erzeugen von Registrierungsstimmdaten entsprechend der Anzahl der Sprachäußerungen;einer Speichereinheit (12) zum Speichern der mehrfach von der Spracheingabeeinheit erzeugten Sprachdaten;einer Stabilitätsverifizierungseinheit (13a)- zum Bestimmen einer Ähnlichkeit zwischen den Sprachdaten, die der mehrmals geäußerten Sprachäußerung entsprechen und die aus der Speichereinheit ausgelesen werden, und- zum Bestimmen, dass eine Registrierung von Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein erster Schwellenwert ist;einer Standardmuster-Erzeugungseinheit (14) zum Erzeugen eines Standardmusters durch Verwenden der Sprachdaten, wenn die Stabilitäts-Verifizierungseinheit (13a) feststellt, dass die Registrierung der Sprachdaten akzeptabel ist; undeine Wiederäußerungsanforderungseinheit (15) zum Ausführen einer Wiederäußerungsanforderung einer einzelnen Sprachäußerung,wobei die Spracheingabeeinheit eine eine vorbestimmte Mehrzahl von Malen geäußerte Sprache eingibt und wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit (12) eingelesen werden, nicht enthalten sind,- die Stabilitätsverifizierungseinheit (13a)o die Wiederäußerungsanforderungseinheit (15) veranlasst, die Wiederäußerungsanforderung auszuführen,o die Sprachdaten-Ähnlichkeit aller Kombinationen zwischen den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung und den mehrfachen Sprachdaten, die bereits in der Speichereinheit (12) gespeichert sind, bestimmt und o wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als ein zweiter Schwellenwert ist, bestimmt, dass die Sprachdaten der Kombination mit der maximalen Ähnlichkeit registriert werden.

Description

Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem vom Sprachregistrierungstyp.
Bei einem bekannten Spracherkennungssystem vom Sprachregistrierungstyp wird eine zu registrierende Äußerung einmal geäußert, die Äußerung wird mit einem vorregistrierten Standardmuster verglichen und wenn festgestellt wird, dass die Äußerung sich von dem Standardmuster (dem vorregistriertem Vokabular) unterscheidet, (wahrscheinlich nicht verwechselt wird), wird Registrierungsverarbeitung durchgeführt (siehe beispielsweise JP 2002-297181 ).
Bei dem bekannten Spracherkennungssystem vom Sprachregistrierungstyp wird nur eine Äußerung der zu registrierenden Äußerung empfangen und es wird die Bestimmung vorgenommen, ob eine Registrierung durchzuführen ist oder nicht, basierend auf dem Ergebnis des Vergleiches zwischen der Äußerung und dem vorab registrierten Standardmuster. Daher kann eine Stabilität der zu registrierenden Äußerung nicht überprüft werden. Wenn beispielsweise ein Sprachabschnitt in einer lauten Umgebung teils verloren ist oder ein nicht gleichmäßiges Geräusch fehlerhaft als ein Sprachabschnitt detektiert wird, kann festgestellt werden, dass eine Registrierung akzeptabel ist, solange der Inhalt der Äußerung sich vom vorregistrierten Standardmuster unterscheidet; als Ergebnis kann eine Sprache fehlerhaft zum Standardmuster registriert werden. Somit wird in einem Fall, bei dem auf diese Weise eine falsche Eingabe als Standardmuster registriert wird, die Registrierung durch eine andere Sprache als dem tatsächlich durch einen Sprecher geäußerten Inhalt, der sich registrieren möchte, durchgeführt, und daher kann ein Registrierungsfehler auftreten, wenn eine zu erfassende Äußerung durch den Sprecher geäußert wird.
Zudem ist aus EP 0 424 071 A2 ein Sprechererkennungssystem bekannt, bei dem für den Fall, dass eine Sprecherregistrierung auf der Basis von einer anfänglichen Anzahl von Sprachäußerungen nicht möglich ist, eine weitere Sprachäußerung von dem Sprecher angefordert wird und erneut der Versuch der Registrierung unter Einbeziehung der neuen Sprachäußerung vollständig vorgenommen wird.
Aus DE 698 22 179 T2 und EP 2 006 836 A2 sind jeweils Vorrichtungen bekannt, in denen über ein Mikrofon eine mehrfach geäußerte Sprachäußerung empfangen wird und in denen jeweils eine Ähnlichkeit zwischen den mehrfach geäußerten Sprachäußerungen bestimmt wird. Wenn eine Ähnlichkeit geringer als ein Schwellenwert ist, wird eine Wiederholungsanforderung an den Benutzer ausgegeben.
Die vorliegende Erfindung hat das Ziel, die oben beschriebenen Probleme zu lösen. Dementsprechend besteht eine Aufgabe darin, ein Spracherkennungssystem bereitzustellen, so dass durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektierung eines Sprachabschnittes usw. reduziert werden können, womit eine Spracherkennungs-Leistungsfähigkeit verbessert wird, und dass eine Verbesserung bei der Bequemlichkeit und eine Reduzierung hinsichtlich unnötigen Speicherverbrauchs erzielt werden kann.
Diese Aufgabe wird gelöst durch ein Spracherkennungssystem mir den Merkmalen gemäß Patentanspruch 1. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.
Eine Ausführungsform der vorliegenden Erfindung wird weiter unten unter Bezugnahme auf die anhängenden Zeichnungen erläutert, um die vorliegende Erfindung detaillierter zu illustrieren. Die Figuren zeigen Folgendes:

1 ist ein Blockdiagramm, das den Aufbau eines beispielhaften Spracherkennungssystems vom Sprachregistrierungstyp zeigt;
2 ist ein Flussdiagramm, das den Fluss eines Betriebs zeigt, der durch eine Registrierungsverarbeitungs-einheit in 1 durchgeführt wird;
3 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystems vom Sprachregistrierungstyp gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
4 ist ein Flussdiagramm, das den durch eine Registrierungsverarbeitungseinheit in 3 durchgeführten Betrieb zeigt;
5 ist ein Flussdiagramm, das ein anderes Beispiel des durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt; und
6 ist ein Flussdiagramm, das noch ein anderes Beispiel des durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt.

1 ist ein Blockdiagramm, das den Aufbau eines beispielhaft erläuterten Spracherkennungssystems vom Sprachregistrierungstyp zeigt. In 1 beinhaltet das beispielhafte Spracherkennungssystem eine Registrierungsverarbeitungseinheit 1, eine Standardmuster-Speichereinheit 2 und eine Erkennungsverarbeitungseinheit 3. Die Registrierungsverarbeitungseinheit 1 ist ein Mittel zur Eingabe einer Äußerung, von der beabsichtigt ist, dass sie registriert wird (nachfolgend als Registrierungsäußerung bezeichnet), die durch einen Sprecher geäußert wird (nachfolgend als Registrierungssprecher bezeichnet), der die Äußerung als ein Standardmuster registrieren möchte, und zur Erzeugung eines Standardmusters, und beinhaltet eine Spracheingabeeinheit 11, eine Registrierungsstimmdaten-Speichereinheit 12, eine Äußerungsstabilitäts-Verifizierungseinheit (Stabilitätsverifizierungseinheit) 13 und eine Standardmuster-Erzeugungseinheit 14.
Die Spracheingabeeinheit 11 ist ein Mittel zum mehrmaligen Empfangen der Registrierungsäußerung und Erzeugen von mehrfachen Registrierungsstimmdaten entsprechend diesen mehrmaligen Registrierungsäußerungen. Die Registrierungsstimmdaten-Speichereinheit 12 ist eine Speichereinheit zum Speichern der durch die Spracheingabeeinheit 11 erzeugten Registrierungsstimmdaten. Die Äußerungsstabilitäts-Verifizierungseinheit 13 ist ein Mittel zum Berechnen einer Ähnlichkeit zwischen den mehrfachen Registrierungsstimmdaten, die in der Registrierungsstimmdaten-Speichereinheit 12 gespeichert sind, und zum Bestimmen, dass die Registrierung der mehrfachen Registrierungsstimmdaten akzeptabel ist, wenn die Ähnlichkeit gleich oder größer einem vorbestimmten Schwellenwert ist, während bestimmt wird, dass die Registrierung der mehrfachen Registrierungsstimmdaten nicht akzeptabel ist, wenn die Ähnlichkeit niedriger als der Schwellenwert ist. Die Standardmuster-Erzeugungseinheit 14 ist ein Mittel zum Erzeugen eines Standardmusters unter Verwendung der registrierten Äußerungs- (Sprach-)Daten, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13 feststellt, dass eine Registrierung akzeptabel ist.
Die Standardmuster-Speichereinheit 2 ist eine Speichereinheit zum Speichern des durch die Registrierungsverarbeitungseinheit 1 erzeugten Standardmusters. Die Erkennungsverarbeitungseinheit 3 ist ein Mittel zum Ausführen von Spracherkennung einer Äußerung, von der beabsichtigt ist, dass sie erkannt wird (nachfolgend als zu erkennende Äußerung bezeichnet), die vom Sprecher geäußert wird, unter Verwendung des in der Standardmuster-Speichereinheit 2 gespeicherten Standardmusters.
Man beachte, dass die Spracheingabeeinheit 11, die Äußerungsstabilitäts-Verifizierungseinheit 13, die Standardmuster-Erzeugungseinheit 14 und die Erkennungsverarbeitungseinheit 3 auf einem Computer als ein durch eine Kooperation zwischen Software und Hardware durch Einlesen eines Sprachregistrierungs-/Erkennungsprogramms entsprechend dem Zweck der vorliegenden Erfindung auf den Computer und Ausführen des Programms auf einer CPU desselben erzeugtes spezifisches Mittel realisiert werden kann. Weiterhin können die Registrierungsstimmdaten-Speichereinheit 12 und die Standardmuster-Speichereinheit 2 in einem Speicherbereich einer Speichervorrichtung (beispielsweise einer Festplattenvorrichtung, einem externen Speichermedium usw.), die auf einem Computer vorgesehen sind, aufgebaut werden.
Als Nächstes wird ein Betrieb derselben erläutert.
2 ist ein Flussdiagramm, das den Ablauf eines durch die Registrierungsverarbeitungseinheit in 1 durchgeführten Prozesses zeigt. Unter Bezugnahme auf diese Zeichnung wird der Betrieb der Bestandteilseinheiten der Registrierungsverarbeitungseinheit 1 detailliert beschrieben. Wenn durch eine Bedienung von außerhalb des Systems oder dergleichen die Registrierungsverarbeitung gestartet wird, initialisiert die Spracheingabeeinheit 11 die in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten (löscht die Registrierungsstimmdaten) (Schritt ST1) und stellt einen Zählwert eines Zählers (in 1 nicht gezeigt) zum Zählen der Anzahl von Äußerungen N auf Null ein (Schritt ST2).
Unter dieser Bedingung äußert der Registrierungssprecher eine Äußerung (Registrierungsäußerung) gegenüber der Registrierungsverarbeitungseinheit 1. Die Spracheingabeeinheit 11 erhöht dann den Zählwert des Zählers zum Zählen der Anzahl von Äußerungen N um Eins (Schritt ST3), woraufhin die durch den Registrierungssprecher geäußerte Registrierungsäußerung sequentiell eingegeben wird (Schritt ST4). Als Nächstes speichert die Spracheingabeeinheit 11 die eingegebene Registrierungsäußerung in der Registrierungsstimmdaten-Speichereinheit 12 als Registrierungsstimmdaten (Schritt ST5).
Jedes Mal, wenn die Registrierungsäußerung eingegeben wird, vergleicht die Spracheingabeeinheit 11 die Anzahl von Äußerungen N, die durch den Zähler gezählt ist, mit einem vorbestimmten Schwellenwert M, um festzustellen, ob die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist oder nicht (Schritt ST6). Der Schwellenwert M ist die Anzahl von Malen, die ein identischer Inhalt als geäußert angenommen wird und der definiert ist durch einen Ganzzahlwert von Zwei oder größer. Wenn die Anzahl von Äußerungen N kleiner als der Schwellenwert M ist (Schritt ST6: NEIN), kehrt die Spracheingabeeinheit 11 zur Verarbeitung des Schritts ST3 zurück und wiederholt die Verarbeitung vom Schritt ST3 bis zum Schritt ST5, bis die Anzahl von Äußerungen N den Schwellenwert M erreicht oder übersteigt.
Wenn andererseits die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist (Schritt ST6: JA), berechnet die Äußerungsstabilitäts-Verifizierungseinheit 13 eine Ähnlichkeit mit den in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten (Schritt ST7). Die Ähnlichkeit der Mehrzahl von Stücken von Registrierungsstimmdaten wird beispielsweise unter Verwendung der nachfolgenden Verfahren berechnet.
Berechnungsverfahren 1
Wenn Registrierungsstimmdaten, welche den identischen Inhalt der Anzahl von Äußerungen M anzeigen, in der Registrierungsstimmdaten-Speichereinheit 12 gespeichert sind, bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13 alle Kombinationen von zwei Äußerungen in den Registrierungsstimmdaten der Anzahl von Äußerungen M. Als Nächstes extrahiert die Äußerungsstabilitäts-Verifizierungseinheit 13 ein Merkmal der Registrierungsstimmdaten für jede der zwei Äußerungen und berechnet eine Ähnlichkeit mit den Registrierungsstimmdaten zwischen den zwei Äußerungen durch das Merkmal verwendende dynamische Programmierung. Diese Ähnlichkeit wird bei allen Kombinationen von zwei Äußerungen festgestellt, woraufhin ein Durchschnittswert der erhaltenen Ähnlichkeiten als die Ähnlichkeit mit den Registrierungsstimmdaten der Anzahl von Äußerungen M eingestellt wird.
Berechnungsverfahren 2
Im Berechnungsverfahren 2 wird eine minimale Ähnlichkeit (Ähnlichkeit zwischen den unwahrscheinlichsten Äußerungen) aus den Ähnlichkeiten aller Kombinationen von zwei Äußerungen als die Ähnlichkeit mit den Registrierungsstimmdaten der Anzahl von Äußerungen M anstelle des Durchschnittswertes der Ähnlichkeiten eingestellt.
Berechnungsverfahren 3
Wenn die Ähnlichkeiten zwischen den Registrierungsstimmdaten in den Kombinationen von zwei Äußerungen berechnet wird, kooperieren die Äußerungsstabilitäts-Verifizierungseinheit 13, die Standardmuster-Erzeugungseinheit 14 und die Erkennungsverarbeitungseinheit 3, um eine Äußerung der obigen Kombinationen als ein zeitweiliges Standardmuster zu registrieren, führen Spracherkennung unter Verwendung der anderen Äußerung als eine Eingabe durch und verwenden eine Bewertung (Wahrscheinlichkeit), die als ein Erkennungsergebnis erhalten wird, als die Ähnlichkeit der Registrierungsstimmdaten zwischen den zwei Äußerungen. Dann wird die Ähnlichkeit von allen Kombinationen von zwei Äußerungen bestimmt, woraufhin der Durchschnittswert oder die minimale Ähnlichkeit der erhaltenen Ähnlichkeiten als die Ähnlichkeit mit den Registrierungsstimmdaten der Anzahl von Äußerungen M eingestellt wird.
Als Nächstes bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13, ob die im Schritt ST7 berechnete Ähnlichkeit mit den Registrierungsstimmdaten der Anzahl von Äußerungen M oder größer, gleich oder größer einem vorbestimmten Schwellenwert T1 (einem ersten Schwellenwert) ist (Schritt ST8). Wenn die Ähnlichkeit kleiner als der Schwellenwert T1 ist (Schritt ST8: NEIN), bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13, dass den eingegebenen Äußerungen Stabilität fehlt und beendet die Registrierungsbestimmung als ein sogenanntes Registrierungsversagen, d.h. Nichterzeugen eines Standardmusters für die in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten.
Wenn die Ähnlichkeit gleich oder größer dem Schwellenwert T1 ist (Schritt ST8: JA), benachrichtigt die Äußerungsstabilitäts-Verifizierungseinheit 13 die Standardmuster-Erzeugungseinheit 14 über die Zustimmung. Bei Empfang dieser Benachrichtigung erzeugt die Standardmuster-Erzeugungseinheit 14 ein Standardmuster aus dem in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten und registriert das erzeugte Standardmuster in der Standardmuster-Speichereinheit 2 (Schritt ST9, Registrierungsverarbeitung).
Als ein Beispiel des Standardmusters können beispielsweise, wenn ein Sprachmerkmal für jede Einheitszeit in Bezug auf die Registrierungsstimmdaten extrahiert wird (Eingabeäußerungsstimme), Zeitreihendaten (Merkmalsvektorzeitreihen) dieser Sprachmerkmale spezifiziert werden. Alternativ kann, wenn ein die Charakteristika jedes Sprachstücks repräsentierendes Modell, das für jedes Sprachstück erzeugt wird (Silben, Phoneme usw.) in einer Sprache vorab erzeugt wird, eine Zeitreihe (Beschriftungsreihe) der Modelle des Sprachstücks als das Standardmuster registriert werden.
In einem Schritt ST9 erzeugt die Standardmuster-Erzeugungseinheit 14 entsprechende Standardmuster, basierend auf den Registrierungsstimmdaten von K Registrierungsstimmdaten (wobei K eine Ganzzahl zwischen 1 und M ist), die in der Registrierungsstimmdaten-Speichereinheit 12 gespeichert worden sind, und registriert diese K Standardmuster in der Standardmuster-Speichereinheit 2. Beispiele von Verfahren zum Auswählen der K Stücke von Registrierungsstimmdaten beinhalten: ein Verfahren des Auswählens der K Stücke von Daten in der Reihenfolge der Nähe der Ähnlichkeiten, die durch die Äußerungsstabilitäts-Verifizierungseinheit 13 für die jeweiligen Kombinationen berechnet worden sind; und ein Verfahren zum Bestimmen eines Schwerpunkts als das Merkmal der Registrierungsstimmdaten und Auswählen von K Stücken der Daten in der Reihenfolge der Nähe zum Schwerpunkt.
Man beachte, dass anstelle des Erzeugens der K Standardmuster jeweils Sprachmerkmale in Relation auf die K Stücke von Registrierungsstimmdaten extrahiert werden können, woraufhin Sprachdaten zur Registrierung mit einem Durchschnittsmerkmal der Merkmale erzeugt und als das Standardmuster registriert werden.
Wie oben beschrieben, beinhaltet das beispielhafte Spracherkennungssystem die Spracheingabeeinheit 11 zum Eingeben einer mehrmals geäußerten Sprache, die Registrierungsstimmdaten-Speichereinheit 12 zum Speichern von Sprachdaten, die mehrmals geäußert worden und an der Spracheingabeeinheit 11 eingegeben sind, die Äußerungsstabilitäts-Verifizierungseinheit 13 zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten und aus der Registrierungsstimmdaten-Speichereinheit 12 eingelesenen Sprachdaten, und Bestimmen, dass die Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als der Schwellenwert T1 ist, und die Standardmuster-Erzeugungseinheit 14 zum Erzeugen eines Standardmusters unter Verwendung der Sprachdaten, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13 feststellt, dass die Registrierung akzeptabel ist. Mit diesem Aufbau wird die Registrierungsäußerung mehrmals eingegeben und eine Registrierungsverarbeitung wird nur durchgeführt, wenn die Ähnlichkeit zwischen den Äußerungen einen vorgegebenen Schwellenwert oder größer beträgt und eine weitere Registrierung wird nur durchgeführt, wenn die Mehrzahl von Eingabeäußerungen nahe beieinander sind (ähnlich sind). Daher, da die Registrierung nur abgeschlossen wird, wenn eine Mehrzahl von Äußerungen mit identischem Inhalt nahe aneinander liegen, das heißt, nur wenn die Eingabeäußerung stabil ist, können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektion eines Sprachabschnitts usw. reduziert werden, wodurch eine Spracherkennungs-Leistungsfähigkeit (Erkennungsrate) verbessert werden kann.
Weiterhin kann bei dem beispielhaften Spracherkennungssystem, da ein Standardmuster aus der Mehrzahl von Äußerungen während der Registrierung erzeugt wird, ein Standardmuster entsprechend von den Variationen bei der Äußerung erzeugt werden, wodurch die Leistungsfähigkeit des Spracherkennungsbetriebs, der das Standardmuster verwendet, verbessert wird.
3 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystem vom Sprachregistrierungstyps gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. In 3 beinhaltet das Spracherkennungssystem gemäß der Ausführungsform gemäß der Erfindung eine Registrierungsverarbeitungseinheit 1A, die Standardmuster-Speichereinheit 2 und die Erkennungsverarbeitungseinheit 3. Die Registrierungsverarbeitungseinheit 1A beinhaltet die Spracheingabeeinheit 11, die Registrierungsstimmdaten-Speichereinheit 12, eine Äußerungsstabilitäts-Verifizierungseinheit 13A, die Standardmuster-Erzeugungseinheit 14 und eine Wiederäußerungsanforderungseinheit 15.
Die Äußerungsstabilitäts-Verifizierungseinheit 13a ist ein Mittel zur Berechnung von Ähnlichkeiten zwischen entsprechenden Kombinationen von Registrierungsstimmdaten, die geäußert worden sind, identischen Inhalt aufzuweisen, von einer Anzahl M von Äußerungen, aus den mehrfachen Registrierungsstimmdaten, die in der Registrierungsstimmdaten-Speichereinheit 12 gespeichert sind, Bestimmen der Kombination von M Äußerungen mit einer maximalen Ähnlichkeit und der Ähnlichkeit derselben; und Bestimmen, dass eine Registrierung akzeptabel ist, wenn die Ähnlichkeit gleich oder größer einem vorbestimmten Schwellenwert ist, während bestimmt wird, dass die Registrierung nicht akzeptabel ist, wenn die Ähnlichkeit kleiner dem Schwellenwert ist. Die Wiederäußerungsanforderungseinheit 15 ist ein Mittel, um eine Wiederäußerungsanforderung an den Registrierungssprecher vorzunehmen, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13a feststellt, dass die Registrierung nicht akzeptabel ist. Man beachte, dass andere Bestandteilselemente als die Äußerungsstabilitäts-Verifizierungseinheit 13a und die Wiederäußerungsanforderungseinheit 15 identisch mit jenen des beispielhaft geschilderten Spracherkennungssystems sind und daher deren Beschreibungen weggelassen wird.
Als Nächstes wird ein Betrieb der erfindungsgemäßen Ausführungsform beschrieben.
4 ist ein Flussdiagramm, das den Ablauf eines durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt. Bezug nehmend auf diese Zeichnung wird der Betrieb der Bestandteilseinheiten der Registrierungsverarbeitungseinheit 1A detailliert beschrieben. In 4 sind die Verarbeitungen von Schritt ST1 bis Schritt ST6 im Inhalt ähnlich jenen des in 2 gezeigten Spracherkennungssystems und daher wird deren Beschreibung weggelassen.
Wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist (Schritt ST6: JA), berechnet die Äußerungsstabilitäts-Verifizierungseinheit 13a Ähnlichkeiten in Bezug auf Kombinationen der Registrierungsstimmdaten von M Äußerungen, die identischen Inhalt aufweisen, aus den in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten und bestimmt dann die Kombination von M Äußerungen mit der maximalen Ähnlichkeit und die Ähnlichkeit derselben (Schritt ST7a). Man beachte, dass die Ähnlichkeiten zwischen den entsprechenden Kombinationen der Registrierungsstimmdaten entsprechend der Mehrzahl von Äußerungen (M Äußerungen) in einer ähnlichen Weise wie bei dem beispielhaften Spracherkennungssystem berechnet werden.
Nach Bestimmen der Kombination von M Äußerungen mit maximaler Ähnlichkeit und deren Ähnlichkeit bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13a, ob die festgestellte maximale Ähnlichkeit gleich oder größer dem vorbestimmten Schwellenwert T1 ist (Schritt ST8). Wenn die maximale Ähnlichkeit gleich oder größer dem Schwellenwert T1 ist (Schritt ST8: JA), benachrichtigt die Äußerungsstabilitäts-Verifizierungseinheit 13a die Standardmuster-Erzeugungseinheit 14 über die Zustimmung. Beim Empfang dieser Benachrichtigung erzeugt die Standardmuster-Erzeugungseinheit 14 ein Standardmuster aus den Registrierungsstimmdaten der M Äußerungen und registriert das erzeugte Standardmuster in der Standardmuster-Speichereinheit 2 (Schritt ST9, Registrierungsverarbeitung).
Wenn andererseits die maximale Ähnlichkeit kleiner als der Schwellenwert ist (Schritt ST8: NEIN), benachrichtigt die Äußerungsstabilitäts-Verifizierungseinheit 13a die Wiederäußerungsanforderungseinheit 15 über die Negierung. Beim Empfang dieser Benachrichtigung fordert die Wiederäußerungsanforderungseinheit 15 eine Wiederäußerung einer einzelnen Äußerung beim Registrierungssprecher durch Dokumentenanzeige oder Sprachausgabe unter Verwendung einer Anzeigevorrichtung, eines Lautsprechers oder dergleichen an, die in den Zeichnungen nicht gezeigt sind (Schritt ST8-1).
Wenn der Registrierungssprecher die einzelne Äußerung unter dieser Bedingung tätigt, erhöht die Spracheingabeeinheit 11 den Zählwert des Zählers zum Zählen der Anzahl von Äußerungen N um Eins (Schritt ST3), woraufhin die Verarbeitung von Schritt ST4 bis Schritt ST8 wiederholt wird, bis die maximale Ähnlichkeit den Schwellenwert T1 erreicht oder übersteigt (Schritt ST8: JA).
In diesem Fall, da die Ähnlichkeiten der Kombinationen von Registrierungsstimmdaten von M Äußerungen nicht einschließlich der wieder geäußerten einzelnen Äußerungen bereits berechnet worden sind, sollte eine Ähnlichkeit für eine Kombination der Registrierungsstimmdaten der M Äußerungen einschließlich der einzelnen, durch die erneute Äußerung hinzugefügten Äußerung neu berechnet werden. Beispielsweise wird eine Ähnlichkeit zwischen den Sprachdaten von M Äußerungen, welche die Sprachdaten der neu hinzugefügten einzelnen Äußerung mit den Sprachdaten von (M-1) Mal bereits in der Registrierungsstimmdaten-Speichereinheit 12 registrierten kombinieren, festgestellt. Die Kombination der Äußerungen mit der maximalen Ähnlichkeit wird dann spezifiziert und wenn die maximale Ähnlichkeit gleich oder größer dem Schwellenwert ist, werden die Sprachdaten der entsprechenden Kombination registriert.
Wie oben beschrieben, beinhaltet die Ausführungsform eine Wiederäußerungsanforderungseinheit zum Ausführen einer Wiederäußerungsanforderung einer einzelnen Sprachäußerung, wobei wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit eingelesen werden, nicht enthalten sind, die Stabilitätsverifizierungseinheit die Wiederäußerungsanforderungseinheit veranlasst, die Wiederäußerungsanforderung auszuführen, die Sprachdaten-Ähnlichkeit aller Kombinationen zwischen den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung und den mehrfachen Sprachdaten, die bereits in der Speichereinheit gespeichert sind zu berechnen, und wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als ein zweiter Schwellenwert ist, zu bestimmen, dass die Sprachdaten der Kombination mit der maximalen Ähnlichkeit registriert werden.
Bei diesem Aufbau werden ähnliche Effekte wie jene des weiter oben beschriebenen Spracherkennungssystems erhalten und es kann auch die Anzahl von Äußerungen, die zur Registrierung erforderlich sind, im Vergleich mit einem Fall verringert werden, bei dem die Registrierungsäußerung M Mal wieder geäußert wird, nachfolgend einem Registrierungsversagen, wodurch eine dem Registrierungssprecher auferlegte Last reduziert wird.
Weiterhin kann in der obigen Ausführungsform der Erfindung, wie in 5 gezeigt, der folgende Schritt ST10 hinzugefügt werden: die Spracheingabeeinheit 11 vergleicht die Anzahl von Äußerungen N (wobei N gleich oder größer M ist), die durch den Zähler gezählt ist, mit einem vorbestimmten Schwellenwert Tn, der eine Obergrenze der Anzahl von Äußerungen anzeigt, wenn die maximale Ähnlichkeit kleiner als der Schwellenwert T1 ist, um festzustellen, ob die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist.
Wenn hier die Anzahl von Äußerungen N kleiner als der Schwellenwert Tn ist (Schritt ST10: NEIN), benachrichtigt die Spracheingabeeinheit 11 die Äußerungsstabilitäts-Verifizierungseinheit 13 über das Negierung über die Äußerungsstabilitäts-Verifizierungseinheit 13a. Beim Empfang dieser Benachrichtigung macht die Wiederäußerungsanforderungseinheit 15 eine Anforderung nach Wiederäußerung einer einzelnen Äußerung an den Registrierungssprecher (Schritt ST10-1).
Weiterhin, wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist (Schritt ST10: JA), bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13a ein Registrierungsversagen. Daher, wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist, wird die Registrierungsbestimmung als ein Registrierungsversagen abgeschlossen, ohne die Registrierungsäußerung wieder einzugeben.
Weiterhin kann in der Ausführungsform der Erfindung, wie in 6 gezeigt, der folgende Schritt ST11 hinzugefügt werden: die Äußerungsstabilitäts-Verifizierungseinheit 13a selektiert Registrierungsstimmdaten der neuesten L (wobei L ein Ganzzahlwert von M oder mehr ist) Äußerungen aus den in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Registrierungsstimmdaten und löscht die verbleibenden Registrierungsstimmdaten, wenn die Anzahl von Äußerungen N kleiner als der Schwellenwert Tn ist (Schritt ST10: NEIN). Wenn die Verarbeitung des Schrittes ST11 abgeschlossen ist, macht die Wiederäußerungsanforderungseinheit 15 eine Anforderung bezüglich Wiederäußerung einer einzelnen Äußerung an den Registrierungssprecher (Schritt ST11-1). Somit werden Ähnlichkeitsbestätigung und Registrierungsverarbeitung unter Verwendung von Sprachdaten entsprechend L+1 Äußerungen durchgeführt, welche die Sprachdaten der neu erhaltenen einzelnen Äußerungen mit den Registrierungsstimmdaten für die L bereits in der Registrierungsstimmdaten-Speichereinheit 12 gespeicherten Äußerungen kombinieren.
Weiterhin kann die Registrierungsstimmdaten-Kombination, aus der die maximale Ähnlichkeit erhalten wird, als ein Standard zum Bewahren der Registrierungsstimmdaten der L Äußerungen beibehalten werden. Das Verfahren zum Berechnen der maximalen Ähnlichkeit ist ähnlich dem Schritt ST7a, bei dem Ähnlichkeiten von Registrierungsstimmdaten-Kombinationen von M Äußerungen berechnet werden.
Man beachte, dass, wenn L = M die Kombination der Registrierungsstimmdaten der L Äußerungen die eine der Registrierungsstimmdaten von M Äußerungen mit der maximalen Ähnlichkeit, die in Schritt ST7a bestimmt wird, ist.
Wie oben beschrieben, kann durch Eingeben der Registrierungsäußerung als eine Äußerung nach der anderen ohne Bestimmen eines Registrierungsversagens in einem Fall, wenn die Registrierungsäußerung einer Registrierungsbedingung nicht genügt, die Anzahl von eingegebenen Äußerungen im Vergleich mit einem Fall reduziert werden, wenn jedes Mal, wenn die Registrierung versagt, die Äußerung M Mal wieder geäußert wird; als ein Ergebnis kann ein Spracherkennungssystem vom Sprachregistrierungstyp erhalten werden, das für den Registrierungssprecher sehr bequem ist.
Weiterhin kann durch Einstellen einer Obergrenze (Schwellenwert Tn) zur Anzahl von Malen, mit der die Äußerung zum Zeitpunkt eines Registrierungsversagens wieder geäußert wird, eine Situation, bei der eine Registrierung nicht durchgeführt werden kann, obwohl die Registrierungsäußerung kontinuierlich geäußert wird, ausgeschlossen werden. Bei einer solchen Situation ist es sehr wahrscheinlich, dass die Ursache des Registrierungsversagens eine schwache Registrierungs-(Äußerungs-) Umgebung ist. Daher kann durch Beenden der Registrierungsverarbeitung als ein Scheitern, wenn die Anzahl von Äußerungen den Schwellenwert Tn erreicht oder übersteigt, eine Belehrung wie etwa eine Empfehlung, die Äußerungsumgebung des Registrierungsbetriebs zu verändern, erlassen werden und somit kann ein Anwender-freundliches System bereitgestellt werden.
Darüber hinaus kann durch Einstellen einer Obergrenze (L Äußerungen) zur Anzahl von Stücken von aufgezeichneten Registrierungsstimmdaten ein Aufzeichnungsbereich der Registrierungsstimmdaten-Speichereinheit 12 ökonomisch verwendet werden und kann ein zum Berechnen der maximalen Ähnlichkeit erforderlicher Berechnungsbetrag reduziert werden.
INDUSTRIELLE ANWENDBARKEIT
Mit dem Spracherkennungssystem gemäß der vorliegenden Erfindung können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektion eines Sprachabschnittes und so weiter reduziert werden, wodurch eine Spracherkennungsleistungsfähigkeit verbessert wird und auch eine Verbesserung in Bequemlichkeit und eine Reduzierung beim unnötigen Speicherverbrauch erzielt werden, indem ein unnötiges Anwachsen bei der Anzahl von Äußerungen vermieden wird. Entsprechend ist die vorliegende Erfindung zur Verwendung als ein Spracherkennungssystem vom Sprachregistrierungstyp oder dergleichen geeignet.

Claims

Spracherkennungssystem zur Durchführung einer Spracherkennung einer zu erkennenden Äußerung unter Verwendung eines Standardmusters mit einer Spracheingabeeinheit (11) zum Empfangen einer mehrfach geäußerten Sprachäußerung und Erzeugen von Registrierungsstimmdaten entsprechend der Anzahl der Sprachäußerungen; einer Speichereinheit (12) zum Speichern der mehrfach von der Spracheingabeeinheit erzeugten Sprachdaten; einer Stabilitätsverifizierungseinheit (13a) - zum Bestimmen einer Ähnlichkeit zwischen den Sprachdaten, die der mehrmals geäußerten Sprachäußerung entsprechen und die aus der Speichereinheit ausgelesen werden, und - zum Bestimmen, dass eine Registrierung von Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein erster Schwellenwert ist; einer Standardmuster-Erzeugungseinheit (14) zum Erzeugen eines Standardmusters durch Verwenden der Sprachdaten, wenn die Stabilitäts-Verifizierungseinheit (13a) feststellt, dass die Registrierung der Sprachdaten akzeptabel ist; und eine Wiederäußerungsanforderungseinheit (15) zum Ausführen einer Wiederäußerungsanforderung einer einzelnen Sprachäußerung, wobei die Spracheingabeeinheit eine eine vorbestimmte Mehrzahl von Malen geäußerte Sprache eingibt und wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit (12) eingelesen werden, nicht enthalten sind, - die Stabilitätsverifizierungseinheit (13a) o die Wiederäußerungsanforderungseinheit (15) veranlasst, die Wiederäußerungsanforderung auszuführen, o die Sprachdaten-Ähnlichkeit aller Kombinationen zwischen den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung und den mehrfachen Sprachdaten, die bereits in der Speichereinheit (12) gespeichert sind, bestimmt und o wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als ein zweiter Schwellenwert ist, bestimmt, dass die Sprachdaten der Kombination mit der maximalen Ähnlichkeit registriert werden.
Spracherkennungssystem gemäß Anspruch 1, wobei, wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit (12) eingelesen werden, nicht enthalten sind und auch die Anzahl von einzelnen Sprachäußerungen einen dritten Schwellenwert erreicht, die Stabilitäts-Verifizierungseinheit eine Registrierung von Sprachdaten beendet, statt die Wiederäußerungsanforderungseinheit zu veranlassen, die Wiederäußerungsanforderung auszuführen.
Spracherkennungssystem gemäß Anspruch 1, wobei, wenn für eine Registrierung akzeptable Sprachdaten in den mehrfachen Sprachdaten, die aus der Speichereinheit (12) eingelesen werden, nicht enthalten sind, die Stabilitätsverifizierungseinheit (13a) - die Sprachdaten aus der Speichereinheit (12) löscht, während eine vorbestimmte Anzahl von Sprachdaten zurückbleibt, - Sprachdaten-Ähnlichkeiten zwischen den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung und der vorbestimmten Anzahl von Sprachdaten bestimmt, die in der Speichereinheit zurückgeblieben sind, und - wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als der zweite Schwellenwert ist, bestimmt, dass die Sprachdaten der Kombination mit der maximalen Ähnlichkeit registriert werden.
Spracherkennungssystem gemäß Anspruch 3, wobei die Stabilitätsverifizierungseinheit (13a) die vorbestimmte Anzahl von Sprachdaten aus der Kombination von Sprachdaten mit der maximalen Ähnlichkeit zwischen den Sprachdaten aus den mehrfachen Sprachdaten, die bereits in der Speichereinheit gespeichert sind, und den Sprachdaten der einzelnen auf die Wiederäußerungsanforderung erfolgenden Sprachäußerung identifiziert und die identifizierten Sprachdaten in der Speichereinheit belässt.