DE60200519T2

DE60200519T2 - Verfahren und Vorrichtung zur verteilten Spracherkennung

Info

Publication number: DE60200519T2
Application number: DE60200519T
Authority: DE
Inventors: Tetsuo Kosaka; Hiroki Yamamoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-03-08
Filing date: 2002-03-06
Publication date: 2005-06-02
Anticipated expiration: 2022-03-07
Also published as: US20020128826A1; EP1239462A1; ATE268044T1; EP1239462B1; DE60200519D1; JP2002268681A

Description

GEBIET DER ERFINDUNG
Die Erfindung bezieht sich auf ein Spracherkennungssystem, eine Vorrichtung und deren Verfahren.
HINTERGRUND DER ERFINDUNG
In den letzten Jahren wurden zusammen mit dem Fortschritt der Spracherkennungstechnik Versuche gemacht, eine derartige Technik als eine Eingabeschnittstelle einer Einrichtung zu verwenden. Wenn die Spracherkennungstechnik als eine Eingabeschnittstelle verwendet wird, ist es gängige Praxis, eine Anordnung für eine Sprachverarbeitung in der Einrichtung einzurichten, eine Spracherkennung in der Einrichtung auszuführen und das Spracherkennungsergebnis als einen Eingabevorgang in die Einrichtung zu behandeln.
Andererseits erlauben derzeitige Entwicklungen von kompakten tragbaren Endgeräten, dass kompakte tragbare Endgeräte viele Vorgänge realisieren. Jedoch können derartige kompakte tragbare Endgeräte aufgrund ihrer Größenbeschränkung nicht ausreichend Eingabetasten aufweisen. Aus diesem Grund besteht eine Nachfrage nach einer Verwendung der Spracherkennungstechnik für Bedienungsanweisungen, die zahlreiche Funktionen realisieren.
Als ein Implementierungsverfahren ist eine Spracherkennungseinrichtung in dem kompakten tragbaren Endgerät selbst installiert. Jedoch besitzt ein derartiges kompaktes tragbares Endgerät beschränkte Ressourcen, wie beispielsweise eine Speichereinrichtung, eine Zentraleinheit bzw. CPU und dergleichen und es kann oft eine Erkennungseinrichtung hoher Leistungsfähigkeit nicht installiert werden. Daher wurde ein Client-Server-Spracherkennungssystem vorgeschlagen. In diesem System ist ein kompaktes tragbares Endgerät über beispielsweise ein drahtloses Netzwerk mit einem Server verbunden, ein Vorgang, der niedrige Verarbeitungskosten des Spracherkennungsvorgangs erfordert, wird auf dem Endgerät ausgeführt und ein Vorgang, der ein großes Verarbeitungsvolumen erfordert, wird auf dem Server ausgeführt.
Da in diesem Fall die vom Endgerät zum Server zu übertragende Datengröße bevorzugt klein ist, ist es gängige Praxis, Daten bei einer Übertragung zu komprimieren (kodieren). Beim Kodierverfahren wird zu diesem Zweck ein zum Senden von mit einer Spracherkennung verbundenen Daten geeignetes Kodierverfahren anstelle eines in einem tragbaren Telephon verwendeten allgemeinen Audiokodierverfahrens vorgeschlagen, siehe z.B. Ramaswamy et al.: „Compression of Acoustic Features for Speech Recognition in Network Environments", ICASSP '98, Seiten 977 bis 980.
Eine zur Spracherkennung geeignete Kodierung, die in dem vorstehend erwähnten Client-Server-Spracherkennungssystem verwendet wird, verwendet ein Verfahren einer Berechnung von Merkmalsparametern von Sprache und dann einer Kodierung dieser Parameter durch Skalar- bzw. Frequenzteiler-Quantisierung oder Unterband-Quantisierung. In einem derartigen Fall erfolgt eine Kodierung ohne Berücksichtigung irgendeines akustischen Merkmals bei einer Spracherkennung.
Wenn jedoch eine Spracherkennung in einer lauten Umgebung verwendet wird, oder, wenn die Kennlinien eines bei einer Spracherkennung verwendeten Mikrophons sich von allgemeinen unterscheiden, unterscheidet sich ein optimaler Kodierungsvorgang. Im Fall des vorstehenden Verfahrens beispielsweise ist es, da die Verteilung von Merkmalsparametern von Sprache in einer lauten Umgebung sich von der von Merkmalsparametern von Sprache in einer ruhigen Umgebung unterscheidet, bevorzugt, den Quantisierungsbereich dementsprechend angepasst zu verändern.
Da das herkömmliche Verfahren ohne Berücksichtigung einer Veränderung im akustischen Merkmal kodiert, verschlechtert sich die Erkennungsrate und ein hohes Komprimierungsverhältnis kann bei einer Kodierung in z.B. einer lauten Umgebung nicht verwendet werden.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß einem ersten Gesichtspunkt stellt die vorliegende Erfindung ein Spracherkennungssystem zur Verfügung mit:

einer Eingabeeinrichtung zur Eingabe von akustischen Informationen,
einer Analyseeinrichtung zur Analyse der durch die Eingabeeinrichtung eingegebenen akustischen Informationen, um Merkmalsgrößenparameter zu erhalten,
einer ersten Halteeinrichtung zum Erhalten und gespeichert Halten von Anfangseinstellinformationen zur Kodierung auf der Basis der durch die Analyseeinrichtung erhaltenen Merkmalsgrößenparameter,
einer zweiten Halteeinrichtung zum gespeichert Halten von Verarbeitungsinformationen für ein Spracherkennungsverfahren entsprechend den Anfangseinstellinformationen zur Kodierung,
einer Umwandlungseinrichtung zur Komprimierungskodierung der durch die Eingabeeinrichtung und die Analyseeinrichtung erhaltenen Merkmalsgrößenparameter auf der Grundlage der Anfangseinstellinformationen zur Kodierung und
einer Erkennungseinrichtung zur Ausführung einer Spracherkennung auf der Grundlage der durch die zweite Halteeinrichtung gespeichert gehaltenen Verarbeitungsinformationen zur Sprach erkennung und der durch die Umwandlungseinrichtung komprimierungskodierten Merkmalsgrößenparameter.

Gemäß einem anderen Gesichtspunkt stellt die vorliegende Erfindung ein Spracherkennungsverfahren zur Verfügung mit:

einem Eingabeschritt eines Eingebens von akustischen Informationen,
einem Analyseschritt eines Analysierens der in dem Eingabeschritt eingegebenen akustischen Informationen, um Merkmalsgrößenparameter zu erhalten,
einem ersten Halteschritt eines Erhaltens von Anfangseinstellinformationen zur Kodierung auf der Grundlage der in dem Analyseschritt erhaltenen Merkmalsgrößenparameter und eines Speicherns der Informationen in einer ersten Speichereinrichtung,
einem zweiten Halteschritt eines gespeichert Haltens von Verarbeitungsinformationen für ein Spracherkennungsverfahren entsprechend den Anfangseinstellinformationen zur Kodierung in einer zweiten Speichereinrichtung,
einem Umwandlungsschritt eines Ausführens einer Spracherkennung auf der Grundlage der in der zweiten Speichereinrichtung in dem zweiten Halteschritt gehaltenen Verarbeitungsinformationen zur Spracherkennung und der in dem Umwandlungsschritt komprimierungskodierten Merkmalsgrößenparameter.

Gemäß einem anderen Gesichtspunkt stellt die vorliegende Erfindung eine Informationsverarbeitungsvorrichtung zur Verfügung mit:

einer Eingabeeinrichtung zur Eingabe von akustischen Informationen,
einer Analyseeinrichtung zur Analyse der durch die Eingabeeinrichtung eingegebenen akustischen Informationen, um Merkmalsgrößenparameter zu erhalten,
einer Halteeinrichtung zur Erzeugung und zum gespeichert Halten von Anfangseinstellinformationen für eine Komprimierungskodierung auf der Grundlage der durch die Analyseeinrichtung erhaltenen Merkmalsgrößenparameter,
einer ersten Übermittlungseinrichtung zum Senden der durch die Halteeinrichtung erzeugten Anfangseinstellinformationen an eine externe Vorrichtung,
einer Umwandlungseinrichtung zur Komprimierungskodierung der Merkmalsgrößenparameter der über die Eingabeeinrichtung und die Analyseeinrichtung erhaltenen akustischen Informationen auf der Grundlage der Anfangseinstellinformationen und
einer zweiten Übermittlungseinrichtung zum Senden von durch die Umwandlungseinrichtung erhaltenen Daten zur externen Vorrichtung.

einer ersten Empfangseinrichtung zum Empfang von mit einer Komprimierungskodierung verbundenen Anfangseinstellinformationen von einer externen Vorrichtung,
einer Halteeinrichtung zum gespeichert Halten von auf der Grundlage der durch die erste Empfangseinrichtung empfangenen Anfangseinstellinformationen erhaltenen Verarbeitungsinformationen zur Spracherkennung in einer Speichereinrichtung,
einer zweiten Empfangseinrichtung zum Empfang von komprimierungskodierten Daten von der externen Vorrichtung und
einer Erkennungseinrichtung zur Ausführung einer Spracherkennung der durch die zweite Empfangseinrichtung empfangenen Daten unter Verwendung der in der Halteeinrichtung gespeichert gehaltenen Verarbeitungsinformationen.

Gemäß einem anderen Gesichtspunkt stellt die vorliegende Erfindung ein Informationsverarbeitungsverfahren zur Verfügung mit:

einem Eingabeschritt eines Eingebens von akustischen Informationen,
einem Analyseschritt eines Analysierens der in dem Eingabe schritt eingegebenen akustischen Informationen, um Merkmalsgrößenparameter zu erhalten,
einem Halteschritt eines Erzeugens und gespeichert Haltens von Anfangseinstellinformationen zur Komprimierungskodierung auf der Grundlage von in dem Analyseschritt erhaltenen Merkmalsgrößenparametern,
einem ersten Übermittlungsschritt eines Sendens der in dem Halteschritt erzeugten Anfangseinstellinformationen zu einer externen Vorrichtung,
einem Umwandlungsschritt eines Komprimierungskodierens der durch den Eingabeschritt und den Analyseschritt erhaltenen Merkmalsgrößenparameter der akustischen Informationen auf der Grundlage der Anfangseinstellinformationen und
einem zweiten Übermittlungsschritt eines Sendens von in dem Umwandlungsschritt erhaltenen Daten zur externen Vorrichtung.

einem ersten Empfangsschritt eines Empfangens von mit einer Komprimierungskodierung verbundenen Anfangseinstellinformationen von einer externen Vorrichtung,
einem Halteschritt eines gespeichert Haltens von auf der Grundlage der in dem ersten Empfangsschritt empfangenen Anfangseinstellinformationen erhaltenen Verarbeitungsinformationen zur Spracherkennung in einer Speichereinrichtung,
einem zweiten Empfangsschritt eines Empfangens von komprimierungskodierten Daten von der externen Vorrichtung und
einem Erkennungsschritt eines Ausführens einer Spracherkennung der in dem zweiten Empfangsschritt empfangenen Daten unter Verwendung der in dem Halteschritt gespeichert gehaltenen Verarbeitungsinformationen.

Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung in Verbindung mit der Zeichnung offensichtlich werden, in der gleiche Bezugszeichen dieselben oder ähnliche Teile in den Figuren bezeichnen.
KURZBESCHREIBUNG DER ZEICHNUNG
Die beiliegende Zeichnung, die in die Beschreibung aufgenommen ist und einen Teil von ihr bildet, veranschaulicht Ausführungsbeispiele der Erfindung und dient zusammen mit der Beschreibung zur Erklärung der Prinzipien der Erfindung.
Es zeigen:
1 ein Blockschaltbild der Anordnung eines Spracherkennungssystems gemäß dem ersten Ausführungsbeispiel,
2 ein Ablaufdiagramm zur Erklärung eines Anfangseinstellvorgangs des Spracherkennungssystems gemäß dem ersten Ausführungsbeispiel,
3 ein Ablaufdiagramm zur Erklärung eines Spracherkennungsvorgangs des Spracherkennungssystems gemäß dem ersten Ausführungsbeispiel,
4 ein Blockschaltbild der Anordnung eines Spracherkennungssystems gemäß dem zweiten Ausführungsbeispiel,
5 ein Ablaufdiagramm zur Erklärung eines Anfangseinstellvorgangs des Spracherkennungssystems gemäß dem zweiten Ausführungsbeispiel,
6 ein Ablaufdiagramm zur Erklärung eines Spracherkennungsvorgangs des Spracherkennungssystems gemäß dem zweiten Ausführungsbeispiel und
7 ein Beispiel für die Datenstruktur einer Kluster- bzw. Anhäufungsergebnistabelle in dem ersten Ausführungsbeispiel.
GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nun entsprechend der Zeichnung genau beschrieben.
<Erstes Ausführungsbeispiel>
1 ist ein Blockschaltbild der Anordnung eines Spracherkennungssystems gemäß dem ersten Ausführungsbeispiel. Die 2 und 3 sind Ablaufdiagramme zur Erklärung der Funktion des in der Darstellung gemäß 1 gezeigten Spracherkennungssystems. Das erste Ausführungsbeispiel wird nachstehend ebenso wie sein Funktionsbeispiel erklärt, während 1 mit den 2 und 3 verbunden wird.
Gemäß 1 bezeichnet Bezugszahl 100 ein Endgerät. Als das Endgerät 100 können zahlreiche tragbare Endgeräte einschließlich eines tragbaren Telephons und dergleichen verwendet werden. Bezugszahl 101 bezeichnet eine Spracheingabeeinheit, die ein Sprachsignal über ein Mikrophon oder dergleichen aufnimmt und es in digitale Daten umwandelt. Bezugszahl 102 bezeichnet eine akustische Verarbeitungseinrichtung zur Erzeugung von mehrdimensionalen akustischen Parametern durch akustische Analyse. Es ist zu beachten, dass eine akustische Analyse normalerweise bei einer Spracherkennung verwendete Analyseverfahren, wie beispielsweise Melcepstrum, Delta-Melcepstrum und dergleichen verwenden kann. Bezugszahl 103 bezeichnet einen Vorgangsschalter zum Schalten des Datenflusses zwischen einem Anfangseinstellvorgang und einem Spracherkennungsvorgang, wie nachstehend unter Bezugnahme auf die 2 und 3 beschrieben.
Bezugszahl 104 bezeichnet eine Sprachkommunikationsinformationserzeugungseinrichtung zur Erzeugung von Daten, die zur Kodierung von durch die akustische Verarbeitungseinrichtung 102 erhaltenen akustischen Parametern verwendet werden. In diesem Ausführungsbeispiel teilt die Sprachkommunikationsinformationserzeugungseinrichtung 104 Daten jeder Dimension der akustischen Parameter in beliebige Klassen (in diesem Ausführungsbeispiel 16 Schritte) durch Anhäufung auf und erzeugt eine Kluster- bzw. Anhäufungsergebnistabelle unter Verwendung der durch die Anhäufung aufgeteilten Ergebnisse. Eine Anhäufung wird nachstehend beschrieben. Bezugszahl 105 bezeichnet eine Sprachkommunikationsinformationshalteeinheit zum gespeichert Halten der durch die Sprachkommunikationsinformationserzeugungseinrichtung 104 erzeugten Anhäufungsergebnistabelle. Es ist zu beachten, dass zahlreiche Aufzeichnungsträger- bzw. – medien, wie beispielsweise eine Speichereinrichtung (z.B. ein RAM), eine Diskette (FD), eine Festplatte (HD) und dergleichen, zum gespeichert Halten der Anhäufungsergebnistabelle in der Sprachkommunikationsinformationshalteeinheit 105 verwendet werden.
Bezugszahl 106 bezeichnet eine Kodiereinrichtung zur Kodierung von durch die akustische Verarbeitungseinrichtung 102 erhaltenen mehrdimensionalen akustischen Parametern unter Verwendung der in der Sprachkommunikationsinformationshalteeinheit 105 aufgezeichneten Anhäufungsergebnistabelle. Bezugszahl 107 bezeichnet eine Übermittlungs- bzw. Kommunikationssteuereinrichtung zur Ausgabe der Anhäufungsergebnistabelle, von kodierten akustischen Parametern und dergleichen auf einer Kommunikations- bzw. Übermittlungsleitung 300.
Bezugszahl 200 bezeichnet einen Server zur Durchführung einer Spracherkennung der von dem Endgerät 100 gesendeten kodierten mehrdimensionalen akustischen Parameter. Der Server 200 kann unter Verwendung eines normalen Personalcomputers oder dergleichen gebildet werden.
Bezugszahl 201 bezeichnet eine Übermittlungs- bzw. Kommunikationssteuereinrichtung zum Empfang von von der Kommunikationssteuereinrichtung 107 des Endgeräts 100 über die Leitung 300 gesendeten Daten. Bezugszahl 202 bezeichnet einen Vorgangsschalter zum Schalten des Datenflusses zwischen einem Anfangseinstellvorgang und einem Spracherkennungsvorgang, wie nachstehend unter Bezugnahme auf die 2 und 3 beschrieben.
Bezugszahl 203 bezeichnet eine Sprachkommunikationsinformationshalteeinheit zum halten der von dem Endgerät 100 empfangenen Anhäufungsergebnistabelle. Es ist zu beachten, dass zahlreiche Aufzeichnungsträger bzw. -medien, wie beispielsweise eine Speichereinrichtung (z.B. RAM), eine Diskette (FD), eine Festplatte (HD) und dergleichen, zum gespeichert Halten der Anhäufungsergebnistabelle in der Sprachkommunikationsinformationshalteeinheit 203 verwendet werden kann.
Bezugszahl 204 bezeichnet eine Dekodiereinrichtung zur Dekodierung der von dem Endgerät 100 empfangenen kodierten Daten (mehrdimensionale akustische Parameter) durch die Kommunikationssteuereinrichtung 201 durch Nachschlagen der in der Sprachkommunikationsinformationshalteeinheit 203 gespeichert gehaltenen Anhäufungsergebnistabelle. Bezugszahl 205 bezeichnet eine Spracherkennungseinheit zur Ausführung eines Erkennungsvorgangs der durch die Dekodiereinrichtung 204 erhaltenen mehrdimensionalen akustischen Parameter unter Verwendung eines in einer akustischen Modellhalteeinheit 206 gespeichert gehaltenen akustischen Modells.
Bezugszahl 207 bezeichnet eine Anwendung zur Ausführung zahlreicher Vorgänge auf der Grundlage des Spracherkennungsergeb nisses. Die Anwendung 207 kann entweder auf dem Server 200 oder dem Endgerät 100 laufen. Wenn die Anwendung auf dem Endgerät 100 läuft, muss das durch den Server 200 erhaltene Spracherkennungsergebnis über die Übermittlungs- bzw. Kommunikationssteuereinrichtungen 201 und 107 an das Endgerät 100 gesendet werden.
Es ist zu beachten, dass der Vorgangsschalter 103 des Endgeräts 100 eine Verbindung schaltet, um Daten bei einer Anfangseinstellung zur Sprachkommunikationsinformationserzeugungseinrichtung 104 und bei einer Spracherkennung zur Kodiereinrichtung 106 zuzuführen. Ebenso schaltet der Vorgangsschalter 202 des Servers 200 eine Verbindung, um Daten bei einer Anfangseinstellung zu der Sprachkommunikationsinformationshalteeinheit 203 und bei einer Spracherkennung zur Dekodiereinrichtung 204 zuzuführen. Diese Vorgangsschalter 103 und 202 funktionieren in Zusammenarbeit miteinander. Ein Schalten dieser Schalter erfolgt wie folgt. Beispielsweise sind zwei verschiedene Betriebsarten, z.B. eine anfängliche Lernbetriebsart und eine Erkennungsbetriebsart vorbereitet und, wenn der Benutzer die anfängliche Lernbetriebsart bestimmt, um vor einer Verwendung einer Erkennung zu lernen, schaltet der Vorgangsschalter 103 eine Verbindung, um Daten zur Sprachkommunikationsinformationserzeugungseinrichtung 104 zuzuführen, und der Vorgangsschalter 202 schaltet eine Verbindung, um Daten zur Sprachkommunikationsinformationshalteeinheit 203 zuzuführen. Bei Durchführung einer Erkennung in der Praxis, wenn der Benutzer die Erkennungsbetriebsart bestimmt, schaltet der Vorgangsschalter 103 eine Verbindung, um Daten zur Kodiereinrichtung 106 zuzuführen, und der Vorgangsschalter 202 schaltet eine Verbindung, um Daten ansprechend auf die Benutzer-Bestimmung zur Dekodiereinrichtung 204 zuzuführen.
Es ist zu beachten, dass Bezugszahl 300 eine Kommunikations- bzw. Übermittlungsleitung 300 bezeichnet, die das Endgerät 100 und den Server 200 verbindet, und zahlreiche drahtgebundene und drahtlose Übermittlungseinrichtungen können verwendet werden, solange sie Daten übertragen können.
Es ist zu beachten, dass die jeweiligen Einheiten des vorstehenden Endgeräts 100 und des Servers 200 verwendet werden, wenn ihre Zentraleinheiten bzw. CPUs in den Speichereinrichtungen gespeicherte Steuerprogramme ausführen. Natürlich können einige oder alle der Einheiten durch Hardware realisiert werden.
Die Funktion in dem Spracherkennungssystem wird nachstehend unter Bezugnahme auf die Ablaufdiagramme gemäß den 2 und 3 genau beschrieben.
Vor dem Beginn einer Spracherkennung wird eine in dem Ablaufdiagramm gemäß 2 gezeigte Anfangseinstellung ausgeführt. In der Anfangseinstellung wird eine Kodierbedingung zur Anpassung kodierter Daten an eine akustische Umgebung eingestellt. Wenn dieser Anfangseinstellvorgang übersprungen wird, ist es möglich, eine Kodierung und Spracherkennung von Sprachdaten unter Verwendung vorbeschriebener auf der Grundlage eines akustischen Zustands erzeugter Werte in z.B. einer ruhigen Umgebung auszuführen. Jedoch kann durch Ausführung des Anfangseinstellvorgangs die Erkennungsrate verbessert werden.
Bei dem Anfangseinstellvorgang erfasst die Spracheingabeeinheit 101 akustische Daten und wandelt die erfassten akustischen Daten in Schritt S2 analog/digital(A/D). Die einzugebenden akustischen Daten sind die, die erhalten werden, wenn ein Vortrag in einer in der Praxis verwendeten Audioumgebung oder einer ähnlichen Audioumgebung erfolgt. Diese akustischen Daten reflektieren auch den Einfluss der Kennlinie eines verwendeten Mikrophons. Wenn Hintergrundrauschen oder innerhalb der Ein richtung erzeugtes Rauschen vorhanden ist, werden die akustischen Daten auch durch derartiges Rauschen beeinflusst.
In Schritt S3 führt die akustische Verarbeitungseinrichtung 102 eine akustische Analyse der durch die Spracheingabeeinheit 101 eingegebenen akustischen Daten aus. Wie vorstehend beschrieben, kann eine akustische Analyse normalerweise bei einer Spracherkennung verwendete Analyseverfahren, wie beispielsweise Melcepstrum, Delta-Melcepstrum und dergleichen verwenden. Da der Vorgangsschalter 103, wie vorstehend beschrieben, die Sprachkommunikationsinformationserzeugungseinrichtung 104 in dem Anfangseinstellvorgang verbindet, erzeugt die Sprachkommunikationsinformationserzeugungseinrichtung 104 Daten für einen Kodierungsvorgang in Schritt S4.
Das in der Sprachkommunikationsinformationserzeugungsvorrichtung 104 verwendete Datenerzeugungsverfahren wird nachstehend erklärt. Beispielsweise können zur Kodierung zur Spracherkennung ein Verfahren zur Berechung von akustischen Parametern und eine Kodierung dieser Parameter durch Skalar- bzw. Frequenzteiler-Quantisierung, Vektor-Quantisierung oder Unterband-Quantisierung verwendet werden. In diesem Ausführungsbeispiel muss das verwendete Verfahren insbesondere nicht beschränkt sein und es kann irgendein Verfahren verwendet werden. In diesem Fall wird ein Verfahren unter Verwendung einer Skalar- bzw. Frequenzteiler-Quantisierung nachstehend erklärt. In diesem Verfahren durchlaufen die jeweiligen Dimensionen der durch eine akustische Analyse in Schritt S3 erhaltenen mehrdimensionalen akustischen Parameter eine Skalar- bzw. Frequenzteiler-Quantisierung. Bei einer Skalar- bzw. Frequenzteiler-Quantisierung sind zahlreiche Verfahren verfügbar.
Nachstehend werden zwei Beispiele erklärt.

1) Verfahren basierend auf LBG: Ein LGB-Verfahren, das normalerweise verwendet wird, wird als ein Kluster- bzw. Anhäufungsverfahren verwendet. Daten jeder Dimension der akustischen Parameter werden unter Verwendung des LBG-Verfahrens in beliebige Klassen (z.B. 16 Schritte) aufgeteilt.
2) Verfahren eines Annahmemodells: Es wird angenommen, dass Daten der jeweiligen Dimensionen der akustischen Parameter z.B. einer Gauß'schen Verteilung folgen. Ein 30-er Bereich der gesamten Verteilung jeder Dimension wird durch Klustern bzw. Anhäufen z.B. in 16 Schritte aufgeteilt, dass sie gleiche Bereiche besitzen, d.h. gleiche Wahrscheinlichkeiten.

Weiterhin wird die durch die Sprachkommunikationsinformationserzeugungseinrichtung 104 erhaltene Anhäufungsergebnistabelle in Schritt S6 zum Server 200 übertragen. Bei der Übertragung werden die Kommunikationssteuereinrichtung 107 des Endgeräts 100, die Übermittlungsleitung und die Kommunikationssteuereinrichtung 201 des Servers 200 verwendet und die Anhäufungsergebnistabelle wird zum Server übertragen.
Im Server 200 empfängt die Kommunikationssteuereinrichtung 201 in Schritt S7 die Anhäufungsergebnistabelle. Zu diesem Zeitpunkt verbindet der Vorgangsschalter 202 die Sprachkommunikationsinformationshalteeinheit 203 und die Kommunikationssteuereinrichtung 201 und die empfangene Anhäufungsergebnistabelle wird in Schritt S8 in der Sprachkommunikationsinformationshalteeinheit 203 aufgezeichnet.
7 ist eine Ansicht zur Erklärung der Anhäufungsergebnistabelle. In 7 erfolgt eine Anhäufung in 16 Schritte. Eine Tabelle zur in 7 gezeigten Kodierung wird durch das vorstehend erwähnte Verfahren (z.B. das LBG-Verfahren oder der gleichen) auf der Grundlage der in der Anfangslernbetriebsart eingegebenen akustischen Parameter erzeugt. Die in 7 gezeigte Tabelle wird für jede Dimension der akustischen Parameter erzeugt und zeichnet die Schrittzahlen und Parameterwertbereiche jeder Dimension entsprechend einander auf. Durch Nachschlagen dieser Entsprechung zwischen den Parameterwertbereichen und Schrittzahlen werden die akustischen Parameter unter Verwendung der Schrittzahlen kodiert. Jede Schrittzahl speichert einen jeweiligen in einem Dekodiervorgang nachzuschlagenden Wert. Es ist zu beachten, dass die Sprachkommunikationsinformationshalteeinheit 105 die Schrittzahlen und Parameterwertbereiche speichern kann und die Sprachkommunikationsinformationshalteeinheit 203 die Schrittzahlen und jeweiligen Werte speichern kann. In diesem Fall können von dem Endgerät 100 zum Server 200 gesendete Sprachkommunikationsinformationen nur die Entsprechung zwischen den Schrittzahlen und Parameter-darstellenden Werten enthalten.
Oder die Sprachkommunikationsinformationserzeugungseinrichtung 104 kann eine Entsprechung zwischen den Schrittzahlen und Parameterbereichswerten erzeugen und eine bei dem Dekodiervorgang verwendete Entsprechung zwischen den Schrittzahlen und repräsentativen Werten kann durch den Server 200 (Sprachkommunikationsinformationshalteeinheit 203) erzeugt werden.
Der Vorgang bei einer Spracherkennung wird nachstehend erklärt. 3 ist ein Ablaufdiagramm des Ablaufs des Verfahrens bzw. Vorgangs bei einer Spracherkennung.
Bei einer Spracherkennung erfasst die Spracheingabeeinheit 101 zu erkennende Sprache und wandelt die erfassten Sprachdaten in Schritt S21 analog/digital(A/D). In Schritt S22 führt die akustische Verarbeitungseinrichtung 102 eine akustische Analyse aus. Eine akustische Analyse kann normalerweise bei einer Spracherkennung verwendete Analyseverfahren verwenden, wie beispielsweise Melcepstrum, Delta-Melcepstrum und dergleichen. Bei dem Spracherkennungsverfahren bzw. -vorgang verbindet der Vorgangsschalter 103 die akustische Verarbeitungseinrichtung 102 und Kodiereinrichtung 106. Daher kodiert die Kodiereinrichtung 106 die in Schritt S22 erhaltenen mehrdimensionalen Merkmalsgrößenparameter unter Verwendung der in Schritt S23 in der Sprachkommunikationsinformationshalteeinheit 105 aufgezeichneten Anhäufungsergebnistabelle. Das heißt, die Kodiereinrichtung 106 führt eine Skalar- bzw. Frequenzteiler-Quantisierung für jeweilige Dimensionen aus.
Bei einer Kodierung werden Daten jeder Dimension durch Nachschlagen in der z.B. in 7 gezeigten Anhäufungsergebnistabelle in 4-Bit (16-Schritt) Daten umgewandelt. Wenn beispielsweise die Anzahl von Dimensionen der Parameter 13 ist, bestehen Daten jeder Dimension aus 4 Bit und der Analysezyklus beträgt 10 ms, d.h. Daten werden mit 100 Datenübertragungsblöcken/Sekunde übertragen, die Datengröße ist: 13 (Dimensionen) × 4 (Bit) × 100 (Datenübertragungsblöcke/s) = 5,2 kbps
In den Schritten S24 und S25 werden die kodierten Daten ausgegeben und empfangen. Bei einer Datenübertragung werden die Kommunikationssteuereinrichtung 107 des Endgeräts 100, die Übermittlungsleitung und die Kommunikationssteuereinrichtung 201 des Servers 200 verwendet, wie vorstehend beschrieben. Die Übermittlungsleitung 300 kann zahlreiche drahtgebundene und drahtlose Übermittlungs- bzw. Kommunikationseinrichtungen verwenden, so lange sie Daten übertragen können.
In dem Spracherkennungsvorgang verbindet der Vorgangsschalter 202 die Kommunikationssteuereinrichtung 201 und die Dekodiereinrichtung 204. Daher dekodiert die Dekodiereinrichtung 204 die durch die Kommunikationssteuereinrichtung 201 empfangenen mehrdimensionalen Merkmalsgrößenparameter unter Verwendung der in Schritt S26 in der Sprachkommunikationsinformationshalteeinheit 203 aufgezeichneten Anhäufungsergebnistabelle. Das heißt, die jeweiligen Schrittzahlen werden in akustische Parameterwerte (repräsentative Werte in 7) umgewandelt. Als ein Ergebnis der Dekodierung werden akustische Parameter erhalten. In Schritt S27 erfolgt eine Spracherkennung unter Verwendung der in Schritt S26 dekodierten Parameter. Diese Spracherkennung erfolgt durch die Spracherkennungseinheit 205 unter Verwendung eines in der akustischen Modellhalteeinheit 206 gespeichert gehaltenen akustischen Modells. Anders als bei einer normalen Spracherkennung wird keine akustische Verarbeitungseinrichtung verwendet. Dies ist aufgrund dessen, dass durch die Dekodiereinrichtung 204 dekodierte Daten akustische Parameter sind. Als ein akustisches Modell wird beispielsweise ein HMM (Hidden Markov Modell) verwendet. In Schritt S28 läuft die Anwendung 207 unter Verwendung des durch die Spracherkennung in Schritt S27 erhaltenen Spracherkennungsergebnisses. Die Anwendung 207 kann entweder im Server 200 oder Endgerät 100 installiert sein oder kann sowohl auf den Server 200 als auch das Endgerät 100 verteilt sein. Wenn die Anwendung 207 auf dem Endgerät 100 läuft oder verteilt ist, müssen das Erkennungsergebnis, die internen Zustandsdaten der Anwendung und dergleichen unter Verwendung der Kommunikationssteuereinrichtungen 107 und 201 und der Übermittlungsleitung 300 übertragen werden.
Wie vorstehend beschrieben, wird gemäß dem ersten Ausführungsbeispiel die an den akustischen Zustand zu diesem Zeitpunkt angepasste Anhäufungsergebnistabelle in der Anfangslernbetriebsart erzeugt und eine Kodierung/Dekodierung erfolgt auf der Grundlage dieser Anhäufungsergebnistabelle bei Spracherkennung. Da eine Kodierung/Dekodierung unter Verwendung der an den akustischen Zustand angepassten Tabelle (Anhäufungsergebnistabelle) erfolgt, kann eine geeignete Kodierung entspre chend einer Veränderung in einem akustischen Merkmal erreicht werden. Aus diesem Grund kann ein Abfallen der Erkennungsrate aufgrund einer Veränderung in einem Umgebungsrauschen verhindert werden.
<Zweites Ausführungsbeispiel>
Im ersten Ausführungsbeispiel wird eine an den akustischen Zustand angepasste Kodierbedingung (Anhäufungsergebnistabelle) erzeugt und ein Kodier/Dekodiervorgang wird durch gemeinsames Verwenden dieser Kodierbedingung durch die Kodiereinrichtung 106 und die Dekodiereinrichtung 204 ausgeführt, wodurch eine Übertragung geeigneter Sprachdaten und ein Spracherkennungsverfahren bzw. -vorgang verwirklicht wird. Im zweiten Ausführungsbeispiel wird ein Verfahren zur Erkennung von kodierten Daten ohne Dekodierung zum Erreichen einer höheren Verarbeitungsgeschwindigkeit erklärt.
4 ist ein Blockschaltbild der Anordnung eines Spracherkennungssystems gemäß dem zweiten Ausführungsbeispiel. Die 5 und 6 sind Ablaufdiagramme zur Erklärung der Funktion des in der Darstellung gemäß 4 gezeigten Spracherkennungssystems. Das zweite Ausführungsbeispiel wird nachstehend ebenso wie sein Funktionsbeispiel unter Verbindung von 4 mit den 5 und 6 erklärt.
Dieselben Bezugszahlen in 4 bezeichnen dieselben Teile wie in der Anordnung gemäß dem ersten Ausführungsbeispiel. Wie aus 4 ersichtlich, besitzt das Endgerät 100 dieselbe Anordnung wie im ersten Ausführungsbeispiel. Andererseits verbindet in einem Server 500 ein Vorgangsschalter 502 die Kommunikationssteuereinrichtung 201 und eine Wahrscheinlichkeitsinformationserzeugungseinrichtung 503 einen Anfangseinstellvorgang und verbindet die Kommunikationssteuereinrichtung 201 und eine Spracherkennungseinheit 505 in einem Spracherkennungsvorgang.
Bezugszahl 503 bezeichnet eine Wahrscheinlichkeitsinformationserzeugungseinrichtung zur Erzeugung von Wahrscheinlichkeitsinformationen auf der Grundlage der eingegebenen Anhäufungsergebnistabelle und eines in einer akustischen Modellhalteeinheit 506 gehaltenen akustischen Modells. Die durch die Erzeugungseinrichtung 503 erzeugten Wahrscheinlichkeitsinformationen erlauben eine Spracherkennung ohne eine Dekodierung der kodierten Daten. Die Wahrscheinlichkeitsinformationen und ihr Erzeugungsverfahren werden nachstehend beschrieben. Bezugszahl 504 bezeichnet eine Wahrscheinlichkeitsinformationshalteeinheit zum Halten der durch die Wahrscheinlichkeitsinformationserzeugungseinrichtung 503 erzeugten Wahrscheinlichkeitsinformationen. Es ist zu beachten, dass zahlreiche Aufzeichnungsträger oder -medien, wie beispielsweise eine Speichereinrichtung (z.B. ein RAM), eine Diskette (FD), eine Festplatte (HD) und dergleichen verwendet werden können, um die Wahrscheinlichkeitsinformationen in der Wahrscheinlichkeitsinformationshalteeinheit 504 zu halten.
Bezugszahl 505 bezeichnet eine Spracherkennungseinheit, die eine Wahrscheinlichkeitsberechnungseinheit 508 und eine Sprachsucheinheit 509 umfasst. Die Spracherkennungseinheit 505 führt einen Spracherkennungsvorgang der über die Kommunikationssteuereinrichtung 201 eingegebenen kodierten Daten unter Verwendung der in der Wahrscheinlichkeitsinformationshalteeinheit 504 gehaltenen Wahrscheinlichkeitsinformationen aus, wie nachstehend beschrieben.
Der Spracherkennungsvorgang gemäß dem zweiten Ausführungsbeispiel wird nachstehend unter Bezugnahme auf die 5 und 6 beschrieben.
Ein Anfangseinstellvorgang erfolgt vor dem Beginn einer Spracherkennung. Wie im ersten Ausführungsbeispiel wird der Anfangseinstellvorgang ausgeführt, um kodierte Daten an eine akustische Umgebung anzupassen. Wenn dieser Anfangseinstellvorgang übersprungen wird, ist es möglich, eine Kodierung und Spracherkennung von Sprachdaten unter Verwendung vorbestimmter Werte in Verbindung mit kodierten Daten auszuführen. Durch Ausführung des Anfangseinstellvorgangs kann jedoch die Erkennungsrate verbessert werden.
Jeweilige Vorgänge in den Schritt S40 bis S45 in dem Endgerät 100 sind dieselben wie die in dem ersten Ausführungsbeispiel (Schritte S1 bis S6) und eine Beschreibung davon wird weggelassen. Der Anfangseinstellvorgang des Servers 500 wird nachstehend beschrieben.
In Schritt S46 empfängt die Kommunikationssteuereinrichtung 201 durch das Endgerät 100 erzeugte Sprachkommunikationsinformationen (Anhäufungsergebnistabelle in diesem Ausführungsbeispiel). Der Vorgangsschalter 502 verbindet die Wahrscheinlichkeitsinformationserzeugungseinrichtung 503 in dem Anfangseinstellvorgang. Daher werden die Wahrscheinlichkeitsinformationen in Schritt S47 erzeugt. Eine Erzeugung der Wahrscheinlichkeitsinformationen wird nachstehend beschrieben. Die Wahrscheinlichkeitsinformationen werden durch die Wahrscheinlichkeitsinformationserzeugungseinrichtung 503 unter Verwendung eines in der akustischen Modellhalteeinheit 506 gespeichert gehaltenen akustischen Modells erzeugt. Dieses akustische Modell wird z.B. durch ein HMM ausgedrückt.
Es sind zahlreiche Wahrscheinlichkeitsinformationserzeugungsverfahren verfügbar. In diesem Ausführungsbeispiel wird ein Verfahren unter Verwendung einer Skalar- bzw. Frequenzteiler-Quantisierung erklärt. Wie im ersten Ausführungsbeispiel beschrieben, wird eine Anhäufungsergebnistabelle für eine Ska lar- bzw. Frequenzteiler-Quantisierung für jede Dimension des mehrdimensionalen akustischen Parameters durch den Vorgang des Endgeräts 100 in den Schritten S40 bis S45 erhalten. Einige Schritte von Wahrscheinlichkeitsberechnungen erfolgen für jeweilige Quantisierungspunkte unter Verwendung der Werte jeweiliger in dieser Tabelle und dem akustischen Modell gehaltener Quantisierungspunkte. Dieser Wert wird in der Wahrscheinlichkeitsinformationshalteeinheit 504 gespeichert gehalten. In dem Erkennungsvorgang kann, da die Wahrscheinlichkeitsberechnungen durch Tabellennachschlagen auf der Grundlage von als kodierte Daten empfangenen Skalar- bzw. Frequenzteiler-Quantisierungswerten erfolgen, die Notwendigkeit zur Dekodierung beseitigt werden.
Für weitere Einzelheiten des Wahrscheinlichkeitsberechungsverfahrens durch Tabellennachschlagen siehe Sagayama et al., „New High-speed Implementation in Speech Recognition", Proc. of ASJ Spring Meeting 1-5-12, 1995. Andere Vektor-Quantisierungsverfahren einer Skalar- bzw. Frequenzteiler-Quantisierung, ein Verfahren eines Weglassens von Additionen durch Durchführen von gemischten Verteilungsfunktionen jeweiliger Dimensionen im Voraus und dergleichen können verwendet werden. Diese Verfahren werden auch in der vorstehenden Bezugsschrift eingeführt. Das Berechnungsergebnis wird in der Wahrscheinlichkeitsinformationshalteeinheit 504 in der Form einer Tabelle für Skalar- bzw. Frequenzteiler-Quantisierungswerte in Schritt S48 gehalten.
Der Fluss des Spracherkennungsvorgangs gemäß dem zweiten Ausführungsbeispiel wird nachstehend unter Bezugnahme auf 6 beschrieben. Jeweilige Vorgänge in den Schritten S60 bis S64 im Endgerät 100 sind dieselben wie die in dem ersten Ausführungsbeispiel (Schritte S20 bis S24) und eine Beschreibung davon wird weggelassen.
In Schritt S65 empfängt die Kommunikationssteuereinrichtung 201 des Servers 500 kodierte Daten der durch die Vorgänge in den Schritten S20 bis S24 erhaltenen mehrdimensionalen akustischen Parameter. In dem Spracherkennungsvorgang verbindet der Vorgangsschalter 502 die Wahrscheinlichkeitsberechnungseinheit 508. Die Spracherkennungseinheit 505 kann getrennt durch die Wahrscheinlichkeitsberechnungseinheit 508 und die Wortsucheinheit 509 ausgedrückt werden. In Schritt S66 berechnet die Wahrscheinlichkeitsberechnungseinheit 508 Wahrscheinlichkeitsinformationen. In diesem Fall werden die Wahrscheinlichkeitsinformationen durch Tabellennachschlagen nach den Skalar- bzw. Frequenzteiler-Quantisierungswerten unter Verwendung der in der Wahrscheinlichkeitsinformationshalteeinheit 504 gespeichert gehaltenen Daten anstelle des akustischen Modells berechnet. Da Einzelheiten der Berechnungen in der vorstehenden Bezugsschrift beschrieben sind, wird eine Beschreibung davon weggelassen.
In Schritt S67 durchläuft das Wahrscheinlichkeitsberechnungsergebnis in Schritt S66 eine Wortsuche, um ein Erkennungsergebnis zu erhalten. Eine Wortsuche erfolgt unter Verwendung eines Wort-Wörterbuchs und einer Grammatik, die normalerweise bei einer Spracherkennung verwendet wird, wie beispielsweise eine Netzwerkgrammatik, eines Sprachmodells, wie beispielsweise n-gram und dergleichen. In Schritt S68 läuft eine Anwendung 507 unter Verwendung des erhaltenen Erkennungsergebnisses. Wie im ersten Ausführungsbeispiel kann die Anwendung 507 entweder im Server 500 oder Endgerät 100 installiert sein oder kann sowohl auf den Server 500 als auch das Endgerät 100 verteilt sein. Wenn die Anwendung 507 auf dem Endgerät 100 läuft oder verteilt ist, müssen das Erkennungsergebnis, die internen Zustandsdaten der Anwendung und dergleichen unter Verwendung der Kommunikationssteuereinrichtungen 107 und 201 und der Übermittlungsleitung 300 übertragen werden.
Wie vorstehend beschrieben, kann gemäß dem zweiten Ausführungsbeispiel, da eine Spracherkennung ohne eine Dekodierung der kodierten Daten erfolgen kann, eine Hochgeschwindigkeitsverarbeitung erreicht werden.
Der Spracherkennungsvorgang der vorstehend beschriebenen ersten und zweiten Ausführungsbeispiele kann für Anwendungen verwendet werden, die eine Spracherkennung nutzen. Insbesondere ist der vorstehende Spracherkennungsvorgang für einen Fall geeignet, in dem ein kompaktes tragbares Endgerät als das Endgerät 100 verwendet wird und Einrichtungssteuerung und Informationssuche erfolgen mittels von Spracheingabe.
Gemäß den vorstehenden Ausführungsbeispielen erfolgt ein Kodiervorgang, wenn der Spracherkennungsvorgang verteilt ist und auf verschiedenen Einrichtungen unter Verwendung einer Kodierung zur Spracherkennung ausgeführt wird, entsprechend Hintergrundrauschen, internem Rauschen, der Kennlinie eines Mikrophons und dergleichen. Aus diesem Grund kann auch in einer lauten Umgebung oder, auch, wenn ein Mikrophon mit unterschiedlichen Kennlinien verwendet wird, ein Abfall einer Erkennungsrate verhindert werden und es kann eine wirkungsvolle Kodierung angewendet werden, wodurch Verdienste erhalten werden (z.B. die Übertragungsdatengröße auf einem Übermittlungspfad kann unterdrückt werden).
Es ist zu beachten, dass die Aufgaben der vorliegenden Erfindung auch durch Zuführen eines Speichermediums erreicht werden, das einen Programmcode eines Softwareprogramms aufzeichnet, das die Funktionen der vorstehend erwähnten Ausführungsbeispiele auf dem System oder der Vorrichtung anwenden kann, und durch Auslesen und Ausführung des in dem Speichermedium gespeicherten Programmcodes durch einen Computer (oder eine CPU oder MPU) des Systems oder der Vorrichtung.
In diesem Fall implementiert der aus dem Speichermedium ausgelesene Programmcode selbst die Funktionen der vorstehenden Ausführungsbeispiele und das Speichermedium, das den Programmcode speichert, bildet die vorliegende Erfindung.
Als das Speichermedium zur Zuführung des Programmcodes können beispielsweise eine Diskette, eine Festplatte, eine optische Platte, eine magneto-optische Platte, eine CD-ROM, eine CD-R, ein Magnetband, eine nichtflüchtige Speicherkarte, ein ROM und dergleichen verwendet werden.
Die Funktionen der vorstehend erwähnten Ausführungsbeispiele können nicht nur durch Ausführung des ausgelesenen Programmcodes durch den Computer implementiert werden, sondern auch durch eine Ausführung einiger oder aller aktuellen Verarbeitungsfunktionen durch ein OS (Betriebssystem), das auf dem Computer läuft, auf der Grundlage einer Anweisung des Programmcodes.
Weiterhin können die Funktionen der vorstehend erwähnten Ausführungsbeispiele durch eine Ausführung einiger oder aller aktuellen Verarbeitungsfunktionen durch eine CPU oder dergleichen, die in einer Funktionserweiterungskarte oder einer Funktionserweiterungseinheit angeordnet sind, implementiert werden, die in den Computer einfügt oder mit ihm verbunden sind, nachdem der aus dem Speichermedium ausgelesene Programmcode in eine Speichereinrichtung der Erweiterungskarte oder -einheit geschrieben wurde.
Um es besser zu formulieren, gemäß der vorliegenden Erfindung kann eine geeignete Kodierung entsprechend einer Veränderung in einem akustischen Merkmal erfolgen und einer Verringerung der Erkennungsrate und Kompressionsrate bei einer Kodierung aufgrund einer Veränderung im Umgebungsrauschen kann verhindert werden.
Da viele offensichtlich sehr unterschiedliche Ausführungsbeispiele der Erfindung ohne Abweichung vom Schutzumfang erfolgen können, ist es verständlich, dass die Erfindung nicht auf bestimmte Ausführungsbeispiele, sondern nur durch die Ansprüche begrenzt ist.

Claims

Spracherkennungssystem mit: einer Eingabeeinrichtung (100, S2, S21, S41, S61) zur Eingabe von akustischen Informationen, einer Analyseeinrichtung (102, S3, S22, S42, S62) zur Analyse der durch die Eingabeeinrichtung eingegebenen akustischen Informationen, um Merkmalsgrößenparameter zu erhalten, einer ersten Halteeinrichtung (103, 104, 105, S4 – S5, S43 – S44) zum Erhalten und gespeichert Halten von Anfangseinstellinformationen zur Kodierung auf der Basis der durch die Analyseeinrichtung erhaltenen Merkmalsgrößenparameter, einer zweiten Halteeinrichtung (104, 202, 203, 502, 503, 504, 506, S7, S8, S46 – S48) zum gespeichert Halten von Verarbeitungsinformationen für ein Spracherkennungsverfahren entsprechend den Anfangseinstellinformationen zur Kodierung, einer Umwandlungseinrichtung (103, 106, S21 – S23, S61 – S64) zur Komprimierungskodierung der durch die Eingabeeinrichtung und die Analyseeinrichtung erhaltenen Merkmalsgrößenparameter auf der Grundlage der Anfangseinstellinformationen zur Kodierung und einer Erkennungseinrichtung (202, 204, 205, 502, 505, S25 – S27, S65 – S67) zur Ausführung einer Spracherkennung auf der Grundlage der durch die zweite Halteeinrichtung gespeichert gehaltenen Verarbeitungsinformationen zur Spracherkennung und der durch die Umwandlungseinrichtung komprimierungskodierten Merkmalsgrößenparameter.
System nach Anspruch 1, wobei das System eine erste Vorrichtung (100) mit der Analyseeinrichtung, der ersten Halteeinrichtung und der Umwandlungseinrichtung und eine zweite Vorrichtung (200, 500) mit der Erkennungseinrichtung umfasst und wobei das System weiterhin eine Übermittlungseinrichtung (197, 300, 201) zum Senden von durch die erste Halteeinrichtung erzeugten Anfangseinstellinformationen und durch die Umwandlungseinrichtung erfassten Daten von der ersten Vorrichtung zur zweiten Vorrichtung umfasst.
System nach Anspruch 1, wobei die zweite Halteeinrichtung zur Dekodierung von durch die Umwandlungseinrichtung umgewandelten Informationen verwendete Verarbeitungsinformationen gespeichert halten kann, wobei die Erkennungseinrichtung eine Dekodiereinrichtung (204, S26) zur Dekodierung der komprimierungskodierten Merkmalsgrößenparameter durch Nachschlagen der in der zweiten Halteeinrichtung gespeichert gehaltenen Verarbeitungsinformationen umfasst, und, wobei die Erkennungseinrichtung ein Spracherkennungsverfahren auf der Grundlage der durch die Dekodiereinrichtung (205, S27) dekodierten Merkmalsgrößenparameter ausführen kann.
System nach Anspruch 2, wobei die zweite Halteeinrichtung in der zweiten Vorrichtung ausgebildet ist.
System nach Anspruch 1, wobei die zweite Halteeinrichtung Verarbeitungsinformationen gespeichert halten kann, die aus einigen Schritten einer mit einer Spracherkennung unter Verwendung der Anfangseinstellinformationen zur Kodierung eines akustischen Modells verbundenen Wahrscheinlichkeitsberechnung (S46 – S48) erhalten werden, und wobei die Erkennungseinrichtung ein Spracherkennungsergebnis durch Durchführen einer Wahrscheinlichkeitsberechnung für durch die Umwandlungseinrichtung erhaltenen Daten un ter Verwendung der durch die zweite Halteeinrichtung gespeichert gehaltenen Informationen erhalten kann.
System nach Anspruch 1, weiterhin mit einer Betriebsartbestimmungseinrichtung zur ausgewählten Ausführung einer Lernbetriebsart, in der die Anfangseinstellinformationen und die Verarbeitungsinformationen erhalten und in der ersten und zweiten Halteeinrichtung gespeichert werden, und einer Spracherkennungsbetriebsart, in der die Umwandlungseinrichtung die Merkmalsgrößenparameter komprimierungskodiert und die Erkennungseinrichtung eine Spracherkennung ausführt.
System nach Anspruch 1, wobei die Umwandlungseinrichtung durch die Analyseeinrichtung erhaltene mehrdimensionale Sprachparameter für jeweilige Dimensionen Frequenzteilerquantisieren kann.
System nach Anspruch 7, wobei die Umwandlungseinrichtung einen LGB-Algorithmus verwenden kann, um die Sprachparameter zu Frequenzteiler-quantisieren.
System nach Anspruch 7, wobei während der Frequenzteiler-Quantisierung die Umwandlungseinrichtung annehmen kann, dass die zu quantisierenden Daten eine Gauß-Verteilung besitzen, und die Daten mit Quantisierungsschritten mit gleichen Verteilungswahrscheinlichkeiten quantisiert.
System nach Anspruch 7, weiterhin mit einer Einstelleinrichtung, die eine Anhäufung für die Frequenzteiler-Quantisierung auf der Grundlage der durch die Analyseeinrichtung erhaltenen Merkmalsgrößenparameter verändern kann.
Spracherkennungsverfahren mit: einem Eingabeschritt (S2, S21, S41, S61) eines Eingebens von akustischen Informationen, einem Analyseschritt (S3, S22, S42, S62) eines Analysierens der in dem Eingabeschritt eingegebenen akustischen Informationen, um Merkmalsgrößenparameter zu erhalten, einem ersten Halteschritt (S4, S5, S43 – S44) eines Erhaltens von Anfangseinstellinformationen zur Kodierung auf der Grundlage der in dem Analyseschritt erhaltenen Merkmalsgrößenparameter und eines Speicherns der Informationen in einer ersten Speichereinrichtung, einem zweiten Halteschritt (S7, S8, S46 – S48) eines gespeichert Haltens von Verarbeitungsinformationen für ein Spracherkennungsverfahren entsprechend den Anfangseinstellinformationen zur Kodierung in einer zweiten Speichereinrichtung, einem Umwandlungsschritt (S21 – S23, S61 – S64) eines Komprimierungskodierens der über den Eingabeschritt und den Analyseschritt auf der Grundlage der Anfangseinstellinformationen zur Kodierung erhaltenen Merkmalsgrößenparameter und einem Erkennungsschritt (202, 204, 205, 502, 505, S25 – S27, S65 – S67) eines Ausführens einer Spracherkennung auf der Grundlage der in der zweiten Speichereinrichtung in dem zweiten Halteschritt gehaltenen Verarbeitungsinformationen zur Spracherkennung und den in dem Umwandlungsschritt komprimierungskodierten Merkmalsgrößenparameter.
Verfahren nach Anspruch 11, wobei der Analyseschritt, der erste Halteschritt und der Umwandlungsschritt durch eine erste Vorrichtung (100) durchgeführt werden, wobei der Erkennungsschritt durch eine zweite Vorrichtung (200, 500) durchgeführt wird, und, wobei das Verfahren weiterhin einen Übermittlungsschritt 856, S7, S45, S46) eines Sendens der in dem ersten Halteschritt erzeugten Anfangseinstellinformationen und von in dem Umwandlungsschritt erhaltenen Daten von der ersten Vorrichtung zur zweiten Vorrichtung umfasst.
Verfahren nach Anspruch 11, wobei der zweite Halteschritt den Schritt eines gespeichert Haltens von zur Dekodierung von in dem Umwandlungsschritt umgewandelten Informationen verwendeten Verarbeitungsinformationen in der zweiten Speichereinrichtung enthält, wobei der Erkennungsschritt einen Dekodierschritt (S26) eines Dekodierens der komprimierungskodierten Merkmalsgrößenparameter durch Nachschlagen der in der zweiten Speichereinrichtung gespeichert gehaltenen Verarbeitungsinformationen umfasst und wobei der Erkennungsschritt den Schritt eines Ausführens eines Spracherkennungsverfahrens auf der Grundlage der in dem Dekodierschritt dekodierten Merkmalsgrößenparameter enthält (S27).
Verfahren nach Anspruch 12, wobei der zweite Halteschritt durch die zweite Vorrichtung ausgeführt wird.
Verfahren nach Anspruch 11, wobei der zweite Halteschritt einen Schritt eines Erzeugens von mit Spracherkennung auf der Grundlage der Anfangseinstellinformationen zur Kodierung und eines akustischen Modells verbundenen Wahrscheinlichkeitsinformationen und eines gespeichert Haltens des Berechnungsergebnisses als die Informationen zur Spracherkennung (S46 – S48) enthält, und, wobei der Erkennungsschritt den Schritt eines Erhaltens eines Spracherkennungsergebnisses durch Durchführen einer Wahrscheinlichkeitsberechung für in dem Umwandlungsschritt erhaltene Daten unter Verwendung der in dem zweiten Halteschritt gespeichert gehaltenen Informationen enthält.
Verfahren nach Anspruch 11, weiterhin mit einem Betriebsartbestimmungsschritt eines ausgewählten Ausführens einer Lernbetriebsart, in der die ersten und zweiten Halteschritte durchgeführt werden, und einer Spracherkennungsbetriebsart, in der der Umwandlungsschritt und der Erkennungsschritt durchgeführt werden.
Verfahren nach Anspruch 11, wobei der Umwandlungsschritt den Schritt eines Frequenzteiler-Quantisierens von in dem Analyseschritt erhaltenen mehrdimensionalen Sprachparametern für jeweilige Dimensionen enthält.
Verfahren nach Anspruch 17, wobei der Frequenzteiler-Quantisierungs-Schritt einen LGB-Algorithmus verwendet.
Verfahren nach Anspruch 17, wobei der Frequenzteiler-Quantisierungs-Schritt annimmt, dass die zu quantisierenden Daten eine Gauß'sche Verteilung besitzen, und die Daten mit Quantisierungsschritten mit gleichen Verteilungswahrscheinlichkeiten quantisiert.
Verfahren nach Anspruch 17, weiterhin mit einem Schritt eines Veränderns eines Anhäufung für die Frequenzteiler-Quantisierung auf der Grundlage der durch den Analyseschritt erhaltenen Merkmalsgrößenparameter.
Informationsverarbeitungsvorrichtung mit: einer Eingabeeinrichtung (101) zur Eingabe von akustischen Informationen, einer Analyseeinrichtung (102) zur Analyse der durch die Eingabeeinrichtung eingegebenen akustischen Informationen, um Merkmalsgrößenparameter zu erhalten, einer Halteeinrichtung (103, 104, 105) zur Erzeugung und zum gespeichert Halten von Anfangseinstellinformationen für eine Komprimierungskodierung auf der Grundlage der durch die Analyseeinrichtung erhaltenen Merkmalsgrößenparameter, einer ersten Übermittlungseinrichtung (107, S6, S45) zum Senden der durch die Halteeinrichtung erzeugten Anfangseinstellinformationen an eine externe Vorrichtung, einer Umwandlungseinrichtung (106) zur Komprimierungskodierung der Merkmalsgrößenparameter der über die Eingabeeinrichtung und die Analyseeinrichtung erhaltenen akustischen Informationen auf der Grundlage der Anfangseinstellinformationen und einer zweiten Übermittlungseinrichtung (107, 524, S64) zum Senden von durch die Umwandlungseinrichtung erhaltenen Daten zur externen Vorrichtung.
Informationsverarbeitungsvorrichtung mit: einer ersten Empfangseinrichtung (201, S7, S46) zum Empfang von mit einer Komprimierungskodierung verbundenen Anfangseinstellinformationen von einer externen Vorrichtung, einer Halteeinrichtung (202, 203, 502, 503, 504, 506, S8, S47, S48) zum gespeichert Halten von auf der Grundlage der durch die erste Empfangseinrichtung empfangenen Anfangseinstellinformationen erhaltenen Verarbeitungsinformationen zur Spracherkennung in einer Speichereinrichtung, einer zweiten Empfangseinrichtung (201, S25, S65) zum Empfang von komprimierungskodierten Daten von der externen Vorrichtung und einer Erkennungseinrichtung (202, 204, 205, 502, 505, S26, S27, S66, S67) zur Ausführung einer Spracherkennung der durch die zweite Empfangseinrichtung empfangenen Daten unter Verwendung der in der Halteeinrichtung gespei chert gehaltenen Verarbeitungsinformationen.
Vorrichtung nach Anspruch 22, weiterhin mit: einer Dekodiereinrichtung (204, S26) zur Dekodierung von durch die zweite Empfangseinrichtung empfangenen Daten unter Verwendung der in der Halteeinrichtung gespeichert gehaltenen Verarbeitungsinformationen und einer Einrichtung (205, S27) zur Ausführung eines Spracherkennungsvorgangs auf der Grundlage von durch die Dekodiereinrichtung dekodierten Merkmalsgrößendaten.
Vorrichtung nach Anspruch 22, wobei die Halteeinrichtung Wahrscheinlichkeitsinformationen auf der Grundlage der durch die erste Empfangseinrichtung empfangenen Anfangseinstellinformationen und einem vorbestimmten akustischen Modell erzeugen und die Wahrscheinlichkeitsinformationen in der Speichereinrichtung (502 – 504, 506, 547, S48) gespeichert halten kann und wobei die Erkennungseinrichtung eine Spracherkennung durch Durchführung einer Wahrscheinlichkeitsberechnung auf der Grundlage von durch die zweite Empfangseinrichtung empfangenen Daten unter Verwendung der in der Speichereinrichtung (508, 509, S66, S67) gehaltenen Wahrscheinlichkeitsinformationen durchführen kann.
Informationsverarbeitungsverfahren mit: einem Eingabeschritt (S2, S21, S41, S61) eines Eingebens von akustischen Informationen, einem Analyseschritt (S3, S22, S42, S62) eines Analysierens der in dem Eingabeschritt eingegebenen akustischen Informationen, um Merkmalsgrößenparameter zu erhalten, einem Halteschritt (S4, S5, S43, S44) eines Erzeugens und gespeichert Haltens von Anfangseinstellinformationen zur Komprimierungskodierung auf der Grundlage von in dem Analyseschritt erhaltenen Merkmalsgrößenparametern, einem ersten Übermittlungsschritt (S6, S45) eines Sendens der in dem Halteschritt erzeugten Anfangseinstellinformationen zu einer externen Vorrichtung, einem Umwandlungsschritt (S23, S63) eines Komprimierungskodierens der durch den Eingabeschritt und den Analyseschritt erhaltenen Merkmalsgrößenparameter der akustischen Informationen auf der Grundlage der Anfangseinstellinformationen und einem zweiten Übermittlungsschritt (S24, S64) eines Sendens von in dem Umwandlungsschritt erhaltenen Daten zur externen Vorrichtung.
Informationsverarbeitungsverfahren mit: einem ersten Empfangsschritt (S7, S46) eines Empfangens von mit einer Komprimierungskodierung verbundenen Anfangseinstellinformationen von einer externen Vorrichtung, einem Halteschritt (S8, S47, S48) eines gespeichert Haltens von auf der Grundlage der in dem ersten Empfangsschritt empfangenen Anfangseinstellinformationen erhaltenen Verarbeitungsinformationen zur Spracherkennung in einer Speichereinrichtung, einem zweiten Empfangsschritt (S25, S65) eines Empfangens von komprimierungskodierten Daten von der externen Vorrichtung und einem Erkennungsschritt (S26, S27, S66, S67) eines Ausführens einer Spracherkennung der in dem zweiten Empfangsschritt empfangenen Daten unter Verwendung der in dem Halteschritt gespeichert gehaltenen Verarbeitungsinformationen.
Verfahren nach Anspruch 26, wobei der Erkennungsschritt einen Dekodierschritt (S26) eines Dekodierens von in dem zweiten Empfangsschritt empfangenen Daten unter Verwendung der in dem Halteschritt gespeichert gehaltenen Ver arbeitungsinformationen umfasst und dem Schritt (S27) eines Ausführens eines Spracherkennungsverfahrens auf der Grundlage von in dem Dekodierschritt dekodierten Merkmalsgrößendaten umfasst.
Verfahren nach Anspruch 26, weiterhin mit dem Schritt eines Erzeugens von Wahrscheinlichkeitsinformationen auf der Grundlage der in dem ersten Empfangsschritt empfangenen Anfangseinstellinformationen und einem vorbestimmten akustischen Modell und eines gespeichert Haltens der Wahrscheinlichkeitsinformationen in der Speichereinrichtung (S47, S48) und, wobei der Erkennungsschritt den Schritt eines Durchführens einer Spracherkennung durch Durchführen eines Wahrscheinlichkeitsberechnung auf der Grundlage von in dem zweiten Empfangsschritt empfangenen Daten unter Verwendung der in der Speichereinrichtung (S66, S67) gespeichert gehaltenen Wahrscheinlichkeitsinformationen, enthält.
Programm zur Veranlassung eines Computers zur Ausführung jedes der Schritte eines Spracherkennungsverfahrens nach einem der Ansprüche 11 bis 20.
Programm zur Veranlassung eines Computers zur Ausführung jedes der Schritte eines Spracherkennungsverfahrens nach einem der Ansprüche 25 bis 28.
Computerlesbarer Datenträger zur Speicherung eines Steuerprogramms, das angepasst ist, einen Computer ein Spracherkennungsverfahren ausführen zu lassen, wenn das Steuerprogramm auf dem Computer ist, wobei das Spracherkennungsverfahren: einen Eingabeschritt eines Eingebens von akustischen In formationen, einen Analyseschritt eines Analysierens der in dem Eingabeschritt eingegebenen akustischen Informationen zum Erhalten von Merkmalsgrößenparametern, einen ersten Halteschritt eines Erhaltens von Anfangseinstellinformationen zur Kodierung auf der Grundlage der in dem Analyseschritt erhaltenen Merkmalsgrößenparameter und eines Speicherns der Informationen in einer ersten Speichereinrichtung, einen zweiten Halteschritt eines gespeichert Haltens von Verarbeitungsinformationen für ein Spracherkennungsverfahren entsprechend den Anfangseinstellinformationen zur Kodierung in einer zweiten Speichereinrichtung, einen Umwandlungsschritt eines Komprimierungskodierens der über den Eingabeschritt und den Analyseschritt erhaltenen Merkmalsgrößenparameter auf der Grundlage der Anfangseinstellinformationen zur Kodierung und einen Erkennungsschritt eines Ausführens einer Spracherkennung auf der Grundlage der in der zweiten Speichereinrichtung in dem zweiten Halteschritt gespeichert gehaltenen Verarbeitungsinformationen zur Spracherkennung und der in dem Umwandlungsschritt komprimierungskodierten Merkmalsgrößenparameter umfasst.
Computerlesbarer Datenträger zur Speicherung eines Steuerprogramm, das angepasst ist, einen Computer eine vorbestimmte Informationsverarbeitung ausführen zu lassen, wenn das Steuerprogramm auf dem Computer ist, wobei die vorbestimmte Informationsverarbeitung: einen Eingabeschritt eines Eingebens von akustischen Informationen, einen Analyseschritt eines Analysierens der in dem Eingabeschritt eingegebenen akustischen Informationen zum Erhalten von Merkmalsgrößenparametern, einen Halteschritt eines Erzeugens und gespeichert Haltens von Anfangseinstellinformationen zur Komprimierungskodierung auf der Grundlage der in dem Analyseschritt erhaltenen Merkmalsgrößenparameter, einem ersten Übermittlungsschritt eines Sendens der in dem Halteschritt erzeugten Anfangseinstellinformationen an eine externe Vorrichtung, einem Umwandlungsschritt eines Komprimierungskodierens der über den Eingabeschritt und den Analyseschritt erhaltenen Merkmalsgrößenparameter der akustischen Informationen auf der Grundlage der Anfangseinstellinformationen und einen zweiten Übermittlungsschritt eines Sendens von in dem Umwandlungsschritt erhaltenen Daten an die externe Vorrichtung umfasst.
Computerlesbarer Datenträger zur Speicherung eines Steuerprogramms, das angepasst ist, einen Computer ein Spracherkennungsverfahren ausführen zu lassen, wenn das Steuerprogramm auf dem Computer ist, wobei der Spracherkennungsvorgang: einen ersten Empfangsschritt eines Empfangens von mit einer Komprimierungskodierung verbundenen Anfangseinstellinformationen von einer externen Vorrichtung, einen Halteschritt eines gespeichert Haltens von auf der Grundlage der in dem ersten Empfangsschritt empfangenen Anfangseinstellinformationen erhaltenen Verarbeitungsinformationen zur Spracherkennung in einer Speichereinrichtung, einem zweiten Empfangsschritt zum Empfangen von komprimierungskodierten Daten von der externen Vorrichtung und einem Erkennungsschritt eines Ausführens einer Spracherkennung der in dem zweiten Empfangsschritt empfangenen Daten unter Verwendung der in dem Halteschritt gespei chert gehaltenen Verarbeitungsinformationen umfasst.