-
Die
vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung
gemäß Anspruch 1,
auf ein Spracherkennungsverfahren gemäß Anspruch 4 und auf ein Computerprogrammprodukt
gemäß Anspruch
7.
-
Eine
derartige Spracherkennungsvorrichtung, ein derartiges Spracherkennungsverfahren,
ein derartiges Referenzermittlungsverfahren und ein derartiges Computerprogrammprodukt
sind beispielsweise aus dem Dokument US-A 5.890.113 bekannt. Die
bekannte Spracherkennungsvorrichtung weist Referenzspeichermittel
zum Speichern einer Referenzinformation auf. Die Referenzinformation
wird von einem Hersteller der Spracherkennungsvorrichtung bei einem
Referenzermittlungsverfahren durch Analyse der Art der Aussprache
von Wörtern
durch eine Mehrzahl von Referenzsprechern ermittelt. Hierfür spricht
jeder dieser Referenzsprecher einen bestimmten Text in ein Mikrofon
und Analysemittel ermitteln aus einer von dem Mikrofon abgegebenen Sprachinformation
so genannte Featurevektoren, die den zeitlichen Verlauf von Frequenzkomponenten der
Sprachinformation der Referenzsprecher beschreiben. Durch eine Mittelwertbildung
der Featurevektoren aller Referenzsprecher bei der Aussprache jedes
Phonems von Wörtern
des Texts werden die Eigenarten der einzelnen Referenzsprecher gemittelt und
die so ermittelte Referenzinformation ist für eine sprecherunabhängige Spracherkennungsvorrichtung geeignet.
Da die Featurevektoren der Sprachinformation der Referenzsprecher
auch von den Verzerrungen des einen Empfangskanal bildenden Eingabegeräts (Mikrofon,
Telefon, ...) abhängig
sind, wird bei dem Referenzermittlungsverfahren von den Referenzsprechern
ein Mikrofon verwendet, das möglichst
geringe Verzerrungen der Featurevektoren der Sprachinformation zur
Folge hat. Die in den Referenzspeichermittel gespeicherte Referenzinformation
der bekannten Spracherkennungsvorrichtung kann von einem Benutzer
an das von dem Benutzer verwendete Eingabegerät angepasst werden, um die Erkennungsrate
der Spracherkennungsvorrichtung zu verbessern. Hierfür weist
die bekannte Spracherkennungsvorrichtung Empfangskanalanpassungsmittel
zum Anpassen der in den Referenzspeichermitteln gespeicherten Referenzinformation
an durch das Eingabegerät
verursachte Verzerrungen der von Analysemitteln der Spracherkennungsvorrichtung
ermittelten Frequenzvektoren der Sprachinformation auf.
-
Die
in den Referenzspeichermittel gespeicherte Referenzinformation der
bekannten Spracherkennungsvorrichtung kann weiterhin an die Art
der Aussprache von Wörtern
durch den Benutzer der Spracherkennungsvorrichtung angepasst werden, um
die Erkennungsrate der Spracherkennungsvorrichtung für diesen
Benutzer zusätzlich
zu verbessern. Hierfür
weist die bekannte Spracherkennungsvorrichtung Benutzeranpassungsmittel
zum Anpassen der in den Referenzspeichermitteln gespeicherten und
bereits an den von dem Benutzer verwendeten Empfangskanal angepassten
Referenzinformation an die Art der Aussprache von Wörtern durch
den Benutzer auf. Die an den Empfangskanal und den Benutzer angepasste
Referenzinformation wird dann von Spracherkennungsmitteln der Spracherkennungsvorrichtung
zur Ermittlung einer der Sprachinformation bzw. den aus der Sprachinformation
ermittelten Featurevektoren zuzuordnende Textinformation verwendet.
-
Bei
der bekannten Spracherkennungsvorrichtung, dem bekannten Spracherkennungsverfahren,
dem bekannten Referenzermittlungsverfahren und dem bekannten Computerprogrammprodukt
hat sich als Nachteil erwiesen, dass der Benutzer bei Verwendung
unterschiedlicher Eingabegeräte
die Referenzinformation an jedes dieser Eingabegeräte anpassen
muss. Dies trifft beispielsweise auf einen Benutzer zu, der üblicherweise
Texte mit einem an einen Computer angeschlossenen Mikrofon diktiert,
jedoch manchmal per Telefon Kommandos an den Computer abgibt und
manchmal unterwegs ein digitales Diktiergerät zum Diktieren von Texten
verwendet, die später
mit der durch den Computer gebildeten Spracherkennungsvorrichtung
erkannt werden sollen. Hierbei muss der Benutzer für jedes
seiner Eingabegeräte
einen vorgegebenen Text mit dem jeweiligen Eingabegerät eingeben,
um die Referenzinformation an den Benutzer und das Eingabegerät anzupassen
und eine vergleichbar gute Erkennungsrate bei Verwendung der unterschiedlichen
Eingabegeräte
zu erhalten.
-
Die
Erfindung hat zur Aufgabe, die vorstehend angeführten Schwierigkeiten zu beseitigen
und eine Spracherkennungsvorrichtung, ein Spracherkennungsverfahren,
ein Referenzermittlungsverfahren und ein Computerprogrammprodukt
gemäß der in
dem ersten Absatz angegebenen Art zu schaffen, bei dem das Anpassen
der Referenzinformation an unterschiedliche Empfangskanäle durch
den Benutzer entfällt.
Diese Aufgabenstellung wird bei einer derartigen Spracherkennungsvorrichtung
gemäß den Maßnahmen
des kennzeichnenden Teils des Anspruchs 1, bei einem derartigen
Spracherkennungsverfahren gemäß den Maßnahmen
des kennzeichnenden Teils des Anspruchs 4, bei einem derartigen Referenzermittlungsverfahren
gemäß den Maßnahmen
des kennzeichnenden Teils des Anspruchs 7 und bei einem derartigen
Computerprogrammprodukt gemäß den Maßnahmen
des kennzeichnenden Teils des Anspruchs 9 gelöst.
-
Hierdurch
ist erreicht, dass bereits bei dem Referenzermittlungsverfahren
zusätzlich
zu der an einen typischen Empfangskanal angepassten Referenzinformation
für jeden
weiteren typischen Empfangskanal eine Transformationsmatrix ermittelt
wird, um die ermittelte Referenzinformation an andere typische Empfangskanäle anzupassen.
Hierdurch erhält man
den Vorteil, dass ein Benutzer der Spracherkennungsvorrichtung die
Referenzinformation nur mit einem dieser typischen Eingabegeräte an die
Art der Aussprache von Wörtern
durch den Benutzer anpassen muss, um eine praktisch gleichmäßig gute
Erkennungsrate mit allen diesen Eingabegeräten zu erreichen. Referenztransformationsmittel
ermitteln hierauf aus dieser für
den Benutzer und das typische Empfangsgerät angepassten Referenzinformation für weitere
von dem Benutzer verwendbare typische Empfangsgeräte bzw.
typische Empfangskanäle
geeignete angepasste Referenzinformationen. Es können beispielsweise für folgende
typische Empfangskanäle
Transformationsmatrizen und angepasste Referenzinformationen ermittelt
werden, bei denen die Sprachinformation mit einem Mikrofon, von
einem Telefon über
ein analoges oder digitales Telefonnetz, einem Mobiltelefon oder
von einem digitalen Diktiergerät
empfangen werden.
-
Es
ist anzumerken, dass Soulas T. et al. in „Adapting PSN recognition
models to the GSM environment by using spectral transformation", IEEE Comp.soc.press,
21. April 1997, ein sprecherunabhängiges System zur Erkennung
von isolierten Worten beschreibt und eine „lineare Mehrfachregressions"-Transformation zum
Transformieren der sprecherunabhängigen
Referenzinformation verwendet. Dieses beschriebene System nutzt
keine an den Benutzer angepasste Referenzinformation und die auf dieses
Weise transformierte benutzerunabhängige Referenzinformation liefert
nicht die gleichen guten Erkennungsresultate wie die in den Ansprüchen beschriebene
Spracherkennungsvorrichtung mit benutzerabhängiger Referenzinformation.
-
Durch
die Maßnahmen
gemäß Anspruch
2 oder Anspruch 5 wird die an den Benutzer und einen dieser typischen
Empfangskanäle
angepasste Referenzinformation automatisch und ohne weiteres Zutun
durch den Benutzer an sämtliche
anderen typischen Empfangskanäle
angepasst.
-
Durch
die Maßnahmen
gemäß Anspruch
3 oder Anspruch 6 werden die Fre quenzteilbereiche von die Sprachinformation
in diesen Frequenzteilbereichen charakterisierenden Featurevektoren
derart festgelegt, um das von dem jeweiligen Empfangskanal empfangene
Frequenzspektrum mit den Featurevektoren möglichst gut abzubilden. Wenn
beispielsweise von einem typischen Empfangskanal eine Sprachinformation
mit einem Frequenzspektrum von bis zu 4 kHz empfangen wird, dann
werden zur Beschreibung der empfangenen Sprachinformation keine
Featurevektoren festgelegt, die die Sprachinformation in Frequenzteilbereichen
mit höheren
Frequenzen als 4 kHz beschreiben.
-
Die
Erfindungen wird im Folgenden anhand von einem in der 1 dargestellten
Ausführungsbeispiel
einer Transformationsmatrixerzeugungsvorrichtung und einem in der 2 dargestellten
Ausführungsbeispiel
einer Spracherkennungsvorrichtung mit Referenztransformationsmitteln
beschrieben, wobei die Erfindung nicht auf diese Ausführungsbeispiele
beschränkt
zu sehen ist, sondern durch die beigefügten unabhängigen Ansprüche definiert
ist. Es zeigen:
-
1 schematisch
in Form eines Blockschaltbilds einen Computer mit dem eine Referenzermittlungssoftware
abgearbeitet wird und der hierbei eine Transformationsmatrixerzeugungsvorrichtung zum
Erzeugen von Transformationsmatrizen bildet; und
-
2 schematisch
in Form eines Blockschaltbilds einen Computer mit dem eine Spracherkennungssoftware
abgearbeitet wird und der hierbei eine Spracherkennungsvorrichtung
mit Referenztransformationsmitteln bildet.
-
1 zeigt
einen Computer, in dessen Hauptspeicher ein erstes Computerprogrammprodukt
ladbar ist, das Softwarecodeabschnitte umfasst und durch eine Referenzermittlungssoftware
gebildet ist. Wenn der Computer die Referenzermittlungssoftware
abarbeitet, dann bildet der Computer eine Transformationsmatrixerzeugungsvorrichtung 1 und arbeitet
entsprechend einem Referenzermittlungsverfahren. Bei dem Referenzermittlungsverfahren werden
einerseits Referenzinformationen RI für drei unterschiedliche typische
Empfangskanäle
ermittelt und andererseits werden Transformationsmatrizen T1-2,
T1-3 und T2-3 zur Transformation der ermittelten Referenzinformation
RI eines der typischen Empfangskanäle in die ermittelte Referenzinformation
RI eines anderen der typischen Empfangskanäle ermittelt.
-
Hierbei
wird eine erste Referenzinformation RI1 für einen ersten typischen Empfangskanal 2 ermittelt,
der durch zehn unterschiedliche Mikrofone 3-1 bis 3-10 nachgebildet
wird. Ferner wird eine zweite Referenzinformation RI2 für einen
zweiten typi schen Empfangskanal 4 ermittelt, der durch
zehn unterschiedliche Telefone 5-1 bis 5-10 und
Telefonleitungen nachgebildet wird. Zusätzlich wird eine dritte Referenzinformation
RI3 für
einen dritten typischen Empfangskanal 6 ermittelt, der
durch zehn unterschiedliche digitale Diktiergeräte 7-1 bis 7-10 nachgebildet
wird. Jeder dieser typischen Empfangskanäle 2, 4 und 6 weist
eine unterschiedliche Übertragungseigenschaft
für eine
von einem Benutzer in eines der Mikrofone 3, eines der
Telefone 5 oder eines der digitalen Diktiergeräte 6 gesprochenen
Sprachinformation SI auf, weshalb die der Transformationsmatrixerzeugungsvorrichtung 1 zugeführte Sprachinformation
SI durch den jeweils verwendeten Empfangskanal 2, 4 oder 6 gefärbt ist.
-
Die
Färbung
der Sprachinformation SI durch den jeweiligen Empfangskanal 2, 4 oder 6 wird
dadurch bewirkt, dass Frequenzen der Sprachinformation SI über den
ersten Empfangskanal 2 bis zu 8 kHz, über den zweiten Empfangskanal 4 bis
zu 3,7 kHz und über
den dritten Empfangskanal 6 bis zu 4 kHz übertragen
werden und höherfrequente
Anteile der Sprachinformation SI nicht übertragen werden. Zusätzlich wird
die Sprachinformation SI durch den jeweiligen Empfangskanal 2, 4 oder 6 gefärbt, da
einzelne Frequenzanteile der übertragenen
Sprachinformation SI durch den jeweiligen Empfangskanal unterschiedlich
stark gedämpft
werden.
-
Die
mit der Transformationsmatrixerzeugungsvorrichtung 1 erzeugte
erste Referenzinformation RI1 des ersten typischen Empfangskanals 2 und die
ermittelten Transformationsmatrizen T1-2, T1-3 und T2-3 sind ein
Teil einer Spracherkennungssoftware, die ein zweites Computerprogrammprodukt
bildet und die von einem in einer 2 dargestellten Computer
abgearbeitet wird. Wenn der Computer die Spracherkennungssoftware
abarbeitet, dann bildet der Computer eine Spracherkennungsvorrichtung 8 und
arbeitet entsprechend einem Spracherkennungsverfahren zum Erkennen
einer Textinformation TI, die einer der Spracherkennungsvorrichtung 8 zugeführten Sprachinformation
SI zuzuordnenden ist. Hierbei wird von der Spracherkennungsvorrichtung 8 die
erste, zweite oder dritte Referenzinformation RI ausgewertet.
-
Die
in der von einem Benutzer gesprochenen Sprachinformation SI enthaltene
akustische Information ist mit ca. 40 Phonemen beschreibbar, wie
dies seit langem bekannt ist. Die Spracherkennungsvorrichtung 8 erkennt
die einer empfangenen Sprachinformation SI zuzuordnende Textinformation
TI unter anderem dadurch, dass ermittelt wird, welche der 40 Phoneme
in welcher Reihenfolge in der Sprachinformation SI enthalten sind.
Die akustische Information jedes in der Sprachinformation SI enthaltenen
Phonems wird aber von dem durch den Benutzer zur Eingabe der Sprachinformation
SI gewählten
Eingabegerät
bzw. Empfangskanal 2, 4 oder 6 gefärbt. Um eine
hohe Erkennungsrate der Spracherkennungsvorrichtung 8 zu
erhalten ist es nötig,
dass die Spracherkennungsvorrichtung 8 bei der Abarbeitung
des Spracherkennungsverfahrens die jeweilige für den von dem Benutzer gewählten Empfangskanal 2, 4 oder 6 ermittelte
erste, zweite oder dritte Referenzinformation RI auswertet, um der
Färbung
der Sprachinformation SI durch den jeweiligen Empfangskanal 2, 4 oder 6 entsprechend
Rechnung zu tragen.
-
Jeder
Benutzer spricht ein Wort und dessen Phoneme etwas unterschiedlich
aus, weshalb die akustische Information jedes in der Sprachinformation
SI enthaltenen Phonems auch von dem tatsächlichen Benutzer der Spracherkennungsvorrichtung 8 abhängig ist.
Die erste, zweite oder dritte Referenzinformation RI wird daher
zur Erreichung einer besonders hohen Erkennungsrate der Spracherkennungsvorrichtung 8 durch
Benutzeranpassungsmittel auch an den jeweiligen Benutzer angepasst,
worauf nachfolgend näher
eingegangen.
-
Die
Transformationsmatrixerzeugungsvorrichtung 1 weist einen
ersten Audioanschluss 9, einen zweiten Audioanschluss 10 und
einen dritten Audioanschluss 11 auf. Dem ersten Audioanschluss 9 und
dem zweiten Audioanschluss 10 der Transformationsmatrixerzeugungsvorrichtung 1 kann ein
analoges Audiosignal AS zugeführt
werden, das eine Sprachinformation SI enthält. Dem dritten Audioanschluss 11 der
Transformationsmatrixerzeugungsvorrichtung 1 können digitale
Audiodaten AD zugeführt
werden, die ebenfalls in einer Sprachinformation SI enthalten sind.
-
Die
Transformationsmatrixerzeugungsvorrichtung 1 weist einen
ersten A/D-Umsetzer 12 und einen
zweiten A/D-Umsetzer 13 auf, um an den ersten Audioanschluss 9 und
den zweiten Audioanschluss 10 abgegebene Audiosignale AS
zu digitalisieren. Die in dem analogen Audiosignal AS enthaltene
Sprachinformation SI ist von dem ersten A/D-Umsetzer 12 und von dem zweiten
A/D-Umsetzer 13 als digitale Audiodaten AD abgebbar.
-
Die
Transformationsmatrixerzeugungsvorrichtung 1 weist ferner
Analysemittel 14 auf, denen von dem ersten A/D-Umsetzer 12 und
von dem zweiten A/D-Umsetzer 13 abgegebene Audiodaten AD und
von dem dritten Audioanschluss 11 abgegebene Audiodaten
AD zugeführt
werden können.
Die Analysemittel 14 werden zum Analysieren der in den
zugeführten
Audiodaten AD enthaltenen Sprachinformation SI und zum Ermitteln
der die Färbung
jedes der 40 Phoneme durch den jeweiligen Empfangskanal 2, 4, oder 6 kennzeichnenden
Referenzinformation RI benutzt.
-
Hierfür ermitteln
die Analysemittel 14 alle 10 Millisekunden einen 32 Komponenten
aufweisenden Featurevektor. 16 der 32 Komponenten des Featurevektores
beschreiben die Amplitudenwerte der Sprachinformation SI in 16 Frequenzteilbereichen
des gesamten von dem jeweiligen Empfangskanal übertragenen Frequenzbereichs.
Die restlichen 16 der 32 Komponenten des Featurevektores beschreiben
die zeitliche Änderung
der 16 Amplitudenwerte. Jedes der 40 Phoneme kann durch einen solchen
32 Komponenten aufweisenden Featurevektor beschrieben werden. Um
den Unterschieden der akustischen Information eines Phonems in unterschiedlichen
Umgebungen (benachbarte Phoneme) Rechnung zu tragen, wird jedes
der 40 Phoneme durch 400 typische Muster des 32 Komponenten aufweisenden
Featurevektors des Phonems beschrieben.
-
Von
den Analysemitteln 14 werden somit als Ergebnis der Analyse
einer großen
Anzahl von der Transformationsmatrixerzeugungsvorrichtung 1 über den
ersten Empfangskanal 2 zugeführten Audiodaten AD für jedes
der 40 Phoneme 400 typische Muster der 32 Komponenten aufweisenden
Featurevektoren als erste Referenzinformation RI1 ermittelt. Es werden
somit von den Analysemitteln 14 insgesamt 400 × 32 × 40 = 512.000
Zahlenwerte als erste Referenzinformation RI1 zur Kennzeichnung
der durch den ersten Empfangskanal 2 gefärbten 40
Phoneme ermittelt. Ebenso viele Zahlenwerte werden von den Analysemitteln 14 auch
als zweite Referenzinformation RI2 zur Kennzeichnung der durch den
zweiten Empfangskanal 4 gefärbten 40 Phoneme und als dritte
Referenzinformation RI3 zur Kennzeichnung der durch den dritten
Empfangskanal 6 gefärbten
40 Phoneme ermittelt.
-
Von
der Transformationsmatrixerzeugungsvorrichtung 1 werden
Referenzinformationen RI ermittelt, die weitgehend von der Art der
Aussprache von Wörtern
durch einzelne Sprecher unabhängig sind
und auch als sprecherunabhängige
Referenzinformationen RI bezeichnet werden. Hierfür sprechen bei
dem Referenzermittlungsverfahren eine Vielzahl von Benutzern einen
vorgegebenen Text in die Eingabegeräte 3, 5 und 7,
um die Unterschiede der einzelnen Sprecher statistisch zu mitteln,
wie dies allgemein bekannt ist. Hierauf wird anhand eines Anwendungsbeispiels
der Transformationsmatrixerzeugungsvorrichtung 1 nachfolgend
näher eingegangen.
-
Die
Transformationsmatrixerzeugungsvorrichtung 1 weist ferner
erste Referenzspeichermittel 15 zum Speichern der ersten
Referenzinformation RI1, zweite Referenzspeichermittel 16 zum
Speichern der zweiten Referenzinformation RI2 und dritte Referenzspeichermittel 17 zum
Speichern der dritten Referenzinformation RI3 auf. Die Transforma tionsmatrixerzeugungsvorrichtung 1 weist
nunmehr weiterhin Transformationsmatrixerzeugungsmittel 18 auf,
die zum Auslesen der in den Referenzspeichermitteln 15, 16 und 17 gespeicherten
Referenzinformationen RI und zum Vergleichen der 32 komponentigen
Featurevektoren benutzt werden. Als Ergebnis des Vergleichs der
Transformationsmatrixerzeugungsmittel 18 sind von den Transformationsmatrixerzeugungsmitteln 18 die
Transformationsmatrizen T1-2, T1-3 und T2-3 ermittelbar, die 32
Reihen und 32 Spalten zur Abbildung der 32 komponentigen Featurevektoren
aufweisen.
-
Die
von den Transformationsmatrixerzeugungsmitteln 18 ermittelten
Transformationsmatrizen T1-2, T1-3 und T2-3 haben die Eigenschaft,
dass aus einer in den Referenzspeichermitteln 15, 16 und 17 gespeicherten
Referenzinformation RI1, RI2 und RI3 mit zwei dieser drei Transformationsmatrizen
T1-2, T1-3 und T2-3 jeweils die anderen beiden in den Referenzspeichermitteln
gespeicherte Referenzinformationen RI1, RI2 und RI3 ermittelt werden
können. Hierbei
kann beispielsweise durch Anwendung der Transformationsmatrix T1-2
auf die in den ersten Referenzspeichermitteln 15 gespeicherte
erste Referenzinformation RI1 die in den zweiten Referenzspeichermitteln 16 gespeicherte
zweite Referenzinformation RI2 berechnet werden. Für den Fachmann
ist durch diese Beschreibung der Eigenschaft der Transformationsmatrix
T1-2 die Ermittlung der Transformationsmatrix T1-2 durch die Transformationsmatrixerzeugungsmittel 18 ausreichend
beschrieben. Die von den Transformationsmatrixerzeugungsmitteln 18 ermittelten
Transformationsmatrizen T1-2, T1-3 und T2-3 können in Referenztransformationsmitteln 19 der
Transformationsmatrixerzeugungsvorrichtung 1 gespeichert
werden.
-
Im
Folgenden ist anhand eines Anwendungsbeispiels der Transformationsmatrixerzeugungsvorrichtung 1 gemäß 1 die
Erzeugung der Transformationsmatrizen T1-2, T1-3 und T2-3 näher erläutert. Das
Referenzermittlungsverfahren wird mit dem Computer einer Firma abgearbeitet,
die die Spracherkennungssoftware für die Spracherkennungsvorrichtung 8 entwickelt.
Die Firma möchte
Referenzinformationen RI ermitteln, die bereits an typische Eingabegeräte für die Spracherkennungsvorrichtung 8,
also an Mikrofone 3, an Telefone 5 und an digitale
Diktiergeräte 7,
angepasst sind. Ferner sollen die Referenzinformationen RI und die
Transformationsmatrizen T1-2, T1-3 und T2-3 für die deutsche Sprache ermittelt
werden.
-
Hierfür lädt die Firma
innerhalb mehrerer Wochen insgesamt 100 deutschsprachige Sprecher ein,
die während
einer Stunde einen Text vorlesen und auch als so genannte Referenzsprecher
bezeichnet werden. Die hierbei von den ersten zehn Sprechern abgegebene
Sprachinformation SI wird dem Mikrofon 3-1, dem Telefon 5-1 und
dem digitalen Diktiergerät 7-1 zugeführt, die
von den nächsten zehn
Sprechern abgegebene Sprachinformation SI wird dem Mikrofon 3-2,
dem Telefon 5-2 und dem digitalen Diktiergerät 7-2 zugeführt und
die von den jeweils weiteren zehn Sprechern abgegebene Sprachinformation
SI wird jeweils den weiteren Mikrofonen 3-3 bis 3-10,
den jeweils weiteren Telefonen 5-3 bis 5-10 und
den jeweils weiteren digitalen Diktiergeräten 7-3 bis 7-10 zugeführt.
-
Da
jedes dieser zehn Eingabegeräte
der Empfangskanäle 2, 4 und 6 eine
etwas unterschiedliche Übertragungseigenschaft
besitzt, werden den Analysemitteln 14 Audiodaten AD zugeführt, die
für die
Empfangskanäle 2, 4 und 6 typisch
sind. Hierdurch erhält
man den Vorteil, dass von der Transformationsmatrixerzeugungsvorrichtung 1 für typische
Eingabegeräte
Referenzinformationen RI ermittelbar sind. Durch die große Anzahl
an Sprechern und die große
Datenmenge in den den Analysemitteln 14 zugeführten Audiodaten
AD ermitteln die Analysemitteln 14 an den jeweiligen Empfangskanal 2, 4 oder 6 angepasste
sprecherunabhängige Referenzinformationen
RI1, RI2 und RI3.
-
Hierfür ermitteln
die Analysemittel 14, wie vorstehend beschrieben, den zeitlichen
Verlauf des 32 komponentigen Featurevektores für die von den unterschiedlichen
Empfangskanälen 2, 4 und 6 zugeführten Audiodaten
AD. Hierbei legen die Analysemittel 14 die 16 Frequenzteilbereiche
des Featurevektores für
die Empfangskanäle 2, 4 und 6 so
fest, dass der in dem jeweiligen Empfangskanal übertragene Frequenzbereich
durch den Featurevektor optimal beschrieben wird. So wird beispielsweise
der in dem ersten Empfangskanal 2 von bis zu 8 kHz übertragene
Frequenzbereich durch 8.000 Hz/16 = 500 Hz Frequenzteilbereiche
(0 bis 500 Hz, 500 Hz bis 1.000 Hz ... 7.500 Hz bis 8.000 Hz) beschrieben
und der in dem dritten Empfangskanal 6 von bis zu 4 kHz übertragene
Frequenzbereich durch 4.000 Hz/16 = 250 Hz Frequenzteilbereiche
(0 bis 250 Hz, 250 Hz bis 500 Hz ... 3.750 Hz bis 4.000 Hz) beschrieben.
-
Hierdurch
erhält
man den Vorteil, dass jeder der 32 komponentige Featurevektoren
einen Frequenzteilbereich beschreibt, in dem tatsächlich Audiodaten
AD von dem jeweiligen Empfangskanal 2, 4 oder 6 empfangenen
werden. Es wird somit vorteilhafterweise vermieden, dass beispielsweise über den
dritten Empfangskanal 6 empfangene Audiodaten AD, die Sprachinformation
SI in dem Frequenzbereich bis 4 kHz enthalten, durch 8 Komponenten des
Featurevektors in Frequenzteilbereichen von 4 kHz bis 8 kHz beschrieben
werden, in denen überhaupt
keine Sprachinformation SI enthalten ist.
-
Die
von den Analysemitteln 14 für die drei Empfangskanäle 2, 4 und 6 er mittelten
Referenzinformationen RI1, RI2 und RI3 werden in den Referenzspeichermitteln 15, 16 und 17 gespeichert.
Die Transformationsmatrixerzeugungsmittel 18 berechnen
hierauf die Transformationsmatrizen T1-2, T1-3 und T2-3, wie dies
vorstehend beschrieben wurde. Zusätzlich sei erwähnt, dass
mehrere Komponenten des Featurevektors eines Phonems einer der Referenzinformationen
RI1, RI2 und RI3 bei der Transformation mit einer der Transformationsmatrizen
T1-2, T1-3 und T2-3 das Ergebnis einer Komponente der Featurevektoren
dieses Phonems der transformierten Referenzinformation RI1, RI2
und RI3 beeinflussen, weshalb die Transformationsmatrizen T1-2, T1-3
und T2-3 auch außerhalb
der Diagonale der Transformationsmatrizen T1-2, T1-3 und T2-3 Zahlenwerte
enthalten. So beeinflussen beispielsweise die beiden den Frequenzteilbereich
von 0 bis 250 Hz und von 250 Hz bis 500 Hz beschreibenden Komponenten
der 400 Muster der Featurevektoren eines Phonems der dritten Referenzinformation
RI3 bei der Transformation mit der Transformationsmatrix T1-3 die
den Frequenzteilbereich 0 Hz bis 500 Hz beschreibende Komponente
des Featurevektors dieses Phonems der ersten Referenzinformation
RI1.
-
Durch
die Ermittlung der 32 Zeilen und 32 Spalten – also insgesamt je 1024 Zahlenwerte – aufweisenden
Transformationsmatrizen T1-2, T1-3 und T2-3 erhält man den Vorteil, dass in
der Spracherkennungssoftware nur die 512.000 Zahlenwerte aufweisende
Referenzinformation RI eines Empfangskanals und die nur je 1024
Zahlenwerte aufweisenden Transformationsmatrizen T1-2, T1-3 und
T2-3 gespeichert werden müssen,
um Referenzinformationen RI für
jeden der drei Empfangskanäle 2, 4 und 6 für die Abarbeitung
des Spracherkennungsverfahrens durch die Spracherkennungsvorrichtung 8 zur Verfügung zu
haben. Die Spracherkennungssoftware benötigt daher vorteilhafterweise
relativ wenig Speicherplatz des Computers.
-
Zusätzlich kann
mit den Transformationsmatrizen T1-2, T1-3 und T2-3 auch die bereits
an einen Benutzer der Spracherkennungsvorrichtung 8 angepasste
Referenzinformation RI eines Empfangskanals 2, 4 oder 6 unmittelbar
für einen
der anderen Empfangskanäle 2, 4 oder 6 nutzbar
gemacht werden, was sehr vorteilhaft ist. Hierauf wird bei der nachfolgenden
Beschreibung der Spracherkennungsvorrichtung 8 näher eingegangen.
-
Es
kann erwähnt
werden, dass Analysemittel einer Matrixerzeugnisvorrichtung auch
nur die Referenzinformation RI1 für den ersten Empfangskanal 2 ermitteln
und in den ersten Referenzspeichermitteln 15 speichern
könnten.
Diese Analysemittel könnten dann
unmittelbar die Audiodaten AD von gleichen Textteilen, die aber über unterschiedliche
Empfangskanäle
empfangen wurden, vergleichen, um eine nur geringe Anzahl an Refe renzinformationen
RI abzugeben, die ausschließlich
Unterschiede zu der gespeicherten ersten Referenzinformation RI1
kennzeichnen. Transformationsmatrixerzeugungsmittel dieser Transformationsmatrixerzeugungsvorrichtung könnten aus
diesen Referenzinformationen RI unmittelbar entsprechende Transformationsmatrizen
T1-2, T1-3 und T2-3 ermitteln. Dies hätte den Vorteil, dass auf das
Ermitteln der gesamten 512.000 Zahlenwerte der zweiten Referenzinformation
RI2 und das Ermitteln der gesamten 512.000 Zahlenwerte der dritten Referenzinformation
RI3 verzichtet werden könnte.
-
Es
kann erwähnt
werden, dass auch eine andere Anzahl an Komponenten eines Featurevektors von
den Analysemitteln 14 zur Beschreibung der in den Audiodaten
AD enthaltenen Phoneme der Sprachinformation SI festgelegt werden
kann. So könnte die
Sprachinformation SI in dem über
den jeweiligen Empfangskanal 2, 4 oder 6 übertragenen
Frequenzbereich auch nur in 8 oder aber auch in 64 Frequenzteilbereiche
aufgeteilt durch eine oder zwei Komponenten des Featurevektors je
Frequenzteilbereich beschrieben werden.
-
Es
kann erwähnt
werden, dass der in einem Empfangskanal übertragene Frequenzbereich
nicht wie vorstehend beschrieben gleichmäßig in Frequenzteilbereiche
aufgeteilt werden muss. Es ist vorteilhaft für Frequenzteilbereiche mit
niedrigeren Centerfrequenzen des Frequenzteilbereichs eine kleinere
Frequenzspanne vorzusehen, da auch das menschliche Gehör für niedrigere
Frequenzen empfindlicher ist. So könnten beispielsweise folgende Mittenfrequenzen
für Frequenzteilbereiche
nach folgender Vorschrift festgelegt werden: Mittenfrequenz des
nächsten
Frequenzteilbereichs = Mittenfrequenz des Frequenzteilbereichs × 1,5. Beispielsweise
wären daher
folgende Mittenfrequenzen beginnend mit einer Mittenfrequenz von
100 Hz zu ermitteln: 100 Hz, 150 Hz, 225 Hz, 338 Hz, 506 Hz ...
(erster Frequenzteilbereich: 75 Hz bis 125 Hz = 50 Hz Frequenzspanne;
vierte Frequenzteilbereich: 282 Hz bis 422 Hz = 140 Hz Frequenzspanne).
-
Im
Folgenden wird nunmehr der Aufbau und die Funktionsweise der Spracherkennungsvorrichtung 8 näher erläutert. Der
Spracherkennungsvorrichtung 8 kann über ein Mikrofon 20,
das einen ersten Empfangskanal 21 bildet, eine von einem
Benutzer gesprochene Sprachinformation SI an einem ersten Audioanschluss 22 zugeführt werden.
Ferner kann der Spracherkennungsvorrichtung 8 an einem zweiten
Audioanschluss 23 eine Sprachinformation SI zugeführt werden,
die ein Benutzer in ein Telefon 24 gesprochen hat, das
samt den Telefonleitungen des Telefonnetzes bis zu dem zweiten Audioanschluss 23 einen
zweiten Empfangskanal 25 bildet. Schließlich kann der Spracherkennungsvorrichtung 8 an
einem dritten Audioanschluss 26 die Sprachinformation SI
eines Benutzers zugeführt
werden, die der Benutzer in ein digitales Diktiergerät 27 gesprochen und
mit diesem aufgezeichnet hat. Die Färbung der Sprachinformation
SI bei der Aufzeichnung und anschließenden Wiedergabe durch das
digitale Diktiergerät 27 bildet
hierbei die Übertragungseigenschaft eines
dritten Empfangskanals 28.
-
Die
Spracherkennungsvorrichtung 8 weist Spracherkennungsmittel 29 auf,
die Analysemittel 30 und Erkennermittel 31 enthalten.
Die Spracherkennungsmittel 29 sind zum Erkennen einer der
zugeführten
Sprachinformation SI zuzuordnenden Textinformation TI ausgebildet.
Die von den Spracherkennungsmitteln 29 ermittelte Textinformation
TI ist über einen
Monitoranschluss 32 an einen Monitor 33 abgebbar
und mit diesem darstellbar.
-
Eine
der Spracherkennungsvorrichtung 8 als Audiosignal AS an
dem ersten Audioanschluss 22 zugeführte Sprachinformation SI ist über einen
ersten A/D-Umsetzer 34 den Analysemitteln 30 als
digitale Audiodaten AD zuführbar.
Ebenso ist die der Spracherkennungsvorrichtung 8 als Audiosignal
AS an dem zweiten Audioanschluss 23 zugeführte Sprachinformation
SI über
einen zweiten A/D-Umsetzer 35 den Analysemitteln 30 als
digitale Audiodaten AD zuführbar.
Ferner sind den Analysemitteln 30 die der Spracherkennungsvorrichtung 8 an
dem dritten Audioanschluss 26 zugeführten Audiodaten AD unmittelbar
zuführbar.
-
Die
Analysemittel 30 sind nunmehr zum Detektieren ausgebildet,
von welchem der drei Audioanschlüsse 22, 23 oder 26 die
Sprachinformation SI empfangen wird und bilden hierbei Kanaldetektionsmittel.
Von den Analysemitteln 30 kann eine Kanaldetektionsinformation
KDI erzeugt werden, die kennzeichnet, ob der Benutzer die Sprachinformation
SI über
das Mikrofon 20, das Telefon 24 oder das digitale
Diktiergerät 27 an
die Spracherkennungsvorrichtung 8 abgegeben hat.
-
Hierdurch
erhält
man den Vorteil, dass die Spracherkennungsvorrichtung 8,
die jeweils für
den von dem Benutzer gewählten
Empfangskanal 21, 25 oder 28 geeignete
Referenzinformation RI bei der Abarbeitung des Spracherkennungsverfahrens
verwendet. Hierauf wird anhand eines Anwendungsbeispiels der Spracherkennungsvorrichtung 8 nachfolgend
noch näher
eingegangen.
-
Die
Analysemittel 30 sind ferner, wie die vorstehend beschriebenen
Analysemittel 14 der Transformationsmatrixerzeugungsvorrichtung 1,
zum Analysieren der an sie abgegebenen Audiodaten AD und alle 10
Millisekunden zum Abgeben eines 32 Komponenten aufweisenden Featurevektors
FV ausgebildet, der die in diesen Audiodaten AD ent haltene Sprachinformation
SI beschreibt. Vorteilhafterweise legen die Analysemittel 30 die
16 Frequenzteilbereiche des Featurevektors FV in Abhängigkeit
von der ermittelten Kanalidentifikationsinformation KDI fest. Es
werden also beispielsweise für über den
dritten Empfangskanal 28 empfangene Audiodaten AD 32 Komponenten
des Featurevektors aus 16 Frequenzteilbereichen mit einem Frequenzbereich
von je 250 Hz festgelegt, wie dies vorstehend beschrieben wurde.
Der von den Analysemitteln 30 ermittelte Featurevektor
FV kann den Erkennermittel 31 zugeführt werden.
-
Die
Erkennermittel 31 sind zum Abarbeiten eines Spracherkennungsverfahrens
ausgebildet, wie dies beispielsweise aus dem Dokument WO99/35640
bekannt ist. Bei der Abarbeitung des Spracherkennungsverfahrens
werden in Referenzspeichermitteln der Spracherkennungsvorrichtung 8 gespeicherte
an den tatsächlichen
Benutzer und den tatsächlich
verwendeten Empfangskanal 21, 25 oder 28 angepasste
Referenzinformationen RI von den Erkennermitteln 31 ausgewertet.
Die an typische Empfangskanäle
angepasste gespeicherte Referenzinformationen werden bei der Abarbeitung
eines Trainingsverfahrens durch die Spracherkennungsvorrichtung 8 an
den tatsächlichen
Benutzer der Spracherkennungsvorrichtung 8 angepasst.
-
Zum
Anpassen der mit der Transformationsmatrixerzeugungsvorrichtung 1 ermittelten
und in Referenzspeichermitteln 36 gespeicherten ersten
Referenzinformation RI1 des ersten typischen Empfangskanals 2 weist
die Spracherkennungsvorrichtung 8 Benutzeranpassungsmittel 37 auf.
Die Benutzeranpassungsmittel 37 enthalten die mit der Transformationsmatrixerzeugungsvorrichtung 1 erzeugte
erste Transformationsmatrix T1-2,
zum Transformieren der ersten Referenzinformationen RI1 in die zweite
Referenzinformation RI2, und die zweite Transformationsmatrix T1-3,
zum Transformieren der ersten Referenzinformation RI1 in die dritte
Referenzinformation RI3.
-
Einem
ersten Schalter 38 können
die erste Referenzinformation RI1 von den Referenzspeichermitteln 36,
die mit der ersten Transformationsmatrix T1-2 ermittelte zweite
Referenzinformation RI2 und die mit der zweiten Transformationsmatrix
T1-3 ermittelte dritte Referenzinformation RI3 zugeführt werden.
Dem ersten Schalter 38 ist ferner von den Analysemitteln 30 die
Kanaldetektionsinformation KDI zuführbar. Von dem ersten Schalter 38 ist
je nach zugeführter
Kanaldetektionsinformation KDI eine der drei Referenzinformation
RI1, RI2 oder RI3 an Vergleichsmittel 39 der Benutzeranpassungsmittel 37 abgebbar.
Die Analysemittel 30 und der erste Schalter 38 bilden
hierbei Empfangskanalanpassungsmittel zum Anpassen der gespeicherten
Referenzinformation RI an den von dem Benutzer gewählten Empfangskanal 21, 25 oder 28.
-
Den
Vergleichsmitteln 39 ist von den Analysemitteln 30 alle
10 Millisekunden der Featurevektor FV der Audiodaten AD zuführbar, die
bei der Abarbeitung des Trainingsverfahrens der Spracherkennungsvorrichtung 8 zugeführt und
mit den Analysemitteln 30 analysiert wurden. Die Vergleichsmittel 39 sind
bei der Abarbeitung des Trainingsverfahrens zum Vergleichen der
ihr zugeführten
Featurevektoren FV einzelner Phoneme mit den 400 typischen Mustern
der Featurevektoren von Phonemen der ihr zugeführten Referenzinformation RI
ausgebildet. Ergebnisse des Vergleichs der Featurevektoren FV werden
zum Anpassen der Referenzinformation RI an die jeweilige Eigenart
der Aussprache des tatsächlichen
Benutzers der Spracherkennungsvorrichtung 8 ausgewertet.
-
Die
von den Benutzeranpassungsmitteln 37 an den Benutzer angepasste
Referenzinformation ARI ist je nach dem für die Anpassung der Referenzinformation
RI an den Benutzer von dem Benutzer gewählten Empfangskanal 21, 25 oder 28 über einen zweiten
Schalter 40 in ersten angepassten Referenzspeichermitteln 41,
zweiten angepassten Referenzspeichermitteln 42 oder dritten
angepassten Referenzspeichermitteln 43 speicherbar. Die
angepassten Referenzspeichermittel 41, 42 und 43 bilden
hierbei Referenzspeichermittel zum Speichern der an den tatsächlichen
Benutzer der Spracherkennungsvorrichtung 8 und an je einen
der Empfangskanäle 21, 25 und 28 angepassten
Referenzinformation ARI. Zur Weiterleitung der an den Benutzer und
an einen der Empfangskanäle 21, 25 und 28 angepassten
Referenzinformation ARI an die jeweils richtigen angepassten Referenzspeichermittel 41, 42 oder 43 ist dem
zweiten Schalter 40 die Kanalidentifikationsinformation
KDI von den Analysemitteln 30 zuführbar.
-
Die
bei der Abarbeitung des Trainingsverfahrens für einen der Empfangskanäle 21, 25 oder 28 und
den Benutzer angepasste und in einem der angepassten Referenzspeichermittel 41, 42 oder 43 gespeicherte
angepasste Referenzinformation ARI1, ARI2 oder ARI3 ist mittels
der mit der Transformationsmatrixerzeugungsvorrichtung 1 erzeugten
Transformationsmatrizen T1-2, T1-3 und T2-3 in die jeweils anderen
an den Benutzer angepassten Referenzinformationen ARI1, ARI2 oder
ARI3 transformierbar und in den anderen angepassten Referenzspeichermitteln 41, 42 oder 43 speicherbar.
Die Transformationsmatrizen T1-2, T1-3 und T2-3 bilden hierbei Referenztransformationsmittel
zum Transformieren der angepassten Referenzinformation ARI.
-
Die
Spracherkennungsvorrichtung 8 weist einen dritten Schalter 44 auf,
dem ebenfalls die Kanaldetektionsinformation KDI zuführbar ist,
und über den
bei der Abarbei tung des Spracherkennungsverfahrens durch die Erkennermittel 31 die
an den Benutzer und an den von dem Benutzer verwendeten Empfangskanal 21, 25 oder 28 angepasste
Referenzinformation ARI an die Erkennermittel 31 abgebbar
ist. Die Analysemittel 30 und der dritte Schalter 44 bilden
hierbei Empfangskanalanpassungsmittel zum Anpassen der gespeicherten
Referenzinformation ARI an den von dem Benutzer gewählten Empfangskanal 21, 25 oder 28.
-
Im
Folgenden wird anhand eines Anwendungsbeispiels der Abarbeitung
des Trainingsverfahrens mit der Spracherkennungsvorrichtung 8 das
Anpassen der mit der Transformationsmatrixerzeugungsvorrichtung 1 ermittelten
sprecherunabhängigen
Referenzinformation RI an den tatsächlichen Benutzer der Spracherkennungsvorrichtung 8 angepasste
Referenzinformation ARI näher
erläutert.
Gemäß dem Anwendungsbeispiel
wird angenommen, dass Herr Müller
die Spracherkennungsvorrichtung 8 erstmals zum Diktieren
von Texten verwenden möchte.
Um die Erkennungsrate der Spracherkennungsvorrichtung 8 zu
verbessern, wird in dem Handbuch der Spracherkennungsvorrichtung 8 geraten,
die Spracherkennungsvorrichtung 8 an den Benutzer anzupassen.
-
Herr
Müller
aktiviert hierauf das Trainingsverfahren der Spracherkennungsvorrichtung 8 und spricht
einen in dem Handbuch vorgegebenen Trainingstext, der ebenfalls
in den Vergleichsmitteln 39 gespeichert ist, in das Mikrofon 20.
Die Sprachinformation SI des gesprochenen Trainingstexts gelangt über den
ersten Audioanschluss 22 und den ersten A/D-Umsetzer 34 in
die Analysemittel 30, welche entsprechende Featurevektoren
FV an die Vergleichsmittel 39 abgeben. Die Analysemittel 30 geben
ferner die den ersten Empfangskanal 21 kennzeichnende Kanaldetektionsinformation
KDI an den ersten Schalter 38 ab, worauf der erste Schalter 38 die
Vergleichsmittel 39 mit den ersten Referenzspeichermitteln 36 verbindet.
-
In
den ersten Referenzspeichermitteln 36 ist die von den Transformationsmatrixerzeugungsmitteln 1 für einen
typischen Mikrofon-Empfangskanal – also den ersten Empfangskanal 2 – angepasste
erste Referenzinformation RI1 gespeichert. Die Vergleichsmittel 39 ermitteln
anhand der von den Analysemittel 30 ermittelten Featurevektoren
FV und dem den Vergleichsmitteln 39 bekannten Trainingstext, die
Art der Aussprache jedes Phonems durch Herrn Müller und passen die erste Referenzinformation
RI1 entsprechend an Herrn Müller
an. Die von den Vergleichsmitteln 39 ermittelte an Herrn
Müller
und den ersten Empfangskanal 21 angepasste erste angepasste
Referenzinformation ARI1 wird hierauf über den zweiten Schalter 40 in
den ersten angepassten Referenzspeichermit teln 41 gespeichert.
-
Als
Abschluss des Trainingsverfahrens wird die erste angepasste Referenzinformation
ARI1 mit der ersten Transformationsmatrix T1-2 in die an den zweiten
Empfangskanal 25 und Herrn Müller angepasste zweite angepasste
Referenzinformation ARI2 transformiert und in den zweiten angepassten
Referenzspeichermitteln 42 gespeichert. Ebenso wird mittels
der zweiten Transformationsmatrix T1-3 die an den dritten Empfangskanal 28 und
Herrn Müller
angepasste dritte angepasste Referenzinformation ARI3 ermittelt
und in den dritten angepassten Referenzspeichermitteln 43 gespeichert.
-
Durch
das vorstehend beschriebene Trainingsverfahren erhält man den
Vorteil, dass der Benutzer der Spracherkennungsvorrichtung 8 die
Spracherkennungsvorrichtung 8 über einen der möglichen
Empfangskanäle 21, 25 oder 28 an
die Aussprache des Benutzers anpassen kann und hierbei auch die
Referenzinformationen RI für
die anderen Empfangskanäle 21, 25 oder 28 automatisch
angepasst werden und auch für
diese Empfangskanäle eine
gute Erkennungsrate des Spracherkennungsverfahrens erzielt wird.
-
Es
kann erwähnt
werden, dass Herr Müller das
Trainingsverfahren auch von einem anderen Ort aus mit dem Telefon 24 hätte durchführen können. In diesem
Fall wären
die von der ersten Referenzinformation RI1 mittels der ersten Transformationsmatrix T1-2
transformierte zweite Referenzinformation RI2 von den Vergleichsmitteln 39 angepasst
und als angepasste zweite Referenzinformation ARI2 in den zweiten
angepassten Referenzspeichermitteln 42 gespeichert worden.
Die mit der ersten Transformationsmatrix T1-2 transformierte erste
angepasste Referenzinformation ARI1 wäre hierauf in den ersten angepassten
Referenzspeichermitteln 41 und die mit der dritten Transformationsmatrix
T2-3 transformierte dritte angepasste Referenzinformation ARI3 wäre hierauf
in den dritten angepassten Referenzspeichermitteln 43 gespeichert
worden.
-
Hieraus
ist der Vorteil ersichtlich, dass die Spracherkennungsvorrichtung 8 über einen
beliebigen der Empfangskanäle 21, 25 und 28 trainiert
und hierbei für
sämtliche
der Empfangskanäle
an den Benutzer angepasst werden kann.
-
Im
Folgenden werden anhand eines Anwendungsbeispiels der Abarbeitung
des Spracherkennungsverfahrens mit der Spracherkennungsvorrichtung 8 die
Vorteile der Spracherkennungsvorrichtung 8 näher erläutert. Gemäß dem Anwendungsbeispiel wird
angenommen, dass Herr Müller
auf Reisen ein Diktat mit dem digitalen Diktiergerät 27 aufgezeichnet
hat. Wieder zu Hause angekommen steckt Herr Müller das Diktiergerät 27 an
den dritten Audioanschluss 26 an, betätigt die Wiedergabetaste des
Diktiergeräts 27 und aktiviert
das Spracherkennungsverfahren der Spracherkennungsvorrichtung 8.
-
Die
Analysemittel 30 geben hierauf entsprechende Featurevektoren
FV an die Erkennermittel 31 und eine den dritten Empfangskanal 28 kennzeichnende
Kanaldetektionsinformation KDI an den dritten Schalter 44 ab.
Der dritte Schalter 44 verbindet hierauf die dritten angepassten
Referenzspeichermittel 43 mit den Erkennermitteln 31.
Die Erkennermittel 31 werten somit bei der Abarbeitung
des Spracherkennungsverfahrens die an Herrn Müller und einen typischen Diktiergeräte-Empfangskanal
angepasste Referenzinformation ARI3 aus und geben eine der Sprachinformation
SI entsprechende Textinformation TI über den Monitoranschluss 32 an
den Monitor 33 ab.
-
Hierdurch
ist vorteilhafterweise erreicht, dass obwohl die Spracherkennungsvorrichtung 8 bei der
Abarbeitung des Trainingsverfahrens mit dem Mikrofon 20 an
Herrn Müller
angepasst wurde, die Erkennungsrate des Spracherkennungsverfahrens
bei einer mit dem Diktiergerät 27 von
Herrn Müller
eingegebenen Sprachinformation SI besonders hoch ist. Ebenso hat
das Spracherkennungsverfahren eine hohe Erkennungsrate für mit dem
Telefon 24 von Herrn Müller
an den Computer abgegebene Befehle.
-
Es
kann erwähnt
werden, dass vergleichbar hohe Erkennungsraten ebenso bei sämtlichen
anderen Kombinationen erreicht werden, wie beispielsweise, wenn
die Spracherkennungsvorrichtung 8 mit dem zweiten Empfangskanal 25 trainiert
wird und anschließend
zum Erkennen einer der über
den ersten Empfangskanal 21 empfangenen Sprachinformation SI
zuzuordnenden Textinformation TI verwendet wird. Besonders vorteilhaft
ist es jedoch die Spracherkennungsvorrichtung 8 mit dem
Mikrofon 20 zu trainieren, da mit den meisten Mikrofonen
die Sprachinformation SI in einem relativ großen Frequenzbereich (bis 8
kHz) übertragen
wird. Es wäre
somit auch möglich,
bei den Benutzeranpassungsmitteln 37 auf die erste Transformationsmatrix
T1-2 und die zweite Transformationsmatrix T1-3 zu verzichten und
bei der Abarbeitung des Trainingsverfahrens die Eingabe der Sprachinformation
SI des Trainingstextes durch den Benutzer über das Mikrofon 20 von
dem Benutzer zu verlangen. In diesem Fall könnte auch auf die dritte Transformationsmatrix
T2-3 zur Transformation der zweiten angepassten Referenzinformation
ARI2 in die dritte angepasste Referenzinformation ARI3 und umgekehrt
verzichtet werden.
-
Es
kann erwähnt
werden, dass von der Transformationsmatrixerzeugungsvorrichtung 1 auch Referenzinformationen
für einen
typischen Empfangskanal eines Mobiltelefons oder eines über ein digitales
oder ein analoges Telefonnetz mit dem zweiten Audioanschluss 10 verbundenen
Telefons 5 ermittelt werden könnten. Dem Fachmann ist eine Vielzahl
weiterer möglicher
typischer Empfangskanäle bekannt.
-
Es
kann erwähnt
werden, dass aus den Transformationsmatrizen T1-2, T1-3 und T2-3
auch inverse Transformationsmatrizen ermittelt werden könnten, mit
denen die an die Analysemittel 30 abgegebenen Audiodaten
AD vorverarbeitet werden könnten,
bevor diese von den Analysemitteln 30 wie vorstehend beschrieben
analysiert werden.
-
Es
kann erwähnt
werden, dass das Referenzermittlungsverfahren nicht unbedingt von
einem Computer des Herstellers der Spracherkennungssoftware abgearbeitet
werden muss, sondern auch Teil der Spracherkennungssoftware sein
und auf dem Computer des Benutzers der Spracherkennungsvorrichtung
abgearbeitet werden kann. Hierbei könnten bei der Abarbeitung des
Spracherkennungsverfahrens durch die Erkennermittel ermittelte Informationen über den
tatsächlich
verwendeten Empfangskanal zur Anpassung der Referenzinformation
und zur Ermittlung von Transformationsmatrizen oder inversen Transformationsmatrizen
verwendet werden.