DE10257475A1

DE10257475A1 - Computer-based method for determining the speech processing separation between similar sounding words using hidden Markov model distances

Info

Publication number: DE10257475A1
Application number: DE10257475A
Authority: DE
Inventors: Ralf Dr. Sambeth; Michael Dr. Küstner
Original assignee: Infineon Technologies AG
Current assignee: Infineon Technologies AG
Priority date: 2002-12-09
Filing date: 2002-12-09
Publication date: 2004-07-08

Abstract

Method for computer-based determination of the ease with which similar words can be differentiated in speech recognition technologies in which multiple realizations of different dictionary entries are generated and these are then used with dictionary entry generation models to determine a separation or difference between first and second dictionary entry generation models so that the separation between words can be characterized. Independent claims are also included for the following:- (a) a device for determination of the ease with which similar words can be differentiated in speech recognition technologies; (b) a speech recognition device; (c) a computer program storage medium and; (d) a computer program element for determining the separation or distance between similar sounding words.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag und einem zweiten Wörterbucheintrag, eine Sprachverarbeitungseinrichtung, ein Computerlesbares Speichermedium und ein Computerprogramm-Element.The invention relates to a method and a device for determining speech processing separability between a first dictionary entry and a second dictionary entry, a speech processing device, a computer-readable storage medium and a computer program element.

Im Rahmen einer Sprachapplikation, beispielsweise einer Spracherkennung oder einer Sprechererkennung, welche in einem Embedded System implementiert ist, tritt häufig das Problem auf, dass einander ähnlich klingende Worte mittels eines Spracherkenners oder eines Sprechererkenners nicht gut getrennt werden können und somit oftmals falsch klassifiziert werden.As part of a voice application, for example voice recognition or speaker recognition, which is implemented in an embedded system often occurs Problem on being similar to each other sounding words using a speech recognizer or a speaker recognizer cannot be separated well and thus often classified incorrectly.

Eine Ursache dafür ist in den Optimierungen der zur Spracherkennung oder Sprechererkennung erzeugten Daten zu sehen, welche erforderlich sind, da von der verwendeten Ziel-Hardware, auf der die Sprachapplikation implementiert wird, in Bezug auf Speichergröße und Rechenkapazität, welche zur Verfügung stehen, feste Grenzen gesetzt werden. Die Optimierungen betreffen insbesondere die Ausgestaltung des Codebuchs, im Folgenden auch als elektronisches Wörterbuch bezeichnet, mit den darin enthaltenen Wörterbucheinträgen und den zugehörigen Hidden Markov Modellen (HMMs), wobei jeweils ein Hidden Markov Modell einem Wörterbucheintrag zugeordnet ist. Das Codebuch sollte so klein wie möglich sein, um in den zur Verfügung stehenden Speicher zu passen und um mit der zur Verfügung stehenden Rechenkapazität verarbeitet werden zu können.One reason for this is in the optimizations the data generated for speech recognition or speaker recognition see which ones are required because of the target hardware used on the the speech application is implemented in terms of memory size and computing capacity, which to disposal standing, fixed limits. The optimizations concern in particular the design of the code book, also below as an electronic dictionary with the dictionary entries and the associated Hidden Markov Models (HMMs), each with a Hidden Markov Model a dictionary entry assigned. The code book should be as small as possible to be available in the existing memory and to match the available memory computing capacity to be processed.

Aus diesem Grund wird die Sprache in folgendem Sinn zumeist nicht mit ausreichender Qualität modelliert:
Obwohl es sinnvoll wäre, möglichst viele und möglichst detailreiche Hidden Markov Modelle zu verwenden, ist dies aus den oben genannten Gründen nicht möglich, so dass man verschiedene Verfahren zur Datenreduktion verwendet. Die Datenreduktion wiederum führt zu dem oben genannten Problem, dass ähnlich klingende Worte miteinander häufig verwechselt werden, d.h. die ähnlich klingenden Worte weisen im Rahmen der Sprachverarbeitung unter Umständen nur eine geringe Sprachverarbeitungs-Trennbarkeit auf.For this reason, the language is usually not modeled with sufficient quality in the following sense:
Although it would make sense to use as many and as detailed as possible Hidden Markov models, this is not possible for the reasons mentioned above, so that different methods for data reduction are used. The data reduction in turn leads to the above-mentioned problem that words with a similar sound are often confused with one another, ie the words with a similar sound may have only a limited ability to be separated in the context of speech processing.

Für ein gegebenes elektronisches Wörterbuch, d.h. für einen gegebenen Wortschatz, kann die Sprachverarbeitungs-Trennbarkeit der Worte des Wörterbuchs, anders ausgedrückt der Wörterbucheinträge, getestet werden, indem Sprachaufnahmen in einem so genannten Datenbanktest mittels eines Spracherkennungssystems analysiert werden. Im Rahmen der Analyse werden die erkannten Wörter mit den tatsächlich geäußerten Wörtern bzw. Wörterbucheinträgen verglichen. Aus dem Vergleich, d.h. unter Verwendung der Vergleichsergebnisse, wird eine so genannte Verwechslungsmatrix gebildet. In der Verwechslungsmatrix wird einem gesprochenen Wort gegenübergestellt, zu je wie viel Prozent die in dem elektronischen Wörterbuch enthaltenen Wörter korrekt erkannt wurden. Idealerweise wurde zu einem gesprochenen Wort immer nur das Wort selbst erkannt, d.h. in diesem Fall trat keine Verwechslung, anders ausgedrückt kein Fehler auf. Dies ist jedoch leider in der Regel nicht der Fall. Anhand der ermittelten Verwechslungsmatrix kann nunmehr eine Aussage darüber getroffen werden, welche Wörter sich günstig im Hinblick auf die Sprachverarbeitungs-Trennbarkeit im Rahmen der Sprachverarbeitung verhalten und welche nicht, so dass in diesem Fall Idealerweise ein anderes Wort bzw. ein anderer Wörterbucheintrag zu verwenden ist.For a given electronic dictionary, i.e. For a given vocabulary, the language processing separability of the Words of the dictionary, Expressed differently dictionary entries, tested be made by voice recordings in a so-called database test be analyzed using a speech recognition system. As part of the recognized words with the words actually spoken or Dictionary entries compared. From the comparison, i.e. using the comparison results, a so-called confusion matrix is formed. In the confusion matrix is compared to a spoken word, depending on how much Percent correct the words contained in the electronic dictionary were recognized. Ideally, it always became a spoken word only the word itself recognized, i.e. in this case there was no confusion, Expressed differently no mistake on. Unfortunately, this is usually not the case. A statement can now be made on the basis of the confusion matrix determined what words yourself cheap with regard to the language processing separability within the framework of the Speech processing behave and which do not, so in this Case Ideally another word or another dictionary entry is to be used.

Die Problematik wird in dem Anwendungsfall eines Sprachdialogs deutlich, bei dem in einem Sprachdialog der Gestaltung des elektronischen Wörterbuchs besondere Beachtung geschenkt werden sollte.The problem is in the use case a speech dialogue clearly, in which in a speech dialogue the Design of the electronic dictionary special attention should be paid.

Üblicherweise wird ein Sprachdialog mittels eines Dialog-Zustandsautomaten modelliert, wobei jedem Dialog-Zustand eine Auswahl von Wörtern zugeordnet ist, welche in dem jeweiligen Zustand geäußert werden können. Es ist möglich, alle Wörter, die in allen Zuständen des Zustandsautomaten vorgesehen sind, in ein elektronisches Wörterbuch gemeinsam zusammenzuführen. Diese Vorgehensweise erhöht jedoch die Wahrscheinlichkeit von Fehlerkennungen, da es für einen Viterbi-Dekoder in einem Embedded System umso schwieriger wird, das korrekte Wort zu ermitteln, je mehr Worte er zur Verfügung hat, um das wahrscheinlichste Wort zu ermitteln.Usually a voice dialog is modeled using a dialog state machine, where a selection of words is assigned to each dialog state, which can be expressed in the respective state. It is possible, all words, the in all states of the state machine are provided in an electronic dictionary merge together. This approach increases however the likelihood of misrecognition as it is for one Viterbi decoder in an embedded system becomes all the more difficult determine the correct word, the more words he has available to find the most likely word.

Somit ist es sehr effizient, für jeden Zustand des Dialog-Zustandsautomaten ein eigenes elektronisches Wörterbuch zu erzeugen.So it is very efficient for everyone State of the dialog state machine its own electronic dictionary to create.

Aber selbst in diesem Fall ist die geeignete Auswahl von Wörterbucheinträgen im Rahmen des Bildens des elektronischen Wörterbuchs von erheblicher Bedeutung.But even in this case it is appropriate selection of dictionary entries in the frame of making the electronic dictionary of considerable importance.

Angenommen, mittels eines Dialog-Zustandsautomaten wird ein CD-Abspielgerät gesteuert. Die Liste aktiver Wörter könnte zwischen 1 und 20 Wörter lang sein und die folgenden Anweisungen enthalten: „Start, Stopp, Pause, Spulen, Nächstes Lied, Zurück, Ende". Die Liste enthält alle erforderlichen Anweisungen. Unglücklicherweise ähneln sich die entsprechenden Wörter in der englischen Sprache „back" und „track" (play, stop, pause, track, next, back, exit) phonetisch sehr, was mögliche Fehlerkennungen verursachen kann, d.h. dass das Wort „track" gesprochen wurde, aber das Wort „back" dekodiert wird und umgekehrt.Suppose by means of a dialog state machine becomes a CD player controlled. The list of active words could between 1 and 20 words be long and include the following instructions: "Start, stop, Pause, rewind, next Song back End ". The list contains all necessary instructions. Unfortunately, they are similar the corresponding words in the English language "back" and "track" (play, stop, pause, track, next, back, exit) very phonetically, which can cause possible error detections can, i.e. that the word "track" was spoken, but the word "back" is decoded and vice versa.

Im Rahmen einer Fehlerkennung wird dieser Fehler als Substitutionsfehler bezeichnet. Deshalb ist es erforderlich das Wort „back" in dem Wörterbuch durch das Wort „last" zu ersetzen, womit dieser Substitutionsfehler nicht mehr auftreten würde und die Wörter in dem veränderten elektronischen Wörterbuch nunmehr eine verbesserte Sprachverarbeitungs-Trennbarkeit aufweisen würden.In the context of an error detection, this error is referred to as a substitution error. It is therefore necessary to replace the word "back" in the dictionary with the word "last", with which this substitution error would no longer occur and the words in the modified electronic dictionary would now have improved speech processing separability.

In dem obigen Beispiel sind die Wahrscheinlichkeiten eines Substitutionsfehlers zwischen den Wörtern „track" und „back" einfach ersichtlich.In the example above, the probabilities are of a substitution error between the words "track" and "back".

Im Allgemeinen ist es jedoch nicht so einfach, solche Wörter, welche eine nur relativ geringe Sprachverarbeitungs-Trennbarkeit aufweisen, zu ermitteln. Aus diesem Grund ist die übliche Vorgehensweise, ein Wörterbuch hinsichtlich der Sprachverarbeitungs-Trennbarkeit der in diesem Wörterbuch enthaltenen Wörterbucheinträge zu überprüfen, eine große Anzahl von Äußerungen aufzunehmen und dann einen Datenbanktest auf das elektronische Wörterbuch durchzuführen.In general, however, it is not so simple, such words, which have only a relatively low level of language processing separability, to investigate. For this reason, the usual procedure is a dictionary with regard to the language processing separability in this dictionary check included dictionary entries, a size Number of statements record and then a database test on the electronic dictionary perform.

Anschließend wird, wie oben beschrieben, die Verwechslungsmatrix gebildet, um somit aufzuzeigen, welches Wort jeweils geäußert wurde und welches Wort erkannt wurde. Die ideale Verwechslungsmatrix, d.h. die Verwechslungsmatrix, die eine fehlerfreie Erkennung beschreibt, ist eine reine Diagonalmatrix. 6 zeigt eine Verwechslungsmatrix 600 für die Ziffern in deutscher Sprache.Then, as described above, the confusion matrix is formed to show which word was uttered and which word was recognized. The ideal mix-up matrix, ie the mix-up matrix that describes error-free detection, is a pure diagonal matrix. 6 shows a confusion matrix 600 for the digits in German.

Es ist anzumerken, dass gemäß der Verwechslungsmatrix 600 zwischen den drei Ziffern, „Eins", „Zwei" und „Drei" Verwechslungen aufgetreten sind und zwischen den Ziffern „Null" und „Neun". Die Verwechslungen zwischen den Ziffern „Eins", „Zwei" und „Drei" sind offensichtlich aufgrund der zwischen ihnen gemeinsamen Diphtongen „ei". Die Verwechselbarkeit zwischen den Ziffern „Null" und „Neun" ist jedoch nicht so offensichtlich. Die Verwechslungsmatrix 600 wurde ermittelt nach Durchführung eines Datenbanktestes mit 615 Äußerungen von insgesamt 6284 Ziffern. Auf einem heutigen PC benötigt ein solcher Datenbanktest ungefähr 30 Minuten.It should be noted that according to the confusion matrix 600 confusion has occurred between the three digits, "one", "two" and "three" and between the digits "zero" and "nine". The confusion between the digits "one", "two" and "three" are obviously due to the diphtongen "ei" common between them. However, the confusion between the numbers "zero" and "nine" is not so obvious. The confusion matrix 600 was determined after performing a database test with 615 statements totaling 6284 digits. Such a database test takes about 30 minutes on today's PC.

Nachteilig an diesem bekannten Verfahren ist somit, dass zu jedem Wörterbuch eine repräsentative Sammlung an Sprachäußerungen vorhanden, d.h. gespeichert sein muss, die so genannte Datenbank. Dies bedeutet, dass von einer großen Anzahl von Sprechern, die in ihren Eigenschaften die Struktur der Sprecher einer Sprache möglichst gut wiedergeben, für jedes Wort des elektronischen Wörterbuchs eine oder mehrere Aufnahmen gesammelt werden muss. Dieser Vorgang erfordert hohe Kosten und ist unflexibel, da jedes neue Wort in dem elektronischen Wörterbuch auf die oben beschriebene Weise vor neuer Aufnahme in die Datenbank bearbeitet werden muss.A disadvantage of this known method is that to every dictionary a representative collection of utterances available, i.e. must be saved, the so-called database. This means that from a large number of speakers who in their properties, the structure of the speakers of a language if possible reproduce well for every word of the electronic dictionary one or more recordings must be collected. This process requires high costs and is inflexible since every new word in the electronic dictionary in the manner described above before being added to the database needs to be edited.

Somit liegt der Erfindung das Problem zugrunde, die Sprachverarbeitungs-Trennbarkeit zweier Wörterbucheinträge in einem elektronischen Wörterbuch zu ermitteln, ohne dass eine Datenbank erforderlich ist.The problem thus lies with the invention the language processing separability of two dictionary entries in one electronic dictionary to determine without the need for a database.

Das Problem wird durch das Verfahren und die Vorrichtung zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag und einem zweiten Wörterbucheintrag, durch eine Sprachverarbeitungseinrichtung sowie durch ein Computerlesbares Speichermedium und ein Computerprogramm-Element mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.The problem is caused by the procedure and the device for determining speech processing separability between a first dictionary entry and a second dictionary entry, by a speech processing device and by a computer readable Storage medium and a computer program element solved with the features according to the independent claims.

Bei einem Verfahren zum rechnergestützten Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag, dem ein erstes Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, und einem zweiten Wörterbucheintrag, dem ein zweites Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, in einem elektronischen Wörterbuch zur elektronischen Sprachverarbeitung, wobei unter Verwendung eines Wörterbucheintrags-Erzeugungsmodells eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, wird von dem ersten Wörterbucheintrags-Erzeugungsmodell eine Mehrzahl von Realisierungen, vorzugsweise eine Vielzahl von Realisierungen, erzeugt.In a method for computer-aided determination the speech processing separability between a first dictionary entry, a first dictionary entry generation model is assigned, and a second dictionary entry to which a second Dictionary entry-generation model is assigned to an electronic dictionary for electronic Speech processing using a dictionary entry generation model a realization of the respective dictionary entry can be generated from the first dictionary entry generation model a plurality of implementations, preferably a plurality of Realizations.

Unter Verwendung der erzeugten Realisierungen des ersten Wörterbucheintrags-Erzeugungsmodell wird ein Intra-Erzeugungsmodell-Abstand des ersten Wörterbucheintrags-Erzeugungsmodells ermittelt. Für den Fall, dass als Erzeugungsmodell ein Hidden Markov Modell verwendet wird, wird als Intra-Erzeugungsmodell-Abstand ein mittlerer Intra-HMM-Abstand ermittelt.Using the realizations created of the first dictionary entry creation model an intra-generation model distance of the first dictionary entry generation model determined. For the Case that a hidden Markov model is used as the generation model a mean intra-HMM distance is determined as the intra-generation model distance.

Unter Verwendung der erzeugten Realisierungen des ersten Wörterbucheintrags-Erzeugungsmodells und einer Mehrzahl von Realisierungen, vorzugsweise einer Vielzahl von Realisierungen, des zweiten Wörterbucheintrags-Erzeugungsmodells wird ein Inter-Erzeugungsmodell-Abstand zwischen dem ersten Wörterbucheintrags-Erzeugungsmodell und dem zweiten Wörterbucheintrags-Erzeugungsmodell ermittelt. Für den Fall, dass die Erzeugungsmodelle als Hidden Markov Modelle eingerichtet sind, wird in diesem Schritt anschaulich ein mittlerer Inter-HMM-Abstand zwischen den beiden Wörterbucheintrags-HMMs ermittelt.Using the realizations created the first dictionary entry generation model and a plurality of implementations, preferably a plurality of Realizations of the second dictionary entry generation model becomes an inter-generation model distance between the first dictionary entry generation model and the second dictionary entry generation model determined. For the case that the generation models are set up as hidden Markov models are a medium Inter-HMM distance in this step between the two dictionary entry HMMs determined.

Unter Verwendung des Intra-Erzeugungsmodell-Abstands des ersten Wörterbucheintrags-Erzeugungsmodells und des Inter-Erzeugungsmodell-Abstands wird ein Trennbarkeitswert ermittelt, der die Sprachverarbeitungs-Trennbarkeit des ersten Worts und des zweiten Worts im Rahmen einer elektronischen Sprachverarbeitung charakterisiert, anschaulich den Abstand der beiden HMMs in dem Vergleichsraum beschreibt.Using the intra-generation model distance of the first dictionary entry generation model and the inter-generation model distance a separability value is determined which is the speech processing separability the first word and the second word in an electronic Speech processing characterizes, clearly the distance of the describes both HMMs in the comparison space.

Eine Vorrichtung zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag, dem ein erstes Wörterbucheintrags-Erzeugungsmodell zugeordnet ist und einem zweiten Wörterbucheintrag, dem ein zweites Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, in einem elektronischen Wörterbuch zur elektronischen Sprachverarbeitung, wobei unter Verwendung eines Wörterbucheintrags-Erzeugungsmodells eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, weist eine Prozessoreinheit auf, die derart eingerichtet ist, dass die oben beschriebenen Verfahrensschritte durchführbar sind oder durchgeführt werden.An apparatus for determining the speech processing separability between a first dictionary entry, to which a first dictionary entry generation model is assigned, and a second dictionary entry, to which a second dictionary entry generation model is assigned, in an electronic dictionary for electronic speech processing, using a dictionary entry generation model A realization of the respective dictionary entry can be produced has a processor unit which is set up in such a way that the method steps described above can be carried out are or are being carried out.

Eine Sprachverarbeitungseinrichtung weist eine Prozessoreinheit zum Durchführen der Sprachverarbeitung sowie einen Speicher auf, in dem ein elektronisches Wörterbuch gespeichert ist, das Wörterbucheinträge aufweist, wobei jedem Wörterbucheintrag mindestens ein Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, unter dessen Verwendung eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, wobei das elektronische Wörterbuch dem oben beschriebenen Verfahren unterzogen worden ist.A language processing facility has a processor unit for performing the speech processing as well as a memory in which an electronic dictionary stored with dictionary entries, where each dictionary entry at least one dictionary entry creation model is assigned, using the implementation of the respective Dictionary entry can be generated, the electronic dictionary to that described above Procedure has been subjected.

Ferner ist eine Steuereinrichtung zum Steuern eines technologischen Systems mit einer oben beschriebenen Sprachverarbeitungseinrichtung vorgesehen, wobei in dem elektronischen Wörterbuch die zum Steuern des technischen Systems vorgesehenen Steuerbefehle als Wörterbucheinträge gespeichert sind.There is also a control device to control a technological system with one described above Speech processing device provided, wherein in the electronic dictionary the control commands intended to control the technical system saved as dictionary entries are.

Ferner ist ein Telekommunikationsgerät mit einer oben beschriebenen Steuereinrichtung vorgesehen.Furthermore, a telecommunications device with a Control device described above provided.

In einem Computerlesbaren Speichermedium ist ein Computerprogramm gespeichert zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag, dem ein erstes Wörterbucheintrags-Erzeugungsmodell zugeordnet ist und einem zweiten Wörterbucheintrag, dem ein zweites Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, in einem elektronischen Wörterbuch zur elektronischen Sprachverarbeitung, wobei unter Verwendung eines Wörterbucheintrags-Erzeugungsmodells eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, welches Computerprogramm, wenn es von einer Prozessoreinheit ausgeführt wird, die oben beschriebenen Verfahrensschritt aufweist.In a computer readable storage medium is a computer program stored to determine speech processing separability between a first dictionary entry, a first dictionary entry generation model is assigned and a second dictionary entry to which a second Dictionary entry-generation model is assigned in an electronic dictionary for electronic language processing, using a dictionary entry generation model a realization of the respective dictionary entry can be generated, which computer program, if it is executed by a processor unit, has the method step described above.

Ein Computerprogramm-Element zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag, dem ein erstes Wörterbucheintrags-Erzeugungsmodell zugeordnet ist und einem zweiten Wörterbucheintrag, dem ein zweites Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, in einem elektronischen Wörterbuch zur elektronischen Sprachverarbeitung, wobei unter Verwendung eines Wörterbucheintrags-Erzeugungsmodells eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, weist die oben beschriebenen Verfahrensschritte auf, wenn es von einer Prozessoreinheit ausgeführt wird.A computer program element for Determine the speech processing separability between a first one Dictionary entry a first dictionary entry generation model is assigned and a second dictionary entry to which a second Dictionary entry-generation model is assigned to an electronic dictionary for electronic Speech processing using a dictionary entry generation model a realization of the respective dictionary entry can be generated, has the process steps described above if it is from a processor unit is executed.

Durch die Erfindung wird es erstmals möglich, eine verlässliche, da mathematisch begründete, Aussage über die Trennbarkeit der Wörterbucheinträge in einem elektronischen Wörterbuch zu treffen und somit eine Mindest-Trennbarkeit in einem elektronischen Wörterbuch zu gewährleisten.The invention makes it the first time possible, a reliable, because mathematically justified Statement about the separability of the dictionary entries in one electronic dictionary to meet and thus a minimum separability in an electronic dictionary to ensure.

Erfindungsgemäß ist keine Datenbank mit einer Vielzahl vorgegebener Sprachäußerungen unterschiedlicher Sprecher mehr erforderlich und somit ist auch kein rechenzeit- und speicherplatzintensiver Datenbanktest mehr erforderlich.According to the invention, there is no database with one Numerous predefined utterances different speakers are more necessary and so is no more database time-intensive and memory-intensive test required.

Anschaulich wird der gemäß dem Stand der Technik erforderliche Datenbanktest durch die oben beschriebene probabilistische Berechnung von Abstandsmaßen in dem Vergleichsraum ersetzt, nämlich die Berechnung des Intra-Erzeugungsmodell-Abstands und des Inter-Erzeugungsmodell-Abstands. Dabei wird gemäß einer Ausgestaltung der Erfindung eine mittlere HMM-Abstandsmatrix erstellt, die basierend auf dem ohnehin vorliegenden HMM-Codebuch die gleichen Informationen enthält wie die Verwechslungsmatrix gemäß dem Stand der Technik.This is illustrated according to the status the database test required by the technology described above probabilistic calculation of distance measurements in the comparison space replaced, namely the calculation of the intra-generation model distance and the inter-generation model distance. According to one Embodiment of the invention creates a mean HMM distance matrix, which are the same based on the existing HMM code book Contains information like the confusion matrix according to the state of the technique.

Erfindungsgemäß wird ein Entwickler eines Sprachdialogs, beispielsweise ein Entwickler eines Sprachdialog-Zustandsautomaten, nunmehr in die Lage versetzt, das von ihm jeweils entwickelte Wörterbuch sofort nach dessen Erstellung zu testen. Das gleiche gilt für Änderungen, die auf dem elektronischen Wörterbuch vorgenommen werden, d.h. auch diese können sofort auf ihre Tauglichkeit hin getestet werden.According to the invention, a developer of a Speech dialogue, for example a developer of a speech dialogue state machine, now able to use the dictionary that he developed immediately to test after its creation. The same goes for changes, those on the electronic dictionary be made, i.e. these can also be immediately tested for their suitability be tested.

Ein weiterer Vorteil ist, dass dieses Verfahren auch an mögliche Entwicklungs-Partner im Rahmen eines größeren Entwicklungsprojektes ohne Probleme weitergegeben werden kann, ohne dass die zum Teil komplizierten Eigentumsrechte an Sprachdatenbanken betroffen sind.Another advantage is that this Procedures also on possible Development partner as part of a larger development project can be passed on without problems, without the sometimes complicated Ownership rights to language databases are affected.

Die Erfindung kann in Software, d.h. mittels eines Computerprogramms oder in Hardware, d.h. mittels einer speziellen elektronischen Schaltung, oder in beliebig hybrider Form, bei dem ein Teil der Lösung in Software und der andere Teil in Hardware implementiert ist, realisiert sein.The invention can be implemented in software, i.e. by means of a computer program or in hardware, i.e. by means of a special electronic circuit, or in any hybrid form, where part of the solution implemented in software and the other part implemented in hardware his.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.Preferred developments of the invention result from the dependent Claims.

Die im Folgenden beschriebenen Ausgestaltungen der Erfindung betreffen das Verfahren, die Vorrichtung, die Steuereinrichtung, das Telekommunikationsgerät, die Sprachverarbeitungseinrichtung, das Computerlesbare Speichermedium sowie das Computerprogramm-Element.The configurations described below The invention relates to the method, the device, the control device, the telecommunication device, the speech processing device, the computer-readable storage medium as well as the computer program element.

Gemäß einer Ausgestaltung der Erfindung können die Erzeugungsmodelle eine jeweilige Realisierung unter Verwendung lautsprachlicher Einheiten erzeugen, insbesondere unter Verwendung zumindest einer der folgenden lautsprachlichen Einheiten:According to an embodiment of the invention can the generation models using a respective implementation generate spoken units, especially using at least one of the following spoken units:

- one phoneme,
- one Phoneme,
- one allophone
- one diphone,
- one Demisyllable,
- one Syllable, or
- one Word.

Vorzugsweise sind die Wörterbucheintrags-Erzeugungsmodelle als Hidden Markov Modelle ausgestaltet.Preferably, the dictionary entry creation models are designed as Hidden Markov models.

Zur Gewährleistung einer Mindestqualität für das gesamte elektronische Wörterbuch wird das oben beschriebene Verfahren gemäß einer Ausgestaltung der Erfindung für alle in dem elektronischen Wörterbuch enthaltenen Wörterbucheintrags-Erzeugungsmodelle durchgeführt.To ensure a minimum quality for the whole electronic dictionary is the method described above according to an embodiment of the invention for all contained in the electronic dictionary Dictionary entry generation models carried out.

Gemäß einer anderen Ausgestaltung der Erfindung wird unter Verwendung einer Vielzahl erzeugter Realisierungen des ersten Wörterbucheintrags-Erzeugungsmodells ein mittlerer Intra-Erzeugungsmodell-Abstand des ersten Wörterbucheintrags-Erzeugungsmodells ermittelt.According to another embodiment The invention is created using a variety of realizations of the first dictionary entry generation model a mean intra generation model distance of the first dictionary entry generation model determined.

Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, unter Verwendung einer Vielzahl erzeugter Realisierungen des ersten Wörterbucheintrags- Erzeugungsmodells und einer Vielzahl erzeugter Realisierungen des zweiten Wörterbucheintrags-Erzeugungsmodells einen mittleren Inter-Erzeugungsmodell-Abstand zu ermitteln.According to another embodiment the invention contemplates using a variety generated implementations of the first dictionary entry generation model and a plurality of generated implementations of the second dictionary entry generation model to determine an average inter-generation model distance.

Gemäß diesen Ausführungsbeispielen der Erfindung wird anschaulich für ein Wort der Intra-HMM-Abstand des dem jeweiligen Wort zugeordneten HMMs ermittelt. Ferner erfolgt eine paarweise Berechnung von Inter-HMM-Abständen von Realisierungen des ersten Wörterbucheintrags-HMMs zu Realisierungen aller anderen, d.h. zweiten Wörterbuch-HMMs. Darauf basierend wird der relative minimale diskriminierende Abstand zwischen den HMMs bestimmt, der größer sein soll als ein vorgegebener Schwellenwert, um für eine ausreichende Trennbarkeit der Wörter in dem elektronischen Wörterbuch zu sorgen. Das Verfahren verwendet in diesem Fall den mittleren HMM-Abstand, der im Folgenden noch näher erläutert wird.According to these embodiments the invention is illustrative of a word of the intra-HMM distance of the assigned to the respective word HMMs determined. In addition, a pair-wise calculation of inter-HMM distances from Realizations of the first dictionary entry HMM to realizations of all others, i.e. second dictionary HMMs. Based on that the relative minimum discriminatory distance between the HMMs determined to be bigger is said to be a predetermined threshold to ensure adequate separability of the words in the electronic dictionary to care. In this case the procedure uses the middle one HMM distance, which is explained in more detail below.

Anschaulich wird die Vorgehensweise bei der üblichen Spracherkennung, bei dem das Sprachsignal zunächst mittels einer Merkmals-Extraktion in eine Folge so genannter Merkmalsvektoren umgewandelt wird, invertiert.The procedure becomes clear at the usual Speech recognition, in which the speech signal is first extracted using a feature is converted into a sequence of so-called feature vectors, inverted.

Im Rahmen der Spracherkennung wird die Folge von Merkmalsvektoren beispielsweise mittels eines Viterbi-Algorithmus mit den Hidden Markov Modellen der in dem elektronischen Wörterbuch gespeicherten Wörter in dem Suchraum verglichen, und dasjenige Hidden-Markov-Modell mit der größten Trefferwahrscheinlichkeit, das heißt mit der größten Übereinstimmung, gilt als das erkannte Wort.As part of speech recognition the sequence of feature vectors, for example using a Viterbi algorithm with the Hidden Markov models in the electronic dictionary saved words compared in the search space, and that Hidden Markov model with the greatest probability of a hit, this means with the greatest agreement, is considered the recognized word.

Erfindungsgemäß werden anschaulich die Hidden-Markov-Modelle nicht zur Erkennung von gesprochenen Äußerungen verwendet, sondern es wird umgekehrt von einem HMM eine Folge von Merkmalsvektoren erzeugt. Eine solche Folge oder Kette von Merkmalsvektoren wird im Folgenden auch als Realisierung des HMMs (HMM-Realisierung) bezeichnet. Zu zwei beliebigen HMM-Realisierungen wird ein Abstand bestimmt, indem vorzugsweise mittels eines DTW-Verfahrens (Dynamic Time Warping-Algorithmus) diejenige paarweise Alignierung der beiden Merkmalsvektor-Folgen bestimmt wird, bei der die Summe der Abstände der Merkmalsvektoren minimal ist. Der minimale Abstand ist der Abstand der beiden Realisierungen. Der mittlere Abstand zwischen zwei Hidden-Markov-Modellen wird vorzugsweise bestimmt, indem über eine Vielzahl von Realisierungen der beiden Hidden-Markov-Modelle, allgemein der beiden Erzeugungsmodelle, ein Durchschnittswert gebildet wird.According to the invention, the hidden Markov models are vivid not used to recognize spoken utterances, but conversely, an HMM becomes a sequence of feature vectors generated. Such a sequence or chain of feature vectors will hereinafter also referred to as the implementation of the HMM (HMM implementation). For any two HMM implementations a distance is determined, preferably by means of a DTW method (Dynamic Time Warping algorithm) the pairwise alignment of the two feature vector sequences is determined in which the sum of the distances of the feature vectors is minimal is. The minimum distance is the distance between the two realizations. The average distance between two hidden Markov models is preferred determined by about a multitude of realizations of the two hidden Markov models, generally of the two generation models, formed an average becomes.

Es ist möglich, den Abstand zwischen verschiedenen Realisierungen des gleichen HMMs zu berechnen, das heißt, den Intra-HMM-Abstand, sowie den Abstand zwischen unterschiedlichen HMMs, den Inter-HMM-Abstand.It is possible to change the distance between to calculate different realizations of the same HMM that is called, the intra-HMM distance, as well as the distance between different ones HMMs, the inter-HMM distance.

Erfindungsgemäß wird somit für alle Wörterbucheinträge des elektronischen Wörterbuchs der Abstand zwischen verschiedenen Realisierungen des gleichen HMMs ermittelt, d.h. der Intra-HMM-Abstand, sowie der Abstand zwischen unterschiedlichen HMMs, d.h. der Inter-HMM-Abstand. Die Grundlage der Trennbarkeit zwischen zwei Wörtern bildet die Notwendigkeit, dass der Inter-HMM-Abstand immer erheblich größer sein soll, als der Intra-HMM-Abstand. Mit anderen Worten bedeutet dies, dass zwei Realisierungen des gleichen Wortes näher aneinander liegen sollten als die Realisierung eines Wortes im Vergleich zu denen eines anderen Wortes.According to the invention, the electronic entries for all dictionary entries dictionary the distance between different realizations of the same HMM determined, i.e. the intra-HMM distance, as well as the distance between different HMMs, i.e. the inter-HMM distance. The basis of the separability between two words is the need that the inter-HMM distance should always be considerably larger than the intra-HMM distance. In other words, this means that two realizations of the same Word closer should be against each other than the realization of a word in comparison to another word.

Ein Wörterbucheintrag im elektronischen Wörterbuch wird im Hinblick auf die Trennbarkeit dadurch bewertet, dass der minimale Unterschied zwischen dem Intra-HMM-Abstand zu den Inter-HMM-Abständen in das Verhältnis zum Intra-HMM-Abstand gesetzt wird. Dieses Verhältnis muss größer sein als ein vorgegebener Schwellenwert, damit das Wort im Rahmen der HMM-Suche ausreichend gut trennbar ist.A dictionary entry in the electronic dictionary is evaluated in terms of separability by the fact that the minimal difference between the intra-HMM distance to the inter-HMM distances in The relationship is set to the intra-HMM distance. This ratio has to be bigger as a predetermined threshold so that the word within the HMM search sufficient is easy to separate.

Erfindungsgemäß wird es somit möglich, Wörter, für die die Trennbarkeit nicht ausreichend gut ist, aus dem elektronischen Wörterbuch zu entfernen und durch ein anderes Wort zu ersetzen, welches besser von den anderen in dem Wörterbuch gespeicherten Wörtern trennbar ist.According to the invention it is thus possible to use words for which the Separability is not good enough from the electronic dictionary to remove and replace with another word, which is better from the others in the dictionary saved words is separable.

Somit wird erfindungsgemäß das Problem, den bei der Spracherkennung oder Sprechererkennung aktiven Wortschatz so zu optimieren, dass darin möglichst wenig einander ähnlich klingende Wörterbucheinträge enthalten sind, auf einfache Weise automatisch gelöst.Thus, according to the invention, the problem the vocabulary active in speech recognition or speaker recognition to optimize so that it is as possible little like each other sounding dictionary entries included are automatically solved in a simple manner.

Gemäß einer Ausgestaltung der Erfindung ist es vorgesehen, dass geprüft wird, ob der Trennbarkeitswert einem vorgegebenen Trennbarkeitskriterium genügt und für den Fall, dass der Trennbarkeitswert dem vorgegebenen Trennbarkeitskriterium nicht genügt, wird/werden der erste Wörterbucheintrag und/oder der zweite Wörterbucheintrag aus dem elektronischen Wörterbuch gelöscht.According to an embodiment of the invention it is intended to be checked becomes whether the separability value meets a predetermined separability criterion enough and for the case that the separability value meets the specified separability criterion not enough becomes the first dictionary entry and / or the second dictionary entry from the electronic dictionary deleted.

Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, dass geprüft wird, ob der Trennbarkeitswert einem vorgegebenen Trennbarkeitskriterium genügt und für den Fall, dass der Trennbarkeitswert dem vorgegebenen Trennbarkeitskriterium nicht genügt, dass das Trennbarkeitskriterium verändert wird, so dass auch ein eine schlechtere Trennbarkeit repräsentierender Trennbarkeitswert dem veränderten Trennbarkeitskriterium genügt. Anschaulich wird somit durch Entfernen von Wörterbucheinträgen, die einander zu ähnlich sind, aus dem elektronischen Wörterbuch, ein hinsichtlich der Trennbarkeit im Rahmen der Sprachverarbeitung verbessertes elektronisches Wörterbuch gebildet. Ferner kann, um nicht zu viele Wörterbucheinträge löschen zu müssen, auch das Trennbarkeitskriterium selbst anwendungsangepasst verändert werden, um somit auch eine zwar schlechtere, aber immer noch ausreichend gute Trennbarkeit zu gewährleisten.According to another embodiment The invention provides that it is checked whether the separability value a predefined separability criterion and in the event that the separability value meets the given separability criterion is not sufficient that the separability criterion changed is, so that also represents a poorer separability Separability value the changed Separability criterion is sufficient. This becomes clear by removing dictionary entries that too similar to each other are, from the electronic dictionary, a improved with regard to the separability in the context of language processing electronic dictionary educated. Furthermore, in order not to delete too many dictionary entries have to, also the separability criterion itself can be changed to suit the application, thus a worse one, but still sufficient to ensure good separability.

Vorzugsweise wird das Verfahren im Rahmen einer rechnergestützten Sprachverarbeitung eingesetzt, vorzugsweise in der Spracherkennung oder in der Sprechererkennung.The method is preferably carried out in Framework of a computer-aided Speech processing used, preferably in speech recognition or in speaker recognition.

Das Verfahren eignet sich insbesondere zum Einsatz in einem Embedded System, da es aufgrund der Tatsache, dass kein Datenbanktest mehr erforderlich ist und somit auch keine Datenbank mehr in dem Speicher des Sprachverarbeitungssystems gespeichert werden muss, auch in einer rechnerleistungsschwachen und speicherkapazitätsbegrenzten Umgebung eingesetzt werden kann. Die Sprachverarbeitungseinrichtung ist vorzugsweise als Embedded System eingerichtet. Alternativ oder zusätzlich kann sie als Spracherkennungseinrichtung oder als Sprechererkennungseinrichtung ausgebildet sein.The method is particularly suitable for use in an embedded system, because due to the fact that no database test is required anymore and therefore none Database more stored in the memory of the speech processing system must be, even in a low-performance and limited storage capacity Environment can be used. The speech processing device is preferably set up as an embedded system. Alternatively or additionally it as a speech recognition device or as a speaker recognition device be trained.

Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im Folgenden näher erläutert.Embodiments of the invention are shown in the figures and are explained in more detail below.

Es zeigenShow it

1 ein Blockdiagramm eines Spracherkennungssystems gemäß einem Ausführungsbeispiel der Erfindung; 1 a block diagram of a speech recognition system according to an embodiment of the invention;

2 eine Skizze eines elektronischen Wörterbuchs gemäß einem Ausführungsbeispiel der Erfindung; 2 a sketch of an electronic dictionary according to an embodiment of the invention;

3 eine Skizze eines Vergleichsraums, in der Realisierungen von Wörterbucheintrags-HMMs und Realisierungen von Wörterbucheintrags-Kandidaten-HMMs gemäß einem ersten Ausführungsbeispiel der Erfindung dargestellt sind; 3 a sketch of a comparison space in which implementations of dictionary entry HMMs and implementations of dictionary entry candidate HMMs according to a first embodiment of the invention are shown;

4 eine Verwechslungsmatrix gemäß einem Ausführungsbeispiel der Erfindung; 4 a confusion matrix according to an embodiment of the invention;

5A bis 5D ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte eines Ausführungsbeispiels der Erfindung dargestellt sind; und 5A to 5D a flow chart in which the individual method steps of an embodiment of the invention are shown; and

6 eine Verwechslungsmatrix gemäß dem Stand der Technik. 6 a confusion matrix according to the prior art.

1 zeigt ein Spracherkennungssystem 100 gemäß einem Ausführungsbeispiel der Erfindung. 1 shows a speech recognition system 100 according to an embodiment of the invention.

Das Spracherkennungssystem 100 arbeitet je nach Betriebsmodus in einem ersten Betriebsmodus als Spracherkennungseinrichtung, wobei in dem Spracherkennungsmodus eine eingesprochene Sprachäußerung 101, eingesprochen von einem Benutzer (nicht dargestellt) des Spracherkennungssystems 100, von der Spracherkennungseinrichtung erkannt wird. Die Spracherkennung erfolgt gemäß diesem Ausführungsbeispiel der Erfindung unter Verwendung eines Verfahrens zur sprecherunabhängigen Spracherkennung, alternativ unter Verwendung eines Verfahrens zur sprecherabhängigen Spracherkennung.The speech recognition system 100 Depending on the operating mode, it works in a first operating mode as a speech recognition device, with a spoken utterance in the speech recognition mode 101 , spoken by a user (not shown) of the speech recognition system 100 is recognized by the speech recognition device. According to this exemplary embodiment of the invention, speech recognition takes place using a method for speaker-independent speech recognition, alternatively using a method for speaker-dependent speech recognition.

In einem zweiten Betriebsmodus, im Weiteren auch bezeichnet als Trainingsmodus, wird unter Verwendung einer eingesprochenen Äußerung 101, wie im Weiteren näher erläutert wird, das Spracherkennungssystem 100 trainiert, gemäß diesem Ausführungsbeispiel bedeutet dies, dass einzelne Hidden Markov Modelle für eine Äußerung mittels der eingesprochenen Äußerung 101 trainiert werden.In a second operating mode, also referred to below as training mode, using a spoken utterance 101 , as will be explained in more detail below, the speech recognition system 100 trained, according to this embodiment, this means that individual hidden Markov models for an utterance by means of the spoken utterance 101 be trained.

In beiden Betriebsmodi wird das von dem Benutzer eingesprochene Sprachsignal 101 einem Mikrofon 102 zugeführt und als aufgenommenes elektrisches Analogsignal 103 einer Vorverstärkung mittels einer Vorverstärkungseinheit 104 unterzogen und als verstärktes Analogsignal 105 einem Analog-/Digitalwandler 106 zugeführt, dort in ein digitales Signal 107 umgewandelt und als digitales Signal 107 einer Merkmalsextraktionseinheit 108 zugeführt, welche das digitale Signal 107 einer Spektraltransformation unterzieht und zu dem digitalen Signal 107 zu einer Äußerung eine Folge von Merkmalsvektoren 109 bildet, welche das digitale Signal 107 repräsentieren.The speech signal spoken by the user is used in both operating modes 101 a microphone 102 supplied and as a recorded electrical analog signal 103 a preamplification by means of a preamplification unit 104 subjected and as an amplified analog signal 105 an analog / digital converter 106 fed, there in a digital signal 107 converted and as a digital signal 107 a feature extraction unit 108 fed which is the digital signal 107 undergoes a spectral transformation and to the digital signal 107 a sequence of feature vectors for an utterance 109 which forms the digital signal 107 represent.

Jeder Merkmalsvektor 109 weist eine vorgegebene Anzahl von Merkmalsvektor-Komponenten auf.Every feature vector 109 has a predetermined number of feature vector components.

Die Merkmalsvektoren 109 werden einem Rechner 110 zugeführt.The feature vectors 109 become a calculator 110 fed.

Es ist in diesem Zusammenhang anzumerken, dass das Mikrofon 102, die Vorverstärkungseinheit 104, insbesondere die Verstärkungseinheit, und der Analog-/Digitalwandler 106 sowie die Merkmalsextraktionseinheit 108 als separate Einheiten oder auch als in dem Rechner 110 integrierte Einheiten realisiert sein können.It should be noted in this context that the microphone 102 , the preamp unit 104 , in particular the amplification unit, and the analog / digital converter 106 as well as the feature extraction unit 108 as separate units or as in the computer 110 integrated units can be realized.

Gemäß diesem Ausführungsbeispiel der Erfindung ist es vorgesehen, dass die Merkmalsvektoren 109 dem Rechner 110 über dessen Eingangsschnittstelle 111 zugeführt werden.According to this exemplary embodiment of the invention, it is provided that the feature vectors 109 the calculator 110 via its input interface 111 are fed.

Der Rechner 110 weist ferner einen Mikroprozessor 112, einen Speicher 113 sowie eine Ausgangsschnittstelle 114 auf, welche alle miteinander mittels eines Computerbus 115 gekoppelt sind.The computer 110 also has a microprocessor 112 , a memory 113 as well as an output interface 114 on all of them together using a computer bus 115 are coupled.

Mittels des Mikroprozessors 112 werden die im Folgenden beschriebenen Verfahrensschritte durchgeführt.Using the microprocessor 112 process steps described below guided.

In einem elektronischen Wörterbuch 200 (vgl. 2), welches im Speicher 113 gespeichert ist, sind zu jedem Worteintrag 201 (Wörter i, i = 1,..., n, wobei mit n die Anzahl der in dem elektronischen Wörterbuch gespeicherten Wörter bezeichnet wird), der im Rahmen der Spracherkennung von dem Spracherkennungsalgorithmus überhaupt nur erkannt werden kann, korrespondierende, spezifisch auf diesen Worteintrag trainierte Hidden Markov Modelle 202 (Hidden Markov Modelle i (H(Wort i)) enthalten bzw. gespeichert.In an electronic dictionary 200 (see. 2 ) which is in memory 113 are saved to every word entry 201 (Words i, i = 1, ..., n, where n denotes the number of words stored in the electronic dictionary), which can only be recognized by the speech recognition algorithm in the context of speech recognition, corresponding specifically to this word entry trained Hidden Markov models 202 (Hidden Markov models i (H (word i)) included or saved.

Ferner kann zusätzlich ein digitaler Signalprozessor vorgesehen sein, der die jeweils eingesetzten Spracherkennungsalgorithmen implementiert hat und einen darauf spezialisierten Mikrocontroller aufweisen kann.A digital signal processor can also be used be provided, the speech recognition algorithms used in each case has implemented and a specialized microcontroller can have.

Weiterhin ist eine Text-zu-Sprache-Wandlereinrichtung (nicht dargestellt) vorgesehen zum Umwandeln einer beliebigen Phonemfolge in ein Sprachsignal, welches in ein analoges Sprachsignal umgewandelt werden kann und dann mittels des im Folgenden beschriebenen Lautsprechers 122 an einen Benutzer ausgegeben werden kann. Die Text-zu-Sprache-Wandlereinrichtung kann in den Mikroprozessor 112 oder in den digitalen Signalprozessor integriert sein oder als eigenständiger Hardware-Baustein vorgesehen sein.Furthermore, a text-to-speech converter device (not shown) is provided for converting any phoneme sequence into a speech signal, which can be converted into an analog speech signal and then using the loudspeaker described below 122 can be issued to a user. The text-to-speech converter can be in the microprocessor 112 or be integrated in the digital signal processor or be provided as an independent hardware component.

Ferner ist der Rechner 110 mittels der Eingangsschnittstelle 111 mit einer Tastatur 116 sowie einer Computermaus 117 über elektrische Leitungen 118, 119 oder eine Funkverbindung, beispielsweise eine Infrarot-Verbindung oder eine Bluetooth-Verbindung gekoppelt.Furthermore, the calculator 110 using the input interface 111 with a keyboard 116 as well as a computer mouse 117 via electrical cables 118 . 119 or a radio connection, for example an infrared connection or a Bluetooth connection.

Über zusätzliche Kabel oder Funkverbindungen, beispielsweise mittels einer Infrarot-Verbindung oder einer Bluetooth- Verbindung 120, 121 ist der Rechner 110 mittels der Ausgangsschnittstelle 114 mit einem Lautsprecher 122 sowie einem Aktor 123 gekoppelt.Via additional cables or radio connections, for example using an infrared connection or a Bluetooth connection 120 . 121 is the calculator 110 using the output interface 114 with a speaker 122 as well as an actuator 123 coupled.

Der Aktor 123 repräsentiert in 1 allgemein jeden möglichen Aktor im Rahmen der Steuerung eines technischen Systems, beispielsweise realisiert in Form eines Hardwareschalters oder in Form eines Computerprogramms für den Fall, dass beispielsweise ein Telekommunikationsgerät oder ein anderes technisches System, beispielsweise ein Autoradio, eine Stereoanlage, ein Videorekorder, ein Fernseher, der Rechner 110 selbst oder irgendeine andere technische Anlage gesteuert werden soll.The actuator 123 represented in 1 generally any possible actuator in the context of the control of a technical system, for example realized in the form of a hardware switch or in the form of a computer program in the event that, for example, a telecommunications device or another technical system, for example a car radio, a stereo system, a video recorder, a television, the computer 110 itself or any other technical system to be controlled.

Gemäß dem Ausführungsbeispiel der Erfindung weist die Merkmalsextraktionseinheit 108 eine Filterbank mit einer Mehrzahl von Bandpässen auf, welche die Energie des eingegebenen Sprachsignals 103 in einzelnen Frequenzbändern messen. Mittels der Filterbank werden so genannte Kurzzeitspektren gebildet, indem die Ausgangssignale der Bandpässe gleichgerichtet, geglättet und in kurzen Abständen abgetastet werden, gemäß dem Ausführungsbeispiel alle 10 msec, alternativ alle 15 msec.According to the exemplary embodiment of the invention, the feature extraction unit has 108 a filter bank with a plurality of band-pass filters, which show the energy of the input speech signal 103 measure in individual frequency bands. So-called short-term spectra are formed by means of the filter bank, in that the output signals of the bandpasses are rectified, smoothed and sampled at short intervals, according to the exemplary embodiment every 10 msec, alternatively every 15 msec.

Die mittels der Merkmalsextraktionseinheit 108 gebildeten Cepstrum-Koeffizienten, die 13 Koeffizienten der Merkmalsvektoren 109 bilden, werden als Merkmalsvektor-Komponenten von zwei aufeinander folgenden Zeitfenstern der Größe von 10 msec oder von 15 msec in dem Merkmalsvektor 109 gespeichert. Ferner sind als Merkmalsvektor-Komponenten in dem Merkmalsvektor 109 jeweils die zeitliche erste Ableitung sowie die zeitliche zweite Ableitung der Cepstrum-Koeffizienten in dem Merkmalsvektor 109 als Super-Merkmalsvektor zusammengefasst und werden dem Rechner 110 zugeführt.That by means of the feature extraction unit 108 formed cepstrum coefficients, the 13 coefficients of the feature vectors 109 are formed as feature vector components of two successive time windows of the size of 10 msec or 15 msec in the feature vector 109 saved. Furthermore, as feature vector components in the feature vector 109 in each case the temporal first derivative and the temporal second derivative of the cepstrum coefficients in the feature vector 109 summarized as a super feature vector and are the computer 110 fed.

In dem Rechner 110 ist in Form eines Computerprogramms eine Spracherkennungseinheit realisiert und in dem Speicher 113 gespeichert, welche Spracherkennungseinheit auf dem Prinzip der Hidden Markov Modelle basiert. Somit erfolgt mittels des Computerprogramms eine sprecherunabhängige Spracherkennung.In the calculator 110 a speech recognition unit is implemented in the form of a computer program and in the memory 113 stored, which speech recognition unit is based on the principle of the Hidden Markov models. A speaker-independent speech recognition thus takes place by means of the computer program.

Mittels der jeweiligen Hidden-Markov-Modelle 202, wobei jeweils ein Hidden-Markov-Modell 202 einem Wörterbucheintrag 201 in dem elektronischen Wörterbuch 200 eindeutig zugeordnet ist, werden Realisierungen erzeugt, das heißt eine Folge von gemäß den Wahrscheinlichkeits-Angaben für die Erzeugungswahrscheinlichkeiten und den Zustands-Übergangswahrscheinlichkeiten des jeweiligen Hidden-Markov-Modells 202 erzeugten Phonemen.Using the respective hidden Markov models 202 , each with a hidden Markov model 202 a dictionary entry 201 in the electronic dictionary 200 Realizations are uniquely assigned, that is to say a sequence of according to the probability information for the generation probabilities and the state transition probabilities of the respective Hidden Markov model 202 generated phonemes.

3 zeigt einen Vergleichsraum 300, in dem üblicherweise die Abstandsberechnung zur Berechnung des Abstandes zweier Realisierungen von zwei HMMs durchgeführt wird, in einer anschaulichen Skizze. 3 shows a comparison room 300 , in which the distance calculation for calculating the distance between two implementations of two HMMs is usually carried out in a clear sketch.

Die einzelnen Hidden-Markov-Modelle 202 sind in Form von Clustern 301 in 3 dargestellt und symbolisieren eine Mehrzahl von Realisierungen der jeweiligen HMMs 202, welche Realisierungen innerhalb des Vergleichsraums 300 entsprechend der jeweiligen Wahrscheinlichkeits-Verteilung in einer vorgegebenen lokalen Umgebung um den oder die Prototypen des jeweiligen HMMs 202 liegen.The individual hidden Markov models 202 are in the form of clusters 301 in 3 shown and symbolize a plurality of realizations of the respective HMMs 202 what realizations within the comparison space 300 according to the respective probability distribution in a given local environment around the prototype (s) of the respective HMM 202 lie.

In den 5A bis 5D sind in einem Ablaufdiagramm 500 die einzelnen Verfahrensschritte des Ausführungsbeispiels der Erfindung dargestellt.In the 5A to 5D are in a flow chart 500 the individual process steps of the embodiment of the invention are shown.

Das erfindungsgemäße Verfahren verwendet lediglich die Information, die in dem Codebuch ohnehin schon vorhanden ist. Eine grundlegende Idee der Erfindung kann darin gesehen werden dass, wie im Folgenden noch näher erläutert wird, der mittlere Intra-HMM-Abstand jedes Wörterbucheintrags berechnet und mit den Wortabständen des Wörterbucheintrags zu den anderen Wörterbucheintrags-HMMs verglichen wird.The method according to the invention only uses the information that is already available in the code book anyway. A basic idea of the invention can be seen in that as below explained is calculated, the mean intra-HMM distance of each dictionary entry and with the word spacing of the dictionary entry to the other dictionary entry HMMs is compared.

Nach Starten des Verfahrens (Schritt 501) wird ein Schwellenwert Θ_S mit dem relativen Minimum-Trennbarkeits-Abstand gesetzt (Schritt 502).After starting the method (step 501), a threshold value Θ _{S is set} with the relative minimum separability distance (step 502).

Anschließend wird ein Satz, d.h. eine Mehrzahl von Wörterbucheinträgen in das elektronische Wörterbuch 200 eingegeben oder angepasst an vorgegebene Anforderungen (Schritt 503), womit sich ein Satz von Wörterbucheinträgen ergibt gemäß folgender Vorschrift: W = {w1, w2, ...,wn}. (1) Then a sentence, ie a plurality of dictionary entries in the electronic dictionary 200 entered or adapted to predetermined requirements (step 503), which means a set of Dictionary entries result according to the following rule: W = {w 1 , w 2 , ..., w n }. (1)

Jedem Wörterbucheintrag w_i ist jeweils, wie oben beschrieben, ein Hidden Markov Modell, welches den entsprechenden Wörterbucheintrag w_i repräsentiert, zugeordnet, gemäß folgender Vorschrift: H = {H1, H2,..., Hn}. (2) As described above, each dictionary entry w _i is assigned a hidden Markov model, which represents the corresponding dictionary entry w _i , in accordance with the following rule: H = {H 1 , H 2 ,..., H n }. (2)

In einem nachfolgenden Schritt (Schritt 504) wird aus dem elektronischen Wörterbuch 200 ein Wörterbucheintrag 201 ausgewählt und für den Fall, dass noch kein HMM zu dem Wörterbucheintrag 201 gebildet ist, wird das Hidden Markov Modell zu dem Wörterbucheintrag gebildet, d.h. trainiert (Schritt 505).In a subsequent step (step 504) the electronic dictionary becomes 200 a dictionary entry 201 selected and in the event that there is still no HMM for the dictionary entry 201 is formed, the hidden Markov model for the dictionary entry is formed, ie trained (step 505).

Ist dem Wörterbucheintrag 201 schon ein HMM als Wörterbuchseintrags-HMM 202 zugeordnet, so wird das entsprechende Wörterbucheintrags-HMM 202 in Schritt 505 ausgewählt.Is the dictionary entry 201 already an HMM as a dictionary entry HMM 202 assigned, the corresponding dictionary entry HMM 202 selected in step 505.

Um sicherzustellen, dass jeder Wörterbucheintrag ein ihm eindeutig zugeordnetes und darauf trainiertes Wörterbucheintrags-HMM 202 aufweist, wird in einem nachfolgenden Schritt (Schritt 506) geprüft, ob schon für alle Wörterbucheinträge ein entsprechendes Wörterbucheintrags-HMM gebildet worden ist.To ensure that each dictionary entry has a dictionary entry HMM clearly assigned to it and trained on it 202 is checked in a subsequent step (step 506) whether a corresponding dictionary entry HMM has already been formed for all dictionary entries.

Ist dies nicht der Fall, so wird ein nächster Wörterbucheintrag aus dem elektronischen Wörterbuch 200 ausgewählt, zu dem noch kein Wörterbuch-HMM 202 gebildet worden ist (Schritt 507) und es wird ein zugehöriges HMM zu dem ausgewählten Wörterbucheintrag trainiert und somit gebildet.If this is not the case, then a next dictionary entry from the electronic dictionary 200 selected, for which no dictionary HMM 202 has been formed (step 507) and an associated HMM is trained and thus formed for the selected dictionary entry.

Die Schritte 505, 506 und 507 werden somit für alle Wörterbucheinträge des elektronischen Wörterbuchs 202 durchgeführt.Steps 505, 506 and 507 are thus for all dictionary entries of the electronic dictionary 202 carried out.

Sind für alle Wörterbucheinträge 201 in dem elektronischen Wörterbuch 200 Wörterbucheintrags-HMMs 202 gebildet, so wird in einem nachfolgenden Schritt (Schritt 508) aus dem elektronischen Wörterbuch 200 ein Wörterbucheintrags-HMM als erstes Wörterbucheintrags-HMM ausgewählt.Are for all dictionary entries 201 in the electronic dictionary 200 Dictionary entry HMM 202 is formed, then in a subsequent step (step 508) from the electronic dictionary 200 a dictionary entry HMM is selected as the first dictionary entry HMM.

Unter Verwendung des ausgewählten ersten Wörterbucheintrags-HMM wird eine Vielzahl von Realisierungen des Wörterbucheintrags-HMM gebildet und unter Verwendung der ermittelten Realisierungen wird der Intra-HMM-Abstand, d.h. der Abstand der Realisierungen des ersten Wörterbucheintrags-HMM berechnet (Schritt 509).Using the selected first Dictionary entry HMM will be a variety of realizations of the dictionary entry HMM is formed and using the realizations determined Intra-HMM distance, i.e. the distance between realizations of the first Dictionary Entry HMM calculated (step 509).

Die Ermittlung des Abstandes zwischen zwei Realisierungen eines HMMs erfolgt in entsprechender Weise, wie im Folgenden noch näher erläutert, wie die Ermittlung des Abstandes zwischen zwei Realisierungen unterschiedlicher HMMs.Determining the distance between two implementations of an HMM take place in a corresponding manner, as below explains how to determine the distance between two realizations different HMM.

Der jeweilige Intra-HMM-Abstand des ausgewählten ersten Wörterbucheintrags-HMMs H ^ ∈ H wird im Folgenden mit d(H ^) bezeichnet.The respective intra-HMM distance of the chosen first dictionary entry HMMs H ^ ∈ H becomes hereinafter referred to as d (H ^).

In einem nächsten Schritt (Schritt 510) wird ein anderes, d.h. von dem ausgewählten ersten Wörterbucheintrags-HMM unterschiedliches Wörterbucheintrags-HMM aus dem elektronischen Wörterbuch 200 als zweites Wörterbucheintrags-HMM ausgewählt und unter Verwendung einer Vielzahl von Realisierungen des ersten Wörterbucheintrags-HMM und einer Vielzahl von Realisierungen des ausgewählten zweiten Wörterbucheintrags-HMM wird, wie im Folgenden näher erläutert, der mittlere Inter-HMM-Abstand zwischen dem ersten Wörterbucheintrags-HMM und dem zweiten Wörterbucheintrags-HMM gebildet (Schritt 511).In a next step (step 510), another dictionary entry HMM, that is different from the selected first dictionary entry HMM, becomes the electronic dictionary 200 is selected as the second dictionary entry HMM and, using a plurality of implementations of the first dictionary entry HMM and a plurality of implementations of the selected second dictionary entry HMM, the mean inter-HMM distance between the first dictionary entry HMM is explained in more detail below and the second dictionary entry HMM (step 511).

Zur Darstellung des Verfahrens zum Berechnen des mittleren HMM-Abstands (d.h. sowohl des mittleren Intra-HMM-Abstands als auch des mittleren Inter-HMM-Abstands) wird zunächst kurz auf einige Grundlagen in der Spracherkennung eingegangen.To illustrate the procedure for Calculate the mean HMM distance (i.e. both the mean Intra-HMM distance as well as the mean inter-HMM distance) first briefly dealt with some basics in speech recognition.

Ziel der Spracherkennung ist es, eine gesprochene Äußerung in eine Folge von Symbolen wie beispielsweise Worte oder Phoneme zu übersetzen. Übliche, auf HMMs basierende Spracherkennungs-Systeme sind derart eingerichtet, dass ein eingegebenes Sprachsignal, wie oben erläutert wurde, abgetastet wird und die Abtastwerte s(t) in eine Folge von Merkmalsvektoren f(t) abgebildet werden mittels des oben beschriebenen Verfahrens der Merkmals-Extraktion, wobei sich die Folge von Merkmalsvektoren f(t) ergibt gemäß folgender Vorschrift: s(t) → f(t). (3) The goal of speech recognition is to translate a spoken utterance into a sequence of symbols such as words or phonemes. Conventional speech recognition systems based on HMMs are set up such that an input speech signal, as explained above, is sampled and the sampled values s (t) are mapped into a sequence of feature vectors f (t) by means of the above-described method of Extraction, whereby the sequence of feature vectors f (t) results according to the following rule: s (t) → f (T). (3)

Die Folge der Merkmalsvektoren wird in eine Folge von Symbolen w_k unter Anwendung des Viterbi-Dekodierungs-Algorithmus gemäß folgender Vorschrift abgebildet: f(t) → wk. (4) The sequence of the feature vectors is mapped into a sequence of symbols w _k using the Viterbi decoding algorithm in accordance with the following regulation: f (t) → w k , (4)

Das Viterbi-Dekodierungsverfahren basiert auf den Hidden-Markov-Modellen. Es ist anzumerken, dass mit t ein Zeitparameter bezeichnet wird, wobei der Index k verwendet wird, um zu kennzeichnen, dass ein asychroner Zusammenhang zu der Zeit t existiert. Das Viterbi-Dekodierungsverfahren wird im folgenden näher erläutert.The Viterbi decoding method is based on the hidden Markov models. It should be noted that a time parameter is denoted by t, the index k being used to denote that an asynchronous relationship exists at time t. The Viterbi decoding method is described in more detail below explained.

Hidden-Markov-Modelle sind stochastische Modelle, welche die Beziehung zwischen einer Folge von Merkmalsvektoren und einem Symbol beschreiben, das heißt, jeweils einem Symbol w_k entspricht ein Hidden-Markov-Modell H_k. Der Ausdruck "hidden" resultiert aus dem an sich unbekannten, "wahren" Symbol w T / k, das zunächst geäußert wurde, und aus dem die Folge von Merkmalsvektoren gebildet wurde.Hidden Markov models are stochastic models that describe the relationship between a sequence of feature vectors and a symbol, that is to say that a symbol w _k corresponds to a hidden Markov model H _k . The expression "hidden" results from the "true" symbol w T / k, which is unknown per se and which was initially uttered, and from which the sequence of feature vectors was formed.

Die Äußerung stellt sich somit als folgende Abbildung dar: wTk → s(t). (5) The statement is shown as the following figure: w T k → s (t). (5)

Diese Äußerung soll mittels des Spracherkennungs-Systems erkannt werden. Im Idealfall ist das ermittelte Symbol w_k, welches mittels der Viterbi-Dekodierung ermittelt worden ist, gleich dem geäußerten Symbol w T / k. This statement should be recognized by means of the speech recognition system. In the ideal case, the determined symbol w _k , which was determined by means of Viterbi decoding, is equal to the expressed symbol w T / k.

Ein HMM kann eingesetzt werden, um Sprache unter Verwendung einer Vielzahl unterschiedlicher lautsprachlicher Einheiten zu modellieren, beispielsweise Wörter, Silben, Halbsilben, Phoneme, bis hin zu Phonemsegmenten.An HMM can be used to Language using a variety of different spoken language Model units, such as words, syllables, half-syllables, phonemes, down to phoneme segments.

Umgekehrt kann ein Wortmodell unter Verwendung eines HMMs konstruiert werden durch Konkatenation von Phonemsegmenten, Phonemen, Halbsilben, Silben bis hin zu Wörtern. Somit werden die Wörterbuch-Einträge w_k 201, die die suchbaren und zu erkennenden Wörter darstellen, welche in dem elektronischen Wörterbuch 200 gespeichert sind, mittels des jeweiligen HMMs H_k 202 modelliert.Conversely, a word model can be constructed using an HMM by concatenating phoneme segments, phonemes, half-syllables, syllables to words. Thus the dictionary entries w _k 201 representing the searchable and recognizable words found in the electronic dictionary 200 are stored, by means of the respective HMM H _k 202 modeled.

Mathematisch betrachtet weist ein HMMH die folgenden Elemente aufFrom a mathematical point of view HMMH the following items

1. The number n H of the HMM states,
2. The state transition probability a H (j | i) for a transition from an initial state i to a final state j, and
3. The emission probabilities p H ( f | i) for emitting a feature vector f in the state i.

Die Emissions-Wahrscheinlichkeiten p^H(f|i) werden als kontinuierliche Gauss-Mischwahrscheinlichkeits-Dichten modelliert gemäß folgenden Vorschriften:

wobei mit c H / il die Mischgewichte, mit (σ H / il)² die Mischvarianzen und mit x H / il die Misch-Zentren bezeichnet werden. Die Vektoren x H / il werden auch als Prototypen bezeichnet. Die Gesamtheit aller Prototypen und Mischgewichte aller gespeicherten HMMs wird als Codebuch bezeichnet.The emission probabilities p ^H ( f | i) are modeled as continuous Gaussian mixed probability densities according to the following regulations:

where c H / il denotes the mixing weights, (σ H / il) ² the mixing variances and x H / il the mixing centers. The vectors x H / il are also referred to as prototypes. The entirety of all prototypes and mixed weights of all stored HMMs is referred to as a code book.

Gemäß diesem Ausführungsbeispiel werden folgende Vereinfachungen angenommen.According to this embodiment the following simplifications are assumed.

Zunächst werden die Zustands-Übergangswahrscheinlichkeiten derart eingestellt, dass sie im Wesentlichen unabhängige Werte modellieren, das heißt, dass gilt: aH(j|i)) = atrans (8)wobei trans entweder eine Selbstschleife (j = i) repräsentiert, einen Ein-Schritt-Zustandsübergang (j = i + 1) oder einen Zwei-Schritt-Zustandsübergang (skip, j = i + 2) oder größere Zustands-Übergänge, das heißt Zustands-Übergänge mit mehr als einem übersprungenen Folgezustand (j > i + 2 und j < i).First, the state transition probabilities are set in such a way that they essentially model independent values, that is, the following applies: a H (j | i)) = a trans (8th) where trans represents either a self-loop (j = i), a one-step state transition (j = i + 1) or a two-step state transition (skip, j = i + 2) or larger state transitions, i.e. state - Transitions with more than one skipped subsequent state (j> i + 2 and j <i).

Zur Vereinfachung der Berechnung wird ohne Einschränkung der Allgemeingültigkeit angenommen:

und aother = 0. (10) To simplify the calculation, the following is assumed without restricting the general validity:

and a other = 0. (10)

Diese Parameterwahl ermöglicht es, Zustands-Übergangswahrscheinlichkeiten zu irgendeiner späteren Berechnung zu ignorieren unter der Voraussetzung, dass kein Zustands-Übergang außer einer Selbstschleife, einem Ein- Schritt-Zustandsübergang und einem Zwei-Schritt-Zustandsübergang vorkommt.This choice of parameters enables state transition probabilities to be late at any time Ignore their calculation provided that there is no state transition other than a self-loop, a one-step state transition, and a two-step state transition.

Ferner werden die Varianzen aller Misch-Wahrscheinlichkeits-Dichten auf einen fest vorgegebenen Wert eingestellt, das heißt, es gilt: σHil = σ. (11) In addition, the variances of all mixed probability densities are set to a fixed value, that is, the following applies: σ H il = σ. (11)

In diesem Fall ist es sehr einfach, einen normierten negativen Logarithmus der Wahrscheinlichkeit zu berechnen, der gemäß folgender Vorschrift approximiert wird:

wobei mit c ~ H / iw der skalierte Logarithmus des Mischgewichts und mit w der "beste" Prototyp bezeichnet wird, der sich ergibt gemäß folgender Vorschrift:

In this case, it is very easy to calculate a normalized negative logarithm of the probability, which is approximated according to the following rule:

where c ~ H / iw denotes the scaled logarithm of the mixed weight and w denotes the "best" prototype, which results from the following rule:

Die Variable q^H(f|i) wird als lokales Ergebnis bezeichnet.The variable q ^H ( f | i) is called the local result.

Für ein gegebenes HMM H wird das globale Ergebnis auf folgende Weise berechnet.For a given HMM H becomes the global result in the following way calculated.

Gegeben ist ein Alignment A gemäß folgender Vorschrift: A(f(t)) = i, (14)das heißt, eine Abbildung jedes Merkmalsvektors auf die Folge eines HMM-Zustands, wobei die Summe aller lokalen Ergebnisse g^H(f(t)|i) in dem Alignment A(f(t)) in der Variable Q^H(f(t), A) gespeichert wird. Das Minimum der gesamten Summen wird als globales Ergebnis Q^H(f(t)) bezeichnet und ergibt sich gemäß folgender Vorschrift:

Alignment A is given in accordance with the following regulation: A ( f (t)) = i, (14) that is, a mapping of each feature vector to the sequence of an HMM state, the sum of all local results g ^H ( f (t) | i) in the alignment A ( f (t)) in the variable Q ^H ( f (t ), A) is saved. The minimum of the total sums is called the global result Q ^H ( f (t)) and results according to the following rule:

Es ist anzumerken, dass das optimale Alignment A^H dem globalen Ergebnis Q^H(f(t)) entspricht.It should be noted that the optimal alignment A ^H corresponds to the global result Q ^H ( f (t)).

Mittels des zur Spracherkennung eingesetzten Viterbi-Algorithmus wird das HMM H^* aus der Liste aller in dem Wörterbuch 200 enthaltenen HMMs H_k 202 ermittelt, welches das geringste globale Ergebnis entsprechend einer gegebenen Folge von Merkmals-Vektoren f(t) aufweist, das heißt, das folgender Vorschrift genügt:

Using the Viterbi algorithm used for speech recognition, the HMM H ^{* is} removed from the list of all in the dictionary 200 contained HMMs H _k 202 determined which has the lowest global result corresponding to a given sequence of feature vectors f (t), that is, the following rule is sufficient:

Das oben beschriebene Verfahren wird als Viterbi-Dekodierung bezeichnet und H^* wird als das Erkennungsergebnis bezeichnet.The method described above is called Viterbi decoding and H ^* is called the recognition result.

Der mittlere HMM-Abstand basiert auf der Umkehrung des oben beschriebenen Verfahrens zur Ermittlung des besten HMMs H^* im Rahmen der Spracherkennung.The mean HMM distance is based on the reversal of the method described above for determining the best HMM H ^* in the context of speech recognition.

Ausgehend und unter Verwendung von einem gegebenen HMM H, werden Folgen von Merkmals-Vektoren f(t), bezeichnet als Realisierungen eines HMMs, erzeugt und miteinander verglichen.Starting with and using a given HMM H, sequences of feature vectors f (t), referred to as realizations of an HMM, are generated and compared with one another.

Es wird angenommen, dass ein HMMH n Zustände aufweist und einem Symbol w zugeordnet ist und den zuvor beschriebenen Vereinfachungen unterliegt.It is believed that an HMMH n states has and is assigned a symbol w and those previously described Simplifications is subject.

Gemäß diesem Ausführungsbeispiel wird eine Realisierung des Hidden-Markov-Modells H, das heißt eine Folge f(t) von Merkmalsvektoren, erzeugt, indem folgendes Verfahren, welches auch als Monte-Carlo-Abtastung bezeichnet wird, durchgeführt wird:
Zunächst wird in dem Zustand i = 1 des HMMs H begonnen und die Variable t = 1 gesetzt.According to this exemplary embodiment, a realization of the hidden Markov model H, that is to say a sequence f (t) of feature vectors, is generated by carrying out the following method, which is also referred to as Monte Carlo scanning:
First, the state i = 1 of the HMM H is started and the variable t = 1 is set.

Anschließend wird der 1-te der m H / i Wahrscheinlichkeits-Dichten gemäß den Mischgewichten c H / il ausgewählt.Then the 1st of the m H / i probability densities according to the mixed weights c H / il selected.

Anschließend wird die Emission des Merkmalsvektors f(t) mittels Abtastung der Gauss-Wahrscheinlichkeit P H / il(f) erzeugt.The emission of the feature vector f (t) is then generated by scanning the Gauss probability PH / il ( f ).

Anschließend wird die Variable t um den Wert 1 erhöht.Then the variable t turns around increases the value 1.

In einem fünften Schritt wird ausgewählt, ob für den nächsten Zeitschritt im Rahmen des Zustands-Übergangs eine Selbstschleife, ein Ein-Schritt-Zustandsübergang oder ein Zwei-Schritt-Zustandsübergang durchgeführt wird und der Wert i wird entsprechend dem gewählten Zustandsübergang angepasst.A fifth step is to choose whether for the next Time step as part of the state transition a self-loop, a one-step state transition or a two-step state transition carried out and the value i becomes corresponding to the selected state transition customized.

Wenn gilt i < n, dann wird zu Schritt 2 zurückgekehrt, sonst wird T = t – 1 gesetzt und das Verfahren wird beendet.If i <n then return to step 2 otherwise T = t - 1 set and the procedure is ended.

Auf diese Weise wird eine Folge von Merkmalsvektoren f(t) erzeugt, wobei die Anzahl T von erzeugten Merkmalsvektoren f(t) von n abhängt, üblicherweise jedoch nicht gleich n ist.In this way, a sequence of feature vectors f (t) is generated, the number T of generated feature vectors f (t) depending on n, but is usually not equal to n.

Der Abstand zwischen zwei Realisierungen, das heißt zwischen zwei Merkmalsvektoren f ₁(t) und f ₂(t) zweier beliebiger HMMs wird auf folgende Weise berechnet.The distance between two implementations, that is to say between two feature vectors f ₁ (t) and f ₂ (t) of any two HMMs, is calculated in the following way.

Zunächst wird in gleicher Weise wie bei der Viterbi-Dekodierung ein Alignment A, wie oben beschrieben, zwischen den zwei Folgen von Merkmalsvektoren gebildet, das heißt, es erfolgt eine Abbildung jedes Vektors einer ersten Merkmals-Vektor-Folge auf einen Vektor einer zweiten, damit zu vergleichenden Merkmals-Vektor-Folge.First, in the same way like Viterbi decoding an alignment A, as described above, between the two sequences formed by feature vectors, that is, a mapping takes place each vector of a first feature vector sequence onto a vector one second feature vector sequence to be compared.

Das Alignment A hat gemäß diesem Ausführungsbeispiel die folgenden Eigenschaften:Alignment A has according to this embodiment the following properties:

1. Alignment A is clearly defined, that is, A applies: f 1 (t) → f 2 (t) exists for all f 1 (t), and
2. Alignment A is injective, ie for all f 2 (t) there exists f 1 (t) with A: f 1 (t) → f 2 (t).

Es ist anzumerken, dass üblicherweise gilt T₁ ≠ T₂ und deshalb die Abbildung nicht unbedingt bijektiv ist.It should be noted that usually T ₁ ≠ T ₂ and therefore the mapping is not necessarily bijective.

Anschließend werden die gegebenen Alignments A der euklidischen Vektor-Distanzen |f ₁(t) – A·f ₁(t))|² zu dem _Abstand d(A, f ₁(t), f ₂(t)) gemäß folgender Vorschrift akkumuliert:

Then the given alignments A of the Euclidean vector distances | f ₁ (t) - A · f ₁ (t)) | ² to the opening gap _A d (A, f ₁ (t), f ₂ (t)) using the following rule accumulated:

Das Minimum aller akkumulierten Distanzen ist der Abstand d(f ₁(t), f ₂(t)) zwischen den zwei HMM-Realisierungen f ₁(t) und f2(t) gemäß folgender Vorschrift:

The minimum of all accumulated distances is the distance d ( f ₁ (t), f ₂ (t)) between the two HMM implementations f ₁ (t) and f2 (t) according to the following rule:

Dieser Wert kann auf einfache Weise berechnet werden unter Verwendung des DTW-Verfahrens (Dynamic Time Warping-Verfahren), welches die oben beschriebenen Eigenschaften erfüllt. Es ist anzumerken, dass die Definition des Abstandes zwischen zwei HMM-Realisierungen der Berechnung des globalen Ergebnisses einer Folge f(t) hinsichtlich eines HMMs H gleicht, wenn das skalierte Mischungsgewicht auf den Wert Null gesetzt wird.This value can be calculated in a simple manner using the DTW method (Dynamic Time Warping method), which fulfills the properties described above. It should be noted that the definition of the distance between two HMM implementations is similar to the calculation of the global result of a sequence f (t) with respect to an HMM H when the scaled mixture weight is set to zero.

Die mittlere HMM-Distanz (mittlerer HMM-Abstand) zwischen zwei HMMs ist definiert durch die Bildung des Mittelwerts über die Abstände zwischen Realisierungen der zwei HMMs, nämlich gemäß folgender Vorschrift:

wobei gilt: f _a(t) ⊂ H_a. Diese Vorschrift ist eine Bezeichnung des Ausdrucks "f _a(t) ist eine Realisierung des HMMs H_a". Es ist anzumerken, dass die mittlere Intra-HMM-Distanz d(H) definiert ist gemäß folgender Vorschrift: d(H) = d(H, H). (20) The mean HMM distance (mean HMM distance) between two HMMs is defined by forming the mean over the distances between realizations of the two HMMs, namely according to the following rule:

where: f _a (t) ⊂ H _a . This regulation is a designation of the expression " f _a (t) is a realization of the HMM H _a ". It should be noted that the mean intra-HMM distance d (H) is defined according to the following rule: d (H) = d (H, H). (20)

Der mittlere Intra-HMM-Abstand braucht nicht Null zu sein.The mean intra-HMM distance needs not to be zero.

Somit ist der mittlere Inter-HMM-Abstand zwischen dem ersten Wörterbucheintrags-HMM und dem zweiten Wörterbucheintrags-HMM gebildet (Schritt 511). Auf die entsprechende Weise wird auch der jeweilige mittlere Intra-HMM-Abstand in Schritt 509 berechnet.Hence the mean inter-HMM distance between the first dictionary entry HMM and the second dictionary entry HMM formed (step 511). In the same way, the respective mean intra-HMM distance calculated in step 509.

Anschließend wird überprüft, ob der jeweilige Inter-HMM-Abstand von dem ausgewählten ersten Wörterbucheintrags-HMM zu allen in dem elektronischen Wörterbuch sonst gespeicherten Wörterbucheintrags-HMM ermittelt worden ist (Schritt 512), und, wenn dies nicht der Fall ist, wird ein nächstes anderes Wörterbucheintrags-HMM aus dem elektronischen Wörterbuch 200 als zweites Wörterbucheintrags-HMM ausgewählt (Schritt 513) und es wird für dieses ausgewählte Wörterbucheintrags-HMM der Inter-HMM-Abstand zwischen dem ausgewählten ersten Wörterbucheintrags-HMM und dem nunmehr zweiten Wörterbucheintrags-HMM ermittelt (Schritt 511).It is then checked whether the respective inter-HMM distance from the selected first dictionary entry HMM to all dictionary entry HMMs otherwise stored in the electronic dictionary has been determined (step 512), and if this is not the case, the next one another dictionary entry HMM from the electronic dictionary 200 selected as the second dictionary entry HMM (step 513) and the inter-HMM distance between the selected first dictionary entry HMM and the now second dictionary entry HMM is determined for this selected dictionary entry HMM (step 511).

Anders ausgedrückt bedeutet dies, dass ein Inter-HMM-Abstand ermittelt wird von dem ausgewählten ersten Wörterbucheintrags-HMM zu allen anderen Wörterbucheintrags-HMMs 202 in dem elektronischen Wörterbuch 200.In other words, an inter-HMM distance is determined from the selected first dictionary entry HMM to all other dictionary entry HMMs 202 in the electronic dictionary 200 ,

Der mittlere Inter-HMM-Abstand wird im Folgenden als d(H ^,H') bezeichnet.The mean inter-HMM distance is hereinafter referred to as d (H ^, H ') designated.

Ist der Inter-HMM-Abstand d(H ^,H') von dem ausgewählten ersten Wörterbucheintrags-HMM zu allen anderen Wörterbucheintrags-HMMs des elektronischen Wörterbuchs 200 ermittelt worden, so wird dasjenige zweite Wörterbucheintrags-HMM ermittelt, das dem ausgewählten ersten Wörterbucheintrags-HMM in dem verwendeten Suchraum am nächsten liegt, d.h. dessen Inter-HMM-Abstand d(H ^,H') minimal ist. Anders ausgedrückt, es wird dasjenige zweite Wörterbucheintrags-HMM H ermittelt gemäß folgender Vorschrift:

Is the inter-HMM distance d (H ^, H ') from the selected first dictionary entry HMM to all other dictionary entry HMMs of the electronic dictionary 200 that second dictionary entry HMM is determined which is closest to the selected first dictionary entry HMM in the search space used, ie its inter-HMM distance d (H ^, H ') is minimal. In other words, the second dictionary entry HMM H is determined according to the following rule:

Das nächstliegende zweite Wörterbucheintrags-HMM wird in einem folgenden Schritt gespeichert (Schritt 514) (vergleiche 5C).The closest second dictionary entry HMM is saved in a subsequent step (step 514) (compare 5C ).

Anschließend wird gemäß folgender Vorschrift die Differenz auf dem mittleren Inter-HMM-Abstand zwischen dem ermittelten zweiten Wörterbucheintrags-HMM zu dem ausgewählten ersten Wörterbucheintrags-HMM und dem Intra-HMM-Abstand des ausgewählten ersten Wörterbucheintrags-HMM ermittelt und gespeichert (Schritt 515):

The difference between the mean inter-HMM distance between the determined second dictionary entry HMM and the selected first dictionary entry HMM and the intra-HMM distance of the selected first dictionary entry HMM is then determined and stored (step 515):

Unter Verwendung der ermittelten Differenz wird in einem nachfolgenden Schritt (Schritt 516) ein relativer Trennbarkeits-Abstand berechnet und gespeichert gemäß folgender Vorschrift:

Using the determined difference, a relative separability distance is calculated in a subsequent step (step 516) and stored in accordance with the following rule:

Ist der ermittelte und gespeicherte relative Trennbarkeits-Abstand größer als der vorgegebene Schwellenwert des relativen Minimum-Trennbarkeits-Abstands Θ_S (Prüfschritt 517), so sind die beiden überprüften Wörterbucheinträge, d.h. die beiden überprüften Wörterbucheintrags-HMMs einander ausreichend unähnlich, d.h. in dem Suchraum voneinander ausreichend weit beabstandet, und das erste Wörterbucheintrags-HMM und der zugehörige Wörterbucheintrag wird akzeptiert (Schritt 518).If the determined and stored relative separability distance is greater than the predetermined threshold value of the relative minimum separability distance Θ _S (test step 517), then the two checked dictionary entries, that is to say the two checked dictionary entry HMMs, are sufficiently dissimilar to one another, that is to say in the search space spaced apart sufficiently and the first dictionary entry HMM and associated dictionary entry are accepted (step 518).

Ist jedoch der relative Trennbarkeits-Abstand nicht größer als der vorgegebene Schwellenwert, d.h. die folgende Vorschrift nicht erfüllt ist:

so wird das erste Wörterbucheintrags-HMM und der zugehörige Wörterbucheintrag als kritisch markiert.However, if the relative separability distance is not greater than the specified threshold value, ie the following requirement is not met:

the first dictionary entry HMM and the associated dictionary entry are marked as critical.

Anschließend wird überprüft, ob der Intra-HMM-Abstand schon für alle Wörterbucheintrags-HMMs und damit für alle Wörterbucheinträge des elektronischen Wörterbuchs 200 ermittelt worden ist (Schritt 520).It is then checked whether the intra-HMM distance already exists for all dictionary entry HMMs and thus for all dictionary entries in the electronic dictionary 200 has been determined (step 520).

Ist dies nicht der Fall, so wird ein nächstes Wörterbucheintrags-HMM als erstes Wörterbucheintrags-HMM ausgewählt, für das noch kein Intra-HMM-Abstand ermittelt worden ist (Schritt 521). Für das als neues erstes Wörterbucheintrags-HMM ausgewählte Wörterbucheintrags-HMM werden die Schritte 503 bis 520 erneut durchgeführt.If this is not the case, then another one Dictionary entry HMM as the first dictionary entry HMM selected, for the an intra-HMM distance has not yet been determined (step 521). For the as the new first dictionary entry HMM selected Dictionary entry HMM steps 503 to 520 are carried out again.

Anders ausgedrückt bedeutet dies, dass für alle Wörterbucheintrags-HMM jeweils ein Intra-HMM-Abstand und dazu ein jeweiliger Inter-HMM-Abstand zu allen anderen Wörterbucheintrags-HMMs des elektrischen Wörterbuchs 200 ermittelt worden ist.In other words, this means that an intra-HMM distance for each dictionary entry HMM and, in addition, a respective inter-HMM distance to all other dictionary entry HMMs of the electrical dictionary 200 has been determined.

Ergebnis des oben beschriebenen Verfahrens ist die in 4 erfindungsgemäß erstellte Verwechslungsmatrix 400.The result of the method described above is that in 4 Confusion matrix created according to the invention 400 ,

Die wichtigsten Ergebnisse der erfindungsgemäßen Ermittlung der Verwechslungsmatrix 400 gegenüber der Verwechslungsmatrix 600 gemäß dem Stand der Technik werden im Folgenden kurz zusammengefasst:The most important results of the determination of the confusion matrix according to the invention 400 versus the confusion matrix 600 according to the state of the art are briefly summarized below:

1. The inventive, on the Monte Carlo process based procedure for determining a mix-up matrix also represents an elevated Risk of confusion between the two digits "zero" and "nine" and also reflects correctly, that the number "zero" is often confused with the number "nine" conversely, the number "nine" with the number "zero".
2. According to the invention, according to the confusion matrix determined 400 also correctly stated that the number "two" is confused with the number "three" more often than with the number "one". Furthermore, it is correctly stated that the number "three" is usually mistaken for the number "two" However, according to this exemplary embodiment, there are two discrepancies with the confusion matrix 600 According to the prior art: According to the exemplary embodiment of the invention, it is indicated that the number "two" is confused with the number "two", which is not the case, however. Furthermore, the number "one" is allegedly confused with the number "eight", which is also not the case.
3. The confusion matrix determined according to the invention also indicates 400 assumes that the number "two" is very often confused, which is not the case in reality.

Zusammenfassend ist festzustellen, dass in einigen kleinen Aspekten das erfindungsgemäße Monte Carlo Verfahren nicht vollständig zuverlässig ist, jedoch im Wesentlichen korrekte Modellierungen wiedergibt. Die in der Verwechslungsmatrix 400 anzutreffenden Unstimmigkeiten sind auf vereinfachte Annahmen in der Modellberechnung im Rahmen des Inter-HMM-Abstandes zurückzuführen: Die globale Varianz wurde auf den Wert σ = 0 gesetzt, so dass im Rahmen der Erzeugung von Realisierungen nur die Prototypen verwendet wurden und kein Gaussianisches Abtasten in der Wahrscheinlichkeitsverteilung angewendet wurde. Ferner wurden die Mischgewichte, die den Prototypen zugeordnet waren, ignoriert, was zu einer Überrepräsentation der unwahrscheinlichen Prototypen führt und zu einer Unterrepräsentation der wahrscheinlichen Prototypen. Ferner war gemäß diesem Ausführungsbeispiel die Anzahl der Zustände aller HMMs fest vorgegeben, d.h. jedes Wörterbucheintrags-HMM hatte 18 Zustände (3 × 3 × 2), wobei der erste Faktor die Anzahl von Phonemen, der zweite Faktor die Anzahl berücksichtigter Phonemsegmente und der dritte Faktor eine Verdopplung der Zustände in jedem Hidden Markov Modell beschreibt. Ferner wurden die Abstände nicht unter Verwendung des DTW-Verfahrens berechnet, da dies aufgrund der jeweils gleichen Anzahl von Zuständen in den Hidden Markov Modellen nicht erforderlich war.In summary, it can be stated that in some small aspects the Monte Carlo method according to the invention is not completely reliable, but does essentially reflect correct modeling. The one in the confusion matrix 400 discrepancies to be found can be attributed to simplified assumptions in the model calculation within the inter-HMM distance: the global variance was set to the value σ = 0, so that only the prototypes were used in the creation of realizations and no Gaussian sampling in the Probability distribution was applied. Furthermore, the mixed weights assigned to the prototypes were ignored, which leads to an overrepresentation of the unlikely prototypes and an underrepresentation of the probable prototypes. Furthermore, according to this exemplary embodiment, the number of states of all HMMs was predefined, ie each dictionary entry HMM had 18 States (3 × 3 × 2), where the first factor describes the number of phonemes, the second factor the number of considered phoneme segments and the third factor a doubling of the states in each Hidden Markov model. Furthermore, the distances were not calculated using the DTW method because this was not necessary due to the same number of states in the Hidden Markov models.

In einem nachfolgenden Schritt (Schritt 522) wird nunmehr überprüft, ob einzelne oder alle kritische Wörterbucheinträge aus dem elektronischen Wörterbuch 200 entfernt werden dürfen (Schritt 522).In a subsequent step (step 522), it is now checked whether individual or all critical dictionary entries from the electronic dictionary 200 allowed to be removed (step 522).

Ist dies der Fall, so wird der oder werden die zulässig zu entfernenden Wörterbucheinträge und die zugehörigen Wörterbucheintrags-HMMs aus dem elektronischen Wörterbuch entfernt (Schritt 523) und im Bedarfsfall durch andere, phonetisch besser geeignete Wörterbucheinträge und mit zugehörigen Wörterbucheintrags-HMMs ersetzt.If this is the case, the or will be allowed dictionary entries to be removed and the associated dictionary entry HMMs from the electronic dictionary removed (step 523) and, if necessary, by others, phonetically more suitable dictionary entries and with associated Dictionary entry HMM replaced.

Anschließend bzw. für den Fall, dass kein als kritischer Wörterbucheintrag markierter Wörterbucheintrag aus dem elektronischen Wörterbuch 200 entfernt werden darf, wird überprüft, ob der Schwellenwert für den relativen Minimum-Trennbarkeits-Abstand Θ_S verändert werden soll (Schritt 524).Subsequently or in the event that no dictionary entry from the electronic dictionary marked as a critical dictionary entry 200 may be removed, it is checked whether the threshold value for the relative minimum separability distance Θ _S should be changed (step 524).

Ist dies der Fall, so wird in einem nachfolgenden Schritt (Schritt 525) der Schwellenwert für den relativen Minimum-Trennbarkeits-Abstand verändert und das Verfahren beginnt neu in Schritt 503.If this is the case, then in one subsequent step (step 525) the threshold for the relative Minimum distance Trennbarkeits changed and the process begins again in step 503.

Sind weder als kritisch markierte Wörterbucheinträge aus dem elektronischen Wörterbuch 200 zu entfernen noch der Schwellenwert für den relativen Minimum-Trennbarkeits-Abstand zu verändern, so wird das Verfahren beendet (Schritt 526).Are neither dictionary entries from the electronic dictionary marked as critical 200 If the threshold value for the relative minimum separability distance is still to be changed, the method is ended (step 526).

100100: SpracherkennungssystemVoice recognition system
101101: Sprachäußerungutterance
102102: Mikrofonmicrophone
103103: Analogsignalanalog signal
104104: Vorverstärkungseinheitpreamplification
105105: verstärktes Analogsignalamplified analog signal
106106: Analog-/DigitalwandlerAnalog / digital converter
107107: digitales Signaldigital signal
108108: MerkmalsextraktionseinheitFeature extraction unit
109109: Merkmalsvektorenfeature vectors
110110: Rechnercomputer
111111: EingangsschnittstelleInput interface
112112: Mikroprozessormicroprocessor
113113: SpeicherStorage
114114: AusgangsschnittstelleOutput interface
115115: Computerbuscomputer bus
116116: Tastaturkeyboard
117117: Computermauscomputer mouse
118118: elektrische Leitungelectrical management
119119: elektrische Leitungelectrical management
120120: Verbindungconnection
121121: Verbindungconnection
122122: Lautsprecherspeaker
123123: Aktoractuator
200200: Elektronisches Wörterbuchelectronic dictionary
201201: Worteintragword entry
202202: Hidden Markov ModellHidden Markov model
300300: VergleichsraumCompare room
301301: Wörterbucheintrags-HMMDictionary entry HMM
302302: Fehlerwort-HMMFault word HMM
303303: Mittlerer HMM-Abstandmiddle HMM-distance
400400: Verwechslungsmatrixconfusion matrix
500500: Ablaufdiagrammflow chart
501501: Startbegin
502502: Setzen Schwellenwert für relativen Minimum-Trennbarkeits-Put Threshold for relative minimum separability
: Abstanddistance
503503: Eingeben oder Anpassen Wörterbucheinträge inEnter or customize dictionary entries in
: elektronischem Wörterbuchelectronic dictionary
504504: Auswählen Wörterbucheintrag aus WörterbuchSelect dictionary entry from dictionary
505505: Bilden HMM für ausgewählten WörterbucheintragForm HMM for chosen Dictionary entry
506506: Für alle Wörterbucheinträge HMM gebildet?Formed HMM for all dictionary entries?
507507: Auswählen nächsten Wörterbucheintrag aus WörterbuchSelect the next dictionary entry from dictionary
508508: Auswählen Wörterbucheintrags-HMM aus Wörterbuch alsSelect dictionary entry HMM from dictionary as
: erstes Wörterbucheintrags-HMMfirst Dictionary entry HMM
509509: Berechnen Intra-HMM-Abstand des ausgewählten erstenTo calculate Intra-HMM distance of the selected one first
: Wörterbucheintrags-HMMDictionary entry HMM
510510: Auswählen anderes Wörterbucheintrags-HMM aus WörterbuchChoose another Dictionary entry HMM from dictionary
: als zweites Wörterbucheintrags-HMMas second dictionary entry HMM
511511: Berechnen mittlerer Inter-HMM-Abstand zwischenTo calculate mean inter-HMM distance between
: ausgewähltem ersten Wörterbucheintrags-HMM und zweitemselected first Dictionary entry HMM and second
: Wörterbucheintrags-HMMDictionary entry HMM
512512: Für alle zweiten Wörterbucheintrags-HMMs Inter-HMM-For every second Dictionary entry HMM Inter-HMM
: Abstand ermittelt?distance determined?
513513: Auswählen nächstes anderes Wörterbucheintrags-HMM alsSelect next other Dictionary entry HMM as
: zweites Wörterbucheintrags-HMMsecond Dictionary entry HMM
514514: Ermitteln des zweiten Wörterbucheintrags-HMM, das demDetermine the second dictionary entry HMM, that to
: ausgewählten ersten Wörterbucheintrags-HMM am Nächstenselected first Dictionary entry HMM the next
: liegtlies
515515: Ermitteln und Speichern Differenz aus mittlerem Inter-Determine and save difference from mean inter-
: HMM-Abstand zwischen dem ermittelten zweiten zu demHMM-distance between the determined second to the
: ausgewählten ersten Wörterbucheintrags-HMM und dem Intra-selected first Dictionary entry HMM and the intra-
: HMM-Abstand des ausgewählten ersten Wörterbucheintrags-HMM-distance of the selected one first dictionary entry
: HMMHMM
516516: Ermitteln und Speichern relativer Trennbarkeits-AbstandDetermine and storing relative separability distance
517517: Relativer Trennbarkeits-Abstand > Schwellenwert?relative Separability distance> threshold?
518518: Akzeptieren erstes Wörterbucheintrags-HMM und zugehörigemAccept first dictionary entry HMM and related
: WörterbucheintragDictionary entry
519519: Markieren erstes Wörterbucheintrags-HMM und zugehörigemTo mark first dictionary entry HMM and related
: Wörterbucheintrag als kritischDictionary entry as critical
520520: Für alle ersten Wörterbucheintrags-HMM Intra-HMM-AbstandFor everyone first Dictionary entry HMM Intra-HMM-distance
: ermittelt?determined?
521521: Auswählen nächstes Wörterbucheintrags-HMM als erstesSelect next dictionary entry HMM first
: Wörterbucheintrags-HMMDictionary entry HMM
522522: Dürfen kritische Wörterbucheinträge aus WörterbuchMay be critical Dictionary entries from dictionary
: entfernt werden?away become?
523523: Entferne kritische Wörterbucheinträge aus Wörterbuchremove critical dictionary entries from dictionary
524524: Verändern Schwellenwert für relativen Minimum-Change threshold for relative Minimum-
: Trennbarkeits-Abstand?Trennbarkeits distance?
525525: Verändern Schwellenwert für relativen Minimum-Change threshold for relative Minimum-
: Trennbarkeits-AbstandTrennbarkeits distance
526526: EndeThe End
600600: Verwechslungsmatrixconfusion matrix

Claims

Method for computer-aided determination of the speech processing separability between a first dictionary entry, to which a first dictionary entry generation model is assigned, and a second dictionary entry, to which a second dictionary entry generation model is assigned, in an electronic dictionary for electronic speech processing, using a word a realization of the respective dictionary entry can be generated in the book entry generation model, - in which a plurality of implementations are generated by the first dictionary entry generation model, - in which, using the realized implementations of the first dictionary entry generation model, an intea generation model distance of the first dictionary entry Generation model is determined, in which an inter-generation model distance between the first dictionary entry generation model and the second dictionary entry generation model is determined using the generated implementations of the first dictionary entry generation model and a plurality of implementations of the second dictionary entry generation model, and - In which a separability value is determined using the intra-generation model distance of the first dictionary entry generation model and the inter-generation model distance, which does the language processing Characterized gs separability of the first word and the second word in the context of an electronic language processing.

Method according to claim 1, in which the generation models are implemented under Generate use of spoken units.

Method according to claim 1 or 2, in which at least one of the the following spoken units are used: - a phoneme segment, - a phoneme, - an allophone, - a diphone, - a half syllable, - A syllable, or - on Word.

Procedure according to a of claims 1 to 3 in which the dictionary entry generation models Hidden Markov models are.

Procedure according to a of claims 1 to 4, which for all in the electronic dictionary included dictionary entry generation models carried out becomes.

Procedure according to a of claims 1 to 5, using a variety of realizations of the first dictionary entry generation model an average intra generation model distance of the first dictionary entry generation model is determined.

Procedure according to a of claims 1 to 6, using a variety of realizations of the first dictionary entry generation model and a plurality of generated implementations of the second dictionary entry generation model an average inter-generation model distance is determined.

Procedure according to a of claims 1 to 7, - at the checked becomes whether the separability value meets a predetermined separability criterion enough, and - at that for the case that the separability value meets the specified separability criterion not enough the first dictionary entry and / or the second dictionary entry from the electronic dictionary will be deleted.

Procedure according to a of claims 1 to 7, - at the checked becomes whether the separability value meets a predetermined separability criterion enough, and - at that for the case that the separability value meets the specified separability criterion not enough that Separability criterion changed is, so that also a separability value representing poorer separability the changed Separability criterion is sufficient.

Process for computer-aided speech processing under Use of a method according to one of claims 1 to 9 submitted electronic dictionary, used in speech recognition or in speaker recognition.

Procedure according to a of claims 1 to 10, used in an embedded system.

Device for determining speech processing separability between a first dictionary entry, a first dictionary entry generation model is assigned, and a second dictionary entry to which a second Dictionary entry-generation model is assigned to an electronic dictionary for electronic Speech processing using a dictionary entry generation model a realization of the respective dictionary entry can be generated can, with a processor unit that is set up such that the following process steps can be carried out or are being carried out: - of the first dictionary entry generation model a plurality of realizations are generated, - under Using the generated implementations of the first dictionary entry generation model becomes an intra-generation model distance of the first dictionary entry generation model determined, - under Using the generated implementations of the first dictionary entry generation model and a plurality of implementations of the second dictionary entry generation model becomes an inter-generation model distance between the first dictionary entry creation model and the second dictionary entry generation model determined, and - under Using the intra-generation model distance of the first dictionary entry generation model and the inter-generation model distance becomes a separability value that determines the speech processing separability of the first word and the second word in the context of electronic language processing characterized.

Speech processing device with a processor unit to perform of speech processing and with a memory in which an electronic dictionary stored with dictionary entries, where each dictionary entry at least one dictionary entry creation model is assigned, using the implementation of the respective Dictionary entry can be generated, the electronic dictionary using the following method has undergone: - of the first dictionary entry creation model a plurality of realizations are generated, - under Using the generated implementations of the first dictionary entry generation model becomes an intra-generation model distance of the first dictionary entry generation model determined, - under Using the generated implementations of the first dictionary entry generation model and a plurality of implementations of the second dictionary entry generation model becomes an inter-generation model distance between the first dictionary entry creation model and the second dictionary entry generation model determined, and - under Using the intra-generation model distance of the first dictionary entry generation model and the inter-generation model distance becomes a separability value that determines the speech processing separability of the first word and the second word in the context of electronic language processing characterized.

Speech processing device according to claim 13, set up as an embedded system.

Speech processing device according to claim 13 or 14, set up as a speech recognition device.

Speech processing device according to claim 13 or 14, set up as a speaker recognition device.

Control device for controlling a technical System with a speech processing device according to one of claims 12 to 16, the electronic dictionary used to control the Technical commands provided control commands saved as dictionary entries are.

Telecommunication device with a control device according to claim 17th

Computer-readable storage medium in which a computer program is stored for determining the language processing separability between a first dictionary entry to which a first dictionary entry generation model is assigned and a second dictionary entry to which a second dictionary entry generation model is assigned in an electronic dictionary for electronic speech processing , wherein a realization of the respective dictionary entry can be generated using a dictionary entry generation model, which, if it is executed by a processor unit, has the following method steps: - a plurality of implementations are generated by the first dictionary entry generation model, - using the realizations of the first dictionary entry generation model, an intra-generation model distance of the first dictionary entry generation model is determined, Using the generated implementations of the first dictionary entry generation model and a plurality of implementations of the second dictionary entry generation model, an inter-generation model distance between the first dictionary entry generation model and the second dictionary entry generation model is determined, and - using the intra-generation model -Distance between the first dictionary entry generation model and the inter-generation model distance, a separability value is determined, which characterizes the speech processing separability of the first word and the second word in the context of electronic speech processing.

Computer program element for determining the speech processing separability between a first dictionary entry, a first dictionary entry generation model is assigned, and a second dictionary entry to which a second Dictionary entry-generation model is assigned to an electronic dictionary for electronic Speech processing using a dictionary entry generation model a realization of the respective dictionary entry can be generated which, when executed by a processor unit, has the following process steps: - from the first dictionary entry creation model a plurality of realizations are generated, - under Using the generated implementations of the first dictionary entry generation model becomes an intra-generation model distance of the first dictionary entry generation model determined, - under Using the generated implementations of the first dictionary entry generation model and a plurality of implementations of the second dictionary entry generation model becomes an inter-generation model distance between the first dictionary entry creation model and the second dictionary entry generation model determined, and - under Using the intra-generation model distance of the first dictionary entry generation model and the inter-generation model distance becomes a separability value that determines the speech processing separability of the first word and the second word in the context of electronic language processing characterized.