DE10257475A1 - Computer-based method for determining the speech processing separation between similar sounding words using hidden Markov model distances - Google Patents
Computer-based method for determining the speech processing separation between similar sounding words using hidden Markov model distances Download PDFInfo
- Publication number
- DE10257475A1 DE10257475A1 DE10257475A DE10257475A DE10257475A1 DE 10257475 A1 DE10257475 A1 DE 10257475A1 DE 10257475 A DE10257475 A DE 10257475A DE 10257475 A DE10257475 A DE 10257475A DE 10257475 A1 DE10257475 A1 DE 10257475A1
- Authority
- DE
- Germany
- Prior art keywords
- dictionary entry
- generation model
- dictionary
- separability
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag und einem zweiten Wörterbucheintrag, eine Sprachverarbeitungseinrichtung, ein Computerlesbares Speichermedium und ein Computerprogramm-Element.The invention relates to a method and a device for determining speech processing separability between a first dictionary entry and a second dictionary entry, a speech processing device, a computer-readable storage medium and a computer program element.
Im Rahmen einer Sprachapplikation, beispielsweise einer Spracherkennung oder einer Sprechererkennung, welche in einem Embedded System implementiert ist, tritt häufig das Problem auf, dass einander ähnlich klingende Worte mittels eines Spracherkenners oder eines Sprechererkenners nicht gut getrennt werden können und somit oftmals falsch klassifiziert werden.As part of a voice application, for example voice recognition or speaker recognition, which is implemented in an embedded system often occurs Problem on being similar to each other sounding words using a speech recognizer or a speaker recognizer cannot be separated well and thus often classified incorrectly.
Eine Ursache dafür ist in den Optimierungen der zur Spracherkennung oder Sprechererkennung erzeugten Daten zu sehen, welche erforderlich sind, da von der verwendeten Ziel-Hardware, auf der die Sprachapplikation implementiert wird, in Bezug auf Speichergröße und Rechenkapazität, welche zur Verfügung stehen, feste Grenzen gesetzt werden. Die Optimierungen betreffen insbesondere die Ausgestaltung des Codebuchs, im Folgenden auch als elektronisches Wörterbuch bezeichnet, mit den darin enthaltenen Wörterbucheinträgen und den zugehörigen Hidden Markov Modellen (HMMs), wobei jeweils ein Hidden Markov Modell einem Wörterbucheintrag zugeordnet ist. Das Codebuch sollte so klein wie möglich sein, um in den zur Verfügung stehenden Speicher zu passen und um mit der zur Verfügung stehenden Rechenkapazität verarbeitet werden zu können.One reason for this is in the optimizations the data generated for speech recognition or speaker recognition see which ones are required because of the target hardware used on the the speech application is implemented in terms of memory size and computing capacity, which to disposal standing, fixed limits. The optimizations concern in particular the design of the code book, also below as an electronic dictionary with the dictionary entries and the associated Hidden Markov Models (HMMs), each with a Hidden Markov Model a dictionary entry assigned. The code book should be as small as possible to be available in the existing memory and to match the available memory computing capacity to be processed.
Aus diesem Grund wird die Sprache
in folgendem Sinn zumeist nicht mit ausreichender Qualität modelliert:
Obwohl
es sinnvoll wäre,
möglichst
viele und möglichst
detailreiche Hidden Markov Modelle zu verwenden, ist dies aus den
oben genannten Gründen
nicht möglich,
so dass man verschiedene Verfahren zur Datenreduktion verwendet.
Die Datenreduktion wiederum führt
zu dem oben genannten Problem, dass ähnlich klingende Worte miteinander
häufig
verwechselt werden, d.h. die ähnlich
klingenden Worte weisen im Rahmen der Sprachverarbeitung unter Umständen nur
eine geringe Sprachverarbeitungs-Trennbarkeit auf.For this reason, the language is usually not modeled with sufficient quality in the following sense:
Although it would make sense to use as many and as detailed as possible Hidden Markov models, this is not possible for the reasons mentioned above, so that different methods for data reduction are used. The data reduction in turn leads to the above-mentioned problem that words with a similar sound are often confused with one another, ie the words with a similar sound may have only a limited ability to be separated in the context of speech processing.
Für ein gegebenes elektronisches Wörterbuch, d.h. für einen gegebenen Wortschatz, kann die Sprachverarbeitungs-Trennbarkeit der Worte des Wörterbuchs, anders ausgedrückt der Wörterbucheinträge, getestet werden, indem Sprachaufnahmen in einem so genannten Datenbanktest mittels eines Spracherkennungssystems analysiert werden. Im Rahmen der Analyse werden die erkannten Wörter mit den tatsächlich geäußerten Wörtern bzw. Wörterbucheinträgen verglichen. Aus dem Vergleich, d.h. unter Verwendung der Vergleichsergebnisse, wird eine so genannte Verwechslungsmatrix gebildet. In der Verwechslungsmatrix wird einem gesprochenen Wort gegenübergestellt, zu je wie viel Prozent die in dem elektronischen Wörterbuch enthaltenen Wörter korrekt erkannt wurden. Idealerweise wurde zu einem gesprochenen Wort immer nur das Wort selbst erkannt, d.h. in diesem Fall trat keine Verwechslung, anders ausgedrückt kein Fehler auf. Dies ist jedoch leider in der Regel nicht der Fall. Anhand der ermittelten Verwechslungsmatrix kann nunmehr eine Aussage darüber getroffen werden, welche Wörter sich günstig im Hinblick auf die Sprachverarbeitungs-Trennbarkeit im Rahmen der Sprachverarbeitung verhalten und welche nicht, so dass in diesem Fall Idealerweise ein anderes Wort bzw. ein anderer Wörterbucheintrag zu verwenden ist.For a given electronic dictionary, i.e. For a given vocabulary, the language processing separability of the Words of the dictionary, Expressed differently dictionary entries, tested be made by voice recordings in a so-called database test be analyzed using a speech recognition system. As part of the recognized words with the words actually spoken or Dictionary entries compared. From the comparison, i.e. using the comparison results, a so-called confusion matrix is formed. In the confusion matrix is compared to a spoken word, depending on how much Percent correct the words contained in the electronic dictionary were recognized. Ideally, it always became a spoken word only the word itself recognized, i.e. in this case there was no confusion, Expressed differently no mistake on. Unfortunately, this is usually not the case. A statement can now be made on the basis of the confusion matrix determined what words yourself cheap with regard to the language processing separability within the framework of the Speech processing behave and which do not, so in this Case Ideally another word or another dictionary entry is to be used.
Die Problematik wird in dem Anwendungsfall eines Sprachdialogs deutlich, bei dem in einem Sprachdialog der Gestaltung des elektronischen Wörterbuchs besondere Beachtung geschenkt werden sollte.The problem is in the use case a speech dialogue clearly, in which in a speech dialogue the Design of the electronic dictionary special attention should be paid.
Üblicherweise wird ein Sprachdialog mittels eines Dialog-Zustandsautomaten modelliert, wobei jedem Dialog-Zustand eine Auswahl von Wörtern zugeordnet ist, welche in dem jeweiligen Zustand geäußert werden können. Es ist möglich, alle Wörter, die in allen Zuständen des Zustandsautomaten vorgesehen sind, in ein elektronisches Wörterbuch gemeinsam zusammenzuführen. Diese Vorgehensweise erhöht jedoch die Wahrscheinlichkeit von Fehlerkennungen, da es für einen Viterbi-Dekoder in einem Embedded System umso schwieriger wird, das korrekte Wort zu ermitteln, je mehr Worte er zur Verfügung hat, um das wahrscheinlichste Wort zu ermitteln.Usually a voice dialog is modeled using a dialog state machine, where a selection of words is assigned to each dialog state, which can be expressed in the respective state. It is possible, all words, the in all states of the state machine are provided in an electronic dictionary merge together. This approach increases however the likelihood of misrecognition as it is for one Viterbi decoder in an embedded system becomes all the more difficult determine the correct word, the more words he has available to find the most likely word.
Somit ist es sehr effizient, für jeden Zustand des Dialog-Zustandsautomaten ein eigenes elektronisches Wörterbuch zu erzeugen.So it is very efficient for everyone State of the dialog state machine its own electronic dictionary to create.
Aber selbst in diesem Fall ist die geeignete Auswahl von Wörterbucheinträgen im Rahmen des Bildens des elektronischen Wörterbuchs von erheblicher Bedeutung.But even in this case it is appropriate selection of dictionary entries in the frame of making the electronic dictionary of considerable importance.
Angenommen, mittels eines Dialog-Zustandsautomaten wird ein CD-Abspielgerät gesteuert. Die Liste aktiver Wörter könnte zwischen 1 und 20 Wörter lang sein und die folgenden Anweisungen enthalten: „Start, Stopp, Pause, Spulen, Nächstes Lied, Zurück, Ende". Die Liste enthält alle erforderlichen Anweisungen. Unglücklicherweise ähneln sich die entsprechenden Wörter in der englischen Sprache „back" und „track" (play, stop, pause, track, next, back, exit) phonetisch sehr, was mögliche Fehlerkennungen verursachen kann, d.h. dass das Wort „track" gesprochen wurde, aber das Wort „back" dekodiert wird und umgekehrt.Suppose by means of a dialog state machine becomes a CD player controlled. The list of active words could between 1 and 20 words be long and include the following instructions: "Start, stop, Pause, rewind, next Song back End ". The list contains all necessary instructions. Unfortunately, they are similar the corresponding words in the English language "back" and "track" (play, stop, pause, track, next, back, exit) very phonetically, which can cause possible error detections can, i.e. that the word "track" was spoken, but the word "back" is decoded and vice versa.
Im Rahmen einer Fehlerkennung wird dieser Fehler als Substitutionsfehler bezeichnet. Deshalb ist es erforderlich das Wort „back" in dem Wörterbuch durch das Wort „last" zu ersetzen, womit dieser Substitutionsfehler nicht mehr auftreten würde und die Wörter in dem veränderten elektronischen Wörterbuch nunmehr eine verbesserte Sprachverarbeitungs-Trennbarkeit aufweisen würden.In the context of an error detection, this error is referred to as a substitution error. It is therefore necessary to replace the word "back" in the dictionary with the word "last", with which this substitution error would no longer occur and the words in the modified electronic dictionary would now have improved speech processing separability.
In dem obigen Beispiel sind die Wahrscheinlichkeiten eines Substitutionsfehlers zwischen den Wörtern „track" und „back" einfach ersichtlich.In the example above, the probabilities are of a substitution error between the words "track" and "back".
Im Allgemeinen ist es jedoch nicht so einfach, solche Wörter, welche eine nur relativ geringe Sprachverarbeitungs-Trennbarkeit aufweisen, zu ermitteln. Aus diesem Grund ist die übliche Vorgehensweise, ein Wörterbuch hinsichtlich der Sprachverarbeitungs-Trennbarkeit der in diesem Wörterbuch enthaltenen Wörterbucheinträge zu überprüfen, eine große Anzahl von Äußerungen aufzunehmen und dann einen Datenbanktest auf das elektronische Wörterbuch durchzuführen.In general, however, it is not so simple, such words, which have only a relatively low level of language processing separability, to investigate. For this reason, the usual procedure is a dictionary with regard to the language processing separability in this dictionary check included dictionary entries, a size Number of statements record and then a database test on the electronic dictionary perform.
Anschließend wird, wie oben beschrieben,
die Verwechslungsmatrix gebildet, um somit aufzuzeigen, welches
Wort jeweils geäußert wurde
und welches Wort erkannt wurde. Die ideale Verwechslungsmatrix,
d.h. die Verwechslungsmatrix, die eine fehlerfreie Erkennung beschreibt,
ist eine reine Diagonalmatrix.
Es ist anzumerken, dass gemäß der Verwechslungsmatrix
Nachteilig an diesem bekannten Verfahren ist somit, dass zu jedem Wörterbuch eine repräsentative Sammlung an Sprachäußerungen vorhanden, d.h. gespeichert sein muss, die so genannte Datenbank. Dies bedeutet, dass von einer großen Anzahl von Sprechern, die in ihren Eigenschaften die Struktur der Sprecher einer Sprache möglichst gut wiedergeben, für jedes Wort des elektronischen Wörterbuchs eine oder mehrere Aufnahmen gesammelt werden muss. Dieser Vorgang erfordert hohe Kosten und ist unflexibel, da jedes neue Wort in dem elektronischen Wörterbuch auf die oben beschriebene Weise vor neuer Aufnahme in die Datenbank bearbeitet werden muss.A disadvantage of this known method is that to every dictionary a representative collection of utterances available, i.e. must be saved, the so-called database. This means that from a large number of speakers who in their properties, the structure of the speakers of a language if possible reproduce well for every word of the electronic dictionary one or more recordings must be collected. This process requires high costs and is inflexible since every new word in the electronic dictionary in the manner described above before being added to the database needs to be edited.
Somit liegt der Erfindung das Problem zugrunde, die Sprachverarbeitungs-Trennbarkeit zweier Wörterbucheinträge in einem elektronischen Wörterbuch zu ermitteln, ohne dass eine Datenbank erforderlich ist.The problem thus lies with the invention the language processing separability of two dictionary entries in one electronic dictionary to determine without the need for a database.
Das Problem wird durch das Verfahren und die Vorrichtung zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag und einem zweiten Wörterbucheintrag, durch eine Sprachverarbeitungseinrichtung sowie durch ein Computerlesbares Speichermedium und ein Computerprogramm-Element mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.The problem is caused by the procedure and the device for determining speech processing separability between a first dictionary entry and a second dictionary entry, by a speech processing device and by a computer readable Storage medium and a computer program element solved with the features according to the independent claims.
Bei einem Verfahren zum rechnergestützten Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag, dem ein erstes Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, und einem zweiten Wörterbucheintrag, dem ein zweites Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, in einem elektronischen Wörterbuch zur elektronischen Sprachverarbeitung, wobei unter Verwendung eines Wörterbucheintrags-Erzeugungsmodells eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, wird von dem ersten Wörterbucheintrags-Erzeugungsmodell eine Mehrzahl von Realisierungen, vorzugsweise eine Vielzahl von Realisierungen, erzeugt.In a method for computer-aided determination the speech processing separability between a first dictionary entry, a first dictionary entry generation model is assigned, and a second dictionary entry to which a second Dictionary entry-generation model is assigned to an electronic dictionary for electronic Speech processing using a dictionary entry generation model a realization of the respective dictionary entry can be generated from the first dictionary entry generation model a plurality of implementations, preferably a plurality of Realizations.
Unter Verwendung der erzeugten Realisierungen des ersten Wörterbucheintrags-Erzeugungsmodell wird ein Intra-Erzeugungsmodell-Abstand des ersten Wörterbucheintrags-Erzeugungsmodells ermittelt. Für den Fall, dass als Erzeugungsmodell ein Hidden Markov Modell verwendet wird, wird als Intra-Erzeugungsmodell-Abstand ein mittlerer Intra-HMM-Abstand ermittelt.Using the realizations created of the first dictionary entry creation model an intra-generation model distance of the first dictionary entry generation model determined. For the Case that a hidden Markov model is used as the generation model a mean intra-HMM distance is determined as the intra-generation model distance.
Unter Verwendung der erzeugten Realisierungen des ersten Wörterbucheintrags-Erzeugungsmodells und einer Mehrzahl von Realisierungen, vorzugsweise einer Vielzahl von Realisierungen, des zweiten Wörterbucheintrags-Erzeugungsmodells wird ein Inter-Erzeugungsmodell-Abstand zwischen dem ersten Wörterbucheintrags-Erzeugungsmodell und dem zweiten Wörterbucheintrags-Erzeugungsmodell ermittelt. Für den Fall, dass die Erzeugungsmodelle als Hidden Markov Modelle eingerichtet sind, wird in diesem Schritt anschaulich ein mittlerer Inter-HMM-Abstand zwischen den beiden Wörterbucheintrags-HMMs ermittelt.Using the realizations created the first dictionary entry generation model and a plurality of implementations, preferably a plurality of Realizations of the second dictionary entry generation model becomes an inter-generation model distance between the first dictionary entry generation model and the second dictionary entry generation model determined. For the case that the generation models are set up as hidden Markov models are a medium Inter-HMM distance in this step between the two dictionary entry HMMs determined.
Unter Verwendung des Intra-Erzeugungsmodell-Abstands des ersten Wörterbucheintrags-Erzeugungsmodells und des Inter-Erzeugungsmodell-Abstands wird ein Trennbarkeitswert ermittelt, der die Sprachverarbeitungs-Trennbarkeit des ersten Worts und des zweiten Worts im Rahmen einer elektronischen Sprachverarbeitung charakterisiert, anschaulich den Abstand der beiden HMMs in dem Vergleichsraum beschreibt.Using the intra-generation model distance of the first dictionary entry generation model and the inter-generation model distance a separability value is determined which is the speech processing separability the first word and the second word in an electronic Speech processing characterizes, clearly the distance of the describes both HMMs in the comparison space.
Eine Vorrichtung zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag, dem ein erstes Wörterbucheintrags-Erzeugungsmodell zugeordnet ist und einem zweiten Wörterbucheintrag, dem ein zweites Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, in einem elektronischen Wörterbuch zur elektronischen Sprachverarbeitung, wobei unter Verwendung eines Wörterbucheintrags-Erzeugungsmodells eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, weist eine Prozessoreinheit auf, die derart eingerichtet ist, dass die oben beschriebenen Verfahrensschritte durchführbar sind oder durchgeführt werden.An apparatus for determining the speech processing separability between a first dictionary entry, to which a first dictionary entry generation model is assigned, and a second dictionary entry, to which a second dictionary entry generation model is assigned, in an electronic dictionary for electronic speech processing, using a dictionary entry generation model A realization of the respective dictionary entry can be produced has a processor unit which is set up in such a way that the method steps described above can be carried out are or are being carried out.
Eine Sprachverarbeitungseinrichtung weist eine Prozessoreinheit zum Durchführen der Sprachverarbeitung sowie einen Speicher auf, in dem ein elektronisches Wörterbuch gespeichert ist, das Wörterbucheinträge aufweist, wobei jedem Wörterbucheintrag mindestens ein Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, unter dessen Verwendung eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, wobei das elektronische Wörterbuch dem oben beschriebenen Verfahren unterzogen worden ist.A language processing facility has a processor unit for performing the speech processing as well as a memory in which an electronic dictionary stored with dictionary entries, where each dictionary entry at least one dictionary entry creation model is assigned, using the implementation of the respective Dictionary entry can be generated, the electronic dictionary to that described above Procedure has been subjected.
Ferner ist eine Steuereinrichtung zum Steuern eines technologischen Systems mit einer oben beschriebenen Sprachverarbeitungseinrichtung vorgesehen, wobei in dem elektronischen Wörterbuch die zum Steuern des technischen Systems vorgesehenen Steuerbefehle als Wörterbucheinträge gespeichert sind.There is also a control device to control a technological system with one described above Speech processing device provided, wherein in the electronic dictionary the control commands intended to control the technical system saved as dictionary entries are.
Ferner ist ein Telekommunikationsgerät mit einer oben beschriebenen Steuereinrichtung vorgesehen.Furthermore, a telecommunications device with a Control device described above provided.
In einem Computerlesbaren Speichermedium ist ein Computerprogramm gespeichert zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag, dem ein erstes Wörterbucheintrags-Erzeugungsmodell zugeordnet ist und einem zweiten Wörterbucheintrag, dem ein zweites Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, in einem elektronischen Wörterbuch zur elektronischen Sprachverarbeitung, wobei unter Verwendung eines Wörterbucheintrags-Erzeugungsmodells eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, welches Computerprogramm, wenn es von einer Prozessoreinheit ausgeführt wird, die oben beschriebenen Verfahrensschritt aufweist.In a computer readable storage medium is a computer program stored to determine speech processing separability between a first dictionary entry, a first dictionary entry generation model is assigned and a second dictionary entry to which a second Dictionary entry-generation model is assigned in an electronic dictionary for electronic language processing, using a dictionary entry generation model a realization of the respective dictionary entry can be generated, which computer program, if it is executed by a processor unit, has the method step described above.
Ein Computerprogramm-Element zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag, dem ein erstes Wörterbucheintrags-Erzeugungsmodell zugeordnet ist und einem zweiten Wörterbucheintrag, dem ein zweites Wörterbucheintrags-Erzeugungsmodell zugeordnet ist, in einem elektronischen Wörterbuch zur elektronischen Sprachverarbeitung, wobei unter Verwendung eines Wörterbucheintrags-Erzeugungsmodells eine Realisierung des jeweiligen Wörterbucheintrags erzeugt werden kann, weist die oben beschriebenen Verfahrensschritte auf, wenn es von einer Prozessoreinheit ausgeführt wird.A computer program element for Determine the speech processing separability between a first one Dictionary entry a first dictionary entry generation model is assigned and a second dictionary entry to which a second Dictionary entry-generation model is assigned to an electronic dictionary for electronic Speech processing using a dictionary entry generation model a realization of the respective dictionary entry can be generated, has the process steps described above if it is from a processor unit is executed.
Durch die Erfindung wird es erstmals möglich, eine verlässliche, da mathematisch begründete, Aussage über die Trennbarkeit der Wörterbucheinträge in einem elektronischen Wörterbuch zu treffen und somit eine Mindest-Trennbarkeit in einem elektronischen Wörterbuch zu gewährleisten.The invention makes it the first time possible, a reliable, because mathematically justified Statement about the separability of the dictionary entries in one electronic dictionary to meet and thus a minimum separability in an electronic dictionary to ensure.
Erfindungsgemäß ist keine Datenbank mit einer Vielzahl vorgegebener Sprachäußerungen unterschiedlicher Sprecher mehr erforderlich und somit ist auch kein rechenzeit- und speicherplatzintensiver Datenbanktest mehr erforderlich.According to the invention, there is no database with one Numerous predefined utterances different speakers are more necessary and so is no more database time-intensive and memory-intensive test required.
Anschaulich wird der gemäß dem Stand der Technik erforderliche Datenbanktest durch die oben beschriebene probabilistische Berechnung von Abstandsmaßen in dem Vergleichsraum ersetzt, nämlich die Berechnung des Intra-Erzeugungsmodell-Abstands und des Inter-Erzeugungsmodell-Abstands. Dabei wird gemäß einer Ausgestaltung der Erfindung eine mittlere HMM-Abstandsmatrix erstellt, die basierend auf dem ohnehin vorliegenden HMM-Codebuch die gleichen Informationen enthält wie die Verwechslungsmatrix gemäß dem Stand der Technik.This is illustrated according to the status the database test required by the technology described above probabilistic calculation of distance measurements in the comparison space replaced, namely the calculation of the intra-generation model distance and the inter-generation model distance. According to one Embodiment of the invention creates a mean HMM distance matrix, which are the same based on the existing HMM code book Contains information like the confusion matrix according to the state of the technique.
Erfindungsgemäß wird ein Entwickler eines Sprachdialogs, beispielsweise ein Entwickler eines Sprachdialog-Zustandsautomaten, nunmehr in die Lage versetzt, das von ihm jeweils entwickelte Wörterbuch sofort nach dessen Erstellung zu testen. Das gleiche gilt für Änderungen, die auf dem elektronischen Wörterbuch vorgenommen werden, d.h. auch diese können sofort auf ihre Tauglichkeit hin getestet werden.According to the invention, a developer of a Speech dialogue, for example a developer of a speech dialogue state machine, now able to use the dictionary that he developed immediately to test after its creation. The same goes for changes, those on the electronic dictionary be made, i.e. these can also be immediately tested for their suitability be tested.
Ein weiterer Vorteil ist, dass dieses Verfahren auch an mögliche Entwicklungs-Partner im Rahmen eines größeren Entwicklungsprojektes ohne Probleme weitergegeben werden kann, ohne dass die zum Teil komplizierten Eigentumsrechte an Sprachdatenbanken betroffen sind.Another advantage is that this Procedures also on possible Development partner as part of a larger development project can be passed on without problems, without the sometimes complicated Ownership rights to language databases are affected.
Die Erfindung kann in Software, d.h. mittels eines Computerprogramms oder in Hardware, d.h. mittels einer speziellen elektronischen Schaltung, oder in beliebig hybrider Form, bei dem ein Teil der Lösung in Software und der andere Teil in Hardware implementiert ist, realisiert sein.The invention can be implemented in software, i.e. by means of a computer program or in hardware, i.e. by means of a special electronic circuit, or in any hybrid form, where part of the solution implemented in software and the other part implemented in hardware his.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.Preferred developments of the invention result from the dependent Claims.
Die im Folgenden beschriebenen Ausgestaltungen der Erfindung betreffen das Verfahren, die Vorrichtung, die Steuereinrichtung, das Telekommunikationsgerät, die Sprachverarbeitungseinrichtung, das Computerlesbare Speichermedium sowie das Computerprogramm-Element.The configurations described below The invention relates to the method, the device, the control device, the telecommunication device, the speech processing device, the computer-readable storage medium as well as the computer program element.
Gemäß einer Ausgestaltung der Erfindung können die Erzeugungsmodelle eine jeweilige Realisierung unter Verwendung lautsprachlicher Einheiten erzeugen, insbesondere unter Verwendung zumindest einer der folgenden lautsprachlichen Einheiten:According to an embodiment of the invention can the generation models using a respective implementation generate spoken units, especially using at least one of the following spoken units:
- – einem Phonemsegment,- one phoneme,
- – einem Phonem,- one Phoneme,
- – einem Allophon,- one allophone
- – einem Diphon,- one diphone,
- – einer Halbsilbe,- one Demisyllable,
- – einer Silbe, oder- one Syllable, or
- – einem Wort.- one Word.
Vorzugsweise sind die Wörterbucheintrags-Erzeugungsmodelle als Hidden Markov Modelle ausgestaltet.Preferably, the dictionary entry creation models are designed as Hidden Markov models.
Zur Gewährleistung einer Mindestqualität für das gesamte elektronische Wörterbuch wird das oben beschriebene Verfahren gemäß einer Ausgestaltung der Erfindung für alle in dem elektronischen Wörterbuch enthaltenen Wörterbucheintrags-Erzeugungsmodelle durchgeführt.To ensure a minimum quality for the whole electronic dictionary is the method described above according to an embodiment of the invention for all contained in the electronic dictionary Dictionary entry generation models carried out.
Gemäß einer anderen Ausgestaltung der Erfindung wird unter Verwendung einer Vielzahl erzeugter Realisierungen des ersten Wörterbucheintrags-Erzeugungsmodells ein mittlerer Intra-Erzeugungsmodell-Abstand des ersten Wörterbucheintrags-Erzeugungsmodells ermittelt.According to another embodiment The invention is created using a variety of realizations of the first dictionary entry generation model a mean intra generation model distance of the first dictionary entry generation model determined.
Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, unter Verwendung einer Vielzahl erzeugter Realisierungen des ersten Wörterbucheintrags- Erzeugungsmodells und einer Vielzahl erzeugter Realisierungen des zweiten Wörterbucheintrags-Erzeugungsmodells einen mittleren Inter-Erzeugungsmodell-Abstand zu ermitteln.According to another embodiment the invention contemplates using a variety generated implementations of the first dictionary entry generation model and a plurality of generated implementations of the second dictionary entry generation model to determine an average inter-generation model distance.
Gemäß diesen Ausführungsbeispielen der Erfindung wird anschaulich für ein Wort der Intra-HMM-Abstand des dem jeweiligen Wort zugeordneten HMMs ermittelt. Ferner erfolgt eine paarweise Berechnung von Inter-HMM-Abständen von Realisierungen des ersten Wörterbucheintrags-HMMs zu Realisierungen aller anderen, d.h. zweiten Wörterbuch-HMMs. Darauf basierend wird der relative minimale diskriminierende Abstand zwischen den HMMs bestimmt, der größer sein soll als ein vorgegebener Schwellenwert, um für eine ausreichende Trennbarkeit der Wörter in dem elektronischen Wörterbuch zu sorgen. Das Verfahren verwendet in diesem Fall den mittleren HMM-Abstand, der im Folgenden noch näher erläutert wird.According to these embodiments the invention is illustrative of a word of the intra-HMM distance of the assigned to the respective word HMMs determined. In addition, a pair-wise calculation of inter-HMM distances from Realizations of the first dictionary entry HMM to realizations of all others, i.e. second dictionary HMMs. Based on that the relative minimum discriminatory distance between the HMMs determined to be bigger is said to be a predetermined threshold to ensure adequate separability of the words in the electronic dictionary to care. In this case the procedure uses the middle one HMM distance, which is explained in more detail below.
Anschaulich wird die Vorgehensweise bei der üblichen Spracherkennung, bei dem das Sprachsignal zunächst mittels einer Merkmals-Extraktion in eine Folge so genannter Merkmalsvektoren umgewandelt wird, invertiert.The procedure becomes clear at the usual Speech recognition, in which the speech signal is first extracted using a feature is converted into a sequence of so-called feature vectors, inverted.
Im Rahmen der Spracherkennung wird die Folge von Merkmalsvektoren beispielsweise mittels eines Viterbi-Algorithmus mit den Hidden Markov Modellen der in dem elektronischen Wörterbuch gespeicherten Wörter in dem Suchraum verglichen, und dasjenige Hidden-Markov-Modell mit der größten Trefferwahrscheinlichkeit, das heißt mit der größten Übereinstimmung, gilt als das erkannte Wort.As part of speech recognition the sequence of feature vectors, for example using a Viterbi algorithm with the Hidden Markov models in the electronic dictionary saved words compared in the search space, and that Hidden Markov model with the greatest probability of a hit, this means with the greatest agreement, is considered the recognized word.
Erfindungsgemäß werden anschaulich die Hidden-Markov-Modelle nicht zur Erkennung von gesprochenen Äußerungen verwendet, sondern es wird umgekehrt von einem HMM eine Folge von Merkmalsvektoren erzeugt. Eine solche Folge oder Kette von Merkmalsvektoren wird im Folgenden auch als Realisierung des HMMs (HMM-Realisierung) bezeichnet. Zu zwei beliebigen HMM-Realisierungen wird ein Abstand bestimmt, indem vorzugsweise mittels eines DTW-Verfahrens (Dynamic Time Warping-Algorithmus) diejenige paarweise Alignierung der beiden Merkmalsvektor-Folgen bestimmt wird, bei der die Summe der Abstände der Merkmalsvektoren minimal ist. Der minimale Abstand ist der Abstand der beiden Realisierungen. Der mittlere Abstand zwischen zwei Hidden-Markov-Modellen wird vorzugsweise bestimmt, indem über eine Vielzahl von Realisierungen der beiden Hidden-Markov-Modelle, allgemein der beiden Erzeugungsmodelle, ein Durchschnittswert gebildet wird.According to the invention, the hidden Markov models are vivid not used to recognize spoken utterances, but conversely, an HMM becomes a sequence of feature vectors generated. Such a sequence or chain of feature vectors will hereinafter also referred to as the implementation of the HMM (HMM implementation). For any two HMM implementations a distance is determined, preferably by means of a DTW method (Dynamic Time Warping algorithm) the pairwise alignment of the two feature vector sequences is determined in which the sum of the distances of the feature vectors is minimal is. The minimum distance is the distance between the two realizations. The average distance between two hidden Markov models is preferred determined by about a multitude of realizations of the two hidden Markov models, generally of the two generation models, formed an average becomes.
Es ist möglich, den Abstand zwischen verschiedenen Realisierungen des gleichen HMMs zu berechnen, das heißt, den Intra-HMM-Abstand, sowie den Abstand zwischen unterschiedlichen HMMs, den Inter-HMM-Abstand.It is possible to change the distance between to calculate different realizations of the same HMM that is called, the intra-HMM distance, as well as the distance between different ones HMMs, the inter-HMM distance.
Erfindungsgemäß wird somit für alle Wörterbucheinträge des elektronischen Wörterbuchs der Abstand zwischen verschiedenen Realisierungen des gleichen HMMs ermittelt, d.h. der Intra-HMM-Abstand, sowie der Abstand zwischen unterschiedlichen HMMs, d.h. der Inter-HMM-Abstand. Die Grundlage der Trennbarkeit zwischen zwei Wörtern bildet die Notwendigkeit, dass der Inter-HMM-Abstand immer erheblich größer sein soll, als der Intra-HMM-Abstand. Mit anderen Worten bedeutet dies, dass zwei Realisierungen des gleichen Wortes näher aneinander liegen sollten als die Realisierung eines Wortes im Vergleich zu denen eines anderen Wortes.According to the invention, the electronic entries for all dictionary entries dictionary the distance between different realizations of the same HMM determined, i.e. the intra-HMM distance, as well as the distance between different HMMs, i.e. the inter-HMM distance. The basis of the separability between two words is the need that the inter-HMM distance should always be considerably larger than the intra-HMM distance. In other words, this means that two realizations of the same Word closer should be against each other than the realization of a word in comparison to another word.
Ein Wörterbucheintrag im elektronischen Wörterbuch wird im Hinblick auf die Trennbarkeit dadurch bewertet, dass der minimale Unterschied zwischen dem Intra-HMM-Abstand zu den Inter-HMM-Abständen in das Verhältnis zum Intra-HMM-Abstand gesetzt wird. Dieses Verhältnis muss größer sein als ein vorgegebener Schwellenwert, damit das Wort im Rahmen der HMM-Suche ausreichend gut trennbar ist.A dictionary entry in the electronic dictionary is evaluated in terms of separability by the fact that the minimal difference between the intra-HMM distance to the inter-HMM distances in The relationship is set to the intra-HMM distance. This ratio has to be bigger as a predetermined threshold so that the word within the HMM search sufficient is easy to separate.
Erfindungsgemäß wird es somit möglich, Wörter, für die die Trennbarkeit nicht ausreichend gut ist, aus dem elektronischen Wörterbuch zu entfernen und durch ein anderes Wort zu ersetzen, welches besser von den anderen in dem Wörterbuch gespeicherten Wörtern trennbar ist.According to the invention it is thus possible to use words for which the Separability is not good enough from the electronic dictionary to remove and replace with another word, which is better from the others in the dictionary saved words is separable.
Somit wird erfindungsgemäß das Problem, den bei der Spracherkennung oder Sprechererkennung aktiven Wortschatz so zu optimieren, dass darin möglichst wenig einander ähnlich klingende Wörterbucheinträge enthalten sind, auf einfache Weise automatisch gelöst.Thus, according to the invention, the problem the vocabulary active in speech recognition or speaker recognition to optimize so that it is as possible little like each other sounding dictionary entries included are automatically solved in a simple manner.
Gemäß einer Ausgestaltung der Erfindung ist es vorgesehen, dass geprüft wird, ob der Trennbarkeitswert einem vorgegebenen Trennbarkeitskriterium genügt und für den Fall, dass der Trennbarkeitswert dem vorgegebenen Trennbarkeitskriterium nicht genügt, wird/werden der erste Wörterbucheintrag und/oder der zweite Wörterbucheintrag aus dem elektronischen Wörterbuch gelöscht.According to an embodiment of the invention it is intended to be checked becomes whether the separability value meets a predetermined separability criterion enough and for the case that the separability value meets the specified separability criterion not enough becomes the first dictionary entry and / or the second dictionary entry from the electronic dictionary deleted.
Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, dass geprüft wird, ob der Trennbarkeitswert einem vorgegebenen Trennbarkeitskriterium genügt und für den Fall, dass der Trennbarkeitswert dem vorgegebenen Trennbarkeitskriterium nicht genügt, dass das Trennbarkeitskriterium verändert wird, so dass auch ein eine schlechtere Trennbarkeit repräsentierender Trennbarkeitswert dem veränderten Trennbarkeitskriterium genügt. Anschaulich wird somit durch Entfernen von Wörterbucheinträgen, die einander zu ähnlich sind, aus dem elektronischen Wörterbuch, ein hinsichtlich der Trennbarkeit im Rahmen der Sprachverarbeitung verbessertes elektronisches Wörterbuch gebildet. Ferner kann, um nicht zu viele Wörterbucheinträge löschen zu müssen, auch das Trennbarkeitskriterium selbst anwendungsangepasst verändert werden, um somit auch eine zwar schlechtere, aber immer noch ausreichend gute Trennbarkeit zu gewährleisten.According to another embodiment The invention provides that it is checked whether the separability value a predefined separability criterion and in the event that the separability value meets the given separability criterion is not sufficient that the separability criterion changed is, so that also represents a poorer separability Separability value the changed Separability criterion is sufficient. This becomes clear by removing dictionary entries that too similar to each other are, from the electronic dictionary, a improved with regard to the separability in the context of language processing electronic dictionary educated. Furthermore, in order not to delete too many dictionary entries have to, also the separability criterion itself can be changed to suit the application, thus a worse one, but still sufficient to ensure good separability.
Vorzugsweise wird das Verfahren im Rahmen einer rechnergestützten Sprachverarbeitung eingesetzt, vorzugsweise in der Spracherkennung oder in der Sprechererkennung.The method is preferably carried out in Framework of a computer-aided Speech processing used, preferably in speech recognition or in speaker recognition.
Das Verfahren eignet sich insbesondere zum Einsatz in einem Embedded System, da es aufgrund der Tatsache, dass kein Datenbanktest mehr erforderlich ist und somit auch keine Datenbank mehr in dem Speicher des Sprachverarbeitungssystems gespeichert werden muss, auch in einer rechnerleistungsschwachen und speicherkapazitätsbegrenzten Umgebung eingesetzt werden kann. Die Sprachverarbeitungseinrichtung ist vorzugsweise als Embedded System eingerichtet. Alternativ oder zusätzlich kann sie als Spracherkennungseinrichtung oder als Sprechererkennungseinrichtung ausgebildet sein.The method is particularly suitable for use in an embedded system, because due to the fact that no database test is required anymore and therefore none Database more stored in the memory of the speech processing system must be, even in a low-performance and limited storage capacity Environment can be used. The speech processing device is preferably set up as an embedded system. Alternatively or additionally it as a speech recognition device or as a speaker recognition device be trained.
Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im Folgenden näher erläutert.Embodiments of the invention are shown in the figures and are explained in more detail below.
Es zeigenShow it
Das Spracherkennungssystem
In einem zweiten Betriebsmodus, im
Weiteren auch bezeichnet als Trainingsmodus, wird unter Verwendung
einer eingesprochenen Äußerung
In beiden Betriebsmodi wird das von
dem Benutzer eingesprochene Sprachsignal
Jeder Merkmalsvektor
Die Merkmalsvektoren
Es ist in diesem Zusammenhang anzumerken,
dass das Mikrofon
Gemäß diesem Ausführungsbeispiel
der Erfindung ist es vorgesehen, dass die Merkmalsvektoren
Der Rechner
Mittels des Mikroprozessors
In einem elektronischen Wörterbuch
Ferner kann zusätzlich ein digitaler Signalprozessor vorgesehen sein, der die jeweils eingesetzten Spracherkennungsalgorithmen implementiert hat und einen darauf spezialisierten Mikrocontroller aufweisen kann.A digital signal processor can also be used be provided, the speech recognition algorithms used in each case has implemented and a specialized microcontroller can have.
Weiterhin ist eine Text-zu-Sprache-Wandlereinrichtung
(nicht dargestellt) vorgesehen zum Umwandeln einer beliebigen Phonemfolge
in ein Sprachsignal, welches in ein analoges Sprachsignal umgewandelt werden
kann und dann mittels des im Folgenden beschriebenen Lautsprechers
Ferner ist der Rechner
Über
zusätzliche
Kabel oder Funkverbindungen, beispielsweise mittels einer Infrarot-Verbindung
oder einer Bluetooth- Verbindung
Der Aktor
Gemäß dem Ausführungsbeispiel der Erfindung
weist die Merkmalsextraktionseinheit
Die mittels der Merkmalsextraktionseinheit
In dem Rechner
Mittels der jeweiligen Hidden-Markov-Modelle
Die einzelnen Hidden-Markov-Modelle
In den
Das erfindungsgemäße Verfahren verwendet lediglich die Information, die in dem Codebuch ohnehin schon vorhanden ist. Eine grundlegende Idee der Erfindung kann darin gesehen werden dass, wie im Folgenden noch näher erläutert wird, der mittlere Intra-HMM-Abstand jedes Wörterbucheintrags berechnet und mit den Wortabständen des Wörterbucheintrags zu den anderen Wörterbucheintrags-HMMs verglichen wird.The method according to the invention only uses the information that is already available in the code book anyway. A basic idea of the invention can be seen in that as below explained is calculated, the mean intra-HMM distance of each dictionary entry and with the word spacing of the dictionary entry to the other dictionary entry HMMs is compared.
Nach Starten des Verfahrens (Schritt 501) wird ein Schwellenwert ΘS mit dem relativen Minimum-Trennbarkeits-Abstand gesetzt (Schritt 502).After starting the method (step 501), a threshold value Θ S is set with the relative minimum separability distance (step 502).
Anschließend wird ein Satz, d.h. eine
Mehrzahl von Wörterbucheinträgen in das
elektronische Wörterbuch
Jedem Wörterbucheintrag wi ist
jeweils, wie oben beschrieben, ein Hidden Markov Modell, welches den
entsprechenden Wörterbucheintrag
wi repräsentiert,
zugeordnet, gemäß folgender
Vorschrift:
In einem nachfolgenden Schritt (Schritt
504) wird aus dem elektronischen Wörterbuch
Ist dem Wörterbucheintrag
Um sicherzustellen, dass jeder Wörterbucheintrag
ein ihm eindeutig zugeordnetes und darauf trainiertes Wörterbucheintrags-HMM
Ist dies nicht der Fall, so wird
ein nächster
Wörterbucheintrag
aus dem elektronischen Wörterbuch
Die Schritte 505, 506 und 507 werden
somit für
alle Wörterbucheinträge des elektronischen
Wörterbuchs
Sind für alle Wörterbucheinträge
Unter Verwendung des ausgewählten ersten Wörterbucheintrags-HMM wird eine Vielzahl von Realisierungen des Wörterbucheintrags-HMM gebildet und unter Verwendung der ermittelten Realisierungen wird der Intra-HMM-Abstand, d.h. der Abstand der Realisierungen des ersten Wörterbucheintrags-HMM berechnet (Schritt 509).Using the selected first Dictionary entry HMM will be a variety of realizations of the dictionary entry HMM is formed and using the realizations determined Intra-HMM distance, i.e. the distance between realizations of the first Dictionary Entry HMM calculated (step 509).
Die Ermittlung des Abstandes zwischen zwei Realisierungen eines HMMs erfolgt in entsprechender Weise, wie im Folgenden noch näher erläutert, wie die Ermittlung des Abstandes zwischen zwei Realisierungen unterschiedlicher HMMs.Determining the distance between two implementations of an HMM take place in a corresponding manner, as below explains how to determine the distance between two realizations different HMM.
Der jeweilige Intra-HMM-Abstand des ausgewählten ersten Wörterbucheintrags-HMMs H ^ ∈ H wird im Folgenden mit d(H ^) bezeichnet.The respective intra-HMM distance of the chosen first dictionary entry HMMs H ^ ∈ H becomes hereinafter referred to as d (H ^).
In einem nächsten Schritt (Schritt 510)
wird ein anderes, d.h. von dem ausgewählten ersten Wörterbucheintrags-HMM
unterschiedliches Wörterbucheintrags-HMM
aus dem elektronischen Wörterbuch
Zur Darstellung des Verfahrens zum Berechnen des mittleren HMM-Abstands (d.h. sowohl des mittleren Intra-HMM-Abstands als auch des mittleren Inter-HMM-Abstands) wird zunächst kurz auf einige Grundlagen in der Spracherkennung eingegangen.To illustrate the procedure for Calculate the mean HMM distance (i.e. both the mean Intra-HMM distance as well as the mean inter-HMM distance) first briefly dealt with some basics in speech recognition.
Ziel der Spracherkennung ist es,
eine gesprochene Äußerung in
eine Folge von Symbolen wie beispielsweise Worte oder Phoneme zu übersetzen. Übliche,
auf HMMs basierende Spracherkennungs-Systeme sind derart eingerichtet, dass
ein eingegebenes Sprachsignal, wie oben erläutert wurde, abgetastet wird
und die Abtastwerte s(t) in eine Folge von Merkmalsvektoren f(t) abgebildet werden mittels
des oben beschriebenen Verfahrens der Merkmals-Extraktion, wobei
sich die Folge von Merkmalsvektoren f(t)
ergibt gemäß folgender
Vorschrift:
Die Folge der Merkmalsvektoren wird
in eine Folge von Symbolen wk unter Anwendung
des Viterbi-Dekodierungs-Algorithmus
gemäß folgender
Vorschrift abgebildet:
Das Viterbi-Dekodierungsverfahren basiert auf den Hidden-Markov-Modellen. Es ist anzumerken, dass mit t ein Zeitparameter bezeichnet wird, wobei der Index k verwendet wird, um zu kennzeichnen, dass ein asychroner Zusammenhang zu der Zeit t existiert. Das Viterbi-Dekodierungsverfahren wird im folgenden näher erläutert.The Viterbi decoding method is based on the hidden Markov models. It should be noted that a time parameter is denoted by t, the index k being used to denote that an asynchronous relationship exists at time t. The Viterbi decoding method is described in more detail below explained.
Hidden-Markov-Modelle sind stochastische Modelle, welche die Beziehung zwischen einer Folge von Merkmalsvektoren und einem Symbol beschreiben, das heißt, jeweils einem Symbol wk entspricht ein Hidden-Markov-Modell Hk. Der Ausdruck "hidden" resultiert aus dem an sich unbekannten, "wahren" Symbol w T / k, das zunächst geäußert wurde, und aus dem die Folge von Merkmalsvektoren gebildet wurde.Hidden Markov models are stochastic models that describe the relationship between a sequence of feature vectors and a symbol, that is to say that a symbol w k corresponds to a hidden Markov model H k . The expression "hidden" results from the "true" symbol w T / k, which is unknown per se and which was initially uttered, and from which the sequence of feature vectors was formed.
Die Äußerung stellt sich somit als
folgende Abbildung dar:
Diese Äußerung soll mittels des Spracherkennungs-Systems erkannt werden. Im Idealfall ist das ermittelte Symbol wk, welches mittels der Viterbi-Dekodierung ermittelt worden ist, gleich dem geäußerten Symbol w T / k. This statement should be recognized by means of the speech recognition system. In the ideal case, the determined symbol w k , which was determined by means of Viterbi decoding, is equal to the expressed symbol w T / k.
Ein HMM kann eingesetzt werden, um Sprache unter Verwendung einer Vielzahl unterschiedlicher lautsprachlicher Einheiten zu modellieren, beispielsweise Wörter, Silben, Halbsilben, Phoneme, bis hin zu Phonemsegmenten.An HMM can be used to Language using a variety of different spoken language Model units, such as words, syllables, half-syllables, phonemes, down to phoneme segments.
Umgekehrt kann ein Wortmodell unter
Verwendung eines HMMs konstruiert werden durch Konkatenation von
Phonemsegmenten, Phonemen, Halbsilben, Silben bis hin zu Wörtern. Somit
werden die Wörterbuch-Einträge wk
Mathematisch betrachtet weist ein HMMH die folgenden Elemente aufFrom a mathematical point of view HMMH the following items
- 1. Die Zahl nH der HMM-Zustände,1. The number n H of the HMM states,
- 2. Die Zustands-Übergangswahrscheinlichkeit aH(j|i) für einen Übergang von einem Anfangszustand i zu einem Endzustand j, sowie2. The state transition probability a H (j | i) for a transition from an initial state i to a final state j, and
- 3. Die Emissions-Wahrscheinlichkeiten pH(f|i) zum Emittieren eines Merkmals-Vektors f in dem Zustand i.3. The emission probabilities p H ( f | i) for emitting a feature vector f in the state i.
Die Emissions-Wahrscheinlichkeiten pH(f|i) werden als kontinuierliche Gauss-Mischwahrscheinlichkeits-Dichten modelliert gemäß folgenden Vorschriften: wobei mit c H / il die Mischgewichte, mit (σ H / il)2 die Mischvarianzen und mit x H / il die Misch-Zentren bezeichnet werden. Die Vektoren x H / il werden auch als Prototypen bezeichnet. Die Gesamtheit aller Prototypen und Mischgewichte aller gespeicherten HMMs wird als Codebuch bezeichnet.The emission probabilities p H ( f | i) are modeled as continuous Gaussian mixed probability densities according to the following regulations: where c H / il denotes the mixing weights, (σ H / il) 2 the mixing variances and x H / il the mixing centers. The vectors x H / il are also referred to as prototypes. The entirety of all prototypes and mixed weights of all stored HMMs is referred to as a code book.
Gemäß diesem Ausführungsbeispiel werden folgende Vereinfachungen angenommen.According to this embodiment the following simplifications are assumed.
Zunächst werden die Zustands-Übergangswahrscheinlichkeiten
derart eingestellt, dass sie im Wesentlichen unabhängige Werte
modellieren, das heißt,
dass gilt:
Zur Vereinfachung der Berechnung
wird ohne Einschränkung
der Allgemeingültigkeit
angenommen: und
Diese Parameterwahl ermöglicht es, Zustands-Übergangswahrscheinlichkeiten zu irgendeiner späteren Berechnung zu ignorieren unter der Voraussetzung, dass kein Zustands-Übergang außer einer Selbstschleife, einem Ein- Schritt-Zustandsübergang und einem Zwei-Schritt-Zustandsübergang vorkommt.This choice of parameters enables state transition probabilities to be late at any time Ignore their calculation provided that there is no state transition other than a self-loop, a one-step state transition, and a two-step state transition.
Ferner werden die Varianzen aller
Misch-Wahrscheinlichkeits-Dichten
auf einen fest vorgegebenen Wert eingestellt, das heißt, es gilt:
In diesem Fall ist es sehr einfach, einen normierten negativen Logarithmus der Wahrscheinlichkeit zu berechnen, der gemäß folgender Vorschrift approximiert wird: wobei mit c ~ H / iw der skalierte Logarithmus des Mischgewichts und mit w der "beste" Prototyp bezeichnet wird, der sich ergibt gemäß folgender Vorschrift: In this case, it is very easy to calculate a normalized negative logarithm of the probability, which is approximated according to the following rule: where c ~ H / iw denotes the scaled logarithm of the mixed weight and w denotes the "best" prototype, which results from the following rule:
Die Variable qH(f|i) wird als lokales Ergebnis bezeichnet.The variable q H ( f | i) is called the local result.
Für ein gegebenes HMM H wird das globale Ergebnis auf folgende Weise berechnet.For a given HMM H becomes the global result in the following way calculated.
Gegeben ist ein Alignment A gemäß folgender
Vorschrift:
Es ist anzumerken, dass das optimale Alignment AH dem globalen Ergebnis QH(f(t)) entspricht.It should be noted that the optimal alignment A H corresponds to the global result Q H ( f (t)).
Mittels des zur Spracherkennung eingesetzten
Viterbi-Algorithmus
wird das HMM H* aus der Liste aller in dem
Wörterbuch
Das oben beschriebene Verfahren wird als Viterbi-Dekodierung bezeichnet und H* wird als das Erkennungsergebnis bezeichnet.The method described above is called Viterbi decoding and H * is called the recognition result.
Der mittlere HMM-Abstand basiert auf der Umkehrung des oben beschriebenen Verfahrens zur Ermittlung des besten HMMs H* im Rahmen der Spracherkennung.The mean HMM distance is based on the reversal of the method described above for determining the best HMM H * in the context of speech recognition.
Ausgehend und unter Verwendung von einem gegebenen HMM H, werden Folgen von Merkmals-Vektoren f(t), bezeichnet als Realisierungen eines HMMs, erzeugt und miteinander verglichen.Starting with and using a given HMM H, sequences of feature vectors f (t), referred to as realizations of an HMM, are generated and compared with one another.
Es wird angenommen, dass ein HMMH n Zustände aufweist und einem Symbol w zugeordnet ist und den zuvor beschriebenen Vereinfachungen unterliegt.It is believed that an HMMH n states has and is assigned a symbol w and those previously described Simplifications is subject.
Gemäß diesem Ausführungsbeispiel
wird eine Realisierung des Hidden-Markov-Modells H, das heißt eine
Folge f(t) von Merkmalsvektoren,
erzeugt, indem folgendes Verfahren, welches auch als Monte-Carlo-Abtastung
bezeichnet wird, durchgeführt
wird:
Zunächst
wird in dem Zustand i = 1 des HMMs H begonnen und die Variable t
= 1 gesetzt.According to this exemplary embodiment, a realization of the hidden Markov model H, that is to say a sequence f (t) of feature vectors, is generated by carrying out the following method, which is also referred to as Monte Carlo scanning:
First, the state i = 1 of the HMM H is started and the variable t = 1 is set.
Anschließend wird der 1-te der m H / i Wahrscheinlichkeits-Dichten gemäß den Mischgewichten c H / il ausgewählt.Then the 1st of the m H / i probability densities according to the mixed weights c H / il selected.
Anschließend wird die Emission des Merkmalsvektors f(t) mittels Abtastung der Gauss-Wahrscheinlichkeit P H / il(f) erzeugt.The emission of the feature vector f (t) is then generated by scanning the Gauss probability PH / il ( f ).
Anschließend wird die Variable t um den Wert 1 erhöht.Then the variable t turns around increases the value 1.
In einem fünften Schritt wird ausgewählt, ob für den nächsten Zeitschritt im Rahmen des Zustands-Übergangs eine Selbstschleife, ein Ein-Schritt-Zustandsübergang oder ein Zwei-Schritt-Zustandsübergang durchgeführt wird und der Wert i wird entsprechend dem gewählten Zustandsübergang angepasst.A fifth step is to choose whether for the next Time step as part of the state transition a self-loop, a one-step state transition or a two-step state transition carried out and the value i becomes corresponding to the selected state transition customized.
Wenn gilt i < n, dann wird zu Schritt 2 zurückgekehrt, sonst wird T = t – 1 gesetzt und das Verfahren wird beendet.If i <n then return to step 2 otherwise T = t - 1 set and the procedure is ended.
Auf diese Weise wird eine Folge von Merkmalsvektoren f(t) erzeugt, wobei die Anzahl T von erzeugten Merkmalsvektoren f(t) von n abhängt, üblicherweise jedoch nicht gleich n ist.In this way, a sequence of feature vectors f (t) is generated, the number T of generated feature vectors f (t) depending on n, but is usually not equal to n.
Der Abstand zwischen zwei Realisierungen, das heißt zwischen zwei Merkmalsvektoren f 1(t) und f 2(t) zweier beliebiger HMMs wird auf folgende Weise berechnet.The distance between two implementations, that is to say between two feature vectors f 1 (t) and f 2 (t) of any two HMMs, is calculated in the following way.
Zunächst wird in gleicher Weise wie bei der Viterbi-Dekodierung ein Alignment A, wie oben beschrieben, zwischen den zwei Folgen von Merkmalsvektoren gebildet, das heißt, es erfolgt eine Abbildung jedes Vektors einer ersten Merkmals-Vektor-Folge auf einen Vektor einer zweiten, damit zu vergleichenden Merkmals-Vektor-Folge.First, in the same way like Viterbi decoding an alignment A, as described above, between the two sequences formed by feature vectors, that is, a mapping takes place each vector of a first feature vector sequence onto a vector one second feature vector sequence to be compared.
Das Alignment A hat gemäß diesem Ausführungsbeispiel die folgenden Eigenschaften:Alignment A has according to this embodiment the following properties:
- 1. Das Alignment A ist eindeutig definiert, das heißt es gilt A: f 1(t) → f 2(t) existiert für alle f 1(t), und1. Alignment A is clearly defined, that is, A applies: f 1 (t) → f 2 (t) exists for all f 1 (t), and
- 2. Das Alignment A ist injektiv, das heißt für alle f 2(t) existiert f 1(t) mit A: f 1(t) → f 2(t).2. Alignment A is injective, ie for all f 2 (t) there exists f 1 (t) with A: f 1 (t) → f 2 (t).
Es ist anzumerken, dass üblicherweise gilt T1 ≠ T2 und deshalb die Abbildung nicht unbedingt bijektiv ist.It should be noted that usually T 1 ≠ T 2 and therefore the mapping is not necessarily bijective.
Anschließend werden die gegebenen Alignments A der euklidischen Vektor-Distanzen |f 1(t) – A·f 1(t))|2 zu dem Abstand d(A, f 1(t), f 2(t)) gemäß folgender Vorschrift akkumuliert: Then the given alignments A of the Euclidean vector distances | f 1 (t) - A · f 1 (t)) | 2 to the opening gap A d (A, f 1 (t), f 2 (t)) using the following rule accumulated:
Das Minimum aller akkumulierten Distanzen ist der Abstand d(f 1(t), f 2(t)) zwischen den zwei HMM-Realisierungen f 1(t) und f2(t) gemäß folgender Vorschrift: The minimum of all accumulated distances is the distance d ( f 1 (t), f 2 (t)) between the two HMM implementations f 1 (t) and f2 (t) according to the following rule:
Dieser Wert kann auf einfache Weise berechnet werden unter Verwendung des DTW-Verfahrens (Dynamic Time Warping-Verfahren), welches die oben beschriebenen Eigenschaften erfüllt. Es ist anzumerken, dass die Definition des Abstandes zwischen zwei HMM-Realisierungen der Berechnung des globalen Ergebnisses einer Folge f(t) hinsichtlich eines HMMs H gleicht, wenn das skalierte Mischungsgewicht auf den Wert Null gesetzt wird.This value can be calculated in a simple manner using the DTW method (Dynamic Time Warping method), which fulfills the properties described above. It should be noted that the definition of the distance between two HMM implementations is similar to the calculation of the global result of a sequence f (t) with respect to an HMM H when the scaled mixture weight is set to zero.
Die mittlere HMM-Distanz (mittlerer
HMM-Abstand) zwischen zwei HMMs ist definiert durch die Bildung
des Mittelwerts über
die Abstände
zwischen Realisierungen der zwei HMMs, nämlich gemäß folgender Vorschrift: wobei gilt: f
a(t) ⊂ Ha. Diese Vorschrift ist eine Bezeichnung
des Ausdrucks "f
a(t)
ist eine Realisierung des HMMs Ha". Es ist anzumerken,
dass die mittlere Intra-HMM-Distanz d(H) definiert ist gemäß folgender
Vorschrift:
Der mittlere Intra-HMM-Abstand braucht nicht Null zu sein.The mean intra-HMM distance needs not to be zero.
Somit ist der mittlere Inter-HMM-Abstand zwischen dem ersten Wörterbucheintrags-HMM und dem zweiten Wörterbucheintrags-HMM gebildet (Schritt 511). Auf die entsprechende Weise wird auch der jeweilige mittlere Intra-HMM-Abstand in Schritt 509 berechnet.Hence the mean inter-HMM distance between the first dictionary entry HMM and the second dictionary entry HMM formed (step 511). In the same way, the respective mean intra-HMM distance calculated in step 509.
Anschließend wird überprüft, ob der jeweilige Inter-HMM-Abstand von dem ausgewählten ersten
Wörterbucheintrags-HMM
zu allen in dem elektronischen Wörterbuch
sonst gespeicherten Wörterbucheintrags-HMM
ermittelt worden ist (Schritt 512), und, wenn dies nicht der Fall
ist, wird ein nächstes
anderes Wörterbucheintrags-HMM
aus dem elektronischen Wörterbuch
Anders ausgedrückt bedeutet dies, dass ein
Inter-HMM-Abstand ermittelt wird von dem ausgewählten ersten Wörterbucheintrags-HMM
zu allen anderen Wörterbucheintrags-HMMs
Der mittlere Inter-HMM-Abstand wird im Folgenden als d(H ^,H') bezeichnet.The mean inter-HMM distance is hereinafter referred to as d (H ^, H ') designated.
Ist der Inter-HMM-Abstand d(H ^,H') von dem ausgewählten ersten
Wörterbucheintrags-HMM
zu allen anderen Wörterbucheintrags-HMMs des elektronischen
Wörterbuchs
Das nächstliegende zweite Wörterbucheintrags-HMM
wird in einem folgenden Schritt gespeichert (Schritt 514) (vergleiche
Anschließend wird gemäß folgender Vorschrift die Differenz auf dem mittleren Inter-HMM-Abstand zwischen dem ermittelten zweiten Wörterbucheintrags-HMM zu dem ausgewählten ersten Wörterbucheintrags-HMM und dem Intra-HMM-Abstand des ausgewählten ersten Wörterbucheintrags-HMM ermittelt und gespeichert (Schritt 515): The difference between the mean inter-HMM distance between the determined second dictionary entry HMM and the selected first dictionary entry HMM and the intra-HMM distance of the selected first dictionary entry HMM is then determined and stored (step 515):
Unter Verwendung der ermittelten Differenz wird in einem nachfolgenden Schritt (Schritt 516) ein relativer Trennbarkeits-Abstand berechnet und gespeichert gemäß folgender Vorschrift: Using the determined difference, a relative separability distance is calculated in a subsequent step (step 516) and stored in accordance with the following rule:
Ist der ermittelte und gespeicherte relative Trennbarkeits-Abstand größer als der vorgegebene Schwellenwert des relativen Minimum-Trennbarkeits-Abstands ΘS (Prüfschritt 517), so sind die beiden überprüften Wörterbucheinträge, d.h. die beiden überprüften Wörterbucheintrags-HMMs einander ausreichend unähnlich, d.h. in dem Suchraum voneinander ausreichend weit beabstandet, und das erste Wörterbucheintrags-HMM und der zugehörige Wörterbucheintrag wird akzeptiert (Schritt 518).If the determined and stored relative separability distance is greater than the predetermined threshold value of the relative minimum separability distance Θ S (test step 517), then the two checked dictionary entries, that is to say the two checked dictionary entry HMMs, are sufficiently dissimilar to one another, that is to say in the search space spaced apart sufficiently and the first dictionary entry HMM and associated dictionary entry are accepted (step 518).
Ist jedoch der relative Trennbarkeits-Abstand nicht größer als der vorgegebene Schwellenwert, d.h. die folgende Vorschrift nicht erfüllt ist: so wird das erste Wörterbucheintrags-HMM und der zugehörige Wörterbucheintrag als kritisch markiert.However, if the relative separability distance is not greater than the specified threshold value, ie the following requirement is not met: the first dictionary entry HMM and the associated dictionary entry are marked as critical.
Anschließend wird überprüft, ob der Intra-HMM-Abstand
schon für
alle Wörterbucheintrags-HMMs
und damit für
alle Wörterbucheinträge des elektronischen
Wörterbuchs
Ist dies nicht der Fall, so wird ein nächstes Wörterbucheintrags-HMM als erstes Wörterbucheintrags-HMM ausgewählt, für das noch kein Intra-HMM-Abstand ermittelt worden ist (Schritt 521). Für das als neues erstes Wörterbucheintrags-HMM ausgewählte Wörterbucheintrags-HMM werden die Schritte 503 bis 520 erneut durchgeführt.If this is not the case, then another one Dictionary entry HMM as the first dictionary entry HMM selected, for the an intra-HMM distance has not yet been determined (step 521). For the as the new first dictionary entry HMM selected Dictionary entry HMM steps 503 to 520 are carried out again.
Anders ausgedrückt bedeutet dies, dass für alle Wörterbucheintrags-HMM
jeweils ein Intra-HMM-Abstand und dazu ein jeweiliger Inter-HMM-Abstand
zu allen anderen Wörterbucheintrags-HMMs
des elektrischen Wörterbuchs
Ergebnis des oben beschriebenen Verfahrens
ist die in
Die wichtigsten Ergebnisse der erfindungsgemäßen Ermittlung
der Verwechslungsmatrix
- 1. Die erfindungsgemäße, auf dem Monte Carlo Verfahren basierende Vorgehensweise zum Ermitteln einer Verwechslungsmatrix stellt ebenso eine erhöhte Verwechslungsgefahr der zwei Ziffern „Null" und „Neun" dar und spiegelt ferner korrekt wieder, dass die Ziffer „Null" öfter mit der Ziffer „Neun" verwechselt wird als umgekehrt die Ziffer „Neun" mit der Ziffer „Null".1. The inventive, on the Monte Carlo process based procedure for determining a mix-up matrix also represents an elevated Risk of confusion between the two digits "zero" and "nine" and also reflects correctly, that the number "zero" is often confused with the number "nine" conversely, the number "nine" with the number "zero".
-
2. Erfindungsgemäß wird gemäß der ermittelten
Verwechslungsmatrix
400 ferner korrekt angegeben, dass die Ziffern „Zwei" mit der Ziffer „Drei" öfter verwechselt wird als mit der Ziffer „Eins". Ferner wird korrekt wiedergegeben, dass die Ziffer „Drei" meistens als die Ziffer „Zwei" verwechselt wird. Es ergeben sich jedoch gemäß diesem Ausführungsbeispiel zwei Diskrepanzen zu der Verwechslungsmatrix600 gemäß dem Stand der Technik: Gemäß dem Ausführungsbeispiel der Erfindung wird angedeutet, dass die Ziffer „Zwei" mit der Ziffer „Zwo" verwechselt wird, was jedoch nicht der Fall ist. Ferner wird angeblich die Ziffer „Eins" mit der Ziffer „Acht" verwechselt, was ebenfalls nicht der Fall ist.2. According to the invention, according to the confusion matrix determined400 also correctly stated that the number "two" is confused with the number "three" more often than with the number "one". Furthermore, it is correctly stated that the number "three" is usually mistaken for the number "two" However, according to this exemplary embodiment, there are two discrepancies with the confusion matrix600 According to the prior art: According to the exemplary embodiment of the invention, it is indicated that the number "two" is confused with the number "two", which is not the case, however. Furthermore, the number "one" is allegedly confused with the number "eight", which is also not the case. -
3. Ferner deutet die erfindungsgemäß ermittelte Verwechslungsmatrix
400 an, dass die Ziffer „Zwo" sehr häufig verwechselt wird, was in der Realität nicht der Fall ist.3. The confusion matrix determined according to the invention also indicates400 assumes that the number "two" is very often confused, which is not the case in reality.
Zusammenfassend ist festzustellen,
dass in einigen kleinen Aspekten das erfindungsgemäße Monte Carlo
Verfahren nicht vollständig
zuverlässig
ist, jedoch im Wesentlichen korrekte Modellierungen wiedergibt. Die
in der Verwechslungsmatrix
In einem nachfolgenden Schritt (Schritt
522) wird nunmehr überprüft, ob einzelne
oder alle kritische Wörterbucheinträge aus dem
elektronischen Wörterbuch
Ist dies der Fall, so wird der oder werden die zulässig zu entfernenden Wörterbucheinträge und die zugehörigen Wörterbucheintrags-HMMs aus dem elektronischen Wörterbuch entfernt (Schritt 523) und im Bedarfsfall durch andere, phonetisch besser geeignete Wörterbucheinträge und mit zugehörigen Wörterbucheintrags-HMMs ersetzt.If this is the case, the or will be allowed dictionary entries to be removed and the associated dictionary entry HMMs from the electronic dictionary removed (step 523) and, if necessary, by others, phonetically more suitable dictionary entries and with associated Dictionary entry HMM replaced.
Anschließend bzw. für den Fall, dass kein als kritischer
Wörterbucheintrag
markierter Wörterbucheintrag
aus dem elektronischen Wörterbuch
Ist dies der Fall, so wird in einem nachfolgenden Schritt (Schritt 525) der Schwellenwert für den relativen Minimum-Trennbarkeits-Abstand verändert und das Verfahren beginnt neu in Schritt 503.If this is the case, then in one subsequent step (step 525) the threshold for the relative Minimum distance Trennbarkeits changed and the process begins again in step 503.
Sind weder als kritisch markierte
Wörterbucheinträge aus dem
elektronischen Wörterbuch
- 100100
- SpracherkennungssystemVoice recognition system
- 101101
- Sprachäußerungutterance
- 102102
- Mikrofonmicrophone
- 103103
- Analogsignalanalog signal
- 104104
- Vorverstärkungseinheitpreamplification
- 105105
- verstärktes Analogsignalamplified analog signal
- 106106
- Analog-/DigitalwandlerAnalog / digital converter
- 107107
- digitales Signaldigital signal
- 108108
- MerkmalsextraktionseinheitFeature extraction unit
- 109109
- Merkmalsvektorenfeature vectors
- 110110
- Rechnercomputer
- 111111
- EingangsschnittstelleInput interface
- 112112
- Mikroprozessormicroprocessor
- 113113
- SpeicherStorage
- 114114
- AusgangsschnittstelleOutput interface
- 115115
- Computerbuscomputer bus
- 116116
- Tastaturkeyboard
- 117117
- Computermauscomputer mouse
- 118118
- elektrische Leitungelectrical management
- 119119
- elektrische Leitungelectrical management
- 120120
- Verbindungconnection
- 121121
- Verbindungconnection
- 122122
- Lautsprecherspeaker
- 123123
- Aktoractuator
- 200200
- Elektronisches Wörterbuchelectronic dictionary
- 201201
- Worteintragword entry
- 202202
- Hidden Markov ModellHidden Markov model
- 300300
- VergleichsraumCompare room
- 301301
- Wörterbucheintrags-HMMDictionary entry HMM
- 302302
- Fehlerwort-HMMFault word HMM
- 303303
- Mittlerer HMM-Abstandmiddle HMM-distance
- 400400
- Verwechslungsmatrixconfusion matrix
- 500500
- Ablaufdiagrammflow chart
- 501501
- Startbegin
- 502502
- Setzen Schwellenwert für relativen Minimum-Trennbarkeits-Put Threshold for relative minimum separability
- Abstanddistance
- 503503
- Eingeben oder Anpassen Wörterbucheinträge inEnter or customize dictionary entries in
- elektronischem Wörterbuchelectronic dictionary
- 504504
- Auswählen Wörterbucheintrag aus WörterbuchSelect dictionary entry from dictionary
- 505505
- Bilden HMM für ausgewählten WörterbucheintragForm HMM for chosen Dictionary entry
- 506506
- Für alle Wörterbucheinträge HMM gebildet?Formed HMM for all dictionary entries?
- 507507
- Auswählen nächsten Wörterbucheintrag aus WörterbuchSelect the next dictionary entry from dictionary
- 508508
- Auswählen Wörterbucheintrags-HMM aus Wörterbuch alsSelect dictionary entry HMM from dictionary as
- erstes Wörterbucheintrags-HMMfirst Dictionary entry HMM
- 509509
- Berechnen Intra-HMM-Abstand des ausgewählten erstenTo calculate Intra-HMM distance of the selected one first
- Wörterbucheintrags-HMMDictionary entry HMM
- 510510
- Auswählen anderes Wörterbucheintrags-HMM aus WörterbuchChoose another Dictionary entry HMM from dictionary
- als zweites Wörterbucheintrags-HMMas second dictionary entry HMM
- 511511
- Berechnen mittlerer Inter-HMM-Abstand zwischenTo calculate mean inter-HMM distance between
- ausgewähltem ersten Wörterbucheintrags-HMM und zweitemselected first Dictionary entry HMM and second
- Wörterbucheintrags-HMMDictionary entry HMM
- 512512
- Für alle zweiten Wörterbucheintrags-HMMs Inter-HMM-For every second Dictionary entry HMM Inter-HMM
- Abstand ermittelt?distance determined?
- 513513
- Auswählen nächstes anderes Wörterbucheintrags-HMM alsSelect next other Dictionary entry HMM as
- zweites Wörterbucheintrags-HMMsecond Dictionary entry HMM
- 514514
- Ermitteln des zweiten Wörterbucheintrags-HMM, das demDetermine the second dictionary entry HMM, that to
- ausgewählten ersten Wörterbucheintrags-HMM am Nächstenselected first Dictionary entry HMM the next
- liegtlies
- 515515
- Ermitteln und Speichern Differenz aus mittlerem Inter-Determine and save difference from mean inter-
- HMM-Abstand zwischen dem ermittelten zweiten zu demHMM-distance between the determined second to the
- ausgewählten ersten Wörterbucheintrags-HMM und dem Intra-selected first Dictionary entry HMM and the intra-
- HMM-Abstand des ausgewählten ersten Wörterbucheintrags-HMM-distance of the selected one first dictionary entry
- HMMHMM
- 516516
- Ermitteln und Speichern relativer Trennbarkeits-AbstandDetermine and storing relative separability distance
- 517517
- Relativer Trennbarkeits-Abstand > Schwellenwert?relative Separability distance> threshold?
- 518518
- Akzeptieren erstes Wörterbucheintrags-HMM und zugehörigemAccept first dictionary entry HMM and related
- WörterbucheintragDictionary entry
- 519519
- Markieren erstes Wörterbucheintrags-HMM und zugehörigemTo mark first dictionary entry HMM and related
- Wörterbucheintrag als kritischDictionary entry as critical
- 520520
- Für alle ersten Wörterbucheintrags-HMM Intra-HMM-AbstandFor everyone first Dictionary entry HMM Intra-HMM-distance
- ermittelt?determined?
- 521521
- Auswählen nächstes Wörterbucheintrags-HMM als erstesSelect next dictionary entry HMM first
- Wörterbucheintrags-HMMDictionary entry HMM
- 522522
- Dürfen kritische Wörterbucheinträge aus WörterbuchMay be critical Dictionary entries from dictionary
- entfernt werden?away become?
- 523523
- Entferne kritische Wörterbucheinträge aus Wörterbuchremove critical dictionary entries from dictionary
- 524524
- Verändern Schwellenwert für relativen Minimum-Change threshold for relative Minimum-
- Trennbarkeits-Abstand?Trennbarkeits distance?
- 525525
- Verändern Schwellenwert für relativen Minimum-Change threshold for relative Minimum-
- Trennbarkeits-AbstandTrennbarkeits distance
- 526526
- EndeThe End
- 600600
- Verwechslungsmatrixconfusion matrix
Claims (20)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10257475A DE10257475A1 (en) | 2002-12-09 | 2002-12-09 | Computer-based method for determining the speech processing separation between similar sounding words using hidden Markov model distances |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10257475A DE10257475A1 (en) | 2002-12-09 | 2002-12-09 | Computer-based method for determining the speech processing separation between similar sounding words using hidden Markov model distances |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10257475A1 true DE10257475A1 (en) | 2004-07-08 |
Family
ID=32477480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10257475A Ceased DE10257475A1 (en) | 2002-12-09 | 2002-12-09 | Computer-based method for determining the speech processing separation between similar sounding words using hidden Markov model distances |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10257475A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199726A (en) * | 2018-10-31 | 2020-05-26 | 国际商业机器公司 | Speech processing based on fine-grained mapping of speech components |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6260012B1 (en) * | 1998-02-27 | 2001-07-10 | Samsung Electronics Co., Ltd | Mobile phone having speaker dependent voice recognition method and apparatus |
-
2002
- 2002-12-09 DE DE10257475A patent/DE10257475A1/en not_active Ceased
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6260012B1 (en) * | 1998-02-27 | 2001-07-10 | Samsung Electronics Co., Ltd | Mobile phone having speaker dependent voice recognition method and apparatus |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199726A (en) * | 2018-10-31 | 2020-05-26 | 国际商业机器公司 | Speech processing based on fine-grained mapping of speech components |
CN111199726B (en) * | 2018-10-31 | 2023-09-22 | 国际商业机器公司 | Speech processing based on fine granularity mapping of speech components |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60124842T2 (en) | Noise-robbed pattern recognition | |
DE69818231T2 (en) | METHOD FOR THE DISCRIMINATIVE TRAINING OF VOICE RECOGNITION MODELS | |
DE60004862T2 (en) | AUTOMATICALLY DETERMINING THE ACCURACY OF A SPEECH DICTIONARY IN A VOICE RECOGNITION SYSTEM | |
DE602004012909T2 (en) | A method and apparatus for modeling a speech recognition system and estimating a word error rate based on a text | |
DE60126722T2 (en) | Pronunciation of new words for speech processing | |
EP0925579B1 (en) | Process for adaptation of a hidden markov sound model in a speech recognition system | |
DE60125542T2 (en) | SYSTEM AND METHOD FOR VOICE RECOGNITION WITH A VARIETY OF LANGUAGE RECOGNITION DEVICES | |
DE69816177T2 (en) | Speech / pause differentiation using unguided adaptation of hidden Markov models | |
DE19847419A1 (en) | Procedure for the automatic recognition of a spoken utterance | |
DE102017124264A1 (en) | Determine phonetic relationships | |
DE10334400A1 (en) | Method for speech recognition and communication device | |
DE69738116T2 (en) | Localization of a pattern in a signal | |
DE19942178C1 (en) | Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association | |
DE602004004572T2 (en) | Tracking vocal tract resonances using an objective constraint | |
DE60133537T2 (en) | AUTOMATIC UMTRAINING OF A LANGUAGE RECOGNITION SYSTEM | |
DE60018696T2 (en) | ROBUST LANGUAGE PROCESSING OF CHARACTERED LANGUAGE MODELS | |
DE602004002312T2 (en) | Method and apparatus for determining formants using a residual signal model | |
EP1058235B1 (en) | Reproduction method for voice controlled systems with text based speech synthesis | |
EP3291234B1 (en) | Method for evaluation of a quality of the voice usage of a speaker | |
DE10119284A1 (en) | Method and system for training parameters of a pattern recognition system assigned to exactly one implementation variant of an inventory pattern | |
EP0285222A2 (en) | Method for detecting associatively pronounced words | |
WO2005069278A1 (en) | Method and device for processing a voice signal for robust speech recognition | |
DE10257475A1 (en) | Computer-based method for determining the speech processing separation between similar sounding words using hidden Markov model distances | |
DE10257473A1 (en) | Computer-based method for expansion of an electronic dictionary for use in speech recognition using hidden Markov model distances for determining if a word is an out of vocabulary value or already exists | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |