EP0240679B1 - Ausbildung von in einem Spracherkennungssystem verwandten Markov-Modellen - Google Patents

Ausbildung von in einem Spracherkennungssystem verwandten Markov-Modellen Download PDF

Info

Publication number
EP0240679B1
EP0240679B1 EP87102423A EP87102423A EP0240679B1 EP 0240679 B1 EP0240679 B1 EP 0240679B1 EP 87102423 A EP87102423 A EP 87102423A EP 87102423 A EP87102423 A EP 87102423A EP 0240679 B1 EP0240679 B1 EP 0240679B1
Authority
EP
European Patent Office
Prior art keywords
word
probability
count
value
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
EP87102423A
Other languages
English (en)
French (fr)
Other versions
EP0240679A1 (de
Inventor
Lalit Rai Bahl
Peter Fitzhugh Brown
Peter Vincent Desouza
Robert Leroy Mercer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of EP0240679A1 publication Critical patent/EP0240679A1/de
Application granted granted Critical
Publication of EP0240679B1 publication Critical patent/EP0240679B1/de
Expired legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Definitions

  • Markov modelling is a probabilistic technique employed in various fields, including speech recognition.
  • a Markov model is represented as a plurality of states, transitions which extend between states, and probabilities relating to the occurrence of each transition and to the occurrence of an output (from a set of predefined outputs) at each of at least some of the transitions.
  • training The process of generating statistics and determining the probabilities for a Markov model is referred to as "training".
  • word model training it is typical that a training script of known utterances --hereafter considered utterances of words in a vocabulary-- be spoken by a system user into an acoustic processor.
  • the acoustic processor generates a string of labels in response to the utterance by the user of known words. From the labels generated in response to the utterance of the training script, statistics are generated and probabilities are determined therefrom.
  • Maximum likelihood training is employed generally in Markov modelling. According to this approach, statistics are found which maximize the likelihood that the training data is generated. That is, given a string A of labels a1a2---and a Markov model M, statistics are sought which maximize the expression Pr(A
  • the present invention has as an object the training of Markov models, and similar models, preferably in a speech recognition environment in a manner directed toward maximizing word decoding accuracy. Specifically, the present invention is directed to determining statistics for each model in a manner which enhances the probability of the correct word relative to the probabilities associated with other words.
  • the philosophy is to maximize the difference between the probability of the correct script of uttered words given the label outputs and the probability of any other (incorrect) script, rather than maximizing the probability of the labels given the script as in other approaches.
  • the European patent application 86 104 216.6 relates to an invention which provides background or environment for the present invention and is incorporated herein by reference to the extent, if any, required for supporting the description of the present invention.
  • the acoustic processor 1004 is designed to transform a speech waveform input into a string of labels, each of which in a general sense identifies a corresponding sound type.
  • the acoustic processor 1004 is based on a unique model of the human ear and is described in the European patent application 85 111 905.7. This application is incorporated herein by reference to disclose a particularly effective method of generating labels in response to incoming speech.
  • the stack decoder 1002 may be represented by the elements shown in FIG.2. That is, the stack decoder 1002 includes a search element 1020 which communicates with the work station 1012 and which communicates with the acoustic processor process, the fast match processor process, the detailed match process; and the language model process through respective interfaces 1022, 1024, 1026, and 1028.
  • the object of acoustic matching is to determine --based on acoustics-- the most likely word (or words) for a given string of labels.
  • each word is represented by at least one probabilistic finite state machine.
  • each word is represented by a sequence of such machines.
  • Each probabilistic finite state machine is characterized by (a) a plurality of states S i , (b) a plurality of transitions tr(S j
  • the probabilities which fill the machines are determined based on data derived during a training session in which a training script is uttered by a user.
  • the data derived corresponds to the user's particular speech characteristics.
  • the fast approximate acoustic match is performed to examine words in a vocabulary of words and to reduce the number of candidate words for a given string of incoming labels.
  • approximations are made for at least some of the probability values. Matching is then performed based on the approximated probability values.
  • the detailed match is operable alone or in conjunction with the fast match. When operated alone, unapproximated probability values corresponding to each word model are considered in determining the match score of the corresponding word.
  • the detailed match examines and provides a score for each vocabulary word.
  • the detailed match examines those words from the fast match candidate list which have a reasonable likelihood of being the spoken word and which, preferably, have a reasonable likelihood based on the language model computations.
  • the word, or words, derived from the acoustic matching and the language model are used by the stack decoder 1002.
  • the stack decoder 1002 using information derived from the fast matching, detailed matching, and applying the language model-- is designed to determine the most likely path, or sequence, of words for a string of generated labels.
  • the stack decoder 1002 serves to control the other elements but does not perform many computations.
  • the stack decoder 1002 preferably includes a 4341 running under the IBM VM/370 operating system as described in publications such as Virtual Machine/System Product Introduction Release 3 (1983).
  • the array processors which perform considerable computation have been implemented with Floating Point System (FPS) 190L's, which are commercially available.
  • FPS Floating Point System
  • a training script of vocabulary words is uttered in step 1102.
  • labels are generated at step 1104. This labelling is performed by the acoustic processor 1002 identified above with reference to FIG.1.
  • each word in the vocabulary is represented as a Markov model word baseform. That is, each word is represented by a sequence of concatenated probabilistic finite state machines. (The concatenated sequence, it should be noted, is also a probabilistic finite state machine.) Each constituent machine is a "phone" machine. As noted hereinabove, phones may be characterized based on phonetics (or phonemes) or may be characterized based on labels (or fenemes).
  • the total number of distinct probabilities --taking into account all phone machines-- is the sum of label probabilities and transition probabilities.
  • the total number of probabilities is:
  • fenemic phone machines may be employed in constructing the word baseforms.
  • the total number of probabilities when using fenemic phones (of which there are typically 200) rather phonetic-type phones (of which there are typically 70 to 100) changes.
  • the number of phones in a word is typically greater, but the total number of transition alternatives is typically less.
  • Apparatus and methodology for constructing fenemic word baseforms formed of fenemic phones is set forth in the European patent application 86 104 220.8 which is incorporated herein by reference to the extent (if any) required for adequate disclosure.
  • this application pertains to an invention made by members of the IBM Corporation Speech Recognition group.
  • FIG.8 a phonetic word baseform is represented.
  • PP it is noted, refers to a phonetic phone.
  • Each numeral suffix identifies a particular phone in the set of 70 (or more) phones.
  • the baseform of FIG.8 is assumed to be a baseform for the word "THE”.
  • One phonetic spelling of "THE” is DH-UH1-XX.
  • PP1 would correspond to phone DH
  • PP7 would correspond to phone UH1
  • PP10 would correspond to phone XX.
  • Phone PP1 has probabilities as shown in FIG.8(b). That is, the first transition has a probability represented as p[tr1 p1 ]; the second transition has a probability represented as p[tr2 P1 ]; and so on for each transition At transition tr1, there is also an array of label output probabilities, i.e., P P1 '[1], P P1 '[2],...and P P1 '[200]
  • the P1 subscript identifies the phone as phonetic phone 1 of the set and the single prime (') indicates first transition.
  • P P1 '[1] thus represents the probability of phonetic phone PP1 producing label 1 at transition 1.
  • the first fenemic phone in the sequence would be FP200.
  • FP200 has three transitions with respective probabilities p[tr 1P200 ], P[tr2 P200 ], and p[tr3 P200 ].
  • the two non-null transitions 1 and 2 of FP200 have label probabilities associated therewith.
  • the storing of values for probability items is noted in FIG. 3 at step 1108.
  • the generating of the values initially stored is performed by any of various known training techniques.
  • the forward-backward algorithm By means of the forward-backward algorithm, values for counts are derived and, from the count values, a probability value for each probability item is computed.
  • the present invention improves these probability values and the count values from which they are derived.
  • the stored probability item values may represent values initially computed from counts generated by the forward-backward algorithm or values previously adjusted in accordance with the invention.
  • the values stored in step 1108 are, in either case, hereafter referred to as "current" stored values.
  • FIG.10 represents a portion of a trellis based on phone machines as set forth in FIG.4.
  • three successive phone model representations are set forth at successive label time intervals.
  • the three phone model representations define a large number of tracks which may represent the utterance of a particular phone or phones. For example, for a given phone, one possible track may start at time t0 at state S1 and then proceed from state S1 to state S2. From state S2 at time t1 the track may continue to state S3 at time t2 and thereafter to state S7 (the final state). The phone would then extend three time intervals. A given phone may be shorter in length or may extend over more time intervals.
  • step 1412 the "incorrect" word having the highest likelihood of having produced the labels generated in response to the single utterance of the Ith word is noted and its logarithmic probability set as L T .
  • step 1414 the two log probabilities are compared to determine if L C exceeds L I by a value R.
  • R is a non-negative threshold typically set at approximately ten. If L C does exceed L I by the factor R, I is incremented in step 1416 to summon a new word. If all words have not been summoned, the process jumps back to step 1410 with the new word.
  • each adjusted count has a minimum threshold to assure that no previously non-zero count is reduced to zero or a negative value.
  • This minimum level may, by way of example, be on the order of .1.
  • Pr'(Y) is identified as the probability derived from the forward pass probability computed using the parameters ⁇ '. The problem is thus reduced to computing the probabilities: Pr' ( ⁇ j ,S j ,Y
  • the sum in the numerator is a label "output cumulative count” and is preferably stored with the associated label output probability item corresponding therewith. By dividing this cumulative count by the sum of single counts over all label times for the specific S j , ⁇ i , Y, and ⁇ ', a current probability value is determined for the respective label output probability item.
  • FIG. 14 For a non-null transition.
  • time is measured horizontally. Each time interval corresponds to the time interval during which a label can be generated. Labels y1 through y T are shown as having been generated between time intervals 1 through T+1. In the vertical direction are successive states. In the trellis diagram of FIG.12, time, states, transitions; and the generation of labels are shown.
  • Y,t) it is observed can be represented as three components of a product.
  • the second component of the product is the probability of taking transition ⁇ i from state S j and producing label y ⁇ . This may be expressed as: Pr( ⁇ i
  • the forward-backward algorithm is used to compute the stored count values as outlined hereinabove.
  • the probability values for the transition probability items and the label output probability items are re-computed.
  • an end-time distribution for the phone is sought and used in determining a match value for the phone.
  • the notion of relying on the end-time distribution is common to all embodiments of phone machines discussed herein relative to a matching procedure.
  • the phone machine 1200 involves computations which are exact and complicated.
  • probability determinations for a series of other end times are preferably generated to form an end-time distribution.
  • the value of the end-time distribution for a given phone provides an indication of how well the given phone matches the incoming labels.
  • the phones which represent the word are processed in sequence.
  • Each phone generates an end-time distribution of probability values.
  • a match value for the phone is obtained by summing up the end-time probabilities and then taxing the logarithm of that sum.
  • a start-time distribution for the next phone is derived by normalizing the end-time distribution by, for example, scaling each value thereof by dividing each value by the sum so that the sum of scaled values totals one.
  • h the number of phones to be examined for a given word or word string.
  • a depth first method computation is made along a baseform --computing a running subtotal with each successive phone. When the subtotal is found to be below a predefined threshold for a given phone position therealong, the computation terminates.
  • a breadth first method a computation for similar phone positions in each word is made. The computations following the first phone in each word, the second phone in each word, and so on are made.
  • the computations along the same number of phones for the various words are compared at the same relative phone positions therealong. In either method, the word(s) having the largest sum of match values is the sought object.
  • the above-noted FPS 190L is set up to make the various computations of end times, match values based on, for example, a sum --preferably the logarithmic sum of end time probabilities; start times based on the previously generated end time probabilities; and word match scores based on the match values for sequential phones in a word.
  • the detailed match preferably accounts for "tail probabilities" in the matching procedure.
  • a tail probability measures the likelihood of successive labels without regard to words.
  • a given tail probability corresponds to the likelihood of a label following another label. This likelihood is readily determined from strings of labels generated by, for example, some sample speech.
  • a fast approximate acoustic matching technique is the subject of the European patent application 86 104 216.6.
  • each phone machine is simplified by replacing the actual label probability for each label at all transitions in a given phone machine with a specific replacement value.
  • the specific replacement value is preferably selected so that the match value for a given phone when the replacement values are used is an overestimation of the match value achieved by the detailed match when the replacement values do not replace the actual label probabilities.
  • One way of assuring this condition is by selecting each replacement value so that no probability corresponding to a given label in a given phone machine is greater than the replacement value thereof.
  • the basic fast match simplifies the detailed match by replacing with a single value the actual label probabilities for a given label at all transitions at which the given label may be generated in a given phone machine. That is regardless of the transition in a given phone machine whereat a label has a probability of occurring, the probability is replaced by a single specific value.
  • the value is preferably an overestimate, being at least as great as the largest probability of the label occurring at any transition in the given phone machine.
  • ⁇ 3 includes a term corresponding to each of four start times.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Claims (15)

  1. Verfahren zur Darstellung von Wörtern oder Teilen davon durch Markov Modelle, in dem Kennzeichnungen aus einem Alphabet von Kennzeichnungen als Folge einer Spracheingabe zu aufeinanderfolgenden Kennzeichnungszeiten erzeugt, und in dem Wörter oder Teile davon in Wahrscheinlichkeitsform durch Markov Modelle dargestellt werden, worin jedes Markov Model gekennzeichnet ist durch (i) Zustände, (ii) Zuständen-Übergänge zwischen Zuständen, und (iii) Wahrscheinlichkeitsposten, worin einige Wahrscheinlichkeitsposten Wahrscheinlichkeitswerte haben, die der Wahrscheinlichkeit eines vollzogenen Überganges in einem gegebenen herangezogenen Model, und worin andere Wahrscheinlichkeitsposten Wahrscheinlichkeitswerte haben, die der Wahrscheinlichkeit dafür daß eine spezielle Kennzeichnung an einem Übergang von einem oder mehreren vorbestimmten Übergängen in einem gegebenen Model erzeugt wird, entsprechen,

    und wobei das Verfahren ein Verfahren einschließt zur Bewertung von Zählständen von denen die Wahrscheinlichkeitsposten abgeleitet werden und das die folgenden Schritte enthält:
    a) Definierung eines Satzes von Zählständen, wobei jeder Zählstand einen gespeicherten Wert hat, welcher der Wahrscheinlichkeit eines speziellen vollzogenen Überganges τi von einem speziellen Zustand Sj zu einer speziellen Kennzeichnungsintervallzeit t für eine spezielle Folge von erzeugten Kennzeichnungen entspricht und worin die Wahrscheinlichkeitsposten vorab definierte Werte ϑ' haben;
    b) Ableiten eines berechneten Wertes für jeden Wahrscheinlichkeitsposten aus den gespeicherten entsprechenden Zählstandswerten;
    c) Äußerung eines bekannten Gegenstandswortes und Erzeugung einer Ausgabeinformation als Antwort auf die Äußerung;
    d) Auswahl eines inkorrekten vom bekannten Wort verschiedenen Wortes und Bestimmung für jeden Zählstand, der bei der Ableitung des Wertes eines Wahrscheinlichkeitspostens in dem Model des genannten inkorrekten Wortes verwendet wurde, eines Minuszählstandswertes aus der erzeugten Ausgabeinformation des geäußerten bekannten Wortes;
    e) Definition eines angepaßten Zählstandswertes worin der gespeicherte Wert für jeden Zählstand als Addend und der Minuswert von jedem Zählstand als Subtrahend dient;
    f) Bestimmung für jeden Zählstand, der bei der Ableitung eines Wahrscheinlichkeitspostens im Model des bekannten Wortes verwendet wurde, eines Pluszählstandswertes aus der erzeugten Ausgabeinformation des geäußerten bekannten Wortes;
    g) Verwendung des Pluszählstandswertes eines Gegenstandszählstandes als Addend bei der Definition des angepaßten Zählstandswertes für den Gegenstandszählstand; wobei der angepaßte Wert für den Gegenstandszählstand bestimmt wird durch Addition des gespeicherten Wertes und des Pluszählstandswertes und Subtraktion des Minuszählstandswertes;
    h) Wiederholung der Schritte (c bis g) für jedes Wort in einem vorbestimmten Skriptum;
    j) Wiederberechnung der Werte der Wahrscheinlichkeitsposten basierend auf den jüngsten angepaßten Werten der Zählstände nach dem Schritt (h);
    k) Bildung einer geordneten Liste von Kandidatenwörtern aus den Wörtern im Vokabular zur Auswahl eines inkorrekten Wortes; und
    l) Auswahl als inkorrektes Wort des Wortes, das die höchste Wahrscheinlichkeit dafür aufweist, daß es fälschlich als geäußertes bekanntes Gegenstandswort ausgewählt wurde.
  2. Verfahren nach Anspruch 1 worin jeder Übergangs-Wahrscheinlichkeitsposten Pr(τi|Sj) wie folgt definiert wird:
    Figure imgb0032
    worin Y eine Folge von Kennzeichnungen darstellt;

    und worin jeder Ausgabe-Wahrscheinlichkeitsposten Pr( fhi,Sj) einer Kennzeichnung definiert wird als:
    Figure imgb0033
    worin fh einer bestimmten Kennzeichnung entspricht, die aus dem Kennzeichnungsalphabet ausgewählt wurde, und yt einer Kennzeichnung entspricht, die zum Zeitintervall t erzeugt wurde.
  3. Verfahren nach Anspruch 1 worin der genannte Schritt zur Bildung der Liste folgende Schritte einschließt:

    Charakterisierung jedes Wortes als eine Folge von Lautelementen, worin jedes Lautelement (i) eine Beginnzeit-Verteilung von Wahrscheinlichkeiten qn entsprechend den bezüglichen aufeinanderfolgenden Beginnzeiten tn hat,

    (ii) eine Vielzahl von Zuständen zwischen denen Übergänge auftreten hat,
    (iii) eine Vielzahl von Übergangs-Wahrscheinlichkeiten hat, die jede die Wahrscheinlichkeit dafür angibt, daß ein gegebener Übergang in einem gegebenen Lautelement auftrifft,
    (iv) eine Vielzahl von aktuellen Kennzeichnungswahrscheinlichkeiten hat, wobei jede aktuelle Ausgabewahrscheinlichkeit die Wahrscheinlichkeit angibt, daß ein bestimmtes Lautelement eine bestimmte Kennzeichnung bei einem bestimmten Übergang in einem bestimmten Lautelement erzeugt;
    und

    Bildung einer annähernden Übereinstimmung für ein Gegenstandswort, einschließlich der folgenden Schritte:

       Ersatz aller aktuellen Kennzeichnungswahrscheinlichkeiten, die zu einer bestimmten Kennzeichnung gehören, die von einem bestimmten Lautelement bei einem Übergang im Lautelement erzeugt wird, durch einen entsprechenden speziellen Ersatzwert;

       Bestimmung für die im Gegenstandswort aufeinanderfolgenden Lautelemente der Wahrscheinlichkeit Φn dafür, daß ein Lautelement zu einer zugehörigen aus einer Vielzahl von aufeinanderfolgenden Schlußzeiten tn endet als Funktion von: Beginnzeitverteilung, der Wahrscheinlichkeit des Lautelementes dafür, daß eine Folge von Kennzeichnungen jeweils von bestimmten Längen erzeugt wird, und davon des Ersatzwertes p'(yk) für jede zugehörige Kennzeichnung yk die vom Lautelement zur Erzeugung der ankommenden Folge von Kennzeichnungen erzeugt werden soll;

       Kennzeichnung der Kennzeichnungslängen-Verteilung als uniform zwischen einer minimalen Länge und einer maximalen Länge, wobei die Wahrscheinlichkeit an anderen Stellen auf Null gesetzt wird;

       wobei jedes Φn hierbei eine Funktion ist von: Beginnzeitverteilung, uniformer Wahrscheinlichkeit für jede Länge zwischen der minimalen Länge und der maximalen Länge, und des Ersatzwertes p'(yk) für jede zugehörige Kennzeichnung yk die vom Lautelement erzeugt wird um die eingehende Folge von Kennzeichnungen zu produzieren;

       Kombination der Werte für die aufeinanderfolgenden Werte Φn zur Ableitung eines Übereinstimmungswertes für die hierzu entsprechenden Lautelemente; und Kombination der Übereinstimmungswerte für aufeinanderfolgende Lautelemente in einem Gegenstandswort zur Erzeugung eines Wort-Übereinstimmungsergebnisses;

    Bildung einer Liste von Kandidatenwörtern in der Reihenfolge der Wort-Übereinstimmungsergebnisse, wobei zumindest die meisten der Wörter im Vokabular von der gebildeten Liste ausgeschlossen werden.
  4. Verfahren nach Anspruch 1 mit den weiteren folgenden Schritten:
    m) Bestimmung der Wahrscheinlichkeit mit der das Model des korrekten Wortes die erzeugte Ausgabeinformation produziert;
    n) Bestimmung der Wahrscheinlichkeit mit der das Model des ausgewählten inkorrekten Wortes die erzeugte Ausgabeinformation produziert;
    p) Vergleich der in den Schritten m) und n) bestimmten Wahrscheinlichkeiten;
    q) Abhängigmachen der Definition eines angepassten Zählstandswertes von der Bedingung ob die Wahrscheinlichkeit des korrekten Wortes die Wahrscheinlichkeit des inkorrekten Wortes nicht mit einer vorgeschriebenen Erhöhung überschreitet.
  5. Verfahren nach Anspruch 4 worin die Bestimmung des Minuszählstandswertes für einen Gegenstandszählstand die folgenden Schritte einschließt:
    r) Bestimmung eines minus-kumulativen Zählstandswertes für jeden Wahrscheinlichkeitsposten in der Grundform des inkorrekten Wortes, wobei der minus-kumulative Zählstandswert auf der Ausgabeinformation basiert, die als Antwort auf die Äußerung des bekannten Gegenstandswortes erzeugt wird und einem speziellen Übergang Φi entspricht, der von einem speziellen Zustand Sj zu allen Kennzeichnungsintervallzeiten t in dem Wortmodel des auswählten inkorrekten Wortes stattfindet, wobei die Wahrscheinlichkeitsposten vorher definierte Werte haben.
  6. Verfahren nach Anspruch 5 worin der Schritt (r) den folgenden Schritt einschließt:
    s) Anwendung des vorwärts-rückwärts Algorithmus auf das Wortmodel für das ausgewählte inkorrekte Wort, basierend auf der Ausgangsinformation die in Beantwortung der Äußerung des bekannten Gegenstandswortes erzeugt wird, um die minus-kumulativen Zählstandswerte zu bestimmen.
  7. Verfahren nach Anspruch 5 worin die Bestimmung des Plus Zählstandswertes für einen Gegenstandszählstand den folgenden Schritt einschließt:
    t) Bestimmung eines plus-kumulativen Zählstandwertes für jeden Wahrscheinlichkeitsposten in der Grundform des korrekten Wortes, wobei der plus-kumulative Zählstandswert basiert auf der Ausgangsinformation, die in Beantwortung auf die Äußerung des bekannten Gegenstandswortes erzeugt wird und einem speziellen Übergang i entspricht, der von einem speziellen Zustand Sj zu allen Kennzeichnungsintervallzeiten im Wortmodel des korrekten Wortes stattfindet, worin die Wahrscheinlichkeitsposten vorher definierte Werte haben.
  8. Verfahren nach Anspruch 7 worin der Schritt (t) den folgenden Schritt einschließt:
    u) Anwendung des vorwärts-rückwärts Algorithmus auf das Wortmodel für das ausgewählte inkorrekte Wort basierend auf der Ausgabeinformation, die in Beantwortung auf die Äußerung des bekannten Gegenstandswortes erzeugt wird, zur Bestimmung der plus-kumulativen Zählstandwerte.
  9. Verfahren nach Anspruch 8 worin die Schritte a) bis u) einen Zyklus enthalten, der aufeinanderfolgend für eine vorbestimmte Anzahl von Wiederholungen wiederholt wird,

    wobei jeder Zyklus mit gespeicherten Werten durchgeführt wird, die im jüngsten vorhergehenden Zyklus fortgeschrieben wurden.
  10. Verfahren nach Anspruch 1 worin die Bestimmung der Minuszählstandswerte die folgenden Schritte einschließt:
    v) Bestimmung eines ersten Wertes für einen Gegenstands-Zählstand, der bei der Ableitung eines Wahrscheinlichkeitswertes für einen Wahrscheinlichkeitsposten im inkorrekten Wort verwendet wurde, wobei dieser erste Wert den erwarteten Eintritt eines Ereignisses anzeigt, das dem Gegenstandszählstand im Model des inkorrekten Wortes entspricht, basierend auf der Ausgabeinformation die in Beantwortung auf die Äußerung des bekannten Wortes erzeugt wurde;
    w) Skalierung des ersten Wertes mit einem vorbestimmten Betrag;
    x) wobei der skalierte Wert den Minuszählstandswert für den Gegenstandszählstand darstellt; und
    y) Wiederholung der Schritte v) bis x) bis jeder Zählstand, der bei der Ableitung eines Wahrscheinlichkeitswertes für einen Wahrscheinlichkeitsposten im Model des inkorrekten Wortes verwendet wurde, der Gegenstandszählstand in zumindest einer Wiederholung gewesen ist.
  11. Verfahren nach Anspruch 10 worin die Bestimmung der Pluszählstandswerte die folgenden Schritte einschließt:
    aa) Bestimmung für einen Gegenstandszählstand, der bei der Ableitung eines Wahrscheinlichkeitswertes für einen Wahrscheinlichkeitsposten im inkorrekten Wort verwendet wurde, eines ersten Wertes für das Ereignis, das dem Gegenstandszählstand im Model des inkorrekten Wortes entspricht, basierend auf der Ausgabeinformation die in Beantwortung auf die Äußerung des bekannten Wortes erzeugt wurde;
    bb) Skalierung des ersten Wertes mit einem vorbestimmten Betrag;
    cc) wobei der skalierte Wert den Pluszählstandswert für den Gegenstandszählstand darstellt;
    dd) Wiederholung der Schritte aa) bis cc) bis jeder Zählstand, der bei der Ableitung eines Wahrscheinlichkeitswertes für einen Wahrscheinlichkeitsposten im Model des inkorrekten Wortes verwendet wurde, der Gegenstandszählstand in zumindest einer Wiederholung gewesen ist.
  12. Verfahren nach Anspruch 1 mit dem folgenden weiteren Schritt:
    ee) Bestimmung der Maximum-Wahrscheinlichkeits-Trainingswerte für Zählstände die den Ausdruck Pr(Y|M) maximieren, worin Y eine Folge von Kennzeichnungen darstellt, die während des anfänglichen Trainings erzeugt wurden und M ein definiertes Markov Model darstellt, das Maximum Wahrscheinlichkeitswerte für seine Wahrscheinlichkeitsposten einschließt;
    ff) wobei die Anpassung der Zählstandwerte mit den Maximum-Wahrscheinlichkeits-Trainingswerten als aktuelle Werte beginnt.
  13. Verfahren nach Anspruch 1 mit den folgenden weiteren Schritten:
    gg) Bestimmung der Maximum-Wahrscheinlichkeits-Trainingswerte für Wahrscheinlichkeitsposten welche den Ausdruck Pr(Y|M) maximieren, worin Y eine Folge von Kennzeichnungen darstellt die während eines anfänglichen Trainings erzeugt wurden und M ein definiertes Markov Model darstellt, das Maximum-Wahrscheinlichkeitswerte für seine Wahrscheinlichkeitsposten einschließt;
    hh) wobei die Anpassung der Wahrscheinlichkeitsposten mit den Maximum-Wahrscheinlichkeits-Trainingswerten als berechnete Werte im Schritt b) beginnt.
  14. Verfahren nach Anspruch 13 worin der genannte Schritt zur Bildung einer Liste die folgenden Schritte einschließt:

    Kennzeichnung eines jeden Wortes als eine Folge von Lautelementen, worin jedes Lautelement
    (i) eine Beginnzeitverteilung von Wahrscheinlichkeiten qn hat, die entsprechenden aufeinanderfolgende Beginnzeiten tn entsprechen,
    (ii) eine Vielzahl von Zuständen aufweist zwischen denen Übergänge auftreten,
    (iii) eine Vielzahl von Übergangswahrscheinlichkeiten hat, wobei jede davon die Wahrscheinlichkeit angibt, daß ein gegebener Übergang in einem gegebenen Lautelement auftritt,
    (iv) eine Vielzahl von aktuellen Kennzeichnungswahrscheinlichkeiten hat, wobei jede aktuelle Ausgabewahrscheinlichkeit die Wahrscheinlichkeit angibt, daß ein bestimmtes Lautelement eine bestimmte Kennzeichnung bei einem bestimmten Übergang im bestimmten Lautelement erzeugt;
    Bildung einer angenäherten Übereinstimmung für ein Gegenstandswort mit Einschluß der folgenden Schritte:

       Ersetzen aller aktuellen Kennzeichnungswahrscheinlichkeiten die zu einer gegebenen Kennzeichnung gehören die von einem gegebenen Lautelement bei einem Übergang darin erzeugt wurden durch einen entsprechenden speziellen Ersatzwert;

       Bestimmung für die Lautelemente im Gegenstandswort nacheinander der Wahrscheinlichkeit Φn dafür, daß ein Lautelement zu einer bezüglichen einer Vielzahl von aufeinanderfolgenden Endzeiten tn endet, als Funktion einer Beginnzeitverteilung, der Wahrscheinlichkeit dafür, daß das Lautelement eine Kennzeichnungsfolge von jeder von verschiedenen Längen erzeugt, und dafür, daß der Ersatzwert p'(yk) für jede bezügliche Kennzeichnung yk die vom Lautelement erzeugt wird die eingehende Folge von Kennzeichnungen erzeugt;

       Kennzeichnung der Kennzeichnungslängenverteilung als uniform zwischen einer minimalen Länge und einer maximalen Länge, wobei die Wahrscheinlichkeit an anderen Werten auf Null gesetzt wird;

       wobei jedes Φn dabei eine Funktion der Beginnzeitverteilung, der uniformen Wahrscheinlichkeit für jede Länge zwischen der minimalen Länge und der maximalen Länge, und des Ersatzwertes p'(yk) für jede bezügliche Kennzeichnung yk ist, die vom Lautelement zur Erzeugung der eingehenden Folge von Kennzeichnungen erzeugt wird;

       Kombination der Werte für die aufeinanderfolgenden Wahrscheinlichkeiten Φn zur Ableitung eines Übereinstimmungswertes für das entsprechende Lautelement;

       Kombination der Übereinstimmungswerte für aufeinanderfolgende Lautelemente in einem Gegenstandswort zur Verfügungstellung eines Wort-Übereinstimmungsergebnisses; und

    Bildung einer Liste von Kandidatenwörter in der Reihenfolge der Wort-Übereinstimmungsergebnisse, wobei zumindest die meisten der Wörter im Vokabular in der gebildeten Liste ausgeschlossen werden.
  15. Spracherkennungssystem, in dem Kennzeichnungen aus einem Alphabet von Kennzeichnungen zu aufeinanderfolgenden Kennzeichnungszeiten in Antwort auf eine Spracheingabe erzeugt werden und in dem Wörter oder Teile davon in Wahrscheinlichkeitsform durch Markov Modelle dargestellt werden, worin jedes Markov Model gekennzeichnet ist durch (i) Zustände (ii) Übergänge zwischen den Zuständen und (iii) Wahrscheinlichkeitsposten, worin einige Wahrscheinlichkeitsposten Wahrscheinlichkeitswerte haben die der Wahrscheinlichkeit entsprechen mit der ein Übergang in einem gegebenen Model stattfindet und worin andere Wahrscheinlichkeitsposten Wahrscheinlichkeitswerte haben die der Wahrscheinlichkeit entsprechen, mit der eine spezielle Kennzeichnung bei einem Übergang von einem oder mehreren vorbestimmten Übergängen in einem gegebenen Model erzeugt wird, wobei das System Mittel einschließt zur Bewertung von Zählständen von denen die Wahrscheinlichkeitswerte abgeleitet werden, welches System enthält:
    a) Mittel zur Bestimmung eines Satzes von Zählständen, wobei jeder Zählstand einen gespeicherten Wert hat, der der Wahrscheinlichkeit entspricht, mit der ein spezieller Übergänge τi von einem speziellen Zustand Sj zu einer speziellen Kennzeichnungsintervallzeit t für eine spezielle Folge von erzeugten Kennzeichnungen stattfindet und worin die Wahrscheinlichkeitsposten vorher definierte Werte ϑ' haben;
    b) Mittel zur Ableitung eines berechneten Wertes für jeden Wahrscheinlichkeitsposten aus den gespeicherten entsprechenden Zählstandswerten;
    c) Mittel zur Erzeugung von Ausgangsinformationen in Antwort auf die Äußerung eines bekannten Gegenstandswortes;
    d) Mittel zur Auswahl eines inkorrekten Wortes welches verschieden ist vom bekannten und Bestimmung für jeden Zählstand, der in der Ableitung des Wertes eines Wahrscheinlichkeitspostens in dem Model des genannten inkorrekten Wortes verwendet wurde, eines Minuszählstandswertes aus der erzeugten Ausgabeinformation für das geäußerte bekannte Wort;
    e) Mittel zur Definition eines angepaßten Zählstandswertes, worin der gespeicherte Wert für jeden Zählstand als Addend und der Minuswert für jeden Zählstand als Subtrahend dient;
    f) Mittel zur Bestimmung für jeden Zählstand, der zur Ableitung eines Wahrscheinlichkeitspostens im bekannten Wortmodel verwendet wurde, eines Pluszählstandswertes aus der erzeugten Ausgabeinformation für das geäußerte bekannte Wort;
    g) wobei der Pluszählstandswert eines Gegenstandszählstandes als Addend dient zur Definition des angepaßten Zählstandswertes für den Gegenstandszählstand;

    wobei der angepaßte Wert eines Gegenstandszählstandes bestimmt wird durch Addition des gespeicherten Wertes und des Pluszählstandswertes und durch Subtraktion des Minuszählstandswertes;
    h) Mittel zur Wiederholung der Schritte c) bis g) für jedes Wort in einem vorbestimmten Skriptum;
    j) Mittel zur Wiederberechnung der Werte der Wahrscheinlichkeitsposten basierend auf den jüngsten angepaßten Werten der Zählstände nach Schritt h);
    k) Mittel zur Bildung einer geordneten Liste von Kandidatenwörtern aus den Wörtern im Vokabular zur Auswahl eines inkorrekten Wortes;
    l) Mittel zum Auswählen als ausgewähltes inkorrektes Wort des Wortes, das die höchste Wahrscheinlichkeit dafür aufweist, fälschlich als geäußertes bekanntes Gegenstandwort ausgewählt zu werden.
EP87102423A 1986-03-27 1987-02-20 Ausbildung von in einem Spracherkennungssystem verwandten Markov-Modellen Expired EP0240679B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/845,201 US4827521A (en) 1986-03-27 1986-03-27 Training of markov models used in a speech recognition system
US845201 1986-03-27

Publications (2)

Publication Number Publication Date
EP0240679A1 EP0240679A1 (de) 1987-10-14
EP0240679B1 true EP0240679B1 (de) 1992-04-29

Family

ID=25294636

Family Applications (1)

Application Number Title Priority Date Filing Date
EP87102423A Expired EP0240679B1 (de) 1986-03-27 1987-02-20 Ausbildung von in einem Spracherkennungssystem verwandten Markov-Modellen

Country Status (5)

Country Link
US (1) US4827521A (de)
EP (1) EP0240679B1 (de)
JP (1) JPS62231995A (de)
CA (1) CA1262188A (de)
DE (1) DE3778579D1 (de)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
GB9116255D0 (en) * 1991-07-27 1991-09-11 Dodd Nigel A Apparatus and method for monitoring
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5615286A (en) * 1995-05-05 1997-03-25 Bell Communications Research, Inc. Method for determining a most likely sequence of states
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
EP0849723A3 (de) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Spracherkennungsapparat mit Mitteln zum Eliminieren von Kandidatenfehlern
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
US6728674B1 (en) 2000-07-31 2004-04-27 Intel Corporation Method and system for training of a classifier
US6788243B2 (en) 2001-09-06 2004-09-07 Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence Hidden Markov modeling for radar electronic warfare
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7143073B2 (en) * 2002-04-04 2006-11-28 Broadcom Corporation Method of generating a test suite
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
CN109473093B (zh) * 2018-12-13 2023-08-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
US11664044B2 (en) 2019-11-25 2023-05-30 Qualcomm Incorporated Sound event detection learning
US11410677B2 (en) 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
US4383135A (en) * 1980-01-23 1983-05-10 Scott Instruments Corporation Method and apparatus for speech recognition
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4520500A (en) * 1981-05-07 1985-05-28 Oki Electric Industry Co., Ltd. Speech recognition system
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system

Also Published As

Publication number Publication date
US4827521A (en) 1989-05-02
DE3778579D1 (de) 1992-06-04
JPS62231995A (ja) 1987-10-12
CA1262188A (en) 1989-10-03
EP0240679A1 (de) 1987-10-14
JPH0372998B2 (de) 1991-11-20

Similar Documents

Publication Publication Date Title
EP0240679B1 (de) Ausbildung von in einem Spracherkennungssystem verwandten Markov-Modellen
EP0303022B1 (de) Schnelle Anpassung eines Spracherkenners an einen neuen Sprecher auf Grund der Daten eines Referenzsprechers
EP0239016B1 (de) Spracherkennungssystem
US4748670A (en) Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
EP0314908B1 (de) Automatische Bestimmung von Kennzeichen und Markov-Wortmodellen in einem Spracherkennungssystem
EP0705473B1 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
US5072452A (en) Automatic determination of labels and Markov word models in a speech recognition system
EP0570660B1 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
EP0238692B1 (de) Verfahren und Einrichtung zur Spracherkennung mit wirksamer Speicherung und schnellem Zusammenfügen von phonologischen Darstellungen
US5621859A (en) Single tree method for grammar directed, very large vocabulary speech recognizer
US5050215A (en) Speech recognition method
CA1256562A (en) Speech recognition method
US4759068A (en) Constructing Markov models of words from multiple utterances
EP0321410A2 (de) Verfahren und Einrichtung, um ein Markov-Modell-Referenzmuster von Wörtern zu erzeugen
EP0555545A1 (de) Gerät zur Spracherkennung mit Vorhersage von Wortklassen aus dem Gesamttext und Wörtern von Wortklassen
EP0706171A1 (de) Einrichtung und Verfahren zur Spracherkennung
EP0241768B1 (de) Erzeugung von Wortgrundstrukturen zur Spracherkennung
US5680509A (en) Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
US5970450A (en) Speech recognition system using modifiable recognition threshold to reduce the size of the pruning tree
Bourlard et al. Speakerdependent connected speech recognition via dynamic programming and statistical methods
US5029212A (en) Continuous speech recognition unit using forward probabilities
EP0238697B1 (de) Verfahren zur Erzeugung vor Wortmustern aus mehreren Äusserungen für Spracherkennung
EP0238695B1 (de) Automatische Erzeugung von eingeschränkten auf Markov-Modellen gestützten Wortmustern
EP0238691B1 (de) Verfahren und Einrichtung zur Ermittlung einer wahrscheinlichen Wörterfolge aus durch einen akustischen Prozessor erzeugten Kennsätzen
EP0238689B1 (de) Verfahren zum akustischen Vergleichen in einem Spracherkennungssystem

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE FR GB IT

17P Request for examination filed

Effective date: 19880126

17Q First examination report despatched

Effective date: 19900201

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB IT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRE;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.SCRIBED TIME-LIMIT

Effective date: 19920429

REF Corresponds to:

Ref document number: 3778579

Country of ref document: DE

Date of ref document: 19920604

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 19950128

Year of fee payment: 9

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 19950223

Year of fee payment: 9

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Effective date: 19961031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Effective date: 19961101

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20000127

Year of fee payment: 14

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20010220

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20010220