-
HINTERGRUND DER ERFINDUNG
-
Die Erfindung betrifft ein Verfahren
zum Erkennen eines Musters, das eine Menge physikalischer Stimuli
umfasst, wobei das Verfahren die folgenden Schritte umfasst:
-
- – Verschaffen
einer Menge an Trainingsbeobachtungen und, durch Anwenden einer
Vielzahl von Assoziationsmodellen, Ermitteln verschiedener Messwerte
pj(k ∣ x),
j = 1...M, die je das Zuweisen einer speziellen Trainingsbeobachtung
zu einer oder mehr zugehörigen
Musterklassen betreffen;
- – Aufstellen
einer logarithmisch/linearen Assoziationsverteilung durch Kombinieren
aller Assoziationsmodelle der Vielzahl gemäß jeweiligen Wichtungsfaktoren
und Hinzufügen
einer Normalisierungsgröße, um eine
zusammengesetzte Assoziationsverteilung zu erzeugen.
-
Die Erfindung ist für die Spracherkennung
gedacht, aber sie ist gleichermaßen auf andere Erkennungsprozesse
anwendbar, wie z. B. für
Sprachverstehen, Sprachübersetzung,
sowie zum Erkennen. von Handschriften, Gesichtern, Erkennung von
Szenen und anderen Umgebungen. Die Assoziationsmodelle können Wahrscheinlichkeitsmodelle
sein, die Wahrscheinlichkeitsverteilungen zum Zuweisen von Mustern
an Klassen angeben. Andere Modelle können auf unscharfer Logik beruhen,
oder Ähnlichkeitsmaßen, wie
z. B. zwischen Ziel und Klasse gemessenen Abständen. Die bekannte Technologie
hat unterschiedliche derartige Modelle in einem kombinierten Erkennungsangriff
verwendet, aber die auf die verschiedenen zusammenarbeitenden Modelle
ausgeübten
Einflüsse
wurden in wahlloser Weise bestimmt. Dies bedeutete, dass nur wenige und/oder
nur elementare Modelle möglich
waren.
-
Der vorliegende Erfinder hat erkannt,
dass die Vereinheitlichung der Prinzipien der "maximalen Entropie"
und des "diskriminativen Trainings" im Fall einer Kombination von
mehr als einem Modell im Prinzip imstande wäre, im Vergleich zu früheren heu
ristischen Verfahren bessere Ergebnisse zu liefern. Auch sollte
eine unkomplizierte Daten verarbeitungsprozedur einen preiswerten
und schnellen Weg zu derartigen Ergebnissen verschaffen.
-
Der Erfindung liegt daher unter anderem
als Aufgabe zugrunde, eine logarithmisch-lineare Kombination verschiedener
"Teil"modelle pj(k ∣ X)
zu berechnen, während
Parameterberechnung durch diskriminatives Training ausgeführt wird.
Gemäß einem
ihrer Aspekte löst
die Erfindung die Aufgabe, indem ein Muster erkannt wird, das eine
Menge physikalischer Stimuli umfasst, wobei das genannte Verfahren
die folgenden Schritte umfasst:
– Verschaffen einer Menge an
Trainingsbeobachtungen und, durch Anwenden einer Vielzahl von Assoziationsmodellen,
Ermitteln verschiedener Messwerte pj(k ∣ x), j = 1...M, die
je das Zuweisen einer speziellen Trainingsbeobachtung zu einer oder
mehr zugehörigen
Musterklassen betreffen;
– Aufstellen
einer logarithmisch/linearen Assoziationsverteilung durch Kombinieren
aller Assoziationsmodelle der Vielzahl von Assoziationsmodellen
gemäß jeweiligen
Wichtungsfaktoren und Hinzufügen
einer Normalisierungsgröße, um eine
zusammengesetzte Assoziationsverteilung zu erzeugen;
– Optimieren
der genannten Wichtungsfaktoren, um dadurch eine detektierte Fehlerrate
des tatsächlichen
Zuweisens zu der genannten zusammengesetzten Verteilung zu minimieren;
– Erkennen
von Zielbeobachtungen, die ein Zielmuster repräsentieren, mit Hilfe der genannten
zusammengesetzten Verteilung. Unter anderem ermöglicht eine solche Prozedur,
eine beliebige Anzahl Modelle zu einer einzigen Verteilung mit maximaler
Entropie zu kombinieren. Weiterhin ermöglicht sie eine optimierte
Wechselwirkung von Modellen, die sich in Charakter und Repräsentation
stark unterscheiden können.
-
Die Erfindung betrifft auch ein Verfahren
zum Modellieren einer Assoziationsverteilung gemäß der Erfindung. Dies liefert
ein hervorragendes Werkzeug für
nachfolgende Benutzer der zusammengesetzten Verteilung zum Erkennen
geeigneter Muster.
-
Die Erfindung betrifft auch ein Verfahren
zum Erkennen von Mustern unter Verwendung einer von der Erfindung
erzeugten zusammengesetzten Verteilung. Dieses Verfahren hat Benutzer,
die stark von der Anwendung des von der Erfindung realisierten Werkzeugs
profitieren.
-
Die Erfindung betrifft ein System,
das zur praktischen Anwendunng eines erfindungsgemäßen Verfahrens
ausgebildet ist. Weitere Aspekte sind in abhängigen Ansprüchen genannt.
-
KURZE BESCHREIBUNG DER ZEICHNUNG
-
Diese und andere Aspekte und Vorteile
der Erfindung werden im Folgenden anhand der ausführlichen Beschreibung
bevorzugter Ausführungsbeispiele
und insbesondere anhand der Zeichnung näher beschrieben. Es zeigen:
-
1 einen
Gesamtablaufplan des Verfahrens;
-
2 ein
umfassendes System zur praktischen Anwendung der Erfindung; 3-21 verschiedene Gleichungen
B1–B20,
die mit dem automatischen erfindungsgemäßen Verfahren verwendet werden.
-
AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER
AUSFÜHRUNGSFORMEN
-
Da die Erfindung auf einer ausgewogenen
Anwendung der Mathematik auf die Behandlung und das Einsetzen physikalischer
Größen beruht,
die sehr unterschiedlichen Charakter haben können, ist ein großer Teil
der Beschreibung auf moderner Mathematik basiert. Jedoch haben sowohl
der Ausgangspunkt als auch das mögliche
Ergebnis stets physikalische Aspekte und Bedeutung. Die Spracherkennung
kann zur Steuerung verschiedener Arien von Maschinen verwendet werden.
Szenenanalyse kann unbemannte Fahrzeuge leiten. Bilderkennung kann
zur Torsteuerung verwendet werden. Verschiedene andere Anwendungen
sind an sich offensichtlich. Die folgenden Ausdrücke sind in ihrer Reihenfolge
nummeriert und sollen im Text mit diesen Nummern bezeichnet werden.
-
Die Erfindung bestimmt modellspezifische
Faktoren, um mehrere verschiedene Modelle zu einem einzigen Mustererkennungsprozess
zu kombinieren und zu optimieren, insbesondere für die Spracherkennung.
-
Das statistische Spracherkennungsverfahren
nutzt die Entscheidungstheorie von Bayes, um einen Identifikationsmechanismus
mit minimaler Fehlerrate zu bilden. Entsprechend dieser Theorie
ist die Entscheidungsregel so, dass eine Beobachtung x der Klasse
k (kurz x ϵ k) zugewiesen werden muss, wenn für eine gegebene
A-posteriori- oder "echte" Wahrscheinlichkeitsverteilung π(k ∣ x)
gilt, dass:
-
-
In der Literatur wird der Term log(π(k' ∣ x)/π(k' ∣ x))
Diskriminantenfunktion genannt. Im Weiteren soll dieser Term der
Kürze halber
als g(x,k,k') bezeichnet werden. Wenn die Entscheidungsregel (
1)
zum Erkennen vollständiger
Sätze verwendet
wird, werden beobachtete Ausdrücke
x T / 1 = (x
1,...,x
T),
die eine temporale Länge T
haben, als gesprochene Wortsequenzen w S / 1 = (w
1,...,w
S) der Länge
S klassifiziert werden. Die a-posteriori-Verteilung π(w S / 1 ∣ x T / 1 ) ist jedoch unbekannt,
da sie den komplizierten natürlichen
Sprachkommunikationsprozess von Menschen beschreibt. Dasher muss
sie durch eine Verteilung p(w S / 1 ∣ x T / 1 )
angenähert
werden. Bisher haben die akustisch-phonetische und grammatische
Modellierung von Sprache in Form parametrischer Wahrscheinlichkeitsverteilungen
die besten Ergebnisse erzielt. Die Form der Verteilung p(w S / 1 ∣ x T / 1 )
ist dann vorherbestimmt; die unbekannten Parameter der Verteilung
werden auf Basis von Trainingsdaten geschätzt. Die so erhaltene Verteilung
p(w S / 1 ∣ x T / 1 )
wird anschließend
in die Bayessche Entscheidungsregel eingesetzt. Der Ausdruck x T / 1 wird
dann der Wortsequenz w S / 1 zugewiesen, für die gilt:
Konversion der Diskriminantenfunktion
erlaubt, das grammatische
Modell p(w S / 1) vom akustisch-phonetischen Modell p(x T / 1 ∣ w S / 1)
in natürlicher
Weise zu trennen. Das grammatische Modell p(w S / 1) beschreibt dann die
Wahrscheinlichkeit des Auftretens der Wortsequenz w S / 1 an sich, und
das akustisch-phonetische Modell p(x T / 1 ∣ w S / 1) berechnet die
Wahrscheinlichkeit des Auftretens des akustischen Signals x T / 1 während des Äußerns der
Wortsequenz w S / 1 Beide Modelle können
dann gesondert geschätzt
werden, sodass die relativ begrenzte Menge an Trainingsdaten optimal
genutzt werden kann. Die Entscheidungsregel (
3) könnte wegen
einer Abweichung der Verteilung p von der unbekannten Verteilung
n weniger als optimal sein, selbst wenn die Schätzung der Verteilung p optimal
war. Diese Tatsache begründet
die Verwendung so genannter diskriminativer Verfahren. Diskriminative
Verfahren optimieren die Verteilung p direkt hinsichtlich der Fehlerrate
der Entscheidungsregel, wie sie empirisch an Trainingsdaten gemessen
wird. Das einfachste Beispiel solcher diskriminativer Optimierung
ist die Verwendung des so genannten Sprachmodellfaktors λ Die Gleichung
(
3) wird dann folgendermaßen abgewandelt:
-
-
Experimente zeigen, dass die durch
die Entscheidungsregel (4) erhaltene Fehlerrate abnimmt,
wenn λ > 1 gewählt wird.
Der Grund für
diese Abweichung von der Theorie, wobei λ = 1, liegt in der unvollständigen oder
unrichtigen Modellierung der Wahrscheinlichkeit des zusammengesetzten
Ereignisses (w S / 1,x T / 1 ) . Letzteres ist unvermeidlich, da die Kenntnis
des Prozesses, der das Ereignis (w1,x T / 1 )
erzeugt, unvollständig
ist.
-
Bisher sind viele akustisch-phonetische
und grammatische Sprachmodelle analysiert worden. Das Ziel dieser
Analysen war, das "beste" Modell für die betreffende Erkennungsaufgabe
aus der Menge bekannter oder gegebener Modelle herauszufinden. Alle
auf diese Weise bestimmten Modelle sind jedoch unvollkommene Repräsentationen
der echten Wahrscheinlichkeitsverteilung, sodass, falls diese Modelle
für Mustererkennung, wie z. B. Spracherkennung, verwendet werden,
unrichtige Erkennungen als unrichtige Zuweisungen zu Klassen auftreten.
Als Beispiel offenbart das Dokument US-A-5680481 ein bekanntes Konzept
für die
Modellierung eines Spracherkennungsprozesses.
-
Der Erfindung liegt als Aufgabe zugrunde,
eine Modellierung zu verschaffen, insbesondere für Sprache, die enger an die
echte Wahrscheinlichkeitsverteilung angenähert ist und dennoch mit geringem
Verarbeitungsaufwand ausgeführt
werden kann, und insbesondere, einfache Integration einer höheren Anzahl
bekannter oder gegebener Modelle zu einem einzigen Klassifiziermechanismus
zu ermöglichen.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Der Neuheitsaspekt des Ansatzes ist,
dass er nicht versucht, bekannte Spracheigenschaften in ein einziges
akustisch-phonetisches Verteilungsmodell und in ein einziges grammatisches
Verteilungsmodell zu integrieren, was ein komplexes und schwie riges
Training beinhalten würde.
Die verschiedenen akustisch-phonetischen und grammatischen Eigenschaften
werden jetzt gesondert modelliert und in Form verschiedener Verteilungen
pj(w S / 1 ∣ x T / 1)
, j = 1...M trainiert, worauf eine Integration zu einer zusammengesetzten
Verteilung
-
-
Die Auswirkung des Modells pj auf
die Verteilung p / {} wird durch den zugehörigen Koeffizienten λj bestimmt.
-
Der Faktor C(∧) sorgt dafür, dass die Normalisierungsbedingung
für Wahrscheinlichkeiten
erfüllt
ist. Die freien Koeffizienten ∧ =
(λ1,...,λM)
tr werden so eingestellt, dass die Fehlerrate
der resultierenden Diskriminantenfunktion
möglichst klein ist. Es gibt
verschiedene Möglichkeiten,
diesen Grundgedanken zu implementieren, einige davon sollen im Weiteren
detailliert beschrieben werden.
-
Zunächst sollen verschiedene darin
verwendete Terme definiert werden. Jede Wortsequenz w S / 1 bildet eine
Klasse k; die Sequenzlänge
S kann sich von einer Klasse zur anderen ändern. Eine Sprachäußerung x T / 1 wird
als Beobachtung x betrachtet; ihre Länge T kann sich dann von einer
Beobachtung zur anderen unterscheiden.
-
Trainingsdaten werden mit den Bezugszeichen
(xn,k) bezeichnet, wobei n = 1,...,N; k
= 0,...,K. Hierin ist N die Anzahl akustischer Trainingsbeobachtungen
xn, und kn is die
richtige Klasse, die zu der Beobachtung xn gehört. Weiterhin
sind k ≠ kn die verschiedenen unrichtigen rivalisierenden
Klassen, die hinsichtlich kn konkurrieren.
-
Es soll die Klassifizierung der Beobachtung
x in die Klasse k entsprechend der Bayesschen Entscheidungsregel
(1) betrachtet werden. Die Beobachtung x ist eine aku stische
Realisierung der Klasse k. Im Fall von Spracherkennung symbolisiert
jede Klasse k eine Sequenz von Wörtern.
Das Verfahren kann jedoch allgemeiner angewendet werden.
-
Weil die durch die Trainingsbeobachtung
xn erzeugte Klasse kn bekannt
ist, kann eine ideale empirische Verteilung π(k ∣ x) auf Basis der
Trainingsdaten (xn,k); n = 1... N; k = 0...K
konstruiert werden. Diese Verteilung sollte derart sein, dass die
daraus abgeleitete Entscheidungsregel bei Anwendung auf die Trainingsdaten
eine minimale Fehlerrate aufweist. Im Fall einer Klassifikation
vollständiger
Wortsequenzen k kann ein Klassifikationsfehler durch Selektion einer
falschen Wortsequenz k ≠ kn zu mehreren Wortfehlern führen. Die Anzahl
Wortfehler zwischen der unrichtigen Klasse k und der richtigen Klasse
kn wird Levenshtein-Abstand E(k,kn) genannt. Die aus E(k,kn)
gebildete Entscheidungsregel weist eine minimale Wortfehlerrate
auf, wenn eine Monotonieeigenschaft erfüllt ist.
-
Die ideale empirische Verteilung π ist eine
Funktion des empirischen Fehlerwertes E(k,k
n),
der nur für die
Trainingsdaten gegeben ist, aber sie ist nicht in Bezug auf unbekannte
Testdaten definiert, weil in diesem Fall die richtige Klassenzuweisung
nicht gegeben ist. Daher wird auf Basis dieser Verteilung eine Verteilung
gesucht, die über willlkürliche,
unabhängige
Testdaten definiert ist und eine möglichst kleine empirische Fehlerrate
für die
Trainingsdaten aufweist. Wenn die M zuvor bestimmten Verteilungsmodelle
p
1(k ∣ x),...,p
M(k ∣ x) für willkürliche Testdaten
definiert sind, gilt das Vorstehende auch für die Verteilung p / {}(k ∣ x)
. Wenn die frei wählbaren
Koeffizienten ∧ =
(λ1,..., λ
M)
tr so bestimmt werden, dass p / {}(k ∣ x)
für die
Trainingsdaten eine minimale Fehlerrate aufweist, und wenn die Trainingsdaten
repräsentativ
sind, sollte p / {} (k ∣ x)
auch für
unabhängige
Testdaten eine optimale Entscheidungsregel ergeben.
-
Sowohl das GPD-Verfahren als auch
das Verfahren kleinster Quadrate optimieren ein Kriterium, das die
mittlere Fehlerrate des Klassifizierers annähert. Im Vergleich zu dem GPD-Verfahren
bietet das Verfahren kleinster Quadrate den Vorteil, dass es eine
geschlossene Lösung
für den
optimalen Koeffizienten ∧ ergibt.
-
Das Verfahren kleinster Quadrate
soll zuerst betrachtet werden. Weil die Diskriminantenfunktion (1) die
Qualität
des Klassifizierers bestimmt, sollten die Koeffizi enten ∧ die mittlere
quadratische Abweichung B14 der Diskriminantenfunktionen der Verteilungen
p / {}(k ∣ x)
von der empirischen Fehlerrate E(k,kn) minimieren. Das
Summieren über
r enthält
dann alle rivalisierenden Klassen in dem Kriterium. Minimieren von
D (n) führt zu
einer geschlossenen Lösung
für den
optimalen Koeffizientvektor A = Q–1 P
(9), weitere Einzelheiten geben B 15 und B 16.
-
Hierin ist Q die Autokorrelationsmatrix
der Diskriminantenfunktionen der zuvor bestimmten Verteilungsmodelle.
Der Vektor P drückt
die Beziehung zwischen den Diskriminantenfunktionen der zuvor bestimmten
Modelle und der Diskriminantenfunktion der Verteilung n aus.
-
Die Wortfehlerrate E(k, k
n) der Hypothesen k ist somit linear in den
Koeffizienten λ
1,...,λ
M aufgenommen. Umgekehrt ist die Diskriminierungskapazität des Verteilungsmodells
pj linear in den Koeffizienten λ
1,...,λ
M enthalten, um die Koeffizienten direkt
mittels der Diskriminantenfunktion
zu
bestimmen.
-
Diese Koeffizienten können auch
unter Verwendung des GPD-Verfahrens bestimmt werden. Mit diesem
Verfahren ist die geglättete
empirische Fehlerrate E(∧):
kann für die Trainingsdaten direkt
minimiert werden. Der linke Ausdruck ist dann ein geglättetes Maß für das Fehlerklassifikationsrisiko
der Beobachtung x
n. Die Werte A > 0, B > 0, η > 0 bestimmen die Art
der Glättung des
Fehlerklassifikationsrisikos und sollten zuvor geeignet bestimmt
werden. Wenn E(λ)
hinsichtlich des Koeffizienten λ der
logarithmisch linearen Kombination minimiert wird, wird die folgende
Iterationsgleichung mit der Schrittweite M für den Koeffizienten λj erhalten,
mit j = 1,...,M.
-
λ (0) / j =1
(11), und weiterhin gemäß B 13 und
B 14 und ∧(I) = (λ (I) / 1,...,λ (I) / M)tr; j =1,...,M .
-
Es sei bemerkt, dass der Koeffizientenvektor ∧ in dem Kriterium
E(∧) mittels
der Diskriminantenfunktion
enthalten ist. Wenn E(∧) abnimmt,
sollte die Diskriminantenfunktion (
12) im Mittel zunehmen,
wegen (9) und (10). Dies führt
zu einer weiter verbesserten Entscheidungsregel, siehe (1).
-
In Obigem war das Ziel, alle verfügbaren Wissensquellen
zu einem einzigen Mustererkennungssystem zu integrieren. Zwei Prinzipien
werden vereinigt. Das erste ist das Prinzip der maximalen Entropie.
Dieses arbeitet mit einem Einführen
von so wenig Annahmen wie möglich,
sodass die Unsicherheit maximal wird. Daher müssen Exponentialverteilungen
verwendet werden. Auf diese Weise wird die Struktur der Quellenkombination
definiert. Das zweite Prinzip ist diskriminatives Training, um die
den verschiedenen Wissenquellen zugewiesenen Wichtungsfaktoren und
die zugehörigen
Modelle zu ermitteln. Durch Optimieren der Parameter werden die
Fehler minimiert. Für
Sprache können
Modelle semantisch, syntaktisch, akustisch und anderes sein.
-
Der Ansatz ist das logarithmisch-lineare
Kombinieren verschiedener Teilmodelle und das Schätzen von
Parametern dutrch diskriminatives Training. Auf diese Weise kann
das Hinzufügen
eines Teilmodells das Erkennungsresultat verbessern. Falls nicht,
kann das betreffende Modell verworfen werden. Ein Teilmodell kann
jedoch niemals Erkennungsgenauigkeit vermindern. Auf diese Weise
können
alle verfügbaren
Teilmodelle kombiniert werden, um optimale Ergebnisse zu erhalten.
Eine andere Anwendung der Er findung ist, eine vorhandene Modelllcombination
an eine neue Erkennungsumgebung anzupassen.
-
Der theoretische Ansatz der Prozedur
enthält
verschiedene Aspekte:
-
- – parabolisches
Glätten
der empirischen Fehlerrate
- – Vereinfachen
der Theorie des "Trainings bei minimaler Fehlerrate "
- – Verschaffen
einer Lösung
in geschlossener Form, die keine Iterationssequenz benötigt.
-
Die Erfindung verschafft weiterhin
zusätzliche
Möglichkeiten:
-
- – Schätzen eines
optimalen Sprachmodellfaktors
- – Anwenden
eines logarithmisch-linearen Hidden-Markov-Modells
- – Gleichungen
in geschlossener Form für
optimale Modellkombination
- – Gleichungen
in geschlossener Form für
diskriminatives Training von klassenspezifischen Wahrscheinlichkeitsverteilungen.
-
Für
die in (1) aufgeführte
Klassifikationsaufgabe ist jetzt die wahre oder Posterior-Verteilung π(k ∣ x) unbekannt,
aber sie wird durch eine Modellverteilung (p(k ∣ x) angenähert. Die
beiden Verteilungen unterscheiden sich wegen unrichtiger Modellierungsannahmen
und wegen ungenügender
Daten. Ein Beispiel ist der in Gleichung B 1 verwendete Sprachmodellfaktorλ .
-
Die formale Definition kombiniert
verschiedene Teilmodelle pj(k ∣ x),
j = 1...M zu einer logarithmisch-linearen Posterior-Verteilung p{∧}(k ∣ x)
= exp {..}, wie in (5) angegeben. Neben der logarithmisch-linearen
Kombination der verschiedene Teilmodelle erlaubt der Term log C(∧) Normalisierung,
um eine formale Wahrscheinlichkeitsverteilung zu erhalten. Die resultierende
Diskriminantenfunktion ist
Die Fehlerrate ist minimiert
und n ist optimiert. Optimieren auf Satzebene verläuft folgendermaßen:
-
– Klasse
k: Wortsequenz
-
– Beobachtung
x: gesprochene Äußerung (z.
B. Satz)
-
– N
Trainingstichproben xn, die den richtigen
Satz ergeben
-
– Für jede Stichprobe
xn
-
– kn: richtige Klasse, wie gesprochen
-
– k ≠ kn: rivalisierende Klassen, die alle möglichen
Sätze sein
können
oder beispielsweise eine sinnvolle Teilmenge davon.
-
i Ähnlichkeit von Klassen: E(kn,k)
-
– E:
geeignete Funktion des Levenshtein-Abstandes, oder ein gleichermaßen geeignetes
Maß, das monoton
ist.
-
– Anzahl
Wörter
in der Wortsequenz kn: Ln.
-
Gleichung B3 gibt jetzt eine objektive
Funktion an, die empirische Fehlerrate. Hierbei führt die
linke Seite der Gleichung die wahrscheinlichste Klasse ein, die
auf der Anzahl falscher Abweichungen zwischen Klassen k und kn beruht.
-
Die Parameter n können geschätzt werden durch:
-
– ein
Training bei minimaler Fehlerrate durch "Generalized Probabilistic
Descent", was eine iterative Lösung
ergibt.
-
– eine
Abwandlung hiervon, mit parabolischer Glättung kombiniert, was eine
Lösung
als geschlossene Form ergibt.
-
– ein
drittes Verfahren, basiert auf kleinsten Quadraten, was wiederum
eine Lösung
als geschlossene Form ergibt.
-
Für
das GPD-Verfahren beruht das Minimieren der geglätteten empirischen Fehlerrate
auf dem Ausdruck B4. Das geglättete
Fehlklassifikationsrisiko wird durch Gleichung B5 gegeben und die
Bemittelte Rivalität
durch Gleichung B6.
-
Die geglättete empirische Fehlerrate
wird mittels B7 minimiert. Hierbei ist 1 eine Verlust-Funktion,
die für
unkomplizierte Berechnungen differenzierbar sein muss. Die Rivalität wird durch
Gleichung B8 gegeben, wobei E die Fehlerzahl angibt. Die mittlere
Rivalität
wird durch Summieren in Gleichung B9 gegeben. Ein geglättetes Fehlklassifikationsrisiko
wird durch Gleichung B10 ausgedrückt,
die sich wie eine Siginoidfunktion verhält. Für Rn= –∞wird 1
gleich null, für
Rn= +∞ist
der Grenzwert 1 = 1. Hierbei sind A, B Skaliezungskonstanten, die
größer sind
als null. Differenzieren nach n ergibt Ausdruck B11, in dem der
Vektor ∧(I)
durch den Ausdruck B12 und das letztliche Ergebnis durch Ausdruck
B13 gegeben werden.
-
Die Erfindung verschafft auch eine
Lösung
als geschlossene Form für
das Finden der diskriminativen Modellkombination DMC. Die Lösung ist,
den Abstand zwischen einerseits der Diskriminantenfunktion und andererseits
der idealen Diskriminantenfunktion E(kn,k)
in einem Verfahren kleinster Quadrate zu minimieren. Der Basisausdruck
wird durch Gleichung B14 gegeben. Hierin ist ∧ = Q–1P
, wobei Q eine Matrix mit Elementen Qij ist, die durch Gleichung
B15 gegeben werden. Weiterhin ist P ein Vektor mit Elementen Pi
die durch Gleichung B 16 gegeben werden. Die empirische Fehlerrate
ist jetzt bereits in Gleichung B3 gegeben worden. Aus rechnerischen
Gründen
wird diese durch eine geglättete
empirische Fehlerrate angenähert;
wie durch Gleichung B 17 ausgedrückt.
Hierin wird eine Angabe zur Fehlerzahl zwischen k und kn gemacht,
indem eine Sigmoidfunktion S oder eine gleichermaßen brauchbare
Funktion verwendet wird. Eine brauchbare Form ist S(x)={(x + B)/(A
+ B)}2, wobei –B < × < A und –B < 0 < A. Für höhere Werte
von x ist S = 1 und für
niedrigere Werte S = 0. Diese Parabel hat sich als brauchbar erwiesen.
Verschiedene andere Kurven zweiten Grades haben sich als brauchbar
erwiesen. Die betreffenden Rivalen müssen jetzt in dem mittleren
und parabolisch gekrümmten Intervall
von S liegen. Schließlich
wird jetzt eine Normalisierungsrandbedingung für n gemäß dem Ausdruck B18 hinzugefügt.
-
Das zweite Kriterium wird gemäß einer
Matrixgleichung (α, λtr)tr = Q'–1P' gelöst, wobei
die Matrix Q' aus Normalisierungsgründen um eine zusätzliche
Zeile und Spalte ergänzt
worden ist, gemäß Q'0,0 = 0; Q'0,j =
1, Q'i,0 = 1/2(A + B)2.
Das allgemeine Element der Korrelationsmatrix Q' ist in Gleichung
B19 angegeben worden. Es sei bemerkt, dass die geschlossene Lösung durch
die geglättete
Schrittfunktion s möglich
gemacht worden ist. Weiterhin erhält der Vektor P' gleichermaßen ein
Normalisierungselement p0 = 1, während sein
allgemeines Element durch den Ausdruck B20 angegeben wird.
-
Experimente sind mit verschiedenen
M-gramm-Sprachmodellen ausgeführt
worden, wie z. B. Bigramm-, Trigramm-, Viergramm- oder Tetragramm-Modelle,
und verschiedenen akustischen Modellen, wie z. B. wortinterne Triphon-,
Cross-Word-Trigrammund Pentaphon-Modelle. Im Allgemeinen ist das
Ergebnis der automatischen DMC-Prozedur genauso gut wie die mit
nichtautomatischer Feinabstimmung bei Verwendung der gleichen Menge
aus Teilmodellen erhaltenen Ergebnisse. Das Hinzufügen zusätzlicher
Teilmodelle entsprechend der automatischen Prozedur der Erfindung
ermöglichte
jedoch eine Abnahme der Fehlerzahl um etwa 8%. Dies wird bei der
ausgeklügelten
Technik der Spracherkennung als bedeutsamer Schritt vorwärts betrachtet.
Erwartet wird, dass die Erfindung ähnlich gute Ergebnisse für das Erkennen
anderer Typen von Mustern, wie z. B. Unterschriften, Handschriftanalyse
und Ähnliches
liefert, angesichts der Verfügbarkeit
geeigneter Teilmodelle. Andere, für die breiteste Erkennung verwendete
Teilmodelle enthielten mllr-Anpassung, Unigramm, Abstand-1-Bigramm,
wobei ein Zwischenelement als "don't care" betrachtet wird, Pentaphone
und wsj-Modelle. In dieser Umgebung verringerte das
-
Erhöhen der Anzahl Teilmodelle
in der automatischen Prozedur der Erfindung die Fehlerzahl ebenfalls um
eine signifikante Menge von 8–13%.
-
1 zeigt
einen Gesamtablaufplan eines erfindungsgemäßen Verfahrens. In Block 20 wird
das Training mit einer Menge Trainingsdaten oder Mustern gestartet,
die in Block 22 verschafft wird. Soweit notwendig, beansprucht
der Start benötigte
Softwareund Hardwareeinrichtungen; insbesondere werden auch die
verschiedenen Teilmodelle und die Identität der verschiedenen Muster
verschafft. Der Einfachheit halber ist die Anzahl Teilmodelle auf
2 begrenzt worden, aber die Anzahl kann höher sein. In parallelen Blöcken 24 und 26 werden
die Resultate für
die einzelnen Teilmodelle ermittelt. In Block 28 wird die
logarithmisch-lineare Kombination der verschiedenen Teilmodelle
ausgeführt
und normalisiert. In Block 30 wird das Maschinenoptimieren von
Vektor n angesichts der niedrigsten erreichbaren Fehlerrate ausgeführt. Es
sei bemerkt, dass Vektor n eine oder mehr nullwertige Komponenten
haben kann, um zu signalisieren, dass das zugehörige Teilmodell oder die zugehörigen Teilmodelle
keinerlei Verbesserung mit sich bringen würden.
-
Als Nächstes werden der Vektor n
und die verschiedenen anwendbaren Teilmodelle zum Erkennen von Zieldaten
verwendet, wie in der rechten Hälfte
der Figur gezeigt. Das Training links und der Gebrauch rechts können sowohl
zeitlich als auch räumlich
voneinander entfernt ausgeführt
werden, beispielsweise könnte
eine Person eine Maschine beim Lieferanten auf die Stimme dieser
Person trainieren lassen. Dies könnte zusätzliche
Datenverarbeitungseinrichtungen erforden. Später kann die so trainierte
Maschi ne im Haushalt oder im Auto oder anders verwendet werden.
Somit haben die Blöcke 40–46 entsprechende
Blöcke
auf der linken Seite.
-
In Block 48 werden die Bewertungen
aus den verschiedenen Teilmodellen logarithmisch-linear kombiniert,
wobei die verschiedenen Komponenten von Vektor n verwendet werden,
die im Training gefunden worden sind. Schließlich werden in Block 50 die
Zieldaten unter Verwendung der Ergebnisse aus Block 50 klassifiziert.
In Block 52 wird die Prozedur gestoppt, wenn sie fertig
ist.
-
2 zeigt
ein umfassendes System zur praktischen Anwendung der Erfindung.
Die notwendigen Einrichtungen können
auf Standardhardware abgebildet werden oder auf eine zweckgebundene
Maschine. Item 60 ist eine geeignete Aufnahmeeinrichtung,
wie z. B. ein Sprachrecorder, ein zweidimensionaler optischer Scanner,
zusammen mit A/D-Einrichtungen
und qualitätsverbessernder
Vorverarbeitung, falls notwendig. Block 64 repräsentiert
die Verarbeitung, die Programme aus dem Programmspeicher 66 auf
Daten an wendet, die von der Aufnahmeeinrichtung 60 kommen
können
oder aus dem Datenspeicher 62, wo sie ständig oder vorübergehend
gespeichert sein können,
nachdem sie von der Aufnahmeeinrichtung 60 weitergeleitet
worden sind. Die Leitung 70 kann Benutzersteuersignale
empfangen, wie z. B. Start/Stopp, und eventuell trainingsunterstützende Signale,
wie z. B. zum definitiven Deaktivieren eines keine Rolle spielenden
Teilmodells.
-
Block 68 macht das Erkennungsergebnis
brauchbar, wie z. B. durch Tabellieren, Ausdrucken, Adressieren
einer Dialogstruktur zum Rückgewinnen
einer geeigneten Sprachantwort oder Selektieren eines geeigneten
Ausgangssteuersignals. Block 72 symbolisiert die Verwendung
der erkannten Sprache, wie z. B. Ausgeben einer Sprachreplik, Öffnen eines
Tors für
eine erkannte Person, Selektieren eines Pfades in einer Sortiermaschine
und Ähnliches.
-
INSCHRIFT DER
ZEICHNUNG
-
Figur 1
-
20 Start Training
22 Trainingsdaten
24,
44 Resultatmodell 1
26, 46 Resultatmodell 2
28 zwei Modelle
logarithmisch/linear kombinieren und normalisieren
30 maschinenoptimieren
des Vektors ∧ für die beste
Fehlerrate
40 Start Betrieb
42 Zieldaten
48 zwei Modelle logarithmisch/linear kombinieren,
unter Verwendung von A aus dem Training
50 Zieldaten klassifizieren
52
Stopp
-
Figur 2
-
62 Daten
60 Aufnahmeeinrichtung
64
Verarbeitung
68 Ergebnis
72 Verwendung
66 Programm