DE112013001740T5

DE112013001740T5 - Textverarbeitungsverfahren zum Aufbauen eines Textmodells

Info

Publication number: DE112013001740T5
Application number: DE112013001740.7T
Authority: DE
Inventors: c/o MITSUBISHI ELECTRIC RESEAR Le Roux Jonathan; c/o MITSUBISHI ELECTRIC RES Heakulani Creighton K; c/o MITSUBISHI ELECTRIC RESEARC Hershey John R.
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-03-28
Filing date: 2013-02-26
Publication date: 2015-02-26
Also published as: JP5866018B2; US9251250B2; US20130262083A1; JP2015503776A; CN104246763A; WO2013146101A1; CN104246763B

Abstract

Text wird verarbeitet, um ein Modell des Textes aufzubauen. Der Text weist einen gemeinsamen Wortschatz auf. Der Text wird in Gruppen und Untergruppen von Texten unterteilt. Die Verwendung des gemeinsamen Wortschatzes in zwei oder mehr Gruppen ist unterschiedlich, und die Themen von zwei oder mehr Untergruppen sind unterschiedlich. Es wird ein Wahrscheinlichkeitsmodell für den Text definiert. Das Wahrscheinlichkeitsmodell berücksichtigt jedes Wort in dem Text als ein Kürzel mit einer Position und einem Wortwert, und die Nutzung des gemeinsamen Wortschatzes, von Themen, Unterthemen und Wortwerten für jedes Kürzel in dem Text werden unter Verwendung von Verteilungen von Zufallsvariablen in dem Wahrscheinlichkeitsmodell repräsentiert, wobei die Zufallsvariablen diskret sind. Parameter für das Modell, die den mit den Worten verknüpften Wortschatznutzungen, den Wortwerten, den Themen, und den Unterthemen entsprechen, werden geschätzt.

Description

[Technisches Gebiet]
Die Erfindung betrifft generell Textverarbeitung und insbesondere ein Aufbauen eines Modells für Textgruppen mit einer unterschiedlichen Nutzung eines gemeinsamen Wortschatzes.
[Technischer Hintergrund]
In manchen konkreten Situationen können sich Abschnitte von Text mit unterschiedlichen Muster einer Wortschatz(Vokabular)nutzung auf die gleichen Thematiken beziehen, während sie unterschiedliche Schlüsselbegriffe zum Ausdrücken des gleichen Sinngehalts nutzen. Zum Beispiel können unterschiedliche regionale Dialekte der gleichen Sprache, unterschiedliche Ebenen von Formalität oder Technizität in einem Diskurs, unterschiedliche Schreibstile, solche Unterschiede in einer Wortschatznutzung darstellen, auf die wir uns alle als Dialekte in einem weiteren Sinn beziehen können. Ein wichtiges Problem ist dann: wenn fragliche Begriffe in einem Dialekt gegeben sind, wie kann man zuverlässig relevante Abschnitte in unterschiedlichen Dialekten zurückgeben. Solch ein Problem zu lösen würde praktischen Wert bei Informationsgewinnung haben, wo ein Suchen nach brauchbarer Information in einem unbekannten Umfeld bei abweichender Schlüsselterminologie eine schwierige Aufgabe sein kann. Beispiele solcher Situationen sind Benutzerhandbücher für unterschiedliche Programmiersprachen, Nutzerhandbücher für Produkte unterschiedlicher Marken, oder Fächerkataloge von unterschiedlichen Universitäten.
In der Statistik bezeichnet die latente Dirichlet-Allokation (LDA) ein generatives Modell, das als Themen bekannte Häufungen (Cluster) von Wörtern durch die Analyse des gemeinsamen Auftretens (Kookkurenz) von Wörtern über Dokumente hinweg zu finden versucht. LDA und seine Erweiterungen modellieren jedes Dokument als eine Mischung von Themen, wobei jedes Wort aus einem der Themen erzeugt wird.
LDA ist ein generatives Modell, in dem Sinne, dass es ein wahrscheinlichkeitstheoretisches Verfahren angibt, um die Worte in Dokumenten zu erzeugen. Für ein bestimmtes Dokument werden eine Gruppe von multinomialen Themenwahrscheinlichkeiten und eine Gruppe von multinomialen Wahrscheinlichkeiten von Worten, bei gegebenen Themen aus einer Dirichlet-Verteilung vorheriger Wahrscheinlichkeiten gezogen. Dann wird für jede Wortposition in dem Dokument ein Thema entsprechend Themenwahrscheinlichkeiten des Dokuments gezogen; schließlich wird ein Wort entsprechend einer Wortwahrscheinlichkeitsverteilung dieses Themas gezogen. Wenn jedoch Daten betrachtet werden, sind die Themenverteilung jedes Dokuments, die Wahrscheinlichkeitsverteilung von Worten gegebener Themen und das Thema, das jedes Wort in dem Dokument erzeugt, nicht bekannt. Inferenz bei LDA ist in der Regel die Schätzung der a-posteriori Verteilungen der Themenwahrscheinlichkeiten in jedem Dokument, die Wahrscheinlichkeiten der Wörter bei gegebenen Themen, und die Zuordnung der Themen zu jedem Wort.
Obwohl LDA selbst nicht beabsichtigt, die Dialektabhängigkeiten zu modellieren, sind mehrere Erweiterungen für diesen Zweck entwickelt worden.
Wort-Sinn-Begriffsklärungsmethoden, welche Themenmodelle verwenden, versuchen einen verborgenen Sinn eines Wortes polysemantisch entsprechend einer vorgegebenen markierten Hierarchie von Wörtern zu lernen. Andere Modelle für mehrsprachige Korpora erfordern abgeglichene oder syntaktisch ähnliche Dokumente. Andere Modelle arbeiten auf nicht abgeglichenen Dokumenten, jedoch modellieren sie entsprechende Themen in unterschiedlichen Wortschätzen. Im Vergleich dazu ist unsere Methode völlig unbeaufsichtigt und modelliert Dialekte innerhalb gemeinsamer Wortschätze.
In dieser Hinsicht ist eine damit verbundene Arbeit das ”Dialekt-Thema-Modell” (diaTM), das unterschiedliche Dokumente in einem Korpus mit unterschiedlichen Auszügen von sowohl einer Mischung von Dialekten als auch einer Mischung von Themen verbindet. Wir betrachten Anwendungen, bei denen jeder Korpus mit nur einem Dialekt verbunden ist und alle Korpora eine universelle Gruppe von Themen teilen. Allerdings kann jeder Korpus unterschiedliche Terminologien mit jedem Thema verknüpfen. Dies würde systematische Änderungen in der Sprache über Korpora (entsprechen Dialekten) hinweg berücksichtigen, ohne Unterschiede in die Themen einzuführen. Die Struktur des ”Dialekt-Thema-Modells” erleichtert nicht die Formulierung solcher Bedingungen, da es jedem Korpus erlaubt, unterschiedliche Gruppen von Themen zu definieren.
Weitere diesbezügliche Arbeiten betreffen das Thema angepasst latentes Dirichlet-Allokations-Modell (τLDA), das eine Technizitätshierarchie parallel mit der Themenhierarchie modelliert, und das hierarchische latente Dirichlet-Allokations(hLDA)-Modell, das eine Baumstrukturhierarchie für die gelernten Themen unter Verwendung des verschachtelten China-Restaurantprozesses modelliert. Diese Modelle sind am besten geeignet, um Dokumente mit unterschiedlichen Ebenen von Spezifität (oder ”Technizität”) zu adressieren, was in den von uns betrachteten Anwendungen nicht unbedingt der Fall ist.
Ein weiteres Problem mit den oben genannten Methoden ist, dass sie die Gruppen von äquivalenten Begriffen, die als eine Funktion des Dialekts variieren, nicht direkt erkennen. Dies weist auf einen Fehler hin, die inhärenten Bedingungen des Problems exakt zu modellieren, und könnte zu ungenauen Ergebnissen einer Informationsgewinnung führen.
[Zusammenfassung der Erfindung]
Diese Erfindung bezieht sich allgemein auf die Verarbeitung von Textgruppen. Von jeder Gruppe, auch ”Korpus” genannt, wird angenommen, dass sie Untergruppen von Text umfasst, auch ”Dokumente” genannt. Alle Dokumente in einem Korpus sind durch ein gleichen Wortschatznutzungsmuster gekennzeichnet, auch ”Dialekt” genannt, während sie in Bezug auf Gegenstände abweichen können, auch ”Themen” genannt. Einige Begriffe im Wortschatz sind gleichbedeutend, unterscheiden sich aber systematisch über Dialekte hinweg. Das Modell kann den Dialekt und das Thema jedes einzelnen Dokuments separat kennzeichnen, um die interessierende Komponente (Dialekt oder Thema) für eine bestimmte Aufgabe zu isolieren.
Die Begriffe ”Korpus” und ”Dokument” schränken nicht ein, auf was diese sich beziehen können. Ein Korpus kann eine Gruppe von Text sein, und Dokumente sind Teilmengen des Textes. Zum Beispiel können die Korpora verschiedene Bücher, oder jeder Korpus kann eine Gruppe von Mitteilungen sein, die von einer Gruppe von Personen geschrieben wurde, und die Dokumente können Abschnitten in der Gruppe sein. Ebenso sind ”Thema” und ”Dialekt”, wie vorstehend erwähnt, in ihrem allgemeinen Sinne entsprechend als Gegenstand und Wortschatznutzung zu verstehen.
Die Ausführungsformen der Erfindung bauen ein wahrscheinlichkeitstheoretisches Modell für die Dokumente von Wörtern in unterschiedlichen Dialekten über einen gemeinsamen Wortschatz hinweg auf. Insbesondere basiert das Modell auf einer Erweiterung zur latenten Dirichlet-Allokation (LDA), welche latente Dirichlet-Reallokation (LDR) genannt wird. LDR als eine Erweiterung der LDA beabsichtigt den Fall zu handhaben, in dem es mehrere Korpora gibt, die durch variierende Wortschatznutzung gekennzeichnet sind, in dem Sinne, dass eine Bedeutung, die mit einem bestimmten Wort in einem Korpus ausgedrückt wird, mit einem anderen Wort in einem anderen Korpus ausgedrückt werden kann, und dieser Unterschied nicht abhängig von dem spezifischen Dokument innerhalb des Korpus ist.
LDR verwendet ein Themenmodell, um jedem Dokument eine Wortverteilung zuzuweisen. Bei LDR werden Wortplatzhalter, genannt Unterthemen von einem Thema in einer dialektunabhängigen Weise erzeugt, und Unterthemen, umgekehrt, erzeugen Wörter in einer dialektabhängigen Weise. Über diese Unterthemen ist LDR in der Lage, Wortwahrscheinlichkeiten zwischen variablen Begriffen umzuverteilen (reallokieren): Begriffe, die als Funktion des Dialekts variieren. Im Gegensatz dazu ist ein Wortschatzbegriff in Bezug auf eine bestimmte Gruppe von Dialekten konstant, wenn eine Verwendung des Begriffs äquivalent für alle diese Dialekte ist.
Die Ausführungsformen stellen ein Verfahren zur Verfügung, das Monte-Carlo-Methoden wie Gibbs-Sampling oder Hybid-Monte-Carlo für Inferenz nutzt.
In der Statistik erzeugt Gibbs-Sampling eine Sequenz von Stichproben aus einer gemeinsamen Wahrscheinlichkeitsverteilung von zwei oder mehreren Zufallsvariablen. Die Stichproben nähern die gemeinsame a-posteriori Verteilung an.
[Kurze Beschreibung der Zeichnungen]
1 ist ein grafisches Modell entsprechend Ausführungsformen von der Erfindung.
2 ist ein grafisches Modell eines bekannten Themenmodells.
3 ist ein Flussdiagramm vom Erzeugen eines Textmodells entsprechend Ausführungsformen von der Erfindung.
4 ist ein Flussdiagramm eines Verfahrens zum Modellieren von Textgruppen entsprechend Ausführungsformen von der Erfindung.
[Beschreibung von Ausführungsformen]
Einführung
Die Ausführungsformen unserer Erfindung stellen eine Erweiterung zur latenten Dirichlet-Allokation (TLDA) zur Verfügung, genannt latente Dirichlet-Reallokation (LDR). LDR ist eine Erweiterung der bekannten LDA, welche den Fall beabsichtigt handzuhaben, bei dem wenigstens einige der mehreren Korpora durch variierende Wortschatznutzung gekennzeichnet sind, während andere Korpora die gleiche Wortschatznutzung haben. Generell betrifft Wortschatznutzung, wie hier verwendet, die Nutzung von Wörtern in unterschiedlichen Texten.
Bei LDR werden Themenwahrscheinlichkeiten immer noch unabhängig von einer Dirichlet-Verteilung für jedes Dokument gezogen, und von diesen Verteilungen werden Themen für jede Wortposition in einem Dokument gezogen, genauso wie in LDA. Wir berücksichtigen hier jedes Wort in dem Text als ein Merkmal (token) mit einer Position und einem Wortwert.
Die LDR-Themen erzeugen jedoch nicht direkt Worte, sondern erzeugen Platzhalter für Worte, die Unterthemen genannt werden. Diese Unterthemen sind beabsichtigt, um die semantische Bedeutung der Worte zu repräsentieren. Somit hat die Verwendung von Unterthemen hier eine besondere Bedeutung in Bezug auf Semantiken, die bei einer bekannten Textmodellierung nicht gefunden wird.
Die Wörter jedes Dokuments werden dann von einer Wahrscheinlichkeit der Wörter bei dem gegebenen Unterthema gezogen. Diese Wortwahrscheinlichkeiten sind abhängig von der Wortschatznutzung des Korpus (aber nicht von dem besonderen Dokument innerhalb des Korpus) und erlauben es, eine gegebene Bedeutung durch unterschiedliche Worte auszudrücken, abhängig von der Wortschatznutzung des Korpus, in welchem es auftritt. Dies wird als ”Reallokation” der Wahrscheinlichkeit für eine besondere Bedeutung unterschiedlicher Worte bezeichnet, abhängig von der Wortschatznutzung.
Die Wahrscheinlichkeiten der Worte bei den gegebenen Unterthemen für jeden Dialekt werden von einer Dirichlet-Verteilung gezogen, wie die Wahrscheinlichkeiten der Unterthemen bei den gegebenen Themen. Die Parameter der Dirichlet-Verteilung für die Wahrscheinlichkeiten der Worte bei den gegebenen Unterthemen sind jedoch eingeschränkt, um spärlich zu sein, in dem Sinn, dass sie nur wenige nicht-Null Elemente haben. In der Statistik ist Seltenheit (sparsity) ein gut bekannter Fachbegriff.
Dies stellt sicher, dass die Anzahl von Worten in Unterthemen klein ist, in dem Sinne, dass nur wenige Worte signifikante nicht-Null-Wahrscheinlichkeit für ein gegebenes Unterthema haben.
Generell beinhaltet Inferenz bei LDR ein Schätzen der a-posteriori-Verteilung von:

1) den Dialektwahrscheinlichkeiten;
2) der Themawahrscheinlichkeiten in jedem Dokument;
3) die Unterthemenwahrscheinlichkeiten beu gegbenen Themen;
4) die Wortwahrscheinlichkeiten bei gegebenen Unterthemen und Dialekten;
5) die Zuordnung eines Dialekts zu jedem Korpus;
6) die Zuordnung eines Unterthemas zu jedem Merkmal; und
7) die Zuordnung eines Themas zu jedem Merkmal.

Einschlägiger Stand der Technik ist das ”Dialekt-Thema-Modell”, das unterschiedliche Dokumente in einem Korpus mit unterschiedlichen Stichproben aus einer Mischung von Dialekten und einer Mischung von Themen verknüpft. Dieses Modell leidet unter einem Mangel an Einschränkungen, in dem jeder Dialekt seine eigene Gruppe von wortgegebenen Themenwahrscheinlichkeiten hat. Dies verhindert, dass die behandelten Themen über Dialekte hinweg identifizierbar sind.
Was unser LDR-Modell unterscheidet ist, dass die Themen durch dialektunabhängige unterthemengegebene Themenwahrscheinlichkeiten über Dialekte hinweg als gleich eingeschränkt sind. Die wortgegebenen Unterthemenwahrscheinlichkeiten sind durch Dirichlet-a-priori-Wahrscheinlichkeiten eingeschränkt, die in einer dialektunabhängigen Art spärlich sind, so dass unabhängig von dem Dialekt jedes Unterthema nur Worte erzeugen kann, die einer kleinen Gruppe angehören. Die unterschiedliche Struktur des ”Dialekt-Thema-Modell” ermöglicht nicht die Formulierung solcher Einschränkungen.
Die bekannten Dialekt-Thema-Modelle können in unabhängige Themenmodelle für jeden Dialekt ausarten, während unsere LDR-Modell Themenmodelle herstellt, die sich über Dialekte hinweg entsprechen. Im Gegensatz zur ”Thema-Anpassung”, einer anderen bekannten Methodik, allokiert unser Modell geeignete Wahrscheinlichkeiten zu den Begriffen und ermöglicht dann dialektabhängige Reallokation von Wahrscheinlichkeiten zwischen einer kleinen Anzahl von Begriffen. So kann unser Modell verwendet werden, um Dokumente aus verschiedenen Dialekten gleichzeitig zu verarbeiten, als auch den Dialekt entsprechend einem bisher ungesehenen Dokument abzuleiten. Dies ist mit bekannten Thema-Anpassungsverfahren nicht möglich.
In dieser Beschreibung werden die folgenden Variablen und Funktionen benutzt.

C:: Korporanummer
c:: Korpusindex
D_c:: Anzahl von Dokumenten in Korpus c
d:: Index eines Dokuments in Korpus c
z:: Thema (Verteilung über Unterthemen) (z_i: Themenzuordnung für Merkmal i)
k:: Themaindex
K:: Anzahl von Themen
θ_c,d:: Verteilung über Themen des Dokuments d in Korpus c
ϕ_k:: themenabhängige (multinomial) Verteilung über Unterthemen des Themas k
u:: Unterthema oder Bedeutung (Verteilung über Worte) (u_i: Unterthemenzuordnung des Merkmals i)
m:: Unterthemenindex
M:: Anzahl vomn Unterthemen
V:: Wortschatzgröße
J:: durchschnittliche Anzahl von Begriffen, die als variabel über alle Dialekte innerhalb eines Unterthemas hinweg angenommen werden
w:: Wort (w_i: Wortzuordnung für Merkmal i)
N_c,d:: Anzahl von Worten in Dokument d von Korpus c
l:: Dialekt (l_c: Dialektzuodnung für Korpus c)
L:: Anzahl von Dialekten
Ψ:: Verteilung über Dialekte
π:: Skalarparameter für symetrische Dirichlet-Verteilungen (über Ψ)
γ_l,m:: multinomiale Verteilung über Worte des Unterthemas m und Dialekts l
η_m:: unterthemenabghängige Dirichlet-a-priori-Wahrscheinlichkeiten für Unterthema m (über γ_l,m)
α:: Skalarparameter für symetrische Dirichlet-Verteilungen (über θ_c,d)
β:: Skalarparameter für symetrische Dirichlet-Verteilungen (über ϕ_k)
λ:: Skalar, der eine Exponenzialverteilung parametrisiert
W:: Gruppe aller Wortzuordnungen
Z:: Gruppe aller Themenzuordnungen
U:: Gruppe aller Unterthemenzuordnungen
X:: Zufallsvariable
Θ:: Gruppe aller θ_c,d
Φ:: Gruppe aller ϕ_k
γ:: set of all γ_l,m
Dir:: Dirichlet-Verteilung
exp:: Exponentialverteilung
Mult:: Multinomialverteilung

Latente Dirichlet-Reallokation
Bei LDR wird angenommen, dass Dokumente d = 1, ..., D_c in einem Korpus c = 1, ..., C entsprechend zu der gleichen korpusabhängigen Wortschatznutzung (oder Dialekt) l_c ∊ {1, ..., L} geschrieben werden, die von einer kopusunabhängigen multinomialen vorangegangenen Verteilung gezogen wurde. Ein besonderer Fall ergibt sich aus einem Setzen einer Anzahl von Dialekten gleich einer Anzahl von Korpora, und aus dem Zuordnen eines Dialekts zu jedem Korpus.
Wir verknüpfen jedes Dokument d = 1, ..., D_c mit einer Verteilung über Themen θ_c,d, die von einer Dirichlet-Verteilung gezogen sind, bei welcher die Themen über alle Korpora hinweg gemeinsam benutzt werden. Hier verknüpfen wir jedes Thema z ∊ {1, ..., K} einer Verteilung über ”Unterthemen” u ∊ {1, ..., M}. Wir verknüpfen mit jedem Unterthema eine Verteilung über Wortschatzbegriffe {1, ..., V}. Unsere Intuition hinter den Unterthemen ist nachstehend beschrieben.
Für jedes Merkmal i = 1, ..., N_c,d, wird ein Thema z_i = k entsprechend zu θ_c,d gezogen. Dann wird ein Unterthema u_i = m von einem themenabhängigen multinomialen ϕ_k gezogen. Ein Wortschatzbegriff wird von einem multinomialen
gezogen, abhängig sowohl von dem Dialekt und der Unterthemenzuordnung.
Ein Schlüsselmerkmal unseres Modells sind unterthemenabhängige Dirichlet-a-priori-Wahrscheinlichkeiten η_1:M, die wir auf γ_1:L,1:M anwenden.
Die Motivation für dieses Merkmal ist nachstehend beschrieben.
Generatives Modell
Im Detail legen wir vorab eine Anzahl von Dialekten L, Themen K, Unterthemen M und die Wortschatzgröße V fest, wobei K wesentlich kleiner als M ist, was kleiner als V ist. Das Modell weist drei Skalarparameter α, β und π für symetrische Dirichlet-Verteilungen auf. Ein Skalar λ parametrisiert eine Exponentialverteilung.
Das generative Modell ist
Der Einfachheit dieser Beschreibung wegen sind die Dirichlet-a-priori-Verteilungen auf das
und ϕ_1:K symetrisch. In der Praxis können sie jedoch nichtsymetrisch sein.
Man beachte, dass das vorstehende generative Verfahren nur eine Definition der Modellstruktur ist, und dass es in der Praxis nicht tatsächlich verwendet wird, um Daten aufzubauen. Es wird nur angenommen, dass die beobachteten Daten in dieser Weise erzeugt wurden. Das Ziel der Analyse der beobachteten Daten ist es, die Parameter des Modells durch Lösen eines inversen Problems abzuschätzen.
1 zeigt ein grafisches Modell 100 für unser LDR, welches die statistischen Abhängigkeitsverhältnisse zwischen Variablen festgelegt. Dieses verwendet eine Notation, die ”Plattennotation (platte notation)” genannt wird. Jedes Rechteck mit einem Buchstaben ”X” in der unteren rechten Ecke bedeutet, dass die Struktur X-mal wiederholt wird. Hier wiederholt das große Rechteck die gleiche Struktur C-mal, einmal für jeden Korpus. Dann wird in jedem Korpus c die Struktur in dem Rechteck mittlerer Größe wieder D-mal wiederholt, einmal für jedes Dokument in einem Korpus, genau D_C, da die Anzahl von Dokumenten in jedem Korpus über die Korpora hinweg variieren kann. Dann wird in jedem Dokument d, das zum Korpus c gehört, die innerste Struktur N-mal wiederholt, einmal für jedes Wort innerhalb dieses Dokuments, genau N_c,d, weil die Anzahl der Wörter in jedem Dokument über die Dokumente hinweg variieren kann. Wenn es eine gerichtete Flanke gibt, welche A und B miteinander verbindet, so wird die Zufallsvariable B bedingt auf A erzeugt, entsprechend einer Verteilung, die von A abhängt. Dies ist unabhängig davon, ob die Variablen in dem gleichen Rechteck liegen oder nicht.
Es ist zu beachten, dass dies kein Ablaufdiagramm ist. Das Verfahren, dass dieses Modell verwendet, beobachtet Worte eines gegebenen Dokuments und findet die a-posteriori Wahrscheinlichkeitsverteilung, und/oder die ähnlichsten Werte von interessierenden Variablen, wie den Dialekt, oder das Dokument von einer Datenbasis, dass mit der Themenverteilung am besten übereinstimmt.
2 zeigt ein vergleichbares Modell die bekannte LDA. In diesem Modell stellt das äußere Rechteck 201 Dokumente dar, und das innere Rechteck 202 stellt eine wiederholte Auswahl von Themen und Worten innerhalb eines Dokuments dar.
Modellieren von Realloakationen zwischen Begriffen Wir beschreiben nun die Motivation für unser LDR, ausgerichtet auf Intuition.
Unterthemenbedeutungen für Worte
Die M Unterthemen bezwecken eine ”Bedeutung” eines Worts w_i. Es macht Sinn das Unterthema u_i von einer themenabhängigen Verteilung zu ziehen, unabhängig von dem Dialekt, und die Wortwahrscheinlichkeiten sowohl von der beabsichtigten Bedeutung des Wortes als auch dem Dialekt abhängig zu machen.
Idealerweise entspricht jeder konstante Begriff seinem eigenen Unterthema. Den variablen Begriffen ordnet das Modell Begriffe zu, die in einer Bedeutung äquivalent zu einer Gruppe sind, und verknüpft ein Unterthema mit allen Begriffen in der Gruppe.
Wir betrachten ein Unterthema, das mit einem konstanten Begriff verknüpft ist. In diesem Fall wurde das Wort schon bestimmt, und ein geeignetes unterthemenabhängiges multinomiales
allokiert die Wahrscheinlichkeit zu einem anderen Begriff nicht. Wenn jedoch ein Unterthema ausgewählt wird, dass einer variablen Gruppe entspricht, reallokiert
korrekt eine höchste Wahrscheinlichkeit mit dem für den Dialekt geeigneten Begriff.
Spärliche Dirichlet-Verteilungs-a-priori-Wahrscheinlichkeiten für Reallokation Wir beschreibn unsere Technik zum automatischen Lernen geeignet strukturierter Multinomialer.
Wir lernen automatisch in einer unüberwachten Art geeignet strukturierte Multinomiale unter Verwendung eines Bayesian-Ansatzes durch Vergeben einer unterthemenabhängigen, asymetrischen Dirichlet-Verteilungs-a-priori-Wahrscheinlichkeit an γ_1:L,1:M, parametrisiert durch η_1:M.
Die Dirichlet-Verteilung wird über den Wahrscheinlichkeitssimplex in V – 1 Dimensionen definiert, was eine Polytope ist, deren jeweilige Eckpunkte einem Wortschatzbegriff entsprechen. Wir wollen, dass diese Dirichlet-Verteilung spärlich ist, das heißt der Verteilung entweder ein Gewicht auf einer (p – 1)-Fläche der Polytope zu geben (entsprechend zu variablen Begriffen unter Unterthema m), oder auf einen einzelnen Eckpunkt (einen konstanten Begriff unter m). Die Dirichlet-Verteilung selbst ist nicht spärlich, doch die Auszüge aus dieser Verteilung begünstigen Seltenheit.
Hyper-a-Priori für spärliche Dirichlet-Verteilungen
Eine spärliche Dirichlet-Verteilung übersetzt zu jeden hochwahrscheinlichen Wortschatzbegriffen, zum Beispiel j' für Unterthema m, mit entsprechendem η_m,j' größer als alle anderen Begriffe. Um dies zu unterstützen, plazieren wir ein gemeinsames exponentielles Hyper-a-Priori über jede Komponente jedes η_1:M. Das heißt, wir nehmen η_m,j ~ exp{λ}, m = 1, ..., M, j = 1, ..., V an.
Wir präsentiren eine Heuristik zum Setzen des Skalars λ. Wenn J eine durchschnittliche Anzahl von Begriffen ist, dann erwarten wir, dass Begriffe über alle Dialekte innerhalb eines Unterthemas m hinweg variiert werden. Man stelle sich Auszüge von einer Zufallsvariable X_i ~ i.i.d.exp(λ) vor. Wir wollen die erwartete Anzahl von abgetasteten Begriffen größer als eins auf J einschränken, das heißt
Der entsprechende Skalar ist λ = log(V) – log(J).
Im Mittel verwendet jedes Dokument innerhalb eines Korpus einen Begriff, welcher über Dialekte hinweg variiert wird. Dies entspricht einer Summe von D = Σ_cΣ_d1 variablen Begriffen in dem Wortschatz in, von dem wir erwarten, dass er gleich über alle Unterthemen hinweg verteilt ist. Deshalb, J = D/M, und
Entspannt kombinatorische Suche zur Bayesianischen Reallokation
Wir beschreiben das Problem des Lernens von Wortäquivalenten über Dialekte hinweg. Dafür bilden wir die multinomialen Wahrscheinlichkeiten über Begriffe jedes Dialekts (hier γ_1:L), um den Dialekt am besten zu charakterisieren. Dies bedingte ein Auffinden einer optimalspärlichen Auswahl von Begriffen, um variable Begriffe in dem Dialekt darzustellen. Dies ist ein kombinatorisches Optimierungsproblem mit einem Suchraum gleich dem der Potenzmenge von V, was eine berechnungstechnisch schwer zu bewältigende Aufgabe darstellt.
Beim Verwenden eines Bayesianischen Ansatzes und unterthemenabhängiger Dirichlet-Verteilungs-a-priori-Wahrscheinlichkeiten, die über alle Dialekte hinweg gemeinsam genutzt werden, entspannen wir die kombinatorische Suche auf eine kontinuierliche Optimierung, welche während einer Inferenz automatisch durchgeführt wird.
Von Bedeutungen zu Unterthemen
Wir würden gern M sehr nahe an V haben, und dass jeder Wortschatzbegriff (oder Gruppe variabler Begriffe) ein entsprechendes Wortmultinomial pro Dialekt hat, das genau festlegt, wann der Bergriff verwendet wird. Dies bedingt jedoch ein Zusammenpassen von LMV ≈ LV² wortmultinomialen Parameter, was unsinnig für praktische Anwendungen ist. Deshalb verringern wir den Wert von M.
Inferenz und Lernen
Leider sind für unser Modell die exponentiellen und Dirichlet-Verteilungen nicht konjugiert, so das Variationsinferenz und Gibbs-Sampling nicht einfach sind. Inferenz kann unter Verwendung einer Vielzahl von Stichprobenverfahren wie Hybrid-Monte-Carlo, Collapsed-Gibbs-Sampling oder Slice-Sampling durchgeführt werden.
3 zeigt die Schritte des Dokumentmodellierens entsprechend Ausführungsformen der Erfindung.
Ein wie in 1 ausgeführtes wahrscheinlichkeitstheoretisches Modell 302 wird in Verbindung mit Trainingsdaten 301 verwendet, welche Texttrainingsdaten umfassen, die durch Korpora und Dokumente bezeichnet sind, um Modellparameter 304 umfassend Dialekt, Thema, Unterthema und Wortverteilung Parameter zu schätzen 303.
Die vorstehenden Schritte können in einem Prozessor durchgeführt werden, der mit einem Speicher und Eingabe/Ausgabe-Schnittstellen verbunden ist, wie sie aus der Technik bekannt sind.
An diesem Punkt kann das Modell für eine Anzahl von Anwendungen genutzt werden, wie Dialektschätzung, Themenschätzung, Gewinnung von thematisch verwandten Dokumenten, Dokumentzusammenfassungen oder anderen Sprachmodellierungsaufgaben.
Anwendung
4 zeigt die Verwendung der Erfindung in Beispielanwendungen. Ein wie in 2 ausgeführtes wahrscheinlichkeitstheoretisches Modell 402 wird in Verbindung mit Trainingsdaten 401 verwendet, welche Texttrainingsdaten umfassen, die durch Korpora und Dokumente bezeichnet sind, um Modellparameter 404 umfassend Dialekt, Thema, Unterthema und Wortverteilungsparameter zu schätzen 403.
Zur Dialektschätzung wird Texteingabe 405 in Verbindung mit den Modellparametern 404 verwendet, um Dialektpunktwerte zu berechnen 410, von welchen Dialektklassenschätzungen 411 abgeleitet werden.
Zur Themenschätzung wird Texteingabe 405 in Verbindung mit den Modellparametern 404 verwendet, um Themenpunktwerte zu berechnen 420, von welchen Themenklassenschätzungen 421 abgeleitet werden.
Zur Dokumentgewinnung wird Texteingabe 405 in Verbindung mit den Modellparametern 404 verwendet, um Dokumentpunktwerte zu berechnen 430, von welchen Dokumenten-IDs 431 abgeleitet werden.
Wirkung der Erfindung
Latente Dirichlet-Reallokation kann erfolgreich eine a-priori Wahrscheinlichkeit ohne Überanpassung erlernen, um Dokumente zu charakterisieren, welche aus unterschiedlichen Dialekten aufgebaut sind.
In einer Suchanwendung bei einem gegebenen Suchbegriff oder Dokument kann LDR verwendet werden, um den Begriff entsprechend zu Verteilungen von Dokumenthemen mit den am meisten wahrscheinlichen Dokumenten von jedem anderen Korpus zu verknüpfen.
Alternativ kann ein Verbindungsverfahren wie ein relationales Themenmodell verwendet werden, um Verbindungen zwischen jeglichen zwei Dokumenten unterschiedlicher Korpora abzuleiten. Die Interpretation besagt, dass verbundene Dokumente dasselbe Material abdecken, ausgenommen in unterschiedlichen Dialekten.

Claims

Textverarbeitungsverfahren zum Aufbauen eines Textmodells, das die folgenden Schritte umfasst: Erfassen des Textes, wobei der Text einen gemeinsamen Wortschatz aufweist, wobei der Text Wörter enthält, wobei der Text in Gruppen von Texten aufgeteilt wird und mindestens eine Gruppe von Text in Untergruppen von Texten aufgeteilt wird, wobei eine Nutzung des gemeinsamen Wortschatzes in zwei oder mehr Gruppen unterschiedlich ist, und die Themen von zwei oder mehr Untergruppen unterschiedlich sind; Definieren eines Wahrscheinlichkeitsmodells für den Text, wobei das Wahrscheinlichkeitsmodell in einem Speicher gespeichert ist, und wobei das Wahrscheinlichkeitsmodell jedes Wort im Text als ein Kürzel (Token) betrachtet, das eine Position und einen Wortwert aufweist, und die Nutzung des gemeinsamen Wortschatzes, von Themen, Unterthemen, und Wortwerten für jedes Kürzel in dem Text unter Verwendung von Verteilungen von Zufallsvariablen in dem Wahrscheinlichkeitsmodell repräsentiert wird, wobei die Zufallsvariablen diskret sind, wobei jede Gruppe von Text eine Vokabelnutzungszufallsvariable aufweist, wobei jedes Kürzel mit den Zufallsvariablen entsprechend den Themen, den Unterthemen, und den Wortwerten verknüpft ist, wobei die Verteilung der mit dem Thema für das Kürzel verknüpften Zufallsvariablen abhängig von der Untergruppe von Text einschließlich des Kürzels ist, die Verteilung der mit dem Unterthema verknüpften Zufallsvariablen für das Kürzel von dem Thema des Kürzels abhängt, und die Verteilung der Zufallsvariablen für den Wortwert des Kürzels abhängig von dem verknüpften Unterthema und der Wortschatznutzung der Gruppe von Texten einschließlich des Kürzels ist; und Schätzen von Parametern von dem Wahrscheinlichkeitsmodell, basierend auf den mit den Worten verknüpften Wortschatznutzungen, den Wortwerten, den Themen und den Unterthemen, wobei die Schritte des Verfahrens in einem Prozessor ausgeführt werden.
Vergahren nach Anspruch 1, weiterhin umfassend: Verwenden des Modells zum Durchführen einer Wortschatznutzungsschätzung.
Verfahren nach Anspruch 1, bei welchem jede Wortschatznutzung in den Tainingsdaten einem Dialekt entspricht.
Verfahren nach Anspruch 3, weiterhin umfassend: Verwenden des Modells zum Durchführen einer Dialektschätzung.
Verfahren nach Anspruch 2, weiterhin umfassend: Durchführen einer Wortschatznutzungsschätzung zum Optimieren eines von einer Wortschatznutzung unabhängigen Themenmodells.
Verfahren nach Anspruch 1, weiterhin umfassend: Verwenden des Modells zum Durchführen des Auffindens von thematisch verwandten Untergruppen, invariant zur Wortschatznutzung.
Verfahren nach Anspruch 1, weiterhin umfassend: Verwenden des Modellsl zum Duchführen von Textzusammenfassung.
Verfahren nach Anspruch 1, weiterhin umfassend: Einschränken der Verteilungen der Wortzuordnungen bei dünn besetzten Unterthemen.