DE112013001740T5 - Textverarbeitungsverfahren zum Aufbauen eines Textmodells - Google Patents
Textverarbeitungsverfahren zum Aufbauen eines Textmodells Download PDFInfo
- Publication number
- DE112013001740T5 DE112013001740T5 DE112013001740.7T DE112013001740T DE112013001740T5 DE 112013001740 T5 DE112013001740 T5 DE 112013001740T5 DE 112013001740 T DE112013001740 T DE 112013001740T DE 112013001740 T5 DE112013001740 T5 DE 112013001740T5
- Authority
- DE
- Germany
- Prior art keywords
- text
- vocabulary
- model
- word
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
Description
- [Technisches Gebiet]
- Die Erfindung betrifft generell Textverarbeitung und insbesondere ein Aufbauen eines Modells für Textgruppen mit einer unterschiedlichen Nutzung eines gemeinsamen Wortschatzes.
- [Technischer Hintergrund]
- In manchen konkreten Situationen können sich Abschnitte von Text mit unterschiedlichen Muster einer Wortschatz(Vokabular)nutzung auf die gleichen Thematiken beziehen, während sie unterschiedliche Schlüsselbegriffe zum Ausdrücken des gleichen Sinngehalts nutzen. Zum Beispiel können unterschiedliche regionale Dialekte der gleichen Sprache, unterschiedliche Ebenen von Formalität oder Technizität in einem Diskurs, unterschiedliche Schreibstile, solche Unterschiede in einer Wortschatznutzung darstellen, auf die wir uns alle als Dialekte in einem weiteren Sinn beziehen können. Ein wichtiges Problem ist dann: wenn fragliche Begriffe in einem Dialekt gegeben sind, wie kann man zuverlässig relevante Abschnitte in unterschiedlichen Dialekten zurückgeben. Solch ein Problem zu lösen würde praktischen Wert bei Informationsgewinnung haben, wo ein Suchen nach brauchbarer Information in einem unbekannten Umfeld bei abweichender Schlüsselterminologie eine schwierige Aufgabe sein kann. Beispiele solcher Situationen sind Benutzerhandbücher für unterschiedliche Programmiersprachen, Nutzerhandbücher für Produkte unterschiedlicher Marken, oder Fächerkataloge von unterschiedlichen Universitäten.
- In der Statistik bezeichnet die latente Dirichlet-Allokation (LDA) ein generatives Modell, das als Themen bekannte Häufungen (Cluster) von Wörtern durch die Analyse des gemeinsamen Auftretens (Kookkurenz) von Wörtern über Dokumente hinweg zu finden versucht. LDA und seine Erweiterungen modellieren jedes Dokument als eine Mischung von Themen, wobei jedes Wort aus einem der Themen erzeugt wird.
- LDA ist ein generatives Modell, in dem Sinne, dass es ein wahrscheinlichkeitstheoretisches Verfahren angibt, um die Worte in Dokumenten zu erzeugen. Für ein bestimmtes Dokument werden eine Gruppe von multinomialen Themenwahrscheinlichkeiten und eine Gruppe von multinomialen Wahrscheinlichkeiten von Worten, bei gegebenen Themen aus einer Dirichlet-Verteilung vorheriger Wahrscheinlichkeiten gezogen. Dann wird für jede Wortposition in dem Dokument ein Thema entsprechend Themenwahrscheinlichkeiten des Dokuments gezogen; schließlich wird ein Wort entsprechend einer Wortwahrscheinlichkeitsverteilung dieses Themas gezogen. Wenn jedoch Daten betrachtet werden, sind die Themenverteilung jedes Dokuments, die Wahrscheinlichkeitsverteilung von Worten gegebener Themen und das Thema, das jedes Wort in dem Dokument erzeugt, nicht bekannt. Inferenz bei LDA ist in der Regel die Schätzung der a-posteriori Verteilungen der Themenwahrscheinlichkeiten in jedem Dokument, die Wahrscheinlichkeiten der Wörter bei gegebenen Themen, und die Zuordnung der Themen zu jedem Wort.
- Obwohl LDA selbst nicht beabsichtigt, die Dialektabhängigkeiten zu modellieren, sind mehrere Erweiterungen für diesen Zweck entwickelt worden.
- Wort-Sinn-Begriffsklärungsmethoden, welche Themenmodelle verwenden, versuchen einen verborgenen Sinn eines Wortes polysemantisch entsprechend einer vorgegebenen markierten Hierarchie von Wörtern zu lernen. Andere Modelle für mehrsprachige Korpora erfordern abgeglichene oder syntaktisch ähnliche Dokumente. Andere Modelle arbeiten auf nicht abgeglichenen Dokumenten, jedoch modellieren sie entsprechende Themen in unterschiedlichen Wortschätzen. Im Vergleich dazu ist unsere Methode völlig unbeaufsichtigt und modelliert Dialekte innerhalb gemeinsamer Wortschätze.
- In dieser Hinsicht ist eine damit verbundene Arbeit das ”Dialekt-Thema-Modell” (diaTM), das unterschiedliche Dokumente in einem Korpus mit unterschiedlichen Auszügen von sowohl einer Mischung von Dialekten als auch einer Mischung von Themen verbindet. Wir betrachten Anwendungen, bei denen jeder Korpus mit nur einem Dialekt verbunden ist und alle Korpora eine universelle Gruppe von Themen teilen. Allerdings kann jeder Korpus unterschiedliche Terminologien mit jedem Thema verknüpfen. Dies würde systematische Änderungen in der Sprache über Korpora (entsprechen Dialekten) hinweg berücksichtigen, ohne Unterschiede in die Themen einzuführen. Die Struktur des ”Dialekt-Thema-Modells” erleichtert nicht die Formulierung solcher Bedingungen, da es jedem Korpus erlaubt, unterschiedliche Gruppen von Themen zu definieren.
- Weitere diesbezügliche Arbeiten betreffen das Thema angepasst latentes Dirichlet-Allokations-Modell (τLDA), das eine Technizitätshierarchie parallel mit der Themenhierarchie modelliert, und das hierarchische latente Dirichlet-Allokations(hLDA)-Modell, das eine Baumstrukturhierarchie für die gelernten Themen unter Verwendung des verschachtelten China-Restaurantprozesses modelliert. Diese Modelle sind am besten geeignet, um Dokumente mit unterschiedlichen Ebenen von Spezifität (oder ”Technizität”) zu adressieren, was in den von uns betrachteten Anwendungen nicht unbedingt der Fall ist.
- Ein weiteres Problem mit den oben genannten Methoden ist, dass sie die Gruppen von äquivalenten Begriffen, die als eine Funktion des Dialekts variieren, nicht direkt erkennen. Dies weist auf einen Fehler hin, die inhärenten Bedingungen des Problems exakt zu modellieren, und könnte zu ungenauen Ergebnissen einer Informationsgewinnung führen.
- [Zusammenfassung der Erfindung]
- Diese Erfindung bezieht sich allgemein auf die Verarbeitung von Textgruppen. Von jeder Gruppe, auch ”Korpus” genannt, wird angenommen, dass sie Untergruppen von Text umfasst, auch ”Dokumente” genannt. Alle Dokumente in einem Korpus sind durch ein gleichen Wortschatznutzungsmuster gekennzeichnet, auch ”Dialekt” genannt, während sie in Bezug auf Gegenstände abweichen können, auch ”Themen” genannt. Einige Begriffe im Wortschatz sind gleichbedeutend, unterscheiden sich aber systematisch über Dialekte hinweg. Das Modell kann den Dialekt und das Thema jedes einzelnen Dokuments separat kennzeichnen, um die interessierende Komponente (Dialekt oder Thema) für eine bestimmte Aufgabe zu isolieren.
- Die Begriffe ”Korpus” und ”Dokument” schränken nicht ein, auf was diese sich beziehen können. Ein Korpus kann eine Gruppe von Text sein, und Dokumente sind Teilmengen des Textes. Zum Beispiel können die Korpora verschiedene Bücher, oder jeder Korpus kann eine Gruppe von Mitteilungen sein, die von einer Gruppe von Personen geschrieben wurde, und die Dokumente können Abschnitten in der Gruppe sein. Ebenso sind ”Thema” und ”Dialekt”, wie vorstehend erwähnt, in ihrem allgemeinen Sinne entsprechend als Gegenstand und Wortschatznutzung zu verstehen.
- Die Ausführungsformen der Erfindung bauen ein wahrscheinlichkeitstheoretisches Modell für die Dokumente von Wörtern in unterschiedlichen Dialekten über einen gemeinsamen Wortschatz hinweg auf. Insbesondere basiert das Modell auf einer Erweiterung zur latenten Dirichlet-Allokation (LDA), welche latente Dirichlet-Reallokation (LDR) genannt wird. LDR als eine Erweiterung der LDA beabsichtigt den Fall zu handhaben, in dem es mehrere Korpora gibt, die durch variierende Wortschatznutzung gekennzeichnet sind, in dem Sinne, dass eine Bedeutung, die mit einem bestimmten Wort in einem Korpus ausgedrückt wird, mit einem anderen Wort in einem anderen Korpus ausgedrückt werden kann, und dieser Unterschied nicht abhängig von dem spezifischen Dokument innerhalb des Korpus ist.
- LDR verwendet ein Themenmodell, um jedem Dokument eine Wortverteilung zuzuweisen. Bei LDR werden Wortplatzhalter, genannt Unterthemen von einem Thema in einer dialektunabhängigen Weise erzeugt, und Unterthemen, umgekehrt, erzeugen Wörter in einer dialektabhängigen Weise. Über diese Unterthemen ist LDR in der Lage, Wortwahrscheinlichkeiten zwischen variablen Begriffen umzuverteilen (reallokieren): Begriffe, die als Funktion des Dialekts variieren. Im Gegensatz dazu ist ein Wortschatzbegriff in Bezug auf eine bestimmte Gruppe von Dialekten konstant, wenn eine Verwendung des Begriffs äquivalent für alle diese Dialekte ist.
- Die Ausführungsformen stellen ein Verfahren zur Verfügung, das Monte-Carlo-Methoden wie Gibbs-Sampling oder Hybid-Monte-Carlo für Inferenz nutzt.
- In der Statistik erzeugt Gibbs-Sampling eine Sequenz von Stichproben aus einer gemeinsamen Wahrscheinlichkeitsverteilung von zwei oder mehreren Zufallsvariablen. Die Stichproben nähern die gemeinsame a-posteriori Verteilung an.
- [Kurze Beschreibung der Zeichnungen]
-
1 ist ein grafisches Modell entsprechend Ausführungsformen von der Erfindung. -
2 ist ein grafisches Modell eines bekannten Themenmodells. -
3 ist ein Flussdiagramm vom Erzeugen eines Textmodells entsprechend Ausführungsformen von der Erfindung. -
4 ist ein Flussdiagramm eines Verfahrens zum Modellieren von Textgruppen entsprechend Ausführungsformen von der Erfindung. - [Beschreibung von Ausführungsformen]
- Einführung
- Die Ausführungsformen unserer Erfindung stellen eine Erweiterung zur latenten Dirichlet-Allokation (TLDA) zur Verfügung, genannt latente Dirichlet-Reallokation (LDR). LDR ist eine Erweiterung der bekannten LDA, welche den Fall beabsichtigt handzuhaben, bei dem wenigstens einige der mehreren Korpora durch variierende Wortschatznutzung gekennzeichnet sind, während andere Korpora die gleiche Wortschatznutzung haben. Generell betrifft Wortschatznutzung, wie hier verwendet, die Nutzung von Wörtern in unterschiedlichen Texten.
- Bei LDR werden Themenwahrscheinlichkeiten immer noch unabhängig von einer Dirichlet-Verteilung für jedes Dokument gezogen, und von diesen Verteilungen werden Themen für jede Wortposition in einem Dokument gezogen, genauso wie in LDA. Wir berücksichtigen hier jedes Wort in dem Text als ein Merkmal (token) mit einer Position und einem Wortwert.
- Die LDR-Themen erzeugen jedoch nicht direkt Worte, sondern erzeugen Platzhalter für Worte, die Unterthemen genannt werden. Diese Unterthemen sind beabsichtigt, um die semantische Bedeutung der Worte zu repräsentieren. Somit hat die Verwendung von Unterthemen hier eine besondere Bedeutung in Bezug auf Semantiken, die bei einer bekannten Textmodellierung nicht gefunden wird.
- Die Wörter jedes Dokuments werden dann von einer Wahrscheinlichkeit der Wörter bei dem gegebenen Unterthema gezogen. Diese Wortwahrscheinlichkeiten sind abhängig von der Wortschatznutzung des Korpus (aber nicht von dem besonderen Dokument innerhalb des Korpus) und erlauben es, eine gegebene Bedeutung durch unterschiedliche Worte auszudrücken, abhängig von der Wortschatznutzung des Korpus, in welchem es auftritt. Dies wird als ”Reallokation” der Wahrscheinlichkeit für eine besondere Bedeutung unterschiedlicher Worte bezeichnet, abhängig von der Wortschatznutzung.
- Die Wahrscheinlichkeiten der Worte bei den gegebenen Unterthemen für jeden Dialekt werden von einer Dirichlet-Verteilung gezogen, wie die Wahrscheinlichkeiten der Unterthemen bei den gegebenen Themen. Die Parameter der Dirichlet-Verteilung für die Wahrscheinlichkeiten der Worte bei den gegebenen Unterthemen sind jedoch eingeschränkt, um spärlich zu sein, in dem Sinn, dass sie nur wenige nicht-Null Elemente haben. In der Statistik ist Seltenheit (sparsity) ein gut bekannter Fachbegriff.
- Dies stellt sicher, dass die Anzahl von Worten in Unterthemen klein ist, in dem Sinne, dass nur wenige Worte signifikante nicht-Null-Wahrscheinlichkeit für ein gegebenes Unterthema haben.
- Generell beinhaltet Inferenz bei LDR ein Schätzen der a-posteriori-Verteilung von:
- 1) den Dialektwahrscheinlichkeiten;
- 2) der Themawahrscheinlichkeiten in jedem Dokument;
- 3) die Unterthemenwahrscheinlichkeiten beu gegbenen Themen;
- 4) die Wortwahrscheinlichkeiten bei gegebenen Unterthemen und Dialekten;
- 5) die Zuordnung eines Dialekts zu jedem Korpus;
- 6) die Zuordnung eines Unterthemas zu jedem Merkmal; und
- 7) die Zuordnung eines Themas zu jedem Merkmal.
- Einschlägiger Stand der Technik ist das ”Dialekt-Thema-Modell”, das unterschiedliche Dokumente in einem Korpus mit unterschiedlichen Stichproben aus einer Mischung von Dialekten und einer Mischung von Themen verknüpft. Dieses Modell leidet unter einem Mangel an Einschränkungen, in dem jeder Dialekt seine eigene Gruppe von wortgegebenen Themenwahrscheinlichkeiten hat. Dies verhindert, dass die behandelten Themen über Dialekte hinweg identifizierbar sind.
- Was unser LDR-Modell unterscheidet ist, dass die Themen durch dialektunabhängige unterthemengegebene Themenwahrscheinlichkeiten über Dialekte hinweg als gleich eingeschränkt sind. Die wortgegebenen Unterthemenwahrscheinlichkeiten sind durch Dirichlet-a-priori-Wahrscheinlichkeiten eingeschränkt, die in einer dialektunabhängigen Art spärlich sind, so dass unabhängig von dem Dialekt jedes Unterthema nur Worte erzeugen kann, die einer kleinen Gruppe angehören. Die unterschiedliche Struktur des ”Dialekt-Thema-Modell” ermöglicht nicht die Formulierung solcher Einschränkungen.
- Die bekannten Dialekt-Thema-Modelle können in unabhängige Themenmodelle für jeden Dialekt ausarten, während unsere LDR-Modell Themenmodelle herstellt, die sich über Dialekte hinweg entsprechen. Im Gegensatz zur ”Thema-Anpassung”, einer anderen bekannten Methodik, allokiert unser Modell geeignete Wahrscheinlichkeiten zu den Begriffen und ermöglicht dann dialektabhängige Reallokation von Wahrscheinlichkeiten zwischen einer kleinen Anzahl von Begriffen. So kann unser Modell verwendet werden, um Dokumente aus verschiedenen Dialekten gleichzeitig zu verarbeiten, als auch den Dialekt entsprechend einem bisher ungesehenen Dokument abzuleiten. Dies ist mit bekannten Thema-Anpassungsverfahren nicht möglich.
- In dieser Beschreibung werden die folgenden Variablen und Funktionen benutzt.
- C:
- Korporanummer
- c:
- Korpusindex
- Dc:
- Anzahl von Dokumenten in Korpus c
- d:
- Index eines Dokuments in Korpus c
- z:
- Thema (Verteilung über Unterthemen) (zi: Themenzuordnung für Merkmal i)
- k:
- Themaindex
- K:
- Anzahl von Themen
- θc,d:
- Verteilung über Themen des Dokuments d in Korpus c
- ϕk:
- themenabhängige (multinomial) Verteilung über Unterthemen des Themas k
- u:
- Unterthema oder Bedeutung (Verteilung über Worte) (ui: Unterthemenzuordnung des Merkmals i)
- m:
- Unterthemenindex
- M:
- Anzahl vomn Unterthemen
- V:
- Wortschatzgröße
- J:
- durchschnittliche Anzahl von Begriffen, die als variabel über alle Dialekte innerhalb eines Unterthemas hinweg angenommen werden
- w:
- Wort (wi: Wortzuordnung für Merkmal i)
- Nc,d:
- Anzahl von Worten in Dokument d von Korpus c
- l:
- Dialekt (lc: Dialektzuodnung für Korpus c)
- L:
- Anzahl von Dialekten
- Ψ:
- Verteilung über Dialekte
- π:
- Skalarparameter für symetrische Dirichlet-Verteilungen (über Ψ)
- γl,m:
- multinomiale Verteilung über Worte des Unterthemas m und Dialekts l
- ηm:
- unterthemenabghängige Dirichlet-a-priori-Wahrscheinlichkeiten für Unterthema m (über γl,m)
- α:
- Skalarparameter für symetrische Dirichlet-Verteilungen (über θc,d)
- β:
- Skalarparameter für symetrische Dirichlet-Verteilungen (über ϕk)
- λ:
- Skalar, der eine Exponenzialverteilung parametrisiert
- W:
- Gruppe aller Wortzuordnungen
- Z:
- Gruppe aller Themenzuordnungen
- U:
- Gruppe aller Unterthemenzuordnungen
- X:
- Zufallsvariable
- Θ:
- Gruppe aller θc,d
- Φ:
- Gruppe aller ϕk
- γ:
- set of all γl,m
- Dir:
- Dirichlet-Verteilung
- exp:
- Exponentialverteilung
- Mult:
- Multinomialverteilung
- Latente Dirichlet-Reallokation
- Bei LDR wird angenommen, dass Dokumente d = 1, ..., Dc in einem Korpus c = 1, ..., C entsprechend zu der gleichen korpusabhängigen Wortschatznutzung (oder Dialekt) lc ∊ {1, ..., L} geschrieben werden, die von einer kopusunabhängigen multinomialen vorangegangenen Verteilung gezogen wurde. Ein besonderer Fall ergibt sich aus einem Setzen einer Anzahl von Dialekten gleich einer Anzahl von Korpora, und aus dem Zuordnen eines Dialekts zu jedem Korpus.
- Wir verknüpfen jedes Dokument d = 1, ..., Dc mit einer Verteilung über Themen θc,d, die von einer Dirichlet-Verteilung gezogen sind, bei welcher die Themen über alle Korpora hinweg gemeinsam benutzt werden. Hier verknüpfen wir jedes Thema z ∊ {1, ..., K} einer Verteilung über ”Unterthemen” u ∊ {1, ..., M}. Wir verknüpfen mit jedem Unterthema eine Verteilung über Wortschatzbegriffe {1, ..., V}. Unsere Intuition hinter den Unterthemen ist nachstehend beschrieben.
-
- Ein Schlüsselmerkmal unseres Modells sind unterthemenabhängige Dirichlet-a-priori-Wahrscheinlichkeiten η1:M, die wir auf γ1:L,1:M anwenden.
- Die Motivation für dieses Merkmal ist nachstehend beschrieben.
- Generatives Modell
- Im Detail legen wir vorab eine Anzahl von Dialekten L, Themen K, Unterthemen M und die Wortschatzgröße V fest, wobei K wesentlich kleiner als M ist, was kleiner als V ist. Das Modell weist drei Skalarparameter α, β und π für symetrische Dirichlet-Verteilungen auf. Ein Skalar λ parametrisiert eine Exponentialverteilung.
-
-
- Man beachte, dass das vorstehende generative Verfahren nur eine Definition der Modellstruktur ist, und dass es in der Praxis nicht tatsächlich verwendet wird, um Daten aufzubauen. Es wird nur angenommen, dass die beobachteten Daten in dieser Weise erzeugt wurden. Das Ziel der Analyse der beobachteten Daten ist es, die Parameter des Modells durch Lösen eines inversen Problems abzuschätzen.
-
1 zeigt ein grafisches Modell100 für unser LDR, welches die statistischen Abhängigkeitsverhältnisse zwischen Variablen festgelegt. Dieses verwendet eine Notation, die ”Plattennotation (platte notation)” genannt wird. Jedes Rechteck mit einem Buchstaben ”X” in der unteren rechten Ecke bedeutet, dass die Struktur X-mal wiederholt wird. Hier wiederholt das große Rechteck die gleiche Struktur C-mal, einmal für jeden Korpus. Dann wird in jedem Korpus c die Struktur in dem Rechteck mittlerer Größe wieder D-mal wiederholt, einmal für jedes Dokument in einem Korpus, genau DC, da die Anzahl von Dokumenten in jedem Korpus über die Korpora hinweg variieren kann. Dann wird in jedem Dokument d, das zum Korpus c gehört, die innerste Struktur N-mal wiederholt, einmal für jedes Wort innerhalb dieses Dokuments, genau Nc,d, weil die Anzahl der Wörter in jedem Dokument über die Dokumente hinweg variieren kann. Wenn es eine gerichtete Flanke gibt, welche A und B miteinander verbindet, so wird die Zufallsvariable B bedingt auf A erzeugt, entsprechend einer Verteilung, die von A abhängt. Dies ist unabhängig davon, ob die Variablen in dem gleichen Rechteck liegen oder nicht. - Es ist zu beachten, dass dies kein Ablaufdiagramm ist. Das Verfahren, dass dieses Modell verwendet, beobachtet Worte eines gegebenen Dokuments und findet die a-posteriori Wahrscheinlichkeitsverteilung, und/oder die ähnlichsten Werte von interessierenden Variablen, wie den Dialekt, oder das Dokument von einer Datenbasis, dass mit der Themenverteilung am besten übereinstimmt.
-
2 zeigt ein vergleichbares Modell die bekannte LDA. In diesem Modell stellt das äußere Rechteck201 Dokumente dar, und das innere Rechteck202 stellt eine wiederholte Auswahl von Themen und Worten innerhalb eines Dokuments dar. - Modellieren von Realloakationen zwischen Begriffen Wir beschreiben nun die Motivation für unser LDR, ausgerichtet auf Intuition.
- Unterthemenbedeutungen für Worte
- Die M Unterthemen bezwecken eine ”Bedeutung” eines Worts wi. Es macht Sinn das Unterthema ui von einer themenabhängigen Verteilung zu ziehen, unabhängig von dem Dialekt, und die Wortwahrscheinlichkeiten sowohl von der beabsichtigten Bedeutung des Wortes als auch dem Dialekt abhängig zu machen.
- Idealerweise entspricht jeder konstante Begriff seinem eigenen Unterthema. Den variablen Begriffen ordnet das Modell Begriffe zu, die in einer Bedeutung äquivalent zu einer Gruppe sind, und verknüpft ein Unterthema mit allen Begriffen in der Gruppe.
- Wir betrachten ein Unterthema, das mit einem konstanten Begriff verknüpft ist. In diesem Fall wurde das Wort schon bestimmt, und ein geeignetes unterthemenabhängiges multinomialesallokiert die Wahrscheinlichkeit zu einem anderen Begriff nicht. Wenn jedoch ein Unterthema ausgewählt wird, dass einer variablen Gruppe entspricht, reallokiertkorrekt eine höchste Wahrscheinlichkeit mit dem für den Dialekt geeigneten Begriff.
- Spärliche Dirichlet-Verteilungs-a-priori-Wahrscheinlichkeiten für Reallokation Wir beschreibn unsere Technik zum automatischen Lernen geeignet strukturierter Multinomialer.
- Wir lernen automatisch in einer unüberwachten Art geeignet strukturierte Multinomiale unter Verwendung eines Bayesian-Ansatzes durch Vergeben einer unterthemenabhängigen, asymetrischen Dirichlet-Verteilungs-a-priori-Wahrscheinlichkeit an γ1:L,1:M, parametrisiert durch η1:M.
- Die Dirichlet-Verteilung wird über den Wahrscheinlichkeitssimplex in V – 1 Dimensionen definiert, was eine Polytope ist, deren jeweilige Eckpunkte einem Wortschatzbegriff entsprechen. Wir wollen, dass diese Dirichlet-Verteilung spärlich ist, das heißt der Verteilung entweder ein Gewicht auf einer (p – 1)-Fläche der Polytope zu geben (entsprechend zu variablen Begriffen unter Unterthema m), oder auf einen einzelnen Eckpunkt (einen konstanten Begriff unter m). Die Dirichlet-Verteilung selbst ist nicht spärlich, doch die Auszüge aus dieser Verteilung begünstigen Seltenheit.
- Hyper-a-Priori für spärliche Dirichlet-Verteilungen
- Eine spärliche Dirichlet-Verteilung übersetzt zu jeden hochwahrscheinlichen Wortschatzbegriffen, zum Beispiel j' für Unterthema m, mit entsprechendem ηm,j' größer als alle anderen Begriffe. Um dies zu unterstützen, plazieren wir ein gemeinsames exponentielles Hyper-a-Priori über jede Komponente jedes η1:M. Das heißt, wir nehmen ηm,j ~ exp{λ}, m = 1, ..., M, j = 1, ..., V an.
- Wir präsentiren eine Heuristik zum Setzen des Skalars λ. Wenn J eine durchschnittliche Anzahl von Begriffen ist, dann erwarten wir, dass Begriffe über alle Dialekte innerhalb eines Unterthemas m hinweg variiert werden. Man stelle sich Auszüge von einer Zufallsvariable Xi ~ i.i.d.exp(λ) vor. Wir wollen die erwartete Anzahl von abgetasteten Begriffen größer als eins auf J einschränken, das heißtDer entsprechende Skalar ist λ = log(V) – log(J).
- Im Mittel verwendet jedes Dokument innerhalb eines Korpus einen Begriff, welcher über Dialekte hinweg variiert wird. Dies entspricht einer Summe von D = ΣcΣd1 variablen Begriffen in dem Wortschatz in, von dem wir erwarten, dass er gleich über alle Unterthemen hinweg verteilt ist. Deshalb, J = D/M, und
- Entspannt kombinatorische Suche zur Bayesianischen Reallokation
- Wir beschreiben das Problem des Lernens von Wortäquivalenten über Dialekte hinweg. Dafür bilden wir die multinomialen Wahrscheinlichkeiten über Begriffe jedes Dialekts (hier γ1:L), um den Dialekt am besten zu charakterisieren. Dies bedingte ein Auffinden einer optimalspärlichen Auswahl von Begriffen, um variable Begriffe in dem Dialekt darzustellen. Dies ist ein kombinatorisches Optimierungsproblem mit einem Suchraum gleich dem der Potenzmenge von V, was eine berechnungstechnisch schwer zu bewältigende Aufgabe darstellt.
- Beim Verwenden eines Bayesianischen Ansatzes und unterthemenabhängiger Dirichlet-Verteilungs-a-priori-Wahrscheinlichkeiten, die über alle Dialekte hinweg gemeinsam genutzt werden, entspannen wir die kombinatorische Suche auf eine kontinuierliche Optimierung, welche während einer Inferenz automatisch durchgeführt wird.
- Von Bedeutungen zu Unterthemen
- Wir würden gern M sehr nahe an V haben, und dass jeder Wortschatzbegriff (oder Gruppe variabler Begriffe) ein entsprechendes Wortmultinomial pro Dialekt hat, das genau festlegt, wann der Bergriff verwendet wird. Dies bedingt jedoch ein Zusammenpassen von LMV ≈ LV2 wortmultinomialen Parameter, was unsinnig für praktische Anwendungen ist. Deshalb verringern wir den Wert von M.
- Inferenz und Lernen
- Leider sind für unser Modell die exponentiellen und Dirichlet-Verteilungen nicht konjugiert, so das Variationsinferenz und Gibbs-Sampling nicht einfach sind. Inferenz kann unter Verwendung einer Vielzahl von Stichprobenverfahren wie Hybrid-Monte-Carlo, Collapsed-Gibbs-Sampling oder Slice-Sampling durchgeführt werden.
-
3 zeigt die Schritte des Dokumentmodellierens entsprechend Ausführungsformen der Erfindung. - Ein wie in
1 ausgeführtes wahrscheinlichkeitstheoretisches Modell302 wird in Verbindung mit Trainingsdaten301 verwendet, welche Texttrainingsdaten umfassen, die durch Korpora und Dokumente bezeichnet sind, um Modellparameter304 umfassend Dialekt, Thema, Unterthema und Wortverteilung Parameter zu schätzen303 . - Die vorstehenden Schritte können in einem Prozessor durchgeführt werden, der mit einem Speicher und Eingabe/Ausgabe-Schnittstellen verbunden ist, wie sie aus der Technik bekannt sind.
- An diesem Punkt kann das Modell für eine Anzahl von Anwendungen genutzt werden, wie Dialektschätzung, Themenschätzung, Gewinnung von thematisch verwandten Dokumenten, Dokumentzusammenfassungen oder anderen Sprachmodellierungsaufgaben.
- Anwendung
-
4 zeigt die Verwendung der Erfindung in Beispielanwendungen. Ein wie in2 ausgeführtes wahrscheinlichkeitstheoretisches Modell402 wird in Verbindung mit Trainingsdaten401 verwendet, welche Texttrainingsdaten umfassen, die durch Korpora und Dokumente bezeichnet sind, um Modellparameter404 umfassend Dialekt, Thema, Unterthema und Wortverteilungsparameter zu schätzen403 . - Zur Dialektschätzung wird Texteingabe
405 in Verbindung mit den Modellparametern404 verwendet, um Dialektpunktwerte zu berechnen410 , von welchen Dialektklassenschätzungen411 abgeleitet werden. - Zur Themenschätzung wird Texteingabe
405 in Verbindung mit den Modellparametern404 verwendet, um Themenpunktwerte zu berechnen420 , von welchen Themenklassenschätzungen421 abgeleitet werden. - Zur Dokumentgewinnung wird Texteingabe
405 in Verbindung mit den Modellparametern404 verwendet, um Dokumentpunktwerte zu berechnen430 , von welchen Dokumenten-IDs431 abgeleitet werden. - Wirkung der Erfindung
- Latente Dirichlet-Reallokation kann erfolgreich eine a-priori Wahrscheinlichkeit ohne Überanpassung erlernen, um Dokumente zu charakterisieren, welche aus unterschiedlichen Dialekten aufgebaut sind.
- In einer Suchanwendung bei einem gegebenen Suchbegriff oder Dokument kann LDR verwendet werden, um den Begriff entsprechend zu Verteilungen von Dokumenthemen mit den am meisten wahrscheinlichen Dokumenten von jedem anderen Korpus zu verknüpfen.
- Alternativ kann ein Verbindungsverfahren wie ein relationales Themenmodell verwendet werden, um Verbindungen zwischen jeglichen zwei Dokumenten unterschiedlicher Korpora abzuleiten. Die Interpretation besagt, dass verbundene Dokumente dasselbe Material abdecken, ausgenommen in unterschiedlichen Dialekten.
Claims (8)
- Textverarbeitungsverfahren zum Aufbauen eines Textmodells, das die folgenden Schritte umfasst: Erfassen des Textes, wobei der Text einen gemeinsamen Wortschatz aufweist, wobei der Text Wörter enthält, wobei der Text in Gruppen von Texten aufgeteilt wird und mindestens eine Gruppe von Text in Untergruppen von Texten aufgeteilt wird, wobei eine Nutzung des gemeinsamen Wortschatzes in zwei oder mehr Gruppen unterschiedlich ist, und die Themen von zwei oder mehr Untergruppen unterschiedlich sind; Definieren eines Wahrscheinlichkeitsmodells für den Text, wobei das Wahrscheinlichkeitsmodell in einem Speicher gespeichert ist, und wobei das Wahrscheinlichkeitsmodell jedes Wort im Text als ein Kürzel (Token) betrachtet, das eine Position und einen Wortwert aufweist, und die Nutzung des gemeinsamen Wortschatzes, von Themen, Unterthemen, und Wortwerten für jedes Kürzel in dem Text unter Verwendung von Verteilungen von Zufallsvariablen in dem Wahrscheinlichkeitsmodell repräsentiert wird, wobei die Zufallsvariablen diskret sind, wobei jede Gruppe von Text eine Vokabelnutzungszufallsvariable aufweist, wobei jedes Kürzel mit den Zufallsvariablen entsprechend den Themen, den Unterthemen, und den Wortwerten verknüpft ist, wobei die Verteilung der mit dem Thema für das Kürzel verknüpften Zufallsvariablen abhängig von der Untergruppe von Text einschließlich des Kürzels ist, die Verteilung der mit dem Unterthema verknüpften Zufallsvariablen für das Kürzel von dem Thema des Kürzels abhängt, und die Verteilung der Zufallsvariablen für den Wortwert des Kürzels abhängig von dem verknüpften Unterthema und der Wortschatznutzung der Gruppe von Texten einschließlich des Kürzels ist; und Schätzen von Parametern von dem Wahrscheinlichkeitsmodell, basierend auf den mit den Worten verknüpften Wortschatznutzungen, den Wortwerten, den Themen und den Unterthemen, wobei die Schritte des Verfahrens in einem Prozessor ausgeführt werden.
- Vergahren nach Anspruch 1, weiterhin umfassend: Verwenden des Modells zum Durchführen einer Wortschatznutzungsschätzung.
- Verfahren nach Anspruch 1, bei welchem jede Wortschatznutzung in den Tainingsdaten einem Dialekt entspricht.
- Verfahren nach Anspruch 3, weiterhin umfassend: Verwenden des Modells zum Durchführen einer Dialektschätzung.
- Verfahren nach Anspruch 2, weiterhin umfassend: Durchführen einer Wortschatznutzungsschätzung zum Optimieren eines von einer Wortschatznutzung unabhängigen Themenmodells.
- Verfahren nach Anspruch 1, weiterhin umfassend: Verwenden des Modells zum Durchführen des Auffindens von thematisch verwandten Untergruppen, invariant zur Wortschatznutzung.
- Verfahren nach Anspruch 1, weiterhin umfassend: Verwenden des Modellsl zum Duchführen von Textzusammenfassung.
- Verfahren nach Anspruch 1, weiterhin umfassend: Einschränken der Verteilungen der Wortzuordnungen bei dünn besetzten Unterthemen.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/433,111 US9251250B2 (en) | 2012-03-28 | 2012-03-28 | Method and apparatus for processing text with variations in vocabulary usage |
US13/433,111 | 2012-03-28 | ||
PCT/JP2013/055766 WO2013146101A1 (en) | 2012-03-28 | 2013-02-26 | Method for processing text to construct model of text |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112013001740T5 true DE112013001740T5 (de) | 2015-02-26 |
Family
ID=47913505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112013001740.7T Withdrawn DE112013001740T5 (de) | 2012-03-28 | 2013-02-26 | Textverarbeitungsverfahren zum Aufbauen eines Textmodells |
Country Status (5)
Country | Link |
---|---|
US (1) | US9251250B2 (de) |
JP (1) | JP5866018B2 (de) |
CN (1) | CN104246763B (de) |
DE (1) | DE112013001740T5 (de) |
WO (1) | WO2013146101A1 (de) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014020834A1 (ja) * | 2012-07-31 | 2016-07-21 | 日本電気株式会社 | 単語潜在トピック推定装置および単語潜在トピック推定方法 |
KR20160124742A (ko) * | 2013-12-02 | 2016-10-28 | 큐베이스 엘엘씨 | 비정형 텍스트내의 특징들의 중의성을 해소하는 방법 |
US9542477B2 (en) * | 2013-12-02 | 2017-01-10 | Qbase, LLC | Method of automated discovery of topics relatedness |
US10108674B1 (en) * | 2014-08-26 | 2018-10-23 | Twitter, Inc. | Method and system for topic disambiguation and classification |
US10235452B1 (en) * | 2015-03-27 | 2019-03-19 | EMC IP Holding Company LLC | Expert recommendation leveraging topic clusters derived from unstructured text data |
CN107015967A (zh) * | 2017-03-30 | 2017-08-04 | 武汉大学 | 一种学术文本词汇功能框架构建方法 |
CN107832298A (zh) * | 2017-11-16 | 2018-03-23 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
KR102052823B1 (ko) * | 2018-05-04 | 2019-12-05 | 군산대학교산학협력단 | 잠재 디리클레 할당을 이용한 토픽 모델 자동화 방법 및 장치 |
CN110032642B (zh) * | 2019-03-26 | 2022-02-11 | 广东工业大学 | 基于词嵌入的流形主题模型的建模方法 |
US11847142B2 (en) | 2020-02-26 | 2023-12-19 | Honda Motor Co., Ltd. | Document analysis system |
CN112287666B (zh) * | 2020-10-20 | 2023-07-25 | 哈尔滨工程大学 | 一种基于元信息的语料库主题分布计算方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6904405B2 (en) * | 1999-07-17 | 2005-06-07 | Edwin A. Suominen | Message recognition using shared language model |
US7003736B2 (en) * | 2001-01-26 | 2006-02-21 | International Business Machines Corporation | Iconic representation of content |
US7089226B1 (en) * | 2001-06-28 | 2006-08-08 | Microsoft Corporation | System, representation, and method providing multilevel information retrieval with clarification dialog |
US7130837B2 (en) * | 2002-03-22 | 2006-10-31 | Xerox Corporation | Systems and methods for determining the topic structure of a portion of text |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US20070106657A1 (en) * | 2005-11-10 | 2007-05-10 | Brzeski Vadim V | Word sense disambiguation |
US8862573B2 (en) * | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
US8010341B2 (en) * | 2007-09-13 | 2011-08-30 | Microsoft Corporation | Adding prototype information into probabilistic models |
US8185482B2 (en) * | 2009-03-30 | 2012-05-22 | Microsoft Corporation | Modeling semantic and structure of threaded discussions |
CN101587493B (zh) * | 2009-06-29 | 2012-07-04 | 中国科学技术大学 | 文本分类方法 |
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
US20120296637A1 (en) * | 2011-05-20 | 2012-11-22 | Smiley Edwin Lee | Method and apparatus for calculating topical categorization of electronic documents in a collection |
-
2012
- 2012-03-28 US US13/433,111 patent/US9251250B2/en not_active Expired - Fee Related
-
2013
- 2013-02-26 DE DE112013001740.7T patent/DE112013001740T5/de not_active Withdrawn
- 2013-02-26 CN CN201380017595.5A patent/CN104246763B/zh not_active Expired - Fee Related
- 2013-02-26 WO PCT/JP2013/055766 patent/WO2013146101A1/en active Application Filing
- 2013-02-26 JP JP2014530845A patent/JP5866018B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP5866018B2 (ja) | 2016-02-17 |
US9251250B2 (en) | 2016-02-02 |
US20130262083A1 (en) | 2013-10-03 |
JP2015503776A (ja) | 2015-02-02 |
CN104246763A (zh) | 2014-12-24 |
WO2013146101A1 (en) | 2013-10-03 |
CN104246763B (zh) | 2017-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112013001740T5 (de) | Textverarbeitungsverfahren zum Aufbauen eines Textmodells | |
DE102018009243A1 (de) | Abstrahierendes Zusammenfassen langer Dokumente unter Nutzung des Deep-Learning strukturierter Dokumente | |
DE112020003311T5 (de) | Verarbeitung natürlicher sprache unter verwendung eines ontologiegestützten modells zur begriffseinbettung | |
DE102019000433A1 (de) | Generieren einer themenbasierten Zusammenfassung eines Textinhalts | |
Hu et al. | Adaptive online event detection in news streams | |
DE112018000334T5 (de) | System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung | |
DE112019001533T5 (de) | Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache | |
CN107949841A (zh) | 提问应答系统的训练装置以及该训练装置用的计算机程序 | |
WO2015113578A1 (de) | Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text | |
DE112018005167T5 (de) | Aktualisieren von trainingsdaten | |
DE102018005611A1 (de) | Automatische Paarbildung von Fonts unter Verwendung des asymmetrischen Metriklernens | |
Lou et al. | Multilabel subject-based classification of poetry | |
DE112013002654T5 (de) | Verfahren zum Klassifizieren von Text | |
CN108549718B (zh) | 一种通用主题嵌入模型联合训练方法 | |
DE112017006445T5 (de) | Verfahren und Geräte zur Identifizierung eines Zählwerts von N-Grammen, die in einem Korpus vorkommen | |
DE102022201753A1 (de) | Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung | |
DE102021130081A1 (de) | Auf deep learning basierende automatische ontologieextraktion zur erfassung von neuen wissensbereichen | |
DE102018007024A1 (de) | Dokumentdurchsuchen mittels grammatischer einheiten | |
Gong et al. | Statistical machine translation based on lda | |
DE112020000873T5 (de) | Automatisierte auflösung von über- und unterspezifikation in einem wissensgraphen | |
DE102023202711A1 (de) | System und verfahren mit entitätstypklarstellung für feinkörnigen faktenwissenabruf | |
CN104216880A (zh) | 基于互联网的术语定义辨析方法 | |
DE102012025349A1 (de) | Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten | |
DE112021006602T5 (de) | Verfeinern von abfrage-erzeugungsmustern | |
DE112021004661T5 (de) | Transliterationsbasierte datenerweiterung für ein trainieren vonmehrsprachigen akustischen asr-modellen in umgebungen mit geringenressourcen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R082 | Change of representative |
Representative=s name: PFENNING MEINIG & PARTNER GBR, DE Representative=s name: PFENNING, MEINIG & PARTNER MBB PATENTANWAELTE, DE |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017300000 Ipc: G06F0017210000 |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017300000 Ipc: G06F0017210000 Effective date: 20150216 |
|
R084 | Declaration of willingness to licence | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017210000 Ipc: G06F0040100000 |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0040100000 Ipc: G06F0040300000 |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |