DE19526264A1 - Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten - Google Patents
Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von TextenInfo
- Publication number
- DE19526264A1 DE19526264A1 DE19526264A DE19526264A DE19526264A1 DE 19526264 A1 DE19526264 A1 DE 19526264A1 DE 19526264 A DE19526264 A DE 19526264A DE 19526264 A DE19526264 A DE 19526264A DE 19526264 A1 DE19526264 A1 DE 19526264A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- descriptors
- word forms
- text
- forms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Erzeugung von De
skriptoren für die Klassifikation von natürlichsprachli
chen Texten.
Die Klassifikation eines Textes stellt eine Zuordnung zu
einer bestimmten Textklasse dar und bildet einen wichtigen
Vorverarbeitungsschritt für die automatische Weiterverar
beitung von Texten. Insbesondere für die automatische Tex
tinterpretation ist eine vorausgehende Klassifikation von
erheblicher Bedeutung, da hierdurch der Aufwand für die
bereitzuhaltende Wissenbasis, wie z. B. Lexikon-Speicher,
syntaktische und semantische Struktur
definition, erheblich eingeschränkt und die Erkennungslei
stung stark erhöht werden kann.
Die Textklassifikation läßt sich grob in zwei Schritte,
nämlich die Extraktion von Deskriptoren und die darauf ba
sierende Klassenzuordnung einteilen. Wesentliche Bedeutung
kommt der Auswahl der Deskriptoren zu. Diese ist insbeson
dere bei natürlichsprachlichen Texten mit einer Vielfalt
von Wortformen problematisch.
Für Texte in der eine geringe morphologische Variation
zeigenden englischen Sprache ist in "Feature Selection and
Feature Extraction for Text Categorization" von D. Lewis
in Proc. of Speech and Natural Language Workshop 1992 die
Verwendung vollständiger Wortformen oder Phrasen vorge
schlagen. Für Klassifikationsaufgaben in morphologisch
reicheren Sprachen können Wortteile als Deskriptoren ver
wandt werden, wobei z. B. in "N-Gram-Based Text Categoriza
tion" von Canvar/Trenkle in Proc. of Int. Symp. on Docu
ment Analysis and Information Retrieval 1994 die Textzer
legung in n-Grame oder in "Using IR Technigues for Text
Classification in Document Analysis" von R. Hoch in Proc.
of SIGIR, 1994 eine Reduktion auf Grundformen vorgenommen
wird.
Während die n-Gram-Zerlegung zu einer sehr hohen Zahl von
Deskriptoren führt, erfordert die Reduktion auf Grundfor
men eine aufwendige Analyse zur Erstellung der benötigten
Wissensbasis. Die bekannten Verfahren sind zudem anfällig
gegen Fehler in den untersuchten Texten, wie Schreibfehler
oder Erkennungsfehler bei der Zeichenerkennung oder
Spracherkennung.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein
Verfahren zur Erzeugung von Deskriptoren anzugeben, wel
ches auf einfache Weise auf der Basis von Trainingstexten
eine für die Klassifikation geeignete Menge von Deskripto
ren erzeugt.
Die Erfindung ist im Patentanspruch 1 beschrieben. Die Un
teransprüche enthalten vorteilhafte Ausgestaltungen und
Weiterbildungen der Erfindung.
Der besondere Vorteil der Erfindung liegt darin, daß keine
oder nur einfache Wissensvorgaben gebraucht werden und das
Verfahren damit leicht in neuen Anwendungsgebieten ein
setzbar ist. Als einfache Wissensvorgabe sieht z. B. eine
vorteilhafte Ausführung eine morphologisch basierte Ein
schränkung bezüglich bei der Zerlegung entstehender Wort
teile vor. Das erfindungsgemäße Verfahren berücksichtigt
insbesondere auch signifikante Schreib- oder Erkennungs
fehler in relevanten Deskriptoren unter der Annahme, daß
solche Fehler in den Trainingstexten und den später zu
klassifizierenden Texten im gleichen Maße auftreten.
Vorzugsweise wird die Zerlegung wiederholt durchgeführt,
wobei die in einem Belegungszyklus verbleibenden Wortteile
im folgenden Zerlegungszyklus wie Wortformen behandelt
werden. Die nach der ggf. mehrfachen Zerlegung vorliegen
den Wort formen und Wortteile können noch durch Flexion
oder Affixe entstandene verschiedene Varianten von einfa
cheren Grundformen enthalten. Durch Abtrennen von Präfixen
und Suffixen (einschließlich Flexiven) kann die Vielfalt
der Wortformen weiter reduziert, d. h. die Anzahl der De
skriptoren verringert werden. Die Präfix und Suffixe wer
den vorzugsweise statistisch aus den Wortformen der Trai
ningstexte als häufig auftretende und damit unterschei
dungsschwache Wortanfänge und Wortenden definiert.
Von besonderem Vorteil ist auch eine Vorgabe sogenannter
Stopwörter. Hierunter werden besonders häufig vorkommende
unterscheidungsschwache Wortformen wie z. B. bestimmte und
unbestimmte Artikel, Präpositionen, Pronomen, Bindewörter
etc. verstanden. Solche Stopwörter werden vorzugsweise
durch statistische Verfahren aus den Trainingstexten als
besonders häufig auftretende Wortformen bestimmt. Alterna
tiv oder zusätzlich können die Stopwörter auch vollständig
oder teilweise unabhängig von den Trainingstexten vorgege
ben werden. Die Stopwörter bleiben bei der Erzeugung der
Deskriptoren von Anfang an unberücksichtigt, gelten also
insbesondere bei der Zerlegung nicht als Wortformen.
Zur Vereinfachung des Klassifikators kann die Deskrip
torenliste auf die Deskriptoren eingeschränkt werden, de
ren Häufigkeit in den Trainingstexten eine vorgebbare
Häufigkeitsschwelle überschreitet.
Die Texte sind vorteilhafterweise bereits auf Anwendungs
gebiete wie z. B. Geschäftsbriefe, Wirtschaftsmeldungen,
wissenschaftliche Berichte etc. eingeschränkt. In dem An
wendungsgebiet Geschäftsbriefe können dann z. B. Text
klassen wie Bestellung, Angebot, Rechnung etc. differen
ziert werden.
Die Erfindung ist nachfolgend anhand von durch Abtasten
geschriebener Dokumente mittels optischer Zeichenerken
nungssysteme (OCR) digitalisierten Texten noch weiter ver
anschaulicht.
Aus den Dokumenten einer Sammlung von z. B. 600 Training
stexten werden alle vorkommenden Wortformen einschließlich
ihrer Häufigkeit in der Gesamtheit der Trainingstexte er
mittelt. Die am häufigsten auftretenden Wortformen werden
als Stopwörter in eine Stopwortliste aufgenommen. Bei
spielsweise wird die Stopwortliste mit den 100-300 Wort
formen aufgebaut, die am häufigsten in der Trainingstext
sammlung vertreten sind. Die so erzeugte Stopwortliste ist
durch den rein statistischen Ansatz der Ableitung aus den
Trainingstexten spezifisch für die Sprache und das Themen
gebiet der Trainingstexte. Sie enthält insbesondere auch
OCR-typische Fehler als Stopwortvarianten wie z. B. "dio"
neben "die" oder "fiir" neben "für". Durch den statisti
schen Ansatz können auch sehr häufig auftretende aussage
kräftige Wortformen als Stopwörter ausgewiesen werden, die
dann bei der Klassifikation nicht mehr zur Verfügung ste
hen. Anstelle der Vorgabe einer Anzahl von Stopwörtern zum
Aufbau der Stopwortliste kann daher auch eine Schwelle für
eine relative Mindesthäufigkeit oder, vor allem für Trai
ningstext-Sammlungen kleineren Umfangs, eine obere
Schranke, beispielsweise 1,5% aller in den Trainingstexten
auftretenden Wortformen, für die Mächtigkeit der Stopwort
liste vorgegeben werden. Zusätzlich oder alternativ können
auch Stopwörter, z. B. Artikel, Präpositionen etc. fest
vorgegeben werden. Für die Weiterverarbeitung werden nur
noch Wortformen berücksichtigt, die nicht in der Stopwort
liste enthalten sind.
Insbesondere durch Zeichenerkennungsfehler bei der Digita
lisierung von Texten können Zeichenkombinationen auftre
ten, die als Deskriptoren nicht geeignet sind. Sinnvoller
weise werden daher Mindestanforderungen an die Struktur
von Deskriptoren vorgegeben. Vorteilhaft sind insbesondere
Anforderungen wie
- - ein Deskriptor muß mindestens 3 Buchstaben umfassen
- - ein Deskriptor muß mindestens einen Vokal enthalten
wobei wiederum als ein Buchstabe in diesem Sinne auch ein
Bindestrich und Zeichengruppen wie qu, ch, ie, ph gelten
können.
Im Text vor oder nach Ausschluß der Stopwörter vorhandene
Zeichengruppen, die diese Mindestanforderungen nicht er
füllen, können auch durch die nachfolgenden Verarbeitungs
schritte des erfindungsgemäßen Verfahrens nicht zu ge
eigneten Deskriptoren werden, könnten aber bei der Zerle
gung komplexer Wortformen zu unbrauchbaren Ergebnissen
führen. Einzelzeichen oder Zeichengruppen im Text, die
diese Mindestanforderungen nicht erfüllen, bleiben daher
für die weitere Verarbeitung unberücksichtigt.
Aus den weiterzuverarbeitenden Wortformen werden mit sta
tistischen Methoden häufig auftretende Wortanfänge (Prä
fixe) und Wortenden (Suffixe) ermittelt und als kennzeich
nungsschwache Präfixe und Suffixe in Listen eingetragen.
Die Ableitung solcher Präfixe und Suffixe ist Stand der
Technik und z. B. aus "Experimentelle Morphologie in der
Informationswissenschaft", München 1977, von R. Kuhlen be
kannt. In den Suffixen mit eingeschlossen sind hierbei
auch Flexive.
Auf der Grundlage der verbleibenden Textteile wird die er
findungswesentliche Zerlegung von Wortformen durchgeführt.
Das Hauptziel ist die Gewinnung einer gegenüber der Anzahl
der verschiedenen Wortformen verringerten Anzahl von für
die Klassifikation aussagekräftigen Deskriptoren. Bei der
Zerlegung wird überprüft, ob kürzere Wortformen in länge
ren Wortformen enthalten sind. Zutreffendenfalls wird eine
längere Wortform zerlegt in die darin enthaltene kürzere
Wortform und mindestens einen verbleibenden Wortteil. Vor
zugsweise wird zusätzlich überprüft, ob bei der Zerlegung
ein Wortteil entsteht, der als Deskriptor nicht geeignet
ist, beispielsweise unter Zugrundelegung derselben Min
destanforderungen wie vorstehend bereits genannt. Eine
Zerlegung, die einen in diesem Sinne ungeeigneten Wortteil
ergäbe, wird nicht durchgeführt, die längere Wortform wird
beibehalten. Ein bei einer zulässigen Zerlegung verblei
bender Wortteil kann mit einer bereits vorhandenen Wort
form identisch sein oder wird als neue Wortform aufgenom
men und in den zyklisch fortgesetzten Abgleich der Wort
formen mit eingeschlossen. Der Abgleich wird vorzugsweise
solange fortgeführt, bis keine weitere Zerlegung mehr mög
lich ist.
Von den nach der Zerlegung vorliegenden Wortformen und
Wortteilen werden die in den Präfix- und Suffix-Listen
enthaltenen Anfangs- bzw. End-Zeichenfolgen abgetrennt.
Hierdurch können vor allem verschiedene Variationsformen
von Stammwörtern auf ihren Wortstamm reduziert und in die
sem zusammengefaßt werden. Auch bei der Abtrennung von
Suffixen und Präfixen wird vorteilhafterweise ein Rahmen
gesetzt für zulässige Abtrennungen durch Vorgabe von Min
destanforderungen an die nach der Abtrennung verbleibenden
Wortteile, z. B. die beim anfänglichen Ausschluß ungeeigne
ter Zeichenfolgen genannten Einschränkungen für Deskripto
ren. Die nach Zerlegung und Abtrennung verbleibenden Zei
chenfolgen (Wortformen und Wortteile) werden als geeignete
Deskriptoren betrachtet und weiterverwandt. Die Abtrennung
von Präfixen und Suffixen muß nicht auf den Verfahrensab
schnitt nach Abschluß aller Zerlegungen beschränkt sein,
sondern kann alternativ oder zusätzlich auch in Zwischen
stadien vorgenommen werden. Die Reduktion der Wortformen
durch Zerlegung oder Abtrennung erfordert kein oder mit
der Vorgabe von Mindestanforderungen nur ein sehr einfa
ches morphologisches Wissen. Dies führt dazu, daß im gram
matischen Sinne falsche Zerlegungen und Abtrennungen zu
lässig sind und im Regelfall auch auftreten. In den ver
bleibenden Wortformen oder Wortteile ist daher häufig kein
Wortstamm erkennbar. Sie können auch wieder die Form von
anfänglich ausgeschlossenen Stopwörtern annehmen. Auch
diese Wortrümpfe sind gleichwohl als Deskriptoren ge
eignet, da sie durch Ableitung aus den Trainingstexten als
spezifisch für die die Trainingstexte bildenden Texttypen
sind und sowohl beim Training des Klassifikators als auch
bei der Klassifikation unbekannter Texte in gleicher Weise
wirken.
Der Aufwand für den Klassifikator kann weiter deutlich
verringert werden, indem für die in der beschriebenen
Weise ermittelten Deskriptoren ein Schwellwert für die
Häufigkeit ihres Auftretens vorgeben wird und nur solche
Deskriptoren für den Klassifikator weiterverwandt werden,
deren Auftretenshäufigkeit den Schwellwert erreicht oder
überschreitet. Der Schwellwert kann fest, z. B. mit Häufig
keit 4, oder relativ vorgegeben werden oder durch die Maß
gabe, nur eine bestimmte Anzahl oder einen bestimmten
Prozentsatz der in den Trainingstexten häufigsten Deskrip
toren auszuwählen, indirekt bestimmt sein.
Die Erfindung ist nicht auf die Ausführungen gemäß den
vorstehenden detaillierten Erläuterungen beschränkt. Ab
wandlungen sind dem Fachmann durch sein Fachwissen im Rah
men der Erfindung möglich. Insbesondere sind die Parameter
bei der statistischen Zusammenstellung der Stopwortliste
und der Präfix- und Suffix-Listen sowie bei der Vorgabe
der Mindestanforderungen an die Deskriptoren Veränderungen
zugänglich und erlauben hierbei in begrenztem Umfang auch
noch durch Einstellung dieser Parameter eine weitere Opti
mierung des Verfahrens nach den Bedingungen spezieller An
wendungen. Ferner ist die Erfindung auch in Verbindung mit
bekannten Verfahren zur Erzeugung von Deskriptoren ein
setzbar. Die Texte müssen nicht als schriftliche Dokumente
vorliegen, sondern können insbesondere auch gesprochene
oder elektronisch übermittelte Texte sein.
Die Liste der weiterzuverwendenden Deskriptoren und die
Stopwortliste bilden die Grundlage für die nachfolgende
Textklassifikation sowohl in der Trainingsphase des Klas
sifikators als auch in der Klassifikation unbekannter
Texte. Klassifikatoren sind allgemein aus dem Stand der
Technik bekannt.
Hierzu werden in den zu klassifizierenden Texten durch Ab
gleich mit der Stopwortliste alle Stopwörter gelöscht bzw.
bleiben für das weitere Vorgehen unberücksichtigt. Der von
Stopwörtern befreite Text wird mit der Deskriptorenliste
verglichen. Dabei werden z. B. alle Wortformen, bei denen
Deskriptoren als Wortteile vorkommen, durch die jeweiligen
Deskriptoren ersetzt. Wortformen, die nicht durch Deskrip
toren ersetzt werden können, werden ebenfalls gelöscht.
Daraus ergeben sich zwar für Menschen unlesbare, aber für
den Klassifikator gut geeignete Deskriptorentexte. Diese
Deskriptorentexte bzw. daraus gewonnene statistische Aus
sagen über das Auftreten von Deskriptoren werden zur ei
gentlichen Klassifikation benutzt.
Eine äquivalente Vorgehensweise nach dem Löschen der
Stopwörter in dem zu klassifizierenden Text ist z. B. die
Durchsuchung eines Textes auf der Basis der Deskriptoren
liste und die statistische Erfassung der Auftretenshäufig
keit oder allein das Vorhandensein einzelner Deskriptoren.
Für den Klassifikator sind eine Vielzahl geeigneter Aus
bildungen aus dem Stand der Technik bekannt. Vorteilhaf
terweise eignen sich die nach der Erfindung erzeugten De
skriptoren besonders für die vergleichsweise aufwandsarmen
statistischen Klassifikationsverfahren.
Die Erfindung ist nachfolgend anhand zweier Beispiele noch
weiter veranschaulicht. Für ein erstes, der Übersichtlich
keit halber konstruiertes Beispiel für eine Trainingstext
sammlung geringen Umfangs, wird nach Löschen von Stopwör
tern und von Zeichenfolgen, die die bereits beispielhaft
genannten Mindestanforderungen (1 Vokal, 3 Buchstaben
nicht erfüllen von einer kurzen Liste in den Trainingstex
ten noch enthaltener Wortformen
glasfaser-lichtleitern
rechnerkerns
halbleitern
halbleiters
glaskerns
rechner
leiters
ausgegangen. Aus diesen seien in an sich bekannter Weise keine Präfixe, aber Suffixe s, n, ter er abgeleitet, die in einer Suffixliste abgelegt werden.
glasfaser-lichtleitern
rechnerkerns
halbleitern
halbleiters
glaskerns
rechner
leiters
ausgegangen. Aus diesen seien in an sich bekannter Weise keine Präfixe, aber Suffixe s, n, ter er abgeleitet, die in einer Suffixliste abgelegt werden.
In zyklisch wiederholten Zerlegungsschritten wird ein Ab
gleich innerhalb der gültigen Wortformliste dahingehend
durchgeführt, daß eine längere Wortform, die eine (oder
mehrere) kürzere Wortformen enthält, in diese kürzere
Wortform und einen oder mehrere verbleibende Wortteile
aufgespalten wird, sofern die verbleibenden Wortteile
ebenfalls die Mindestanforderungen erfüllen. Diese ver
bleibenden Wortteile werden als neue Wortformen für die
weiteren Verarbeitungsschritte behandelt. Nach dem 1. Zer
legungsschritt ergibt sich als neue Wortformliste;
glasfaser-lichtleitern
halbleitern
glaskerns
leiters
rechner
kerns
halb.
glasfaser-lichtleitern
halbleitern
glaskerns
leiters
rechner
kerns
halb.
Die Möglichkeit weiterer Zerlegung wird erneut geprüft und
nach dem 2. Zerlegungsschritt ergibt sich die Wortformli
ste
glasfaser-lichtleitern
leitern
leiters
rechner
kerns
halb
glas.
glasfaser-lichtleitern
leitern
leiters
rechner
kerns
halb
glas.
In entsprechender Weise nach dem 3. Zerlegungsschritt
leitern
leiters
rechner
faser
kerns
licht
halb
glas.
leitern
leiters
rechner
faser
kerns
licht
halb
glas.
Diese Wortformen sind nicht weiter durch Abgleich zerleg
bar, so daß die zyklische Zerlegung abgeschlossen ist. Von
diesen Wortformen werden die in der Suffixliste abgelegten
Suffixformen, wiederum unter Beachtung der genannten Min
destanforderungen, sukzessive abgetrennt, so daß als De
skriptoren
lei (26)
halb (18)
rechn (2)
fas (2)
gla (2)
ker (2)
licht (1)
verbleiben, wobei die Zahlen in Klammern die Häufigkeit der einzelnen Deskriptoren in der Gesamtheit der Training stexte angeben. Wenn als Mindesthäufigkeit für aussagekräftige Deskriptoren zweimaliges Auftreten vorge geben sei, wird der nur einmal auftretende Deskriptor "licht" nicht weiter zur Klassifikation benutzt.
lei (26)
halb (18)
rechn (2)
fas (2)
gla (2)
ker (2)
licht (1)
verbleiben, wobei die Zahlen in Klammern die Häufigkeit der einzelnen Deskriptoren in der Gesamtheit der Training stexte angeben. Wenn als Mindesthäufigkeit für aussagekräftige Deskriptoren zweimaliges Auftreten vorge geben sei, wird der nur einmal auftretende Deskriptor "licht" nicht weiter zur Klassifikation benutzt.
Für ein zweites einem realen Fall entnommenes Beispiel,
welches die Reduktion eines unbekannten zu klassifizieren
den Textes anhand einer zuvor aus einer Trainingstext
Sammlung bestimmten Deskriptorliste zeigt, wird ausgegan
gen von einem Auszug aus einem mittels OCR digitalisierten
Text eines wissenschaftlichen Kurzberichts:
Es werden Versuche beschrieben, durch Mischungen
eines Bleiglase; mit Ti 02 in untersch ied 7 i chen
Verhäl tn i ssen sowi e durch E i nsatz verscsSI i
edener Pb0-TiO-Sio-A1 O-Systeme zu Siebdruckpasten
mit auskristal tisierbaren z 2 2 3 dielektrischen
Komponenten zu gelangen. Neben der Erprobung der
Der digitalisierte Text ist durchsetzt von bei der OCR-
Verarbeitung entstandenen Erkennungsfehlern. In üblicher
Weise werden zuerst die in einer Stopwortliste enthaltenen
Stopwörter (wie z. B. "es", "werden", "beschrieben",
"durch", "eines", "mit" etc.) gelöscht. Die Löschung der
die Mindestanforderung an Deskriptoren nicht erfüllenden
Zeichenfolgen ist zweckmäßig, aber nicht zwingend. Danach
wird durch einfachen Zeichenfolgenvergleich der Text auf
die darin enthaltenen Deskriptoren reduziert. Die in die
sem realen Beispiel bestimmte Deskriptorenliste ist wegen
ihres Umfangs und ihrer Unanschaulichkeit hier nicht im
Detail angegeben.
Es ergibt sich ein Deskriptorentext
such misch blei las häl sen atz ssi tio sio ystem sieb pas kri tis bar diel tri mpo ent gel neb bun
der für einen menschlichen Betrachter keinen Sinn mehr er gibt, für die automatische Klassifikation jedoch aus reicht.
such misch blei las häl sen atz ssi tio sio ystem sieb pas kri tis bar diel tri mpo ent gel neb bun
der für einen menschlichen Betrachter keinen Sinn mehr er gibt, für die automatische Klassifikation jedoch aus reicht.
Während im ersten, konstruierten Beispiel der Anschaulich
keit halber in den Deskriptoren noch Ähnlichkeiten zu den
zugrundeliegenden Wortstämmen zu erkennen sind, erscheinen
im realen Fall die Deskriptoren häufig ohne Beziehung zu
Begriffsinhalten zu sein. Dies verdeutlicht den Unter
schied der im wesentlichen statistischen und für die auto
matische Bearbeitung vorteilhaften Vorgehensweise gegen
über einer Textanalyse auf linguistischer Wissenbasis.
Die Fähigkeit, auch stark fehlerhafte Texte wie im gegebe
nen Beispiel zu klassifizieren, verdeutlicht die hohe Feh
lertoleranz des erfindungsgemäßen Verfahrens.
Claims (8)
1. Verfahren zur Klassifikation eines natürlichsprachli
chen Textes anhand von Deskriptoren, die in einer Trai
ningsphase auf der Basis einer Mehrzahl von in Wörter seg
mentierten Trainingstexten gewonnen werden, dadurch ge
kennzeichnet, daß bei der Gewinnung der Deskriptoren eine
Zerlegung von im Text auftretenden Wortformen in der Weise
vorgenommen wird, daß längere Wortformen, die kürzere im
Text auftretende Wortformen enthalten, in die kürzeren
Wortformen und gegebenenfalls verbleibende Wortteile zer
legt werden, und daß die Deskriptoren aus den nach der
Zerlegung verbleibenden Wortformen und Wortteilen gebildet
werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die Zerlegung wiederholt durchgeführt wird, wobei die in
zurückliegenden Zerlegungszyklen gebildeten Wortteile wie
im Text auftretende Wortformen behandelt werden, und daß
die Deskriptoren aus den nach den letzten Zerlegungszyklus
verbleibenden Wortformen und Wortteilen gebildet werden.
3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch ge
kennzeichnet, daß bei der Bildung der Deskriptoren aus den
verbleibenden Wortformen und Wortteilen Suffixe und Prä
fixe von diesen abgetrennt werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß
die Suffixe und Präfixe aus den in den Trainingstexten
auftretenden Wortformen statistisch ermittelt werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch
gekennzeichnet, daß Mindestanforderungen an die Struktur
von Deskriptoren vorgegeben werden und Zerlegungen und Ab
trennungen nicht vorgenommen werden, die zu Wortteilen
führen, welche die Mindestanforderungen nicht erfüllen.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch
gekennzeichnet, daß eine Stopwortliste vorgegeben wird und
darin enthaltene Wortformen im Text unberücksichtigt blei
ben.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
die Wortformen der Stopwortliste aus den Trainingstexten
als die dort am häufigsten auftretenden Wortformen stati
stisch ermittelt werden.
8. Verfahren nach einem der vorhergehenden Ansprüche, da
durch gekennzeichnet, daß für die Deskriptoren eine Häu
figkeitsschwelle vorgegeben wird und nur die Deskriptoren
weiter verwandt werden, deren Häufigkeit in den Training
stexten die Schwelle übersteigt.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19526264A DE19526264A1 (de) | 1995-07-19 | 1995-07-19 | Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten |
US08/809,080 US6038527A (en) | 1995-07-19 | 1996-06-18 | Method for generating descriptors for the classification of texts |
PCT/EP1996/002620 WO1997004406A1 (de) | 1995-07-19 | 1996-06-18 | Verfahren zur erzeugung von deskriptoren für die klassifikation von texten |
CA002200334A CA2200334A1 (en) | 1995-07-19 | 1996-06-18 | Method for generating descriptors for the classification of texts |
EP96922825A EP0792492A1 (de) | 1995-07-19 | 1996-06-18 | Verfahren zur erzeugung von deskriptoren für die klassifikation von texten |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19526264A DE19526264A1 (de) | 1995-07-19 | 1995-07-19 | Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19526264A1 true DE19526264A1 (de) | 1997-04-10 |
Family
ID=7767183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19526264A Withdrawn DE19526264A1 (de) | 1995-07-19 | 1995-07-19 | Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten |
Country Status (5)
Country | Link |
---|---|
US (1) | US6038527A (de) |
EP (1) | EP0792492A1 (de) |
CA (1) | CA2200334A1 (de) |
DE (1) | DE19526264A1 (de) |
WO (1) | WO1997004406A1 (de) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6169969B1 (en) * | 1998-08-07 | 2001-01-02 | The United States Of America As Represented By The Director Of The National Security Agency | Device and method for full-text large-dictionary string matching using n-gram hashing |
US6466901B1 (en) * | 1998-11-30 | 2002-10-15 | Apple Computer, Inc. | Multi-language document search and retrieval system |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
US20020023123A1 (en) * | 1999-07-26 | 2002-02-21 | Justin P. Madison | Geographic data locator |
KR100530475B1 (ko) | 1999-11-10 | 2006-01-09 | 론치 미디어, 인크. | 인터넷 라디오와 방송 방법 |
US6389467B1 (en) | 2000-01-24 | 2002-05-14 | Friskit, Inc. | Streaming media search and continuous playback system of media resources located by multiple network addresses |
US7024485B2 (en) * | 2000-05-03 | 2006-04-04 | Yahoo! Inc. | System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback |
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US7251665B1 (en) | 2000-05-03 | 2007-07-31 | Yahoo! Inc. | Determining a known character string equivalent to a query string |
US8352331B2 (en) * | 2000-05-03 | 2013-01-08 | Yahoo! Inc. | Relationship discovery engine |
US20020099730A1 (en) * | 2000-05-12 | 2002-07-25 | Applied Psychology Research Limited | Automatic text classification system |
JP4236922B2 (ja) * | 2000-07-11 | 2009-03-11 | ヤフー! インコーポレイテッド | コミュニティの偏りを持たせたオンライン再生システム |
US8271333B1 (en) | 2000-11-02 | 2012-09-18 | Yahoo! Inc. | Content-related wallpaper |
US6798912B2 (en) * | 2000-12-18 | 2004-09-28 | Koninklijke Philips Electronics N.V. | Apparatus and method of program classification based on syntax of transcript information |
US7406529B2 (en) * | 2001-02-09 | 2008-07-29 | Yahoo! Inc. | System and method for detecting and verifying digitized content over a computer network |
EP1490790A2 (de) * | 2001-03-13 | 2004-12-29 | Intelligate Ltd. | Dynamisches verstehen natürlicher sprache |
US7574513B2 (en) | 2001-04-30 | 2009-08-11 | Yahoo! Inc. | Controllable track-skipping |
US7062498B2 (en) * | 2001-11-02 | 2006-06-13 | Thomson Legal Regulatory Global Ag | Systems, methods, and software for classifying text from judicial opinions and other documents |
US7707221B1 (en) | 2002-04-03 | 2010-04-27 | Yahoo! Inc. | Associating and linking compact disc metadata |
US7305483B2 (en) | 2002-04-25 | 2007-12-04 | Yahoo! Inc. | Method for the real-time distribution of streaming data on a network |
US7106905B2 (en) * | 2002-08-23 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | Systems and methods for processing text-based electronic documents |
US7415445B2 (en) * | 2002-09-24 | 2008-08-19 | Hewlett-Packard Development Company, L.P. | Feature selection for two-class classification systems |
US7412453B2 (en) * | 2002-12-30 | 2008-08-12 | International Business Machines Corporation | Document analysis and retrieval |
US20040148267A1 (en) * | 2003-01-29 | 2004-07-29 | Forman George Henry | Evaluation methodology and apparatus |
US7720781B2 (en) * | 2003-01-29 | 2010-05-18 | Hewlett-Packard Development Company, L.P. | Feature selection method and apparatus |
CN1875377A (zh) * | 2003-09-10 | 2006-12-06 | 音乐匹配公司 | 音乐购买和播放系统及其方法 |
EP2290559A1 (de) * | 2003-12-31 | 2011-03-02 | Thomson Reuters Global Resources | Systeme, Verfahren, Programme für Datenverarbeitungsanlagen und Schnittstellen zur Integration von Rechtssprechung mit rechtlichen Kurzmitteilungen, Rechtsstreitdokumenten und/oder Rechtsstreit unterstützenden Dokumenten |
FR2867845B1 (fr) | 2004-03-16 | 2007-04-20 | Valeo Climatisation | Tubes d'echangeur de chaleur favorisant le drainage des condensats |
US7409334B1 (en) * | 2004-07-22 | 2008-08-05 | The United States Of America As Represented By The Director, National Security Agency | Method of text processing |
US7840573B2 (en) * | 2005-02-22 | 2010-11-23 | Trusted Computer Solutions | Trusted file relabeler |
US7333965B2 (en) * | 2006-02-23 | 2008-02-19 | Microsoft Corporation | Classifying text in a code editor using multiple classifiers |
US9158983B2 (en) | 2010-07-08 | 2015-10-13 | E-Image Data Corporation | Microform word search method and apparatus |
US8606010B2 (en) | 2011-03-18 | 2013-12-10 | Seiko Epson Corporation | Identifying text pixels in scanned images |
US8731296B2 (en) | 2011-04-21 | 2014-05-20 | Seiko Epson Corporation | Contact text detection in scanned images |
WO2014036212A1 (en) | 2012-08-29 | 2014-03-06 | Northwestern University | Water detoxification by a substrate-bound catecholamine adsorbent |
US9330087B2 (en) | 2013-04-11 | 2016-05-03 | Microsoft Technology Licensing, Llc | Word breaker from cross-lingual phrase table |
US20160104052A1 (en) * | 2014-10-10 | 2016-04-14 | Qualcomm Incorporated | Text-based thumbnail generation |
US10381022B1 (en) | 2015-12-23 | 2019-08-13 | Google Llc | Audio classifier |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4771401A (en) * | 1983-02-18 | 1988-09-13 | Houghton Mifflin Company | Apparatus and method for linguistic expression processing |
US5251129A (en) * | 1990-08-21 | 1993-10-05 | General Electric Company | Method for automated morphological analysis of word structure |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
US4777617A (en) * | 1987-03-12 | 1988-10-11 | International Business Machines Corporation | Method for verifying spelling of compound words |
DE4213533C2 (de) * | 1992-04-22 | 1996-01-25 | Ibm | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
-
1995
- 1995-07-19 DE DE19526264A patent/DE19526264A1/de not_active Withdrawn
-
1996
- 1996-06-18 CA CA002200334A patent/CA2200334A1/en not_active Abandoned
- 1996-06-18 EP EP96922825A patent/EP0792492A1/de not_active Ceased
- 1996-06-18 WO PCT/EP1996/002620 patent/WO1997004406A1/de not_active Application Discontinuation
- 1996-06-18 US US08/809,080 patent/US6038527A/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4771401A (en) * | 1983-02-18 | 1988-09-13 | Houghton Mifflin Company | Apparatus and method for linguistic expression processing |
US5251129A (en) * | 1990-08-21 | 1993-10-05 | General Electric Company | Method for automated morphological analysis of word structure |
Also Published As
Publication number | Publication date |
---|---|
CA2200334A1 (en) | 1997-02-06 |
WO1997004406A1 (de) | 1997-02-06 |
US6038527A (en) | 2000-03-14 |
EP0792492A1 (de) | 1997-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19526264A1 (de) | Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten | |
DE3853894T2 (de) | Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen. | |
DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
DE69427848T2 (de) | Unterstützungssystem zur Herstellung von Wörterbüchern | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69423254T2 (de) | Verfahren und Gerät zur automatischen Spracherkennung von Dokumenten | |
DE69229204T2 (de) | Iteratives Verfahren zum Suchen von Satzteilen und Informationsauffindungssystem, welches dieses benützt | |
DE69129163T2 (de) | Verfahren und Vorrichtung zur Texteingabe | |
DE68913669T2 (de) | Namenaussprache durch einen Synthetisator. | |
DE69519328T2 (de) | Verfahren und Anordnung für die Umwandlung von Sprache in Text | |
DE69838763T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE69513369T2 (de) | Verfahren und vorrichtung zur zusammenfassung statischer prozesse in eine auf regeln basierende grammatikalisch definierte natuerliche sprache | |
DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
DE69424350T2 (de) | Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch | |
DE69331209T2 (de) | Umformung von verwandten Wortformen für Textindexierung und Wiederauffindung mittels endlicher Automaten | |
DE69712216T2 (de) | Verfahren und gerät zum übersetzen von einer sparche in eine andere | |
DE60029732T2 (de) | Phrasenübersetzungsverfahren und -system | |
EP0299572B1 (de) | Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE2854837A1 (de) | Uebersetzungsvorrichtung | |
DE4232507A1 (de) | Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten | |
DE69722085T2 (de) | Verfahren und Vorrichtung zur Komprimierung und Dekomprimierung von Botschaften | |
DE69229583T2 (de) | Verfahren zur Flektieren von Wörtern und Datenverarbeitungseinheit zur Durchführung des Verfahrens | |
DE3855426T2 (de) | Korrekturunterstützungsgerät mit Dokumentenausgabe | |
DE3853045T2 (de) | Verfahren zur Beseitigung von enklitischen Endungen aus Verben in romanischen Sprachen. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: DAIMLERCHRYSLER AG, 70567 STUTTGART, DE |
|
8141 | Disposal/no request for examination |