DE19526264A1 - Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten - Google Patents

Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten

Info

Publication number
DE19526264A1
DE19526264A1 DE19526264A DE19526264A DE19526264A1 DE 19526264 A1 DE19526264 A1 DE 19526264A1 DE 19526264 A DE19526264 A DE 19526264A DE 19526264 A DE19526264 A DE 19526264A DE 19526264 A1 DE19526264 A1 DE 19526264A1
Authority
DE
Germany
Prior art keywords
word
descriptors
word forms
text
forms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19526264A
Other languages
English (en)
Inventor
Ingrid Dr Renz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Daimler Benz AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler Benz AG filed Critical Daimler Benz AG
Priority to DE19526264A priority Critical patent/DE19526264A1/de
Priority to US08/809,080 priority patent/US6038527A/en
Priority to PCT/EP1996/002620 priority patent/WO1997004406A1/de
Priority to CA002200334A priority patent/CA2200334A1/en
Priority to EP96922825A priority patent/EP0792492A1/de
Publication of DE19526264A1 publication Critical patent/DE19526264A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Erzeugung von De­ skriptoren für die Klassifikation von natürlichsprachli­ chen Texten.
Die Klassifikation eines Textes stellt eine Zuordnung zu einer bestimmten Textklasse dar und bildet einen wichtigen Vorverarbeitungsschritt für die automatische Weiterverar­ beitung von Texten. Insbesondere für die automatische Tex­ tinterpretation ist eine vorausgehende Klassifikation von erheblicher Bedeutung, da hierdurch der Aufwand für die bereitzuhaltende Wissenbasis, wie z. B. Lexikon-Speicher, syntaktische und semantische Struktur­ definition, erheblich eingeschränkt und die Erkennungslei­ stung stark erhöht werden kann.
Die Textklassifikation läßt sich grob in zwei Schritte, nämlich die Extraktion von Deskriptoren und die darauf ba­ sierende Klassenzuordnung einteilen. Wesentliche Bedeutung kommt der Auswahl der Deskriptoren zu. Diese ist insbeson­ dere bei natürlichsprachlichen Texten mit einer Vielfalt von Wortformen problematisch.
Für Texte in der eine geringe morphologische Variation zeigenden englischen Sprache ist in "Feature Selection and Feature Extraction for Text Categorization" von D. Lewis in Proc. of Speech and Natural Language Workshop 1992 die Verwendung vollständiger Wortformen oder Phrasen vorge­ schlagen. Für Klassifikationsaufgaben in morphologisch reicheren Sprachen können Wortteile als Deskriptoren ver­ wandt werden, wobei z. B. in "N-Gram-Based Text Categoriza­ tion" von Canvar/Trenkle in Proc. of Int. Symp. on Docu­ ment Analysis and Information Retrieval 1994 die Textzer­ legung in n-Grame oder in "Using IR Technigues for Text Classification in Document Analysis" von R. Hoch in Proc. of SIGIR, 1994 eine Reduktion auf Grundformen vorgenommen wird.
Während die n-Gram-Zerlegung zu einer sehr hohen Zahl von Deskriptoren führt, erfordert die Reduktion auf Grundfor­ men eine aufwendige Analyse zur Erstellung der benötigten Wissensbasis. Die bekannten Verfahren sind zudem anfällig gegen Fehler in den untersuchten Texten, wie Schreibfehler oder Erkennungsfehler bei der Zeichenerkennung oder Spracherkennung.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Erzeugung von Deskriptoren anzugeben, wel­ ches auf einfache Weise auf der Basis von Trainingstexten eine für die Klassifikation geeignete Menge von Deskripto­ ren erzeugt.
Die Erfindung ist im Patentanspruch 1 beschrieben. Die Un­ teransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.
Der besondere Vorteil der Erfindung liegt darin, daß keine oder nur einfache Wissensvorgaben gebraucht werden und das Verfahren damit leicht in neuen Anwendungsgebieten ein­ setzbar ist. Als einfache Wissensvorgabe sieht z. B. eine vorteilhafte Ausführung eine morphologisch basierte Ein­ schränkung bezüglich bei der Zerlegung entstehender Wort­ teile vor. Das erfindungsgemäße Verfahren berücksichtigt insbesondere auch signifikante Schreib- oder Erkennungs­ fehler in relevanten Deskriptoren unter der Annahme, daß solche Fehler in den Trainingstexten und den später zu klassifizierenden Texten im gleichen Maße auftreten.
Vorzugsweise wird die Zerlegung wiederholt durchgeführt, wobei die in einem Belegungszyklus verbleibenden Wortteile im folgenden Zerlegungszyklus wie Wortformen behandelt werden. Die nach der ggf. mehrfachen Zerlegung vorliegen­ den Wort formen und Wortteile können noch durch Flexion oder Affixe entstandene verschiedene Varianten von einfa­ cheren Grundformen enthalten. Durch Abtrennen von Präfixen und Suffixen (einschließlich Flexiven) kann die Vielfalt der Wortformen weiter reduziert, d. h. die Anzahl der De­ skriptoren verringert werden. Die Präfix und Suffixe wer­ den vorzugsweise statistisch aus den Wortformen der Trai­ ningstexte als häufig auftretende und damit unterschei­ dungsschwache Wortanfänge und Wortenden definiert.
Von besonderem Vorteil ist auch eine Vorgabe sogenannter Stopwörter. Hierunter werden besonders häufig vorkommende unterscheidungsschwache Wortformen wie z. B. bestimmte und unbestimmte Artikel, Präpositionen, Pronomen, Bindewörter etc. verstanden. Solche Stopwörter werden vorzugsweise durch statistische Verfahren aus den Trainingstexten als besonders häufig auftretende Wortformen bestimmt. Alterna­ tiv oder zusätzlich können die Stopwörter auch vollständig oder teilweise unabhängig von den Trainingstexten vorgege­ ben werden. Die Stopwörter bleiben bei der Erzeugung der Deskriptoren von Anfang an unberücksichtigt, gelten also insbesondere bei der Zerlegung nicht als Wortformen.
Zur Vereinfachung des Klassifikators kann die Deskrip­ torenliste auf die Deskriptoren eingeschränkt werden, de­ ren Häufigkeit in den Trainingstexten eine vorgebbare Häufigkeitsschwelle überschreitet.
Die Texte sind vorteilhafterweise bereits auf Anwendungs­ gebiete wie z. B. Geschäftsbriefe, Wirtschaftsmeldungen, wissenschaftliche Berichte etc. eingeschränkt. In dem An­ wendungsgebiet Geschäftsbriefe können dann z. B. Text­ klassen wie Bestellung, Angebot, Rechnung etc. differen­ ziert werden.
Die Erfindung ist nachfolgend anhand von durch Abtasten geschriebener Dokumente mittels optischer Zeichenerken­ nungssysteme (OCR) digitalisierten Texten noch weiter ver­ anschaulicht.
Aus den Dokumenten einer Sammlung von z. B. 600 Training­ stexten werden alle vorkommenden Wortformen einschließlich ihrer Häufigkeit in der Gesamtheit der Trainingstexte er­ mittelt. Die am häufigsten auftretenden Wortformen werden als Stopwörter in eine Stopwortliste aufgenommen. Bei­ spielsweise wird die Stopwortliste mit den 100-300 Wort­ formen aufgebaut, die am häufigsten in der Trainingstext­ sammlung vertreten sind. Die so erzeugte Stopwortliste ist durch den rein statistischen Ansatz der Ableitung aus den Trainingstexten spezifisch für die Sprache und das Themen­ gebiet der Trainingstexte. Sie enthält insbesondere auch OCR-typische Fehler als Stopwortvarianten wie z. B. "dio" neben "die" oder "fiir" neben "für". Durch den statisti­ schen Ansatz können auch sehr häufig auftretende aussage­ kräftige Wortformen als Stopwörter ausgewiesen werden, die dann bei der Klassifikation nicht mehr zur Verfügung ste­ hen. Anstelle der Vorgabe einer Anzahl von Stopwörtern zum Aufbau der Stopwortliste kann daher auch eine Schwelle für eine relative Mindesthäufigkeit oder, vor allem für Trai­ ningstext-Sammlungen kleineren Umfangs, eine obere Schranke, beispielsweise 1,5% aller in den Trainingstexten auftretenden Wortformen, für die Mächtigkeit der Stopwort­ liste vorgegeben werden. Zusätzlich oder alternativ können auch Stopwörter, z. B. Artikel, Präpositionen etc. fest vorgegeben werden. Für die Weiterverarbeitung werden nur noch Wortformen berücksichtigt, die nicht in der Stopwort­ liste enthalten sind.
Insbesondere durch Zeichenerkennungsfehler bei der Digita­ lisierung von Texten können Zeichenkombinationen auftre­ ten, die als Deskriptoren nicht geeignet sind. Sinnvoller­ weise werden daher Mindestanforderungen an die Struktur von Deskriptoren vorgegeben. Vorteilhaft sind insbesondere Anforderungen wie
  • - ein Deskriptor muß mindestens 3 Buchstaben umfassen
  • - ein Deskriptor muß mindestens einen Vokal enthalten
wobei wiederum als ein Buchstabe in diesem Sinne auch ein Bindestrich und Zeichengruppen wie qu, ch, ie, ph gelten können.
Im Text vor oder nach Ausschluß der Stopwörter vorhandene Zeichengruppen, die diese Mindestanforderungen nicht er­ füllen, können auch durch die nachfolgenden Verarbeitungs­ schritte des erfindungsgemäßen Verfahrens nicht zu ge­ eigneten Deskriptoren werden, könnten aber bei der Zerle­ gung komplexer Wortformen zu unbrauchbaren Ergebnissen führen. Einzelzeichen oder Zeichengruppen im Text, die diese Mindestanforderungen nicht erfüllen, bleiben daher für die weitere Verarbeitung unberücksichtigt.
Aus den weiterzuverarbeitenden Wortformen werden mit sta­ tistischen Methoden häufig auftretende Wortanfänge (Prä­ fixe) und Wortenden (Suffixe) ermittelt und als kennzeich­ nungsschwache Präfixe und Suffixe in Listen eingetragen. Die Ableitung solcher Präfixe und Suffixe ist Stand der Technik und z. B. aus "Experimentelle Morphologie in der Informationswissenschaft", München 1977, von R. Kuhlen be­ kannt. In den Suffixen mit eingeschlossen sind hierbei auch Flexive.
Auf der Grundlage der verbleibenden Textteile wird die er­ findungswesentliche Zerlegung von Wortformen durchgeführt. Das Hauptziel ist die Gewinnung einer gegenüber der Anzahl der verschiedenen Wortformen verringerten Anzahl von für die Klassifikation aussagekräftigen Deskriptoren. Bei der Zerlegung wird überprüft, ob kürzere Wortformen in länge­ ren Wortformen enthalten sind. Zutreffendenfalls wird eine längere Wortform zerlegt in die darin enthaltene kürzere Wortform und mindestens einen verbleibenden Wortteil. Vor­ zugsweise wird zusätzlich überprüft, ob bei der Zerlegung ein Wortteil entsteht, der als Deskriptor nicht geeignet ist, beispielsweise unter Zugrundelegung derselben Min­ destanforderungen wie vorstehend bereits genannt. Eine Zerlegung, die einen in diesem Sinne ungeeigneten Wortteil ergäbe, wird nicht durchgeführt, die längere Wortform wird beibehalten. Ein bei einer zulässigen Zerlegung verblei­ bender Wortteil kann mit einer bereits vorhandenen Wort­ form identisch sein oder wird als neue Wortform aufgenom­ men und in den zyklisch fortgesetzten Abgleich der Wort­ formen mit eingeschlossen. Der Abgleich wird vorzugsweise solange fortgeführt, bis keine weitere Zerlegung mehr mög­ lich ist.
Von den nach der Zerlegung vorliegenden Wortformen und Wortteilen werden die in den Präfix- und Suffix-Listen enthaltenen Anfangs- bzw. End-Zeichenfolgen abgetrennt. Hierdurch können vor allem verschiedene Variationsformen von Stammwörtern auf ihren Wortstamm reduziert und in die­ sem zusammengefaßt werden. Auch bei der Abtrennung von Suffixen und Präfixen wird vorteilhafterweise ein Rahmen gesetzt für zulässige Abtrennungen durch Vorgabe von Min­ destanforderungen an die nach der Abtrennung verbleibenden Wortteile, z. B. die beim anfänglichen Ausschluß ungeeigne­ ter Zeichenfolgen genannten Einschränkungen für Deskripto­ ren. Die nach Zerlegung und Abtrennung verbleibenden Zei­ chenfolgen (Wortformen und Wortteile) werden als geeignete Deskriptoren betrachtet und weiterverwandt. Die Abtrennung von Präfixen und Suffixen muß nicht auf den Verfahrensab­ schnitt nach Abschluß aller Zerlegungen beschränkt sein, sondern kann alternativ oder zusätzlich auch in Zwischen­ stadien vorgenommen werden. Die Reduktion der Wortformen durch Zerlegung oder Abtrennung erfordert kein oder mit der Vorgabe von Mindestanforderungen nur ein sehr einfa­ ches morphologisches Wissen. Dies führt dazu, daß im gram­ matischen Sinne falsche Zerlegungen und Abtrennungen zu­ lässig sind und im Regelfall auch auftreten. In den ver­ bleibenden Wortformen oder Wortteile ist daher häufig kein Wortstamm erkennbar. Sie können auch wieder die Form von anfänglich ausgeschlossenen Stopwörtern annehmen. Auch diese Wortrümpfe sind gleichwohl als Deskriptoren ge­ eignet, da sie durch Ableitung aus den Trainingstexten als spezifisch für die die Trainingstexte bildenden Texttypen sind und sowohl beim Training des Klassifikators als auch bei der Klassifikation unbekannter Texte in gleicher Weise wirken.
Der Aufwand für den Klassifikator kann weiter deutlich verringert werden, indem für die in der beschriebenen Weise ermittelten Deskriptoren ein Schwellwert für die Häufigkeit ihres Auftretens vorgeben wird und nur solche Deskriptoren für den Klassifikator weiterverwandt werden, deren Auftretenshäufigkeit den Schwellwert erreicht oder überschreitet. Der Schwellwert kann fest, z. B. mit Häufig­ keit 4, oder relativ vorgegeben werden oder durch die Maß­ gabe, nur eine bestimmte Anzahl oder einen bestimmten Prozentsatz der in den Trainingstexten häufigsten Deskrip­ toren auszuwählen, indirekt bestimmt sein.
Die Erfindung ist nicht auf die Ausführungen gemäß den vorstehenden detaillierten Erläuterungen beschränkt. Ab­ wandlungen sind dem Fachmann durch sein Fachwissen im Rah­ men der Erfindung möglich. Insbesondere sind die Parameter bei der statistischen Zusammenstellung der Stopwortliste und der Präfix- und Suffix-Listen sowie bei der Vorgabe der Mindestanforderungen an die Deskriptoren Veränderungen zugänglich und erlauben hierbei in begrenztem Umfang auch noch durch Einstellung dieser Parameter eine weitere Opti­ mierung des Verfahrens nach den Bedingungen spezieller An­ wendungen. Ferner ist die Erfindung auch in Verbindung mit bekannten Verfahren zur Erzeugung von Deskriptoren ein­ setzbar. Die Texte müssen nicht als schriftliche Dokumente vorliegen, sondern können insbesondere auch gesprochene oder elektronisch übermittelte Texte sein.
Die Liste der weiterzuverwendenden Deskriptoren und die Stopwortliste bilden die Grundlage für die nachfolgende Textklassifikation sowohl in der Trainingsphase des Klas­ sifikators als auch in der Klassifikation unbekannter Texte. Klassifikatoren sind allgemein aus dem Stand der Technik bekannt.
Hierzu werden in den zu klassifizierenden Texten durch Ab­ gleich mit der Stopwortliste alle Stopwörter gelöscht bzw. bleiben für das weitere Vorgehen unberücksichtigt. Der von Stopwörtern befreite Text wird mit der Deskriptorenliste verglichen. Dabei werden z. B. alle Wortformen, bei denen Deskriptoren als Wortteile vorkommen, durch die jeweiligen Deskriptoren ersetzt. Wortformen, die nicht durch Deskrip­ toren ersetzt werden können, werden ebenfalls gelöscht. Daraus ergeben sich zwar für Menschen unlesbare, aber für den Klassifikator gut geeignete Deskriptorentexte. Diese Deskriptorentexte bzw. daraus gewonnene statistische Aus­ sagen über das Auftreten von Deskriptoren werden zur ei­ gentlichen Klassifikation benutzt.
Eine äquivalente Vorgehensweise nach dem Löschen der Stopwörter in dem zu klassifizierenden Text ist z. B. die Durchsuchung eines Textes auf der Basis der Deskriptoren­ liste und die statistische Erfassung der Auftretenshäufig­ keit oder allein das Vorhandensein einzelner Deskriptoren.
Für den Klassifikator sind eine Vielzahl geeigneter Aus­ bildungen aus dem Stand der Technik bekannt. Vorteilhaf­ terweise eignen sich die nach der Erfindung erzeugten De­ skriptoren besonders für die vergleichsweise aufwandsarmen statistischen Klassifikationsverfahren.
Die Erfindung ist nachfolgend anhand zweier Beispiele noch weiter veranschaulicht. Für ein erstes, der Übersichtlich­ keit halber konstruiertes Beispiel für eine Trainingstext­ sammlung geringen Umfangs, wird nach Löschen von Stopwör­ tern und von Zeichenfolgen, die die bereits beispielhaft genannten Mindestanforderungen (1 Vokal, 3 Buchstaben nicht erfüllen von einer kurzen Liste in den Trainingstex­ ten noch enthaltener Wortformen
glasfaser-lichtleitern
rechnerkerns
halbleitern
halbleiters
glaskerns
rechner
leiters
ausgegangen. Aus diesen seien in an sich bekannter Weise keine Präfixe, aber Suffixe s, n, ter er abgeleitet, die in einer Suffixliste abgelegt werden.
In zyklisch wiederholten Zerlegungsschritten wird ein Ab­ gleich innerhalb der gültigen Wortformliste dahingehend durchgeführt, daß eine längere Wortform, die eine (oder mehrere) kürzere Wortformen enthält, in diese kürzere Wortform und einen oder mehrere verbleibende Wortteile aufgespalten wird, sofern die verbleibenden Wortteile ebenfalls die Mindestanforderungen erfüllen. Diese ver­ bleibenden Wortteile werden als neue Wortformen für die weiteren Verarbeitungsschritte behandelt. Nach dem 1. Zer­ legungsschritt ergibt sich als neue Wortformliste;
glasfaser-lichtleitern
halbleitern
glaskerns
leiters
rechner
kerns
halb.
Die Möglichkeit weiterer Zerlegung wird erneut geprüft und nach dem 2. Zerlegungsschritt ergibt sich die Wortformli­ ste
glasfaser-lichtleitern
leitern
leiters
rechner
kerns
halb
glas.
In entsprechender Weise nach dem 3. Zerlegungsschritt
leitern
leiters
rechner
faser
kerns
licht
halb
glas.
Diese Wortformen sind nicht weiter durch Abgleich zerleg­ bar, so daß die zyklische Zerlegung abgeschlossen ist. Von diesen Wortformen werden die in der Suffixliste abgelegten Suffixformen, wiederum unter Beachtung der genannten Min­ destanforderungen, sukzessive abgetrennt, so daß als De­ skriptoren
lei (26)
halb (18)
rechn (2)
fas (2)
gla (2)
ker (2)
licht (1)
verbleiben, wobei die Zahlen in Klammern die Häufigkeit der einzelnen Deskriptoren in der Gesamtheit der Training­ stexte angeben. Wenn als Mindesthäufigkeit für aussagekräftige Deskriptoren zweimaliges Auftreten vorge­ geben sei, wird der nur einmal auftretende Deskriptor "licht" nicht weiter zur Klassifikation benutzt.
Für ein zweites einem realen Fall entnommenes Beispiel, welches die Reduktion eines unbekannten zu klassifizieren­ den Textes anhand einer zuvor aus einer Trainingstext Sammlung bestimmten Deskriptorliste zeigt, wird ausgegan­ gen von einem Auszug aus einem mittels OCR digitalisierten Text eines wissenschaftlichen Kurzberichts:
Es werden Versuche beschrieben, durch Mischungen eines Bleiglase; mit Ti 02 in untersch ied 7 i chen Verhäl tn i ssen sowi e durch E i nsatz verscsSI i edener Pb0-TiO-Sio-A1 O-Systeme zu Siebdruckpasten mit auskristal tisierbaren z 2 2 3 dielektrischen Komponenten zu gelangen. Neben der Erprobung der
Der digitalisierte Text ist durchsetzt von bei der OCR- Verarbeitung entstandenen Erkennungsfehlern. In üblicher Weise werden zuerst die in einer Stopwortliste enthaltenen Stopwörter (wie z. B. "es", "werden", "beschrieben", "durch", "eines", "mit" etc.) gelöscht. Die Löschung der die Mindestanforderung an Deskriptoren nicht erfüllenden Zeichenfolgen ist zweckmäßig, aber nicht zwingend. Danach wird durch einfachen Zeichenfolgenvergleich der Text auf die darin enthaltenen Deskriptoren reduziert. Die in die­ sem realen Beispiel bestimmte Deskriptorenliste ist wegen ihres Umfangs und ihrer Unanschaulichkeit hier nicht im Detail angegeben.
Es ergibt sich ein Deskriptorentext
such misch blei las häl sen atz ssi tio sio ystem sieb pas kri tis bar diel tri mpo ent gel neb bun
der für einen menschlichen Betrachter keinen Sinn mehr er­ gibt, für die automatische Klassifikation jedoch aus­ reicht.
Während im ersten, konstruierten Beispiel der Anschaulich­ keit halber in den Deskriptoren noch Ähnlichkeiten zu den zugrundeliegenden Wortstämmen zu erkennen sind, erscheinen im realen Fall die Deskriptoren häufig ohne Beziehung zu Begriffsinhalten zu sein. Dies verdeutlicht den Unter­ schied der im wesentlichen statistischen und für die auto­ matische Bearbeitung vorteilhaften Vorgehensweise gegen­ über einer Textanalyse auf linguistischer Wissenbasis. Die Fähigkeit, auch stark fehlerhafte Texte wie im gegebe­ nen Beispiel zu klassifizieren, verdeutlicht die hohe Feh­ lertoleranz des erfindungsgemäßen Verfahrens.

Claims (8)

1. Verfahren zur Klassifikation eines natürlichsprachli­ chen Textes anhand von Deskriptoren, die in einer Trai­ ningsphase auf der Basis einer Mehrzahl von in Wörter seg­ mentierten Trainingstexten gewonnen werden, dadurch ge­ kennzeichnet, daß bei der Gewinnung der Deskriptoren eine Zerlegung von im Text auftretenden Wortformen in der Weise vorgenommen wird, daß längere Wortformen, die kürzere im Text auftretende Wortformen enthalten, in die kürzeren Wortformen und gegebenenfalls verbleibende Wortteile zer­ legt werden, und daß die Deskriptoren aus den nach der Zerlegung verbleibenden Wortformen und Wortteilen gebildet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Zerlegung wiederholt durchgeführt wird, wobei die in zurückliegenden Zerlegungszyklen gebildeten Wortteile wie im Text auftretende Wortformen behandelt werden, und daß die Deskriptoren aus den nach den letzten Zerlegungszyklus verbleibenden Wortformen und Wortteilen gebildet werden.
3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch ge­ kennzeichnet, daß bei der Bildung der Deskriptoren aus den verbleibenden Wortformen und Wortteilen Suffixe und Prä­ fixe von diesen abgetrennt werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Suffixe und Präfixe aus den in den Trainingstexten auftretenden Wortformen statistisch ermittelt werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß Mindestanforderungen an die Struktur von Deskriptoren vorgegeben werden und Zerlegungen und Ab­ trennungen nicht vorgenommen werden, die zu Wortteilen führen, welche die Mindestanforderungen nicht erfüllen.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß eine Stopwortliste vorgegeben wird und darin enthaltene Wortformen im Text unberücksichtigt blei­ ben.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Wortformen der Stopwortliste aus den Trainingstexten als die dort am häufigsten auftretenden Wortformen stati­ stisch ermittelt werden.
8. Verfahren nach einem der vorhergehenden Ansprüche, da­ durch gekennzeichnet, daß für die Deskriptoren eine Häu­ figkeitsschwelle vorgegeben wird und nur die Deskriptoren weiter verwandt werden, deren Häufigkeit in den Training­ stexten die Schwelle übersteigt.
DE19526264A 1995-07-19 1995-07-19 Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten Withdrawn DE19526264A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE19526264A DE19526264A1 (de) 1995-07-19 1995-07-19 Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten
US08/809,080 US6038527A (en) 1995-07-19 1996-06-18 Method for generating descriptors for the classification of texts
PCT/EP1996/002620 WO1997004406A1 (de) 1995-07-19 1996-06-18 Verfahren zur erzeugung von deskriptoren für die klassifikation von texten
CA002200334A CA2200334A1 (en) 1995-07-19 1996-06-18 Method for generating descriptors for the classification of texts
EP96922825A EP0792492A1 (de) 1995-07-19 1996-06-18 Verfahren zur erzeugung von deskriptoren für die klassifikation von texten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19526264A DE19526264A1 (de) 1995-07-19 1995-07-19 Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten

Publications (1)

Publication Number Publication Date
DE19526264A1 true DE19526264A1 (de) 1997-04-10

Family

ID=7767183

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19526264A Withdrawn DE19526264A1 (de) 1995-07-19 1995-07-19 Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten

Country Status (5)

Country Link
US (1) US6038527A (de)
EP (1) EP0792492A1 (de)
CA (1) CA2200334A1 (de)
DE (1) DE19526264A1 (de)
WO (1) WO1997004406A1 (de)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169969B1 (en) * 1998-08-07 2001-01-02 The United States Of America As Represented By The Director Of The National Security Agency Device and method for full-text large-dictionary string matching using n-gram hashing
US6466901B1 (en) * 1998-11-30 2002-10-15 Apple Computer, Inc. Multi-language document search and retrieval system
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US20020023123A1 (en) * 1999-07-26 2002-02-21 Justin P. Madison Geographic data locator
KR100530475B1 (ko) 1999-11-10 2006-01-09 론치 미디어, 인크. 인터넷 라디오와 방송 방법
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US7024485B2 (en) * 2000-05-03 2006-04-04 Yahoo! Inc. System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US7251665B1 (en) 2000-05-03 2007-07-31 Yahoo! Inc. Determining a known character string equivalent to a query string
US8352331B2 (en) * 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
JP4236922B2 (ja) * 2000-07-11 2009-03-11 ヤフー! インコーポレイテッド コミュニティの偏りを持たせたオンライン再生システム
US8271333B1 (en) 2000-11-02 2012-09-18 Yahoo! Inc. Content-related wallpaper
US6798912B2 (en) * 2000-12-18 2004-09-28 Koninklijke Philips Electronics N.V. Apparatus and method of program classification based on syntax of transcript information
US7406529B2 (en) * 2001-02-09 2008-07-29 Yahoo! Inc. System and method for detecting and verifying digitized content over a computer network
EP1490790A2 (de) * 2001-03-13 2004-12-29 Intelligate Ltd. Dynamisches verstehen natürlicher sprache
US7574513B2 (en) 2001-04-30 2009-08-11 Yahoo! Inc. Controllable track-skipping
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7305483B2 (en) 2002-04-25 2007-12-04 Yahoo! Inc. Method for the real-time distribution of streaming data on a network
US7106905B2 (en) * 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
US7412453B2 (en) * 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
US20040148267A1 (en) * 2003-01-29 2004-07-29 Forman George Henry Evaluation methodology and apparatus
US7720781B2 (en) * 2003-01-29 2010-05-18 Hewlett-Packard Development Company, L.P. Feature selection method and apparatus
CN1875377A (zh) * 2003-09-10 2006-12-06 音乐匹配公司 音乐购买和播放系统及其方法
EP2290559A1 (de) * 2003-12-31 2011-03-02 Thomson Reuters Global Resources Systeme, Verfahren, Programme für Datenverarbeitungsanlagen und Schnittstellen zur Integration von Rechtssprechung mit rechtlichen Kurzmitteilungen, Rechtsstreitdokumenten und/oder Rechtsstreit unterstützenden Dokumenten
FR2867845B1 (fr) 2004-03-16 2007-04-20 Valeo Climatisation Tubes d'echangeur de chaleur favorisant le drainage des condensats
US7409334B1 (en) * 2004-07-22 2008-08-05 The United States Of America As Represented By The Director, National Security Agency Method of text processing
US7840573B2 (en) * 2005-02-22 2010-11-23 Trusted Computer Solutions Trusted file relabeler
US7333965B2 (en) * 2006-02-23 2008-02-19 Microsoft Corporation Classifying text in a code editor using multiple classifiers
US9158983B2 (en) 2010-07-08 2015-10-13 E-Image Data Corporation Microform word search method and apparatus
US8606010B2 (en) 2011-03-18 2013-12-10 Seiko Epson Corporation Identifying text pixels in scanned images
US8731296B2 (en) 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
WO2014036212A1 (en) 2012-08-29 2014-03-06 Northwestern University Water detoxification by a substrate-bound catecholamine adsorbent
US9330087B2 (en) 2013-04-11 2016-05-03 Microsoft Technology Licensing, Llc Word breaker from cross-lingual phrase table
US20160104052A1 (en) * 2014-10-10 2016-04-14 Qualcomm Incorporated Text-based thumbnail generation
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771401A (en) * 1983-02-18 1988-09-13 Houghton Mifflin Company Apparatus and method for linguistic expression processing
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
DE4213533C2 (de) * 1992-04-22 1996-01-25 Ibm Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771401A (en) * 1983-02-18 1988-09-13 Houghton Mifflin Company Apparatus and method for linguistic expression processing
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure

Also Published As

Publication number Publication date
CA2200334A1 (en) 1997-02-06
WO1997004406A1 (de) 1997-02-06
US6038527A (en) 2000-03-14
EP0792492A1 (de) 1997-09-03

Similar Documents

Publication Publication Date Title
DE19526264A1 (de) Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten
DE3853894T2 (de) Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen.
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE69427848T2 (de) Unterstützungssystem zur Herstellung von Wörterbüchern
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69423254T2 (de) Verfahren und Gerät zur automatischen Spracherkennung von Dokumenten
DE69229204T2 (de) Iteratives Verfahren zum Suchen von Satzteilen und Informationsauffindungssystem, welches dieses benützt
DE69129163T2 (de) Verfahren und Vorrichtung zur Texteingabe
DE68913669T2 (de) Namenaussprache durch einen Synthetisator.
DE69519328T2 (de) Verfahren und Anordnung für die Umwandlung von Sprache in Text
DE69838763T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69513369T2 (de) Verfahren und vorrichtung zur zusammenfassung statischer prozesse in eine auf regeln basierende grammatikalisch definierte natuerliche sprache
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE69424350T2 (de) Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch
DE69331209T2 (de) Umformung von verwandten Wortformen für Textindexierung und Wiederauffindung mittels endlicher Automaten
DE69712216T2 (de) Verfahren und gerät zum übersetzen von einer sparche in eine andere
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
EP0299572B1 (de) Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE2854837A1 (de) Uebersetzungsvorrichtung
DE4232507A1 (de) Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten
DE69722085T2 (de) Verfahren und Vorrichtung zur Komprimierung und Dekomprimierung von Botschaften
DE69229583T2 (de) Verfahren zur Flektieren von Wörtern und Datenverarbeitungseinheit zur Durchführung des Verfahrens
DE3855426T2 (de) Korrekturunterstützungsgerät mit Dokumentenausgabe
DE3853045T2 (de) Verfahren zur Beseitigung von enklitischen Endungen aus Verben in romanischen Sprachen.

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8127 New person/name/address of the applicant

Owner name: DAIMLERCHRYSLER AG, 70567 STUTTGART, DE

8141 Disposal/no request for examination