DE10210553A1

DE10210553A1 - Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem

Info

Publication number: DE10210553A1
Application number: DE10210553A
Authority: DE
Inventors: Sven Schmeier
Original assignee: XTRAMIND TECHNOLOGIES GmbH
Current assignee: YOCOY TECHNOLOGIES GMBH, DE
Priority date: 2002-03-09
Filing date: 2002-03-09
Publication date: 2003-09-25
Anticipated expiration: 2022-03-10
Also published as: DE10210553B4

Abstract

Es wird ein Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem beschrieben. Bei dem Verfahren wird eine Eigenschaft eines Wortes des zu klassifizierenden Textes ermittelt. Es wird die Häufigkeit des Vorkommens dieser Eigenschaft in dem zu klassifizierenden Text ermittelt. Es wird die ermittelte Häufigkeit mit vorab ermittelten Häufigkeiten des Vorkommens dieser Eigenschaft in einer Mehrzahl von Beispieltexten verglichen, wobei jeder der Beispieltexte einer Klasse zugeordnet ist. Es wird der zu klassifizierende Text in Abhängigkeit von diesem Vergleich in eine derjenigen Klassen zugeordnet, die den Beispieltexten zugeordnet sind.

Description

Stand der Technik

Die Erfindung betrifft ein Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem. Die Erfindung betrifft ebenfalls ein Computer-Programm, ein Computer-Programm-Produkt und ein Computersystem zum automatischen Klassifizieren eines Textes.
Es ist bekannt, Texte wie folgt zu klassifizieren: Es werden eine Mehrzahl von Beispieltexten ausgewählt, die mit den erwarteten, zu klassifizierenden Texten thematisch übereinstimmen. Es werden Klassen bestimmt und es werden die Beispieltexte diesen Klassen zugeteilt. Dann wird für jeden Beispieltext eine Tabelle bzw. ein Vektor erzeugt, indem die Häufigkeit des Vorkommens jedes einzelnen Wortes des Textes ermittelt wird. Das Wort und die zugehörige Häufigkeit seines Vorkommens in dem jeweiligen Text werden in der Tabelle bzw. dem Vektor abgespeichert. Ein zu klassifizierender Text wird auf dieselbe Weise bearbeitet. Dann wird die Tabelle bzw. der Vektor des zu klassifizierenden Textes mit den Tabellen bzw. Vektoren der Beispieltexte verglichen. Dem zu klassifizierenden Text wird diejenige Klasse zugeteilt, die derjenige Beispieltext besitzt, dessen Tabelle bzw. Vektor am ähnlichsten ist zu der Tabelle bzw. dem Vektor des zu klassifizierenden Textes.

Aufgabe und Vorteile der Erfindung

Aufgabe der Erfindung ist es, dieses Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem zu verbessern.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem gelöst, bei dem eine Eigenschaft eines Wortes des zu klassifizierenden Textes ermittelt wird, bei dem die Häufigkeit des Vorkommens dieser Eigenschaft in dem zu klassifizierenden Text ermittelt wird, bei dem die ermittelte Häufigkeit mit vorab ermittelten Häufigkeiten des Vorkommens dieser Eigenschaft in einer Mehrzahl von Beispieltexten verglichen wird, wobei jeder der Beispieltexte einer Klasse zugeordnet ist, und bei dem der zu klassifizierende Text in Abhängigkeit von diesem Vergleich in eine derjenigen Klassen zugeordnet wird, die den Beispieltexten zugeordnet sind. Die Aufgabe wird ebenfalls durch ein entsprechendes Computersystem zum automatischen Klassifizieren deines Textes gelöst.
Bei dem bekannten Verfahren zum Klassifizieren eines Textes wird nur die jeweilige Häufigkeit des Vorkommens der einzelnen Wörter in dem Text ermittelt. Diese Häufigkeit ist ein rein quantitatives Kriterium. Im Unterschied dazu wird erfindungsgemäß zuerst eine Eigenschaft der einzelnen Wörter ermittelt, um daraufhin die Häufigkeit des Vorkommens dieser Eigenschaft festzustellen. Die Eigenschaft der einzelnen Wörter stellt ein qualitatives Kriterium dar. Es wird also nicht - wie beim Stand der Technik - die Häufigkeit des Vorkommens der Wörter als solche ermittelt, sondern es wird die Häufigkeit des Vorkommens von qualitativen Eigenschaften der Wörter ermittelt.
Diese vorherige Ermittlung der qualitativen Eigenschaften der Wörter hat zur Folge, dass die nachfolgende Ermittlung der Häufigkeit des Vorkommens dieser Eigenschaften eine wesentlich größere Aussagekraft besitzt als die rein quantitative Häufigkeit des Vorkommens der Wörter als solche.
Mit Hilfe der erfindungsgemäßen Ermittlung der Eigenschaften der Wörter und deren Häufigkeiten des Vorkommens in einem Beispieltext wird somit eine wesentliche bessere Charakterisierung des Beispieltextes durch die Tabelle bzw. den Vektor erreicht. Dies hat zur Folge, dass die nachfolgende Klassifizierung eines zu klassifizierenden Textes wesentlich genauer und damit besser durchgeführt werden kann. Die Wahrscheinlichkeit einer fehlerhaften Klassifizierung eines zu klassifizierenden Textes wird durch das erfindungsgemäße Verfahren wesentlich vermindert.
Bei einer vorteilhaften Weiterbildung der Erfindung bezieht sich die Eigenschaft eines Wortes auf den Inhalt desselben. Dies kann wie folgt durch eine oder mehrere der folgenden Möglichkeiten der Fall sein: Es kann als Eigenschaft der Wortstamm eines Wortes des Textes ermittelt werden, wobei die Häufigkeit des Vorkommens dieses Wortstamms in dem Text ermittelt wird. Es kann als Eigenschaft die Wortart eines Wortes ermittelt werden, wobei die Häufigkeit des Vorkommens dieser Wortart des Wortes in dem Text ermittelt wird. Es kann als Eigenschaft ein Synonym eines Wortes des Textes ermittelt werden, wobei die Häufigkeit des Vorkommens dieses Synonyms in dem Text ermittelt wird. Es kann als Eigenschaft ein idiomatischer Ausdruck eines oder mehrerer Wörter des Textes ermittelt werden, wobei die Häufigkeit des Vorkommens dieses idiomatischen Ausdrucks in dem Text ermittelt wird.
Bei einer anderen vorteilhaften Weiterbildung bezieht sich die Eigenschaft eines Wortes auf den Inhalt des Satzes. Dies kann wie folgt durch eine oder mehrere der folgenden Möglichkeiten der Fall sein: Es kann sich bei der Eigenschaft um eine Angabe handeln, aus der sich ergibt, auf welches andere Wort sich ein bestimmtes Verb des Beispieltextes bezieht. Es kann sich bei der Eigenschaft um eine Angabe handeln, wer in einem bestimmten Satz was tut. Es kann sich bei der Eigenschaft um einen Hinweis handeln, aus dem hervorgeht, dass ein bestimmtes Wort in einer vorhandenen Datenbank enthalten ist. Es kann sich bei der Eigenschaft um sonstige Informationen handeln, insbesondere um semantische Informationen.
Von besonderer Bedeutung ist die Realisierung des erfindungsgemäßen Verfahrens in der Form eines Computer- Programms, das für ein Computersystem vorgesehen ist. Das Computer-Programm weist Programmcode auf, der dazu geeignet ist, das erfindungsgemäße Verfahren durchzuführen, wenn er auf dem Computersystem abläuft. Weiterhin kann der Programmcode auf einem Computer-Programm-Produkt gespeichert sein, beispielsweise auf einer Diskette oder einer Compact-Disc (CD). In diesen Fällen wird die Erfindung durch das Computer- Programm oder das Computer-Programm-Produkt realisiert, so dass dieses Computer-Programm und dieses Computer-Programm- Produkt in gleicher Weise die Erfindung darstellen wie das Verfahren, zu dessen Ausführung sie geeignet sind.
Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Erfindung, unabhängig von ihrer Zusammenfassung in den Patentansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung.

Ausführungsbeispiele der Erfindung

Fig. 1 zeigt ein schematisches Blockdiagram eines Ausführungsbeispiels eines erfindungsgemäßen Verfahrens zur Klassifizierung eines Textes, und
Fig. 2 und 3 zeigen schematische Ablaufdiagramme eines Ausführungsbeispiels eines erfindungsgemäßen Verfahrens zur Verbesserung des Verfahrens nach der Fig. 1.
Emails, die bei einem Unternehmen eingehen, und die beispielsweise Anfragen von Kunden zu Produkten oder Dienstleistungen des Unternehmens betreffen, müssen an den jeweils zuständigen Sachbearbeiter weitergeleitet werden. Zu diesem Zweck sind in einem Computersystem mehrere Klassen von Texten definiert, denen jeweils mindestens ein Sachbearbeiter zugeordnet ist. Die Definition der Klassen ist abhängig von den zu erwartenden Anfragen und damit z. B. von den Produkten und Dienstleistungen des Unternehmens. Der Text, der in einer eingehenden Email enthalten ist, wird von dem Computersystem automatisch einer der vorgegebenen Klassen zugeteilt. In Abhängigkeit von dieser Klassifizierung wird die Email an den für diese Klasse zuständigen Sachbearbeiter weitergeleitet.
Wie vorstehend genannt, müssen für die Klassifizierung eines Textes zuerst Klassen definiert werden. Hierzu werden eine Mehrzahl von Beispieltexten dem nachfolgenden, von dem Computersystem ausgeführten Verfahren unterzogen. Bei den Beispieltexten handelt es sich dabei letztlich um die vorstehend bereits angesprochenen, zu erwartenden Anfragen, die bei dem Unternehmen z. B. im Zusammenhang mit dessen Produkten und Dienstleistungen voraussichtlich eingehen.
In der Fig. 1 ist in der linken Hälfte ein Beispieltext angegeben, aus dem von dem Computersystem die in der rechten Hälfte der Fig. 1 dargestellte Tabelle erzeugt wird. In jeder Zeile der Tabelle ist in der Mitte eine Information angegeben, die eines oder mehrere Wörter des Beispieltextes betrifft. Rechts davon ist die Eigenschaft dieser Information und links davon die Häufigkeit des Vorkommens dieser Information in dem Beispieltext angegeben.
Eine erste Eigenschaft ist in der Tabelle der Fig. 1 mit "word" angegeben. Dabei handelt es sich um die einzelnen Wörter des Beispieltextes als solche. Die unterschiedlichen Wörter sind in den einzelnen Zeilen der Tabelle jeweils als Information unmittelbar angegeben. So betrifft die erste Zeile das Wort "have", das in dem Beispieltext die Häufigkeit "2" besitzt. Gemäß der zweiten Zeile ist das Wort "having" in dem Beispieltext mit der Häufigkeit "1" vorhanden. Das Wort "game" ist wieder zweifach vorhanden; und so weiter.
Auf diese Weise wird von dem Computersystem der gesamte Beispieltext in seine einzelnen Wörter zerlegt. Die einzelnen Wörter werden in der Tabelle unter der Eigenschaft "word" und mit ihrer jeweiligen Häufigkeit abgespeichert. Unter der Eigenschaft "word" können somit nur Wörter abgespeichert sein, die identisch auch in dem Beispieltext enthalten sind.
Eine zweite Eigenschaft ist in der Tabelle der Fig. 1 mit "stem" angegeben. Dabei handelt es sich um Wortstämme, die in den einzelnen Wörtern des Beispieltextes enthalten sind. Die unterschiedlichen Wortstämme sind in den einzelnen Zeilen der Tabelle jeweils als Eigenschaft angegeben. So betrifft die Zeile mit dem Wortstamm "hav" die Wörter "have" und "having". Dieser Wortstamm hat in dem Beispieltext die Häufigkeit "3". Der Wortstamm "be" betrifft die Wörter "being" und "is" und "will" und dergleichen und ist in dem Beispieltext mit der Häufigkeit "2" enthalten. Und so weiter.
Wiederum wird von dem Computersystem der gesamte Beispieltext im Hinblick auf vorhandene Wortstämme verarbeitet, die dann in der Tabelle unter der Eigenschaft "stem" und mit der jeweiligen Häufigkeit abgespeichert werden. Dabei ist es möglich, dass der in der Tabelle abgespeicherte Wortstamm nicht identisch in dem Beispieltext enthalten ist, so z. B. bei dem Wortstamm "be", der z. B. nur in der Form des Wortes "will" in dem Beispieltext enthalten sein kann.
Eine dritte Eigenschaft ist in der Tabelle der Fig. 1 mit "pos" angegeben. Dabei handelt es sich um die Wortart eines Wortes. Die Eigenschaft "pos" ist damit nicht satz-, sondern nur wortbezogen. So ergibt sich aus der ersten, zu der Eigenschaft "pos" in der Tabelle angegebenen Zeile, dass es sich bei dem Wort "schedule" um ein Substantiv (N = noun = englisch: Substantiv) handelt. Aus der zweiten, zu der Eigenschaft "pos" angegebenen Zeile ergibt sich, dass es sich bei dem Wort "might" um ein Hilfsverb (AuxV = auxiliary verb = englisch: Hilfsverb) handelt.
Das Computersystem verarbeitet den gesamten Beispieltext im Hinblick auf vorhandene Wortarten. Diese Wortarten speichert das Computersystem zusammen mit der Häufigkeit ihres Vorkommens in der Tabelle ab. Die vorstehend beispielhaft genannten Abkürzungen für die Wortarten werden dabei von dem Computersystem den jeweiligen Wörtern hinzugefügt und als Information in der Tabelle abgespeichert. Es versteht sich, dass für andere Wortarten entsprechende andere Abkürzungen vorhanden sind.
Weitere Eigenschaften sind in der Tabelle der Fig. 1 mit "ws0", "ws1 . . . "wsN" angegeben. Dabei handelt es sich um Synonyme von Wörtern. Diese Eigenschaften sind damit nicht satz-, sondern auf den Wortsinn bezogen.
Die Eigenschaften "ws0", "ws1" . . . "wsN" unterscheiden sich im Hinblick auf ihre Stufe der Wort-Ontologie.
Bei der Eigenschaft "ws0" handelt es sich um Synonyme derselben Stufe der Wort-Ontologie. Hierzu gehören beispielsweise die Synonyme "regnen, gießen, schütten".
Bei der Eigenschaft "ws1" handelt es sich um Synonyme auf einer ersten übergeordneten Stufe der Wort-Ontologie. So gehört zu der ersten, die Eigenschaft "ws1" in der Tabelle der Fig. 1 enthaltenden Zeile die Information "footballteam". Diese Information stellt ein Synonym dar für zwei, in dem Beispieltext angegebene Football-Mannschaften, nämlich die "Ravens" und die "Titans". Die Information "footballteam" ist deshalb ein Synonym auf einer ersten übergeordneten Stufe und ist mit der Häufigkeit "2" in dem Beispieltext enthalten. Zu der zweiten, die Eigenschaft "ws1" enthaltenden Zeile gehört die Information "person", die ein Synonym für eine Person darstellt, nämlich dem in dem Beispieltext genannten "Pete Prisco". Die Häufigkeit der Information "person" ist deshalb "1".
Weitere Synonyme höherer Stufen können in der Tabelle unter den Eigenschaften "ws2", "ws3" und so weiter bis "wsN" enthalten sein.
Auf diese Weise wird von dem Computersystem der gesamte Beispieltext verarbeitet. Dabei ist es möglich, dass dem Computersystem eine Vielzahl möglicher Synonyme unterschiedlicher Stufen zusammen mit deren Informationen vorgegeben werden. Die einzelnen Informationen werden von dem Computersystem dann zusammen mit ihren Häufigkeiten abgespeichert.
Eine weitere Eigenschaft ist in der Tabelle der Fig. 1 mit "phstr" angegeben. Dabei handelt es sich um satzbezogene Informationen. Dies können Informationen dahingehend sein, ob es sich bei einem oder mehreren Wörtern des Beispieltextes um eine Nominalphrase, eine Verbalphrase oder eine Partizipphrase oder dergleichen handelt. Bei der Nominalphrase kann es sich z. B. um den Ausdruck "der graue Mond" handeln, bei der Verbalphrase um den Ausdruck "scheint gelb und grün" und bei der Partizipphrase um den Ausdruck "am mächtigen Himmel".
Ebenfalls können die Informationen angeben, ob es sich bei einem oder mehreren Wörtern des Beispieltextes um einen zusammengehörigen, idiomatischen Ausdruck handelt. So enthält die einzige, die Eigenschaft "phstr" betreffende Zeile der Tabelle der Fig. 1 die Information "expression" und bezieht sich auf die Wörter "claim to fame". Dies bedeutet, dass es sich bei diesen Wörtern um einen zusammengehörigen idiomatischen Ausdruck handelt, nämlich um "claim to fame = englisch: Besonderheit".
Wiederum wird von dem Computersystem der gesamte Beispieltext im Hinblick auf vorhandene satzbezogene Informationen verarbeitet, die dann in der Tabelle unter der Eigenschaft "phstr" und mit der jeweiligen Häufigkeit abgespeichert werden. Als Information wird dabei nicht nur die jeweilige Art der satzbezogenen Information, also z. B. "expression", sondern auch diejenigen Wörter abgespeichert, auf die sich die satzbezogene Information bezieht.
Weiterhin können in der Tabelle der Fig. 1 folgende Eigenschaften abgespeichert sein:

Eigenschaft "vf"

Dabei handelt es sich um eine Angabe, aus der sich ergibt, auf welches andere Wort sich ein bestimmtes Verb des Beispieltextes bezieht. In der Tabelle ist dabei als Information das bestimmte Verb und das andere Wort des Beispieltextes zusammen mit der zugehörigen Häufigkeit des Auftretens in dem Beispieltext abgespeichert.

Eigenschaft "tr"

Dabei handelt es sich um eine Angabe, "wer" in einem bestimmten Satz "was" tut. Als Information ist in der Tabelle abgespeichert, wer in dem bestimmten Satz eine aktive Rolle innehat, und was der Inhalt dieser Rolle ist.

Eigenschaft "kb"

Dabei handelt es sich um einen Hinweis, aus dem hervorgeht, dass ein bestimmtes Wort des Beispieltextes in einer vorhandenen Datenbank enthalten ist. Die Datenbank wird vorab erstellt und enthält beispielsweise alle Produkte des Unternehmens. In diesem Fall handelt es sich somit um Produktdatenbank. In der Tabelle der Fig. 1 ist dann als Information das bestimmte, in der Datenbank enthaltene Wort und dessen Häufigkeit des Auftretens in dem Beispieltext abgespeichert.

Eigenschaft "da"

Dabei handelt es sich um sonstige Informationen. Dabei kann es sich ganz allgemein um semantische Informationen handeln, die gegebenenfalls sehr detailliert sein können.
Zusammengefasst stellt nur die erste Eigenschaft "word" ein quantitatives Kriterium für die Klassifizierung des Beispieltextes dar. Alle anderen beschriebenen Eigenschaften sind qualitativer Art und beziehen sich immer auf die Inhalte der Wörter oder der Sätze des Beispieltextes.
Sämtliche Beispieltexte werden nunmehr auf der Grundlage der vorstehenden Erläuterungen von dem Computersystem verarbeitet. Zu jedem Beispieltext wird auf diese Weise eine Tabelle erstellt, wie dies in der Fig. 1 dargestellt ist. Diese Tabelle stellt einen Vektor dar, der den betreffenden Beispieltext charakterisiert. Der Vektor eines bestimmten Beispieltextes enthält dabei entsprechend der Tabelle der Fig. 1 eine Vielzahl von Eigenschaften, zugehörigen Informationen und zugehörigen Häufigkeiten.
Weiterhin werden die einzelnen Beispieltexte bestimmten Klassen zugeordnet.
Hierzu werden zuerst Klassen definiert, die im Zusammenhang mit den Beispieltexten dazu geeignet sind, die Beispieltexte sinnvoll zu unterscheiden und einzuteilen. So können beispielsweise Klassen definiert werden, die den Produkten des Unternehmens entsprechen, was zur Folge hat, dass die Beispieltexte in Abhängigkeit von diesen Produkten eingeteilt werden. Ebenfalls können z. B. Klassen definiert werden, die bestimmten Abteilungen des Unternehmens entsprechen. Dies hat dann zur Folge, dass die Beispieltexte den unterschiedlichen Abteilungen zugeteilt werden.
Danach erfolgt die eigentliche Zuordnung der einzelnen Beispieltexte zu den einzelnen Klassen. Dabei ist zu beachten, dass es sich vorliegend um Beispieltexte handelt, die bekannt sind, und die somit ohne weiteres aufgrund ihres jeweiligen Inhalts den Klassen zugeteilt werden können.
Auf diese Weise wird eine Verknüpfung zwischen den Beispieltexten bzw. den daraus erstellten Tabellen bzw. Vektoren und den jeweils zugehörigen Klassen hergestellt.
Der gesamte, bisher beschriebene Vorgang erfolgt vor der eigentlichen Klassifizierung eines Textes und dient einzig der Erstellung einer Wissensbasis, auf deren Grundlage später die für eine vorzunehmende Klassifizierung erforderlichen Entscheidungen getroffen werden können. Dieser vorher ablaufende Vorgang wird deshalb auch als maschinelle Lernphase oder Off-line-Phase bezeichnet. Das danach ablaufende Klassifizieren von Texten wird als On-line-Phase bezeichnet.
Ein in der On-line-Phase zu klassifizierender Text wird auf dieselbe Art und Weise von dem Computersystem verarbeitet wie dies im Zusammenhang mit den Beispieltexten erläutert wurde.
Es wird also für den zu klassifizierenden Text eine Tabelle bzw. ein Vektor erstellt, wie dies in der Fig. 1 dargestellt ist.
Der Vektor des zu klassifizierenden Textes wird mit den Vektoren der Beispieltexte verglichen. In Abhängigkeit von diesem Vergleich wird der zu klassifizierende Text einer der vorab definierten Klassen zugeteilt.
Dies kann auf unterschiedliche Arten erfolgen.
Bei einer ersten Klassifikationsart, dem sogenannten "lazy learning", wird jedem Vektor der Beispieltexte zumindest eine Klasse zugeordnet. Verschiedene Vektoren können gleichen Klassen zugeordnet sein. Der neue Vektor des zu klassifizierenden Textes wird mit allen vorhandenen Vektoren verglichen. Der neue Vektor wird dann derjenigen Klasse zugeteilt, die demjenigen Vektor der Beispieltexte zugeordnet ist, der dem neuen Vektor am ähnlichsten ist.
Bei einer zweiten Klassifikationsart, der sogenannten "support vector machine (SVM)" werden zusammengehörige Beispieltexte und deren zugehörige Vektoren in eine gemeinsame Klasse eingeordnet. Zwischen den Klassen werden Grenzen ermittelt, so dass jede Klasse einen abgegrenzten Bereich des gesamten Vektorraums einnimmt. Für den neuen Vektor wird dann ermittelt, in welchem dieser abgegrenzten Bereiche er sich befindet. Der neue Vektor und damit der zu klassifizierende Text wird dann derjenigen Klasse zugeteilt, die demjenigen Bereich entspricht, in dem sich der neue Vektor befindet.
Bei einer dritten Klassifikationsart, dem sogenannten "symbolic eager learning", wird auf der Grundlage der erstellten Tabellen der Beispieltexte ein Entscheidungsbaum bzw. entsprechende Entscheidungsregeln erstellt. Jedem Blatt des Entscheidungsbaums ist eine bestimmte Klasse zugeordnet. Für den zu klassifizierenden Beispieltext wird dann dieser Entscheidungsbaum in Abhängigkeit von der neu erstellten Tabelle durchlaufen. Daraus ergibt sich dann diejenige Klasse, die dem zu klassifizierenden Beispieltext zuzuordnen ist.
Bei einer vierten Klassifikationsart, den sogenannten neuronalen Netzwerken, werden die erzeugten Tabellen mathematischen Operationen unterzogen, aus denen dann auf die jeweils zugehörigen Klassen geschlossen wird.
Unabhängig von der gewählten Klassifikationsart wird von dem Computersystem automatisch von der für einen zu klassifizierenden Text erstellten Tabelle bzw. dem daraus abgeleiteten Vektor auf eine bestimmte Klasse geschlossen, der der zu klassifizierende Text dann zugeordnet wird.
Bei dem beispielhaft genannten Unternehmen, bei dem eingehende Emails automatisch den zuständigen Sachbearbeitern zugeteilt werden sollen, ist nunmehr jeder Klasse zumindest ein zuständiger Sachbearbeiter zugeordnet. Nachdem der Text einer eingehenden Email von dem Computersystem einer bestimmten Klasse zugeteilt worden ist, ist es damit möglich, die Email automatisch an einen der zuständigen Sachbearbeiter weiterzuleiten.
Es wird nunmehr beispielhaft angenommen, dass ein Unternehmen ein Produkt "Der Oberst" in seinem Sortiment hat, und dass es sich bei diesem Produktes um ein Putzmittel handelt. Weiterhin wird angenommen, dass Beispieltexte vorhanden sind, die sich auf dieses Produkt beziehen, und in denen zumindest das Wort "Oberst" enthalten ist.
In der Off-line-Phase wird das Wort "Oberst" in den Tabellen bzw. Vektoren dieser Beispieltexte unter anderem auch unter der Eigenschaft "kb" abgespeichert, wobei davon ausgegangen wird, dass eine Produktdatenbank vorhanden ist, in der auch das Produkt "Der Oberst" abgespeichert ist. Weiterhin werden die auf dieses Produkt bezogenen Beispieltexte in der Off- line-Phase z. B. einer Produktklasse zugeordnet, die sich auf das Produkt "Der Oberst" bezieht.
Wenn dieses Unternehmen in der On-line-Phase nunmehr eine Email erhält, in dessen Text das Wort "Oberst" enthalten ist, so wird dieser Text durch das vorstehend beschriebene Verfahren derjenigen Produktklasse zugeteilt, die sich auf das Produkt "Der Oberst" bezieht. Dies erfolgt insbesondere dadurch, dass das in dem erhaltenen Text enthaltene Wort "Oberst" in derselben Weise eine Eigenschaft "kb" in seiner zugehörigen Tabelle bzw. seinem zugehörigen Vektor zur Folge hat wie in den Beispieltexten. Bei dem Vergleich des neu erstellten Vektors mit den Vektoren der Beispieltexte entsteht dann aufgrund dieser Übereinstimmung eine große Ähnlichkeit, so dass der zu klassifizierende Text derselben Produktklasse zugeordnet wird wie die entsprechenden Beispieltexte.
Das vorstehend anhand der Fig. 1 beschriebene Verfahren zur Klassifizierung eines Textes kann mit Hilfe des nachfolgend anhand der Fig. 2 und 3 beschriebenen Verfahrens weiter verbessert werden.
In der Fig. 2 sind eine Mehrzahl von Texten dargestellt, bei denen es sich beispielsweise um die Emails handeln kann, die im Zusammenhang mit der Fig. 1 erwähnt worden sind. Diese Texte sind mit der Bezugsziffer 21 gekennzeichnet. Wie bei dem anhand der Fig. 1 beschriebenen Verfahren erläutert worden ist, wird aus jedem dieser Texten eine Tabelle abgeleitet. Dieses Verfahren der Fig. 1 ist in der Fig. 2 mit der Bezugsziffer 22 gekennzeichnet.
Es wird nunmehr den verschiedenen Eigenschaften, die im Zusammenhang mit der Fig. 1 erläutert worden sind, jeweils ein Gewicht zugeordnet. Die unterschiedlichen Informationen ein- und desselben Eigenschaft besitzen dann dieses, der Eigenschaft zugeordnete Gewicht.
Es folgt dann ein Probierverfahren wie folgt:
In einem ersten Durchlauf werden die Gewichte auf einen Startwert gesetzt. Dies ist in der Fig. 1 durch einen Block 23 gekennzeichnet. Dabei ist es möglich, dass die Gewichte aller Eigenschaften auf denselben Startwert festgelegt werden. Ebenfalls ist es möglich, die Startwerte unterschiedlich zu definieren, beispielsweise derart, dass die Eigenschaft "word" das geringste Gewicht erhält, die Eigenschaft "stem" ein nächst höheres Gewicht, die Eigenschaft "pos" ein wiederum nächst höheres Gewicht, und so weiter, so dass das Gewicht einer Eigenschaft umso größer ist, je weiter unten diese Eigenschaft in der Tabelle der Fig. 1 angeordnet ist.
Danach wird ein sogenanntes "leave one out estimation" Verfahren durchgeführt, das nachfolgend anhand der Fig. 3 erläutert wird. Dieses Verfahren ist in der Fig. 2 durch einen Block 24 gekennzeichnet. Das "leave one out estimation" Verfahren erzeugt ein Ergebnis, in dessen Abhängigkeit danach die Startwerte der Gewichte überprüft und gegebenenfalls verändert werden. Die Überprüfung ist in der Fig. 2 durch einen Block 25 gekennzeichnet. Die Änderung der Gewichte erfolgt dann in dem Block 23.
Mit den geänderten Gewichten wird nunmehr das "leave one out estimation" Verfahren des Blocks 24 erneut durchgeführt. In Abhängigkeit von dessen Ergebnis werden dann von dem Block 24 wiederum die Gewichte überprüft und in dem Block 23 geändert.
Dieses Verfahren erfolgt so lange, bis in dem Block 24 festgestellt wird, dass keine weitergehende Änderung der Gewichte mehr erforderlich oder sinnvoll ist. Dies kann z. B. dann der Fall sein, wenn sich das Ergebnis des "leave one out estimation" Verfahrens nicht mehr ändert, selbst wenn einzelne Gewichte noch verändert werden.
Bei dem "leave one out estimation" Verfahren der Fig. 3 wird wiederum von der Mehrzahl von Texten ausgegangen, die mit der Bezugsziffer 21 gekennzeichnet sind. Diese Texte sind bekannt und es ist auch ihre Zuordnung zu jeweils einer bestimmten von mehreren vorhandenen Klasse bekannt. Bei den Texten kann es sich beispielsweise um die Beispieltexte handeln. Es wird zum Zwecke der einfacheren Erläuterung angenommen, dass die Texte durchnumeriert sind.
In einem ersten Durchlauf wird aus der Mehrzahl der Beispieltexte der Text mit der Nummer 1 herausgegriffen. Dies ist in der Fig. 3 mit der Bezugsziffer 26 gekennzeichnet. Es entsteht damit ein Testtext 27 und es verbleiben die restlichen Texte 28.
Auf der Grundlage der restlichen Texte 28 wird nunmehr nach dem Verfahren der Fig. 1 eine entsprechende Anzahl von Tabellen bzw. Vektoren erzeugt. Jede Tabelle bzw. jeder Vektor wird derjenigen Klasse zugeordnet, zu der der jeweils zugehörige Text gehört. Danach wird auf alle Tabellen bzw. Vektoren das Lernverfahren angewendet. Dies stellt die offline-Phase der Klassifizierung dar.
Daraufhin wird der Testtext 27 auf der Grundlage der vorstehenden offline-Phase einer der vorhandenen Klassen zugeteilt. Dies stellt die on-line-Phase der Klassifizierung dar. Die vorstehende Klassifizierung ist dabei in der Fig. 3 mit der Bezugsziffer 29 gekennzeichnet.
Es wird nunmehr überprüft, ob die ermittelte Klasse des Testtextes 27 mit derjenigen Klasse übereinstimmt, der der Testtext 27 bekannterweise zugehört. Diese Überprüfung kann zu einem positiven oder negativen Ergebnis führen. Das Ergebnis wird abgespeichert. Die Überprüfung und die Abspeicherung des Ergebnisses sind in der Fig. 3 mit der Bezugsziffer 30 gekennzeichnet.
Danach wird das Verfahren wieder mit dem Block 26 fortgesetzt, also mit der Aufteilung der Mehrzahl der Texte in einen Testtext 27 und die restlichen Texte 28. Bei dem nunmehr vorliegenden zweiten Durchlauf wird der Text mit der Nummer 2 aus der Mehrzahl der Beispieltexte herausgegriffen und als Testtext 27 gewählt. Der Text mit der Nummer 1, der im ersten Durchlauf als Testtext verwendet wurde, gehört damit zu den restlichen Texten 28.
Mit diesen neuen restlichen Texten 28 und dem neuen Testtext 27 wird wiederum die Klassifizierung des neuen Testtextes 27 durchgeführt, wie dies durch den Block 29 der Fig. 3 dargestellt ist. Das Ergebnis dieser Klassifizierung wird in dem Block 30 abgespeichert.
Dieses Verfahren wird so lange wiederholt, bis jeder der Mehrzahl der Beispieltexte ein Mal als Testtext herangezogen wurde. In dem Block 30 ist dann eine Mehrzahl von Ergebnissen abgespeichert, die der Mehrzahl der Beispieltexte entspricht.
Beispielsweise ist es möglich, dass in dem Block 30 eine erste Anzahl von positiven Ergebnissen und eine zweite Anzahl von negativen Ergebnissen abgespeichert sind, wobei die Summe der ersten und der zweiten Anzahl - wie erwähnt - der Mehrzahl von Beispieltexten entspricht. In Abhängigkeit von diesen positiven und negativen Ergebnissen werden dann die Gewichte verändert, wie dies im Zusammenhang mit der Fig. 2 erläutert worden ist. Dabei wird die Veränderung der Gewichte mit dem Ziel vorgenommen, dass die zweite Anzahl von negativen Ergebnissen möglichst gegen Null geht oder gar zu Null wird.
Bei der Änderung der Gewichte handelt es sich um ein Probierverfahren. Dies bedeutet, dass Änderungen der Gewichte vorgenommen werden, ohne dass dies durch eine bestimmte Strategie oder dergleichen begründet wäre. Wie bereits erläutert wurde, wird das Verfahren der Fig. 2 dann abgebrochen, wenn eine Veränderung von Gewichten nicht mehr zu Änderungen der Ergebnisse des Blocks 30 führt.

Claims

1. Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem, bei dem eine Eigenschaft eines Wortes des zu klassifizierenden Textes ermittelt wird, bei dem die Häufigkeit des Vorkommens dieser Eigenschaft in dem zu klassifizierenden Text ermittelt wird, bei dem die ermittelte Häufigkeit mit vorab ermittelten Häufigkeiten des Vorkommens dieser Eigenschaft in einer Mehrzahl von Beispieltexten verglichen wird, wobei jeder der Beispieltexte einer Klasse zugeordnet ist, und bei dem der zu klassifizierende Text in Abhängigkeit von diesem Vergleich in eine derjenigen Klassen zugeordnet wird, die den Beispieltexten zugeordnet sind.

2. Verfahren nach Anspruch 1, bei dem sich die Eigenschaft eines Wortes auf den Inhalt des Wortes bezieht.

3. Verfahren nach Anspruch 1, bei dem als Eigenschaft der Wortstamm eines Wortes des Textes ermittelt wird, und bei dem die Häufigkeit des Vorkommens dieses Wortstamms in dem Text ermittelt wird.

4. Verfahren nach Anspruch 1, bei dem als Eigenschaft die Wortart eines Wortes ermittelt wird, und bei dem die Häufigkeit des Vorkommens dieser Wortart des Wortes in dem Text ermittelt wird.

5. Verfahren nach Anspruch 1, bei dem als Eigenschaft ein Synonym eines Wortes des Textes ermittelt wird, und bei dem die Häufigkeit des Vorkommens dieses Synonyms in dem Text ermittelt wird.

6. Verfahren nach Anspruch 5, bei dem es sich um ein Synonym derselben oder einer übergeordneten Stufe handelt.

7. Verfahren nach Anspruch 1, bei dem sich die Eigenschaft des Wortes auf den Inhalt des Satzes bezieht, zu dem das Wort gehört.

8. Verfahren nach Anspruch 1, bei dem als Eigenschaft ein idiomatischer Ausdruck eines oder mehrerer Wörter des Textes ermittelt wird, und bei dem die Häufigkeit des Vorkommens dieses idiomatischen Ausdrucks in dem Text ermittelt wird.

9. Verfahren nach Anspruch 1, bei dem es sich bei der Eigenschaft um eine Angabe handelt, aus der sich ergibt, auf welches andere Wort sich ein bestimmtes Verb des Beispieltextes bezieht.

10. Verfahren nach Anspruch 1, bei dem es sich bei der Eigenschaft um eine Angabe handelt, wer in einem bestimmten Satz was tut.

11. Verfahren nach Anspruch 1, bei dem es sich bei der Eigenschaft um einen Hinweis handelt, aus dem hervorgeht, dass ein bestimmtes Wort in einer vorhandenen Datenbank enthalten ist.

12. Verfahren nach Anspruch 1, bei dem es sich bei der Eigenschaft um sonstige Informationen handelt, insbesondere um semantische Informationen.

13. Verfahren nach einem der vorstehenden Ansprüche, bei dem mehrere unterschiedliche Eigenschaften vorhanden sind, bei dem die Häufigkeiten des Vorkommens der verschiedenen Eigenschaften in der Mehrzahl der Beispieltexte ermittelt und zusammen mit den Eigenschaften abgespeichert werden, und bei dem die Häufigkeiten des Vorkommens derselben Eigenschaften in dem zu klassifizierenden Text ermittelt und zusammen mit den Eigenschaften abgespeichert werden.

14. Verfahren nach Anspruch 13, bei dem die Häufigkeiten des Vorkommens der verschiedenen Eigenschaften der Beispieltexte mit den Häufigkeiten des Vorkommens derselben Eigenschaften des zu klassifizierenden Textes verglichen und in Abhängigkeit von diesem Vergleich der zu klassifizierende Text klassifiziert wird.

15. Verfahren nach einem der vorstehenden Ansprüche, bei dem mehrere unterschiedliche Eigenschaften vorhanden sind, und bei dem den verschiedenen Eigenschaften unterschiedliche Gewichte zugeordnet werden.

16. Verfahren nach Anspruch 15, bei dem die Gewichte mit Hilfe eines Probierverfahrens bestimmt werden.

17. Verfahren nach Anspruch 16, bei dem den verschiedenen Eigenschaften jeweils ein Startwert als Gewicht zugeordnet wird, bei dem dann ein "leave one out estimation" Verfahren durchgeführt wird, und bei dem in Abhängigkeit von einem Ergebnis dieses Verfahrens die Startwerte verändert werden.

18. Verfahren nach Anspruch 16 oder 17, bei dem das Verfahren beendet wird, wenn sich durch eine Veränderung der Gewichte keine Veränderung des Ergebnisses des Verfahrens mehr ergibt.

19. Computer-Programm mit Programmcode zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 18, wenn das Computer-Programm auf einem Computersystem abläuft.

20. Computer-Programm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 18, wenn das Computer-Programm-Produkt auf einem Computersystem abläuft.

21. Computersystem zum automatischen Klassifizieren eines Textes, mit Mitteln zum Ermitteln einer Eigenschaft eines Wortes des zu klassifizierenden Textes, mit Mitteln zum Ermitteln der Häufigkeit des Vorkommens dieser Eigenschaft in dem zu klassifizierenden Text, mit Mitteln zum Vergleichen der ermittelten Häufigkeit mit vorab ermittelten Häufigkeiten des Vorkommens dieser Eigenschaft in einer Mehrzahl von Beispieltexten, wobei jeder der Beispieltexte einer Klasse zugeordnet ist, und mit Mitteln zum Zuordnen des zu klassifizierenden Textes in Abhängigkeit von diesem Vergleich in eine derjenigen Klassen, die den Beispieltexten zugeordnet sind.