DE102004014139B4 - System und Verfahren zum Klassifizieren von elektronischen Nachrichten - Google Patents
System und Verfahren zum Klassifizieren von elektronischen Nachrichten Download PDFInfo
- Publication number
- DE102004014139B4 DE102004014139B4 DE102004014139A DE102004014139A DE102004014139B4 DE 102004014139 B4 DE102004014139 B4 DE 102004014139B4 DE 102004014139 A DE102004014139 A DE 102004014139A DE 102004014139 A DE102004014139 A DE 102004014139A DE 102004014139 B4 DE102004014139 B4 DE 102004014139B4
- Authority
- DE
- Germany
- Prior art keywords
- evaluation
- message
- messages
- unit
- valuation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Revoked
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
System
(1) zum Klassifizieren von elektronischen Nachrichten (2), die in
einer Empfangsvorrichtung empfangen wurden, wobei das System (1)
zumindest zwei Bewertungseinheiten (11, 12) umfasst, dadurch gekennzeichnet,
dass den Bewertungseinheiten (11, 12) eine Kombinationseinheit (13)
zugeordnet ist, die so ausgelegt ist, dass mit dieser die Bewertungen
der einzelnen Bewertungsverfahren kombiniert werden können und
diese kombinierte Bewertung zur Zuordnung zu zumindest einer Klasse
verwendet werden kann, und der Ausgang der Kombinationseinheit (13)
mit zumindest einem Eingang einer der Bewertungseinheiten (12) verbunden
ist.
Description
- Die vorliegende Erfindung betrifft ein System und ein Verfahren zum Klassifizieren von elektronischen Nachrichten, insbesondere von elektronischen Nachrichten, die auf einer Empfangsvorrichtung empfangen werden.
- Elektronische Nachrichten, wie beispielsweise elektronische Post (E-Mail), wird zunehmend verwendet, um Werbemitteilungen oder dergleichen einer Vielzahl von Empfängern schnell und einfach zur Verfügung zu stellen. Ein Großteil dieser Mitteilungen ist aber von dem Empfänger gar nicht gewünscht. Da die Anzahl dieser sogenannten „Spam" oder „UCE" (Unsoliceted Commercial Email), im Folgenden als Spam bezeichnet, immer mehr zunimmt und dadurch für den Empfänger das Sichten und Aussortieren der E-Mails einen erhöhten Zeit und Kostenaufwand darstellt, sind Filter entwickelt worden, die Spam erkennen und diese in einen separaten Ordner ablegen oder löschen. Die Filter bedienen sich hierzu eines Verfahrens zum Erkennen unerwünschter E-Mail. Diese Verfahren können grob in zwei Gruppen unterteilt werden.
- Bei einem Verfahren der ersten Gruppe wird im Wesentlichen eine Suche nach festen Mustern und „verdächtigen" Kopfzeilen oder beispielsweise ungültigen Domains des Absenders in einer E-Mail durchgeführt. Diese Muster basieren auf Vorgaben, die in der Regel vom Hersteller beziehungsweise vom Vertreiber des Filters vorgegeben werden. Zusätzlich können bei diesem Verfahren auch positive Kriterien berücksichtigt werden. So kann beispielsweise eine White-List von Mail-Clients, die als sicher angesehen werden können, das heißt denen der Empfänger vertraut, berücksichtigt werden. Aufgrund dieser Regeln wird eine Gesamtwahrscheinlichkeit berechnet, ob die E-Mail als Spam anzusehen ist. Anhand dieser Gesamtwahrscheinlichkeit wird dann eine Sortierung vorgenommen.
- Bei dem Verfahren der zweiten Gruppe wird eine statistische Bewertung jedes Wortstücks einer E-Mail und/ oder andere Teile einer E-Mail, wie der Angaben über sogenannte „embedded" html- und Java-Scripts, gegen eine Datenbasis durchgeführt und daraus die Gesamtwahrscheinlichkeit errechnet. Die Wortstücke und anderen Teile, die bei diesem Verfahren als Vergleichbasis dienen, werden im Folgenden als Tokens bezeichnet. Bei diesem Verfahren wird die Datenbasis ständig erweitert, um die Resultate zu verbessern. Diese Art der Erkennung von Spam wird auch als Bayes'sches-Verfahren bezeichnet. Ein Filter, der dieses Verfahren einsetzt, ist beispielsweise in der
US 6,161,130 A beschrieben. - Der Nachteil des erstgenannten regelbasierenden Verfahrens besteht darin, dass die Suche nach einzelnen Kriterien in der E-Mail statisch erfolgt. Für Versender von Spam ist es somit einfach Schlüsselbegriffe zu vermeiden oder diese zu verschleiern. Dies kann beispielsweise durch Ersetzen eines Buchstabens in einem Schlüsselwort durch ein Sonderzeichen erfolgen. Zudem kann die Suche nach technischen Auffälligkeiten in der Kopfzeile zu Falscherkennungen (sogenannten „false positives") führen. Beispielsweise wird ein Massenversand eines Katalogs selbst dann als Spam erkannt, wenn der Empfänger diesen bestellt hat. Schließlich können die Ansichten einzelner Empfänger bezüglich der Auffassung, was als Spam anzusehen ist und was nicht, stark differieren. Dies kann bei dem regelbasierten Verfahren nicht berücksichtigt werden. Somit ist das Verfahren relativ statisch und unflexibel.
- Obwohl durch das Bayes'sche-Verfahren ein prinzipiell besseres Ergebnis erzielt werden kann, insbesondere da die Datenbasis, derer sich das Verfahren bedient, nutzerspezifisch ist, weist auch dieses Verfahren Nachteile auf. Ein wesentliches Problem stellt der korrekte Inhalt der Datenbasis dar. Um eine benutzbare Datenbasis aufbauen zu können und das Verfahren zuverlässig durchführen zu können, werden etwa 5000 bis 10.000 E-Mails benötigt. Bis zur ausreichenden Anfüllung der Datenbasis kann somit keine zuverlässige Filterung vorgenommen werden. Zudem ist der Aufbau der Datenbasis in der Regel händisch, das heißt durch den Benutzer, vorzunehmen. Dies bedeutet einen erheblichen Zeitaufwand und birgt die Gefahr der versehentlichen falschen Klassifizierung durch den Benutzer in sich.
- Weitere Filterverfahren des Standes der Technik sind beispielsweise das in der
US 5,999,932 A beschriebene Filterverfahren, bei dem heuristische Regeln der Filterung zugrunde gelegt werden. US 2004/0039786 A1 offenbart ein Filtersystem, in dem ein erster und ein zweiter Filter verwendet werden, wobei einer der Filter die Klassifizierung von Massennachricht vornimmt und der weitere Filter die Nachrichten nach deren Dringlichkeit oder Wichtigkeit filtert. - In der WO 2004/079501 A2 ist ein Filtersystem zum Filtern von Nachrichten beschrieben, wobei das System einen so genannten Seed-Filter umfasst, dem eine False Positive und eine False Negative Rate zugeordnet ist. Weiterhin wird in dem Filtersystem ein neuer Filter verwendet, mit dem Nachrichten gefiltert werden. Der neue Filter wird entsprechend der False Positive und False Negative Rate des Seed-Filters beurteilt. Die Daten, die zur Bestimmung der False Positive und der False Negative Rate des Seed Filters verwendet werden, werden ebenfalls dazu eingesetzt die False Positive und die False Negative Rate für den neuen Filter in Abhängigkeit eines Schwellwertes zu berechnen. Der neue Filter wird statt des Seed-Filters verwendet, wenn ein Schwellwert für den neuen Filter besteht, bei dem die neue False Positive und die neue False Negative Rate gemeinsam als besser angesehen werden, als die False Positive und die False Negative Rate des Seed-Filters.
- In dem System ist weiterhin eine Filterkontrolleinheit vorgesehen, die von dem Nutzer durchgeführte Korrektur des Filterergebnisses eines der beiden Filter aufzunehmen. Anhand der durch die Nutzerinteraktion bestimmbare False Negative oder False Positive Rate wird in der Filterkontrolleinheit entschieden, welcher Filter für die weitere Filterung genutzt wird.
- Der Nachteil bei diesem Filtersystem ist erneut die Tatsache, dass die Güte des Filterergebnisses in Abhängigkeit von Angaben eines Nutzers beurteilt wird, wodurch es zu falschen Klassifizierungen kommen kann.
- Es ist daher Aufgabe der vorliegenden Erfindung ein System und ein Verfahren zum Klassifizieren von elektronischen Nachrichten, insbesondere von elektronischen Nachrichten, zu schaffen. Bei dem Verfahren und dem System sollen unerwünschte Nachrichten zuverlässig erkannt werden können und die Anzahl von fälschlich klassifizierten Nachrichten, insbesondere die Einstufung von legitimen E-Mails als Spam, gering sein. Zusätzlich sollen das Verfahren und das System schnell, einfach und zuverlässig auf die Anforderungen des Benutzers angepasst werden können, wobei die Anpassung nicht manuell erfolgen muss.
- Der Erfindung liegt die Erkenntnis zugrunde, dass diese Aufgabe gelöst werden kann, indem unterschiedliche Erkennungsverfahren angewandt werden und als Basis für zumindest eines der Erkennungsverfahren zumindest zeitweise nur Ergebnisse verwendet werden, die durch beide Verfahren bestätigt wurden.
- Die Aufgabe wird daher gemäß einem Aspekt der Erfindung gelöst durch ein Verfahren zum Klassifizieren von elektronischen Nachrichten, die auf einer Empfangsvorrichtung empfangen werden. Das Verfahren zeichnet sich dadurch aus, dass die empfangene Nachricht einem ersten Bewertungsverfahren und mindestens einem zweiten Bewertungsverfahren unterzogen wird, wobei der Nachricht in den Bewertungsverfahren jeweils eine Bewertung zugeordnet wird, die Bewertungen der beiden Bewertungsverfahren miteinander kombiniert werden, die Nachricht aufgrund der kombinierten Bewertung mindestens einer Klasse zugeordnet wird und Nachrichten zumindest einer Klasse zumindest teilweise für die Bewertung von weiteren Nachrichten in zumindest einem der Bewertungsverfahren verwendet werden.
- Im Folgenden wird die Erfindung im wesentlichen anhand von elektronischen Nachrichten in Form von E-Mails beschrieben. Dennoch ist die Erfindung nicht auf diese Art von Nachrichten beschränkt. Als Nachrichten, die mittels des erfindungsgemäßen Verfahrens klassifiziert werden können, können beispielsweise auch andere elektronische Textnachrichten, wie SMS-Nachrichten, verwendet werden. Die im Folgenden als Spam bezeichneten Nachrichten sind in diesen Fällen als unerwünschte Nachricht der entsprechenden Art zu verstehen. Die Klassen, in die die Nachrichten eingeteilt werden können, sind vorzugsweise die Klassen „Spam" und „kein Spam". Es ist aber auch möglich, die Nachrichten in folgende Klassen zu einzuteilen: „Spam nach allen Bewertungsverfahren", „Spam nur nach erstem Bewertungsverfahren", „Spam nur nach zweitem Bewertungsverfahren", „kein Spam nach allen Bewertungsverfahren".
- Je nach der Art der Klassifizierung wird die Klasse gewählt, deren Nachrichten als Referenznachrichten für die Bewertung weiterer Nachrichten verwendet werden sollen. In dem bevorzugten Fall der Klassifizierung in „Spam" und „kein Spam" ist diese Klasse in der Regel die Klasse „Spam". Bei der diversifizierten Klassifizierung kann die Referenzklasse zum Beispiel die Klasse sein, in der Nachrichten enthalten sind, die nach allen Verfahren als Spam eingestuft wurden.
- Somit können beispielsweise die aufgrund aller Bewertungsverfahren als Spam bewertete Nachrichten zuverlässig einer Datenbasis für eines der oder alle Bewertungsverfahren zugeführt werden und diese so aufgebaut und aktualisiert werden. Diese Kalibrierung eines Verfahrens aufgrund von Entscheidungen, die von unterschiedlichen Verfahren vorzugsweise einheitlich getroffen wurden, erhöht die Qualität der Datenbasis und damit im Laufe der Zeit die Entscheidungsgenauigkeit des Verfahrens, das auf die Datenbasis zugreift.
- Als Bewertung wird vorzugsweise die Wahrscheinlichkeit einer Nachricht eine vom Empfänger unerwünschte Nachricht zu sein verwendet. Diese Bewertung kann in Prozentzahlen oder als Wert zwischen 0 und 1 angegeben werden, wobei 0 „kein Spam" und 1 „Spam" bedeutet. In diesem Fall kann von dem Benutzer ein Grenzwert der Wahrscheinlichkeit vorgegeben, ab dem die Nachrichten als Spam bewertet werden sollen.
- Gemäß einer Ausführungsform werden die mindestens zwei Bewertungsverfahren unabhängig voneinander durchgeführt. Hierzu kann die empfangene Nachricht gleichzeitig zumindest zwei Bewertungseinheiten zur Durchführung der Bewertungsverfahren zugeführt werden oder eine Nachricht gleichzeitig von zwei oder mehr Bewertungsverfahren analysiert werden. Im ersten Fall kann eine Blindkopie an die entsprechende Einheit gesandt werden. Bevorzugt ist es aber auch möglich, die Nachricht sequentiell zuerst einem und anschließend dem mindestens zweiten Bewertungsverfahren zu unterwerfen. Hierbei ist zu beachten, dass in den Bewertungseinheiten keine Filterung der Nachrichten, sondern lediglich eine Bewertung erfolgt, die einer späteren Filterung beziehungsweise Klassifizierung zugrunde gelegt wird. Die Nachrichten können in den Bewertungsverfahren mit einer Bewertung versehen und weitergeleitet werden. Werden die Bewertungsverfahren nacheinander durchgeführt, kann somit sicher gestellt werden, dass eine Nachricht, die von einem ersten Bewertungsverfahren als Spam erkannt wird, dennoch dem zweiten Bewertungsverfahren unterzogen wird.
- Die Nachrichten, die für die Bewertung weiterer Nachrichten verwendet werden, und im Folgenden als Referenznachrichten bezeichnet werden, werden vorzugsweise zumindest teilweise in einer Datenbank abgelegt, auf die mindestens eines der Bewertungsverfahren zugreift. Durch das Ablegen von zumindest Teilen der Nachricht können sowohl Listen von Absender-Angaben, deren Nachrichten stets als erwünschte Nachricht angesehen werden soll (sogenannte White-Lists), erzeugt werden. Die Teile der Nachricht, die abgelegt werden, können aber auch Tokens sein, deren Vorliegen auf eine Spam hinweisen. Dadurch kann eine Datenbasis für eines oder beide der Bewertungsverfahren aufgebaut werden und auf dem neuesten Stand gehalten werden.
- Vorzugsweise umfassen die mindestens zwei Bewertungsverfahren unterschiedliche Verfahrensschritte. Auf diese Weise wird es möglich, Nachteile, die gegebenenfalls bei einem Bewertungsverfahren auftreten, durch das andere Bewertungsverfahren zu beheben.
- Zumindest eines der Bewertungsverfahren kann erfindungsgemäß eine statische Bewertung durchführen. Unter statischer Bewertung wird insbesondere eine Bewertung anhand von vorgegebenen Regeln, insbesondere heuristischen Regeln, verstanden, bei denen ein der Vergleich von Mustern in einer E-Mail, die Überprüfung von Kopfzeilen und dergleichen vorgenommen wird. Hierbei werden Muster und Regeln verwendet, die beispielsweise vom Hersteller des Filters festgelegt werden und auf die der Benutzer keinen Einfluss hat. Eine solche Bewertung kann von Beginn der Benutzung des Klassifizierungsverfahrens an eingesetzt werden, da die Regeln vorgegeben sind.
- In mindestens einem der Bewertungsverfahren wird vorzugsweise eine Wahrscheinlichkeit der Zugehörigkeit der Nachricht zu einer Klasse bestimmt. Diese Klasse ist in diesem Fall die Klasse, der die Nachrichten zugeordnet werden, die durch dieses Bewertungsverfahren als Spam angesehen werden. Durch die Zuordnung einer Wahrscheinlichkeit durch mindestens ein Verfahren, vorzugsweise durch alle Bewertungsverfahren kann die Aussagekraft des Gesamtergebnisses verbessert werden. Statt lediglich das Ergebnis zu erhalten „Nachricht ist Spam" oder „Nachricht ist keine Spam", wird ein Wahrscheinlichkeitswert für die Zugehörigkeit zu der Klasse „Nachricht ist Spam" geliefert. Hierdurch kann die Flexibilität des Verfahrens noch gesteigert werden, da die Werte, die für die Zuordnung zu dieser Klasse verwendet werden, gegebenenfalls benutzerspezifisch eingestellt werden können.
- Gemäß einer bevorzugten Ausführungsform wendet mindestens eines der Bewertungsverfahren eine Bayes-Methode an. Als Bayes'sche Methode oder Verfahren wird erfindungsgemäß insbesondere ein Verfahren bezeichnet, das eine statistische Bewertung in Abhängigkeit von einer Datenbasis ausführt, die beispielsweise durch den Benutzer oder andere Programme beziehungsweise Verfahren verändert oder aufgefüllt wird. Die Datenbasis ist somit als dynamisch anzusehen. Dieses Verfahren wird mit einer kleinen Datenbasis von beispielsweise etwa 1.000 Nachrichten initialisiert.
- Vorzugsweise ist eines der Bewertungsverfahren benutzerspezifisch ausgelegt beziehungsweise kann benutzerspezifisch variiert werden. Insbesondere wenn nur eines der Bewertungsverfahren benutzerspezifisch ist, können über dieses Verfahren im Laufe der Zeit die Präferenzen des Benutzers Berücksichtigung finden, während von Beginn an beispielsweise durch vom Hersteller vorgegebene Regeln in einem statischen Verfahren bereits eine Klassifizierung stattfinden kann.
- Gemäß einer Ausführungsform des Verfahrens wird bei der Klassifizierung der Nachrichten die Bewertung mindestens eines Bewertungsverfahrens vorrangig berücksichtigt. Vorrangige Berücksichtigung kann erfindungsgemäß bedeuten, dass das Ergebnis nur eines Bewertungsverfahrens für die Klassifikation verwendet wird. Alternativ kann es bedeuten, dass insbesondere bei Verfahren, die Wahrscheinlichkeitswerte als Bewertungsergebnis ausgeben, der Wert eines Verfahrens mit einem höheren Faktor in die Gesamtwahrscheinlichkeit einfließt. Durch diese Wichtung kann in Abhängigkeit der Präferenz des Benutzers, dem Umfang gespeicherter Daten oder anderer Umstände einem Verfahren zumindest zeitweise ein Vorrang eingeräumt werden.
- Der Vorrang, der mindestens einem Bewertungsverfahren eingeräumt wird, wird vorzugsweise über die Zeit geändert. Diese dynamische Kombination der Bewertungsverfahren ist besonders vorteilhaft, da durch diese Zeitabhängigkeit je nach Dauer der Benutzung automatisch das zuverlässigere Bewertungsverfahren mehr berücksichtigt werden kann.
- Vorzugsweise wird dem Bewertungsverfahren, das die Referenznachrichten, das heißt die Nachrichten einer Klasse für die Bewertung weiterer Nachrichten, verwendet, mit zunehmender Zeit eine größere Gewichtung bei der Kombination der Bewertungen zugeteilt. Da dieses Verfahren über die Zeit mit Daten versorgt wird, die bereits durch zwei Bewertungsverfahren klassifiziert wurden, wird die Zuverlässigkeit dieses Verfahrens gegenüber der Zuverlässigkeit eines anderen Bewertungsverfahrens das beispielsweise nur auf vorgegebene Regeln und Muster zurückgreift, ansteigen.
- Das Verfahren, dessen Gewichtung mit der Zeit zunimmt, stellt vorzugsweise ein Bewertungsverfahren dar, das eine statistische Bewertung und Bestimmung einer Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse durchführt. Besonders bevorzugt ist dieses Verfahren ein Verfahren dass nach dem Bayes'schen Verfahren arbeitet, da dieses auf eine Datenbasis zugreift, die mittels der Kombination der beiden Bewertungsverfahren zuverlässig mit Daten versorgt werden kann. Hierbei kann der prozentuale Anteil, den eines der Verfahren an der Gesamtbewertung hat, in Abhängigkeit der Anzahl „gelernten" Nachrichten in der Datenbasis linear oder dynamisch zunehmen.
- Nach dem Erzielen einer vorgegebenen Anzahl von Referenznachrichten, das heißt Nachrichten in der Klasse, die für die Bewertung weiterer Nachrichten verwendet wird, kann ausschließlich das Bewertungsverfahren, das diese Referenznachrichten verwendet, durchgeführt werden. In diesem Fall dient das mindestens zweite Bewertungsverfahren als Überbrückung für die Anlernzeit eines Bewertungsverfahrens, das eine Datenbasis mit einem gewissen Datenbestand benötigt. Das mindestens zweite Bewertungsverfahren dient somit als Lernprogramm für das Bewertungsverfahren, das ab einem gewissen Zeitpunkt gegebenenfalls alleine eingesetzt werden soll.
- In dem erfindungsgemäßen Verfahren können zumindest teilweise manuell vom Benutzer eingegebene Informationen berücksichtigt werden. Im Gegensatz zu einem Verfahren bei dem der Benutzer die gesamte Datenbasis für ein Bewertungsverfahren erstellen muss, ist das Eingreifen des Benutzers zur Erstellung der Datenbasis nicht zwangsläufig notwendig. Der Benutzer kann efindungsgemäß aber Informationen bezüglich eines Stücks einer Nachricht eingeben und diese Informationen können bei der Bewertung der Nachricht oder bei der Klassifizierung der Nachricht berücksichtigt werden. Das Stück der Nachricht kann die Identifikation des Senders der Nachricht betreffen. Hierdurch kann von dem Benutzer beispielsweise eine sogenannte White-List erstellt werden.
- Alternativ oder zusätzlich kann der Benutzer Informationen bezüglich der Klasse einer Nachricht eingeben. Diese von dem Benutzer eingegebene Information kann insbesondere eine Korrektur der aufgrund der kombinierten Bewertung der mindestens zwei Bewertungsverfahren ermittelten Klasse darstellt. Eine solche Umklassifizierung einer Nachricht durch den Benutzer kann auch für die Bewertung weiterer Nachrichten berücksichtigt werden. Durch diese Korrektur durch den Benutzer wird die Entscheidungsgenauigkeit des Bewertungsverfahrens, das auf die Datenbasis zugreift, verbessert.
- Die Informationen, die von dem Benutzer eingegeben werden, werden in zumindest einer Speichereinheit abgelegt und zumindest bei der Durchführung eines der Bewertungsverfahren oder der Klassifizierung der Nachrichten wird auf diese Speichereinheit zugegriffen. Auf diese Weise kann beispielsweise durch das Einstellen einer White-List durch den Benutzer eine durch die Bewertungsverfahren als Spam klassifizierte Nachricht dennoch als legitime Nachricht behandelt werden. Somit können „false positives" vermieden werden.
- In zumindest einem Bewertungsverfahren wird die Nachricht in Stücke unterteilt und die Bewertung erfolgt anhand zumindest eines Teils der Stücke. Vorzugsweise werden hierbei die Nachrichten für die Bewertung in Stücke unterteilt beziehungsweise nur in Stücken betrachtet werden, die sich bezüglich ihrer Funktion in der Nachricht unterscheiden. Solche Stücke können beispielsweise den Betreff, den Absender, den Inhalt oder „embedded" HTML- oder Java-Scripts darstellen. Abhängig von der Funktion des Stückes in der Nachricht kann eine entsprechende Bewertung stattfinden. So können beispielsweise für unterschiedliche Stücke der Nachricht unterschiedliche Bewertungskriterien verwendet werden beziehungsweise auf unterschiedliche Teile einer Datenbasis zugegriffen werden.
- Gemäß einem weiteren Aspekt wird die der Erfindung zugrunde liegende Aufgabe gelöst durch ein System zum Klassifizieren von elektronischen Nachrichten, die in einer Empfangsvorrichtung empfangen wurden, wobei das System zumindest zwei Bewertungseinheiten umfasst. Das System zeichnet sich dadurch aus, dass den Bewertungseinheiten eine Kombinationseinheit zugeordnet ist, die so ausgelegt ist, dass mit dieser die Bewertungen der einzelnen Bewertungsverfahren kombiniert werden können und diese kombinierte Bewertung zur Zuordnung zu zumindest einer Klasse verwendet werden kann, und der Ausgang der Kombinationseinheit mit zumindest einem Eingang einer der Bewertungseinheiten verbunden ist.
- Dieses System eignet sich, um das erfindungsgemäße Verfahren auszuführen. Hierzu sind die Bewertungseinheiten mit der Kombinationseinheit für einen Datentransfer von den Bewertungseinheiten zu der Kombinationseinheit verbunden. Die Bewertungseinheiten sind vorzugsweise der Kombinationseinheit vorgeschaltet. Hierbei können die Bewertungseinheiten sequenziell, das heißt in Reihe geschaltet sein. Alternativ können die Bewertungseinheiten aber auch parallel geschaltet sein und die Ausgänge beider Bewertungseinheiten mit der Kombinationseinheit verbunden sein. Mit der letztgenannten Ausgestaltung ist es somit möglich, eine Nachricht simultan in den mindestens zwei Bewertungseinheiten bearbeiten und bewerten zu können. Hierzu kann vor den Bewertungseinheiten die an der Empfangsvorrichtung empfangene elektronische Nachricht kopiert werden, um je ein Exemplar für die entsprechenden Bewertungseinheiten zur Verfügung stellen zu können. Es liegt aber auch im Rahmen der Erfindung, dass die mindestens zwei Bewertungseinheiten gleichzeitig auf ein einziges Exemplar der Nachricht zugreifen.
- Diejenige Bewertungseinheit, die mit der Kombinationseinheit verbunden ist, weist vorzugsweise eine Speichereinheit auf, die in der Bewertungseinheit integriert sein kann oder auf die die Bewertungseinheit zugreift. In diesem Fall ist der Ausgang der Kombinationseinheit mit der Speichereinheit, die der Bewertungseinheit zugeordnet ist, verbunden. In dieser Speichereinheit können Daten oder Regeln für die Bewertung der eingehenden Nachrichten abgelegt werden.
- Die Bewertungseinheiten können erfindungsgemäß so ausgelegt sein, dass diese Nachrichten mit einer Bewertung versehen und weiterleiten können. Die Bewertung muss dabei stets eindeutig einer Nachricht zugeordnet sein.
- In einer weiteren Ausgestaltung umfasst das erfindungsgemäße System eine Eingabevorrichtung, mittels derer der Benutzer der Empfangsvorrichtung oder eines damit verbundenen Endgerätes Informationen in das System eingeben kann. Eine solche Eingabevorrichtung kann beispielsweise eine Tastatur eines Computers oder eines mobilen Endgerätes, wie beispielsweise eines Laptops oder eines mobilen Telefons sein. Die Eingabevorrichtung ist vorzugsweise so in das erfindungsgemäße System eingebunden, dass diese mittelbar oder unmittelbar auf verschiedene Elemente des Systems einwirken kann. Die Einbindung kann über Verkabelung oder über Übertragung mittels elektromagnetischer Wellen erfolgen.
- Die Eingabevorrichtung kann beispielsweise mit einer zusätzlichen Speichereinheit des Systems verbunden sein, wobei die Speichereinheit der Kombinationseinheit zugeordnet ist. In diesem Fall kann über die Eingabevorrichtung beispielsweise eine sogenannte White-List erstellt werden. Auf diese in der Speichereinheit abgelegten Liste kann die Kombinationseinheit beispielsweise beim Klassifizieren der Nachrichten zugreifen. Die Speichereinheit, auf die der Benutzer mittels der Eingabevorrichtung zugreifen, insbesondere Daten eingeben, kann, kann auch einer der Bewertungseinheiten oder allen Bewertungseinheiten zugeordnet sein.
- Weiterhin kann die Eingabevorrichtung auf das System nach der Kombinationseinheit zugreifen und der manuellen Korrektur einer Bewertung der Kombinationseinheit und einer daraus resultierenden Klassifizierung dienen.
- Gemäß einer Ausführungsform umfasst die Kombinationseinheit einen Logikblock, in dem die Ausgaben der beiden Bewertungseinheiten miteinander verarbeitet werden. Diesem Logikblock kann ein Klassifikationsblock zum Zuteilen von Nachrichten zu zumindest einer Klasse nachgeschaltet sein. In dem Logikblock kann somit beispielsweise eine Gesamtwahrscheinlichkeit aus den Wahrscheinlichkeiten zur Zugehörigkeit einer Klasse ermittelt werden, die von den Bewertungseinheiten übertragen wurden. Weiterhin kann in dem Logikblock oder dem Klassifikationsblock die derzeitige Gewichtung des einen oder anderen Verfahrens berücksichtigt werden.
- In dem Klassifikationsblock kann die berechnete Gesamtwahrscheinlichkeit dann beispielsweise mit einem Grenzwert, der von dem Benutzer eingegeben wurde, verglichen und die Nachricht entsprechend des Vergleichsergebnisses klassifiziert werden. In Abhängigkeit von der Klassifizierung kann die Nachricht anschließend von einem Verteiler an den zutreffenden Speicherort weitergeleitet und/oder einer der Bewertungseinheiten zugeführt werden.
- Gemäß einer bevorzugten Ausführungsform weisen die mindestens zwei Bewertungseinheiten unterschiedliche Funktionsweisen auf. Wie oben bereits beschrieben, kann eine Bewertungseinheit ein regelbasierendes Verfahren ausführen, wohingegen eine andere Einheit beispielsweise Tokens aus der Nachricht entsprechend dem Bayes'schen Verfahrens mit dem Inhalt einer Datenbasis vergleicht, die ständig verändert wird.
- Obwohl es erfindungsgemäß auch möglich ist, dass die Bewertungseinheiten lediglich das Bewertungsergebnis liefern, ob die Nachricht eine erwünschte oder eine unerwünschte Nachricht darstellt, ist es bevorzugt, mindestens eine Bewertungseinheit mit einer Berechnungseinheit zu versehen, die der Berechnung einer Wahrscheinlichkeit der Zugehörigkeit der Nachricht zu einer Klasse dient.
- Die Bewertungseinheiten des erfindungsgemäßen Systems verfügen vorzugsweise jeweils zumindest über einen Bearbeitungsblock zur Bearbeitung der Nachricht. Dieser Bearbeitungsblock stellt vorzugsweise einen Unterteilungsblock dar, in dem die Nachricht in eine Vielzahl von Stücken unterteilt wird. Die Unterteilung der Nachricht in dem Bearbeitungsblock stellt hierbei in der Regel keine tatsächliche Trennung der Stücke der Nachricht dar. Vielmehr kann die Unterteilung eine Betrachtung von gewissen Stücken der Nachricht durch das jeweilige Verfahren sein.
- Die Bewertungseinheit kann erfindungsgemäß weiterhin zumindest einen Logikblock umfassen, der als Vergleichsblock ausgeführt ist. In diesem Vergleichsblock können zumindest ein Teil der Stücke der Nachricht mit gespeicherten Daten verglichen werden und anhand des Vergleiches eine statistische Bewertung durchgeführt werden. Alternativ kann der Logikblock als Regelblock ausgeführt sein, um zumindest ein Stück der Nachricht mindestens einer heuristischen Regel, insbesondere einer vorgegebenen statischen Regel, zu unterwerfen.
- Das erfindungsgemäße System kann eine Vorrichtung darstellen und/oder zumindest teilweise als Programm ausgeführt sein. Insbesondere sind die Einheiten wie beispielsweise die Bewertungseinheiten, die Kombinationseinheit, die Speichereinheit und die Ablageeinheit vorzugsweise als Programme ausgeführt.
- Wie bereits erwähnt, kann das System eine Verteilereinheit umfassen, die der Kombinationseinheit nachgestaltet ist und die erhaltenen Nachrichten entsprechend der Ausgabe der Kombinationseinheit an mindestens eine Einheit in dem System weiterleitet. Die Nachricht kann so beispielsweise an eine von mindestens zwei Ablageeinheiten weitergeleitet werden, in denen die Nachrichten entsprechend ihrer Bewertung abgelegt werden können. Die Ablageeinheiten können beispielsweise Ordner in einem Verwaltungsprogramm eines Computers darstellen. Alternativ oder zusätzlich kann die Nachricht, insbesondere eine Bildkopie hiervon, an eine Speichereinheit, die die Datenbasis für eine der Bewertungseinheiten darstellt, geleitet werden.
- Die Empfangsvorrichtung, die in dem erfindungsgemäßen System verwendet wird, ist beispielsweise ein Datenverarbeitungsgerät, insbesondere ein PC, ein Laptop, ein Server, insbesondere einen Mail-Server, ein Mobiltelefon oder ein Nachrichtengerät, wie beispielsweise ein BlackberryTM.
- Das erfindungsgemäße System ist vorzugsweise zum Klassifizieren von Textnachrichten, insbesondere elektronischen Textnachrichten, wie E-Mails oder SMS, ausgelegt.
- Die Vorteile und Merkmale, die bezüglich des erfindungsgemäßen Systems beschrieben werden, gelten entsprechend und, soweit anwendbar, ebenfalls für das erfindungsgemäße Verfahren und umgekehrt.
- Die vorliegende Erfindung wird im Folgenden anhand der beiliegenden Figuren genauer beschrieben, wobei
-
1 eine schematische Blockdarstellung des erfindungsgemäßen Systems gemäß einer ersten Ausführungsform, -
2 eine schematische Blockdarstellung einer zweiten Ausführungsform des erfindungsgemäßen Systems und -
3 ein Flussdiagramm für eine Ausführungsform des erfindungsgemäßen Verfahrens zeigen. - In den einzelnen Figuren sind gleiche Bestandteile des Systems mit den gleichen Bezugszeichen versehen und deren Funktion wird gegebenenfalls nur einmal beschrieben.
- Das erfindungsgemäße System
1 umfasst in der in1 dargestellten Ausführungsform eine erste Bewertungseinheit11 und eine zweite Bewertungseinheit12 . Diese Bewertungseinheiten11 und12 sind in der dargestellten Ausführungsform sequentiell geschaltet. Mit diesen Bewertungseinheiten11 und12 ist eine Kombinationseinheit13 verbunden, der wiederum ein Verteiler14 nachgeschaltet ist. Der Verteiler14 steht sowohl mit einer Speichereinheit16 als auch mit Ablagevorrichtungen15a und15b in Verbindung. Die Speichereinheit16 steht in der dargestellten Ausführungsform mit der Bewertungseinheit12 in Verbindung. - Die Funktionsweise des Systems
1 soll im Folgenden anhand des Beispiels von E-Mail-Nachrichten beschrieben werden. - Wird eine Nachricht
2 an der Empfangsvorrichtung, die beispielsweise einen Mailserver darstellen kann, empfangen, so wird diese an die Bewertungseinheit11 und von dort an eine zweite Bewertungseinheit12 geleitet. In der dargestellten Ausführungsform soll die Bewertungseinheit11 beispielsweise eine regelbasierende Bewertungseinheit und die Bewertungseinheit12 eine Bewertungseinheit, die aufgrund des Bayes'schen Verfahrens arbeitet, darstellen. In der Bewertungseinheit11 wird die Nachricht2 erhalten und einem Bearbeitungsblock111 zugeführt. In diesem Bearbeitungsblock werden die einzelnen Bestandteile der Nachricht2 identifiziert und in dem Regelblock112 gemäß hinterlegter Regeln untersucht. Aufgrund des Ergebnisses der Regelüberprüfung wird eine Bewertung vergeben, die angibt, ob es sich bei der E-Mail um eine unerwünschte E-Mail (UCE oder Spam) handelt. Diese Bewertung wird zusammen mit der Nachricht an die Bewertungseinheit12 geleitet. - In der Bewertungseinheit
12 wird die Nachricht2 in dem Bearbeitungsblock121 bearbeitet. Insbesondere kann bei der vorliegenden Ausführungsform die E-Mail in sogenannte Tokens unterteilt beziehungsweise auf diese fokussiert werden. Diese Tokens werden in dem Logikblock122 entsprechend dem Bayes'schen Verfahren mit Daten aus der Datenbasis16 verglichen und in dem Berechnungsblock123 für die Wahrscheinlichkeit des Vorliegens einer Spam wird daraufhin die Wahrscheinlichkeit festgelegt. Dieser von der Bewertungseinheit12 berechnete Wahrscheinlichkeitswert und die Bewertung der Bewertungseinheit11 werden zusammen mit der Nachricht2 an den Logikblock131 der Kombinationseinheit13 geleitet. In dem Logikblock131 können die Ergebnisse der Bewertungen der Bewertungseinheiten11 und12 kombiniert werden. Insbesondere wird in dem Logikblock131 die Gesamtwahrscheinlichkeit des Vorliegens einer unerwünschten Nachricht (Spam) berechnet. - Entsprechend dem Ergebnis der Berechnung der Gesamtwahrscheinlichkeit wird in dem Klassifikationsblock
132 der Kombinationseinheit13 die Nachricht der entsprechenden Klasse zugeordnet. In dem Klassifikationsblock132 oder in dem Logikblock131 kann beispielsweise ein Grenzwert, der durch den Benutzer festgelegt wurde, berücksichtigt werden. Die Klassifikation in dem Klassifikationsblock132 erfolgt vorzugsweise in Klassen für unerwünschte Mails und erwünschte Mails. Es ist aber auch möglich, dass in dem Klassifikationsblock132 eine Nachricht einer Klasse zugeordnet wird, die angibt, dass lediglich das Bewertungsverfahren in der Bewertungseinheit11 das Vorliegen einer unerwünschten Nachricht erkannt hat, wohingegen das Bewertungsverfahren in der Bewertungseinheit12 zu dem Ergebnis gelangt ist, dass es sich um eine erwünschte E-Mail handelt. - Die klassifizierten Nachrichten werden an den Verteiler
14 geleitet, der die Nachricht entsprechend ihrer Klassifikation an die geeignete Einheit des Systems weiterleitet. Handelt es sich bei der empfangenen E-Mail um eine unerwünschte E-Mail, so kann diese beispielsweise in einen Ordner15a abgelegt werden oder unmittelbar gelöscht werden. Handelt es sich hingegen um eine erwünschte E-Mail, so kann diese in den normalen Posteingang eines Mail-Programms15b abgelegt werden. Handelt es sich bei der E-Mail um eine unerwünschte E-Mail, so wird von dem Verteiler14 eine Blindkopie der E-Mail an die Datenbasis16 geleitet und dort abgelegt. Auf diese Weise kann eine für das Bewertungsverfahren in der Bewertungseinheit12 erforderliche Datenbasis aufgebaut werden. Zusätzlich können auch Nachrichten, die als erwünschte Nachrichten erkannt wurden an die Datenbasis16 geleitet werden und dort entsprechend abgelegt werden. - Wird in dem Klassifikationsblock
132 der Kombinationseinheit13 eine Klassifizierung dahingehend vorgenommen, welches der Bewertungsverfahren die E-Mail als unerwünschte E-Mail erkannt hat, so kann erfindungsgemäß vorgesehen sein, dass nur solche E-Mails weitergeleitet an die Datenbasis16 werden, die von beiden Bewertungsverfahren als Spam erkannt wurden. Alternativ kann beispielsweise in dem Logikblock131 eine Überprüfung durchgeführt werden, ob die Gesamtentscheidung darüber, ob die E-Mail zu der Klasse „Spam" oder „kein Spam" gehört, eindeutig von beiden Bewertungsverfahren getroffen wurde. Bei positivem Ergebnis dieser Überprüfung wird dann eine Bildkopie der entsprechenden E-Mail an die Datenbasis16 geleitet, während das Original in einer der Ablageeinheiten15a oder15b abgelegt wird. - Wie in
1 durch den gestrichelten Pfeil angedeutet, steht die Kombinationseinheit13 und insbesondere der Klassifikationsblock132 mit der Datenbasis16 in Verbindung. Hierdurch wird es möglich die Qualität der Datenbasis16 , insbesondere die Anzahl der enthaltenen Nachrichten, zu überprüfen. Das Ergebnis dieser Überprüfung kann bei der Klassifikation berücksichtigt werden. - Wie sich aus der
1 ergibt, kann ein Benutzer des Systems1 in verschiedenen Weisen auf die Funktionsweise des Systems eingreifen. Der Benutzer kann über eine Eingabevorrichtung17 beispielsweise unmittelbar Daten in die Datenbasis16 eingeben, wodurch die Zuverlässigkeit des Verfahrens in der Bewertungseinheit12 schneller ansteigt. Alternativ oder zusätzlich kann der Benutzer weiterhin ebenfalls über eine geeignete Eingabevorrichtung (nicht dargestellt) eine bereits in einen bestimmten Ordner abgelegte E-Mail umklassifizieren. Hierzu kann der Benutzer die E-Mail von einem Ordner in den anderen verschieben. Eine solche Umklassifizierung wird in dem System berücksichtigt, indem eine gegebenenfalls bereits in der Datenbank16 abgelegte Blindkopie einer unerwünschten E-Mail gelöscht oder dort umklassifiziert wird, wenn der Benutzer diese als erwünschte E-Mail identifiziert. In gleicher Weise wird in dem System1 eine Blindkopie an die Datenbasis16 gesandt, wenn ein Benutzer die E-Mail, die ursprünglich von der Kombinationseinheit als erwünschte E-Mail erkannt wurde, als unerwünschte E-Mail identifiziert. - In der
2 ist eine weitere Ausführungsform des erfindungsgemäßen Systems dargestellt. Dieses weist einen im Vergleich zu der Ausführungsform der1 leicht veränderten Aufbau auf. In der Ausführungsform nach2 sind die Bewertungseinheiten11 und12 allerdings parallel geschaltet. Die von der Empfangsvorrichtung empfangene Nachricht2 wird hierbei gleichzeitig den zwei Bewertungseinheiten11 und12 zugeführt. Dies kann, wie in2 gezeigt, durch Erstellen einer Blindkopie oder durch gleichzeitiges Zugreifen der Bewertungseinheiten11 und12 auf die Nachricht2 erfolgen. Nach der Bewertung in den Bewertungseinheiten11 und12 wird auch bei dieser Ausführungsform die Nachricht2 mit den ihr zugeordneten Bewertungen an die Kombinationseinheit13 geleitet. Dort werden die bereits beschriebenen Kombinations- und Klassifikationsschritte durchgeführt. - Zusätzlich ist in der Ausführungsform der
2 allerdings eine Datenbasis18 vorgesehen, die der Kombinationseinheit13 zugeordnet ist. Auch auf diese Datenbasis18 kann der Benutzer mittels geeigneter Eingabevorrichtungen zugreifen. Die Datenbasis18 kann beispielsweise zum Speichern einer Liste bezüglich sicherer Mail-Clients dienen. Die so von dem Benutzer erstellte White-List wird von der Kombinationseinheit13 bei der Klassifizierung eingehender E-Mails berücksichtigt. Weiterhin ist in der2 angedeutet, dass der Benutzer unmittelbar über eine Eingabevorrichtung (nicht dargestellt) auf die Kombinationseinheit zugreifen kann. Dieser Zugriff stellt insbesondere die Eingabe von Kriterien, beispielsweise von Schwellwerten dar. - Auch bei der Ausführungsform der
2 ist die Datenbasis16 , die der Bewertungseinheit12 zugeordnet ist, mit der Kombinationseinheit13 zur Überprüfung der Qualität der Datenbasis16 verbunden. - Das erfindungsgemäße Verfahren wird nunmehr anhand des Flussdiagramms der
3 erneut beschrieben. - Nachdem eine E-Mail empfangen wurde, wird diese durch ein erstes Bewertungsverfahren beurteilt. Das Ergebnis dieses Bewertungsverfahrens ist in der dargestellten Ausführungsform eine Wahrscheinlichkeit Sa. Anschließend wird die E-Mail durch ein zweites Beurteilungsverfahren bewertet und das Ergebnis dieser Beurteilung mit Sb angegeben. Nach Erhalt der beiden Wahrscheinlichkeitswerte Sa und Sb kann eine Entscheidung darüber getroffen werden, ob es sich bei der E-Mail um eine Spam-Mail handelt. Hierzu wird eine relative Verknüpfung der Entscheidungen der Verfahren 1 und 2 durchgeführt und eine Gesamtwahrscheinlichkeit S berechnet. Bei Überschreiten eines Grenzwertes wird die E-Mail entsprechend sortiert. Handelt es sich bei der E-Mail um eine Spam-Mail, so wird diese der Datenbasis für das Verfahren 2 zugeführt. Eine solche Hinzufügung zu der Datenbasis erfolgt ausschließlich dann, wenn in dem Entscheidungsschritt eine eindeutige Gesamtentscheidung gefällt werden konnte. Der Bestand der Datenbasis kann in regelmäßigen Abständen oder bei jeder empfangenen und zu bearbeitenden E-Mail überprüft werden, insbesondere bezüglich der Anzahl der gelernten E-Mails. Obwohl dies in
3 nicht dargestellt ist, liegt es auch im Rahmen der Erfindung eine als „Kein Spam" klassifizierte E-Mail der Datenbasis des Verfahrens 2 zuzuführen, wenn die Gesamtentscheidung eindeutig war. - Das Verfahren soll anhand von folgenden Beispielen verdeutlicht werden.
- Es werden folgende Konstanten angenommen:
MM (Anzahl Mail, ab der Verfahren 2 zum alleinigen Kriterium wird): 10.000 S (Grenzwert für die Einteilung Spam/kein Spam): 0.5 Anzahl gelernter Mails für Verfahren 2: 5000 Stärke der Zunahme des Gewichtes Verfahren 2k: 8 Funktion f: f(x)=(Sa × (1 – (x^k) × exp(–kx)/exp(–k))) + (Sb × ((x^k) × exp(–k × x)/exp(–k))) - Beispiel 1
- Neu ankommende Mail wird durch Verfahren 1 mit einer Wahrscheinlichkeit Sa von 0.1 und von Verfahren 2 mit einer Wahrscheinlichkeit von Sb 0.4 beurteilt. Durch eine Funktion f ergibt sich somit folgende Gesamtwahrscheinlichkeit von 0.214211. Somit wird die Mail als nicht Spam angesehen und der Datenbasis des Verfahrens 2 hinzugefügt.
- Beispiel 2
- Neu ankommende Mail wird durch Verfahren 1 mit einer Wahrscheinlichkeit Sa von 0.4 und von Verfahren 2 mit einer Wahrscheinlichkeit von Sb 0.7 beurteilt. Durch eine Funktion f ergibt sich somit folgende Gesamtwahrscheinlichkeit von 0.51421. Somit wird die Mail als Spam angesehen. Da die Entscheidung jedoch nicht eindeutig ist, wird die Mail der Datenbasis des Verfahrens 2 nicht hinzugefügt.
- Obwohl in der Beschreibung im wesentlichen auf E-Mails als elektronische Nachrichten eingegangen wurde, ist es offensichtlich, dass die vorliegende Erfindung ebenso für andere elektronische Nachrichten wie SMS anwendbar ist.
- Mit der vorliegenden Erfindung ist es somit möglich, ein Verfahren und ein System zur Verfügung zu stellen, die eine zuverlässige Klassifizierung von elektronischen Nachrichten erlauben. Insbesondere ermöglich das erfindungsgemäße Verfahren, dass jeder Benutzer des Systems einen auf seine Bedürfnisse individuell abgestimmten Spamfilter erhält. Hierbei kann das Gewicht, das dem Urteil des Bayes'schen Filters beigemessen wird über eine Funktionskurve immer stärker zunehmen, da seine Bewertungen immer zuverlässiger werden. Ab einem Zeitpunkt kann dann der Bayes-sche Filter als alleiniges Kriterium für die Klassifizierung der E-mails oder anderer Nachrichten dienen.
-
- 1
- System
- 11
- Bewertungseinheit
- 111
- Bearbeitungsblock
- 112
- Logikblock
- 12
- Bewertungseinheit
- 121
- Bearbeitungsblock
- 122
- Logikblock
- 123
- Berechnungseinheit
- 13
- Kombinationseinheit
- 131
- Logikblock
- 132
- Klassifikationsblock
- 14
- Verteilereinheit
- 15a
- Ablageeinheit
- 15b
- Ablageeinheit
- 16
- Speichereinheit
- 17
- Eingabevorrichtung
- 18
- Speichereinheit
Claims (46)
- System (
1 ) zum Klassifizieren von elektronischen Nachrichten (2 ), die in einer Empfangsvorrichtung empfangen wurden, wobei das System (1 ) zumindest zwei Bewertungseinheiten (11 ,12 ) umfasst, dadurch gekennzeichnet, dass den Bewertungseinheiten (11 ,12 ) eine Kombinationseinheit (13 ) zugeordnet ist, die so ausgelegt ist, dass mit dieser die Bewertungen der einzelnen Bewertungsverfahren kombiniert werden können und diese kombinierte Bewertung zur Zuordnung zu zumindest einer Klasse verwendet werden kann, und der Ausgang der Kombinationseinheit (13 ) mit zumindest einem Eingang einer der Bewertungseinheiten (12 ) verbunden ist. - System nach Anspruch 1, dadurch gekennzeichnet, dass die Bewertungseinheiten (
11 ,12 ) parallel geschaltet sind und die Kombinationseinheit (13 ) diesen nachgeschaltet ist. - System nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die Bewertungseinheit (
12 ), die mit der Kombinationseinheit (13 ) verbunden ist, eine Speichereinheit (16 ) aufweist und der Ausgang der Kombinationseinheit (13 ) mit dieser Speichereinheit (16 ) verbunden ist. - System nach Anspruch 3, dadurch gekennzeichnet, dass die Speichereinheit (
16 ) in der Bewertungseinheit (12 ) integriert ist oder die Bewertungseinheit (12 ) auf die Speichereinheit (16 ) zugreift. - System nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Bewertungseinheiten (
11 ,12 ) so ausgelegt sind, dass diese die Nachricht (2 ) mit einer Bewertung versehen und weiterleiten können. - System nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass dieses eine Eingabevorrichtung (
17 ) umfasst, mittels derer der Benutzer der Empfangsvorrichtung oder eines damit verbundenen Endgerätes Informationen in das System (1 ) eingeben kann. - System nach Anspruch 6, dadurch gekennzeichnet, dass die Eingabevorrichtung (
17 ) mit einer zusätzlichen Speichereinheit (18 ) des Systems (1 ) verbunden ist, wobei die Speichereinheit (18 ) vorzugsweise der Kombinationseinheit (13 ) zugeordnet ist. - System nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, dass die Eingabevorrichtung (
17 ) auf das System (1 ) nach der Kombinationseinheit (13 ) zugreift und der manuellen Korrektur einer Bewertung der Kombinationseinheiten (11 ,12 ) dient. - System nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Kombinationseinheit (
13 ) einen Logikblock (131 ), in dem die Ausgaben der beiden Bewertungseinheiten (11 ,12 ) miteinander verarbeitet werden, und einen Klassifikationsblock (132 ), zum Zuteilen von Nachrichten (2 ) zu zumindest einer Klasse, umfasst. - System nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass die mindestens zwei Bewertungseinheiten (
11 ,12 ) unterschiedliche Funktionsweisen aufweisen. - System nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass mindestens eine Bewertungseinheit (
11 ,12 ) eine Berechnungseinheit (123 ) für die Berechnung einer Wahrscheinlichkeit der Zugehörigkeit der Nachricht zu einer Klasse umfasst. - System nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass die Bewertungseinheiten (
11 ,12 ) jeweils zumindest einen Bearbeitungsblock (111 ,121 ) zur Bearbeitung der Nachricht (2 ) umfassen. - System nach Anspruch 12, dadurch gekennzeichnet, dass der Bearbeitungsblock (
111 ,121 ) einen Unterteilungsblock darstellt, in dem die Nachricht (2 ) in eine Vielzahl von Stücken unterteilt wird. - System nach Anspruch 13, dadurch gekennzeichnet, dass die Bewertungseinheit (
12 ) zumindest einen Logikblock (122 ) umfasst, der als Vergleichsblock ausgeführt ist, um zumindest eines der Stücke der Nachricht (2 ) mit gespeicherten Daten zu vergleichen und anhand des Vergleiches eine statistische Bewertung durchzuführen. - System nach einem der Ansprüche 13 oder 14, dadurch gekennzeichnet, dass die statistische Bewertung anhand der Bayes-Methode durchgeführt wird.
- System nach Anspruch 13, dadurch gekennzeichnet, dass die Bewertungseinheit (
11 ) zumindest einen Logikblock (112 ) umfasst, der als Regelblock ausgeführt ist um zumindest ein Stück der Nachricht (2 ) mindestens einer heuristischen Regel zu unterwerfen. - System nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, dass das System (
1 ) eine Vorrichtung darstellt. - System nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass das System (
1 ) zumindest teilweise als Programm ausgeführt ist. - System nach einem der Ansprüche 1 bis 18, dadurch gekennzeichnet, dass dieses eine Verteilereinheit (
14 ) umfasst, die der Kombinationseinheit (13 ) nachgeschaltet ist und die erhaltenen Nachrichten (2 ) entsprechend der Ausgabe der Kombinationseinheit (13 ) an mindestens eine Einheit (15a ,15b ,16 ) in dem System (1 ) weiterleitet. - System nach einem der Ansprüche 1 bis 19, dadurch gekennzeichnet, dass dieses mindestens zwei Ablageeinheiten (
15a ,15b ) aufweist, in die die Nachrichten (2 ) entsprechend ihrer Bewertung abgelegt werden können. - System nach einem der Ansprüche 1 bis 20, dadurch gekennzeichnet, dass die Empfangsvorrichtung ein Datenverarbeitungsgerät, insbesondere einen Personal Computer, einen Laptop, einen Server, ein Mobiltelefon oder eine Nachrichtengerät ist.
- System nach einem der Ansprüche 1 bis 21, dadurch gekennzeichnet, dass das System (
1 ) zur Klassifizierung von Textnachrichten, insbesondere elektronischen Textnachrichten, wie E-Mails oder SMS, ausgelegt ist. - Verfahren zum Klassifizieren von elektronischen Nachrichten (
2 ), die auf einer Empfangsvorrichtung empfangen werden, dadurch gekennzeichnet, dass die empfangene Nachricht (2 ) einem ersten Bewertungsverfahren und mindestens einem zweiten Bewertungsverfahren unterzogen wird, wobei der Nachricht (2 ) in den Bewertungsverfahren jeweils eine Bewertung zugeordnet wird, die Bewertungen der beiden Bewertungsverfahren miteinander kombiniert werden, die Nachricht (2 ) aufgrund der kombinierten Bewertung mindestens einer Klasse zugeordnet wird und Nachrichten (2 ) zumindest einer Klasse zumindest teilweise für die Bewertung von weiteren Nachrichten (2 ) in zumindest einem der Bewertungsverfahren verwendet werden. - Verfahren nach Anspruch 23, dadurch gekennzeichnet, dass die mindestens zwei Bewertungsverfahren unabhängig voneinander durchgeführt werden, insbesondere dass die Nachricht (
2 ) gleichzeitig zumindest zwei Bewertungseinheiten (11 ,12 ) zur Durchführung der Bewertungsverfahren zugeführt wird. - Verfahren nach einem der Ansprüche 23 oder 24, dadurch gekennzeichnet, dass die Nachrichten (
2 ), die für die Bewertung weiterer Nachrichten (2 ) verwendet werden, zumindest teilweise in einer Datenbank (16 ) abgelegt werden, auf die mindestens eines der Bewertungsverfahren zugreift. - Verfahren nach einem der Ansprüche 23 bis 25, dadurch gekennzeichnet, dass die mindestens zwei Bewertungsverfahren unterschiedliche Verfahrensschritte umfassen.
- Verfahren nach einem der Ansprüche 23 bis 26, dadurch gekennzeichnet, dass zumindest ein Bewertungsverfahren eine statische Bewertung durchführt.
- Verfahren nach Anspruch 26, dadurch gekennzeichnet, dass in dem Bewertungsverfahren eine Wahrscheinlichkeit (Sa, Sb) der Zugehörigkeit der Nachricht (
2 ) zu einer Klasse bestimmt wird. - Verfahren nach Anspruch 28, dadurch gekennzeichnet, dass das Bewertungsverfahren eine Bayes-Methode anwendet.
- Verfahren nach einem der Ansprüche 23 bis 29, dadurch gekennzeichnet, dass das zumindest ein Bewertungsverfahren eine Bewertung nach heuristischen Regeln erstellt.
- Verfahren nach einem der Ansprüche 23 bis 30, dadurch gekennzeichnet, dass zumindest eines der Bewertungsverfahren benutzerspezifisch ausgelegt ist.
- Verfahren nach einem der Ansprüche 23 bis 31, dadurch gekennzeichnet, dass bei der Klassifizierung der Nachrichten (
2 ) die Bewertung mindestens eines Bewertungsverfahrens vorrangig berücksichtigt wird. - Verfahren nach Anspruch 32, dadurch gekennzeichnet, dass der Vorrang, der mindestens einem Bewertungsverfahren eingeräumt wird, über die Zeit geändert wird.
- Verfahren nach Anspruch 33, dadurch gekennzeichnet, dass das Bewertungsverfahren, das die Nachrichten (
2 ) einer Klasse für die Bewertung weiterer Nachrichten verwendet, mit zunehmender Zeit eine größere Gewichtung bei der Kombination der Bewertungen erhält. - Verfahren nach Anspruch 34, dadurch gekennzeichnet, dass das Verfahren dessen Gewichtung mit der Zeit zunimmt ein Bewertungsverfahren darstellt, das eine statistische Bewertung und Bestimmung einer Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse durchführt.
- Verfahren nach einem der Ansprüche 23 bis 35, dadurch gekennzeichnet, dass nach Erzielen einer vorgegebenen Anzahl von Nachrichten in der Klasse, die für die Bewertung weiterer Nachrichten verwendet wird, ausschließlich das Bewertungsverfahren, das diese Nachrichten verwendet, durchgeführt wird.
- Verfahren nach einem der Ansprüche 23 bis 36, dadurch gekennzeichnet, dass die Nachrichten in den Bewertungsverfahren mit einer Bewertung verbunden und weitergeleitet werden.
- Verfahren nach einem der Ansprüche 23 bis 37, dadurch gekennzeichnet, dass in dem Verfahren zumindest teilweise manuell vom Benutzer eingegebene Informationen berücksichtigt werden.
- Verfahren nach Anspruch 38, dadurch gekennzeichnet, dass der Benutzer Informationen bezüglich eines Stücks einer Nachricht (
2 ) oder bezüglich der Klasse einer Nachricht (2 ) eingibt und diese Informationen bei der Bewertung der Nachricht (2 ) oder bei der Klassifizierung der Nachricht berücksichtigt werden. - Verfahren nach Anspruch 39, dadurch gekennzeichnet, dass das Stück der Nachricht (
2 ) die Identifikation des Senders der Nachricht betrifft. - Verfahren nach einem der Ansprüche 38 oder 39, dadurch gekennzeichnet, dass die Information bezüglich der Klasse eine Korrektur der aufgrund der kombinierten Bewertung der mindestens zwei Bewertungsverfahren ermittelten Klasse darstellt.
- Verfahren nach einem der Ansprüche 39 bis 41, dadurch gekennzeichnet, dass die Informationen, die von dem Benutzer eingegeben werden in zumindest einer Speichereinheit (
16 ,18 ) abgelegt werden und zumindest bei der Durchführung eines der Bewertungsverfahren oder der Klassifizierung der Nachrichten (2 ) auf diese Speichereinheit (16 ,18 ) zugegriffen wird. - Verfahren nach einem der Ansprüche 23 bis 42, dadurch gekennzeichnet, dass die Nachrichten (
2 ) in Klassen eingeteilt werden, die sich aufgrund der in den Klassen enthaltenen Nachrichten und/oder aufgrund des Verfahrens der Bewertung der Nachricht (2 ) unterscheiden. - Verfahren nach einem der Ansprüche 23 bis 43, dadurch gekennzeichnet, dass in zumindest einem Bewertungsverfahren die Nachricht (
2 ) in Stücke unterteilt wird und die Bewertung anhand zumindest eines Teils der Stücke erfolgt. - Verfahren nach Anspruch 44, dadurch gekennzeichnet, dass die Nachrichten in Stücke unterteilt werden, die sich bezüglich ihrer Funktion in der Nachricht (
2 ) unterscheiden. - Verfahren nach einem der Ansprüche 23 bis 45, dadurch gekennzeichnet, dass mit dem Verfahren Textnachrichten, insbesondere elektronischen Textnachrichten, wie E-Mails oder SMS, klassifiziert werden können.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004014139A DE102004014139B4 (de) | 2004-03-23 | 2004-03-23 | System und Verfahren zum Klassifizieren von elektronischen Nachrichten |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004014139A DE102004014139B4 (de) | 2004-03-23 | 2004-03-23 | System und Verfahren zum Klassifizieren von elektronischen Nachrichten |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102004014139A1 DE102004014139A1 (de) | 2005-10-20 |
DE102004014139B4 true DE102004014139B4 (de) | 2006-07-20 |
Family
ID=35033860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102004014139A Revoked DE102004014139B4 (de) | 2004-03-23 | 2004-03-23 | System und Verfahren zum Klassifizieren von elektronischen Nachrichten |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102004014139B4 (de) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999932A (en) * | 1998-01-13 | 1999-12-07 | Bright Light Technologies, Inc. | System and method for filtering unsolicited electronic mail messages using data matching and heuristic processing |
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US20040039786A1 (en) * | 2000-03-16 | 2004-02-26 | Horvitz Eric J. | Use of a bulk-email filter within a system for classifying messages for urgency or importance |
WO2004079501A2 (en) * | 2003-02-25 | 2004-09-16 | Microsoft Corporation | Adaptive junk message filtering system |
-
2004
- 2004-03-23 DE DE102004014139A patent/DE102004014139B4/de not_active Revoked
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999932A (en) * | 1998-01-13 | 1999-12-07 | Bright Light Technologies, Inc. | System and method for filtering unsolicited electronic mail messages using data matching and heuristic processing |
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US20040039786A1 (en) * | 2000-03-16 | 2004-02-26 | Horvitz Eric J. | Use of a bulk-email filter within a system for classifying messages for urgency or importance |
WO2004079501A2 (en) * | 2003-02-25 | 2004-09-16 | Microsoft Corporation | Adaptive junk message filtering system |
Also Published As
Publication number | Publication date |
---|---|
DE102004014139A1 (de) | 2005-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102005058110B4 (de) | Verfahren zum Ermitteln möglicher Empfänger | |
DE69829225T2 (de) | Methode und system zum ausfiltern unerwünschter elektronischer nachrichten unter anwendung einer überprüfung auf datenübereinstimmung und heuristischer verarbeitung | |
DE69910952T2 (de) | Priorität- und Sicherheit-Kodierungssystem für elektronische Post nachrichten | |
DE19681387B4 (de) | Regelbasiertes elektronisches Mitteilungsverwaltungssystem | |
DE19730112A1 (de) | Empfangs- und Speichervorrichtung für Übertragungseinheiten | |
DE19922300A1 (de) | Vorrichtung zur automatischen Bearbeitung von eingehener elektronischer Post (=Email) | |
EP2882145B1 (de) | Verfahren und Filteranordnung zum Speichern von Informationen über einen seriellen Datenbus eines Kommunikationsnetzwerks eingehender Nachrichten in einem Teilnehmer des Netzwerks | |
DE202011110862U1 (de) | Prioritäts-Inbox-Mitteilungen und Synchronisierung für mobile Nachrichtenanwendungen | |
DE112011105466B4 (de) | Digitales Rundfunkempfangsgerät | |
EP1701493B1 (de) | Verfahren und System für die Klassifikation von Auktionen betreffenden Emails | |
DE112012000774T5 (de) | Automatische Korrektur von Kontaktlistenfehlern in einem Zusammenarbeitssystem | |
DE102014004068A1 (de) | Verfahren und Vorrichtung zur Steuerung einer Konferenz | |
DE10115428A1 (de) | Verfahren zum Erkennen einer unerwünschten E-Mail | |
DE102004014139B4 (de) | System und Verfahren zum Klassifizieren von elektronischen Nachrichten | |
Kim et al. | Spam filtering with dynamically updated URL statistics | |
DE102015008619A1 (de) | Verfahren und Vorrichtung zum Verfassen von elektronischen Postnachrichten beginnend von existierenden Nachrichten in einem elektronischen Postprogramm | |
WO2015086162A1 (de) | Verfahren und system zur übermittlung einer elektronischen nachricht | |
DE10349627B4 (de) | Schutz vor unerwünschten Nachrichten | |
EP1563652A1 (de) | Zugriffsbenachrichtigung eines absenders einer elektronischen nachricht | |
DE112012005344T5 (de) | Verfahren, Computerprogramm und Computer zum Erkennen von Trends in sozialen Medien | |
DE102012025351B4 (de) | Verarbeitung eines elektronischen Dokuments | |
DE102021129308A1 (de) | Identifizieren von assets für gemeinschaftsprojekte in der softwareentwicklung | |
DE10326092B3 (de) | Verfahren zum Kategorisieren von Nachrichten und Vorrichtungen zur Durchführung desselben | |
EP1668850B1 (de) | Nachrichtenübertragung in einem Netzwerk | |
DE602004003240T2 (de) | Verfahren zum verarbeiten von datensätzen mit beschreibungen multimedialer inhalte, anwendung des verfahrens und entsprechendes computerprogramm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8363 | Opposition against the patent | ||
R037 | Decision of examining division or of federal patent court revoking patent now final | ||
R107 | Publication of grant of european patent cancelled |
Effective date: 20131010 |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: H04L0012260000 Ipc: H04L0043000000 |