DE102004014139B4 - System und Verfahren zum Klassifizieren von elektronischen Nachrichten - Google Patents

System und Verfahren zum Klassifizieren von elektronischen Nachrichten Download PDF

Info

Publication number
DE102004014139B4
DE102004014139B4 DE102004014139A DE102004014139A DE102004014139B4 DE 102004014139 B4 DE102004014139 B4 DE 102004014139B4 DE 102004014139 A DE102004014139 A DE 102004014139A DE 102004014139 A DE102004014139 A DE 102004014139A DE 102004014139 B4 DE102004014139 B4 DE 102004014139B4
Authority
DE
Germany
Prior art keywords
evaluation
message
messages
unit
valuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Revoked
Application number
DE102004014139A
Other languages
English (en)
Other versions
DE102004014139A1 (de
Inventor
Oliver Eales
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vodafone Holding GmbH
Original Assignee
Vodafone Holding GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=35033860&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE102004014139(B4) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Vodafone Holding GmbH filed Critical Vodafone Holding GmbH
Priority to DE102004014139A priority Critical patent/DE102004014139B4/de
Publication of DE102004014139A1 publication Critical patent/DE102004014139A1/de
Application granted granted Critical
Publication of DE102004014139B4 publication Critical patent/DE102004014139B4/de
Anticipated expiration legal-status Critical
Revoked legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

System (1) zum Klassifizieren von elektronischen Nachrichten (2), die in einer Empfangsvorrichtung empfangen wurden, wobei das System (1) zumindest zwei Bewertungseinheiten (11, 12) umfasst, dadurch gekennzeichnet, dass den Bewertungseinheiten (11, 12) eine Kombinationseinheit (13) zugeordnet ist, die so ausgelegt ist, dass mit dieser die Bewertungen der einzelnen Bewertungsverfahren kombiniert werden können und diese kombinierte Bewertung zur Zuordnung zu zumindest einer Klasse verwendet werden kann, und der Ausgang der Kombinationseinheit (13) mit zumindest einem Eingang einer der Bewertungseinheiten (12) verbunden ist.

Description

  • Die vorliegende Erfindung betrifft ein System und ein Verfahren zum Klassifizieren von elektronischen Nachrichten, insbesondere von elektronischen Nachrichten, die auf einer Empfangsvorrichtung empfangen werden.
  • Elektronische Nachrichten, wie beispielsweise elektronische Post (E-Mail), wird zunehmend verwendet, um Werbemitteilungen oder dergleichen einer Vielzahl von Empfängern schnell und einfach zur Verfügung zu stellen. Ein Großteil dieser Mitteilungen ist aber von dem Empfänger gar nicht gewünscht. Da die Anzahl dieser sogenannten „Spam" oder „UCE" (Unsoliceted Commercial Email), im Folgenden als Spam bezeichnet, immer mehr zunimmt und dadurch für den Empfänger das Sichten und Aussortieren der E-Mails einen erhöhten Zeit und Kostenaufwand darstellt, sind Filter entwickelt worden, die Spam erkennen und diese in einen separaten Ordner ablegen oder löschen. Die Filter bedienen sich hierzu eines Verfahrens zum Erkennen unerwünschter E-Mail. Diese Verfahren können grob in zwei Gruppen unterteilt werden.
  • Bei einem Verfahren der ersten Gruppe wird im Wesentlichen eine Suche nach festen Mustern und „verdächtigen" Kopfzeilen oder beispielsweise ungültigen Domains des Absenders in einer E-Mail durchgeführt. Diese Muster basieren auf Vorgaben, die in der Regel vom Hersteller beziehungsweise vom Vertreiber des Filters vorgegeben werden. Zusätzlich können bei diesem Verfahren auch positive Kriterien berücksichtigt werden. So kann beispielsweise eine White-List von Mail-Clients, die als sicher angesehen werden können, das heißt denen der Empfänger vertraut, berücksichtigt werden. Aufgrund dieser Regeln wird eine Gesamtwahrscheinlichkeit berechnet, ob die E-Mail als Spam anzusehen ist. Anhand dieser Gesamtwahrscheinlichkeit wird dann eine Sortierung vorgenommen.
  • Bei dem Verfahren der zweiten Gruppe wird eine statistische Bewertung jedes Wortstücks einer E-Mail und/ oder andere Teile einer E-Mail, wie der Angaben über sogenannte „embedded" html- und Java-Scripts, gegen eine Datenbasis durchgeführt und daraus die Gesamtwahrscheinlichkeit errechnet. Die Wortstücke und anderen Teile, die bei diesem Verfahren als Vergleichbasis dienen, werden im Folgenden als Tokens bezeichnet. Bei diesem Verfahren wird die Datenbasis ständig erweitert, um die Resultate zu verbessern. Diese Art der Erkennung von Spam wird auch als Bayes'sches-Verfahren bezeichnet. Ein Filter, der dieses Verfahren einsetzt, ist beispielsweise in der US 6,161,130 A beschrieben.
  • Der Nachteil des erstgenannten regelbasierenden Verfahrens besteht darin, dass die Suche nach einzelnen Kriterien in der E-Mail statisch erfolgt. Für Versender von Spam ist es somit einfach Schlüsselbegriffe zu vermeiden oder diese zu verschleiern. Dies kann beispielsweise durch Ersetzen eines Buchstabens in einem Schlüsselwort durch ein Sonderzeichen erfolgen. Zudem kann die Suche nach technischen Auffälligkeiten in der Kopfzeile zu Falscherkennungen (sogenannten „false positives") führen. Beispielsweise wird ein Massenversand eines Katalogs selbst dann als Spam erkannt, wenn der Empfänger diesen bestellt hat. Schließlich können die Ansichten einzelner Empfänger bezüglich der Auffassung, was als Spam anzusehen ist und was nicht, stark differieren. Dies kann bei dem regelbasierten Verfahren nicht berücksichtigt werden. Somit ist das Verfahren relativ statisch und unflexibel.
  • Obwohl durch das Bayes'sche-Verfahren ein prinzipiell besseres Ergebnis erzielt werden kann, insbesondere da die Datenbasis, derer sich das Verfahren bedient, nutzerspezifisch ist, weist auch dieses Verfahren Nachteile auf. Ein wesentliches Problem stellt der korrekte Inhalt der Datenbasis dar. Um eine benutzbare Datenbasis aufbauen zu können und das Verfahren zuverlässig durchführen zu können, werden etwa 5000 bis 10.000 E-Mails benötigt. Bis zur ausreichenden Anfüllung der Datenbasis kann somit keine zuverlässige Filterung vorgenommen werden. Zudem ist der Aufbau der Datenbasis in der Regel händisch, das heißt durch den Benutzer, vorzunehmen. Dies bedeutet einen erheblichen Zeitaufwand und birgt die Gefahr der versehentlichen falschen Klassifizierung durch den Benutzer in sich.
  • Weitere Filterverfahren des Standes der Technik sind beispielsweise das in der US 5,999,932 A beschriebene Filterverfahren, bei dem heuristische Regeln der Filterung zugrunde gelegt werden. US 2004/0039786 A1 offenbart ein Filtersystem, in dem ein erster und ein zweiter Filter verwendet werden, wobei einer der Filter die Klassifizierung von Massennachricht vornimmt und der weitere Filter die Nachrichten nach deren Dringlichkeit oder Wichtigkeit filtert.
  • In der WO 2004/079501 A2 ist ein Filtersystem zum Filtern von Nachrichten beschrieben, wobei das System einen so genannten Seed-Filter umfasst, dem eine False Positive und eine False Negative Rate zugeordnet ist. Weiterhin wird in dem Filtersystem ein neuer Filter verwendet, mit dem Nachrichten gefiltert werden. Der neue Filter wird entsprechend der False Positive und False Negative Rate des Seed-Filters beurteilt. Die Daten, die zur Bestimmung der False Positive und der False Negative Rate des Seed Filters verwendet werden, werden ebenfalls dazu eingesetzt die False Positive und die False Negative Rate für den neuen Filter in Abhängigkeit eines Schwellwertes zu berechnen. Der neue Filter wird statt des Seed-Filters verwendet, wenn ein Schwellwert für den neuen Filter besteht, bei dem die neue False Positive und die neue False Negative Rate gemeinsam als besser angesehen werden, als die False Positive und die False Negative Rate des Seed-Filters.
  • In dem System ist weiterhin eine Filterkontrolleinheit vorgesehen, die von dem Nutzer durchgeführte Korrektur des Filterergebnisses eines der beiden Filter aufzunehmen. Anhand der durch die Nutzerinteraktion bestimmbare False Negative oder False Positive Rate wird in der Filterkontrolleinheit entschieden, welcher Filter für die weitere Filterung genutzt wird.
  • Der Nachteil bei diesem Filtersystem ist erneut die Tatsache, dass die Güte des Filterergebnisses in Abhängigkeit von Angaben eines Nutzers beurteilt wird, wodurch es zu falschen Klassifizierungen kommen kann.
  • Es ist daher Aufgabe der vorliegenden Erfindung ein System und ein Verfahren zum Klassifizieren von elektronischen Nachrichten, insbesondere von elektronischen Nachrichten, zu schaffen. Bei dem Verfahren und dem System sollen unerwünschte Nachrichten zuverlässig erkannt werden können und die Anzahl von fälschlich klassifizierten Nachrichten, insbesondere die Einstufung von legitimen E-Mails als Spam, gering sein. Zusätzlich sollen das Verfahren und das System schnell, einfach und zuverlässig auf die Anforderungen des Benutzers angepasst werden können, wobei die Anpassung nicht manuell erfolgen muss.
  • Der Erfindung liegt die Erkenntnis zugrunde, dass diese Aufgabe gelöst werden kann, indem unterschiedliche Erkennungsverfahren angewandt werden und als Basis für zumindest eines der Erkennungsverfahren zumindest zeitweise nur Ergebnisse verwendet werden, die durch beide Verfahren bestätigt wurden.
  • Die Aufgabe wird daher gemäß einem Aspekt der Erfindung gelöst durch ein Verfahren zum Klassifizieren von elektronischen Nachrichten, die auf einer Empfangsvorrichtung empfangen werden. Das Verfahren zeichnet sich dadurch aus, dass die empfangene Nachricht einem ersten Bewertungsverfahren und mindestens einem zweiten Bewertungsverfahren unterzogen wird, wobei der Nachricht in den Bewertungsverfahren jeweils eine Bewertung zugeordnet wird, die Bewertungen der beiden Bewertungsverfahren miteinander kombiniert werden, die Nachricht aufgrund der kombinierten Bewertung mindestens einer Klasse zugeordnet wird und Nachrichten zumindest einer Klasse zumindest teilweise für die Bewertung von weiteren Nachrichten in zumindest einem der Bewertungsverfahren verwendet werden.
  • Im Folgenden wird die Erfindung im wesentlichen anhand von elektronischen Nachrichten in Form von E-Mails beschrieben. Dennoch ist die Erfindung nicht auf diese Art von Nachrichten beschränkt. Als Nachrichten, die mittels des erfindungsgemäßen Verfahrens klassifiziert werden können, können beispielsweise auch andere elektronische Textnachrichten, wie SMS-Nachrichten, verwendet werden. Die im Folgenden als Spam bezeichneten Nachrichten sind in diesen Fällen als unerwünschte Nachricht der entsprechenden Art zu verstehen. Die Klassen, in die die Nachrichten eingeteilt werden können, sind vorzugsweise die Klassen „Spam" und „kein Spam". Es ist aber auch möglich, die Nachrichten in folgende Klassen zu einzuteilen: „Spam nach allen Bewertungsverfahren", „Spam nur nach erstem Bewertungsverfahren", „Spam nur nach zweitem Bewertungsverfahren", „kein Spam nach allen Bewertungsverfahren".
  • Je nach der Art der Klassifizierung wird die Klasse gewählt, deren Nachrichten als Referenznachrichten für die Bewertung weiterer Nachrichten verwendet werden sollen. In dem bevorzugten Fall der Klassifizierung in „Spam" und „kein Spam" ist diese Klasse in der Regel die Klasse „Spam". Bei der diversifizierten Klassifizierung kann die Referenzklasse zum Beispiel die Klasse sein, in der Nachrichten enthalten sind, die nach allen Verfahren als Spam eingestuft wurden.
  • Somit können beispielsweise die aufgrund aller Bewertungsverfahren als Spam bewertete Nachrichten zuverlässig einer Datenbasis für eines der oder alle Bewertungsverfahren zugeführt werden und diese so aufgebaut und aktualisiert werden. Diese Kalibrierung eines Verfahrens aufgrund von Entscheidungen, die von unterschiedlichen Verfahren vorzugsweise einheitlich getroffen wurden, erhöht die Qualität der Datenbasis und damit im Laufe der Zeit die Entscheidungsgenauigkeit des Verfahrens, das auf die Datenbasis zugreift.
  • Als Bewertung wird vorzugsweise die Wahrscheinlichkeit einer Nachricht eine vom Empfänger unerwünschte Nachricht zu sein verwendet. Diese Bewertung kann in Prozentzahlen oder als Wert zwischen 0 und 1 angegeben werden, wobei 0 „kein Spam" und 1 „Spam" bedeutet. In diesem Fall kann von dem Benutzer ein Grenzwert der Wahrscheinlichkeit vorgegeben, ab dem die Nachrichten als Spam bewertet werden sollen.
  • Gemäß einer Ausführungsform werden die mindestens zwei Bewertungsverfahren unabhängig voneinander durchgeführt. Hierzu kann die empfangene Nachricht gleichzeitig zumindest zwei Bewertungseinheiten zur Durchführung der Bewertungsverfahren zugeführt werden oder eine Nachricht gleichzeitig von zwei oder mehr Bewertungsverfahren analysiert werden. Im ersten Fall kann eine Blindkopie an die entsprechende Einheit gesandt werden. Bevorzugt ist es aber auch möglich, die Nachricht sequentiell zuerst einem und anschließend dem mindestens zweiten Bewertungsverfahren zu unterwerfen. Hierbei ist zu beachten, dass in den Bewertungseinheiten keine Filterung der Nachrichten, sondern lediglich eine Bewertung erfolgt, die einer späteren Filterung beziehungsweise Klassifizierung zugrunde gelegt wird. Die Nachrichten können in den Bewertungsverfahren mit einer Bewertung versehen und weitergeleitet werden. Werden die Bewertungsverfahren nacheinander durchgeführt, kann somit sicher gestellt werden, dass eine Nachricht, die von einem ersten Bewertungsverfahren als Spam erkannt wird, dennoch dem zweiten Bewertungsverfahren unterzogen wird.
  • Die Nachrichten, die für die Bewertung weiterer Nachrichten verwendet werden, und im Folgenden als Referenznachrichten bezeichnet werden, werden vorzugsweise zumindest teilweise in einer Datenbank abgelegt, auf die mindestens eines der Bewertungsverfahren zugreift. Durch das Ablegen von zumindest Teilen der Nachricht können sowohl Listen von Absender-Angaben, deren Nachrichten stets als erwünschte Nachricht angesehen werden soll (sogenannte White-Lists), erzeugt werden. Die Teile der Nachricht, die abgelegt werden, können aber auch Tokens sein, deren Vorliegen auf eine Spam hinweisen. Dadurch kann eine Datenbasis für eines oder beide der Bewertungsverfahren aufgebaut werden und auf dem neuesten Stand gehalten werden.
  • Vorzugsweise umfassen die mindestens zwei Bewertungsverfahren unterschiedliche Verfahrensschritte. Auf diese Weise wird es möglich, Nachteile, die gegebenenfalls bei einem Bewertungsverfahren auftreten, durch das andere Bewertungsverfahren zu beheben.
  • Zumindest eines der Bewertungsverfahren kann erfindungsgemäß eine statische Bewertung durchführen. Unter statischer Bewertung wird insbesondere eine Bewertung anhand von vorgegebenen Regeln, insbesondere heuristischen Regeln, verstanden, bei denen ein der Vergleich von Mustern in einer E-Mail, die Überprüfung von Kopfzeilen und dergleichen vorgenommen wird. Hierbei werden Muster und Regeln verwendet, die beispielsweise vom Hersteller des Filters festgelegt werden und auf die der Benutzer keinen Einfluss hat. Eine solche Bewertung kann von Beginn der Benutzung des Klassifizierungsverfahrens an eingesetzt werden, da die Regeln vorgegeben sind.
  • In mindestens einem der Bewertungsverfahren wird vorzugsweise eine Wahrscheinlichkeit der Zugehörigkeit der Nachricht zu einer Klasse bestimmt. Diese Klasse ist in diesem Fall die Klasse, der die Nachrichten zugeordnet werden, die durch dieses Bewertungsverfahren als Spam angesehen werden. Durch die Zuordnung einer Wahrscheinlichkeit durch mindestens ein Verfahren, vorzugsweise durch alle Bewertungsverfahren kann die Aussagekraft des Gesamtergebnisses verbessert werden. Statt lediglich das Ergebnis zu erhalten „Nachricht ist Spam" oder „Nachricht ist keine Spam", wird ein Wahrscheinlichkeitswert für die Zugehörigkeit zu der Klasse „Nachricht ist Spam" geliefert. Hierdurch kann die Flexibilität des Verfahrens noch gesteigert werden, da die Werte, die für die Zuordnung zu dieser Klasse verwendet werden, gegebenenfalls benutzerspezifisch eingestellt werden können.
  • Gemäß einer bevorzugten Ausführungsform wendet mindestens eines der Bewertungsverfahren eine Bayes-Methode an. Als Bayes'sche Methode oder Verfahren wird erfindungsgemäß insbesondere ein Verfahren bezeichnet, das eine statistische Bewertung in Abhängigkeit von einer Datenbasis ausführt, die beispielsweise durch den Benutzer oder andere Programme beziehungsweise Verfahren verändert oder aufgefüllt wird. Die Datenbasis ist somit als dynamisch anzusehen. Dieses Verfahren wird mit einer kleinen Datenbasis von beispielsweise etwa 1.000 Nachrichten initialisiert.
  • Vorzugsweise ist eines der Bewertungsverfahren benutzerspezifisch ausgelegt beziehungsweise kann benutzerspezifisch variiert werden. Insbesondere wenn nur eines der Bewertungsverfahren benutzerspezifisch ist, können über dieses Verfahren im Laufe der Zeit die Präferenzen des Benutzers Berücksichtigung finden, während von Beginn an beispielsweise durch vom Hersteller vorgegebene Regeln in einem statischen Verfahren bereits eine Klassifizierung stattfinden kann.
  • Gemäß einer Ausführungsform des Verfahrens wird bei der Klassifizierung der Nachrichten die Bewertung mindestens eines Bewertungsverfahrens vorrangig berücksichtigt. Vorrangige Berücksichtigung kann erfindungsgemäß bedeuten, dass das Ergebnis nur eines Bewertungsverfahrens für die Klassifikation verwendet wird. Alternativ kann es bedeuten, dass insbesondere bei Verfahren, die Wahrscheinlichkeitswerte als Bewertungsergebnis ausgeben, der Wert eines Verfahrens mit einem höheren Faktor in die Gesamtwahrscheinlichkeit einfließt. Durch diese Wichtung kann in Abhängigkeit der Präferenz des Benutzers, dem Umfang gespeicherter Daten oder anderer Umstände einem Verfahren zumindest zeitweise ein Vorrang eingeräumt werden.
  • Der Vorrang, der mindestens einem Bewertungsverfahren eingeräumt wird, wird vorzugsweise über die Zeit geändert. Diese dynamische Kombination der Bewertungsverfahren ist besonders vorteilhaft, da durch diese Zeitabhängigkeit je nach Dauer der Benutzung automatisch das zuverlässigere Bewertungsverfahren mehr berücksichtigt werden kann.
  • Vorzugsweise wird dem Bewertungsverfahren, das die Referenznachrichten, das heißt die Nachrichten einer Klasse für die Bewertung weiterer Nachrichten, verwendet, mit zunehmender Zeit eine größere Gewichtung bei der Kombination der Bewertungen zugeteilt. Da dieses Verfahren über die Zeit mit Daten versorgt wird, die bereits durch zwei Bewertungsverfahren klassifiziert wurden, wird die Zuverlässigkeit dieses Verfahrens gegenüber der Zuverlässigkeit eines anderen Bewertungsverfahrens das beispielsweise nur auf vorgegebene Regeln und Muster zurückgreift, ansteigen.
  • Das Verfahren, dessen Gewichtung mit der Zeit zunimmt, stellt vorzugsweise ein Bewertungsverfahren dar, das eine statistische Bewertung und Bestimmung einer Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse durchführt. Besonders bevorzugt ist dieses Verfahren ein Verfahren dass nach dem Bayes'schen Verfahren arbeitet, da dieses auf eine Datenbasis zugreift, die mittels der Kombination der beiden Bewertungsverfahren zuverlässig mit Daten versorgt werden kann. Hierbei kann der prozentuale Anteil, den eines der Verfahren an der Gesamtbewertung hat, in Abhängigkeit der Anzahl „gelernten" Nachrichten in der Datenbasis linear oder dynamisch zunehmen.
  • Nach dem Erzielen einer vorgegebenen Anzahl von Referenznachrichten, das heißt Nachrichten in der Klasse, die für die Bewertung weiterer Nachrichten verwendet wird, kann ausschließlich das Bewertungsverfahren, das diese Referenznachrichten verwendet, durchgeführt werden. In diesem Fall dient das mindestens zweite Bewertungsverfahren als Überbrückung für die Anlernzeit eines Bewertungsverfahrens, das eine Datenbasis mit einem gewissen Datenbestand benötigt. Das mindestens zweite Bewertungsverfahren dient somit als Lernprogramm für das Bewertungsverfahren, das ab einem gewissen Zeitpunkt gegebenenfalls alleine eingesetzt werden soll.
  • In dem erfindungsgemäßen Verfahren können zumindest teilweise manuell vom Benutzer eingegebene Informationen berücksichtigt werden. Im Gegensatz zu einem Verfahren bei dem der Benutzer die gesamte Datenbasis für ein Bewertungsverfahren erstellen muss, ist das Eingreifen des Benutzers zur Erstellung der Datenbasis nicht zwangsläufig notwendig. Der Benutzer kann efindungsgemäß aber Informationen bezüglich eines Stücks einer Nachricht eingeben und diese Informationen können bei der Bewertung der Nachricht oder bei der Klassifizierung der Nachricht berücksichtigt werden. Das Stück der Nachricht kann die Identifikation des Senders der Nachricht betreffen. Hierdurch kann von dem Benutzer beispielsweise eine sogenannte White-List erstellt werden.
  • Alternativ oder zusätzlich kann der Benutzer Informationen bezüglich der Klasse einer Nachricht eingeben. Diese von dem Benutzer eingegebene Information kann insbesondere eine Korrektur der aufgrund der kombinierten Bewertung der mindestens zwei Bewertungsverfahren ermittelten Klasse darstellt. Eine solche Umklassifizierung einer Nachricht durch den Benutzer kann auch für die Bewertung weiterer Nachrichten berücksichtigt werden. Durch diese Korrektur durch den Benutzer wird die Entscheidungsgenauigkeit des Bewertungsverfahrens, das auf die Datenbasis zugreift, verbessert.
  • Die Informationen, die von dem Benutzer eingegeben werden, werden in zumindest einer Speichereinheit abgelegt und zumindest bei der Durchführung eines der Bewertungsverfahren oder der Klassifizierung der Nachrichten wird auf diese Speichereinheit zugegriffen. Auf diese Weise kann beispielsweise durch das Einstellen einer White-List durch den Benutzer eine durch die Bewertungsverfahren als Spam klassifizierte Nachricht dennoch als legitime Nachricht behandelt werden. Somit können „false positives" vermieden werden.
  • In zumindest einem Bewertungsverfahren wird die Nachricht in Stücke unterteilt und die Bewertung erfolgt anhand zumindest eines Teils der Stücke. Vorzugsweise werden hierbei die Nachrichten für die Bewertung in Stücke unterteilt beziehungsweise nur in Stücken betrachtet werden, die sich bezüglich ihrer Funktion in der Nachricht unterscheiden. Solche Stücke können beispielsweise den Betreff, den Absender, den Inhalt oder „embedded" HTML- oder Java-Scripts darstellen. Abhängig von der Funktion des Stückes in der Nachricht kann eine entsprechende Bewertung stattfinden. So können beispielsweise für unterschiedliche Stücke der Nachricht unterschiedliche Bewertungskriterien verwendet werden beziehungsweise auf unterschiedliche Teile einer Datenbasis zugegriffen werden.
  • Gemäß einem weiteren Aspekt wird die der Erfindung zugrunde liegende Aufgabe gelöst durch ein System zum Klassifizieren von elektronischen Nachrichten, die in einer Empfangsvorrichtung empfangen wurden, wobei das System zumindest zwei Bewertungseinheiten umfasst. Das System zeichnet sich dadurch aus, dass den Bewertungseinheiten eine Kombinationseinheit zugeordnet ist, die so ausgelegt ist, dass mit dieser die Bewertungen der einzelnen Bewertungsverfahren kombiniert werden können und diese kombinierte Bewertung zur Zuordnung zu zumindest einer Klasse verwendet werden kann, und der Ausgang der Kombinationseinheit mit zumindest einem Eingang einer der Bewertungseinheiten verbunden ist.
  • Dieses System eignet sich, um das erfindungsgemäße Verfahren auszuführen. Hierzu sind die Bewertungseinheiten mit der Kombinationseinheit für einen Datentransfer von den Bewertungseinheiten zu der Kombinationseinheit verbunden. Die Bewertungseinheiten sind vorzugsweise der Kombinationseinheit vorgeschaltet. Hierbei können die Bewertungseinheiten sequenziell, das heißt in Reihe geschaltet sein. Alternativ können die Bewertungseinheiten aber auch parallel geschaltet sein und die Ausgänge beider Bewertungseinheiten mit der Kombinationseinheit verbunden sein. Mit der letztgenannten Ausgestaltung ist es somit möglich, eine Nachricht simultan in den mindestens zwei Bewertungseinheiten bearbeiten und bewerten zu können. Hierzu kann vor den Bewertungseinheiten die an der Empfangsvorrichtung empfangene elektronische Nachricht kopiert werden, um je ein Exemplar für die entsprechenden Bewertungseinheiten zur Verfügung stellen zu können. Es liegt aber auch im Rahmen der Erfindung, dass die mindestens zwei Bewertungseinheiten gleichzeitig auf ein einziges Exemplar der Nachricht zugreifen.
  • Diejenige Bewertungseinheit, die mit der Kombinationseinheit verbunden ist, weist vorzugsweise eine Speichereinheit auf, die in der Bewertungseinheit integriert sein kann oder auf die die Bewertungseinheit zugreift. In diesem Fall ist der Ausgang der Kombinationseinheit mit der Speichereinheit, die der Bewertungseinheit zugeordnet ist, verbunden. In dieser Speichereinheit können Daten oder Regeln für die Bewertung der eingehenden Nachrichten abgelegt werden.
  • Die Bewertungseinheiten können erfindungsgemäß so ausgelegt sein, dass diese Nachrichten mit einer Bewertung versehen und weiterleiten können. Die Bewertung muss dabei stets eindeutig einer Nachricht zugeordnet sein.
  • In einer weiteren Ausgestaltung umfasst das erfindungsgemäße System eine Eingabevorrichtung, mittels derer der Benutzer der Empfangsvorrichtung oder eines damit verbundenen Endgerätes Informationen in das System eingeben kann. Eine solche Eingabevorrichtung kann beispielsweise eine Tastatur eines Computers oder eines mobilen Endgerätes, wie beispielsweise eines Laptops oder eines mobilen Telefons sein. Die Eingabevorrichtung ist vorzugsweise so in das erfindungsgemäße System eingebunden, dass diese mittelbar oder unmittelbar auf verschiedene Elemente des Systems einwirken kann. Die Einbindung kann über Verkabelung oder über Übertragung mittels elektromagnetischer Wellen erfolgen.
  • Die Eingabevorrichtung kann beispielsweise mit einer zusätzlichen Speichereinheit des Systems verbunden sein, wobei die Speichereinheit der Kombinationseinheit zugeordnet ist. In diesem Fall kann über die Eingabevorrichtung beispielsweise eine sogenannte White-List erstellt werden. Auf diese in der Speichereinheit abgelegten Liste kann die Kombinationseinheit beispielsweise beim Klassifizieren der Nachrichten zugreifen. Die Speichereinheit, auf die der Benutzer mittels der Eingabevorrichtung zugreifen, insbesondere Daten eingeben, kann, kann auch einer der Bewertungseinheiten oder allen Bewertungseinheiten zugeordnet sein.
  • Weiterhin kann die Eingabevorrichtung auf das System nach der Kombinationseinheit zugreifen und der manuellen Korrektur einer Bewertung der Kombinationseinheit und einer daraus resultierenden Klassifizierung dienen.
  • Gemäß einer Ausführungsform umfasst die Kombinationseinheit einen Logikblock, in dem die Ausgaben der beiden Bewertungseinheiten miteinander verarbeitet werden. Diesem Logikblock kann ein Klassifikationsblock zum Zuteilen von Nachrichten zu zumindest einer Klasse nachgeschaltet sein. In dem Logikblock kann somit beispielsweise eine Gesamtwahrscheinlichkeit aus den Wahrscheinlichkeiten zur Zugehörigkeit einer Klasse ermittelt werden, die von den Bewertungseinheiten übertragen wurden. Weiterhin kann in dem Logikblock oder dem Klassifikationsblock die derzeitige Gewichtung des einen oder anderen Verfahrens berücksichtigt werden.
  • In dem Klassifikationsblock kann die berechnete Gesamtwahrscheinlichkeit dann beispielsweise mit einem Grenzwert, der von dem Benutzer eingegeben wurde, verglichen und die Nachricht entsprechend des Vergleichsergebnisses klassifiziert werden. In Abhängigkeit von der Klassifizierung kann die Nachricht anschließend von einem Verteiler an den zutreffenden Speicherort weitergeleitet und/oder einer der Bewertungseinheiten zugeführt werden.
  • Gemäß einer bevorzugten Ausführungsform weisen die mindestens zwei Bewertungseinheiten unterschiedliche Funktionsweisen auf. Wie oben bereits beschrieben, kann eine Bewertungseinheit ein regelbasierendes Verfahren ausführen, wohingegen eine andere Einheit beispielsweise Tokens aus der Nachricht entsprechend dem Bayes'schen Verfahrens mit dem Inhalt einer Datenbasis vergleicht, die ständig verändert wird.
  • Obwohl es erfindungsgemäß auch möglich ist, dass die Bewertungseinheiten lediglich das Bewertungsergebnis liefern, ob die Nachricht eine erwünschte oder eine unerwünschte Nachricht darstellt, ist es bevorzugt, mindestens eine Bewertungseinheit mit einer Berechnungseinheit zu versehen, die der Berechnung einer Wahrscheinlichkeit der Zugehörigkeit der Nachricht zu einer Klasse dient.
  • Die Bewertungseinheiten des erfindungsgemäßen Systems verfügen vorzugsweise jeweils zumindest über einen Bearbeitungsblock zur Bearbeitung der Nachricht. Dieser Bearbeitungsblock stellt vorzugsweise einen Unterteilungsblock dar, in dem die Nachricht in eine Vielzahl von Stücken unterteilt wird. Die Unterteilung der Nachricht in dem Bearbeitungsblock stellt hierbei in der Regel keine tatsächliche Trennung der Stücke der Nachricht dar. Vielmehr kann die Unterteilung eine Betrachtung von gewissen Stücken der Nachricht durch das jeweilige Verfahren sein.
  • Die Bewertungseinheit kann erfindungsgemäß weiterhin zumindest einen Logikblock umfassen, der als Vergleichsblock ausgeführt ist. In diesem Vergleichsblock können zumindest ein Teil der Stücke der Nachricht mit gespeicherten Daten verglichen werden und anhand des Vergleiches eine statistische Bewertung durchgeführt werden. Alternativ kann der Logikblock als Regelblock ausgeführt sein, um zumindest ein Stück der Nachricht mindestens einer heuristischen Regel, insbesondere einer vorgegebenen statischen Regel, zu unterwerfen.
  • Das erfindungsgemäße System kann eine Vorrichtung darstellen und/oder zumindest teilweise als Programm ausgeführt sein. Insbesondere sind die Einheiten wie beispielsweise die Bewertungseinheiten, die Kombinationseinheit, die Speichereinheit und die Ablageeinheit vorzugsweise als Programme ausgeführt.
  • Wie bereits erwähnt, kann das System eine Verteilereinheit umfassen, die der Kombinationseinheit nachgestaltet ist und die erhaltenen Nachrichten entsprechend der Ausgabe der Kombinationseinheit an mindestens eine Einheit in dem System weiterleitet. Die Nachricht kann so beispielsweise an eine von mindestens zwei Ablageeinheiten weitergeleitet werden, in denen die Nachrichten entsprechend ihrer Bewertung abgelegt werden können. Die Ablageeinheiten können beispielsweise Ordner in einem Verwaltungsprogramm eines Computers darstellen. Alternativ oder zusätzlich kann die Nachricht, insbesondere eine Bildkopie hiervon, an eine Speichereinheit, die die Datenbasis für eine der Bewertungseinheiten darstellt, geleitet werden.
  • Die Empfangsvorrichtung, die in dem erfindungsgemäßen System verwendet wird, ist beispielsweise ein Datenverarbeitungsgerät, insbesondere ein PC, ein Laptop, ein Server, insbesondere einen Mail-Server, ein Mobiltelefon oder ein Nachrichtengerät, wie beispielsweise ein BlackberryTM.
  • Das erfindungsgemäße System ist vorzugsweise zum Klassifizieren von Textnachrichten, insbesondere elektronischen Textnachrichten, wie E-Mails oder SMS, ausgelegt.
  • Die Vorteile und Merkmale, die bezüglich des erfindungsgemäßen Systems beschrieben werden, gelten entsprechend und, soweit anwendbar, ebenfalls für das erfindungsgemäße Verfahren und umgekehrt.
  • Die vorliegende Erfindung wird im Folgenden anhand der beiliegenden Figuren genauer beschrieben, wobei
  • 1 eine schematische Blockdarstellung des erfindungsgemäßen Systems gemäß einer ersten Ausführungsform,
  • 2 eine schematische Blockdarstellung einer zweiten Ausführungsform des erfindungsgemäßen Systems und
  • 3 ein Flussdiagramm für eine Ausführungsform des erfindungsgemäßen Verfahrens zeigen.
  • In den einzelnen Figuren sind gleiche Bestandteile des Systems mit den gleichen Bezugszeichen versehen und deren Funktion wird gegebenenfalls nur einmal beschrieben.
  • Das erfindungsgemäße System 1 umfasst in der in 1 dargestellten Ausführungsform eine erste Bewertungseinheit 11 und eine zweite Bewertungseinheit 12. Diese Bewertungseinheiten 11 und 12 sind in der dargestellten Ausführungsform sequentiell geschaltet. Mit diesen Bewertungseinheiten 11 und 12 ist eine Kombinationseinheit 13 verbunden, der wiederum ein Verteiler 14 nachgeschaltet ist. Der Verteiler 14 steht sowohl mit einer Speichereinheit 16 als auch mit Ablagevorrichtungen 15a und 15b in Verbindung. Die Speichereinheit 16 steht in der dargestellten Ausführungsform mit der Bewertungseinheit 12 in Verbindung.
  • Die Funktionsweise des Systems 1 soll im Folgenden anhand des Beispiels von E-Mail-Nachrichten beschrieben werden.
  • Wird eine Nachricht 2 an der Empfangsvorrichtung, die beispielsweise einen Mailserver darstellen kann, empfangen, so wird diese an die Bewertungseinheit 11 und von dort an eine zweite Bewertungseinheit 12 geleitet. In der dargestellten Ausführungsform soll die Bewertungseinheit 11 beispielsweise eine regelbasierende Bewertungseinheit und die Bewertungseinheit 12 eine Bewertungseinheit, die aufgrund des Bayes'schen Verfahrens arbeitet, darstellen. In der Bewertungseinheit 11 wird die Nachricht 2 erhalten und einem Bearbeitungsblock 111 zugeführt. In diesem Bearbeitungsblock werden die einzelnen Bestandteile der Nachricht 2 identifiziert und in dem Regelblock 112 gemäß hinterlegter Regeln untersucht. Aufgrund des Ergebnisses der Regelüberprüfung wird eine Bewertung vergeben, die angibt, ob es sich bei der E-Mail um eine unerwünschte E-Mail (UCE oder Spam) handelt. Diese Bewertung wird zusammen mit der Nachricht an die Bewertungseinheit 12 geleitet.
  • In der Bewertungseinheit 12 wird die Nachricht 2 in dem Bearbeitungsblock 121 bearbeitet. Insbesondere kann bei der vorliegenden Ausführungsform die E-Mail in sogenannte Tokens unterteilt beziehungsweise auf diese fokussiert werden. Diese Tokens werden in dem Logikblock 122 entsprechend dem Bayes'schen Verfahren mit Daten aus der Datenbasis 16 verglichen und in dem Berechnungsblock 123 für die Wahrscheinlichkeit des Vorliegens einer Spam wird daraufhin die Wahrscheinlichkeit festgelegt. Dieser von der Bewertungseinheit 12 berechnete Wahrscheinlichkeitswert und die Bewertung der Bewertungseinheit 11 werden zusammen mit der Nachricht 2 an den Logikblock 131 der Kombinationseinheit 13 geleitet. In dem Logikblock 131 können die Ergebnisse der Bewertungen der Bewertungseinheiten 11 und 12 kombiniert werden. Insbesondere wird in dem Logikblock 131 die Gesamtwahrscheinlichkeit des Vorliegens einer unerwünschten Nachricht (Spam) berechnet.
  • Entsprechend dem Ergebnis der Berechnung der Gesamtwahrscheinlichkeit wird in dem Klassifikationsblock 132 der Kombinationseinheit 13 die Nachricht der entsprechenden Klasse zugeordnet. In dem Klassifikationsblock 132 oder in dem Logikblock 131 kann beispielsweise ein Grenzwert, der durch den Benutzer festgelegt wurde, berücksichtigt werden. Die Klassifikation in dem Klassifikationsblock 132 erfolgt vorzugsweise in Klassen für unerwünschte Mails und erwünschte Mails. Es ist aber auch möglich, dass in dem Klassifikationsblock 132 eine Nachricht einer Klasse zugeordnet wird, die angibt, dass lediglich das Bewertungsverfahren in der Bewertungseinheit 11 das Vorliegen einer unerwünschten Nachricht erkannt hat, wohingegen das Bewertungsverfahren in der Bewertungseinheit 12 zu dem Ergebnis gelangt ist, dass es sich um eine erwünschte E-Mail handelt.
  • Die klassifizierten Nachrichten werden an den Verteiler 14 geleitet, der die Nachricht entsprechend ihrer Klassifikation an die geeignete Einheit des Systems weiterleitet. Handelt es sich bei der empfangenen E-Mail um eine unerwünschte E-Mail, so kann diese beispielsweise in einen Ordner 15a abgelegt werden oder unmittelbar gelöscht werden. Handelt es sich hingegen um eine erwünschte E-Mail, so kann diese in den normalen Posteingang eines Mail-Programms 15b abgelegt werden. Handelt es sich bei der E-Mail um eine unerwünschte E-Mail, so wird von dem Verteiler 14 eine Blindkopie der E-Mail an die Datenbasis 16 geleitet und dort abgelegt. Auf diese Weise kann eine für das Bewertungsverfahren in der Bewertungseinheit 12 erforderliche Datenbasis aufgebaut werden. Zusätzlich können auch Nachrichten, die als erwünschte Nachrichten erkannt wurden an die Datenbasis 16 geleitet werden und dort entsprechend abgelegt werden.
  • Wird in dem Klassifikationsblock 132 der Kombinationseinheit 13 eine Klassifizierung dahingehend vorgenommen, welches der Bewertungsverfahren die E-Mail als unerwünschte E-Mail erkannt hat, so kann erfindungsgemäß vorgesehen sein, dass nur solche E-Mails weitergeleitet an die Datenbasis 16 werden, die von beiden Bewertungsverfahren als Spam erkannt wurden. Alternativ kann beispielsweise in dem Logikblock 131 eine Überprüfung durchgeführt werden, ob die Gesamtentscheidung darüber, ob die E-Mail zu der Klasse „Spam" oder „kein Spam" gehört, eindeutig von beiden Bewertungsverfahren getroffen wurde. Bei positivem Ergebnis dieser Überprüfung wird dann eine Bildkopie der entsprechenden E-Mail an die Datenbasis 16 geleitet, während das Original in einer der Ablageeinheiten 15a oder 15b abgelegt wird.
  • Wie in 1 durch den gestrichelten Pfeil angedeutet, steht die Kombinationseinheit 13 und insbesondere der Klassifikationsblock 132 mit der Datenbasis 16 in Verbindung. Hierdurch wird es möglich die Qualität der Datenbasis 16, insbesondere die Anzahl der enthaltenen Nachrichten, zu überprüfen. Das Ergebnis dieser Überprüfung kann bei der Klassifikation berücksichtigt werden.
  • Wie sich aus der 1 ergibt, kann ein Benutzer des Systems 1 in verschiedenen Weisen auf die Funktionsweise des Systems eingreifen. Der Benutzer kann über eine Eingabevorrichtung 17 beispielsweise unmittelbar Daten in die Datenbasis 16 eingeben, wodurch die Zuverlässigkeit des Verfahrens in der Bewertungseinheit 12 schneller ansteigt. Alternativ oder zusätzlich kann der Benutzer weiterhin ebenfalls über eine geeignete Eingabevorrichtung (nicht dargestellt) eine bereits in einen bestimmten Ordner abgelegte E-Mail umklassifizieren. Hierzu kann der Benutzer die E-Mail von einem Ordner in den anderen verschieben. Eine solche Umklassifizierung wird in dem System berücksichtigt, indem eine gegebenenfalls bereits in der Datenbank 16 abgelegte Blindkopie einer unerwünschten E-Mail gelöscht oder dort umklassifiziert wird, wenn der Benutzer diese als erwünschte E-Mail identifiziert. In gleicher Weise wird in dem System 1 eine Blindkopie an die Datenbasis 16 gesandt, wenn ein Benutzer die E-Mail, die ursprünglich von der Kombinationseinheit als erwünschte E-Mail erkannt wurde, als unerwünschte E-Mail identifiziert.
  • In der 2 ist eine weitere Ausführungsform des erfindungsgemäßen Systems dargestellt. Dieses weist einen im Vergleich zu der Ausführungsform der 1 leicht veränderten Aufbau auf. In der Ausführungsform nach 2 sind die Bewertungseinheiten 11 und 12 allerdings parallel geschaltet. Die von der Empfangsvorrichtung empfangene Nachricht 2 wird hierbei gleichzeitig den zwei Bewertungseinheiten 11 und 12 zugeführt. Dies kann, wie in 2 gezeigt, durch Erstellen einer Blindkopie oder durch gleichzeitiges Zugreifen der Bewertungseinheiten 11 und 12 auf die Nachricht 2 erfolgen. Nach der Bewertung in den Bewertungseinheiten 11 und 12 wird auch bei dieser Ausführungsform die Nachricht 2 mit den ihr zugeordneten Bewertungen an die Kombinationseinheit 13 geleitet. Dort werden die bereits beschriebenen Kombinations- und Klassifikationsschritte durchgeführt.
  • Zusätzlich ist in der Ausführungsform der 2 allerdings eine Datenbasis 18 vorgesehen, die der Kombinationseinheit 13 zugeordnet ist. Auch auf diese Datenbasis 18 kann der Benutzer mittels geeigneter Eingabevorrichtungen zugreifen. Die Datenbasis 18 kann beispielsweise zum Speichern einer Liste bezüglich sicherer Mail-Clients dienen. Die so von dem Benutzer erstellte White-List wird von der Kombinationseinheit 13 bei der Klassifizierung eingehender E-Mails berücksichtigt. Weiterhin ist in der 2 angedeutet, dass der Benutzer unmittelbar über eine Eingabevorrichtung (nicht dargestellt) auf die Kombinationseinheit zugreifen kann. Dieser Zugriff stellt insbesondere die Eingabe von Kriterien, beispielsweise von Schwellwerten dar.
  • Auch bei der Ausführungsform der 2 ist die Datenbasis 16, die der Bewertungseinheit 12 zugeordnet ist, mit der Kombinationseinheit 13 zur Überprüfung der Qualität der Datenbasis 16 verbunden.
  • Das erfindungsgemäße Verfahren wird nunmehr anhand des Flussdiagramms der 3 erneut beschrieben.
  • Nachdem eine E-Mail empfangen wurde, wird diese durch ein erstes Bewertungsverfahren beurteilt. Das Ergebnis dieses Bewertungsverfahrens ist in der dargestellten Ausführungsform eine Wahrscheinlichkeit Sa. Anschließend wird die E-Mail durch ein zweites Beurteilungsverfahren bewertet und das Ergebnis dieser Beurteilung mit Sb angegeben. Nach Erhalt der beiden Wahrscheinlichkeitswerte Sa und Sb kann eine Entscheidung darüber getroffen werden, ob es sich bei der E-Mail um eine Spam-Mail handelt. Hierzu wird eine relative Verknüpfung der Entscheidungen der Verfahren 1 und 2 durchgeführt und eine Gesamtwahrscheinlichkeit S berechnet. Bei Überschreiten eines Grenzwertes wird die E-Mail entsprechend sortiert. Handelt es sich bei der E-Mail um eine Spam-Mail, so wird diese der Datenbasis für das Verfahren 2 zugeführt. Eine solche Hinzufügung zu der Datenbasis erfolgt ausschließlich dann, wenn in dem Entscheidungsschritt eine eindeutige Gesamtentscheidung gefällt werden konnte. Der Bestand der Datenbasis kann in regelmäßigen Abständen oder bei jeder empfangenen und zu bearbeitenden E-Mail überprüft werden, insbesondere bezüglich der Anzahl der gelernten E-Mails. Obwohl dies in 3 nicht dargestellt ist, liegt es auch im Rahmen der Erfindung eine als „Kein Spam" klassifizierte E-Mail der Datenbasis des Verfahrens 2 zuzuführen, wenn die Gesamtentscheidung eindeutig war.
  • Das Verfahren soll anhand von folgenden Beispielen verdeutlicht werden.
  • Es werden folgende Konstanten angenommen:
    MM (Anzahl Mail, ab der Verfahren 2 zum alleinigen Kriterium wird): 10.000
    S (Grenzwert für die Einteilung Spam/kein Spam): 0.5
    Anzahl gelernter Mails für Verfahren 2: 5000
    Stärke der Zunahme des Gewichtes Verfahren 2k: 8
    Funktion f: f(x)=(Sa × (1 – (x^k) × exp(–kx)/exp(–k))) + (Sb × ((x^k) × exp(–k × x)/exp(–k)))
  • Beispiel 1
  • Neu ankommende Mail wird durch Verfahren 1 mit einer Wahrscheinlichkeit Sa von 0.1 und von Verfahren 2 mit einer Wahrscheinlichkeit von Sb 0.4 beurteilt. Durch eine Funktion f ergibt sich somit folgende Gesamtwahrscheinlichkeit von 0.214211. Somit wird die Mail als nicht Spam angesehen und der Datenbasis des Verfahrens 2 hinzugefügt.
  • Beispiel 2
  • Neu ankommende Mail wird durch Verfahren 1 mit einer Wahrscheinlichkeit Sa von 0.4 und von Verfahren 2 mit einer Wahrscheinlichkeit von Sb 0.7 beurteilt. Durch eine Funktion f ergibt sich somit folgende Gesamtwahrscheinlichkeit von 0.51421. Somit wird die Mail als Spam angesehen. Da die Entscheidung jedoch nicht eindeutig ist, wird die Mail der Datenbasis des Verfahrens 2 nicht hinzugefügt.
  • Obwohl in der Beschreibung im wesentlichen auf E-Mails als elektronische Nachrichten eingegangen wurde, ist es offensichtlich, dass die vorliegende Erfindung ebenso für andere elektronische Nachrichten wie SMS anwendbar ist.
  • Mit der vorliegenden Erfindung ist es somit möglich, ein Verfahren und ein System zur Verfügung zu stellen, die eine zuverlässige Klassifizierung von elektronischen Nachrichten erlauben. Insbesondere ermöglich das erfindungsgemäße Verfahren, dass jeder Benutzer des Systems einen auf seine Bedürfnisse individuell abgestimmten Spamfilter erhält. Hierbei kann das Gewicht, das dem Urteil des Bayes'schen Filters beigemessen wird über eine Funktionskurve immer stärker zunehmen, da seine Bewertungen immer zuverlässiger werden. Ab einem Zeitpunkt kann dann der Bayes-sche Filter als alleiniges Kriterium für die Klassifizierung der E-mails oder anderer Nachrichten dienen.
  • 1
    System
    11
    Bewertungseinheit
    111
    Bearbeitungsblock
    112
    Logikblock
    12
    Bewertungseinheit
    121
    Bearbeitungsblock
    122
    Logikblock
    123
    Berechnungseinheit
    13
    Kombinationseinheit
    131
    Logikblock
    132
    Klassifikationsblock
    14
    Verteilereinheit
    15a
    Ablageeinheit
    15b
    Ablageeinheit
    16
    Speichereinheit
    17
    Eingabevorrichtung
    18
    Speichereinheit

Claims (46)

  1. System (1) zum Klassifizieren von elektronischen Nachrichten (2), die in einer Empfangsvorrichtung empfangen wurden, wobei das System (1) zumindest zwei Bewertungseinheiten (11, 12) umfasst, dadurch gekennzeichnet, dass den Bewertungseinheiten (11, 12) eine Kombinationseinheit (13) zugeordnet ist, die so ausgelegt ist, dass mit dieser die Bewertungen der einzelnen Bewertungsverfahren kombiniert werden können und diese kombinierte Bewertung zur Zuordnung zu zumindest einer Klasse verwendet werden kann, und der Ausgang der Kombinationseinheit (13) mit zumindest einem Eingang einer der Bewertungseinheiten (12) verbunden ist.
  2. System nach Anspruch 1, dadurch gekennzeichnet, dass die Bewertungseinheiten (11, 12) parallel geschaltet sind und die Kombinationseinheit (13) diesen nachgeschaltet ist.
  3. System nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die Bewertungseinheit (12), die mit der Kombinationseinheit (13) verbunden ist, eine Speichereinheit (16) aufweist und der Ausgang der Kombinationseinheit (13) mit dieser Speichereinheit (16) verbunden ist.
  4. System nach Anspruch 3, dadurch gekennzeichnet, dass die Speichereinheit (16) in der Bewertungseinheit (12) integriert ist oder die Bewertungseinheit (12) auf die Speichereinheit (16) zugreift.
  5. System nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Bewertungseinheiten (11, 12) so ausgelegt sind, dass diese die Nachricht (2) mit einer Bewertung versehen und weiterleiten können.
  6. System nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass dieses eine Eingabevorrichtung (17) umfasst, mittels derer der Benutzer der Empfangsvorrichtung oder eines damit verbundenen Endgerätes Informationen in das System (1) eingeben kann.
  7. System nach Anspruch 6, dadurch gekennzeichnet, dass die Eingabevorrichtung (17) mit einer zusätzlichen Speichereinheit (18) des Systems (1) verbunden ist, wobei die Speichereinheit (18) vorzugsweise der Kombinationseinheit (13) zugeordnet ist.
  8. System nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, dass die Eingabevorrichtung (17) auf das System (1) nach der Kombinationseinheit (13) zugreift und der manuellen Korrektur einer Bewertung der Kombinationseinheiten (11, 12) dient.
  9. System nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Kombinationseinheit (13) einen Logikblock (131), in dem die Ausgaben der beiden Bewertungseinheiten (11, 12) miteinander verarbeitet werden, und einen Klassifikationsblock (132), zum Zuteilen von Nachrichten (2) zu zumindest einer Klasse, umfasst.
  10. System nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass die mindestens zwei Bewertungseinheiten (11, 12) unterschiedliche Funktionsweisen aufweisen.
  11. System nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass mindestens eine Bewertungseinheit (11, 12) eine Berechnungseinheit (123) für die Berechnung einer Wahrscheinlichkeit der Zugehörigkeit der Nachricht zu einer Klasse umfasst.
  12. System nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass die Bewertungseinheiten (11, 12) jeweils zumindest einen Bearbeitungsblock (111, 121) zur Bearbeitung der Nachricht (2) umfassen.
  13. System nach Anspruch 12, dadurch gekennzeichnet, dass der Bearbeitungsblock (111, 121) einen Unterteilungsblock darstellt, in dem die Nachricht (2) in eine Vielzahl von Stücken unterteilt wird.
  14. System nach Anspruch 13, dadurch gekennzeichnet, dass die Bewertungseinheit (12) zumindest einen Logikblock (122) umfasst, der als Vergleichsblock ausgeführt ist, um zumindest eines der Stücke der Nachricht (2) mit gespeicherten Daten zu vergleichen und anhand des Vergleiches eine statistische Bewertung durchzuführen.
  15. System nach einem der Ansprüche 13 oder 14, dadurch gekennzeichnet, dass die statistische Bewertung anhand der Bayes-Methode durchgeführt wird.
  16. System nach Anspruch 13, dadurch gekennzeichnet, dass die Bewertungseinheit (11) zumindest einen Logikblock (112) umfasst, der als Regelblock ausgeführt ist um zumindest ein Stück der Nachricht (2) mindestens einer heuristischen Regel zu unterwerfen.
  17. System nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, dass das System (1) eine Vorrichtung darstellt.
  18. System nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass das System (1) zumindest teilweise als Programm ausgeführt ist.
  19. System nach einem der Ansprüche 1 bis 18, dadurch gekennzeichnet, dass dieses eine Verteilereinheit (14) umfasst, die der Kombinationseinheit (13) nachgeschaltet ist und die erhaltenen Nachrichten (2) entsprechend der Ausgabe der Kombinationseinheit (13) an mindestens eine Einheit (15a, 15b, 16) in dem System (1) weiterleitet.
  20. System nach einem der Ansprüche 1 bis 19, dadurch gekennzeichnet, dass dieses mindestens zwei Ablageeinheiten (15a, 15b) aufweist, in die die Nachrichten (2) entsprechend ihrer Bewertung abgelegt werden können.
  21. System nach einem der Ansprüche 1 bis 20, dadurch gekennzeichnet, dass die Empfangsvorrichtung ein Datenverarbeitungsgerät, insbesondere einen Personal Computer, einen Laptop, einen Server, ein Mobiltelefon oder eine Nachrichtengerät ist.
  22. System nach einem der Ansprüche 1 bis 21, dadurch gekennzeichnet, dass das System (1) zur Klassifizierung von Textnachrichten, insbesondere elektronischen Textnachrichten, wie E-Mails oder SMS, ausgelegt ist.
  23. Verfahren zum Klassifizieren von elektronischen Nachrichten (2), die auf einer Empfangsvorrichtung empfangen werden, dadurch gekennzeichnet, dass die empfangene Nachricht (2) einem ersten Bewertungsverfahren und mindestens einem zweiten Bewertungsverfahren unterzogen wird, wobei der Nachricht (2) in den Bewertungsverfahren jeweils eine Bewertung zugeordnet wird, die Bewertungen der beiden Bewertungsverfahren miteinander kombiniert werden, die Nachricht (2) aufgrund der kombinierten Bewertung mindestens einer Klasse zugeordnet wird und Nachrichten (2) zumindest einer Klasse zumindest teilweise für die Bewertung von weiteren Nachrichten (2) in zumindest einem der Bewertungsverfahren verwendet werden.
  24. Verfahren nach Anspruch 23, dadurch gekennzeichnet, dass die mindestens zwei Bewertungsverfahren unabhängig voneinander durchgeführt werden, insbesondere dass die Nachricht (2) gleichzeitig zumindest zwei Bewertungseinheiten (11, 12) zur Durchführung der Bewertungsverfahren zugeführt wird.
  25. Verfahren nach einem der Ansprüche 23 oder 24, dadurch gekennzeichnet, dass die Nachrichten (2), die für die Bewertung weiterer Nachrichten (2) verwendet werden, zumindest teilweise in einer Datenbank (16) abgelegt werden, auf die mindestens eines der Bewertungsverfahren zugreift.
  26. Verfahren nach einem der Ansprüche 23 bis 25, dadurch gekennzeichnet, dass die mindestens zwei Bewertungsverfahren unterschiedliche Verfahrensschritte umfassen.
  27. Verfahren nach einem der Ansprüche 23 bis 26, dadurch gekennzeichnet, dass zumindest ein Bewertungsverfahren eine statische Bewertung durchführt.
  28. Verfahren nach Anspruch 26, dadurch gekennzeichnet, dass in dem Bewertungsverfahren eine Wahrscheinlichkeit (Sa, Sb) der Zugehörigkeit der Nachricht (2) zu einer Klasse bestimmt wird.
  29. Verfahren nach Anspruch 28, dadurch gekennzeichnet, dass das Bewertungsverfahren eine Bayes-Methode anwendet.
  30. Verfahren nach einem der Ansprüche 23 bis 29, dadurch gekennzeichnet, dass das zumindest ein Bewertungsverfahren eine Bewertung nach heuristischen Regeln erstellt.
  31. Verfahren nach einem der Ansprüche 23 bis 30, dadurch gekennzeichnet, dass zumindest eines der Bewertungsverfahren benutzerspezifisch ausgelegt ist.
  32. Verfahren nach einem der Ansprüche 23 bis 31, dadurch gekennzeichnet, dass bei der Klassifizierung der Nachrichten (2) die Bewertung mindestens eines Bewertungsverfahrens vorrangig berücksichtigt wird.
  33. Verfahren nach Anspruch 32, dadurch gekennzeichnet, dass der Vorrang, der mindestens einem Bewertungsverfahren eingeräumt wird, über die Zeit geändert wird.
  34. Verfahren nach Anspruch 33, dadurch gekennzeichnet, dass das Bewertungsverfahren, das die Nachrichten (2) einer Klasse für die Bewertung weiterer Nachrichten verwendet, mit zunehmender Zeit eine größere Gewichtung bei der Kombination der Bewertungen erhält.
  35. Verfahren nach Anspruch 34, dadurch gekennzeichnet, dass das Verfahren dessen Gewichtung mit der Zeit zunimmt ein Bewertungsverfahren darstellt, das eine statistische Bewertung und Bestimmung einer Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse durchführt.
  36. Verfahren nach einem der Ansprüche 23 bis 35, dadurch gekennzeichnet, dass nach Erzielen einer vorgegebenen Anzahl von Nachrichten in der Klasse, die für die Bewertung weiterer Nachrichten verwendet wird, ausschließlich das Bewertungsverfahren, das diese Nachrichten verwendet, durchgeführt wird.
  37. Verfahren nach einem der Ansprüche 23 bis 36, dadurch gekennzeichnet, dass die Nachrichten in den Bewertungsverfahren mit einer Bewertung verbunden und weitergeleitet werden.
  38. Verfahren nach einem der Ansprüche 23 bis 37, dadurch gekennzeichnet, dass in dem Verfahren zumindest teilweise manuell vom Benutzer eingegebene Informationen berücksichtigt werden.
  39. Verfahren nach Anspruch 38, dadurch gekennzeichnet, dass der Benutzer Informationen bezüglich eines Stücks einer Nachricht (2) oder bezüglich der Klasse einer Nachricht (2) eingibt und diese Informationen bei der Bewertung der Nachricht (2) oder bei der Klassifizierung der Nachricht berücksichtigt werden.
  40. Verfahren nach Anspruch 39, dadurch gekennzeichnet, dass das Stück der Nachricht (2) die Identifikation des Senders der Nachricht betrifft.
  41. Verfahren nach einem der Ansprüche 38 oder 39, dadurch gekennzeichnet, dass die Information bezüglich der Klasse eine Korrektur der aufgrund der kombinierten Bewertung der mindestens zwei Bewertungsverfahren ermittelten Klasse darstellt.
  42. Verfahren nach einem der Ansprüche 39 bis 41, dadurch gekennzeichnet, dass die Informationen, die von dem Benutzer eingegeben werden in zumindest einer Speichereinheit (16, 18) abgelegt werden und zumindest bei der Durchführung eines der Bewertungsverfahren oder der Klassifizierung der Nachrichten (2) auf diese Speichereinheit (16, 18) zugegriffen wird.
  43. Verfahren nach einem der Ansprüche 23 bis 42, dadurch gekennzeichnet, dass die Nachrichten (2) in Klassen eingeteilt werden, die sich aufgrund der in den Klassen enthaltenen Nachrichten und/oder aufgrund des Verfahrens der Bewertung der Nachricht (2) unterscheiden.
  44. Verfahren nach einem der Ansprüche 23 bis 43, dadurch gekennzeichnet, dass in zumindest einem Bewertungsverfahren die Nachricht (2) in Stücke unterteilt wird und die Bewertung anhand zumindest eines Teils der Stücke erfolgt.
  45. Verfahren nach Anspruch 44, dadurch gekennzeichnet, dass die Nachrichten in Stücke unterteilt werden, die sich bezüglich ihrer Funktion in der Nachricht (2) unterscheiden.
  46. Verfahren nach einem der Ansprüche 23 bis 45, dadurch gekennzeichnet, dass mit dem Verfahren Textnachrichten, insbesondere elektronischen Textnachrichten, wie E-Mails oder SMS, klassifiziert werden können.
DE102004014139A 2004-03-23 2004-03-23 System und Verfahren zum Klassifizieren von elektronischen Nachrichten Revoked DE102004014139B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102004014139A DE102004014139B4 (de) 2004-03-23 2004-03-23 System und Verfahren zum Klassifizieren von elektronischen Nachrichten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004014139A DE102004014139B4 (de) 2004-03-23 2004-03-23 System und Verfahren zum Klassifizieren von elektronischen Nachrichten

Publications (2)

Publication Number Publication Date
DE102004014139A1 DE102004014139A1 (de) 2005-10-20
DE102004014139B4 true DE102004014139B4 (de) 2006-07-20

Family

ID=35033860

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004014139A Revoked DE102004014139B4 (de) 2004-03-23 2004-03-23 System und Verfahren zum Klassifizieren von elektronischen Nachrichten

Country Status (1)

Country Link
DE (1) DE102004014139B4 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999932A (en) * 1998-01-13 1999-12-07 Bright Light Technologies, Inc. System and method for filtering unsolicited electronic mail messages using data matching and heuristic processing
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US20040039786A1 (en) * 2000-03-16 2004-02-26 Horvitz Eric J. Use of a bulk-email filter within a system for classifying messages for urgency or importance
WO2004079501A2 (en) * 2003-02-25 2004-09-16 Microsoft Corporation Adaptive junk message filtering system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999932A (en) * 1998-01-13 1999-12-07 Bright Light Technologies, Inc. System and method for filtering unsolicited electronic mail messages using data matching and heuristic processing
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US20040039786A1 (en) * 2000-03-16 2004-02-26 Horvitz Eric J. Use of a bulk-email filter within a system for classifying messages for urgency or importance
WO2004079501A2 (en) * 2003-02-25 2004-09-16 Microsoft Corporation Adaptive junk message filtering system

Also Published As

Publication number Publication date
DE102004014139A1 (de) 2005-10-20

Similar Documents

Publication Publication Date Title
DE102005058110B4 (de) Verfahren zum Ermitteln möglicher Empfänger
DE69829225T2 (de) Methode und system zum ausfiltern unerwünschter elektronischer nachrichten unter anwendung einer überprüfung auf datenübereinstimmung und heuristischer verarbeitung
DE69910952T2 (de) Priorität- und Sicherheit-Kodierungssystem für elektronische Post nachrichten
DE19681387B4 (de) Regelbasiertes elektronisches Mitteilungsverwaltungssystem
DE19730112A1 (de) Empfangs- und Speichervorrichtung für Übertragungseinheiten
DE19922300A1 (de) Vorrichtung zur automatischen Bearbeitung von eingehener elektronischer Post (=Email)
EP2882145B1 (de) Verfahren und Filteranordnung zum Speichern von Informationen über einen seriellen Datenbus eines Kommunikationsnetzwerks eingehender Nachrichten in einem Teilnehmer des Netzwerks
DE202011110862U1 (de) Prioritäts-Inbox-Mitteilungen und Synchronisierung für mobile Nachrichtenanwendungen
DE112011105466B4 (de) Digitales Rundfunkempfangsgerät
EP1701493B1 (de) Verfahren und System für die Klassifikation von Auktionen betreffenden Emails
DE112012000774T5 (de) Automatische Korrektur von Kontaktlistenfehlern in einem Zusammenarbeitssystem
DE102014004068A1 (de) Verfahren und Vorrichtung zur Steuerung einer Konferenz
DE10115428A1 (de) Verfahren zum Erkennen einer unerwünschten E-Mail
DE102004014139B4 (de) System und Verfahren zum Klassifizieren von elektronischen Nachrichten
Kim et al. Spam filtering with dynamically updated URL statistics
DE102015008619A1 (de) Verfahren und Vorrichtung zum Verfassen von elektronischen Postnachrichten beginnend von existierenden Nachrichten in einem elektronischen Postprogramm
WO2015086162A1 (de) Verfahren und system zur übermittlung einer elektronischen nachricht
DE10349627B4 (de) Schutz vor unerwünschten Nachrichten
EP1563652A1 (de) Zugriffsbenachrichtigung eines absenders einer elektronischen nachricht
DE112012005344T5 (de) Verfahren, Computerprogramm und Computer zum Erkennen von Trends in sozialen Medien
DE102012025351B4 (de) Verarbeitung eines elektronischen Dokuments
DE102021129308A1 (de) Identifizieren von assets für gemeinschaftsprojekte in der softwareentwicklung
DE10326092B3 (de) Verfahren zum Kategorisieren von Nachrichten und Vorrichtungen zur Durchführung desselben
EP1668850B1 (de) Nachrichtenübertragung in einem Netzwerk
DE602004003240T2 (de) Verfahren zum verarbeiten von datensätzen mit beschreibungen multimedialer inhalte, anwendung des verfahrens und entsprechendes computerprogramm

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8363 Opposition against the patent
R037 Decision of examining division or of federal patent court revoking patent now final
R107 Publication of grant of european patent cancelled

Effective date: 20131010

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: H04L0012260000

Ipc: H04L0043000000