DE10024733A1

DE10024733A1 - Verfahren und Vorrichtung zum Abblocken von aus einem Netzwerk anforderbaren Daten

Info

Publication number: DE10024733A1
Application number: DE10024733A
Authority: DE
Inventors: Clemente Spehr
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-05-19
Filing date: 2000-05-19
Publication date: 2001-11-22
Also published as: WO2001090932A2; WO2001090932A3; AU2001269021A1

Abstract

Ein Verfahren und Vorrichtungen zum Abblocken von aus einem Netzwerk anforderbaren Resourcen mit unerwünschtem Inhalt, sowie ein Verfahren zum Ausfiltern solcher Daten aus einer beliebig großen Datenmenge wird vorgeschlagen. Angeforderte Webseiten werden beispielsweise vor dem Verbrauch beim Endbenutzer auf ihre Integrität hin kontrolliert. Die anforderbaren Informationsressourcen werden im wesentlichen vollautomatisch durch ein erfindungsgemäßes Filterprogramm beruhend auf Erkennung und gewichteter Bewertung einzelner "verdächtiger" Informationselemente untersucht und qualifiziert.

Description

STAND DER TECHNIK

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Abblocken von aus einem Netzwerk anfor derbaren Daten mit unerwünschtem Inhalt sowie ein Verfah ren zum Ausfiltern solcher Daten aus einer beliebig gro ßen Datenmenge.

Obwohl auf beliebige Daten und Netzwerke anwendbar, wer den die vorliegende Erfindung sowie die ihr zugrundelie gende Problematik in Bezug auf eine Situation erläutert, in der mehrere, miteinander vernetzte Endbenutzer-PCs ei nen Firewall Zugang zum Internet besitzen. Das Internet wird heutzutage von vielen Menschen genutzt. Es ist eine hervorragende, komplexe, unter Umständen einfach zu re cherchierende Informationsressource für eine Vielfalt von Ressourcen, wie beispielsweise Texte, Bilder, Daten, Ton sequenzen oder Bildsequenzen beziehungsweise Kombinatio nen daraus, wie es beispielsweise in Videofilmen der Fall ist. Die Informationen werden dabei grundsätzlich auf An forderung eines Endbenutzers von einer meist für die an geforderte Information spezifischen Datenquelle, einem Netzserver, zum Endbenutzer transportiert, wo sie entwe der nur dargestellt oder auch gespeichert und weiterver arbeitet werden können.

Mit zunehmender Akzeptanz des Internets in weiten Kreisen von Wirtschaft und Bevölkerung haben sich die Inhalte der im Internet dargebotenen Webseiten stark diversifiziert: einerseits gibt es informative, sehr nützliche Informa tionen die für den Verbrauch beim Endbenutzer unproblema tisch sind. Andererseits gibt es jedoch eine Vielzahl nicht gewünschter Informationen, beispielsweise Informa tionen, die thematisch im Bereich Sex, Hardcore, Kinder porno, Gewalt, oder auch reiner Werbung liegen.

Je nach Alter, Interessen und Hintergrund eines oder meh rerer Endbenutzer dieser Informationen ist es wünschens wert, bestimmte oder alle im Netz verfügbaren Informatio nen, die zu einem oder mehreren der vorgenannten Themen eindeutig zuzuordnen sind, auszufiltern, um den Endbenut zer nicht damit zu belasten.

Solche Informationen werden im folgenden als nicht ge wünschte Informationen bezeichnet.

Es gibt freilich gewisse objektive Maßstäbe nach denen solche Informationen gefiltert werden könnten. Darunter fallen beispielsweise Informationen, in denen die Gewalt verherrlicht wird, die Kinderpornos zeigen, oder gewisse, moralisch stark bedenkliche Sex and Crime-Inhalte, um nur die wichtigsten zu nennen. Für solche Inhalte erscheint eine globale, klassische Indizierung angebracht. Das Pro blem dabei ist jedoch, wie solche Informationen, bei spielsweise in Form von Webseiten wirksam vor dem Endbe nutzer abgeblockt werden können. Ein weiterer Aspekt, der bei jenem Abblocken zu berücksichtigen ist, ist die Tat sache, daß ein und der selbe Inhalt nicht für alle Men schen gleich schädlich beziehungsweise unerwünscht ist. So gibt es beispielsweise Menschen, die sich durch Werbe blöcke oder Werbebanner kaum stören lassen oder aber Men schen, die auf die Einblendung solcher Werbemittel sehr sensibel reagieren. Auch kann ein erwachsener Mensch ein größeres Maß an den oben genannten Sex and Crime- Informationen verarbeiten, ohne daran Schaden zu nehmen, im Vergleich zu einem Kind. Da Kinder jedoch in zunehmen dem Maße auch als Endbenutzer in Frage kommen, müssen Kinder beispielsweise selektiv vor unerwünschten oder verbotenen Inhalten geschützt werden.

Im Stand der Technik befindliche Möglichkeiten, selektiv bestimmte Inhalte dem Endbenutzer vorzuenthalten, sind nur über Texterkennung gegeben. Insbesondere kann dem Endbenutzer der Zugang nur zum PC als Maschine über ein Paßwort möglich sein, wobei das Paßwort auch beim Aufruf eines Browser-Programms verlangt werden kann.

Dies hat jedoch den Nachteil, daß der Endbenutzer auch keine für ihn nützlichen oder wertvollen Daten aus dem Netz ziehen kann.

VORTEILE DER ERFINDUNG

Das erfindungsgemäße Verfahren mit den Merkmalen des An spruchs 1, das Verfahren mit den Merkmalen des Anspruchs 5 sowie die entsprechenden Vorrichtungen gemäß Ansprüchen 16 bis 19 weisen gegenüber den bekannten Lösungsansätzen den Vorteil auf, daß die Zugangskontrolle flexibler als bisher gestaltbar ist. Fordert der Endbenutzer beispiels weise aus dem Internet bestimmte Daten an, so werden die se Daten vor einer Darstellung beim Endbenutzer daraufhin untersucht, ob sie bestimmten, flexibel bestimmbaren Fil terkriterien genügen oder nicht. Diese Filterkriterien werden dann als Basis dafür herangezogen, zu entscheiden, ob die Daten als "ungewünscht" vom Endbenutzer abzublok ken sind, oder ob sie als tolerabel dem Endbenutzer zu führbar sind. Es wird also ein sogenannter Filterserver zwischen den Endbenutzer-PC und dem Informationsnetzwerk geschaltet, der vorzugsweise für eine Vielzahl von Endbe nutzern gleichzeitig diese Filterfunktion realisiert. Das Ausfiltern besteht im wesentlichen aus einer Untersuchung der Daten hinsichtlich ihrer Integrität bezüglich der vorbestimmten, indizierten Themen, dem Qualifizieren der untersuchten Daten hinsichtlich dieser Integrität, dem Speichern dieser Daten und/oder deren Referenzen in einer Datenbank zusammen mit deren Beurteilungsergebnissen und der Entscheidung zwischen Abblocken oder Freigabe.

Wenn eine Firewall die Schnittstelle zu dem Informations netzwerk darstellt, kann diese in vorteilhafter Weise auch derart erweitert sein, daß die Entscheidung auf Ab blocken oder Freigabe von ihr erstellt wird. Dies hat den Vorteil, daß Wartung und Pflege der Kriterien an einer einzigen Stelle einfach für eine Mehrzahl von Endbenut zern durchgeführt werden kann, wobei dies gleich in Kom bination mit der im Stand der Technik vorhandenen Praxis der automatischen Virenkontrolle kombiniert werden kann. Im Falle der Nutzung des erfindungsgemäßen Verfahrens kann das erfindungsgemäße Filterverfahren auch entweder zwangsgesteuert oder vom Endbenutzer freiwillig steuerbar von seinem entfernt liegenden PC aus angestoßen werden. In vorteilhafter Weise kann die vorerwähnte Filterfunkti on auch durch Computersysteme realisiert werden, die bei dem vom Endbenutzer gewählten Netzprovider eingesetzt werden.

Die der vorliegenden Erfindung zugrundeliegende Idee be steht darin, daß alle angeforderten Netzwerkinformations ressourcen, z. B. Webseiten aus dem worldwide web, vor dem Konsum beim Endbenutzer auf ihre Integrität hin kontrol liert werden. Dies kann zeitnah zur Anforderung gesche hen, sollte aber zeitlich vorzugsweise von der Benutzer anforderung entkoppelt werden. Die anforderbaren Informa tionsressourcen werden im wesentlichen vollautomatisch durch ein erfindungsgemäßes Filterprogramm untersucht und qualifiziert. Diese Untersuchung läuft vorzugsweise steu erbar in verschiedenen Ebenen ab: Einerseits ist es sinn voll, eine "schwarze Liste" mit Referenzen auf Adressen bestimmter Datenquellen zu führen, die bekanntermaßen un gewünschte Inhalte zur Verfügung stellen. Andererseits ist es sinnvoll, eine "grüne Liste" mit Referenzen auf Adressen bestimmter Datenquellen zu führen, die bekann termaßen gewünschte Inhalte zur Verfügung stellen.

Dies können beispielsweise die IP-Adressen der zugehöri gen Webserver oder spezielle Webseiten-URLs sein, wenn als Informationsressource das Internet gilt. Diese einfa che Form des Filterns benötigt dann lediglich einen Ab gleich zwischen der vom Endbenutzer angeforderten Refe renz mit den entsprechenden Listen.

Das erfindungsgemäß vorgeschlagene Verfahren ist jedoch wesentlich flexibler und wirksamer als ein solcher pau schaler Abgleich: denn bestimmte Elemente der aus dem Netzwerk stammenden Daten können einzeln identifiziert und mit einer Wichtung belegt abgespeichert werden. Dabei deckt die Wichtung die verschiedenen, oben genannten, in dizierten Themenbereiche, wie zum Beispiel Gewalt, Porno, Sex and Crime, ab. Ziel ist es dabei, möglichst zuverläs sig signifikante Informationen aus dem downgeloadeten In halt zu finden, die möglichst eindeutig den Schluß zulas sen, daß der betreffende Inhalt als unerwünscht einge stuft werden kann. Ein nackter Hintern kann beispielswei se mit einem Wichtungsprozentsatz von 80% für den The menbereich Sex, mit 30% für den Themenbereich Hardcore, mit 40% für den Themenbereich Kinderporno, mit 0% für Themenbereich Gewalt, ebenso 0% für Werbung belegt wer den. Wird beispielsweise ein nacktes Knie als Bildelement identifiziert, so bekommt es nur einen Wichtungsprozent satz von 20% für Sex und entsprechend reduzierte Pro zentsätze für die anderen Themenbereiche.

Die von dem Filterprogramm benutzten Suchalgorithmen kön nen dabei auf im Stand der Technik vorhandenen Scan- Funktionen für Bilder, Text und Sprache basieren. In vor teilhafter Weise können die entsprechenden Module direkt von dem erfindungsgemäßen Filterprogramm übernommen und aufgerufen werden. Es werden also für alle Informations kategorien wie beispielsweise Text, Bild, Audio und Video spezifische Elementelisten erzeugt, die jeweils eine mög lichst vollständige Auflistung solcher Elemente beinhal ten, die einen Beitrag dazu liefern könnten, eine Websei te, oder andere Informationen, die das zugehörige Element enthalten, als unerwünscht oder aber als tolerabel einzu stufen. In der Textliste können beispielsweise vulgäre Ausdrücke in verschiedenen Sprachen stehen. In der Bild liste können beispielsweise eine Vielzahl von Ganzkörper- Nacktdarstellungen und die Darstellung einzelner, vor zugsweise nackter oder spärlich bekleideter Körperteile abgespeichert werden. In der Audio-Liste können verschie dene Geräusche gespeichert werden, die für einen oder mehrere der oben genannten Themenbereiche signifikant sind, beispielsweise Stöhnen. Einzelne (Stand-)Bilder bzw. Bildsequenzen von Videos können mit der o. g. Bildli ste bearbeitet werden.

Die in dem Filterserver laufende Software sucht vorzugs weise automatisch in einem Grundmodus ständig das Inter net ab, um möglichst aktuelle Informationen zu haben. Auch im Stand der Technik vorhandene Techniken der Erken nung von Werbung können hierbei sinnvoll zum Einsatz kom men. Bestimmte, häufig wiederkehrende Motive aller Kate gorien können in vorteilhafter Weise als besonders ty pisch für die entsprechende Kategorie abgespeichert wer den, um einerseits als Vergleichsmuster für ähnliche Mu ster zu dienen und andererseits, um sie bei einem wieder holten Auftreten schneller erkennen zu können, wodurch die Performance beim automatischen Absuchen der Webseiten gesteigert wird.

Je nach verfügbarem Speicherplatz und anderen Randbedin gungen, beispielsweise den bevorzugten Ziel-Webseiten der angeschlossenen Endbenutzer werden entweder komplette Webseiten auf dem Filterserver selbst gespeichert oder nur Referenzen auf diese Daten, beispielsweise die URL oder andere, signifikante Adressangaben, je nach Netz werktyp oder Informationsquelle.

In bevorzugter Weise werden die Qualifizierungsergebnisse für die einzelnen Web-Inhalte in einer oder mehreren Da tenbanken systematisch abgelegt. Durch einen Auswerteal gorithmus, der diese Informationen liest und noch weitere Informationen aus dem Umfeld der Webseite hinzunimmt, kann dann bezüglich einer vom Endbenutzer angeforderten Webseite programmgesteuert eine Entscheidung getroffen werden, ob die angeforderte Information als unerwünscht oder als tolerabel zu beurteilen ist. Ist sie uner wünscht, so wird die Anforderung nicht bedient und gege benenfalls ein Hinweis an den Endbenutzer ausgegeben. An dernfalls wird die Information an den Benutzer ausgege ben.

In den Unteransprüchen finden sich vorteilhafte Weiter bildungen und Verbesserungen des jeweiligen Gegenstandes der Erfindung.

Gemäß einer bevorzugten Weiterbildung besteht das erfin dungsgemäß vorgeschlagene System aus zwei Elementen, zum einen mit einer erweiterten Firewall als Front-End und einem sogenannten Clean Surf Server, im folgenden CSS ab gekürzt, als Back-End. Dabei befindet sich das Front-End benutzerseitig auf dem Rechner, über den der Benutzer in das Internet kommt, sei es als Einzelplatz oder in einem lokalen Netzwerk. Der CSS ist in vorteilhafter Weise dem Netzprovider zugeordnet, wo er eine Vielzahl von Endbe nutzern bedienen kann.

Gemäß einer bevorzugten Weiterbildung läuft das erfin dungsgemäße Filterverfahren wenigstens zweistufig ab: In einer Vorstufe auf der Benutzerseite findet ein Abgleich zwischen benutzerangeforderten Inhalten mit als uner wünscht markierten und benutzerseitig gespeicherten Refe renzen auf indizierte bzw. nicht-indizierte Inhalte statt. Bei einem Treffer in dieser "ersten schwarzen Li ste" wird die Benutzeranforderung sofort abgelehnt, ohne den CCS zu kontaktieren. Wenn kein Treffer erfolgt und die URL noch nicht untersucht wurde, wird die Benutzeran forderung an den CCS zur Weiterbearbeitung weiterge reicht. Ein flexibles, effizientes Verfahren folgt dar aus, das vom Einzelplatz-PC bis hin zu großen Endbenut zer-Netzwerken skalierbar ist.

Gemäß einer bevorzugten Weiterbildung sind diese Referen zen Adressen bestimmter Datenquellen, die bekanntermaßen ungewünschte oder gewünschte Inhalte zur Verfügung stel len, also beispielsweise IP-Server-Adressen oder URL- Seiten-Adressierungen. Dies steigert die Performance, da die Antwortzeit auf die Benutzeranforderung hin sehr ge ring ist.

Gemäß einer bevorzugten Weiterbildung können die Daten Webseiten aus einem Netzwerk, insbesondere dem Internet und dem WorldWideWeb entsprechen. Diese Maßnahme trifft dann den derzeitigen Hauptanwendungsfall der vorliegenden Erfindung.

Gemäß einer bevorzugten Weiterbildung umfassen die Index themen wenigstens eines der folgenden Themen: Sex, Hard core, Kinderporno, Gewalt, Werbung und Kreditkarten, und ebenso die Eingabemöglichkeit von Kreditkartennummern. Eine solche Ausgestaltung unerwünschter Themen bietet ei nen relativ objektiven moralischen Maßstab zum "Sauber halten" der dem Benutzer dargebotenen Inhalte.

Gemäß einer bevorzugten Weiterbildung werden Kombinatio nen bestimmter Elemente mit für die Kombination typischen Wichtungswerten belegt und abgespeichert. Werden bei spielsweise in einem heruntergeladenen Bild sowohl eine Peitsche als auch menschliche Nacktdarstellungen gefun den, so kann mit relativ großer Wahrscheinlichkeit darauf geschlossen werden, daß es sich um eine Webseite mit Sa do-/Maso-Inhalten handelt. Daher bekommt die Kombination Peitsche plus nackter Körperteil oder nackter Körper ei nen hohen Wichtungsfaktor im Themenbereich Sex and Crime beziehungsweise Hardcore. Eine Peitsche allein als er kanntes Bildelement würde noch nicht ausreichen, um die Webseite derart einzustufen, da Peitschen ja auch als Reitzubehör dienen. Auch nackte Körperteile beziehungs weise nackte oder spärlich bekleidete Ganzkörperdarstel lungen rechtfertigen für sich gesehen noch nicht eine solche Klassifizierung, denn sie sind durchaus üblich bei der Präsentation von Bademode oder Damen- oder Herren- Unterbekleidung.

In vorteilhafter Weise können auch Kombinationen gebildet werden aus Elementen, die aus verschiedenen Kategorien stammen. Beispielsweise bekäme die Kombination "Stöhnen plus Nacktdarstellung" einen hohen Wichtungsfaktor für den Themenbereich Sex. Kämen dann noch Handschellen oder bestimmte aridere, bekannte Sado-/Maso-Zubehörteile als weiteres Kombinationselement hinzu, so würde der Wich tungsfaktor für Sex wieder reduziert, der von Hardcore beziehungsweise Sex and Crime jedoch von 0% auf einen sehr hohen Wert erhöht werden.

In bevorzugter Weise können durch komplexe Abfragealgo rithmen und umfassende Reservoirs an Elementen für jede einzelne Informationskategorie themenbereichsspezifisch verläßliche Filterungsergebnisse erzielt werden. Dabei versteht sich von selbst, daß in diese Abfragealgorithmen viel empirisches Wissen integriert werden sollte, damit diese eine optimale Wirksamkeit erzielen.

Gemäß einer bevorzugten Weiterbildung kann ein von einem Endbenutzer spezifiziertes Benutzerprofil hinsichtlich der Definition ungewünschter Daten zusätzlich bei der Auswertung berücksichtigt werden. Dieses Benutzerprofil kann dann in geeigneter Weise mit den vorgegebenen, "ob jektiven" Filterkriterien überlagert werden, um effekti ve, benutzerbezogene, subjektive Filterkriterien aufzu stellen. Diese effektiven Kriterien ersetzen dann die oben beschriebenen, objektiven Kriterien. Diese Maßnahme eignet sich insbesondere, um das erfindungsgemäße Verfah ren an verschiedene Altersgruppen der Endbenutzer anzu passen. So kann es für Erwachsene durchaus wünschenswert sein, Sexdarstellungen betrachten zu können. Andererseits sollte dieses Minderjährigen verwehrt sein, ebenso wie der Zugang zu Gewaltdarstellungen.

Gemäß einer bevorzugten Weiterbildung enthält das Benut zerprofil eine Wichtung der verschiedenen Indexthemen.

Dies ermöglicht eine einfach zu realisierende Überlage rung der subjektiven mit den objektiven Filterkriterien.

Gemäß einer bevorzugten Weiterbildung werden vom Benutzer abgehende Suchbegriffe oder Seitenanforderungen unter sucht, ob sie den oben angegebenen objektiven Filterkri terien genügen. Insbesondere können solche Suchbegriffe auch gefiltert werden. In einem solchen Fall werden bei spielsweise die URL-Angaben, die vom Endbenutzer eingege ben wurden, auf ihre Integrität hin untersucht, bevor das dahinterliegende Bild- oder Tonmaterial untersucht wird. Findet sich die angeforderte URL auf der schwarzen Liste, so wird der Zugriff verweigert und der Benutzer entspre chend informiert. Dies steigert die Performance.

Das erfindungsgemäße Verfahren kann in vorteilhafter Wei se auch zum eigentlichen Ausfiltern unerwünschter Inhalte in Bildsequenzen oder Tonsequenzen oder in Videos für sich betrachtet herangezogen werden. Die Auswertemethode hängt dabei sowohl von der Darstellungsweise als auch von der Übertragungsart ab. Werden beispielsweise in einer Videoübertragung bei den Bildinformationen nur Änderungen gegenüber dem Bild davor übertragen, so muß das "Grund bild" auf seine Integrität hin untersucht werden. Wenn allerdings die Änderung ein Bildelement einführt, das auf der Indexliste steht, so kann die Wichtung nach dem oben angegebenen-Verfahren vollzogen werden.

Bei streaming-basierten Übertragungen ist es vorteilhaft, die Übertragung durch einen temporären Pufferspeicher laufen zu lassen, und unerwünschte Teilsequenzen entweder zu entfernen oder durch andere, unproblematische Teilse quenzen zu ersetzen. Dies hat den Vorteil, daß keine langweiligen Lücken bei der Wiedergabe der gestreamten Daten entstehen.

ZEICHNUNGEN

Ausführungsbeispiele der Erfindung sind in den Zeichnun gen dargestellt und in der nachfolgenden Beschreibung nä her erläutert.

Es zeigt

Fig. 1 eine schematische Blockdarstellung mit den we sentlichen technischen Funktionselementen und den wichtigsten Schritten während des Einsatzes des erfinderischen Verfahrens gemäß einem be vorzugten Ausführungsbeispiel.

BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE

Fig. 1 zeigt eine schematische Blockdarstellung mit den wesentlichen technischen Funktionselementen und den wich tigsten Schritten während des Einsatzes des erfinderi schen Verfahrens gemäß einem bevorzugten Ausführungsbei spiel.

Ein unternehmensinternes Netzwerk 10 enthält eine Mehr zahl N von Endbenutzer-PCs, von denen zumindest einige zum Surfen im Internet eingerichtet sind. Für den vorlie genden Fall interessiert nur der oben eingezeichnete User-PC 1. Er ist mit Bezugszeichen 12 versehen. Eine aus dem Stand der Technik bekannte Firewall- Netzwerkkomponente ist nun um einige erfindungsgemäße Funktionen erweitert. Diese Komponente ist mit Bezugszei chen 14 versehen. Die Primärfunktion der Firewall 14 bleibt die Ankopplung des Unternehmensnetzes an ein oder mehrere öffentliche Netze, wobei hier das Internet als Beispielsnetz dargestellt ist, siehe oberer Bereich der Figur.

Die Firewall-Komponente 14 ermöglicht eine Datenverbin dung auf einer Datenleitung 16 zu einem sogenannten Clean Surf Server 18, der als zwischengeschaltete Station dient, um einen direkten Kontakt zwischen Firewall 14 und Internet zu vermeiden. Dieser Server 18 wird im folgenden auch als CSS abgekürzt und arbeitet im wesentlichen als Filterserver.

Der Filterserver 18 ist mit einem Robot-Mechanismus 20 verbunden, der grundsätzlich unabhängig von einer Benut zeranfrage einen automatischen Zugang zum Internet be sitzt und eine Vielzahl der dort angebotenen Inhalte auf Text, Ton, Dateninhalt, beispielsweise einem Vorhanden sein von Viren, sowie Audio- oder Videosequenzen von Web seiten untersucht. Dies geschieht über eine separate Da tenleitung 22. Dieser Robot-Mechanismus enthält ein im Stand der Technik bekanntes Such-Programm, das nach einem vorgegebenen Netzwerksuchschema Webseiten einschließlich aller darauf befindlicher Links aufsuchen und deren In halte herunterladen kann. In vorteilhafter Weise arbeitet der Robot-Mechanismus in einem separat stehenden, lei stungsfähigen Computer, der vorzugsweise von der Perfor mance her frei skalierbar ist, um sich an den wachsenden Datenbestand im Internet gut anpassen zu können. Damit der Durchsatz gut ist, sollte die Datenleitung 22 vor zugsweise eine sehr hohe Kapazität besitzen.

Der Robot-Computer 20 ist logisch und physikalisch mit einer Reihe von Datenbanken 24 verbunden, in denen für jede Informationskategorie eine große Anzahl von Suchkri terien gespeichert sind. Es gibt also für die Informati onskategorie "Text" eine Datenbank 24a, für die Kategorie "Bild" eine Datenbank 24b, eine Audio-Datenbank 24c, eine Video-Datenbank 24d sowie optional eine Viren-Datenbank 24e. In all diesen Datenbanken sind separat für jede Ka tegorie bestimmte Elemente gespeichert, die jeweils für ein oder mehrere, bestimmte, indizierte Themenbereiche relevant sind, wie es oben beschrieben wurde. Die Zusam menfassung mehrerer getrennter Datenbanken in eine einzi ge oder in eine niedrigere Anzahl von Datenbanken kann je nach Datenbanktyp und gewünschter Performance durchge führt werden.

Der Robot-Mechanismus ist weiterhin logisch mit zwei Da tenbanken 26 und 28 verbunden. Die Einheiten 20, 24, 26 und 28 bilden zusammen eine funktionsfähige Untereinheit 30, die im Normalfall asynchron vom Filterserver 18 ar beitet und laufend das Internet nach neuen Inhalten hin untersucht, wobei in nicht separat dargestellten Suchve rarbeitungs-Servern die gefundenen Webseiten mit den in den Datenbanken 24a, . . ., 24e gespeicherten Suchkriterien nach unerwünschten Inhalten durchsucht werden. Die Such ergebnisse werden dann in den beiden Datenbanken 26 und 28 abgelegt. Vorzugsweise werden gefundene Einzelelemente zusammen mit einer für sie typischen Wichtung in einer der beiden Datenbanken 26 oder 28 abgelegt.

Die Datenbank 26 enthält vorzugsweise die IP-Adressen be stimmter Webserver, die verbotene/unerwünschte Inhalte anbieten. Die Datenbank 28 enthält vorzugsweise verbotene/unerwünschte HTML-Seiten beziehungsweise solche HTML- Seiten, die wenigstens zum Teil unerwünschte Inhalte ent halten, sowie eine entsprechende Klassifizierung.

Wird beim automatischen Absuchen durch den Robot- Mechanismus beispielsweise eine HTML-Seite gefunden, die noch nicht in der Datenbank 28 abgespeichert ist, und die noch nicht auf ihre Integrität hin untersucht worden ist, so wird sie dem erfindungsgemäßen Untersuchungsverfahren unterworfen: Die gefundene HTML-Seite möge nun Textinfor mationen, Bild- und Audio-Informationen enthalten.

Vorzugsweise parallel zueinander werden nun verschiedene Prozesse gestartet: ein Text-Scan-Prozeß, ein Bildelemen te-Scan-Prozeß und ein Audio-Elemente-Scan-Prozeß. Jeder der drei Prozesse isoliert nun, sofern möglich, einzelne Elemente in seiner jeweiligen Kategorie und vergleicht sie mit den in den Datenbanken 24 gespeicherten Suchkri terien. Als Textelement wird nun der Text-String "Ficken" gefunden. Gleichzeitig findet der Bild-Suchprozeß eine einzeln identifizierte Darstellung, die einer in der Bilddatenbank 24b gespeicherten pornographischen Darstel lung sehr ähnlich ist und eine pornographische Pose ent hält. Des weiteren trifft der Audio-Suchprozeß auf ein Klangmuster, das sehr große Ähnlichkeit mit einem Klang muster aufweist, der in der Audio-Datenbank 24c als typi sches "Stöhnen" abgespeichert ist. Jedes gefundene Ele ment wird nun zusammen mit je einem Wichtungsfaktor für jeden der indizierten Themenbereiche in der entsprechen den Datenbank, hier der HTML-Datenbank 28 abgespeichert. Diese Verfahrensweise ermöglicht eine nachträgliche Ände rung der Beurteilung durch Korrektur der Wichtungsfakto ren, wenn sich herausstellt, daß ein solcher Korrekturbe darf besteht. Eine solche nachträgliche Änderung kann dann erfolgen, ohne daß alle Seiten und Elemente neu un tersucht werden müssen.

Auf der untersuchten Webseite werden als signifikante Elemente also der Text-String "Ficken", das Audio- Klangmuster eines Stöhnens sowie eine einzige pornogra phische Pose gefunden.

Der Text-String "Ficken" bekommt beispielsweise folgende Wichtungsfaktoren zugeteilt: Sex: 100%, Hardcore: 50%, Kinderporno: 40%, Gewalt: 10%, Werbung: 0%, Kreditkar te: 0%, da keine Eingabemöglichkeit für eine Kreditkar tennummer gefunden wurde.

Das Audio-Muster "Stöhnen" bekommt in der Kategorie Sex 100%, bei Hardcore 60%, bei Kinderporno 30%, bei Ge walt 10%, bei Werbung 0% und bei Kreditkarte ebenfalls 0%.

Die pornographische Pose wird als Bildelement ebenfalls abgespeichert, wobei beispielsweise folgende Wichtungs faktoren vergeben werden: Sex: 80%, Hardcore: 30%, Kin derporno: 40%, Gewalt: 0%, Werbung: 0% und Kreditkarte ebenfalls 0%.

Nach Bewertung der einzelnen Elemente liest ein komplexer Auswertealgorithmus die gespeicherten Wichtungsprofile und faßt sie zu einer Synthese zusammen, wobei vorzugs weise auch besondere Kombinationen einzelner Textelemen te, wie es weiter oben erwähnt wurde, in besonderem Maße berücksichtigt werden.

Werden auf einer Webseite beispielsweise aber nur solche Elemente gefunden, die für sich gesehen und auch in Kom bination miteinander keine eindeutigen Schlüsse zulassen, so kann auch die Umgebung der Webseite in die Wichtung eingehen: wenn in der hierarchischen Gliederung der Web seite weiter oben schon pornographische Inhalte gefunden wurden, oder wenn die URL der Webseite als pornographisch bekannt gilt, dann wird die Seite ebenfalls als uner wünscht abgeblockt, denn auf Pornoseiten finden sich mit einer hohen Wahrscheinlichkeit ausschließlich pornogra phische Abbildungen. Ein weiteres Indiz für eine Porno seite sind Links auf bereits als Pornoseite erkannte Web seiten. Denn auch hier gibt es dann eine hohe Wahrschein lichkeit, pornographisches Material zu finden.

Auch die IP-Adresse des Webservers könnte herangezogen werden, um von vornherein Webseiten auszuschließen oder um im Zweifelsfall Webseiten auszuschließen. Denn häufig liegen auf Webservern Webseiten, die jeweils einem einzi gen Themenbereich aus den verbotenen Themen gewidmet sind. Dieser Fall tritt häufig bei illegalen Darstellun gen, wie etwa Kinderporno oder rechtsradikalen, gewalt verherrlichenden Inhalten auf.

Darüber hinaus können im Zweifelsfall auch Menschen zur Beurteilung einer Webseite herangezogen werden.

Der Auswertealgorithmus kumuliert vorzugsweise die Wich tungsfaktoren aller auf einer Webseite gefundenen Elemen te kategorieweise geordnet durch Multiplikation. Wenn beispielsweise fünf Elemente der Kategorie Gewalt gefun den werden, die die Wichtungsfaktoren 90%, 80%, 95%, 75% und 40% aufweisen, so werden die Prozentzahlen mul tipliziert, um ein Zwischenergebnis zu bilden. Dies wäre im vorliegenden Fall ein kumulativer Prozentsatz von 0,2052. Dieser wäre bereits als relativ hoch anzusehen, so daß die betroffene Seite als unerwünscht für das wei tere Bearbeiten markiert wird.

Finden sich beispielsweise auf einer Webseite fünf Ele mente mit den einzelnen Wichtungsfaktoren von 20%, 15%, 40%, 50% und 30%, also einer weit weniger verbots trächtigen Elementesammlung, so ergibt sich ein kumulati ver Prozentsatz von 0,0018. Der kumulative Prozentsatz liegt also bei der gleichen Anzahl von verwerteten Ele menten um etwa zwei Zehnerpotenzen niedriger. Er würde daher nicht als unerwünscht markiert werden, sofern nicht andere Ausnahmetatbestände doch dafür sprechen. Es ist offensichtlich, daß der Auswertealgorithmus die Anzahl der kumulierten Elemente bei seiner Beurteilung gebührend berücksichtigt, denn jeder Wichtungsfaktor, der kleiner als 1 ist, drückt den kumulativen Prozentsatz herunter. Daher kann beispielsweise durch Multiplizieren mit der Anzahl der kumulierten Elemente auf einfache Weise dafür eine Kompensation gefunden werden. Damit ergäbe sich bei spielsweise für eine Webseite, die 5 Elemente mit einem jeweiligen Wichtungsfaktor von 90% aufweist, ein kumula tiver Prozentsatz von 0,59, der dann mit 5 multipliziert einen Wert von etwa 3 ergäbe. Bei 10 gefundenen Elementen mit einem solchen Wichtungsfaktor ergäbe sich ein Wert von etwa 3,5, was die Ergebnisse gut vergleichbar macht.

Allgemein kann auch ein Bewertungsfaktor B durch die For mel

B = Summe (p_iE_i)/n

gewonnen werden, wobei pi die Wichtungsfaktoren darstel len, E_i die Elemente und n die Anzahl der Elemente.

Nach einer gewissen Vorlaufzeit, während der das Robot- System das Internet durchsucht hat bzw. auf bereits vor handene Datenbanken zurückgreift und die Beurteilungser gebnisse in den beiden Datenbanken 26 und 28 abgespei chert hat, kann ein gewisser Teil der von dem User-PC 12 gemachten Anfragen an HTML-Seiten unter Berücksichtigung der Beurteilungsergebnisse bearbeitet werden. Dazu wird wie folgt vorgegangen: Die bereits untersuchten Webseiten werden als untersucht markiert. Der Endbenutzer am User- PC 12 definiert eine Anfrage nach einer bestimmten HTML- Seite auf seinem PC, indem er in einem Browser eine be stimmte Aktion durchführt, wie es durch Anklicken eines Links oder Eingabe einer URL der Fall sein kann.

Wenn die angeforderte Adresse noch nicht lokal als er wünscht oder unerwünscht klassifiziert wurde, wird die Anfrage wird nun in einem separaten Prozeß der erweiter ten Firewall 14 bearbeitet und über die Leitung 16 zu nächst an den Clean Surf Server CSS 18 weitergeleitet, der seinerseits die weitere Kontrolle bei der Bearbeitung übernimmt.

Zunächst wird festgestellt, ob die aktuell angeforderte Webseite bereits untersucht wurde oder nicht. Falls nicht, wird sie aus dem Internet downgeloadet und wie oben beschrieben beurteilt, wobei das Beurteilungsergeb nis in der Datenbank 28 für HTML-Seiten abgespeichert wird.

Danach, ebenso wie in dem Fall, in dem die angeforderte Webseite bereits vor Absenden der Benutzeranforderung un tersucht war, wird festgestellt, ob sie als unerwünscht gilt oder nicht. Dies kann durch Setzen eines Flags in dem entsprechenden HTML-Datensatz und Abfragen dieses Flags erfolgen. Je nach Untersuchungsergebnis kann dann der Zugang zur angeforderten Webseite ermöglicht oder ab geblockt werden.

Obwohl die vorliegende Erfindung anhand eines bevorzugten Ausführungsbeispiels vorstehend beschrieben wurde, ist sie darauf nicht beschränkt, sondern auf vielfältige Wei se modifizierbar.

So kann beispielsweise der Clean Surf Server im Falle ei nes Abblockens an die Firewall zurückmelden, warum diese Seite nicht freigegeben worden ist, wobei die Firewall ab einer einstellbaren Häufigkeit von Anforderungen den Sy stemadministrator automatisch benachrichtigen kann, daß eine bestimmte Webseite in einem bestimmten Zeitintervall relativ häufig angefordert wurde. Weiterhin kann fest gehalten werden, welche Webseiten angefordert wurde, wel che Suchbegriffe verwendet werden, wieviele Verweigerun gen es gab, etc.

Der Systemadministrator kann dann Maßnahmen ergreifen, um im Bedarfsfall die Webseite doch freizugeben oder, falls dies nicht beabsichtigt ist, andere Maßnahmen treffen, je nach Art der Webseite.

Das erfindungsgemäße Programm kann in vielerlei Ausge staltungen installiert werden. Vorteilhaft ist eine spe zielle Software oder Netzwerkkarte, auf die nur über ein geschütztes Paßwort zugegriffen werden kann, damit der Endbenutzer z. B. den Standard-Gateway oder Proxiserver von sich aus nicht umstellen kann. Dies kann auch als Kindersicherung dienen.

In vorteilhafter Weise können einzelne der vorhandenen Programmfunktionen des erfinderischen Verfahrens auch in einen herkömmlichen Web-Browser integriert sein.

Des weiteren kann in einer unter Umständen abgespeckten Version des erfinderischen Verfahrens die Funktion von Clean Surf Server 18 und Firewall 14 vollständig auf den End-User-PC gebracht werden, indem beispielsweise ein Verzeichnis aller nicht-erwünschten Inhalte, gekennzeich net etwa durch die URLs oder die IP-Adresse von Webser vern abgefragt wird, bevor eine Benutzeranforderung dem Endbenutzer zugänglich gemacht wird. Eine solche "schwar ze Liste" kann beispielsweise auch in Form einer CD ein zeln verkauft oder über das Internet oder sonstige mögli che Datenübertragungen downloadbar sein.

Des weiteren besteht die Möglichkeit, daß ein Endbenut zer, wenn er trotz Filterung eine unerwünschte Seite er hält, dies dem CSS rückmeldet, beispielsweise durch Betä tigen eines eigenen Buttons in dem von ihm benutzten Browser.

Auch ein Bonussystem kann für verschiedene Zwecke in Kom bination mit bestimmten der vorerwähnten Merkmale imple mentiert werden. Des weiteren können in einer speziellen Weiterbildung des erfinderischen Verfahrens solche Web seiten oder allgemeine Inhalte, die als hochgradig uner wünscht beurteilt wurden, automatisch einer separaten Be handlung unterzogen werden, die beispielsweise das Infor mieren einer zuständigen Behörde miteinschließt.

Mit der vorgeschlagenen Firewall-Erweiterung können ganze Netze ebenso wie Einzelrechner abgesichert werden. Das erfinderische Konzept ist nicht beschränkt auf das Absu chen verbotener Inhalte im Internet oder WorldWideWeb. Auch andere Netzwerke, wie beispielsweise Intranets kön nen durchsucht werden.

Des weiteren können sogenannte Pushings und Pop-Ups, also ein automatisches Aufdrücken von Seiten beziehungsweise ein automatisches Aufmachen von Fenstern verhindert wer den. Des weiteren können vorhandene Technologien wie Tun neling, also eine virtuelle Netzwerkprotokollverschachte lung mit implementiert werden. Auch kann die erweiterte Firewall und die CSS-Komponente auf einem Rechner oder System implementiert sein, der entfernt vom Endbenutzer- PC liegt und optional ebenfalls noch als Web-Server dient.

Des weiteren ist es möglich, durch Triggering-Mechanismen vom Stand der Technik zahlreiche andere Aktionen auszulö sen, wenn eine Webseite als ungewünscht markiert wurde. So kann es beispielsweise sinnvoll sein, den Web-Master der zuständigen Seite zu informieren, beispielsweise durch automatisches Versenden einer eMail. Der Web-Master hat dann die Möglichkeit, Stellung zu nehmen oder die Seite möglicherweise zu verändern.

Bezugszeichenliste

10

Netzwerk(LAN)

12

Endbenutzer-PC

14

Firewall

16

Datenleitung

18

Clean Surf Server (CSS)

20

Robot-Mechanismus

22

separate Datenleitung

24-28

Datenbanken

30

Untereinheit

Claims

1. Verfahren zum Abblocken von aus einem Netzwerk anfor derbaren Daten mit unerwünschtem Inhalt, enthaltend die Schritte,
Daten über einen vorbestimmte Filterkriterien verwenden den Clean Surf Server (CCS) (18) als Filterserver zwi schen einem Endbenutzer-Computer (12) und dem Netzwerk aus diesem anzufordern,
um unerwünschte Daten von zu tolerierenden Daten zu un terscheiden.

2. Verfahren nach Anspruch 1, verwendet in einem Fire wallsystem (14), um den Empfang unerwünschter Inhalte an mehreren, miteinander vernetzten Computern (10) zu ver hindern.

3. Verfahren nach einem der vorstehenden Ansprüche, den weiteren Schritt enthaltend, in einer benutzerseitigen Vorstufe einen Abgleich zwischen benutzerangeforderten Inhalten mit als unerwünscht oder erwünscht markierten und benutzerseitig gespeicherten Referenzen durchzufüh ren,
bei einem Treffer die Benutzeranforderung abzulehnen, und
andernfalls die Anforderung an den CCS zur Weiterbearbei tung weiterzugeben.

4. Verfahren nach dem vorstehenden Anspruch, wobei die Referenzen Adressen bestimmter Datenquellen, die bekann termaßen ungewünschte oder gewünschte überprüfbare Inhal te zur Verfügung stellen, als Serveradressen oder als Seitenadressen enthalten.

5. Verfahren zum Ausfiltern von aus einem Netzwerk anfor derbaren Daten mit unerwünschtem Inhalt, enthaltend die Schritte,
Untersuchen der Daten hinsichtlich ihrer Erwünschtheit,
Qualifizieren der untersuchten Daten hinsichtlich ihrer Erwünschtheit,
Speichern von Netzwerkdaten und/oder deren Referenzen in einer Datenbank zusammen mit deren Beurteilungsergebnissen hinsichtlich unerwünschtem Inhalt,
Vorenthalter oder Freigeben von Benutzeranforderungen auf diese Daten je nach Maß ihrer Erwünschtheit.

6. Verfahren nach Anspruch 5, wobei die Daten Webseiten aus einem Netzwerk, insbesondere dem Internet entspre chen.

7. Verfahren nach Anspruch 5 oder 6, wobei die Daten we nigstens auf eines von Text, Bild, Ton, oder Virus-Befallenheit untersucht wer den, und die Daten bezüglich ihrer Zugehörigkeit zu verschie denen Indexthemen mit einer Wichtung beurteilt werden.

3. Verfahren nach einem der vorstehenden Ansprüche 5 bis 7, wobei die Indexthemen wenigstens eines von Sex, Hardcore, Kinderporno, Gewalt, Werbung, Eingabemög lichkeit von Kreditkartennummern umfassen.

9. Verfahren nach einem der Ansprüche 1 bis 8, wobei be stimmte Elemente der Daten einzeln identifiziert und mit einer Wichtung belegt abgespeichert werden.

10. Verfahren nach einem der Ansprüche 1 bis 9, wobei Kombinationen bestimmter Elemente mit für sie typischen Wichtungswerten belegt abgespeichert werden.

11. Verfahren nach einem der vorstehenden Ansprüche, wei ter enthaltend den Schritt,
Auswerten eines Benutzerprofils hinsichtlich der Defini tion ungewünschter Daten,
Überlagern des Benutzerprofils mit dem Erwünschtheitspro fil zur Bestimmung eines subjektiven Erwünschtheitspro fils, um individuellen Filterkriterien zu genügen,
Vorenthalten oder Freigeben von Benutzeranforderungen auf diese Daten je nach Maß ihrer subjektiven Erwünschtheit,
Übermitteln einer Begründung im Falle des Vorenthaltens an den Benutzer.

12. Verfahren nach dem vorstehenden Anspruch, wobei das Benutzerprofil eine Wichtung verschiedener Indexthemen enthält.

13. Verfahren nach einem der vorstehenden Ansprüche, wo bei vom Benutzer abgehende Suchbegriffe oder Seitenanfor derungen hinsichtlich Anforderungen unerwünschten Inhalts untersucht werden und optionellerweise weitergemeldet werden.

14. Verwendung des Verfahrens nach einem der Ansprüche 5 bis 14 zum Ausfiltern unerwünschter Inhalte von Bildse quenzen oder Tonsequenzen oder Videos.

15. Verfahren nach dem vorstehenden Anspruch, wobei die Übertragung bei Streaming-basierten Übertragungen gepuf fert verläuft und unerwünschte Teilsequenzen entfernt oder durch andere Teilsequenzen ersetzt werden.

16. Computerprogramm enthaltend Codeabschnitte zur Aus führung von Schritten des Verfahrens nach einem der An sprüche 1 bis 4 oder 5 bis 15.

17. Computerprogrammerzeugnis, gespeichert auf einem com puterlesbaren Datenträger, enthaltend computerlesbare Programmeinrichtungen, um einen Computer zur Ausführung von Schritten des Verfahrens nach einem der Ansprüche 1 bis 4 oder 5 bis 15 zu veranlassen, wenn es in eine Com puter geladen wird.

18. Computersystem, enthaltend Mittel zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 4 oder 5 bis 15.

19. Computersystem, enthaltend Mittel zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 4 in Kombi nation mit dem Verfahren nach Ansprüchen 5 bis 15.