EP1676218A1 - Procede et dispositif de filtrage de contenus en ligne - Google Patents

Procede et dispositif de filtrage de contenus en ligne

Info

Publication number
EP1676218A1
EP1676218A1 EP04791249A EP04791249A EP1676218A1 EP 1676218 A1 EP1676218 A1 EP 1676218A1 EP 04791249 A EP04791249 A EP 04791249A EP 04791249 A EP04791249 A EP 04791249A EP 1676218 A1 EP1676218 A1 EP 1676218A1
Authority
EP
European Patent Office
Prior art keywords
content
computer
decision
equipment
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP04791249A
Other languages
German (de)
English (en)
Inventor
Thomas Fraisse
Pierre Dutheil
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of EP1676218A1 publication Critical patent/EP1676218A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Definitions

  • the present invention relates to a method and a device for filtering online content. It aims, in particular, to protect young Internet users against voluntary or involuntary access to sites that are not intended for them (sensitive content: pornography, violence, incitement to racial ashamed).
  • Existing filters which are usually based on filtering email addresses ("URLs" for Uniform Resource Locator), are software that compares the address of the page the user tries to access with addresses contained in a database. This software can be deactivated, like any other software, and the extent of their filtering is incomplete: their filtering rate reaches, on average, 90%, that is to say that one page out of ten "banned” reaches the young surfer, which poses a real problem in the school environment.
  • the present invention consists, on the one hand, in providing an equipment, external box or card internal to the computer, which is inserted between the computer (in English Personal Computer or "PC") and the network Internet and, on the other hand, that this equipment implements a set of decision rules treating not only the content of each page but also its environment (for example the pages to which the links arranged on the requested page lead or structural, programmatic or statistical information of the requested page). Filtering can thus filter the content of a page as soon as it becomes accessible and therefore of all pages accessible online, independently of any URL database.
  • the present invention relates to a method for filtering online content, characterized in that it comprises:
  • a step of researching the environment of said content on said network - a step of analyzing said environment; a filtering decision step as a function of a set of decision rules dependent on the results of the steps for analyzing said content and its environment, and
  • a step of transmitting or not transmitting said content to said computer depending on the result of the filtering decision step.
  • the operation of the box performs a filtering not only according to the content to which the user could access but also according to the environment of said content.
  • the filtering since the filtering is carried out by an external box, it is less easy to modify its operation than a filtering software implemented on the computer.
  • a stand-alone device can use its own resources (processing and / or memory) without consuming those of the computer.
  • the filtering is finer than when only the content of the page which the user is trying to access is processed.
  • At least one step of analyzing said content comprises a first step of rapid sorting of content, the decision step comprising a first step of determining the decision as a function of the result of said first step of quick sorting and, in the event of the result of said first decision determination step being unknown, the analysis step comprises a second content sorting step of a duration greater than the first quick sorting step, the decision step then comprising a second step of determining the decision as a function of the result of the second sorting step.
  • the first quick content sorting step processes content that does not include an image and in that the second content sorting step includes an image processing step.
  • At least one analysis step comprises an image processing step during which, for at least one image, the texture of the content of the image is analyzed to extract the parts of the image. image whose texture corresponds to flesh. Thanks to these provisions, the detection of flesh images is more secure than with a search for the flesh color alone and the visible part of a human body represented by an image can be determined.
  • the image processing step comprises a step of analyzing the posture of the character or characters of which we see carnal parts. Thanks to these provisions, the analysis of the content of the image allows a more secure analysis and filtering decision. According to particular characteristics, at least one analysis step includes a step of extracting characters from images incorporated into the online content. Thanks to these provisions, the text messages present in the images can be processed to refine the semantic understanding of online content. According to particular characteristics, the method as succinctly described above comprises a step of biometric identification of the user and a step of deactivation of filtering and of authorization of access to any content accessible on the computer network, depending of the result of said identification.
  • the method as succinctly explained above comprises a step of transmitting, to a remote computer system connected to said computer network, a set of information comprising a command, an identifier of the user and an identifier of the box and a step of verification, by the remote computer system of the rights associated with said identifiers and a step of controlling the box, by the remote computer system to deactivate filtering and authorize access to any content accessible on the computer network. Thanks to these provisions, the operation of the box is safer than if the deactivation decision was made only by the box, which could then be hacked locally.
  • the method as succinctly set out above comprises, when the equipment has been deactivated, a step of activating the equipment during the next restart of the computer or the next opening of a session. with said computer.
  • the present invention relates to equipment, an external box or a card internal to the computer, for filtering online content, which is inserted between the computer and a computer network giving access to online content, said equipment receiving content from the network, characterized in that it comprises: - means for analyzing said content; a means of searching for the environment of said content on said network; - a means of analyzing said environment; a filtering decision means as a function of a set of decision rules dependent on the results of the steps for analyzing said content and its environment and a means of transmitting or not transmitting said content to said computer, as a function of the result of filtering decision step.
  • FIG. 1 shows, schematically, the positioning of a housing according to the present invention, in a computer system connected to a computer network
  • - Figure 2 shows, schematically, the functional modules of a particular embodiment of the housing illustrated in Figure 1
  • - Figure 3 shows, schematically, a flow diagram of steps implemented in a particular embodiment of the object method of the present invention.
  • the personal computer (PC) 100 represents a computer system which may include a personal computer of known type or a local area network of several computers of known type.
  • a driver in English driver
  • the operation of the housing cannot therefore be deactivated like software, it is integrated into the operation of the computer 100 by a secure link that is constantly monitored.
  • the housing 110, object of the present invention comprises an electronic card 111 with microprocessor 112 and with non-volatile memory 113 and interfaces 114 and 115 allowing it to communicate, on the one hand, with the personal computer (PC) 100 and, on the other hand, with the modem 120 and, by means of this modem 120 and the computer network 130, with the servers 140, 150 and 160.
  • the non-volatile memory 113 stores program instructions intended to be executed by the microprocessor 112 for implementing the method which is the subject of the present invention, and, for example, the functions illustrated in FIG. 2 and / or the flow diagram illustrated in FIG. 3. In the embodiment described in FIG.
  • the housing 110 comprises a means of identification with a hardware key 116, for example at smart card or biometric measure, for example a fingerprint reader.
  • the modem 120 is of known type, for example for communication over a switched network, possibly in high speed connection.
  • the computer network 130 is, for example, the Internet network.
  • the remote servers 140, 150 and 160 are of known type. In the embodiment shown here, the server 140 is dedicated to the control, information and control of boxes identical to the box 110. In other embodiments, the box 110 does not operate under the control of a server remote.
  • the server 140 keeps all or part of the databases implemented by the boxes 110, for example word dictionaries and each box 110 updates its databases, by reference to the databases kept by the server 140.
  • servers 150 and 160 store information content.
  • the server 150 is a server hosting a commercial site for the sale of household appliances, a patent information site and a medical site dealing with different pathologies of the human body and the server 160 is a server hosting a site for adults containing content, in particular images and films containing images, of a pornographic nature.
  • the housing 110 is replaced by a card internal to the personal computer 100 and operates as described above.
  • the term "box" covers both the case of a box external to the personal computer 100 and the case of an electronic card internal to the personal computer 100. It can be seen that the box 110 may alternatively be placed between the modem 120 and the computer network 130. In this case, it itself comprises a modem for communicating on the computer network 130.
  • the box 110 contains different modules which interact together to create a system effective filtering of data entering the computer and, optionally, a firewall (in English firewall), an anti-virus module, a pop-up anti-window module (in English popup), an anti-spam module (in English spam), these modules using the computing and memory resources of the housing 110 without consuming the resources of the personal computer 100 and thus preventing viruses from reaching the personal computer 100.
  • a firewall in English firewall
  • an anti-virus module in English popup
  • an anti-spam module in English spam
  • - connect the box between the modem and the computer; - identify or authenticate, by means of identification with a hardware key 116 of the box 110, the person who will have the rights to deactivate or uninstall the box, either by inserting a hardware key, or by recognizing a biometric measurement , for example by the fingerprint reader; - carry out the installation, for example, by accessing the server 140, or by inserting a compact disc (CD-ROM) in the CD-ROM drive of computer 100 and starting the installation, during the installation , the authorized user indicates whether he wishes to receive an electronic mail each time that the box 110 is deactivated and, if so, to which electronic address he wishes to receive the corresponding electronic mails; the box 110 then identifies the computer 100, that is to say determines a profile which is unique enough to recognize the computer 100 during subsequent uses, connects to the remote server 140 and provides it with an identifier (for example a serial number which it keeps in non-volatile memory);
  • an identifier for example a serial number which it
  • the remote server 140 then checks the proper functioning of the box 110, checks the validity of the subscription of the user of said box and initializes the box.
  • the user then registers his personal identification code or registers the fingerprint of the designated user, i.e. an adult, who authenticates the designated user (also serves as identification for the access to online data concerning the operation of the unit and the subscription to the protection services it performs); an additional step is added to the procedure for starting the computer 100: checking the presence of the box 110 without which access to the Internet is not authorized, therefore impossible;
  • the filtering is then activated by default each time the computer 100 is restarted or each time a session with the computer 100 is opened, deactivation of the box 110 or change of its parameters necessitating the identification of the person authorized by the means of identification with a hardware key 116.
  • the personal computer 100 and the box 110 carry out a verification of the presence of the box 110 and the personal computer 100, respectively, and in the event of detection of absence, they send an absence detection signal to the remote server 140 and e-mail to the user identified by the box
  • an information input 200 from the network 130 there is an information input 200 from the network 130, an information type acquisition and sorting module 210, a context processing module 220, a semantic and text processing module 230 , a decision module 240 comprising a first decision module 241 and a second decision module 242, an image analysis module 250, an information output 260 intended for the computer 100 and a transmission module 270 of information on the network 130.
  • the input 200 receives all the information coming from the network 130 intended for the computer 100, in the form of a frame conforming to the IP protocol (for Internet Protocol).
  • the information type acquisition and sorting module 210 receives this information and sorts it according to its type: - information from a website, - information from a chat site, - email information , depending on the protocol according to which this information is transmitted (respectively HTTP, NNTP and SMTP or other protocols).
  • the unit 110 performs the filtering of the data by first carrying out analyzes which can be very rapid (analysis of keywords and tags, for example) and if it can conclude from this first analysis that the information must not be transmitted to the PC user, he does not transmit it and, if not, he performs a second analysis which takes more processing time (processing of pages linked to the analyzed page, page criteria, see below, javascripts, ...) and if he can conclude from this second analysis that the information should not be transmitted to the PC user, he does not transmit it and, otherwise, it performs a third analysis (for example image processing of the page described below) and so on until all the processing has been carried out and the last transmission decision or not, of the page, has been taken .
  • analyzes which can be very rapid (analysis of keywords and tags, for example) and if it can conclude from this first analysis that the information must not be transmitted to the PC user, he does not transmit it and, if not, he performs a second analysis which takes more processing time (processing of pages
  • the contextual processing module 220 determines and processes the following information: a) If it is information coming from a website (HTTP protocol) the contextual processing module 220 analyzes the content of the page received; - it determines the language of the page, compares the keywords contained in the email address (URL) of the page, in the metatags "keyword” and "description” and in the source code of the page with a dictionary of prohibited words the most common (dictionary kept in the non-volatile memory of box 110); - it searches for specific tags for self-declaration of page content (for example PICS, ICRA tags, etc.);
  • the requested page searches for this home page on the network 130 (by shortening the electronic address URL by removing its last characters , possibly in several stages, and depending on the characters "/") and, in this home page, a warning ("disclaimer") in the event of a sensitive nature of the page which may strike which requires voluntary acceptance (by clicking on an "enter” button);
  • the contextual processing module 220 collects the texts of the page during which, if texts are embedded in graphics or images, these texts are extracted therefrom and added to the information of the page received in text format, to the texts of the e-mail address (URL) of the page and the "keyword" and "description" metatags. For example, an optical character recognition is carried out to extract the texts from the images and graphics.
  • SMSTP protocol information of type electronic mail
  • the philosophy of filtering electronic mail is based on a comfort of the user who will not be attacked by unwanted mails (advertisements, spam , automatic mailing-lists, content of attachments).
  • the contextual processing module 220 If the incoming e-mail comes from an e-mail address (e-mail address) that is reliable in the address book linked to the filtering functions, in the memory of the box, the e-mail is not analyzed. If the email incoming does not come from an issuer registered in the address book, the contextual processing module 220:
  • the context processing module 220 performs a textual analysis of the content of the email as indicated above.
  • the context processing module 220 performs a multilingual linguistic simplification during which the language of the text information is first determined, in a known manner, then each text word is related to a synonym in the same language, synonym which can be the original word itself or with a word of the same language considered to have a similar meaning, by implementing a correspondence table or a dictionary of synonyms or of words having a meaning neighbour.
  • the contextual processing module 220 determines whether the information coming from third parties comes from users referenced, by the authorized user of the unit 110, as reliable, in the electronic address book.
  • the results of the processing carried out by the context processing module 220 are simultaneously transmitted to the semantic and text processing module 230 and to the first decision module 241.
  • the semantic and text processing module 230 determines the type of semantic content of the page by a morphosyntactic analysis of the text, using conceptual vectors (thesaurus and / or dictionary).
  • the results of the processing carried out by the semantic and textual processing module 230 are transmitted to the first decision module 241.
  • the processing module 230 performs an extraction of criteria by vectorization of the page, and classification according to specialized classifiers by categories or domains.
  • the processing module 230 has elements, images, predefined words after their linguistic simplification, for example.
  • the first decision module 241 makes a first determination of whether or not to transmit the content of the page to the computer 100, as a function of the results coming from at least the module 220 and possibly from the module 230.
  • the first decision is to block content. Failing this, the first filtering decision is taken by a neural network or in fuzzy logic, according to known techniques.
  • a secondary classifier processes the results for each sorting criterion (number of images, number of predefined words, for example) and provides a classification result or note and a classifier processes the results of the secondary classifiers, possibly weighting them, to determine whether the page can be transmitted to the user.
  • the result of the first decision can be: - decision to block the content, - decision to send the content to the computer 100, - decision to continue analyzing this content.
  • the information to be processed is transmitted to the image analysis module 250, which performs the following treatments:
  • the second decision module 242 makes a final decision, by implementing a neural network or fuzzy logic: - content blocking decision, depending on the parameters personalized by the user or - decision to send content to computer 100. It is observed that the second decision module 242 can, for example, implement a Bayes classifier and a decision tree (this method being deemed reliable, proven and rapid).
  • the second decision module performs the same processing as the first decision module but applied to the environment of the page, for example other pages to which the links present on the page lead and the final transmission decision to the user is taken on which the modules 220 and 230 are implemented.
  • the information output 260 intended for the computer 100 makes it possible, when the image is not filtered or blocked, to transmit the content of the requested page to the computer 100.
  • the module 270 for transmitting information on the network transmits to the remote server 140, a triplet of information comprising the user's command, his identifier and that of the unit 110.
  • the remote server 140 checks the rights and the information transmitted and optionally controls the box 110, to authorize access to any content accessible on the network 130.
  • FIG. 3 shows a succession of steps implemented in a particular embodiment of the method which is the subject of the present invention. Following the step 300 of initialization of the computer 100 and of the box 110, during a step 302, the computer 100 determines whether the box 110 is correctly connected to it.
  • the computer 100 prohibits any connection to the computer network 130 and the operating process according to the method which is the subject of the present invention is completed.
  • the equipment is activated to filter the content accessible online.
  • the box 110 is correctly connected to the computer, during a step 304, it is determined whether the user is trying to access online content. If not, we return to step 304. If yes, during a step 306, the box authorizes connection to the network 140 and determines whether the user has entered a deactivation command. If not, we go to step
  • a step 308 the identity of the designated user is verified, by example by identifying a hardware key (for example a memory card or a fingerprint) and a triplet of information is transmitted to the remote server 140 comprising the user's command, his identifier and that of the box 110.
  • the remote server 140 verifies the rights and the information transmitted, step 310, and if the designated user is authenticated, he controls the unit 110, to authorize access to any content accessible on the network 130, step 312, and the operating process according to the process which is the subject of the present invention is completed.
  • the information coming from the computer network 130 is sorted according to its type: - information coming from a website, - information coming from a chat site, - information from electronic mail, depending on the protocol according to which this information is transmitted (respectively the HTTP, NNTP and SMTP protocols.
  • HTTP protocol HyperText Transfer Protocol
  • - we analyze the javascripts (their presence and their action, for example page opening or popup and popup analysis); - we search, download and analyze the pages accessible by the links on the analyzed page as indicated above; b) if it is information of type electronic mail (SMTP protocol), the philosophy of filtering electronic mail is based on a comfort of the user who will not be attacked by unwanted mails (advertisements, spam , automatic mailing-lists, content of attachments). If the incoming e-mail comes from an e-mail address (e-mail address) that is reliable in the address book linked to the filtering functions, in the memory of the box, the e-mail is not analyzed. If the incoming e-mail does not come from a sender registered in the address book, we:
  • step 316 performs a textual analysis of the content of the email as indicated above.
  • the page texts are collected during which, if texts are embedded in graphics or images, these texts are extracted therefrom and added to the information of the page received in text format.
  • an optical character recognition is carried out to extract the texts from the images and graphics.
  • the user of the personal computer is warned by opening a dialog box, and the files are not destroyed.
  • chat or news groups NTP protocol
  • step 318 the type of semantic content of the page is determined by a morpho-syntactic analysis of the text, using conceptual vectors (thesaurus and / or dictionary).
  • a multilingual linguistic simplification is carried out during which the language of the text information is first determined, in a known manner, then each text word is linked to a synonym in the same language, a synonym which may be the original word itself or with a word in the same language considered to have a similar meaning, by implementing a correspondence table or a dictionary of synonyms or words with a similar meaning.
  • step 318 an extraction of criteria is carried out by vectorization of the page, and classification according to specialized classifiers by categories or fields.
  • the processing module 230 has elements, images, predefined words after their linguistic simplification, for example.
  • a first decision determination step 320 a first decision determination is made on whether or not to transmit the content of the page to the computer 100, as a function of the results coming from steps 316 and 318.
  • one of the processing carried out by one of these modules provides, by processing by logical rules, an immediately interpretable result for blocking the transmission of the content, for example the presence of a warning, during step 320, it is determined that the first decision is to block the content.
  • a secondary classifier processes the results for each sorting criterion (number of images, number of predefined words, for example) and provides a classification result or note and a classifier processes the results of secondary classifiers, possibly weighting them, to determine if the page can be transmitted to the user. Failing this, the first filtering decision is taken by a neural network or in fuzzy logic, according to known techniques.
  • the result of this first decision can be: - content blocking decision (the content is not supplied to the computer and a message of access refusal is displayed, step 322); - decision to send the content to the computer 100 (the content is supplied to the computer 100 as if the box 110 was not associated with the computer, step 324) or - decision to continue the analysis of this content.
  • - content blocking decision the content is not supplied to the computer and a message of access refusal is displayed, step 322
  • - decision to send the content to the computer 100 the content is supplied to the computer 100 as if the box 110 was not associated with the computer, step 324) or - decision to continue the analysis of this content.
  • a final decision is made, by implementing a neural network or fuzzy logic: - content blocking decision, step 322 , depending on the parameters personalized by the user or - decision to send the content to the computer 100, step 324. Following one of the steps 322 or 324, we return to step 314.
  • step 328 performs the same processing as those applied for the first decision but applied to the environment of the page, for example other pages to which the links present on the page lead and the final decision of transmission to the user is taken on which the modules 220 and 230 are implemented.
  • the user command validation step is carried out as soon as the user is authenticated, by password or biometric measurement, for example, without recourse to the remote server 140.
  • step 318 is deleted. It is observed that the second decision, step 328, can, for example, implement a Bayes classifier and a decision tree (this method being deemed reliable, proven and rapid).
  • the classification is done after learning "in the laboratory” of page categories, according to techniques known in the field of content research (in English “web mining” or “content mining”).
  • the classifier is given large quantities of pages of each category to be learned and it then automatically recognizes to which category a new page which is submitted to it belongs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

Le procédé de filtrage de contenus en ligne comporte: la mise en oeuvre d’un équipement, boîtier externe ou une carte interne à l'ordinateur, qui s'intercale entre l'ordinateur et un réseau informatique donnant accès à des contenus en ligne, ledit équipement recevant le contenu provenant du réseau; une étape d'analyse (316, 318, 326) dudit contenu; une étape de recherche d'environnement (316, 318, 326) dudit contenu sur ledit réseau; une étape d'analyse (316, 318, 326) dudit environnement; une étape de décision de filtrage (320, 328) en fonction d'un ensemble de règles de décision dépendante des résultats des étapes d'analyse dudit contenu et de son environnement et une étape de transmission (324) ou non dudit contenu audit ordinateur, en fonction du résultat de l'étape de décision de filtrage. Préférablement, au cours de l'étape d'analyse dudit environnement, on traite les pages vers lesquelles mènent les liens hypertextes dudit contenu.

Description

PROCEDE ET DISPOSITIF DE FILTRAGE DE CONTENUS EN LIGNE.
La présente invention concerne un procédé et un dispositif de filtrage de contenus en ligne. Elle vise, en particulier, à protéger les jeunes internautes contre l'accès volontaire ou involontaire à des sites qui ne leur sont pas destinés (contenus à caractère sensible : pornographie, violence, incitation à la haine raciale). Les filtres existants, qui sont généralement basés sur le filtrage d'adresses électroniques ("URL" pour Uniform Resource Locator), sont des logiciels qui comparent l'adresse de la page à laquelle l'utilisateur tente d'accéder avec des adresses contenues dans une base de données. Ces logiciels peuvent être désactivés, comme tout autre logiciel, et l'étendue de leur filtrage est incomplète : leur taux de filtrage atteint, en moyenne, 90 %, c'est-à-dire qu'une page "interdite" sur dix atteint le jeune internaute, ce qui pose un réel problème en milieu scolaire. De plus, l'heuristique des bases de données fait face à une croissance exponentielle des pages web publiées chaque mois, alors que le nombre de pages indexées mensuellement croît linéairement. La conséquence de ce fait est que de plus en plus de pages web passent et vont passer à côté de l'indexage des solutions fondées sur les bases de données. Les filtres basés sur l'analyse de la couleur "chair" ont également leurs limites et, par un filtrage excessif, interdisent l'accès à toute page où figure la photo d'une personne, par exemple des pages d'information médicale. La présente invention vise à remédier à ces inconvénients. A cet effet, la présente invention consiste, d'une part, à prévoir un équipement, boîtier externe ou carte interne à l'ordinateur, qui s'intercale entre l'ordinateur (en anglais Personal Computer ou "PC") et le réseau Internet et, d'autre part, à ce que cet équipement mette en oeuvre un ensemble de règles de décision traitant non seulement le contenu de chaque page mais aussi son environnement (par exemple les pages vers lesquelles mènent les liens disposés sur la page demandée ou les informations de structure, programmatiques ou statistiques, de la page demandée). Le filtrage peut ainsi filtrer le contenu d'une page dès qu'elle devient accessible et donc de toutes les pages accessibles en ligne, indépendamment de toute base de données d'URL. Selon un premier aspect, la présente invention vise un procédé de filtrage de contenu en ligne, caractérisé en ce qu'il comporte :
- de mettre en oeuvre un équipement, boîtier externe ou une carte interne à l'ordinateur, qui s'intercale entre l'ordinateur et un réseau informatique donnant accès à des contenus en ligne, ledit équipement recevant le contenu provenant du réseau ;
- une étape d'analyse dudit contenu ;
- une étape de recherche d'environnement dudit contenu sur ledit réseau ; - une étape d'analyse dudit environnement ; - une étape de décision de filtrage en fonction d'un ensemble de règles de décision dépendante des résultats des étapes d'analyse dudit contenu et de son environnement et
- une étape de transmission ou non dudit contenu audit ordinateur, en fonction du résultat de l'étape de décision de filtrage. Grâce à ces dispositions, le fonctionnement du boîtier effectue un filtrage non seulement en fonction du contenu auquel l'utilisateur pourrait accéder mais aussi en fonction de l'environnement dudit contenu. De plus, puisque le filtrage est effectué par un boîtier externe, il est moins facile de modifier son fonctionnement qu'un logiciel de filtrage mis en oeuvre sur l'ordinateur. De plus, un équipement autonome peut utiliser ses propres ressources (traitement et/ou mémoire) sans consommer celles de l'ordinateur. Selon des caractéristiques particulières, au cours de l'étape d'analyse dudit environnement, on traite les pages vers lesquelles mènent les liens hypertextes dudit contenu. Grâce à ces dispositions, le filtrage est plus fin que lorsque l'on ne traite que le contenu de la page à laquelle l'utilisateur tente d'accéder. Selon des caractéristiques particulières, au moins une étape d'analyse dudit contenu comporte une première étape de tri rapide de contenu, l'étape de décision comportant une première étape de détermination de décision en fonction du résultat de ladite première étape de tri rapide et, en cas d'indétermination du résultat de ladite première étape de détermination de décision, l'étape d'analyse comporte une deuxième étape de tri de contenu d'une durée supérieure à la première étape de tri rapide, l'étape de décision comportant alors une deuxième étape de détermination de décision en fonction du résultat de la deuxième étape de tri. Selon des caractéristiques particulières, la première étape de tri rapide de contenu traite un contenu ne comportant pas d'image et en ce que la deuxième étape de tri de contenu comporte une étape de traitement d'image. Grâce à chacune de ces dispositions, le tri peut être très rapide pour un grand nombre de pages ou contenus accessibles, parce que dès qu'une règle de décision permet la décision, celle-ci est prise. Le tri est néanmoins très précis puisqu'une succession de règles de décision est appliquée, par exemple grâce au traitement d'images et à la compréhension du contenu des images, pour les cas plus complexes. Selon des caractéristiques particulières, au moins une étape d'analyse comporte une l'étape de traitement d'image au cours de laquelle, pour au moins une image, on analyse la texture du contenu de l'image pour extraire les parties de l'image dont la texture correspond à de la chair. Grâce à ces dispositions, la détection d'images de chair est plus sûre qu'avec une recherche de la seule couleur chair et la partie visible d'un corps humain représentée par une image peut être déterminée. Selon des caractéristiques particulières, l'étape de traitement d'image comporte une étape d'analyse de posture du ou des personnages dont on voit des parties charnelles. Grâce à ces dispositions, l'analyse du contenu de l'image permet une analyse et une décision de filtrage plus sûre. Selon des caractéristiques particulières, au moins une étape d'analyse comporte une étape d'extraction de caractères d'images incorporées dans le contenu en ligne. Grâce à ces dispositions, les messages textuels présents dans les images peuvent être traités pour affiner la compréhension sémantique du contenu en ligne. Selon des caractéristiques particulières, le procédé tel que succinctement exposé ci- dessus comporte une étape d'identification biométrique de l'utilisateur et une étape de désactivation de filtrage et d'autorisation d'accès à tout contenu accessible sur le réseau informatique, en fonction du résultat de ladite identification. Grâce à ces dispositions, un utilisateur autorisé, par exemple majeur, peut accéder à tout contenu accessible en ligne et l'identification de cet utilisateur est plus sûre qu'avec un mot de passe et moins contraignante pour l'utilisateur. Selon des caractéristiques particulières, le procédé tel que succinctement exposé ci- dessus comporte une étape de transmission, à un système informatique distant relié audit réseau informatique, d'un ensemble d'information comportant une commande, un identifiant de l'utilisateur et un identifiant du boîtier et une étape de vérification, par le système informatique distant des droits associés auxdits identifiants et une étape de commande du boîtier, par le système informatique distant pour désactiver le filtrage et autoriser l'accès à tout contenu accessible sur le réseau informatique. Grâce à ces dispositions, le fonctionnement du boîtier est plus sûr que si la décision de désactivation était effectuée uniquement par le boîtier, qui pourrait alors être piraté localement. Selon des caractéristiques particulières, le procédé tel que succinctement exposé ci- dessus comporte, lorsque l'équipement a été désactivé, une étape d'activation de l'équipement lors du prochain redémarrage de l'ordinateur ou de la prochaine ouverture d'une session avec ledit ordinateur. Selon un deuxième aspect, la présente invention vise un équipement, boîtier externe ou une carte interne à l'ordinateur, de filtrage de contenus en ligne, qui s'intercale entre l'ordinateur et un réseau informatique donnant accès à des contenus en ligne, ledit équipement recevant les contenus provenant du réseau, caractérisé en ce qu'il comporte : - un moyen d'analyse dudit contenu ; - un moyen de recherche d'environnement dudit contenu sur ledit réseau ; - un moyen d'analyse dudit environnement ; - un moyen de décision de filtrage en fonction d'un ensemble de règles de décision dépendante des résultats des étapes d'analyse dudit contenu et de son environnement et - un moyen de transmission ou non dudit contenu audit ordinateur, en fonction du résultat de l'étape de décision de filtrage. Les avantages, buts et caractéristiques particulières de ce deuxième aspect étant identiques à ceux du procédé tel que succinctement exposé ci-dessus, ils ne sont pas rappelés ici. D'autres avantages, buts et caractéristiques de la présente invention ressortiront de la description qui va suivre, faite dans un but explicatif et nullement limitatif en regard des dessins annexés dans lesquels : - la figure 1 représente, schématiquement, le positionnement d'un boîtier conforme à la présente invention, dans un système informatique relié à un réseau informatique ; - la figure 2 représente, schématiquement, les modules fonctionnels d'un mode de réalisation particulier du boîtier illustré en figure 1 et - la figure 3 représente, schématiquement, un logigramme d'étapes mises en oeuvre dans un mode de réalisation particulier du procédé objet de la présente invention. On observe, en figure 1 , un ordinateur personnel (PC) 100, relié à un boîtier 110, lui- même relié à un modulateur-démodulateur (modem) 120 relié à un réseau informatique 130 lui-même relié à des serveurs distants 140, 150 et 160. Les liaisons représentées peuvent être filaires ou sans fil, selon des techniques de communication connues. L'ordinateur personnel (PC) 100 représente un système informatique pouvant comporter un ordinateur personnel de type connu ou un réseau local de plusieurs ordinateurs de type connu. Au cours de l'installation de l'application informatique qui, dans l'ordinateur personnel 100 gère la communication avec le boîtier 110, on installe un pilote (en anglais driver) du boîtier pour que l'ordinateur personnel ne puisse pas accéder au réseau informatique 130 sans passer par l'intermédiaire du boîtier 110. Le fonctionnement du boîtier n'est donc pas désactivable comme un logiciel, il est intégré au fonctionnement de l'ordinateur 100 par une liaison sécurisée contrôlée en permanence. Le boîtier 110, objet de la présente invention comporte une carte électronique 111 à microprocesseur 112 et à mémoire non volatile 113 et des interfaces 114 et 115 lui permettant de communiquer, d'une part, avec l'ordinateur personnel (PC) 100 et, d'autre part, avec le modem 120 et, par l'intermédiaire de ce modem 120 et le réseau informatique 130, avec les serveurs 140, 150 et 160. La mémoire non volatile 113 conserve des instructions de programme destiné à être exécuté par le microprocesseur 112 pour mettre en oeuvre le procédé objet de la présente invention, et, par exemple, les fonctions illustrées en figure 2 et/ou le logigramme illustré en figure 3. Dans le mode de réalisation décrit en figure 1 , le boîtier 110 comporte un moyen d'identification à clé matérielle 116, par exemple à carte à puce ou à mesure biométrique, par exemple un lecteur d'empreinte digitale. Le modem 120 est de type connu, par exemple pour communication sur un réseau commuté, éventuellement en liaison haut débit. Le réseau informatique 130 est, par exemple, le réseau Internet. Les serveurs distants 140, 150 et 160 sont de type connu. Dans le mode de réalisation représenté ici, le serveur 140 est dédié au contrôle, au renseignement et à la commande de boîtiers identiques au boîtier 110. Dans d'autres modes de réalisation, le boîtier 110 ne fonctionne pas sous le contrôle d'un serveur distant. Le serveur 140 conserve tout ou partie des bases de données mises en oeuvre par les boîtiers 110, par exemple des dictionnaires de mots et chaque boîtier 110 met à jour ses bases de données, par référence aux bases de données conservées par le serveur 140. Les serveurs 150 et 160 conservent un contenu d'information. Par exemple, le serveur 150 est un serveur hébergeant un site commercial de vente d'appareils électroménagers, un site d'information sur les brevets et un site médical traitant de différentes pathologies du corps humain et le serveur 160 est un serveur hébergeant un site pour adultes comportant des contenus, en particulier des images et des films comportant des images, à caractère pornographique. En variante, le boîtier 110 est remplacé par une carte interne à l'ordinateur personnel 100 et fonctionne comme décrit ci-dessus. Dans la suite de la description, le terme "boîtier" couvre aussi bien le cas d'un boîtier externe à l'ordinateur personnel 100 que le cas d'une carte électronique interne à l'ordinateur personnel 100. On observe que le boîtier 110 peut, en variante, être placé entre le modem 120 et le réseau informatique 130. Dans ce cas, il comporte, lui-même un modem pour communiquer sur le réseau informatique 130. Le boîtier 110 contient différents modules qui interagissent ensemble pour créer un système efficace de filtrage de données entrant dans l'ordinateur et, éventuellement, un coupe-feu (en anglais firewall), un module anti-virus, un module anti-fenêtre surgissante (en anglais popup), un module anti-pourriel (en anglais spam), ces modules utilisant les ressources de calcul et de mémoire du boîtier 110 sans consommer les ressources de l'ordinateur personnel 100 et évitent ainsi que les virus atteignent l'ordinateur personnel 100. Pour installer le boîtier 110, dans l'une des configurations illustrées en figure 1 , on procède de la manière suivante :
- connecter le boîtier entre le modem et l'ordinateur ; - identifier ou authentifier, par le moyen d'identification à clé matérielle 116 du boîtier 110, la personne qui aura les droits de désactiver ou de désinstaller le boîtier, soit par insertion d'une clé matérielle, soit par reconnaissance d'une mesure biométrique, par exemple par le lecteur d'empreinte digitale ; - effectuer l'installation, par exemple, en accédant au serveur 140, ou en insérant un disque compact (CD-ROM) dans le lecteur de CD-ROM de l'ordinateur 100 et démarrer l'installation, au cours de l'installation, l'utilisateur autorisé indique s'il souhaite recevoir un courrier électronique à chaque fois qu'il y aura désactivation du boîtier 110 et, si oui, à quelle adresse électronique il souhaite recevoir les courriers électroniques correspondants ; - le boîtier 110 identifie alors l'ordinateur 100, c'est-à-dire en détermine un profil suffisamment unique pour reconnaître l'ordinateur 100 lors d'utilisations postérieures, se connecte au serveur distant 140 et lui fournit un identifiant (par exemple un numéro de série qu'il conserve en mémoire non volatile) ;
- le serveur distant 140 vérifie alors le bon fonctionnement du boîtier 110, vérifie la validité de l'abonnement de l'utilisateur dudit boîtier et initialise le boîtier. L'utilisateur enregistre alors son code d'identification personnel ou enregistre l'empreinte digitale de l'utilisateur désigné, c'est-à-dire d'un adulte, qui authentifie l'utilisateur désigné (sert aussi d'identification pour l'accès aux données en ligne concernant le fonctionnement du boîtier et l'abonnement aux services de protection qu'il effectue) ; - une étape supplémentaire est ajoutée à la procédure de démarrage de l'ordinateur 100 : la vérification de la présence du boîtier 110 sans lequel l'accès à Internet n'est pas autorisé, donc impossible ;
- le filtrage est alors activé par défaut à chaque redémarrage de l'ordinateur 100 ou à chaque ouverture d'une session avec l'ordinateur 100, la désactivation du boîtier 110 ou le changement de ses paramètres nécessitant l'identification de la personne autorisée par le moyen d'identification à clé matérielle 116. Pour la suite du fonctionnement, l'ordinateur personnel 100 et le boîtier 110 effectuent une vérification de la présence du boîtier 110 et de l'ordinateur personnel 100, respectivement, et en cas de détection d'absence, ils envoient un signal de détection d'absence au serveur distant 140 et courrier électronique à l'utilisateur identifié par le boîtier
110 puis coupent la connexion au réseau informatique 130 et bloquent la possibilité de connexion au réseau informatique 130. Après authentification de l'identité de l'utilisateur, il est possible de désactiver, désinstaller ou modifier les paramètres de filtrage du boîtier 110 : - interdire les téléchargements de certains types de fichier (".mpeg", ".avi", ".zip" ...),
- bloquer les sites peer-to-peer (en français "poste à poste"), - bloquer les chats synchrones ou, au moins le transfert de documents sur ces chats sauf si le chat met en oeuvre des identifications par adresse de courrier électronique et si l'adresse du correspondant correspond à une adresse présente dans un carnet d'adresses électroniques référencée comme "fiable" par l'utilisateur autorisé du boîtier 110, - bloquer NNTP (newsgroup ou groupe de discussion) et/ou - ne pas analyser les courriers électroniques entrants venant d'adresses considérées comme fiables dans le carnet d'adresses lié aux fonctions de filtrage. Chaque désactivation du boîtier donne lieu à la transmission, au serveur 140, d'une information témoin afin que le serveur 140 conserve une trace de cette désactivation que l'utilisateur pourra consulter après avoir été identifié par le moyen d'identification à clé matérielle 116. On observe, en figure 2, une entrée 200 d'information en provenance du réseau 130, un module d'acquisition et de tri de type d'information 210, un module de traitement contextuel 220, un module de traitement sémantique et textuel 230, un module de décision 240 comportant un module de première décision 241 et un module de deuxième décision 242, un module d'analyse d'images 250, une sortie d'information 260 à destination de l'ordinateur 100 et un module 270 de transmission d'information sur le réseau 130. L'entrée 200 reçoit toute l'information en provenance du réseau 130 destinée à l'ordinateur 100, sous forme de trame conforme au protocole IP (pour Internet Protocol). Le module d'acquisition et de tri de type d'information 210 reçoit cette information et la trie selon son type : - information en provenance d'un site web, - information en provenance d'un site de chat, - information de courrier électronique, en fonction du protocole selon lequel cette information est transmise (respectivement les protocoles HTTP, NNTP et SMTP ou autre). D'une manière générale et préférentiellement, le boîtier 110 effectue le filtrage des données en effectuant d'abord des analyses qui peuvent être très rapides (analyse de mots clés et de balises, par exemple) et s'il peut conclure de cette première analyse que l'information ne doit pas être transmise à l'utilisateur du PC, il ne la transmet pas et, dans le cas contraire, il effectue une deuxième analyse qui prend plus de temps de traitement (traitement des pages liées à la page analysée, des critères de la page, voir plus loin, des javascripts, ...) et s'il peut conclure de cette deuxième analyse que l'information ne doit pas être transmise à l'utilisateur du PC, il ne la transmet pas et, dans le cas contraire, il effectue une troisième analyse (par exemple traitement d'images de la page exposé ci-dessous) et ainsi de suite jusqu'à ce que tous les traitements aient été effectués et que la dernière décision de transmission ou non, de la page, ait été prise. Dans un but de simplification, on ne décrit, ci-dessous, que deux étapes et moyens de traitement suivies de deux étapes et moyens de décision. Le module de traitement contextuel 220 détermine et traite les informations suivantes : a) S'il s'agit d'une information en provenance d'un site web (protocole HTTP) le module de traitement contextuel 220 analyse le contenu de la page reçue ; - il détermine la langue de la page, compare les mots clés contenus dans l'adresse électronique (URL) de la page, dans les métatags "keyword" et "description" et dans le code source de la page avec un dictionnaire de mots interdits les plus courants (dictionnaire conservé dans la mémoire non volatile du boîtier 110) ; - il recherche des balises spécifiques d'auto déclaration de contenu de la page (par exemple balises PICS, ICRA ...) ;
- si la page demandée possède une adresse électronique (URL) qui ne correspond pas à la page d'accueil du site, il recherche cette page d'accueil sur le réseau 130 (en raccourcissant l'adresse électronique URL par retrait de ses derniers caractères, éventuellement en plusieurs étapes, et en fonction des caractères "/") et, dans cette page d'accueil, un avertissement ("disclaimer") en cas de caractère sensible de la page pouvant heurter qui demande une acceptation volontaire (par clic sur un bouton "entrer") ;
- il effectue un relevé des différents critères de la page : nombre de mots, de liens hypertextes, d'images, scripts, tailles de fichiers, format des fichiers, scripts, contenu du texte et vecteurs sémantiques (groupement de mots ayant une signification)...
- il analyse les javascripts (leur présence et leur action, par exemple ouverture de page ou popup et analyse de popup) ;
- il recherche, télécharge et analyse les pages accessibles par les liens présents sur la page analysée comme indiqué ci-dessus ; Dans un mode de réalisation préférentiel, le module de traitement contextuel 220 effectue une collecte des textes de la page au cours de laquelle, si des textes sont incrustés dans des graphismes ou images, ces textes en sont extraits et ajoutés aux informations de la page reçues au format texte, aux textes de l'adresse électronique (URL) de la page et des métatags "keyword" et "description". Par exemple une reconnaissance optique de caractère est effectuée pour extraire les textes des images et graphismes. b) s'il s'agit d'information de type courrier électronique (protocole SMTP), la philosophie de filtrage du courrier électronique est basée sur un confort de l'utilisateur qui ne sera pas agressé par des courriers non désirés (publicités, spam, mailings-listes automatiques, contenu des pièces jointes). Si le courrier électronique entrant provient d'une adresse électronique (adresse e-mail) présente fiable dans le carnet d'adresses lié aux fonctions de filtrage, dans la mémoire du boîtier, le courrier n'est pas analysé. Si le courrier électronique entrant ne provient pas d'un émetteur enregistré dans le carnet d'adresse, le module de traitement contextuel 220 :
- détermine s'il y a au moins une image ou un fichier susceptible d'en contenir une dans le corps du courrier électronique ou dans les fichiers attachés ; - lit et analyse les liens contenus dans les courriers électroniques (et analyse des métatags de la page liée) comme indiqué ci-dessus ;
- effectue une analyse textuelle du contenu du mail comme indiqué ci-dessus. Dans un mode de réalisation préférentiel, le module de traitement contextuel 220 effectue une simplification linguistique multilingue au cours de laquelle la langue des informations textuelles est d'abord déterminée, de manière connue, puis chaque mot de texte est mis en relation avec un synonyme dans la même langue, synonyme qui peut être le mot d'origine lui-même ou avec un mot de la même langue considéré comme ayant un sens voisin, en mettant en oeuvre une table de correspondance ou un dictionnaire de synonymes ou de mots possédant un sens voisin. c) pour l'information provenant de chat ou de news groups (protocole NNTP), le module de traitement contextuel 220 détermine si les informations provenant des tiers proviennent d'utilisateurs référencées, par l'utilisateur autorisé du boîtier 110, comme fiables, dans le carnet d'adresses électroniques. Les résultats des traitements effectués par le module de traitement contextuel 220 sont simultanément transmis au module de traitement sémantique et textuel 230 et au module de première décision 241. Dans un mode de réalisation préférentiel, le module de traitement sémantique et textuel 230 détermine le type de contenu sémantique de la page par une analyse morphosyntaxique du texte, en utilisant des vecteurs conceptuels (thésaurus et/ou dictionnaire). Les résultats des traitements effectués par le module de traitement sémantique et textuel 230 sont transmis au module de première décision 241. Puis, le module de traitement 230 effectue une extraction de critères par vectorisation de la page, et classification d'après des classifieurs spécialises par catégories ou domaines. A cet effet, le module de traitement 230 compte des éléments, images, mots prédéfinis après leur simplification linguisitique, par exemple. Le module de première décision 241 effectue une première détermination de décision de transmettre ou non le contenu de la page à l'ordinateur 100, en fonction des résultats provenant d'au moins le module 220 et éventuellement du module 230. Lorsque l'un des traitements effectués par l'un de ces modules 220 et 230 fournit, par un traitement par règles logiques (règles "expertes"), un résultat immédiatement interprétable pour bloquer la transmission du contenu, par exemple présence d'un avertissement, la première décision est de bloquer le contenu. A défaut, la première décision de filtrage est prise par un réseau de neurones ou en logique floue, selon des techniques connues. Dans un mode de réalisation préférentiel, dans le module de traitement sémantique et textuel 230, un classifieur secondaire traite les résultats pour chaque critère de tri (nombre d'images, nombre de mots prédéfinis, par exemple) et fournit un résultat de classification ou note et un classifieur traite les résultats des classifieurs secondaires, en les pondérant éventuellement, pour déterminer si la page peut être transmise à l'utilisateur. Le résultat de la première décision peut être : - décision de blocage du contenu, - décision de faire parvenir le contenu à l'ordinateur 100, - décision de poursuivre l'analyse de ce contenu. Dans le troisième cas, l'information à traiter est transmise au module d'analyse d'image 250, qui effectue les traitements suivants :
- extraction de caractères et reconnaissance des mots dans les fichiers images (par exemple boutons, images et graphismes) présents sur la page, par exemple avec reconnaissance optique de caractères ;
- transmission de ces mots au module de traitement contextuel 220 et au module de traitement sémantique 230 pour que les traitements exposés ci-dessus soit effectués ;
- recherche de texture chair (identifiée par la présence de peu de contours dans une couleur correspondant à de la chair et par une faible, mais non nulle, densité de points de contour sur la partie de couleur chair) dans les images, détermination du nombre d'images en contenant ;
- relevé de contours des zones contenant la texture chair, reconnaissance de formes, recherche des yeux, de la bouche, des mains dans l'image pour déterminer les postures des différents sujets, nombre de sujets dans l'image, gros plans (ces étapes peuvent être effectuées par un réseau neuronal) ;
- dans le cas des courriers électroniques, des newsgroups et des chats, analyse des fichiers images joints et
- il analyse d'autres éléments de l'environnement de la page (bannières, images surgissantes ou "pop-up"), comme indiqué ci-dessus. En fonction des résultats de ces traitement, le module de deuxième décision 242 prend une décision finale, par la mise en oeuvre d'un réseau de neurones ou de logique floue : - décision de blocage du contenu, en fonction des paramètres personnalisés par l'utilisateur ou - décision de faire parvenir le contenu à l'ordinateur 100. On observe que le module de deuxième décision 242 peut, par exemple, mettre en oeuvre un classifieur de Bayes et un arbre de décision (cette méthode étant réputée fiable éprouvée et rapide). En variante, le module de deuxième décision effectue les mêmes traitements que le module de première décision mais appliqué à l'environnement de la page, par exemple d'autres pages vers lesquelles mènent les liens présents sur la page et la décision finale de transmission à l'utilisateur est prise sur lesquels les modules 220 et 230 sont mis en oeuvre. La sortie d'information 260 à destination de l'ordinateur 100 permet, lorsque l'image n'est pas filtrée ou bloquée, de transmettre le contenu de la page demandée à l'ordinateur 100. Lorsque l'utilisateur désigné souhaite arrêter le fonctionnement du boîtier 110, le module 270 de transmission d'information sur le réseau transmet au serveur distant 140, un triplet d'information comportant la commande de l'utilisateur, son identifiant et celui du boîtier 110. Le serveur distant 140 vérifie les droits et les informations transmises et commande éventuellement le boîtier 110, pour autoriser l'accès à tout contenu accessible sur le réseau 130. On rappelle, ci-dessous, l'approche floue de l'analyse ou de la classification. Les modèles flous ou systèmes d'inférence floue (SI F) permettent de représenter le comportement de systèmes complexes. La théorie des ensembles flous permet une représentation simple des incertitudes et imprécisions liées aux informations et aux connaissances. Son principal avantage est d'introduire le concept d'appartenance graduelle à un ensemble alors qu'en logique ensembliste classique, cette appartenance est binaire (appartient ou n'appartient pas à un ensemble). Un élément peut ainsi appartenir à plusieurs ensembles avec des degrés d'appartenance respectifs de 0,15 et 0,6, par exemple. On observe, en figure 3, une succession d'étapes mises en oeuvre dans un mode particulier de réalisation du procédé objet de la présente invention. A la suite de l'étape 300 d'initialisation de l'ordinateur 100 et du boîtier 110, au cours d'une étape 302, l'ordinateur 100 détermine si le boîtier 110 lui est correctement relié. Si non, l'ordinateur 100 interdit toute connexion au réseau informatique 130 et le processus de fonctionnement selon le procédé objet de la présente invention est achevé. Ainsi, à chaque redémarrage de l'ordinateur et à chaque ouverture d'une session sur cet ordinateur, on active l'équipement pour filtrer les contenus accessibles en ligne. Si le boîtier 110 est correctement relié à l'ordinateur, au cours d'une étape 304, on détermine si l'utilisateur tente d'accéder à un contenu en ligne. Si non, on retourne à l'étape 304. Si oui, au cours d'une étape 306, le boîtier autorise la connexion au réseau 140 et détermine si l'utilisateur a entré une commande de désactivation. Si non, on passe à l'étape
314. Si oui, au cours d'une étape 308, on vérifie l'identité de l'utilisateur désigné, par exemple en identifiant une clé matérielle (par exemple une carte à mémoire ou une empreinte digital) et on transmet au serveur distant 140, un triplet d'information comportant la commande de l'utilisateur, son identifiant et celui du boîtier 110. Le serveur distant 140 vérifie les droits et les informations transmises, étape 310, et si l'utilisateur désigné est authentifié, il commande le boîtier 110, pour autoriser l'accès à tout contenu accessible sur le réseau 130, étape 312, et le processus de fonctionnement selon le procédé objet de la présente invention est achevé. Au cours de l'étape 314, on trie l'information en provenance du réseau informatique 130 selon son type : - information en provenance d'un site web, - information en provenance d'un site de chat, - information de courrier électronique, en fonction du protocole selon lequel cette information est transmise (respectivement les protocoles HTTP, NNTP et SMTP. Au cours d'une étape 316, on détermine et traite les informations suivantes : a) S'il s'agit d'une information en provenance d'un site web (protocole HTTP), on analyse le contenu de la page reçue ;
- on détermine la langue de la page, compare les mots clés contenus dans l'adresse électronique (URL) de la page, dans les métatags "keyword" et "description" et dans le code source de la page avec un dictionnaire de mots interdits les plus courants (dictionnaire conservé dans la mémoire non volatile du boîtier 110) ;
- on recherche des balises spécifiques d'auto déclaration de contenu de la page (par exemple balises PICS, ICRA ...) ;
- si la page demandée possède une adresse électronique (URL) qui ne correspond pas à la page d'accueil du site, on recherche cette page d'accueil sur le réseau 130 (en raccourcissant l'adresse électronique URL par retrait de ses derniers caractères, éventuellement en plusieurs étapes, et en fonction des caractères "/") et, dans cette page d'accueil, un avertissement ("disclaimer") en cas de caractère sensible de la page pouvant heurter qui demande une acceptation volontaire (par clic sur un bouton "entrer") ; - on effectue un relevé des différents critères de la page : nombre de mots, de liens hypertextes, d'images, scripts, tailles de fichiers, format des fichiers, scripts, contenu du texte et vecteurs sémantiques (groupement de mots ayant une signification)...
- on analyse les javascripts (leur présence et leur action, par exemple ouverture de page ou popup et analyse de popup) ; - on recherche, télécharge et analyse les pages accessibles par les liens présents sur la page analysée comme indiqué ci-dessus ; b) s'il s'agit d'information de type courrier électronique (protocole SMTP), la philosophie de filtrage du courrier électronique est basée sur un confort de l'utilisateur qui ne sera pas agressé par des courriers non désirés (publicités, spam, mailings-listes automatiques, contenu des pièces jointes). Si le courrier électronique entrant provient d'une adresse électronique (adresse e-mail) présente fiable dans le carnet d'adresses lié aux fonctions de filtrage, dans la mémoire du boîtier, le courrier n'est pas analysé. Si le courrier électronique entrant ne provient pas d'un émetteur enregistré dans le carnet d'adresse, on :
- détermine s'il y a au moins une image ou un fichier susceptible d'en contenir une dans le corps du courrier électronique ou dans les fichiers attachés ; - lit et analyse les liens contenus dans les courriers électroniques (et analyse des métatags de la page liée) comme indiqué ci-dessus ;
- effectue une analyse textuelle du contenu du mail comme indiqué ci-dessus. Dans un mode de réalisation préférentiel, au cours de l'étape 316, on effectue une collecte des textes de la page au cours de laquelle, si des textes sont incrustés dans des graphismes ou images, ces textes en sont extraits et ajoutés aux informations de la page reçues au format texte. Par exemple une reconnaissance optique de caractère est effectuée pour extraire les textes des images et graphismes. En cas de filtrage, on avertit l'utilisateur de l'ordinateur personnel, par ouverture d'une boîte de dialogue, et on ne détruit pas les fichiers. c) pour l'information provenant de chat ou de news groups (protocole NNTP), on détermine si les informations provenant des tiers proviennent d'utilisateurs référencées, par l'utilisateur autorisé du boîtier 110, comme fiables, dans le carnet d'adresses électroniques. Puis, au cours d'une étape 318, on détermine le type de contenu sémantique de la page par une analyse morpho-syntaxique du texte, en utilisant des vecteurs conceptuels (thésaurus et/ou dictionnaire). Dans un mode de réalisation préférentiel, au cours de l'étape 318, on effectue une simplification linguistique multilingue au cours de laquelle la langue des informations textuelles est d'abord déterminée, de manière connue, puis chaque mot de texte est mis en relation avec un synonyme dans la même langue, synonyme qui peut être le mot d'origine lui-même ou avec un mot de la même langue considéré comme ayant un sens voisin, en mettant en oeuvre une table de correspondance ou un dictionnaire de synonymes ou de mots possédant un sens voisin. Dans ce mode de réalisation préférentiel, au cours de l'étape 318, on effectue une extraction de critères par vectorisation de la page, et classification d'après des classifieurs spécialises par catégories ou domaines. A cet effet, le module de traitement 230 compte des éléments, images, mots prédéfinis après leur simplification linguisitique, par exemple. Au cours d'une étape 320 de détermination de première décision, on effectue une première détermination de décision de transmettre ou non le contenu de la page à l'ordinateur 100, en fonction des résultats provenant des étapes 316 et 318. Lorsque l'un des traitements effectués par l'un de ces modules fournit, par un traitement par règles logiques, un résultat immédiatement interprétable pour bloquer la transmission du contenu, par exemple présence d'un avertissement, au cours de l'étape 320, on détermine que la première décision est de bloquer le contenu. Dans un mode de réalisation préférentiel, au cours de l'étape 320, un classifieur secondaire traite les résultats pour chaque critère de tri (nombre d'images, nombre de mots prédéfinis, par exemple) et fournit un résultat de classification ou note et un classifieur traite les résultats des classifieurs secondaires, en les pondérant éventuellement, pour déterminer si la page peut être transmise à l'utilisateur. A défaut, la première décision de filtrage est prise par un réseau de neurones ou en logique floue, selon des techniques connues. Le résultat de cette première décision peut être : - décision de blocage du contenu (on ne fournit pas le contenu à l'ordinateur et on affiche un message de refus d'accès, étape 322) ; - décision de faire parvenir le contenu à l'ordinateur 100 (on fournit le contenu à l'ordinateur 100 comme si le boîtier 110 n'était pas associé à l'ordinateur, étape 324) ou - décision de poursuivre l'analyse de ce contenu. Dans le troisième cas, au cours d'une étape 326, on effectue les traitements suivants :
- extraction de caractères et reconnaissance des mots dans les fichiers images (par exemple boutons, images et graphismes) présents sur la page, par exemple avec reconnaissance optique de caractères ;
- traitement contextuel comme indiqué à l'étape 316 et traitement sémantique comme indiqué e l'étape 318 ;
- recherche de texture chair (identifiée par la présence de peu de contours dans une couleur correspondant à de la chair et par une faible, mais non nulle, densité de points de contour sur la partie de couleur chair) dans les images, détermination du nombre d'images en contenant ;
- relevé de contours des zones contenant la texture chair, reconnaissance de formes, recherche des yeux, de la bouche, des mains dans l'image pour déterminer les postures des différents sujets, nombre de sujets dans l'image, gros plans (ces étapes peuvent être effectuées par un réseau neuronal) ;
- dans le cas des courriers électroniques, des newsgroups et des chats, analyse des fichiers images joints et - analyse d'autres éléments de l'environnement de la page (bannières, fenêtres surgissantes ou "pop-up"), comme indiqué ci-dessus. En fonction des résultats de ces traitement, au cours d'une étape de deuxième décision 328, on prend une décision finale, par la mise en oeuvre d'un réseau de neurones ou de logique floue : - décision de blocage du contenu, étape 322, en fonction des paramètres personnalisés par l'utilisateur ou - décision de faire parvenir le contenu à l'ordinateur 100, étape 324. A la suite de l'une des étapes 322 ou 324, on retourne à l'étape 314. En variante, l'étape 328 effectue les mêmes traitements que ceux appliqués pour la première décision mais appliqués à l'environnement de la page, par exemple d'autres pages vers lesquelles mènent les liens présents sur la page et la décision finale de transmission à l'utilisateur est prise sur lesquels les modules 220 et 230 sont mis en oeuvre. En variante, l'étape de validation de commande de l'utilisateur est effectuée dès que l'utilisateur est authentifié, par mot de passe ou mesure biométrique, par exemple, sans recours au serveur distant 140. En variante, l'étape 318 est supprimée. On observe que la deuxième décision, étape 328, peut, par exemple, mettre en oeuvre un classifieur de Bayes et un arbre de décision (cette méthode étant réputée fiable éprouvée et rapide). Préférentiellement, la classification se fait après un apprentissage "en laboratoire" de catégories de pages, selon des techniques connues dans le domaine de la recherche de contenu (en anglais "web mining" ou "content mining"). A cet effet, on donne au classifieur des grandes quantités de pages de chaque catégorie à apprendre et il reconnaît ensuite automatiquement à quelle catégorie appartient une nouvelle page qui lui est soumise.

Claims

REVENDICATIONS :
1 - Procédé de filtrage de contenus en ligne, caractérisé en ce qu'il comporte :
- de mettre en oeuvre un équipement (110), boîtier externe ou une carte interne à l'ordinateur, qui s'intercale entre l'ordinateur (100) et un réseau informatique (130) donnant accès à des contenus en ligne, ledit équipement recevant le contenu provenant du réseau ;
- une étape d'analyse (316, 318, 326) dudit contenu ;
- une étape de recherche d'environnement (316, 318, 326) dudit contenu sur ledit réseau ;
- une étape d'analyse (316, 318, 326) dudit environnement ; - une étape de décision de filtrage (320, 328) en fonction d'un ensemble de règles de décision dépendante des résultats des étapes d'analyse dudit contenu et de son environnement et
- une étape de transmission (324) ou non dudit contenu audit ordinateur, en fonction du résultat de l'étape de décision de filtrage.
2 - Procédé selon la revendication 1 , caractérisé en ce que, au cours de l'étape d'analyse dudit environnement (316, 318, 326), on traite les pages vers lesquelles mènent les liens hypertextes dudit contenu.
3 - Procédé selon l'une quelconque des revendications 1 ou 2, caractérisé en ce qu'au moins une l'étape d'analyse (316, 318, 326) dudit contenu comporte une première étape de tri rapide de contenu (316, 318), l'étape de décision comportant une première étape de détermination de décision (320) en fonction du résultat de ladite première étape de tri rapide et, en cas d'indétermination du résultat de ladite première étape de détermination de décision, l'étape d'analyse comporte une deuxième étape de tri de contenu (326) d'une durée supérieure à la première étape de tri rapide, l'étape de décision comportant alors une deuxième étape de détermination de décision (328) en fonction du résultat de la deuxième étape de tri.
4 - Procédé selon la revendication 3, caractérisé en ce que la première étape de tri rapide de contenu (316, 318) traite un contenu ne comportant pas d'image et en ce que la deuxième étape de tri de contenu (326) comporte une étape de traitement d'image.
5 - Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'au moins une étape d'analyse (326) comporte une l'étape de traitement d'image au cours de laquelle, pour au moins une image, on analyse la texture du contenu de l'image pour extraire les parties de l'image dont la texture correspond à de la chair. 6 - Procédé selon la revendication 5, caractérisé en ce que l'étape de traitement d'image comporte une étape d'analyse de posture du ou des personnages dont on voit des parties charnelles.
7 - Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce qu'au moins une étape d'analyse (326) comporte une étape d'extraction de caractères d'images incorporées dans le contenu en ligne.
8 - Procédé selon l'une quelconque des revendications 1 à 7, caractérisé en ce qu'il comporte une étape d'identification de l'utilisateur (308, 310) et une étape de désactivation
(312) de filtrage et d'autorisation d'accès à tout contenu accessible sur le réseau informatique, en fonction du résultat de ladite identification.
9 - Procédé selon l'une quelconque des revendications 1 à 8, caractérisé en ce qu'il comporte une étape de transmission (310), à un système informatique distant (140) relié audit réseau informatique (130), d'un ensemble d'information comportant une commande, un identifiant de l'utilisateur et un identifiant de l'équipement et une étape de vérification, par le système informatique distant des droits associés auxdits identifiants et une étape de commande de l'équipement (310, 312), par le système informatique distant pour désactiver le filtrage et autoriser l'accès à tout contenu accessible sur le réseau informatique.
10 - Procédé selon l'une quelconque des revendications 8 ou 9, caractérisé en ce qu'il comporte, lorsque l'équipement (110) a été désactivé, une étape d'activation (300) de l'équipement lors du prochain redémarrage de l'ordinateur ou de la prochaine ouverture d'une session avec ledit ordinateur.
11 - Equipement (110), boîtier externe ou une carte interne à un ordinateur (100), de filtrage de contenus en ligne, qui s'intercale entre l'ordinateur et un réseau informatique (130) donnant accès à des contenus en ligne, ledit équipement recevant les contenus provenant du réseau, caractérisé en ce qu'il comporte :
- un moyen d'analyse (112, 113) dudit contenu ;
- un moyen de recherche (112, 113) d'environnement dudit contenu sur ledit réseau ;
- un moyen d'analyse (112, 113) dudit environnement ;
- un moyen de décision de filtrage (112, 113) en fonction d'un ensemble de règles de décision dépendante des résultats des étapes d'analyse dudit contenu et de son environnement et - un moyen de transmission (114) ou non dudit contenu audit ordinateur, en fonction du résultat de l'étape de décision de filtrage.
12 - Equipement selon la revendication 11 , caractérisé en ce que le moyen d'analyse (112, 113) dudit environnement traite les pages vers lesquelles mènent les liens hypertextes dudit contenu.
13 - Equipement selon l'une quelconque des revendications 11 ou 12, caractérisé en ce qu'au moins un moyen d'analyse dudit contenu (112, 113) est adapté à effectuer un premier tri rapide de contenu, le moyen de décision étant adapté à effectuer une première détermination de décision en fonction du résultat dudit premier tri rapide et, en cas d'indétermination du résultat de ladite première étape de détermination de décision, le moyen d'analyse est adapté à effectuer un deuxième tri de contenu d'une durée supérieure au premier tri rapide, le moyen de décision effectuant alors une deuxième détermination de décision en fonction du résultat du deuxième tri.
14 - Equipement selon la revendication 13, caractérisé en ce que le premier tri rapide de contenu traite un contenu ne comportant pas d'image et en ce que le deuxième tri de contenu comporte un traitement d'image.
15 - Equipement selon l'une quelconque des revendications 11 à 14, caractérisé en ce qu'au moins un moyen d'analyse (112, 113) comporte un moyen de traitement d'image adapté, pour au moins une image, à analyser la texture du contenu de l'image pour extraire les parties de l'image dont la texture correspond à de la chair.
16 - Equipement selon la revendication 15, caractérisé en ce que le traitement d'image comporte une analyse de posture du ou des personnages dont on voit des parties charnelles.
17 - Equipement selon l'une quelconque des revendications 11 à 16, caractérisé en ce qu'au moins un moyen d'analyse (112, 113) est adapté à extraire des caractères d'images incorporées dans le contenu en ligne.
18 - Equipement selon l'une quelconque des revendications 11 à 17, caractérisé en ce qu'il comporte un moyen d'identification de l'utilisateur à clé matérielle (116), le moyen de décision (112, 113) étant adapté, en fonction du résultat de l'identification, à désactiver le filtrage et à autoriser l'accès à tout contenu accessible sur le réseau informatique. 19 - Equipement selon l'une quelconque des revendications 11 à 18, caractérisé en ce qu'il comporte un moyen de transmission (115), à un système informatique distant (140) relié audit réseau informatique (130), d'un ensemble d'information comportant une commande, un identifiant de l'utilisateur et un identifiant de l'équipement et un moyen de réception, depuis le système informatique distant d'une commande de l'équipement pour désactiver le filtrage et autoriser l'accès à tout contenu accessible sur le réseau informatique.
20 - Equipement (110) selon l'une quelconque des revendications 18 ou 19, caractérisé en ce qu'il comporte un moyen d'activation (112, 113) adapté, lorsque l'équipement a été désactivé, à activer l'équipement lors du prochain redémarrage de l'ordinateur ou de la prochaine ouverture d'une session avec ledit ordinateur.
EP04791249A 2003-10-21 2004-10-18 Procede et dispositif de filtrage de contenus en ligne Withdrawn EP1676218A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0312268A FR2861195B1 (fr) 2003-10-21 2003-10-21 Procede et dispositif de filtrage de contenus en ligne
PCT/EP2004/052571 WO2005038670A1 (fr) 2003-10-21 2004-10-18 Procede et dispositif de filtrage de contenus en ligne

Publications (1)

Publication Number Publication Date
EP1676218A1 true EP1676218A1 (fr) 2006-07-05

Family

ID=34385328

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04791249A Withdrawn EP1676218A1 (fr) 2003-10-21 2004-10-18 Procede et dispositif de filtrage de contenus en ligne

Country Status (4)

Country Link
US (1) US20070214263A1 (fr)
EP (1) EP1676218A1 (fr)
FR (1) FR2861195B1 (fr)
WO (1) WO2005038670A1 (fr)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184577A1 (en) * 2005-02-15 2006-08-17 Kaushal Kurapati Methods and apparatuses to determine adult images by query association
US7966654B2 (en) 2005-11-22 2011-06-21 Fortinet, Inc. Computerized system and method for policy-based content filtering
US8306326B2 (en) * 2006-08-30 2012-11-06 Amazon Technologies, Inc. Method and system for automatically classifying page images
US8291021B2 (en) * 2007-02-26 2012-10-16 Red Hat, Inc. Graphical spam detection and filtering
GB0710845D0 (en) * 2007-06-06 2007-07-18 Crisp Thinking Ltd Communication system
JP2009025871A (ja) * 2007-07-17 2009-02-05 Hewlett-Packard Development Co Lp アクセス制限装置およびその方法。
US20090089417A1 (en) * 2007-09-28 2009-04-02 David Lee Giffin Dialogue analyzer configured to identify predatory behavior
US8074162B1 (en) * 2007-10-23 2011-12-06 Google Inc. Method and system for verifying the appropriateness of shared content
KR20090049834A (ko) * 2007-11-14 2009-05-19 삼성전자주식회사 반도체 소자, 그 제조방법 및 동작 방법
US8477796B1 (en) * 2008-02-12 2013-07-02 Mcafee, Inc. System, method, and computer program product for processing different content each stored in one of a plurality of queues
US8473281B2 (en) 2009-10-09 2013-06-25 Crisp Thinking Group Ltd. Net moderator
EP3242465B1 (fr) 2010-04-26 2020-01-01 BlackBerry Limited Dispositif de communication mobile sans fil fournissant des fonctions de gestion de transfert de fichier amélioré et procédés associés
WO2012098539A2 (fr) * 2011-01-18 2012-07-26 Netspark Ltd. Dispositif et procédé de filtrage de contenu en ligne hiérarchique
CN103973749A (zh) * 2013-02-05 2014-08-06 腾讯科技(深圳)有限公司 基于云服务器的网站处理方法及云服务器
GB201501852D0 (en) * 2015-02-04 2015-03-18 Bishop Jonathan E Monitoring on-line activity
JP6483825B2 (ja) * 2016-12-09 2019-03-13 グーグル エルエルシー 自動変化形検出を用いる禁止されたネットワークコンテンツの配信の防止
US10956670B2 (en) * 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884033A (en) * 1996-05-15 1999-03-16 Spyglass, Inc. Internet filtering system for filtering data transferred over the internet utilizing immediate and deferred filtering actions
US6662365B1 (en) * 1999-08-17 2003-12-09 Gateway, Inc. Unified parental locks
US20050028191A1 (en) * 1999-08-17 2005-02-03 Sullivan Gary E. Content control system
US20010044818A1 (en) * 2000-02-21 2001-11-22 Yufeng Liang System and method for identifying and blocking pornogarphic and other web content on the internet
WO2001098934A2 (fr) * 2000-06-20 2001-12-27 Privo, Inc. Procede et appareil d'acces au contenu d'internet
US7209893B2 (en) * 2000-11-30 2007-04-24 Nokia Corporation Method of and a system for distributing electronic content
US7039700B2 (en) * 2001-04-04 2006-05-02 Chatguard.Com System and method for monitoring and analyzing communications
US20030182420A1 (en) * 2001-05-21 2003-09-25 Kent Jones Method, system and apparatus for monitoring and controlling internet site content access
US20030126267A1 (en) * 2001-12-27 2003-07-03 Koninklijke Philips Electronics N.V. Method and apparatus for preventing access to inappropriate content over a network based on audio or visual content
US7149219B2 (en) * 2001-12-28 2006-12-12 The Directtv Group, Inc. System and method for content filtering using static source routes
US7698720B2 (en) * 2002-06-20 2010-04-13 At&T Intellectual Property I, L. P. Content blocking
US7360234B2 (en) * 2002-07-02 2008-04-15 Caption Tv, Inc. System, method, and computer program product for selective filtering of objectionable content from a program
US20050060566A1 (en) * 2003-09-16 2005-03-17 Chebolu Anil Kumar Online user-access reports with authorization features

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005038670A1 *

Also Published As

Publication number Publication date
FR2861195B1 (fr) 2006-04-07
WO2005038670A1 (fr) 2005-04-28
FR2861195A1 (fr) 2005-04-22
US20070214263A1 (en) 2007-09-13

Similar Documents

Publication Publication Date Title
WO2005038670A1 (fr) Procede et dispositif de filtrage de contenus en ligne
US8205265B2 (en) Techniques to pollute electronic profiling
Buber et al. NLP based phishing attack detection from URLs
Ma et al. Detecting phishing emails using hybrid features
US20050060643A1 (en) Document similarity detection and classification system
Butt et al. Cloud-based email phishing attack using machine and deep learning algorithm
US20090240684A1 (en) Image Content Categorization Database
US20060005148A1 (en) System and method for content-based filtering of popup objects
Aljabri et al. Detecting malicious URLs using machine learning techniques: review and research directions
Dadkhah et al. An introduction to journal phishings and their detection approach
Thiyagarajan et al. Improved real‐time permission based malware detection and clustering approach using model independent pruning
TOPRAK et al. Web application firewall based on anomaly detection using deep learning
Pooja et al. Analysis of phishing website detection using CNN and bidirectional LSTM
Wang et al. Classifying objectionable websites based on image content
Santhi et al. A Content Based Classification of Spam Mails with Fuzzy Word Ranking
Iqbal Messaging forensic framework for cybercrime investigation
CN112702349A (zh) 一种网络攻击防御方法、装置及电子招标投标交易平台
Youn et al. Improved spam filter via handling of text embedded image e-mail
Nguyen Attribution of spear phishing attacks: A literature survey
Awodiji et al. Malicious Malware Detection Using Machine Learning Perspectives
Noll et al. Design and anatomy of a social web filtering service
Pomponiu et al. A Deep Convolutional Neural Network for Anomalous Online Forum Incident Classification.
Holeňa et al. Important Internet Applications of Classification
Doshi et al. IsItPhish: Dynamic Phishing Website Detection
Bevans Categorizing Blog Spam

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20060329

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20061016

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20080130