BRPI0401849B1 - sistema e método que facilita a extração de dados em conexão com processamento de spam - Google Patents

sistema e método que facilita a extração de dados em conexão com processamento de spam Download PDF

Info

Publication number
BRPI0401849B1
BRPI0401849B1 BRPI0401849A BRPI0401849A BRPI0401849B1 BR PI0401849 B1 BRPI0401849 B1 BR PI0401849B1 BR PI0401849 A BRPI0401849 A BR PI0401849A BR PI0401849 A BRPI0401849 A BR PI0401849A BR PI0401849 B1 BRPI0401849 B1 BR PI0401849B1
Authority
BR
Brazil
Prior art keywords
address
message
features
feature
extracted
Prior art date
Application number
BRPI0401849A
Other languages
English (en)
Inventor
T Starbuck Bryan
Gwozdz Daniel
D Mehr John
T Goodman Joshua
C Rupersburg Micah
D Howell Nathan
L Rounthwaite Robert
Original Assignee
Microsoft Corp
Microsoft Technology Licensing Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp, Microsoft Technology Licensing Llc filed Critical Microsoft Corp
Publication of BRPI0401849A publication Critical patent/BRPI0401849A/pt
Publication of BRPI0401849B1 publication Critical patent/BRPI0401849B1/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)
  • Image Analysis (AREA)

Abstract

"características de procedência/destinação e listas para prevenção de inundação". a presente invenção envolve um sistema e método que facilita extração de dados a partir de mensagens para filtragem de inundação. os dados extraídos podem estar na forma de características, as quais podem ser empregadas em conexão com sistemas de aprendizagem de máquina para elaborar filtros aperfeiçoados. dados associados com informação de procedência bem como outra informação embutida no corpo da mensagem que permite que um recebedor da mensagem contate e/ou responda ao remetente da mensagem podem ser extraídos como características. as características, ou um subconjunto delas, podem ser normalizadas e/ou desofuscadas antes de serem empregadas como características dos sistemas de aprendizagem de máquina. as características (desofuscadas) podem ser empregadas para encher uma pluralidade de listas de características que facilitam a detecção e prevenção de inundação. características exemplares incluem um endereço de correio eletrônico, um endereço ip, um url, uma imagem embutida apontando para um url, e/ou partes da mesma.

Description

Relatório Descritivo da Patente de Invenção para "SISTEMA E MÉTODO QUE FACILITA A EXTRAÇÃO DE DADOS EM CONEXÃO COM PROCESSAMENTO DE SPAM", CAMPO TÉCNICO
[001] Esta invenção se refere a sistemas e métodos para identificar correspondência legítima (por exemplo, correspondência de interesse) assim como correspondência indesejada e, mais especificamente, para processar mensagens eletrônicas para extrair dados para facilitar prevenção de spam.
FUNDAMENTOS DA INVENÇÃO
[002] O advento de redes de comunicação globais tais como a Internet tem apresentado oportunidades comerciais para se atingir um vasto número de usuários potenciais. Troca de mensagens eletrônicas e,. partí cuia rmente, correio eletrônico (“e-mail”), tornam-se cada vez mais difundidos como um meio para disseminar propagandas, e promoções indesejadas (também chamadas de “spam”), para os usuários da rede, [003] A Radicati Group, Inc., uma firma de consultoria e pesquisa de mercado, avalia que em agosto de 2002, dois bilhões de mensagens de correio eletrônico sem interesse são enviadas diariamente -esse número deve triplicar a cada dois anos. Indivíduos e entidades (por exemplo, empresas, agências governamentais) estão sendo, cada vez mais, importunados e frequentemente ofendidos por mensagens sem interesse, Como tal, spam é no momento ou logo se tomará uma principal ameaça para a computação digna de confiança.
[004] Uma técnica muito importante utilizada para impedir spam é o emprego de sistemas/metodologias de filtragem. Uma técnica de filtragem comprovada baseia-se em uma abordagem de aprendizagem de máquina - filtros de aprendizagem de máquina atribuem a uma mensagem que chega uma probabilidade de que a mensagem seja uma spam. Nessa abordagem, características são extraídas tipicamente a partir de duas classes exemplares de mensagem (por exemplo, mensagens de spam e mensagens que não são de spam), e um filtro de aprendizagem é aplicado para discriminar de modo probabilístico entre as duas classes. Uma vez que muitas características da mensagem são relacionadas ao conteúdo (por exemplo, palavras e frases no tema e/ou corpo da mensagem), tais tipos de filtros são comumente referidos como "filtros baseados em conteúdo”.
[005] Com o avanço das técnicas de filtragem de spam, muitos dos inundadores conceberam formas de disfarçar suas identidades para evitar e/ou contornar os filtros de spam. Dessa forma, filtros adaptáveis e baseados em conteúdo, convencionais, podem se tornar ineficazes no reconhecimento e bloqueio de mensagens de spam disfarçadas.
SUMÁRIO DA INVENÇÃO
[006] O que se segue apresenta um sumário simplificado da invenção para prover um entendimento básico de alguns aspectos da invenção. Esse sumário não é uma visão geral extensiva da invenção. O mesmo não se destina a identificar elementos criticos/fundamentais da invenção ou delinear o escopo da invenção. Seu único propósito é o de apresentar alguns conceitos da invenção em uma forma simplificada como um prelúdio para a descrição mais detalhada que é apresentada posteriormente.
[007] Os inundadores podem disfarçar quase que toda a informação em suas mensagens, Por exemplo, eles podem embutir imagens de modo que não haja palavras a serem usadas como características para um sistema de aprendizagem de máquina. As imagens podem até mesmo ser distorcidas de forma que seria difícil ou pelo menos demorado utilizar software OCR, Ainda assim, não importando quantas características eles removam, ainda haverá informação útil. Primeira- mente, os inundadores devem enviar a mensagem a partir de algum lugar. Podemos detectar de qual endereço IP a mensagem foi recebida. Em segundo lugar, os inundadores estão quase sempre tentando vender algo e, portanto, devem incluir uma forma de serem contatados. Isso podería ser um número de tarifa gratuita, porém, os inundadores podem relutar em utilizar isso, devido aos elevados custos de reclamações. O mesmo poderia ser um número de tarifa não gratuita, porém os inundadores poderíam estar relutantes em usar isso, devido à taxa de resposta inferior. Alternativa mente, o mesmo poderia ser um URL (por exemplo, http://www.spamcorp.com /buyenlarger.htm). Esse URL poderia ser embutido em uma imagem para tornar mais difícil aos filtros e/ou software a sua detecção. Contudo, os inundadores poderíam estar relutantes em fazer isso porque o usuário precisaria digitar o URL no seu navegador, o que poderia diminuir os índices de resposta.
[008] As formas mais prováveis para os inundadores serem contatados são vínculos embutidos, ou através de um endereço de correio eletrônico embutido, de algum tipo. Por exemplo, Hclique aqui para aprender mais" em que o "clique aqui" contém um vínculo para uma página específica da rede que o sistema de aprendizagem de máquina pode detectar e usar de acordo com um aspecto da presente invenção. Similarmente, o endereço para o qual se deve responder (por exemplo, tipicamente o endereço "de" porém algumas vezes o endereço "responder para" se houver algum), ou qualquer enviar correspon-dência-para embutida: vínculos (vínculos que permitem que uma mensagem de correio seja enviada mediante ação de clicar no vínculo), ou quaisquer outros endereços embutidos de correio eletrônico. Adicional mente, os inundadores incluem freqüentemente imagens nas mensagens. Devido ao fato de ser dispendioso enviar por correspondência imagens grandes repetidamente, os inundadores frequentemente embutem apenas um vínculo especial para a imagem, que faz com que a imagem seja transferida. Os locais para os quais esses vínculos apontam também podem ser usados como características.
[009] Com relação à informação extraída a partir do endereço de correspondência-de, endereço de correspondência responder-para, endereços de enviar correspondência-para, embutidos, vínculos externos, e vínculos de imagens externas, pelo menos uma parte de tal informação pode ser usada como uma característica de um sistema de aprendizagem de máquina, ao qual um peso ou probabilidade é associado, ou a informação pode ser adicionada a uma lista. Por exemplo, podemos manter listas de endereços IP ou a partir de endereços que enviam apenas spam, ou apenas correspondência de interesse, ou mais do que 90% de correspondência de interesse, etc. O fato de um vínculo ou endereço específico estar em uma tal lista pode ser usado quer seja como uma característica de um sistema de aprendizagem de máquina, ou como parte de qualquer outro sistema de filtragem de spam, ou ambos.
[0010] A presente invenção provê um sistema e método que facilitam identificar mensagens disfarçadas de spam mediante exame de partes específicas da mensagem. Mais especificamente, a presente invenção envolve processar uma mensagem tal como correio eletrônico (e-mail) para extrair dados de procedência e/ou destinação para distinguir mensagens de spam das mensagens legítimas. O processamento inclui várias técnicas para identificar e analisar informação de endereço IP, informação de endereço de correio eletrônico, e/ou informação de localizador de recurso universal (URL) e associar os dados extraídos com atributos de spam (por exemplo, usuário bom versus usuário ruim ou remetente bom versus remetente ruim). Um usuário ruim ou remetente ruim, por exemplo, seria considerado um inun-dador (por exemplo, aquele que envia spam).
[0011] Os dados extraídos, ou pelo menos uma parte dos mes- mos, poderíam ser usados para gerar conjuntos de características para sistemas de aprendizagem de máquina. Técnicas de aprendizagem de máquina examinam o conteúdo das mensagens para determinar se as mensagens são spam. Inundadores podem ofuscar a maior parte do conteúdo de uma mensagem tal como mediante ação de colocar a maior parte de sua informação em imagens de difícil processamento. Contudo, a origem da mensagem não pode ser totalmente disfarçada uma vez que os inundadores precisam prover alguma forma para que um recebedor facilmente entre em contato com eles. Exemplos disso incluem o uso de um vínculo (por exemplo, URL) e/ou um endereço de correio eletrônico (por exemplo, endereço IP). Esses tipos de informação ou variações de porções dos mesmos podem ser empregados como características de um detector de spam. Especificamente, a informação pode ser usada para treinar um detector de spam e/ou filtro de spam, por exemplo, por intermédio dos sistemas de aprendizagem de máquina.
[0012] A presente invenção também pode ser cooperativa com sistemas de controle parental. Sistemas de controle parental podem notificar um usuário de que uma mensagem é inadequada e também podem indicar uma razão para tal impropriedade tal como “inclui material pornográfico”. De acordo com um aspecto da presente invenção, uma ou mais características extraídas e normalizadas (por exemplo, um URL) podem ser passadas através de um sistema de controle parental ou filtro para obter a classificação do sistema de controle parental. Essa classificação pode ser empregada como uma característica adicional do sistema de aprendizagem de máquina para facilitar elaboração e/ou aperfeiçoamento dos filtros de spam.
[0013] Além disso, características extraídas podem ser classificadas pelo tipo, podem ser ponderadas de acordo com um grau de capacidade de spam, e podem ser designadas quer seja como caracte- rísticas positivas (por exemplo, mais provavelmente não é uma spam) ou características negativas (por exemplo, mais provavelmente é uma spam). As características também podem ser utilizadas, por exemplo, para criar listas tais como listas de nâo-inundadores e listas de ínun-dadores.
[0014] Para realização das finalidades correlatas e anteriormente mencionadas, alguns aspectos ilustrativos da invenção são descritos aqui em conexão com a descrição que se segue e com os desenhos anexos. Esses aspectos são indicativos, contudo, de apenas umas poucas formas diversas nas quais os princípios da invenção podem ser empregados e pretende-se que a invenção inclua todos os tais aspectos e seus equivalentes. Outras vantagens e características inovadoras da invenção podem se tornar evidentes a partir da descrição detalhada da invenção,a seguir, quando considerada em conjunto com os desenhos.
DESCRiCÃO RESUMIDA DOS DESENHOS
[0015] A Figura 1 é um diagrama de blocos de alto nível de um sistema que facilita prevenção de spam de acordo com um aspecto da presente invenção.
[0016] A Figura 2 é um diagrama de blocos de um sistema que facilita prevenção de spam mediante extração de uma ou mais características a partir das mensagens que chegam de acordo com um aspecto da presente invenção.
[0017] A Figura 3 é um diagrama esquemãtíco de uma pluralidade de características que podem ser extraídas a partir de um endereço IP de acordo com um aspecto da presente invenção.
[0018] A Figura 4 é um diagrama esquemãtico de uma pluralidade de características que podem ser extraídas a partir de um FQDN de acordo com um aspecto da presente invenção.
[0019] A Figura 5 é um diagrama esquemãtico de uma pluralidade de características que podem ser extraídas de um endereço de correio eletrônico de acordo com um aspecto da presente invenção.
[0020] A Figura 6 é um diagrama esquemático de uma pluralidade de características que podem ser extraídas de um URL ou de um endereço da rede de acordo com um aspecto da presente invenção.
[0021] A Figura 7 é um fluxograma de um método exemplar em conexão com o treinamento de filtro de acordo com um aspecto da presente invenção.
[0022] A Figura 8 é um fluxograma de um método exemplar em conexão com o emprego de um filtro treinado de acordo com um aspecto da presente invenção.
[0023] A Figura 9 é um fluxograma de um método exemplar em conexão com a elaboração de listas de acordo com um aspecto da presente invenção.
[0024] A Figura 10 é um fluxograma de um método exemplar em conexão com o emprego de listas para treinar filtros de acordo com um aspecto da presente invenção.
[0025] A Figura 11 é um fluxograma de um processo referido nos métodos pelo menos das Figuras 7 e 8, de acordo com um aspecto da presente invenção.
[0026] A Figura 12 é um fluxograma de um processo que facilita distinguir entre endereços IP recebidos-de legítimos e falsos de acordo com um aspecto da presente invenção.
[0027] A Figura 13 é um fluxograma de um método que incorpora um sistema de controle parental na geração e/ou extração de características a partir de mensagens que chegam de acordo com um aspecto da presente invenção.
[0028] A Figura 14 é um fluxograma de um método que facilita a criação de conjuntos de características a serem empregados no sistema de aprendizagem de máquina de acordo com um aspecto da pre- sente invenção, [0029] A Figura 15 é um ambiente exemplar para implementação de diversos aspectos da invenção.
DESCRIÇÃO DETALHADA DA INVENÇÃO
[0030] A presente invenção é descrita agora com referência aos desenhos, em que numerais de referência semelhantes são usados para se referir a elementos semelhantes do princípio ao fim. Na descrição que se segue, com o propósito de explanação, vários detalhes específicos são apresentados para prover um entendimento completo da presente invenção, Pode ser evidente, contudo, que a presente invenção pode ser praticada sem esses detalhes específicos. Em outros casos, estruturas e dispositivos bem conhecidos são mostrados na forma de diagrama de blocos para facilitar a descrição da presente invenção.
[0031] Como usados nesse pedido, os termos: “componente” e ‘sistema", são para referência a uma entidade relacionada a computador, quer seja hardware, uma combinação de hardware e software, software, ou software em execução. Por exemplo, um computador pode ser, porém não é limitado a ser, um processo sendo executado em um processador, um processador, um objeto, um executável, um encadea mento de execução, um programa, e/ou um computador. Como ilustração, tanto uma aplicação sendo executada em um servidor como o servidor, podem constituir um componente. Um ou mais componentes podem residir dentro de um processo e/ou de um encadeamento de execução e um componente pode estar localizado em um computador e/ou distribuído entre dois ou mais computadores, [0032] A presente invenção pode incorporar vários esquemas e/ou técnicas de dedução em conexão com a geração de dados de treinamento para filtragem de spam aprendida pela máquina. Como usado aqui, o termo "dedução” se refere genericamente ao processo de raci- ocínio sobre, ou estados de dedução do sistema, ambiente, e/ou usuário a partir de um conjunto de observações captadas através de eventos e/ou dados. Dedução pode ser empregada para identificar um contexto ou ação específica ou, por exemplo, pode gerar uma distribuição de probabilidade em relação aos estados. A dedução pode ser proba-bilística - isto é, a computação de uma distribuição de probabilidade em relação aos estados de interesse com base em uma consideração de dados e eventos. Dedução também pode se referir a técnicas empregadas para composição de eventos de nível superior a partir de um conjunto de eventos e/ou dados. Tal dedução resulta na construção de novos eventos ou ações a partir de um conjunto de eventos observados e/ou dados de eventos armazenados, sejam ou não os eventos correlacionados em proximidade temporal estreita, e se os eventos e dados provêm de uma ou de várias fontes de dados e eventos.
[0033] Deve ser considerado que embora o termo mensagem seja empregado de forma ampla por toda a especificação, tal termo não é limitado a correio eletrônico em si, porém pode ser adaptado de forma adequada para incluir troca de mensagens eletrônicas de qualquer forma que possam ser distribuídas através de uma arquitetura de comunicação adequada. Por exemplo, aplicações de conferência que facilitam uma conferência entre duas ou mais pessoas (por exemplo, programas interativos de bate-papo, e programas de troca instantânea de mensagens) também podem utilizar os benefícios de filtragem revelados aqui, uma vez que texto indesejado pode ser entremeado eletronicamente em mensagens normais de bate-papo quando os usuários permutam mensagens e/ou inseridos como uma mensagem de início, uma mensagem de encerramento, ou todos os mencionados acima. Nessa aplicação específica, um filtro pode ser treinado para filtrar automaticamente conteúdo específico de mensagem (texto e imagens) com a finalidade de capturar e rotular como spam o conteúdo indese- jável (por exemplo, comerciais, promoções ou anúncios).
[0034] Na presente invenção, o termo “recebedor” se refere a um destinatário de uma mensagem que chega ou item de correspondência. O termo “usuário” pode se referir a um recebedor ou a um remetente, dependendo do contexto. Por exemplo, um usuário pode se referir a um usuário de correio eletrônico que envia spam e/ou um usuário pode se referir a um recebedor de correio eletrônico que recebe a spam, dependendo do contexto e aplicação do termo.
[0035] Um endereço de Protocolo da Internet (IP) é um número de 32 bits representando tipicamente uma máquina na Internet. Esses números são usados quando duas máquinas se comunicam. Eles são representados tipicamente na forma “xxx.xxx.xxx.xxx” - onde cada xxx está entre 0 e 255. Infelizmente, endereços IP são difíceis de serem lembrados. Devido a isso, as convenções de “nome de domínio” e “nome de host” foram criadas. Um “nome de domínio” é o nome de um grupo de máquinas na Internet (talvez uma única máquina), e é tipicamente da forma “x.com”, ou “y.edu”, ou “courts.wa.gov”.
[0036] Um Nome de Domínio Totalmente Qualificado (FQDN) é uma máquina específica na Internet, por exemplo, “b.x.com” ou “c.y.edu” ou “www.courts.wa.gov”; a parte de nome de domínio é “x.com” ou “y.edu” ou “courts.wa.gov”, respectivamente. As partes “b”, “c”, e “www”, respectivamente, são chamadas de parte de nome de host do FQDN. Em geral, um endereço IP pode ser usado em qualquer situação na qual um nome de domínio pode ser usado (por exemplo, “DN/IP” indica que ambas as possibilidades existem). Também em geral, um endereço IP pode ser usado em qualquer situação na qual um FQDN pode ser usado (por exemplo, “FQDN/IP” indica que existem ambas as possibilidades). Um endereço de correio eletrônico consiste em um nome de usuário e um nome de domínio ou endereço IP (DN/IP), por exemplo, “a@x.com” ou “a@1.2.3.4”. Em ambos os exemplos, o nome de usuário é “a”.
[0037] Localizadores de Recursos Uniformes (URLs) são tipicamente da forma “service.name:FQDN/IP/url-path”. Por exemplo, “http://www.microsoft.com/windows/help.htm” é um URL. A parte “http” é o nome de serviço. A parte “www.microsoft.com” é o FQDN e “win-dows/help.htm” é o caminho URL. Isso é algo como uma simplificação de URLs, porém suficiente para a presente discussão.
[0038] Com referência agora à Figura 1, é ilustrado um diagrama geral de blocos de um sistema 100 de extração e treinamento de características de acordo com um aspecto da presente invenção. O sistema 100 de extração e treinamento de característica envolve processar mensagens 110 que chegam para extrair dados ou características a partir das mensagens. Tais características podem ser extraídas a partir de pelo menos uma parte da informação de procedência e/ou destinação provida na mensagem e/ou suas variações. Especificamente, uma ou mais mensagens 110 que chegam podem ser recebidas pelo sistema 100 através de um componente 120 de recebimento de mensagem. O componente 120 de recebimento de mensagem pode estar localizado em um servidor de mensagem ou correio eletrônico, por exemplo, para receber as mensagens 110 que chegam. Embora algumas mensagens (por exemplo, pelo menos uma) possam ser vulneráveis a um filtro existente (por exemplo, filtro de spam, de correspondência sem interesse, de controle parental), e dessa forma desviadas para uma lixeira ou pasta de correspondência sem interesse, pelo menos uma parte dos dados de procedência e/ou destinação pode ser extraída e desofuscada para uso em conexão com um sistema de aprendizagem de máquina ou com o preenchimento de uma lista de características.
[0039] O componente 120 de recebimento de mensagem pode passar as mensagens que chegam, ou um subconjunto das mesmas, para um componente 130 de extração de características. O componente 130 de extração de características pode extrair os dados a partir das mensagens 110 respectivas para gerar conjuntos de características para facilitar treinamento de filtro e finalmente detecção de spam. Os dados ou características extraídas a partir das mensagens são relacionados à informação de procedência e/ou destinação encontrada e/ou embutida nas mesmas. Exemplos de dados ou características incluem um endereço IP recebido-de, um endereço de correio eletrônico responder-para, um endereço de correio eletrônico cc: (por exemplo, cópia de cortesia), URLs de diversos tipos (incluindo vínculos baseados em texto, vínculos baseados em imagem, e URLs ou partes dos mesmos na forma de texto), um número telefônico de tarifa não gratuita (por exemplo, particularmente um código de área), número telefônico de tarifa gratuita, um vínculo de endereço de correio eletrônico de enviar correspondência-para:, um endereço de correio eletrônico na forma de texto, um FQDN em um comando HELO SMTP, um endereço de caminho de retorno/endereço CORRESPONDÊNCIA-DE SMTP, e/ou pelo menos uma parte de qualquer um dos mencionados acima.
[0040] O componente 130 de extração de característica pode realizar qualquer número adequado de processos para extrair vários conjuntos de características a partir da mensagem 110 para uso subse-qüente em sistemas de aprendizagem de máquina. Além disso, ou alternativamente, os conjuntos de características podem ser usados para encher listas para outras técnicas de treinamento de filtro.
[0041] FQDNs tal como a.x.com, por exemplo, podem ser convertidos em números geralmente referidos como um endereço IP. O endereço IP é tipicamente observado em um formato decimal de pontos compreendendo quatro blocos de números. Cada bloco é separado por um ponto ou por um ponto decimal e cada bloco de números pode variar de 0 a 255, em que cada variação de números corresponde a um nome diferente da Internet. Por exemplo, a.x.com poderia ser convertido em 123.124.125.126 ao passo que 121.124.125.126 poderia representar qrstuv.com. Devido ao fato dos números não serem facilmente reconhecíveis ou memorizáveis como palavras, os endereços IP são normalmente referidos por seus FQDNs respectivos. O mesmo endereço IP no formato decimal de pontos também pode ser expresso em formatos alternativos que serão discutidas abaixo.
[0042] De acordo com um aspecto da presente invenção, o componente 130 de extração de características pode se concentrar no en-dereço(s) IP recebido-de incluído na mensagem 110. O endereço IP recebido-de se baseia pelo menos em parte na informação IP recebi-do-de. Geralmente, correspondência enviada através da Internet é transportada de servidor para servidor envolvendo, de vez em quando, tão poucos quanto dois servidores (por exemplo, um remetente e um destinatário). Em ocorrências ainda mais raras, um cliente pode enviar diretamente para um servidor. Em alguns casos, um número muito maior de servidores pode estar envolvido de tal modo que correspondência, ou mensagens, é enviada a partir de um servidor para um outro devido à presença de barreiras de proteção, por exemplo. Especificamente, alguns servidores podem estar localizados no lado interno de uma barreira de proteção, e dessa forma podem se comunicar apenas com os servidores designados no outro lado da barreira de proteção. Isso causa um aumento no número de hops que a mensagem realiza para ir do remetente até o destinatário. As linhas recebido-de compreendendo os endereços IP facilitam rastrear o caminho da mensagem para se certificar da procedência da mensagem.
[0043] À medida que a mensagem 110 se desloca de servidor para servidor, cada servidor que é contatado acrescenta a identidade do endereço IP do qual ele recebeu a mensagem a um campo recebido- de (isto é, campo “Recebido”) da mensagem, bem como o nome do suposto FQDN do servidor com o qual ele está se comunicando. Esse FQDN é comunicado ao servidor recebedor pelo servidor remetente, através do comando HELO do protocolo SMTP, e dessa forma não deve merecer confiança se o servidor que envia estiver fora da organização. Por exemplo, a mensagem pode ter cinco linhas de recebido-de com cinco endereços IP e FQDNs acrescentados, dessa forma indicando que a mesma passou através de seis servidores diferentes (isto é, passou 5 vezes), com as linhas na ordem inversa na qual elas foram acrescentadas (isto é, a última em primeiro lugar). Contudo, cada servidor tem a capacidade de modificar quaisquer linhas inferiores (anexadas anteriormente). Isso pode ser particularmente problemático especialmente quando a mensagem tiver se deslocado entre múltiplos servidores. Devido ao fato de cada servidor intermediário ser capaz de alterar quaisquer linhas de recebido-de anteriormente escritas (inferiores), os inundadores podem anexar endereços IP falsos às linhas re-cebido-de da mensagem para disfarçar a informação IP recebido-de ou remetente da mensagem de spam. Por exemplo, uma mensagem de spam pode aparecer inicialmente como se ela tivesse sido enviada de trusteddomain.com, dessa forma deturpando a fonte verdadeira da mensagem para o recebedor.
[0044] É importante para o software de spam identificar prontamente um endereço IP fora da organização que enviou para um servidor dentro da organização. Uma vez que esse endereço IP é escrito pelo servidor que recebe, dentro da organização, pode-se confiar que o mesmo é o endereço IP correto. Todos os outros endereços IP fora da organização não podem ser considerados de confiança, uma vez que eles foram escritos por servidores fora da organização, e dessa forma, possivelmente modificados. Pode haver muitos endereços IP dos servidores remetentes envolvidos no caminho para a organização recebedora, porém como apenas um pode ser de confiança, nos referimos a esse digno de confiança como o endereço IP do “remetente”.
[0045] Uma forma do software de filtragem de spam descobrir o endereço IP do remetente é saber as configurações do servidor de correspondência em uma organização. Em geral, se se sabe quais máquinas passam para quais outras máquinas, em quais situações, pode se determinar o endereço IP do remetente. Contudo, pode não ser conveniente descrever a configuração do servidor, especial mente para software de filtragem de spam instalado em clientes de correio eletrônico. Uma abordagem alternativa envolve utilizar registros MX para determinar a fonte verdadeira de uma mensagem. Registros MX relacionam, para cada nome de domínio, os FQDNs de destinatários de correio eletrônico para aquele domínio. Pode-se rastrear de volta através da lista de recebí d o-de até que um endereço IP seja encontrado que corresponda a um FQDN correspondendo a uma entrada no registro MX do domínio. O endereço IP recebido por essa máquina é o endereço IP do remetente. Imagine que 1.2.3.101 é o único registro MX para x.com. Então se descobrindo a linha que recebeu de 1.2.3.101, pode-se saber a próxima linha que corresponde ao servidor de correio que chega do x.com, e dessa forma que o endereço IP naquela linha corresponde ao endereço IP que enviou para x.com.
[0046] A tabela abaixo ilustra uma análise exemplar, como discutido acima, de determinar a fonte verdadeira de uma mensagem: Linha Comentário Recebido: de a.x.com Interno ao x.com {[1.2.3.100]} por b.x.com Terça-feira, 22 de abril de 2003; 13:11:46-0700 Recebido: de mailserver x.com 1.2.3.101 é um registro MX para {[1.2.3.103]} por b.x.com Terça- x.com de modo que sabemos que feira, 22 de abril de 2003; a próxima linha é a primeira inter-12:30:46-0700 naaox.com Recebido: de outside.com Isso é onde x.com recebeu a {[4.5.6.7]} por mensagem; essa é a última linha mailserver.x.com Terça-feira, 22 de confiança. Usar 4.5.6.7 como de abril de 2003; 11:11:48-0700 endereço IP do remetente Recebido: de trustedsender.com Essa linha pode ser falsa, constru-{[8.9.10.11]} por outside.com ida pelo servidor em 4.5.6.7 Terça-feira, 22 de abril de 2003: 10:11:48-0700 [0047] Atualmente, nâo existe padrão aceito para relacionar servidores de correspondência de saída, e essa heurística pode falhar se, por exemplo, endereços IP internos de uma organização forem diferentes daqueles externos a uma organização, ou se uma organização envia correspondência a partir de uma máquina relacionada em um registro MX indireta mente para uma outra máquina relacionada em um registro MX. Além disso, no caso especial onde o IP do remetente como encontrado acima é descoberto como sendo interno da organização, como poder ia acontecer se uma máquina no registro MX tivesse enviado para uma outra, no registro MX, o processo é continuado como acima. Além disso, certos endereços IP podem ser detectados como internos (porque eles são da forma 10-x.y.z ou 172.16.y.z até 172.31.y.z ou 192.168.0.z até 192.168.255.z, uma forma usada apenas para endereços IP internos); qualquer endereço interno de uma organização pode ser digno de confiança. Final mente, se uma linha recebido-de é da forma "recebido de a.x.com[1.2.3.100] e uma consulta de endereço IP de a.x.com produzir 1.2.3.100 ou uma consulta de endereço IP inversa de 1.2.3.100 produzir a.x.com e se x.com for a organização, então a próxima linha também pode ser digna de confiança.
[0048] Utilizando essas observações, freqüentemente é possível achar o endereço IP do remetente. Pseudocódigo exemplar é como a seguir: bool fFoundHostlnMX; if (externai IP address of MX records matches internai IP address of MX records) t fFoundHostΙηΜΧ = FALSE; # it's worth looking for } else { fFoundHostlnMX = TRUE; # it's not worth looking for, pretend we already found it } for each received from line of the form Received from a.b.c [i·j-k.l] { if i.j.k.l in MX records of receiver domain { fFoundHostlnMX = TRUE; continue; } if not fFoundHostInMX { # Has not yet gone through an MX record, must be internai continue; } if i.j.k.l is of form 10.x.y.z or 172.16.y.z to 172.31.y.z or 192.168.0.Z to 192.168.255.z { # Must be internai continue; } if DNS lookup of a.b.c yields i.j.k.l and b.c is receiver domain ' { # Must be internai continue; } Output sender's alleged FQDN a.b.c and sender's actual IP address i . j . k . k } If we reach here, then Error: unable to identify sender's alleged FQDN and sender's actual IP address [0049] Muitas coisas podem ser feitas com o endereço IP do remetente, bem como com outras características de procedência e destina-ção. Primeiramente, elas podem ser adicionadas a uma lista de remetentes, uniformemente ruins, às vezes conhecida como Lista Negra. As Listas Negras podem ser empregadas subseqüentemente para filtrar, bloquear, ou redirecionar mensagens que não são dignas de confiança para uma pasta ou local apropriado onde elas podem ser investigadas adicionalmente.
[0050] Outros tipos de listas também podem ser gerados e implementados como filtros em arquiteturas baseadas em servidor assim como em arquiteturas baseadas em cliente. Na arquitetura de cliente, um usuário pode informar o software de correio eletrônico do cliente de quem ele estará recebendo correspondência (por exemplo, listas de correspondência, indivíduos, etc.). Uma lista de registros correspondendo a endereços de correio eletrônico, dignos de confiança, pode ser gerada quer seja manual ou automaticamente pelo usuário. Consequentemente, imagine que um remetente tendo um endereço de correio eletrônico b@zyx.com envia ao usuário uma mensagem de correio eletrônico. O endereço de correio eletrônico do usuário b@zyx.com compreende um nome de usuário, “b”, e um FQDN/IP “zyx.com”. Quando o cliente recebe a mensagem 110 que chega a partir do remetente (b@zyx.com), ele pode pesquisar uma lista de remetentes de confiança no sentido do endereço de correio eletrônico do usuário para determinar se o usuário indicou que “b@zyx.com” é um endereço válido e de confiança. Para arquiteturas de servidor, as listas podem estar localizadas diretamente no servidor. Portanto, à medida que as mensagens chegam no servidor de mensagem, suas características respectivas (por exemplo, endereço IP do remetente, nome(s) de domínio em campos CORRESPONDÊNCIA DE ou HELO, e outra informação de procedência e/ou destinação) podem ser comparadas com as listas localizadas no servidor de mensagens. Mensagens que são determinadas como provenientes de remetentes válidos podem ser distribuídas para os destinatários pretendidos de acordo com protocolos de distribuição baseados em cliente ou protocolos de distribuição baseados em servidor. Contudo, mensagens determinadas como incluindo características de procedência ou destino em listas de características questionáveis ou ruins podem ser movidas para uma pasta de correspondência sem interesse ou de spam para serem descartadas, ou de outra forma tratadas especialmente.
[0051] Como uma alternativa ao enchimento de listas de características de procedência ruim ou de confiança, as características de procedência do remetente (por exemplo, endereço IP, suposto endereço DE) podem ser extraídas como uma ou mais características e posteriormente usadas em conexão com técnicas de aprendizagem de máquina para elaboração e/ou treinamento de filtro.
[0052] O endereço IP pode ser derivado de um endereço de correio eletrônico (por exemplo, consulta de IP no FQDN no endereço do remetente ou endereço responder-para) em qualquer parte de um cabeçalho de mensagem ou a partir de uma consulta de endereço IP da parte de nome de domínio de um vínculo URL embutido em um corpo da mensagem, ou diretamente a partir de um endereço IP se a mesma ocorrer como a parte IP/FQDN de um URL. Além disso, como será descrito posteriormente, o endereço IP tem vários atributos, cada um dos quais pode ser utilizado como uma característica de um sistema de aprendizagem de máquina ou como um elemento em uma lista preenchida pelo usuário. Dessa forma, em uma segunda abordagem, o componente 130 de extração de característica pode explorar as muitas subpartes do endereço(s) IP para gerar características adicionais.
[0053] Qualquer combinação de características como descrito acima pode ser extraída de cada mensagem 110 que chega. Mensagens podem ser selecionadas de forma aleatória, automaticamente, e/ou manualmente para participar em extração de característica, embora tipicamente todas as mensagens possam ser usadas. Os conjuntos extraídos de características são subseqüentemente aplicados a um componente 140 de treinamento de filtro tais como sistemas de aprendizagem de máquina ou qualquer outro sistema que elabora e/ou treina filtros 150 tais como filtros de spam.
[0054] Com referência agora à Figura 2, é ilustrado um sistema 200 de extração de característica que facilita a ação de desofuscar ou normalizar uma ou mais características de uma mensagem 210 que chega de acordo com um aspecto da presente invenção. Finalmente, um filtro(s) pode ser elaborado com base pelo menos em parte em uma ou mais das características normalizadas. O sistema 200 compreende um componente 220, extrator de característica que recebe uma mensagem 210 que chega quer seja diretamente como mostrado ou indiretamente por intermédio de um recebedor de mensagem (Figura 1), por exemplo, mensagens que chegam selecionadas para, ou participando em extração de característica podem ser submetidas ao sistema 200, de acordo com preferências de usuário. Alternativamente, substancialmente todas as mensagens que chegam podem estar disponíveis para e participar na extração de característica.
[0055] Extração de característica envolve extrair uma ou mais características 230 (também referidas como Característicai 232, Caracte-rística2 234, e características 236, onde M é um número inteiro maior do que ou igual a 1) associadas à informação de procedência e/ou destinação a partir da mensagem 210. Informação de procedência pode se relacionar a elementos indicando o remetente da mensagem bem como nomes de domínio de servidor e informação de identificação correlata que especifica de onde veio a mensagem. Informação de destinação pode se relacionar a elementos de uma mensagem indicando para quem ou para onde o recebedor pode enviar sua resposta à mensagem. Informação de procedência e destinação pode ser encontrada em um cabeçalho da mensagem bem como no corpo da mensagem quer seja de forma visível ou invisível (por exemplo, embutida como texto ou em imagem) para o recebedor da mensagem.
[0056] Devido ao fato dos inundadores tenderem a disfarçar e/ou ofuscar sua identidade, freqüentemente, para evitar detecção pelos filtros convencionais de spam, o sistema 200 compreende um componente 240 normalizador de característica que facilita ação de desofus-car uma ou mais características extraídas 230, ou pelo menos partes das mesmas. O componente 240 normalizador de característica pode processar e/ou decompor as características extraídas 230 tal como mediante análise das características extraídas 230 (por exemplo, o FQDN - consultando um diretório de blocos e registros MX e/ou convertendo o FQDN de acordo com seu formato atual) e então comparando as mesmas com um banco(s) de dados de listas existentes de inundadores, listas de não-inundadores, e/ou listas de controle paren-tal, por exemplo. Em alguns casos, como discutido infra na Figura 4, tal como quando a característica extraída é um URL, prefixos e/ou sufixos também podem ser removidos para facilitar a normalização da característica e identificação de se o URL aponta para um sítio da rede do inundador ou para uma fonte legítima.
[0057] Quando as características são normalizadas, pelo menos um subconjunto das mesmas 250 pode então ser empregado median- te um sistema 260 de treinamento tal como um sistema de aprendizagem de máquina, para elaborar e/ou atualizar um filtro(s) 270. O filtrais) pode ser treinado para uso como um filtro de spam e/ou um filtro de correspondência sem interesse, por exemplo. Além disso, o filtro(s) pode ser elaborado e/ou treinado com características positivas tais como aquelas que indicam uma fonte de não-spam (por exemplo, endereço de correspondência DE do remetente, endereço IP do remetente, números telefônicos embutidos, e/ou URL) e/ou um remetente de não-spam bem como com características negativas tais como aquelas que identificam e são associadas a um inundador.
[0058] Alternativamente ou adicionalmente, o conjunto de características pode ser utilizado para preencher uma nova lista ou para adição a uma lista 280 de características de spam existente. Outras listas também podem ser geradas para corresponder às características extraídas específicas tal como uma lista de endereços bons, uma lista de endereços ruins, uma lista de URLs bons, uma lista de URLs ruins, uma lista de números telefônicos bons, e uma lista de números telefônicos ruins. Listas de características boas podem identificar não-inundadores, historicamente remetentes legítimos, e/ou remetentes tendo uma probabilidade maior de não serem de spam (por exemplo, 90% de não ser uma chance de não ser uma fonte de spam). Inversamente, listas de características ruins podem corresponder a inundado-res, potenciais inundadores, e/ou remetentes com uma probabilidade relativamente superior de serem de spam (por exemplo, 90% de probabilidade de ser fonte de spam).
[0059] Com referência agora às Figuras 3-6 são ilustradas características exemplares que podem ser derivadas e extraídas de um endereço IP, de um FQDN, de um endereço de correio eletrônico e de um URL, respectivamente, para facilitar detecção e prevenção de spam de acordo com vários aspectos da presente invenção.
[0060] A Figura 3 ilustra uma decomposição exemplar de um endereço IP 300 de acordo com um aspecto da presente invenção. Um endereço IP 300 tem 32 bits de comprimento e é alocado em blocos (por exemplo blocos da internet) quando expressos no formato decimal de pontos (por exemplo, 4 blocos de até 3 dígitos cada um, em que cada bloco é separado por períodos e em que cada bloco de 3 dígitos é qualquer número divisível entre 0 e 255). Os blocos são atribuídos a classes tais como Classe A, Classe B, e Classe C. Cada bloco compreende um número determinado de endereços IP em que o número de endereços IP por bloco varia de acordo com a classe. Isto é, dependendo da classe (isto é, A, B ou C), pode haver mais ou menos endereços atribuídos por bloco. O tamanho do bloco é normalmente uma potência de dois, e um conjunto de endereços IP no mesmo bloco compartilhará os primeiros k dígitos binários e diferem nos últimos 32-k (por exemplo 32-k) dígitos binários. Dessa forma, cada bloco pode ser identificado (ID de bloco 302) de acordo com seus primeiros k bits compartilhados. Para determinar o ID de bloco 302 associado ao endereço IP 300 específico, um usuário pode consultar um diretório de blocos tal como arin.net. Além disso, o ID de bloco 302 pode ser extraído e empregado como uma característica.
[0061] Em algumas circunstâncias, contudo, o ID de bloco 302 não pode ser prontamente determinado mesmo mediante referência a arin.net porque grupos de endereços IP dentro de um bloco podem ser vendidos, divididos e revendidos qualquer número em determinado de vezes. Em tais casos, um usuário ou sistema de extração pode fazer uma ou mais suposições nos IDs de bloco 302 para os endereços IP respectivos. Por exemplo, o usuário pode extrair pelo menos um primeiro 1 bit 304, pelo menos os primeiros 2 bits 306, pelo menos os primeiros 3 bits 308, pelo menos os primeiros M bits 310 (isto é, M é um número inteiro maior do que ou igual a 1) e/ou até pelo menos os primeiros 31 bits 312 como características separadas para utilização subseqüente por um sistema de aprendizagem de máquina e/ou como elementos em uma lista(s) de características (por exemplo, listas de características boas, listas de características de spam, etc.).
[0062] Na prática, por exemplo, o primeiro 1 bit de um endereço IP pode ser extraído e empregado como uma característica para determinar se o endereço IP aponta para um inundador ou não-inundador. O primeiro 1 bit a partir de outros endereços IP extraídos a partir de outras mensagens pode ser comparado para facilitar a determinação de pelo menos um ID de bloco. Identificar pelo menos um ID de bloco pode então auxiliar a discernir se a mensagem é proveniente de um inundador. Além disso, endereços IP que compartilham os primeiros M bits podem ser comparados com relação a suas outras características extraídas para se certificar se os endereços IP são provenientes de remetentes legítimos e/ou se as mensagens respectivas são inundações.
[0063] Endereços IP também podem ser arranjados hierarquicamente (314). Isto é, um conjunto de bits de ordem superior pode ser alocado a um país específico. Esse país pode alocar um subconjunto para um ISP (Provedor de Serviço da Internet), e esse ISP pode então alocar um subconjunto para uma companhia específica. Consequentemente, vários níveis podem ser significativos para o mesmo endereço IP. Por exemplo, o fato de que um endereço IP é proveniente de um bloco alocado para a Coréia poderia ser útil na determinação se o endereço IP é associado a um inundador. Se o endereço IP é parte de um bloco alocado para um ISP com uma política rigorosa contra inun-dadores, isso também poderia ser útil na determinação de se o endereço IP não está associado a um inundador. Portanto, mediante emprego de cada um dos primeiros 1-31 bits de um endereço IP em combinação com o arranjo hierárquico 314 de pelo menos um subconjunto de endereços IP, um usuário pode aprender automaticamente informação em níveis diferentes sem na realidade saber a forma na qual um endereço IP foi alocado (por exemplo, sem saber os IDs de bloco).
[0064] Além das características discutidas acima, uma raridade 316 da característica (por exemplo, ocorrência de característica não é comum o suficiente) pode ser determinada mediante realização de cálculos adequados e/ou emprego de dados estatísticos comparando a freqüência ou contagem na qual a característica aparece em uma amostragem de mensagens que chegam, por exemplo. Na prática, um endereço IP 300 incomum pode ser um exemplo de uma linha de discagem sendo usada para distribuir correio eletrônico, que é uma tática freqüentemente usada pelos inundadores. Os inundadores tendem a modificar sua identidade e/ou local freqüentemente. Dessa forma, o fato de que uma caracterizada pelo fato de que é comum ou incomum pode ser informação útil. Portanto, uma raridade 316 da característica pode ser usada como uma característica do sistema de aprendizagem de máquina e/ou como uma parte de pelo menos uma lista (por exemplo, listas de características raras).
[0065] A Figura 4 demonstra uma decomposição exemplar de características de um FQDN 400, tal como por exemplo, b.x.com. O FQDN 400 pode ser extraído de um campo HELO, por exemplo (por exemplo FQDN suposto do remetente) e compreender tipicamente um nome 402 de host e um nome 404 de domínio. O nome 402 de host se refere a um computador específico, o qual é “b” de acordo com o exemplo. O nome 404 de domínio se refere ao nome de pelo menos uma máquina ou um grupo de máquinas na Internet. No presente exemplo, “x.com” representa o nome de domínio 404. Uma decomposição hierárquica do FQDN 400 é representada por 406. Especificamente, B.X.COM 408 (FQDN 400 completo) pode ser parcialmente reduzido para X.COM 410 (FQDN parcial), o qual pode ser então re- duzido para COM 412 (FQDN parcial), pelo que cada FQDN parcial pode ser empregado como uma característica.
[0066] Algumas características, tais como informação recebida-de, existe principalmente como endereços IP. Dessa forma, pode ser útil converter o FQDN 400 em um endereço IP 300 que pode ser decomposto em características adicionais (como mostrado na Figura 3) porque é relativamente fácil criar novos nomes de host e nomes de domínio, porém relativamente difícil obter novos endereços IP.
[0067] Infelizmente, proprietários de um domínio podem fazer com que máquinas aparentemente diferentes mapeiem todas para o mesmo local. Por exemplo, o proprietário de uma máquina denominada “a.x.com” poderia ser o mesmo proprietário de “b.x.com” que poderia ser o mesmo proprietário de “x.com”. Dessa forma, o inundador poderia facilmente enganar um filtro convencional para acreditar que a mensagem é do FQDN 400 “b.x.com” em vez de a partir do domínio 404 “x.com”, dessa forma permitindo que a mensagem passe pelo filtro de spam quando na realidade, o domínio 404 “x.com” teria indicado que a mensagem era spam ou mais provavelmente seria uma spam. Portanto, pode ser útil reduzir o endereço para simplesmente o nome de domínio 404 ao se extrair a informação de procedência e/ou desti-nação da mensagem. Alternativamente, ou em adição, o FQDN 400 integral pode ser extraído como uma característica.
[0068] Em alguns casos, recursos adicionais estão disponíveis, tais como sistemas de controle parental. Esses recursos freqüente-mente podem atribuir uma avaliação qualitativa ou “tipo”, tal como pornográfico ou violento, aos nomes de host e/ou aos URLs. As características extraídas podem ser classificadas adicionalmente por tipo, utilizando um tal recurso. O tipo 414 de característica, da característica, pode então ser usado como uma característica adicional em conexão com a elaboração e/ou treinamento de filtros aperfeiçoados relaciona- dos à spam. Alternativamente, podem ser geradas listas correspondendo a tipos diferentes de característica que foram previamente identificados. Os tipos 414 de característica podem incluir, porém não são limitados a: características relacionadas a matéria pornográfica ou sexo; características relacionadas a discurso racial e/ou radical; características de aperfeiçoamento físico; características de soluções financeiras ou de renda; características de compras a partir da residência, etc., que identificam o tema geral das mensagens.
[0069] Finalmente, a raridade de uma característica 316 ou de um tipo de característica (vide Figura 3 acima) pode ser uma outra característica como discutido acima na Figura 3. Por exemplo, uma característica extraída de uma mensagem tal como o nome de host “B” 402 a partir do FQDN 400 “b.x.com” pode ser um exemplo comum do tipo de característica: material pornográfico. Portanto, quando essa característica é extraída da mensagem e então encontrada em uma lista de características de material pornográfico, pode ser concluído que a mensagem mais provavelmente é uma spam, ou é inadequa-da/inapropriada para todas as idades, ou constitui conteúdo para adultos (por exemplo, classificação para adultos), e semelhante. Dessa forma, cada lista pode compreender as características mais comuns daquele tipo específico. Alternativamente, o endereço IP correspondente pode ser encontrado comumente em mensagens de spam em geral e, dessa forma, designado como uma característica comum de spam. Além disso, uma raridade e/ou aspecto comum da característica pode ser empregado como uma característica separada para aprendizagem de máquina ou outros sistemas baseados em regra.
[0070] A Figura 5 demonstra uma decomposição exemplar de característica de um endereço 500 de correio eletrônico: a@b.x.com. que inclui um FQDN 400 bem como umas poucas características adicionais, tal como um nome 502 de usuário. O endereço 500 de correio eletrônico pode ser extraído do campo DE, do campo cc: (cópia de cortesia), e do campo responder-para, de uma mensagem, bem como a partir de qualquer um dentre vínculos enviar correspondência para: no corpo da mensagem (por exemplo, vínculos de enviar correspondência para: são um tipo especial de vínculo que quando clicado, gera correspondência para um endereço específico), e, se disponível, a partir do comando CORRESPONDÊNCIA PARA usado no protocolo SMTP. Endereços 500 de correio eletrônico também podem ser embutidos como texto no corpo da mensagem. Em alguns casos, o conteúdo da mensagem pode orientar um recebedor para utilizar a função “responder para todos” ao responder à mensagem. Em tais casos, os endereços no campo cc e/ou pelo menos uma parte desses incluídos no campo “para” (se mais do que um destinatário for relacionado) também teriam resposta. Dessa forma, cada um desses endereços podería ser extraído como uma ou mais características para facilitar identificação e prevenção de inundador.
[0071] O endereço 500 de correio eletrônico “a.@b.x.com” pode ser decomposto em vários elementos ou subpartes e esses elementos também podem ser extraídos e empregados como características. Especificamente, o endereço de correio eletrônico compreende um nome 502 de usuário e um FQDN 504 (por exemplo, vide FQDN 400 na Figura 4) o qual pode ser decomposto ainda mais em características adicionais. Por várias razões práticas, tal como facilidade de uso, reconhecimento e lembrança, os endereços de correio eletrônico são normalmente assinalados utilizando FQDNs mais propriamente do que endereços IP.
[0072] No presente exemplo, “a@b.x.com” compreende o nome 502 de usuário “a”. Dessa forma, “a” pode ser extraído como uma característica. De forma semelhante, o FQDN 504 “b.x.com” pode ser extraído a partir do endereço de correio eletrônico como pelo menos uma outra característica. A parte FQDN 504 do endereço 500 de correio eletrônico pode ser passada através de um filtro de controle parental para facilitar determinação do tipo 414 de característica, que é descrito em mais detalhe, acima, na Figura 4. Portanto, o tipo de característica como relacionado à parte FQDN do endereço 500 de correio eletrônico pode ser usado como uma característica adicional.
[0073] Além de endereços de correio eletrônico, os inundadores freqüentemente são contatados através de URLs. A Figura 6 ilustra um URL 600 exemplar (por exemplo, x.y.com/a/b/c) junto com uma pluralidade de características extraídas a partir do mesmo de acordo com um aspecto da presente invenção. O URL 600 pode ser embutido como texto no corpo da mensagem e/ou como uma imagem no corpo da mensagem. Por exemplo, mensagens de spam podem incluir indicadores para sítios da rede, dessa forma dirigindo um recebedor para a página da rede do inundador ou sítio correlato.
[0074] URLs podem ser desofuscados de uma maneira similar com relação aos endereços IP. Inicialmente, qualquer prefixo (por exemplo, nome de serviço) tal como http://, https://, ftp://, telnet://, por exemplo, pode ser removido antes de desofuscar o URL 600. Além disso, se um símbolo (por exemplo %4G em notação hexadecimal) aparecer no meio do URL, qualquer coisa entre o prefixo (por exemplo, http://) e o símbolo pode ser removida antes de normalizar o URL 400. Incorporar texto entre o prefixo e o símbolo pode ser uma outra tática ou forma de truque utilizado por inundadores para confundir o recebedor da mensagem em relação ao verdadeiro local da página para o qual o recebedor está sendo dirigido.
[0075] Por exemplo, http://www.amazon.com@121.122.123.124 /info.htm aparece para o recebedor da mensagem como se essa página estivesse localizada em www.amazon.com. Dessa forma, o recebedor pode estar mais inclinado a confiar no vínculo e mais importan- te, no remetente da mensagem. Ao contrário, o local verdadeiro da página está em “121.122.123.124” que pode na realidade corresponder a uma página da rede relacionada à spam. Em alguns casos, contudo, remetentes legítimos podem incorporar informação de autenticação tal como um nome de conexão e senha nessa parte do URL 400 para facilitar uma conexão automática.
[0076] Quando normalizado e desofuscado, o URL 600 pode ser essencialmente expresso como x.y.com/a/b/c, onde x.y.com 630 é o nome da máquina (FQDN) e a/b/c (por exemplo, sufixo(s)) é o local de um arquivo naquela máquina. Se x.y.com/a/b/c 600 identifica um inun-dador(es), então x.y.com/a/b 610 e x.y.com/a 620 mais provavelmente identificam também o mesmo inundador ou um inundador(es) correlato. Dessa forma, a parte de extremidade ou caminho do URL 600 pode ser reduzido uma parte de cada vez, por exemplo, para se obter características adicionais para um sistema de aprendizagem de máquina ou lista. Isso torna mais difícil para os inundadores criar muitos locais diferentes que na realidade conduzam todos aos mesmos de tal forma que um padrão não seja percebido.
[0077] Quando os sufixos tiverem sido reduzidos, o FQDN 630 pode ser analisado adicionalmente para se obter características adicionais como discutido previamente acima na Figura 4. Além disso, o FQDN 630 também pode ser convertido em um endereço IP como demonstrado na Figura 3 acima. Consequentemente, várias características relacionadas ao endereço IP também podem ser usadas como características.
[0078] Alguns URLs são escritos com um endereço IP em vez de um FQDN (por exemplo, formato decimal de pontos) tal como nnn.nnn.nnn.nnn/a/b/c. Os sufixos podem ser removidos em ordem sucessiva começando com o “c” e em cada estágio, o URL resultante (parcial) pode ser usado como uma característica (por exemplo, nnn.nnn.nnn.nnn/a/b:nnn.nnn.nnn.nnn/a; e nnn.nnn.nnn.nnn são todas características possíveis a serem extraídas a partir do URL no formato decimal de pontos). A seguir, o endereço IP (por exemplo livre de sufixos e prefixos) pode ser usado como uma característica. O mesmo pode, então, ser mapeado para seu bloco da Internet. Se o bloco da internet não for de confiança, então múltiplas suposições podem ser feitas utilizando cada um dos primeiros 1.2... e até os primeiros 31 bits do endereço IP como características separadas (vide Figura 3).
[0079] Além do formato decimal de pontos, o endereço IP pode ser expresso em formato de palavra dupla (por exemplo, duas palavras binárias de 16 bits cada na base 10), no formato octal (por exemplo, base 8) e no formato hexadecimal (por exemplo base 16). Na prática, os inundadores podem ofuscar um endereço IP, um URL, um vínculo CORRESPONDÊNCIA PARA, e/ou um FQDN mediante, por exemplo, codificação da parte de nome de domínio utilizando notação %nn (onde nn é um par de dígitos hexadecimais).
[0080] Alguns URLs podem incluir meios de redirecionamento que podem ser empregados para confundir ou enganar o usuário. Um meio de redirecionamento é um parâmetro ou conjunto de parâmetros após um “?” no endereço IP do URL que instrui um navegador a se redirecionar para uma outra página da rede. Por exemplo, o URL pode aparecer como www.intendedpage.com7www.actualpage.com, em que o navegador na realidade aponta para “www.actualpage.com” e carrega aquela página em vez da página antecipada “www.intendedpage.com”. Portanto, parâmetros contidos dentro de um URL também podem ser considerados para extração como características.
[0081] Várias metodologias de acordo com a presente invenção serão descritas agora através de uma série de ações. Deve ser entendido e considerado que a presente invenção não é limitada pela ordem de ações, uma vez que algumas ações podem, de acordo com a pre- sente invenção, ocorrer em ordens diferentes e/ou simultaneamente com outras ações a partir daquelas mostradas e descritas aqui. Por exemplo, aqueles versados na técnica entenderão e considerarão que uma metodologia poderia alternativamente ser representada como uma série de estados ou eventos inter-relacionados, tal como em um diagrama de estado. Além disso, nem todas as ações ilustradas podem ser exigidas para implementar uma metodologia de acordo com a presente invenção.
[0082] Com referência à Figura 7, é ilustrado um fluxograma de um processo 700, exemplar, que facilita o treinamento de um filtro de acordo com um aspecto da presente invenção. O processo 700 pode começar com o recebimento de uma mensagem (por exemplo, pelo menos uma mensagem) em 710. A mensagem(ns) pode ser recebida por um servidor, por exemplo, onde um filtro existente (por exemplo, um filtro de spam) pode classificar aquela mensagem como provavelmente spam ou como não provavelmente uma spam com base pelo menos em parte em um conjunto de critérios previamente aprendidos pelo filtro. A mensagem pode ser analisada para se extrair uma ou mais características a partir da mesma em 720. A extração de características é descrita em detalhe adicional em 725 (infra na Figura 11). Exemplos de características incluem informação (por exemplo, endereço IP do remetente) localizada em um campo recebido-de, campo responder-para, campo cc, campo correspondência para, comando SMTP correspondência de, campo HELO, endereço URL embutido no texto ou como uma imagem, e/ou um número telefônico de tarifa não gratuita (por exemplo código de área para mapear geograficamente a região), bem como texto no corpo da mensagem.
[0083] As características extraídas (e/ou normalizadas), e a classificação da mensagem (por exemplo, spam ou não-spam), podem ser adicionadas a um conjunto de treinamento de dados em 730. Em 740, o mencionado acima (por exemplo, 710, 720 e 730) pode ser repetido para substancialmente todas as outras mensagens que chegam até que elas sejam processadas conformemente. Em 750, características que parecem ser úteis ou as características mais úteis podem ser selecionadas a partir do conjunto(s) de treinamento. Tais características selecionadas podem ser selecionadas para treinar um filtro, tal como um filtro de aprendizagem de máquina, por exemplo, por intermédio de um algoritmo de aprendizagem de máquina em 760.
[0084] Quando treinado, um filtro de aprendizagem de máquina pode ser utilizado para facilitar detecção de spam como descrito mediante uma metodologia exemplar 800 na Figura 8. A metodologia 800 começa com o recebimento de uma mensagem em 810. Em 820, uma ou mais características são extraídas a partir da mensagem como descrito infra com relação à Figura 11. Em 830, as características extraídas são passadas através de um filtro treinado por um sistema de aprendizagem de máquina, por exemplo. A seguir, um veredicto tal como “spam”, “não-spam”, ou uma probabilidade da mensagem ser spam é obtido a partir do sistema de aprendizagem de máquina. Quando o veredicto é obtido com relação ao conteúdo da mensagem, ação apropriada pode ser realizada. Tipos de ações incluem, porém, não são limitados a: deletar a mensagem; mover a mensagem para uma pasta especial; deixar a mensagem em quarentena; e permitir que o recebedor acesse a mensagem.
[0085] Alternativamente, atividades baseadas em lista podem ser realizadas com características extraídas das mensagens. Com referência à Figura 9, é ilustrado um fluxograma de um processo exemplar 900 para elaborar e preencher listas com base pelo menos em parte em características extraídas e sua ocorrência em mensagens recebidas classificadas quer seja como spam, ou não-spam (ou provavelmente, ou de modo improvável, como sendo spam). O processo 900 começa mediante recebimento de uma mensagem em 910. A seguir, alguma característica de interesse é extraída em 920 tal como o endereço IP do remetente da mensagem, por exemplo. Em algum momento após a mensagem ser recebida, a mensagem pode ser classificada como spam ou não-spam, por exemplo, mediante um filtro existente. Em 930, a característica pode ser contada de forma incrementai de acordo com a classificação da mensagem (por exemplo, spam ou não-spam). Isso pode ser repetido em 940 até que substancialmente todas as mensagens sejam processadas (por exemplo, em 910, 920, e 930). Posteriormente em 950, listas de características podem ser criadas. Por exemplo, uma lista pode ser criada para endereços IP de remetente os quais são 90% bons (por exemplo, 90% das vezes não são spam, ou não são spam, em 90% das mensagens que chegam). De forma semelhante, uma outra lista pode ser criada para endereços IP de remetente que são 90% ruins (spam). Outras listas para outras características podem ser criadas de forma semelhante.
[0086] Deve ser considerado que essas listas podem ser dinâmicas. Isto é, as mesmas podem ser atualizadas quando grupos adicionais de novas mensagens forem processados. Portanto, é possível que um endereço IP do remetente inicialmente seja encontrado em uma lista de bons; e então em algum momento posterior, ser encontrado em uma lista de ruins, uma vez que é comum para alguns inun-dadores inicialmente enviar correspondência boa (por exemplo, para obter a “confiança” dos filtros bem como dos destinatários) e então começar a enviar de forma substancial apenas spam.
[0087] Essas listas podem ser utilizadas de várias formas. Por exemplo, elas podem ser usadas para gerar conjuntos de treinamento para uso por um sistema de aprendizagem de máquina para treinar os filtros. Isso é ilustrado através de um processo exemplar 1000 descrito a seguir na Figura 10. De acordo com a Figura 10, o processo 1000 pode começar mediante recebimento de uma mensagem em 1010. A mensagem pode ser classificada, por exemplo, como spam ou não-spam. Em 1020, características incluindo, porém não limitadas a, endereço IP do remetente podem ser extraídas da mensagem. Em 1030, as características extraídas e a classificação da mensagem são adicionadas a um conjunto de treinamento que é subseqüentemente usado para treinar um sistema de aprendizagem de máquina.
[0088] A seguir, em 1040, uma característica especial correspondendo a uma lista específica no qual consta o endereço IP do remetente é incluída no conjunto de treinamento. Por exemplo, se o endereço IP do remetente estava na lista de “90% boas”, então a característica adicionada ao conjunto de treinamento estaria na lista de 90% boas. Em 1050, as etapas precedentes (por exemplo, 1010, 1020, 1030 e 1040) podem ser repetidas para processar substancialmente todas as mensagens que chegam. Uma vez que algumas características podem ser de mais utilidade, para fins de treinamento de filtro, do que outras, a característica, ou características, de mais utilidade é selecionada com base em parte nas preferências de usuário em 1060 e empregadas para treinar um filtro(s), tal como um filtro de spam, utilizando um algoritmo de aprendizagem de máquina.
[0089] Além disso, listas dinâmicas de endereços IP, por exemplo, podem ser construídas para comparação com mensagens de teste, novas mensagens, e/ou mensagens suspeitas. Contudo, os próprios endereços IP não são características nesse caso. Em vez disso, a qualidade do endereço IP é a característica. Alternativamente ou adicionalmente, as listas podem ser utilizadas em outras formas. Na prática, por exemplo, uma lista de endereços IP suspeitos pode ser usada para sinalizar um remetente como ruim, e conformemente, tratar suas mensagens com suspeição.
[0090] De acordo agora com a Figura 11, é ilustrado um fluxogra- ma de um método exemplar 1100 de extração de características a partir de uma mensagem em conjunto com os processos 700, 800, 900 e 1000 descritos acima nas Figuras 7-10, respectivamente. O método 1100 pode começar em que um endereço IP recebido-de, ou uma parte do mesmo, é extraído e normalizado em 1110. Também em 1110, o endereço IP pode ser submetido a processamento na forma de bits (por exemplo, primeiro 1 bit, primeiros 2 bits...até primeiros 31 bits -como discutido na Figura 3) para extrair características adicionais a partir do endereço IP recebido-de. Além disso, o suposto nome de host do remetente também pode ser extraído em 1110. O endereço IP re-cebido-de normalizado e as características de nome de host de remetente podem ser agora usados como características de um sistema de aprendizagem de máquina ou sistema de treinamento correlato.
[0091] Opcionalmente, em 1120, conteúdo da linha “De:” pode ser extraído e/ou normalizado e subseqüentemente empregado como características. Em 1130, conteúdo do comando - “CORRESPONDÊNCIA DE SMTP” - pode ser similarmente extraído e/ou normalizado para uso como características.
[0092] O método 1100 pode então prosseguir procurando outras características possíveis que podem ser incluídas na mensagem. Por exemplo, o mesmo pode opcionalmente extrair e normalizar (se necessário) conteúdo em um campo responder-para em 1140. Em 1150, conteúdo do campo cc: pode opcionalmente extraído e/ou normalizado para uso como pelo menos uma característica. Em 1160, números telefônicos de tarifa não-gratuita podem ser opcionalmente extraídos a partir do corpo da mensagem e também atribuídos como características. Números que não são telefônicos podem ser úteis para identificar inundadores porque o código de área e/ou primeiros três dígitos do número telefônico podem ser usados para mapear o local do inunda-dor. Se existir mais do que um número telefônico de tarifa não-gratuita na mensagem, cada número pode ser extraído e usado como características separadas em 1160.
[0093] De forma semelhante, um ou mais URLs e/ou vínculos CORRESPONDÊNCIA PARA, ou partes dos mesmos, podem opcionalmente ser extraídos e/ou normalizados, respectivamente em 1170 e 1180. Especificamente, o URL pode ser submetido à remoção de caminho (por exemplo parte do nome de arquivo do URL), em que um ou mais sufixos anexados à extremidade da parte FQDN do URL podem ser removidos. Isto pode resultar em um ou mais URLs parciais dependendo do número de sufixos no caminho. Cada URL parcial pode ser empregado como uma característica separada de acordo com a presente invenção.
[0094] O método 1100 pode continuar para explorar o corpo da mensagem procurando outros endereços de correio eletrônico bem como palavras de muita importância e/ou frases (por exemplo previamente selecionadas ou determinadas) que podem ser encontradas mais provavelmente em uma mensagem de spam do que em uma mensagem legítima e vice-versa. Cada palavra ou frase pode ser extraída e usada como uma característica quer seja para os sistemas de aprendizagem de máquina ou como um elemento de uma lista, ou ambos.
[0095] Como previamente discutido, mensagens enviadas através da Internet podem ser enviadas de servidor para servidor com um número tão pequeno quanto dois servidores envolvidos. O número de servidores que têm contato com a mensagem aumenta como um resultado da presença de barreiras de proteção e arquiteturas de rede correlatas. Quando a mensagem é passada de servidor para servidor, cada servidor acrescenta seu endereço IP ao campo recebido-de. Cada servidor também tem a capacidade de modificar quaisquer endereços recebido-de anexados anteriores. Inundadores, infelizmente, po- dem tirar proveito dessa habilidade e podem introduzir endereços falsos nos campos recebido-de para disfarçar sua localização e/ou identidade e para enganar o recebedor em relação à fonte da mensagem.
[0096] A Figura 12 ilustra um fluxograma de um processo exemplar 1200 para disfarçar entre endereços IP de servidor anexados legítimos e falsos na linha recebido-de de uma mensagem que chega. Os endereços recebido-de anexados podem ser examinados na ordem na qual eles são adicionados (por exemplo o primeiro é o mais recentemente adicionado). Dessa forma, um usuário pode monitorar de volta através da cadeia de endereços IP de servidor remetente para determinar um último endereço IP de servidor de confiança em 1210. Em 1220, o último endereço IP de servidor de confiança (aquele diretamente fora da organização) pode ser extraído como uma característica a ser usada por um sistema de aprendizagem de máquina. Qualquer outro endereço IP, após o último de confiança,pode ser considerado questionável, ou não-digno de confiança, e pode ser ignorado, porém, poderia ser comparado a listas de endereços IP (na maioria) bons e endereços IP (na maioria) ruins.
[0097] Em 1230, o suposto FQDN do remetente também pode ser extraído para facilitar a determinação de se o remetente é legítimo ou um inundador. Mais especificamente, o suposto FQDN pode ser decomposto mediante remoção de domínio para produzir mais do que um FQDN parcial. Por exemplo, imagine que o suposto FQDN é a.b.c.x.com. Esse suposto FQDN seria removido da seguinte maneira para produzir: b.c.x.com -> c.x.com -> x.com -> com. Dessa forma, cada segmento FQDN parcial, bem como o FQDN integral, podem se empregados como uma característica separada para auxiliar na determinação de remetentes falsos e legítimos.
[0098] A presente invenção também pode fazer uso de sistemas de controle parental. sistemas de controle parental podem classificar uma mensagem como inadequada para assistência com base pelo menos em parte em algum conteúdo da mensagem e prover uma razão para a classificação de inadequada. Por exemplo, um URL pode ser embutido em uma mensagem como um vínculo que pode ser cli-cado (quer seja baseado em texto ou imagem), ou como texto dentro do corpo da mensagem. O sistema de controle parental pode comparar o URL embutido com um ou mais de suas listas de URL bom e/ou ruim para determinar a classificação adequada da mensagem, ou usar outras técnicas para classificação de controle parental. A classificação pode então ser usada como uma característica adicional quer seja no sistema de aprendizagem de máquina ou em uma lista de características, ou ambos.
[0099] Na Figura 13, um fluxograma de um processo 1300 exemplar para incorporar pelo menos um aspecto de um sistema de controle parental na presente invenção, é demonstrado. Após receber um conjunto de mensagens em 1310, a mensagem pode ser explorada no sentido de URLs, vínculos de correspondência para, ou outro texto que lembre um vínculo de correspondência para, um URL, ou alguma parte de um URL em 1320. Se a mensagem aparentemente não contém quaisquer dos acima em 1330, então o processo 1300 retorna para 1310. Contudo, se a mensagem indicar tal, então pelo menos uma parte dos caracteres detectados pode ser passada para pelo menos um sistema de controle parental em 1340.
[00100] Em 1350, o sistema de controle parental pode classificar o vínculo correspondência para, URL, ou parte da mesma mediante consulta de um ou mais banco de dados de URLs, vínculos de correspondência para, nomes de serviço URL, caminhos URL, e FQDNs (por exemplo, tal como as partes FQDN de URLs, endereços de correio eletrônico, etc.). Por exemplo, a mensagem pode ser classificada como contendo pelo menos um dentre material pornográfico, livre-se de dívidas, jogo, e outro material similar. Tal classificação pode ser extraída como característica adicional em 1360. Uma vez que o tema da maioria de mensagens de spam inclui tal material a incorporação do sistema de controle parental pode ser útil para se obter características adicionais com as quais o sistema de aprendizagem de máquina pode usar para treinar e elaborar filtros aperfeiçoados. Também existem outras classificações incluindo, porém não limitadas a: discurso radical, material sexual, arma-violência, e material relacionado a drogas, em que tais classificações podem ser usadas também como características. Mensagens de spam podem ou não envolver tema relacionado a esses tipos de materiais, porém um usuário ainda pode desejar bloquear esses tipos de mensagens.
[00101] Na prática, as classificações diferentes podem indicar graus diferentes de capacidade de spam. Por exemplo, mensagens classificadas como discurso radical podem significar substancialmente nenhum grau de capacidade de spam (por exemplo, porque a mesma provavelmente não é spam). Inversamente, mensagens classificadas como conteúdo/material sexual pode refletir um grau relativamente superior de capacidade de spam (por exemplo, aproximadamente 90% de certeza de que a mensagem é spam). Sistemas de aprendizagem de máquina podem elaborar filtros que consideram o grau de capacidade de spam. Dessa forma, um filtro pode ser personalizado e feito sob medida para atender às preferências do usuário.
[00102] Como já discutido, diversas características podem ser extraídas de uma mensagem e usadas como dados de treinamento por um sistema de aprendizagem de máquina ou como elementos em uma lista(s) identificando características boas e ruins. As qualidades das características, além das próprias características, podem ser úteis na detecção e prevenção de spam. Por exemplo, imagine que uma característica é o endereço de correio eletrônico do remetente. O endereço de correio eletrônico poderia ser usado como uma característica e a freqüência ou contagem daquele endereço de correio eletrônico aparecendo em novas mensagens que chegam poderia ser usada como uma outra característica.
[00103] A Figura 14 ilustra um fluxograma de um processo 1400, exemplar, para extrair esse tipo de característica (por exemplo relacionada à qualidade de ser comum ou de ser raridade da característica extraída). Os inundadores freqüentemente tentam mudar seus locais rapidamente, e como resultado, é mais provável que a maioria dos usuários envie correspondência a partir de um endereço previamente não visto ou envie correspondência com URLs apontando para uma máquina previamente desconhecida, por exemplo. Portanto, para cada tipo de característica (por exemplo, endereço IP recebido-de, URL, endereço de correio eletrônico, nome de domínio, etc.) que é extraído, considerando que uma lista de características para cada tipo está sendo mantida, uma taxa, freqüência ou contagem de ocorrência da característica específica pode ser monitorada.
[00104] O processo 1400 pode começar com uma extração de uma ou mais características a partir de uma mensagem que chega e/ou normalização da característica(s) em 1410. A característica pode então ser comparada com uma ou mais listas de características que foram previamente extraídas ou observadas em uma pluralidade de mensagens anteriores em 1420. O processo 1400 pode então determinar se a presente característica é comum. A qualidade de ser comum de uma característica pode ser determinada através de uma freqüência calculada da aparição da característica em mensagens que chegam recentes e/ou prévias. Se a mensagem não é comum ou não é comum o suficiente (por exemplo, não satisfaz um limite de qualidade de ser comum) em 1430, então sua raridade pode ser usada como uma característica adicional em 1440. Caso contrário, a qualidade de ser comum da característica também pode ser usada como uma característica em 1450.
[00105] De acordo com a presente invenção como descrito acima, o pseudocódigo a seguir pode ser empregado para realizar pelo menos um aspecto da invenção. Nomes variáveis são indicados em letras maiúsculas. Como uma observação adicional, duas funções, add-machine-features e add-ip-features são definidas no término do pseudocódigo. Notação como “PREFIX-machine-MACHINE” é usada para indicar a seqüência composta de qualquer coisa que esteja na variável PREFIX concatenada com a palavra “machine” concatenada com o que quer que esteja na variável MACHINE. Finalmente, a função add-to-feature-list escreve a característica para a lista de características associada à mensagem atual.
[00106] O pseudocódigo exemplar é como a seguir: # for a given message, extract all the features IPADDRESS := the last externai IP address in the received-from 11 st; add-ipfeatures(received, IPADDRESS); SENDERS-ALLEGED-FQDN := FQDN in the last externai IP address in the received-from list; add-machine-features(sendersfqdn, SENDERS-ALLEGED-FQDN); for each email address type ΤΥΡΕ in (from, CC, to, reply-to, embedded-mai 1 to-1 ink, ernbedded-address, and SMTP MAIL FROM) ( for each address ADDRESS of type ΤΥΡΕ in the message { deobfuscate ADDRESS if necessary; add-to-feature-list TYPE-ADDRESS; if ADDRESS is of the form NAME0MACHINE then { add-machine-features (TYPE, MACHINE) ; } el se { # ADDRESS is of form NAME0IPADDRESS add-ip-features(TYPE, IPADDRESS); ) } } for each uri type TYPE in (clickable-1inks, text-based-links, embedded-image-1inks) i l for each URL in the message of type TYPE ( deobfuscate URL; . add-to-feature-list TYPE-URL; set PARENTALCLASS := parental control system class of URL; add-to-feature-list TYPE-class-PARENTCLASS; while URL has a location suffix { remove location suffix from URL, i.e. x.y/a/b/c -> x.y/a/b; x.y/a/b -> x.y/a; x.y/a; } # All suffixes have been removed; URL is now either machine name or IP address if URL is machine name { add-machine-features(TYPE, URL); ' } else { add-ip-features(TYPE, URL); } } } function add-machine-features (PRF.FIX, MACHINE) í add-ip-features(PREFIX-ip, nslookup(MACHINE) ) ; while MACHINE not equal "" ( add-to-feature-list PREFIX-machine-MACHINE; remove beginning from MACHINE # (i.e. a.x.com -> x.com, or x.com -> com); ) } function add-ip-features(PREFIX, IPADDRESS) 1 add-to-feature-list PREFIX-ipaddress-IPADDRESS; find netblock NETBLOCK oi IPADDRESS; add-to-feature-list PREFIX-netblock-NETBLOCK; for N = 1 to 31 { MASKED - first N bits of IPADDRESS; add-to-feature-list PREFIX-masked-N-MASKED; } J________________________________________________________________ [00107] Para proporcionar contexto adicional para diversos aspectos da presente invenção, a Figura 15, e a discussão a seguir, têm a finalidade de prover uma descrição resumida, geral, de um ambiente operacional 1510, adequado, no qual vários aspectos da presente invenção podem ser implementados. Embora a invenção seja descrita no contexto geral de instruções executáveis por computador, tais como módulos de programa, executados por um ou mais computadores ou outros dispositivos, aqueles versados na técnica reconhecerão que a invenção também pode ser implementada em combinação com outros módulos de programa e/ou como uma combinação de hardware e software.
[00108] Genericamente, contudo, módulos de programa incluem rotinas, programas, objetos, componentes, estruturas de dados, etc. que realizam tarefas específicas ou implementam tipos específicos de dados. O ambiente operacional 1510 é apenas um exemplo de um ambiente operacional adequado e não tem a finalidade de sugerir qualquer limitação em relação ao escopo de uso ou funcionalidade da invenção. Outros sistemas de computador bem conhecidos, ambientes, e/ou configurações que podem ser adequados para uso com a invenção incluem porém não são limitados a, computadores pessoais, dispositivos portáteis ou laptops, sistemas de múltiplos processadores, sistemas baseados em microprocessador, meios eletrônicos progra-máveis de consumidor, PCs de rede, minicomputadores, computadores de grande porte, ambientes distribuídos de computação que incluem os sistemas ou dispositivos acima, e semelhante.
[00109] Com referência à Figura 15, um ambiente exemplar 1510 para implementar vários aspectos da invenção inclui um computador 1512. O computador 1512 inclui uma unidade de processamento 1514, uma memória 1516 de sistema, e um barramento 1518 de sistema. O barramento 1518 de sistema acopla os componentes de sistema incluindo, porém não limitados a, memória 1516 de sistema à unidade 1514 de processamento. A unidade 1514 de processamento pode ser qualquer um dos vários processadores disponíveis. Microprocessadores duplos e outras arquiteturas de múltiplos processadores também podem ser empregadas como a unidade 1514 de processamento.
[00110] O barramento 1518 de sistema pode ser qualquer um de vários tipos de estrutura(s) de barramento incluindo o barramento de memória ou controlador de memória, um barramento periférico ou barramento externo, e/ou um barramento local utilizando qualquer variedade de arquiteturas de barramento disponíveis incluindo, porém não limitadas a, barramento de 11-bits, Arquitetura Padrão Industrial (ISA), Arquitetura de Microcanal (MAS), ISA Estendida (EISA), Meios Eletrônicos de Unidade Inteligente (IDE), Barramento Local VESA (VLB), Interconexão de Componentes Periféricos (PCI), Barramento Serial Universal (USB), Porta Gráfica Avançada (AGP), Barramento da Asso- ciação Internacional de Placa de Memória de Computador Pessoal (PCMCIA), e Interface de Sistema de Computadores Pequenos (SCSI).
[00111] A memória 1516 de sistema inclui memória volátil 1520 e memória não-volátil 1522. O sistema de entrada/saída básico (BIOS), contendo as rotinas básicas para transferir informação entre elementos dentro do computador 1512, tal como durante a partida, é armazenado na memória não-volátil 1522. Como ilustração, e não limitação, a memória não-volátil 1522 pode incluir memória exclusiva de leitura (ROM), ROM programável (PROM), ROM eletricamente programável (EPROM), ROM eletricamente apagável (EEPROM), memória flash. A memória volátil 1520 inclui memória de acesso aleatório (RAM), que atua como memória cache externa. Como ilustração, e não limitação, RAM está disponível em muitas formas tais como RAM síncrona (SRAM), RAM dinâmica (DRAM), DRAM síncrona (SDRAM), SDRAM de taxa dupla de dados (DDR SDRAM), SDRAM otimizada (ESDRAM), DRAM de ligação síncrona (SLDRAM), e RAM rambus direta (DRRAM).
[00112] O computador 1512 também inclui meios de armazenamento de computador removíveis/não-removíveis, voláteis/não-voláteis. A Figura 15 ilustra, por exemplo, um meio de armazenamento 1524 de disco. O meio de armazenamento 1524 de disco inclui, porém não é limitado a, dispositivos como uma unidade de disco magnético, unidade de disquete, unidade de fita, unidade Jaz, unidade Zip, unidade LS-100, placa de memória flash, ou pente de memória. Além disso, o meio de armazenamento 1524 de disco pode incluir meios de armazenamento separadamente ou em combinação com outros meios de armazenamento separadamente ou em combinação com outros meios de armazenamento incluindo, porém não limitados a, unidade de disco ótico tais como um dispositivo ROM de disco a laser (CD-ROM), uni- dade de CD que pode ser gravado (unidade CD-R), unidade de CD que pode ser regravado (unidade CD-RW) ou uma unidade ROM de disco digital versátil (DVD-ROM). Para facilitar conexão dos dispositivos 1524 de armazenamento de disco ao barramento 1518 de sistema, uma interface removível ou não-removível é usada tipicamente tal como a interface 1526.
[00113] Deve ser considerado que a Figura 15 descreve software que atua como um intermediário entre usuários e os recursos básicos de computador descritos no ambiente 1510 operacional adequado. Tal software inclui um sistema 1528 operacional. O sistema 1528 operacional que pode ser armazenado no meio de armazenamento 1524 de disco, atua para controlar e alocar recursos do sistema 1512 de computador. Aplicações 1530 de sistema tiram proveito do gerenciamento de recursos pelo sistema operacional 1528 através de módulos de programa 1532 e dados de programa 1534 armazenados quer seja na memória 1516 de sistema ou em meio de armazenamento 1524 de disco. Deve ser considerado que a presente invenção pode ser implementada com vários sistemas operacionais ou combinações de sistemas operacionais.
[00114] Um usuário introduz comandos ou informação no computador 1512 através do dispositivo(s) 1536 de entrada. Os dispositivos 1536 de entrada incluem, porém não são limitados a, um dispositivo indicador tal como um mouse, trackball, caneta, mesa de toque, teclado, microfone, joystick, mesa de jogos, antena de prato de satélite, scanner, placa de sintonizador de TV, câmera digital, câmera de vídeo digital, câmera da rede, e semelhante. Esses e outros dispositivos de entrada são conectados à unidade 1514 de processamento através do barramento 1518 de sistema através de porta(s) 1538 de interface. Porta(s) 1538 de interface inclui, por exemplo, uma porta serial, uma porta paralela, uma porta de jogos, e um barramento serial universal (USB). Dispositivo(s) 1540 de saída usa algum do mesmo tipo de portas como dispositivo(s) 1536 de entrada. Dessa forma, por exemplo, uma porta USB pode ser usada para prover entrada para o computador 1512, e para emitir informação a partir do computador 1512 para um dispositivo 1540 de saída. Adaptador 1542 de saída é provido para ilustrar que há alguns dispositivos 1540 de saída como monitores, alto-falantes, e impressoras dentre outros dispositivos 1540 de saída que exigem adaptadores especiais. Os adaptadores 1542 de saída incluem, como ilustração e não limitação, placas de vídeo e som que proporcionam um meio de conexão entre o dispositivo 1540 de saída e o barramento 1518 de sistema. Deve ser observado que outros dispositivos e/ou sistemas de dispositivos proporcionam capacidades de entrada e de saída tal como computador(es) remoto 1544.
[00115] Computador 1512 pode operar em um ambiente de rede utilizando conexões lógicas para um ou mais computadores remotos, tal como computador(es) remoto 1544. O computador(es) remoto 1544 pode ser um computador pessoal, um servidor, um roteador, um PC de rede, uma estação de trabalho, um aparelho baseado em microprocessador, um dispositivo de rede não hierárquica ou outro nó de rede comum, e semelhante, e inclui tipicamente muitos ou todos os elementos descritos em relação ao computador 1512. Com o propósito de brevidade, apenas um dispositivo 1546 de armazenamento de memória é ilustrado com o computador(es) remoto 1544. O computador(es) remoto 1544 é conectado de forma lógica ao computador 1512 através de uma interface 1548 de rede e então conectado fisicamente através da conexão 1550 de comunicação. A interface 1548 de rede abrange redes de comunicação tais como redes de área local (LAN) e redes remotas (WAN). Tecnologias LAN incluem Interface de Dados Distribuída de Fibra (FDDI), Interface de Dados Distribuída de Cobre (CDDI), Ethernet/IEEE 1102.3, Token Ring/IEEE 1102.5 e semelhante. Tecno- logias WAN incluem, porém não são limitadas a, ligações de ponto a ponto, redes de comutação de circuito como as Redes Digitais de Serviços Integrados (ISDN) e variações das mesmas, redes de comutação de pacote, e Linhas Digitais de Assinante (DSL).
[00116] Conexão(ões) 1550 de comunicação se refere a hardwa-re/software empregado para conectar a interface 1548 de rede ao bar-ramento 1518. Embora conexão 1550 de comunicação seja mostrada para clareza ilustrativa dentro do computador 1512, a mesma também pode ser externa ao computador 1512. O hardware/software necessário para conexão à interface 1548 de rede inclui, apenas com propósitos de exemplo, tecnologias internas e externas tais como modems, incluindo modems de tipo para telefone comum, modems a cabo e modems DSL, adaptadores ISDN, placas Ethernet.
[00117] O que foi descrito acima inclui exemplos da presente invenção. Evidentemente, não é possível descrever cada combinação concebível de componentes ou metodologias com o propósito de descrever a presente invenção, porém aqueles versados na técnica podem reconhecer que são possíveis muitas combinações e permutações adicionais da presente invenção. Consequentemente, pretende-se que a presente invenção abranja todas as tais alterações, modificações e variações que estejam compreendidas no espírito e escopo das reivindicações anexas. Além disso, até o ponto em que o termo “inclui” é usado quer seja na descrição detalhada ou nas reivindicações, pretende-se que tal termo seja inclusivo de uma maneira similar ao termo “compreendendo”, como “compreendendo” é interpretado ao ser empregado como uma palavra transitiva em uma reivindicação.
REIVINDICAÇÕES

Claims (47)

1. Sistema que facilita a extração de dados em conexão com processamento de spam compreendendo: uma memória (1516); um processador (1514) acoplado à memória (1516); um componente (120,130,220) adaptado para receber um item (110,210) e extrair um conjunto de características (232-236) associado a uma origem de uma mensagem ou parte dela e/ou informação que permite que um destinatário pretendido contatar um remetente da mensagem, responder ou receber em ligação com a mensagem, em que o componente que recebe o item é ainda adaptado para determinar um último endereço de IP do servidor confiável para distinguir entre endereços de IP de servidor pré-estabelecidos confiável e falsos e para extrair o último endereço de IP do servidor confiável como um recurso a partir do item, em que um endereço de IP de servidor confiável se refere a um servidor que está localizado dentro de uma organização; e caracterizado pelo fato de que ainda compreende um componente (140) adaptado para empregar um subconjunto das características extraídas em ligação com a construção de um filtro (150,270) ao adicionar o subconjunto das características extraídas a um conjunto de formação de dados utilizado para treinar e atualizar o filtro, em que o filtro determina uma probabilidade de que a mensagem seja spam quando o subconjunto de recursos extraídos passa pelo filtro, em que o filtro é um filtro de spam.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende um componente de normalização (240) que desofusca um subconjunto de características.
3. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende um componente de sistema de aprendizagem de máquina (260) que emprega as características deso-fuscadas para aprender pelo menos um dentre spam e não spam.
4. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende pelo menos um endereço de IP, o pelo menos um endereço de IP sendo pelo menos uma parte de qualquer um dentre um endereço de res-ponder-para, um endereço de cópia, um endereço de correspondên-cia-para, um endereço de recebido-de, e um URL localizado na mensagem.
5. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que o endereço de IP compreende um ID de bloco, em que o ID de bloco pode ser extraído como pelo menos uma característica.
6. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que o ID de bloco é determinado pelo menos em parte mediante consulta a um diretório de blocos.
7. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de que o diretório de blocos é arin.net.
8. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que o ID de bloco é determinado pelo menos em parte mediante suposição, dessa forma extraindo como característica qualquer um dentre pelo menos um primeiro 1 bit (304), pelo menos os primeiros 2 bits (306), pelo menos os primeiros 3 bits (308), e até pelo menos os primeiros 31 bits (312) do endereço de IP.
9. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende cada um de um primeiro 1 bit até os primeiros 31 bits de endereço de IP.
10. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende um URL (600).
11. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que o endereço URL está localizado em pelo menos um dentre um corpo da mensagem; embutido como texto na mensagem, e embutido em uma imagem na mensagem.
12. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende um componente que emprega pelo menos um subconjunto das características extraídas para encher pelo menos uma lista de características.
13. Sistema, de acordo com a reivindicação 12, caracterizado pelo fato de que pelo menos uma lista de características é qualquer uma dentre uma lista de usuários bons, uma lista de inundadores, uma lista de características positivas indicando remetente legítimo, e uma lista de características indicando spam.
14. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende pelo menos um URL.
15. Sistema, de acordo com a reivindicação 14, caracterizado pelo fato de que o URL é embutido como texto em um corpo da mensagem.
16. Sistema, de acordo com a reivindicação 14, caracterizado pelo fato de que o URL é pelo menos uma parte de um vínculo em um corpo da mensagem.
17. Sistema, de acordo com a reivindicação 14, caracterizado pelo fato de que o URL é pelo menos uma parte de um vínculo embutido como uma imagem em uma mensagem.
18. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende pelo menos um dentre um nome de host (402) e um nome de domínio (404) extraído a partir de um endereço de correio eletrônico.
19. Sistema, de acordo com a reivindicação 1, caracteriza- do pelo fato de que o subconjunto de características compreende pelo menos uma parte de um FQDN extraído de qualquer um dentre um endereço de correio eletrônico e um URL.
20. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende pelo menos uma parte de um nome de domínio extraído de qualquer um dentre um endereço de correio eletrônico e um URL.
21. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos uma parte do subconjunto das características extraídas é normalizada antes de ser usada em conexão com um sistema de aprendizagem de máquina.
22. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos uma parte do subconjunto das características extraídas é normalizada (240) antes de ser usada para encher pelo menos uma lista de características (280).
23. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende um componente de classificação, que classifica pelo menos uma parte de pelo menos um dentre um URL, um endereço de correio eletrônico, e um endereço de IP como qualquer um dentre: adultos, conteúdo para adultos, inadequado, inadequado para algumas idades, adequado para todas as idades, não apropriado e apropriado.
24. Sistema, de acordo com a reivindicação 23, caracterizado pelo fato de que o componente de classificação é um sistema de controle parental.
25. Sistema, de acordo com a reivindicação 23, caracterizado pelo fato de que o componente de classificação atribui pelo menos um tipo de característica à parte classificada de pelo menos um dentre: URL, endereço de sítio da rede e o endereço de IP.
26. Sistema, de acordo com a reivindicação 1, caracteriza- do pelo fato de que o conjunto de características compreende pelo menos um número telefônico de tarifa não gratuita, o número telefônico compreendendo pelo menos um código de área para facilitar mapear uma localização geográfica de um remetente ou contato associado à mensagem.
27. Método que facilita a extração de dados em conexão com processamento de spam compreendendo as etapas de: receber (710,810,910,1010,1310) uma mensagem; extrair (720,820,920,1010) um conjunto de características associadas a uma procedência da mensagem ou parte da mesma e/ou informação que permita que um recebedor pretendido contate um remetente da mensagem, responda ou receba em conexão com a mensagem; determinar um último endereço de IP do servidor confiável a partir da mensagem para distinguir entre endereços de IP de servidor confiáveis e falsos, em que um endereço de IP de servidor confiável refere-se a um servidor que está localizado dentro de uma organização; e caracterizado pelo fato de que ainda compreende a etapa de empregar (760,1060) um subconjunto das características extraídos em ligação com a construção de um filtro ao adicionar o subconjunto das características extraídas a um conjunto de formação de dados utilizado para treinar e atualizar o filtro, em que o filtro determina uma probabilidade de que a mensagem seja spam quando o subconjunto de recursos extraídos passa através do filtro, e em que o filtro é um filtro de spam.
28. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o conjunto de características compreende pelo menos uma parte de um endereço de IP.
29. Método, de acordo com a reivindicação 28, caracteri- zado pelo fato de que extrair pelo menos uma parte do endereço de IP compreende realizar pelo menos uma das seguintes ações: consultar um diretório de ID de bloco para determinar pelo menos um ID de bloco correspondendo ao endereço IP de tal modo que o ID de bloco é extraído como uma característica adicional; e extrair cada um de pelo menos um primeiro 1 bit até os primeiros 31 bits a partir do endereço IP.
30. Método, de acordo com a reivindicação 28, caracterizado pelo fato de que pelo menos um endereço de IP extraído corresponde a pelo menos um servidor.
31. Método, de acordo com a reivindicação 30, caracterizado pelo fato de que ainda compreende extrair pelo menos um servidor como uma característica adicional.
32. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende desofuscar pelo menos um subconjunto das características extraídas a partir da mensagem.
33. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende desofuscar pelo menos uma parte de pelo menos uma característica extraída da mensagem.
34. Método, de acordo com a reivindicação 33, caracterizado pelo fato de que desofuscar um endereço de IP recebido-de extraído a partir da mensagem compreende rastrear de volta através de uma pluralidade de endereços de IP anexados-a para verificar a identidade dos endereços de IP anexados-a.
35. Método, de acordo com a reivindicação 33, caracterizado pelo fato de que ainda compreende extrair características adicionais a partir de um endereço de sítio da rede compreende realizar pelo menos uma das seguintes ações: remover pelo menos um sufixo de uma vez dessa forma produzindo características adicionais respectivas; e remover pelo menos um prefixo de uma vez, dessa forma produzindo características adicionais respectivas.
36. Método, de acordo com a reivindicação 33, caracterizado pelo fato de que o conjunto de características compreende pelo menos uma parte de qualquer um dentre um endereço responder-para, um endereço de cópia de cortesia, um endereço correspondên-cia-para, um URL, um vínculo, e um endereço recebido-de.
37. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que pelo menos um subconjunto das características extraídas é embutido como um de texto e imagens em um corpo da mensagem.
38. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o conjunto de características compreende um nome de host e um nome de domínio.
39. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende classificar (1350) uma ou mais características extraídas e/ou partes das mesmas para indicar qualquer um dentre conteúdo adequado e inadequado associado à mensagem e usar (1360) tal classificação como uma característica adicional.
40. Método, de acordo com a reivindicação 27 caracterizado pelo fato de que ainda compreende atribuir um tipo de característica às características extraídas respectivas para notificar um usuário de conteúdo de mensagem com base pelo menos em parte nas características extraídas respectivas e usar o tipo de característica como uma característica adicional.
41. Método, de acordo com a reivindicação 40, caracterizado pelo fato de que ainda compreende determinar (1430) que pelo menos um dentre um tipo de característica e uma característica é qualquer uma dentre rara e comum e usar (1440,1460) uma qualidade de raridade e uma qualidade de ser comum de uma característica como uma característica adicional.
42. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o subconjunto de características é empregado em conexão com a elaboração de um filtro através de um sistema de aprendizagem de máquina.
43. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o subconjunto de características é empregado em conexão com a elaboração de um filtro de controle parental.
44. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende empregar pelo menos um subconjunto de características extraídas a partir da mensagem para encher uma ou mais listas de característica.
45. Método, de acordo com a reivindicação 44, caracterizado pelo fato de que a lista de características compreende pelo menos uma dentre listas de características positivas incluindo não-inundadores e listas de características ruins indicando inundadores.
46. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que as características extraídas são desofuscadas pelo menos em parte antes de serem empregadas como características de um sistema de aprendizagem de máquina.
47. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que as características extraídas são desofuscadas pelo menos em parte antes de serem empregadas como características para encher listas de características.
BRPI0401849A 2003-06-04 2004-05-27 sistema e método que facilita a extração de dados em conexão com processamento de spam BRPI0401849B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/454,168 US7272853B2 (en) 2003-06-04 2003-06-04 Origination/destination features and lists for spam prevention

Publications (2)

Publication Number Publication Date
BRPI0401849A BRPI0401849A (pt) 2005-02-09
BRPI0401849B1 true BRPI0401849B1 (pt) 2017-04-11

Family

ID=33159539

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0401849A BRPI0401849B1 (pt) 2003-06-04 2004-05-27 sistema e método que facilita a extração de dados em conexão com processamento de spam

Country Status (14)

Country Link
US (4) US7272853B2 (pt)
EP (1) EP1484893B1 (pt)
JP (1) JP4672285B2 (pt)
KR (1) KR101137065B1 (pt)
CN (1) CN1573784B (pt)
AU (1) AU2004202268B2 (pt)
BR (1) BRPI0401849B1 (pt)
CA (1) CA2467869C (pt)
MX (1) MXPA04005335A (pt)
MY (1) MY142668A (pt)
PL (1) PL368364A1 (pt)
RU (1) RU2378692C2 (pt)
TW (1) TWI353146B (pt)
ZA (1) ZA200404018B (pt)

Families Citing this family (427)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6643686B1 (en) * 1998-12-18 2003-11-04 At&T Corp. System and method for counteracting message filtering
US9699129B1 (en) * 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US20100042565A1 (en) * 2000-09-25 2010-02-18 Crossbeam Systems, Inc. Mezzazine in-depth data analysis facility
US20110213869A1 (en) * 2000-09-25 2011-09-01 Yevgeny Korsunsky Processing data flows with a data flow processor
US20110238855A1 (en) * 2000-09-25 2011-09-29 Yevgeny Korsunsky Processing data flows with a data flow processor
US20110231564A1 (en) * 2000-09-25 2011-09-22 Yevgeny Korsunsky Processing data flows with a data flow processor
US8010469B2 (en) * 2000-09-25 2011-08-30 Crossbeam Systems, Inc. Systems and methods for processing data flows
US20110214157A1 (en) * 2000-09-25 2011-09-01 Yevgeny Korsunsky Securing a network with data flow processing
US20110219035A1 (en) * 2000-09-25 2011-09-08 Yevgeny Korsunsky Database security via data flow processing
US9800608B2 (en) * 2000-09-25 2017-10-24 Symantec Corporation Processing data flows with a data flow processor
US9525696B2 (en) 2000-09-25 2016-12-20 Blue Coat Systems, Inc. Systems and methods for processing data flows
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US7155608B1 (en) * 2001-12-05 2006-12-26 Bellsouth Intellectual Property Corp. Foreign network SPAM blocker
US8578480B2 (en) 2002-03-08 2013-11-05 Mcafee, Inc. Systems and methods for identifying potentially malicious messages
US8561167B2 (en) 2002-03-08 2013-10-15 Mcafee, Inc. Web reputation scoring
US20060015942A1 (en) * 2002-03-08 2006-01-19 Ciphertrust, Inc. Systems and methods for classification of messaging entities
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US20080196099A1 (en) * 2002-06-10 2008-08-14 Akonix Systems, Inc. Systems and methods for detecting and blocking malicious content in instant messages
US7428590B2 (en) * 2002-06-10 2008-09-23 Akonix Systems, Inc. Systems and methods for reflecting messages associated with a target protocol within a network
AU2003288515A1 (en) * 2002-12-26 2004-07-22 Commtouch Software Ltd. Detection and prevention of spam
US7533148B2 (en) * 2003-01-09 2009-05-12 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7219131B2 (en) * 2003-01-16 2007-05-15 Ironport Systems, Inc. Electronic message delivery using an alternate source approach
US7760729B2 (en) 2003-05-28 2010-07-20 Citrix Systems, Inc. Policy based network address translation
US7376652B2 (en) * 2003-06-17 2008-05-20 The Hayes-Roth Family Trust Personal portal and secure information exchange
US8145710B2 (en) * 2003-06-18 2012-03-27 Symantec Corporation System and method for filtering spam messages utilizing URL filtering module
US7155484B2 (en) * 2003-06-30 2006-12-26 Bellsouth Intellectual Property Corporation Filtering email messages corresponding to undesirable geographical regions
US7526730B1 (en) * 2003-07-01 2009-04-28 Aol Llc Identifying URL target hostnames
US9412123B2 (en) 2003-07-01 2016-08-09 The 41St Parameter, Inc. Keystroke analysis
US8214437B1 (en) * 2003-07-21 2012-07-03 Aol Inc. Online adaptive filtering of messages
US7814545B2 (en) * 2003-07-22 2010-10-12 Sonicwall, Inc. Message classification using classifiers
US7421498B2 (en) * 2003-08-25 2008-09-02 Microsoft Corporation Method and system for URL based filtering of electronic communications and web pages
US7835294B2 (en) * 2003-09-03 2010-11-16 Gary Stephen Shuster Message filtering method
US8271588B1 (en) * 2003-09-24 2012-09-18 Symantec Corporation System and method for filtering fraudulent email messages
US20070275739A1 (en) * 2003-10-08 2007-11-29 Three B Technologies Pyt Ltd Method and System for Authorising Short Message Service Messages
US7610341B2 (en) * 2003-10-14 2009-10-27 At&T Intellectual Property I, L.P. Filtered email differentiation
US20050080642A1 (en) * 2003-10-14 2005-04-14 Daniell W. Todd Consolidated email filtering user interface
US7664812B2 (en) * 2003-10-14 2010-02-16 At&T Intellectual Property I, L.P. Phonetic filtering of undesired email messages
US7930351B2 (en) * 2003-10-14 2011-04-19 At&T Intellectual Property I, L.P. Identifying undesired email messages having attachments
US7451184B2 (en) * 2003-10-14 2008-11-11 At&T Intellectual Property I, L.P. Child protection from harmful email
US7673066B2 (en) * 2003-11-07 2010-03-02 Sony Corporation File transfer protocol for mobile computer
US7978716B2 (en) 2003-11-24 2011-07-12 Citrix Systems, Inc. Systems and methods for providing a VPN solution
US7444403B1 (en) 2003-11-25 2008-10-28 Microsoft Corporation Detecting sexually predatory content in an electronic communication
US20050160258A1 (en) * 2003-12-11 2005-07-21 Bioobservation Systems Limited Detecting objectionable content in displayed images
US8984640B1 (en) * 2003-12-11 2015-03-17 Radix Holdings, Llc Anti-phishing
US7590694B2 (en) 2004-01-16 2009-09-15 Gozoom.Com, Inc. System for determining degrees of similarity in email message information
JP2005208780A (ja) * 2004-01-21 2005-08-04 Nec Corp メールフィルタリングシステム及びそれに用いるurlブラックリスト動的構築方法
US7184929B2 (en) * 2004-01-28 2007-02-27 Microsoft Corporation Exponential priors for maximum entropy models
US8856239B1 (en) 2004-02-10 2014-10-07 Sonicwall, Inc. Message classification based on likelihood of spoofing
US7653695B2 (en) * 2004-02-17 2010-01-26 Ironport Systems, Inc. Collecting, aggregating, and managing information relating to electronic messages
US7617531B1 (en) * 2004-02-18 2009-11-10 Citrix Systems, Inc. Inferencing data types of message components
US8214438B2 (en) * 2004-03-01 2012-07-03 Microsoft Corporation (More) advanced spam detection features
US10999298B2 (en) 2004-03-02 2021-05-04 The 41St Parameter, Inc. Method and system for identifying users and detecting fraud by use of the internet
US8918466B2 (en) * 2004-03-09 2014-12-23 Tonny Yu System for email processing and analysis
US7644127B2 (en) * 2004-03-09 2010-01-05 Gozoom.Com, Inc. Email analysis using fuzzy matching of text
US7631044B2 (en) * 2004-03-09 2009-12-08 Gozoom.Com, Inc. Suppression of undesirable network messages
US20050289239A1 (en) * 2004-03-16 2005-12-29 Prakash Vipul V Method and an apparatus to classify electronic communication
WO2005103960A1 (en) * 2004-04-20 2005-11-03 The Boeing Company Apparatus and method for redirecting unresolvable addresses using a local care-of ip address
US7870608B2 (en) 2004-05-02 2011-01-11 Markmonitor, Inc. Early detection and monitoring of online fraud
US8769671B2 (en) 2004-05-02 2014-07-01 Markmonitor Inc. Online fraud solution
US7992204B2 (en) * 2004-05-02 2011-08-02 Markmonitor, Inc. Enhanced responses to online fraud
US8041769B2 (en) 2004-05-02 2011-10-18 Markmonitor Inc. Generating phish messages
US7913302B2 (en) * 2004-05-02 2011-03-22 Markmonitor, Inc. Advanced responses to online fraud
US9203648B2 (en) 2004-05-02 2015-12-01 Thomson Reuters Global Resources Online fraud solution
US7457823B2 (en) 2004-05-02 2008-11-25 Markmonitor Inc. Methods and systems for analyzing data related to possible online fraud
US7941490B1 (en) * 2004-05-11 2011-05-10 Symantec Corporation Method and apparatus for detecting spam in email messages and email attachments
US7734093B2 (en) * 2004-05-20 2010-06-08 Ricoh Co., Ltd. Paper-based upload and tracking system
US7523498B2 (en) * 2004-05-20 2009-04-21 International Business Machines Corporation Method and system for monitoring personal computer documents for sensitive data
JP4829223B2 (ja) * 2004-05-25 2011-12-07 グーグル インコーポレイテッド 電子メッセージソース評判情報システム
US7756930B2 (en) 2004-05-28 2010-07-13 Ironport Systems, Inc. Techniques for determining the reputation of a message sender
US8166310B2 (en) * 2004-05-29 2012-04-24 Ironport Systems, Inc. Method and apparatus for providing temporary access to a network device
US7849142B2 (en) 2004-05-29 2010-12-07 Ironport Systems, Inc. Managing connections, messages, and directory harvest attacks at a server
US7917588B2 (en) 2004-05-29 2011-03-29 Ironport Systems, Inc. Managing delivery of electronic messages using bounce profiles
US7870200B2 (en) * 2004-05-29 2011-01-11 Ironport Systems, Inc. Monitoring the flow of messages received at a server
US7873695B2 (en) 2004-05-29 2011-01-18 Ironport Systems, Inc. Managing connections and messages at a server by associating different actions for both different senders and different recipients
US7748038B2 (en) * 2004-06-16 2010-06-29 Ironport Systems, Inc. Method and apparatus for managing computer virus outbreaks
US20050283519A1 (en) * 2004-06-17 2005-12-22 Commtouch Software, Ltd. Methods and systems for combating spam
US8739274B2 (en) 2004-06-30 2014-05-27 Citrix Systems, Inc. Method and device for performing integrated caching in a data communication network
US7580981B1 (en) 2004-06-30 2009-08-25 Google Inc. System for determining email spam by delivery path
US7757074B2 (en) 2004-06-30 2010-07-13 Citrix Application Networking, Llc System and method for establishing a virtual private network
US8495305B2 (en) 2004-06-30 2013-07-23 Citrix Systems, Inc. Method and device for performing caching of dynamically generated objects in a data communication network
EP1771998B1 (en) 2004-07-23 2015-04-15 Citrix Systems, Inc. Systems and methods for optimizing communications between network nodes
KR20070037650A (ko) 2004-07-23 2007-04-05 사이트릭스 시스템스, 인크. 종단에서 게이트웨이로 패킷을 라우팅하기 위한 방법 및시스템
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US20070204026A1 (en) * 2004-07-27 2007-08-30 U.S. Telecom Inc. Method For Blocking Unwanted E-Mail Based On Proximity Detection
US20060069667A1 (en) * 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US8799465B2 (en) * 2004-10-13 2014-08-05 International Business Machines Corporation Fake web addresses and hyperlinks
US8635690B2 (en) 2004-11-05 2014-01-21 Mcafee, Inc. Reputation based message processing
US7711781B2 (en) * 2004-11-09 2010-05-04 International Business Machines Corporation Technique for detecting and blocking unwanted instant messages
US8032594B2 (en) * 2004-11-10 2011-10-04 Digital Envoy, Inc. Email anti-phishing inspector
US20060168066A1 (en) * 2004-11-10 2006-07-27 David Helsper Email anti-phishing inspector
US7580982B2 (en) * 2004-12-14 2009-08-25 The Go Daddy Group, Inc. Email filtering system and method
US7734670B2 (en) * 2004-12-15 2010-06-08 Microsoft Corporation Actionable email documents
US20060168030A1 (en) * 2004-12-21 2006-07-27 Lucent Technologies, Inc. Anti-spam service
US20060168032A1 (en) * 2004-12-21 2006-07-27 Lucent Technologies, Inc. Unwanted message (spam) detection based on message content
US8549149B2 (en) 2004-12-30 2013-10-01 Citrix Systems, Inc. Systems and methods for providing client-side accelerated access to remote applications via TCP multiplexing
US8706877B2 (en) 2004-12-30 2014-04-22 Citrix Systems, Inc. Systems and methods for providing client-side dynamic redirection to bypass an intermediary
US7810089B2 (en) 2004-12-30 2010-10-05 Citrix Systems, Inc. Systems and methods for automatic installation and execution of a client-side acceleration program
US8700695B2 (en) 2004-12-30 2014-04-15 Citrix Systems, Inc. Systems and methods for providing client-side accelerated access to remote applications via TCP pooling
US8954595B2 (en) 2004-12-30 2015-02-10 Citrix Systems, Inc. Systems and methods for providing client-side accelerated access to remote applications via TCP buffering
US20060168042A1 (en) * 2005-01-07 2006-07-27 International Business Machines Corporation Mechanism for mitigating the problem of unsolicited email (also known as "spam"
US8255456B2 (en) 2005-12-30 2012-08-28 Citrix Systems, Inc. System and method for performing flash caching of dynamically generated objects in a data communication network
US8281401B2 (en) * 2005-01-25 2012-10-02 Whitehat Security, Inc. System for detecting vulnerabilities in web applications using client-side application interfaces
US20060230039A1 (en) * 2005-01-25 2006-10-12 Markmonitor, Inc. Online identity tracking
DE102005004464A1 (de) 2005-01-31 2006-10-26 Robert Bosch Gmbh Verfahren zur Speicherung von Botschaften in einem Botschaftsspeicher und Botschaftsspeicher
US7647380B2 (en) * 2005-01-31 2010-01-12 Microsoft Corporation Datacenter mail routing
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
JP4670049B2 (ja) * 2005-02-16 2011-04-13 国立大学法人豊橋技術科学大学 電子メールフィルタリングプログラム、電子メールフィルタリング方法、電子メールフィルタリングシステム
DE102005011169B4 (de) * 2005-03-09 2010-09-30 1&1 Internet Ag Verfahren und System für einen E-Mail-Dienst mit Aufbereitung von Informations-E-Mails eines weiteren Internet-Dienstes
US7590698B1 (en) * 2005-03-14 2009-09-15 Symantec Corporation Thwarting phishing attacks by using pre-established policy files
US7975010B1 (en) * 2005-03-23 2011-07-05 Symantec Corporation Countering spam through address comparison
US20060224677A1 (en) * 2005-04-01 2006-10-05 Baytsp Method and apparatus for detecting email fraud
US8898162B2 (en) * 2005-04-01 2014-11-25 International Business Machines Corporation Methods, systems, and computer program products for providing customized content over a network
GB2424969A (en) * 2005-04-04 2006-10-11 Messagelabs Ltd Training an anti-spam filter
GB2425855A (en) * 2005-04-25 2006-11-08 Messagelabs Ltd Detecting and filtering of spam emails
CN101495969B (zh) * 2005-05-05 2012-10-10 思科埃恩波特系统有限公司 识别电子消息中的威胁
JP4559295B2 (ja) * 2005-05-17 2010-10-06 株式会社エヌ・ティ・ティ・ドコモ データ通信システム及びデータ通信方法
US20070097976A1 (en) * 2005-05-20 2007-05-03 Wood George D Suspect traffic redirection
US8583827B2 (en) * 2005-05-26 2013-11-12 Citrix Systems, Inc. Dynamic data optimization in data network
US20060277259A1 (en) * 2005-06-07 2006-12-07 Microsoft Corporation Distributed sender reputations
US8010609B2 (en) * 2005-06-20 2011-08-30 Symantec Corporation Method and apparatus for maintaining reputation lists of IP addresses to detect email spam
US7739337B1 (en) 2005-06-20 2010-06-15 Symantec Corporation Method and apparatus for grouping spam email messages
GB0512744D0 (en) * 2005-06-22 2005-07-27 Blackspider Technologies Method and system for filtering electronic messages
US7636734B2 (en) * 2005-06-23 2009-12-22 Microsoft Corporation Method for probabilistic analysis of most frequently occurring electronic message addresses within personal store (.PST) files to determine owner with confidence factor based on relative weight and set of user-specified factors
US8645683B1 (en) 2005-08-11 2014-02-04 Aaron T. Emigh Verified navigation
US7809156B2 (en) 2005-08-12 2010-10-05 Ricoh Company, Ltd. Techniques for generating and using a fingerprint for an article
US8166068B2 (en) * 2005-09-02 2012-04-24 Qwest Location based authorization of financial card transactions systems and methods
US7487170B2 (en) * 2005-09-02 2009-02-03 Qwest Communications International Inc. Location information for avoiding unwanted communications systems and methods
US8176077B2 (en) 2005-09-02 2012-05-08 Qwest Communications International Inc. Location based access to financial information systems and methods
US7697942B2 (en) * 2005-09-02 2010-04-13 Stevens Gilman R Location based rules architecture systems and methods
US20070061402A1 (en) * 2005-09-15 2007-03-15 Microsoft Corporation Multipurpose internet mail extension (MIME) analysis
US8117267B2 (en) 2005-09-29 2012-02-14 Teamon Systems, Inc. System and method for provisioning an email account using mail exchange and address records
US8078681B2 (en) 2005-09-29 2011-12-13 Teamon Systems, Inc. System and method for provisioning an email account using mail exchange records
US20070078934A1 (en) * 2005-09-30 2007-04-05 Teamon Systems, Inc. System and method for provisioning an email account hosted on an assured email service provider
US20070118759A1 (en) * 2005-10-07 2007-05-24 Sheppard Scott K Undesirable email determination
US7912907B1 (en) * 2005-10-07 2011-03-22 Symantec Corporation Spam email detection based on n-grams with feature selection
US20070088789A1 (en) * 2005-10-18 2007-04-19 Reuben Berman Method and system for indicating an email sender as spammer
WO2007050244A2 (en) 2005-10-27 2007-05-03 Georgia Tech Research Corporation Method and system for detecting and responding to attacking networks
US8272064B2 (en) * 2005-11-16 2012-09-18 The Boeing Company Automated rule generation for a secure downgrader
US11301585B2 (en) 2005-12-16 2022-04-12 The 41St Parameter, Inc. Methods and apparatus for securely displaying digital images
US8938671B2 (en) 2005-12-16 2015-01-20 The 41St Parameter, Inc. Methods and apparatus for securely displaying digital images
US7921184B2 (en) 2005-12-30 2011-04-05 Citrix Systems, Inc. System and method for performing flash crowd caching of dynamically generated objects in a data communication network
US8301839B2 (en) 2005-12-30 2012-10-30 Citrix Systems, Inc. System and method for performing granular invalidation of cached dynamically generated objects in a data communication network
US7475118B2 (en) * 2006-02-03 2009-01-06 International Business Machines Corporation Method for recognizing spam email
US7827280B2 (en) * 2006-02-28 2010-11-02 Red Hat, Inc. System and method for domain name filtering through the domain name system
US7627641B2 (en) * 2006-03-09 2009-12-01 Watchguard Technologies, Inc. Method and system for recognizing desired email
US8689102B2 (en) * 2006-03-31 2014-04-01 Ricoh Company, Ltd. User interface for creating and using media keys
US20070233612A1 (en) * 2006-03-31 2007-10-04 Ricoh Company, Ltd. Techniques for generating a media key
US8151327B2 (en) 2006-03-31 2012-04-03 The 41St Parameter, Inc. Systems and methods for detection of session tampering and fraud prevention
US9525547B2 (en) * 2006-03-31 2016-12-20 Ricoh Company, Ltd. Transmission of media keys
US8554690B2 (en) * 2006-03-31 2013-10-08 Ricoh Company, Ltd. Techniques for using media keys
US7809796B1 (en) * 2006-04-05 2010-10-05 Ironport Systems, Inc. Method of controlling access to network resources using information in electronic mail messages
US7849502B1 (en) * 2006-04-29 2010-12-07 Ironport Systems, Inc. Apparatus for monitoring network traffic
US20080082662A1 (en) * 2006-05-19 2008-04-03 Richard Dandliker Method and apparatus for controlling access to network resources based on reputation
US8489689B1 (en) * 2006-05-31 2013-07-16 Proofpoint, Inc. Apparatus and method for obfuscation detection within a spam filtering model
US8112484B1 (en) * 2006-05-31 2012-02-07 Proofpoint, Inc. Apparatus and method for auxiliary classification for generating features for a spam filtering model
US8307038B2 (en) * 2006-06-09 2012-11-06 Microsoft Corporation Email addresses relevance determination and uses
US8020206B2 (en) 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US8615800B2 (en) 2006-07-10 2013-12-24 Websense, Inc. System and method for analyzing web content
US8646071B2 (en) * 2006-08-07 2014-02-04 Symantec Corporation Method and system for validating site data
US20100205123A1 (en) * 2006-08-10 2010-08-12 Trustees Of Tufts College Systems and methods for identifying unwanted or harmful electronic text
US20080052360A1 (en) * 2006-08-22 2008-02-28 Microsoft Corporation Rules Profiler
US8078625B1 (en) * 2006-09-11 2011-12-13 Aol Inc. URL-based content categorization
US7606214B1 (en) * 2006-09-14 2009-10-20 Trend Micro Incorporated Anti-spam implementations in a router at the network layer
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
US7882187B2 (en) * 2006-10-12 2011-02-01 Watchguard Technologies, Inc. Method and system for detecting undesired email containing image-based messages
GB2443469A (en) * 2006-11-03 2008-05-07 Messagelabs Ltd Detection of image spam
US8577968B2 (en) * 2006-11-14 2013-11-05 Mcafee, Inc. Method and system for handling unwanted email messages
US8590002B1 (en) 2006-11-29 2013-11-19 Mcafee Inc. System, method and computer program product for maintaining a confidentiality of data on a network
US9654495B2 (en) 2006-12-01 2017-05-16 Websense, Llc System and method of analyzing web addresses
US8135780B2 (en) * 2006-12-01 2012-03-13 Microsoft Corporation Email safety determination
US8280978B2 (en) * 2006-12-29 2012-10-02 Prodea Systems, Inc. Demarcation between service provider and user in multi-services gateway device at user premises
US9497205B1 (en) * 2008-05-19 2016-11-15 Emc Corporation Global commonality and network logging
US9152706B1 (en) 2006-12-30 2015-10-06 Emc Corporation Anonymous identification tokens
GB2458094A (en) 2007-01-09 2009-09-09 Surfcontrol On Demand Ltd URL interception and categorization in firewalls
DK2122503T3 (da) * 2007-01-18 2013-02-18 Roke Manor Research Fremgangsmåde til filtrering af sektioner af en datastrøm
US20080177843A1 (en) * 2007-01-22 2008-07-24 Microsoft Corporation Inferring email action based on user input
US8763114B2 (en) 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
US7779156B2 (en) 2007-01-24 2010-08-17 Mcafee, Inc. Reputation based load balancing
US8214497B2 (en) 2007-01-24 2012-07-03 Mcafee, Inc. Multi-dimensional reputation scoring
US7716297B1 (en) 2007-01-30 2010-05-11 Proofpoint, Inc. Message stream analysis for spam detection and filtering
US8356076B1 (en) 2007-01-30 2013-01-15 Proofpoint, Inc. Apparatus and method for performing spam detection and filtering using an image history table
US7849193B1 (en) 2007-02-01 2010-12-07 Adobe Systems Incorporated Multiple hyperlinks in a uniform resource locator
US20080201722A1 (en) * 2007-02-20 2008-08-21 Gurusamy Sarathy Method and System For Unsafe Content Tracking
US8291021B2 (en) * 2007-02-26 2012-10-16 Red Hat, Inc. Graphical spam detection and filtering
US20080222725A1 (en) * 2007-03-05 2008-09-11 Microsoft Corporation Graph structures and web spam detection
US8756673B2 (en) * 2007-03-30 2014-06-17 Ricoh Company, Ltd. Techniques for sharing data
US20080243702A1 (en) * 2007-03-30 2008-10-02 Ricoh Company, Ltd. Tokens Usable in Value-Based Transactions
US20080250106A1 (en) * 2007-04-03 2008-10-09 George Leslie Rugg Use of Acceptance Methods for Accepting Email and Messages
US7861260B2 (en) 2007-04-17 2010-12-28 Almondnet, Inc. Targeted television advertisements based on online behavior
US8725597B2 (en) * 2007-04-25 2014-05-13 Google Inc. Merchant scoring system and transactional database
US20080270549A1 (en) * 2007-04-26 2008-10-30 Microsoft Corporation Extracting link spam using random walks and spam seeds
US8621008B2 (en) 2007-04-26 2013-12-31 Mcafee, Inc. System, method and computer program product for performing an action based on an aspect of an electronic mail message thread
GB0709527D0 (en) 2007-05-18 2007-06-27 Surfcontrol Plc Electronic messaging system, message processing apparatus and message processing method
US9083556B2 (en) * 2007-05-31 2015-07-14 Rpx Clearinghouse Llc System and method for detectng malicious mail from spam zombies
US7693806B2 (en) * 2007-06-21 2010-04-06 Microsoft Corporation Classification using a cascade approach
US8856360B2 (en) * 2007-06-22 2014-10-07 Microsoft Corporation Automatically identifying dynamic internet protocol addresses
US7899870B2 (en) * 2007-06-25 2011-03-01 Microsoft Corporation Determination of participation in a malicious software campaign
US7882177B2 (en) * 2007-08-06 2011-02-01 Yahoo! Inc. Employing pixel density to detect a spam image
US8199965B1 (en) 2007-08-17 2012-06-12 Mcafee, Inc. System, method, and computer program product for preventing image-related data loss
US20090063481A1 (en) * 2007-08-31 2009-03-05 Faus Norman L Systems and methods for developing features for a product
US20130276061A1 (en) 2007-09-05 2013-10-17 Gopi Krishna Chebiyyam System, method, and computer program product for preventing access to data with respect to a data access attempt associated with a remote data sharing session
US8117223B2 (en) * 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
DE102007045909A1 (de) * 2007-09-26 2009-08-06 T-Mobile Internationale Ag Verfahren zum Schutz vor Viren/Spam in Mobilfunknetzen
US20090089859A1 (en) * 2007-09-28 2009-04-02 Cook Debra L Method and apparatus for detecting phishing attempts solicited by electronic mail
US8446607B2 (en) * 2007-10-01 2013-05-21 Mcafee, Inc. Method and system for policy based monitoring and blocking of printing activities on local and network printers
US8185930B2 (en) 2007-11-06 2012-05-22 Mcafee, Inc. Adjusting filter or classification control settings
CN101163161B (zh) * 2007-11-07 2012-02-29 福建星网锐捷网络有限公司 统一资源定位器地址过滤方法及中间传输设备
US8479284B1 (en) * 2007-12-20 2013-07-02 Symantec Corporation Referrer context identification for remote object links
JP2009157510A (ja) * 2007-12-25 2009-07-16 Nec Corp スパム情報判別システム、スパム情報判別方法、およびスパム情報判別プログラム
ATE516655T1 (de) * 2007-12-31 2011-07-15 Telecom Italia Spa Verfahren zur detektion von anomalien in einem kommunikationssystem, das symbolische paketmerkmale verwendet
WO2009083022A1 (en) * 2007-12-31 2009-07-09 Telecom Italia S.P.A. Method of detecting anomalies in a communication system using numerical packet features
US20090171906A1 (en) * 2008-01-02 2009-07-02 Research In Motion Limited System and method for providing information relating to an email being provided to an electronic device
US20090216875A1 (en) * 2008-02-26 2009-08-27 Barracuda Inc. Filtering secure network messages without cryptographic processes method
US8370930B2 (en) * 2008-02-28 2013-02-05 Microsoft Corporation Detecting spam from metafeatures of an email message
US20090228438A1 (en) * 2008-03-07 2009-09-10 Anirban Dasgupta Method and Apparatus for Identifying if Two Websites are Co-Owned
US8107670B2 (en) * 2008-03-11 2012-01-31 Symantec Corporation Scanning images for pornography
US7996900B2 (en) 2008-03-14 2011-08-09 Microsoft Corporation Time travelling email messages after delivery
US8893285B2 (en) 2008-03-14 2014-11-18 Mcafee, Inc. Securing data using integrated host-based data loss agent with encryption detection
US20090240670A1 (en) * 2008-03-20 2009-09-24 Yahoo! Inc. Uniform resource identifier alignment
US8745731B2 (en) * 2008-04-03 2014-06-03 Microsoft Corporation Clustering botnet behavior using parameterized models
US8589503B2 (en) 2008-04-04 2013-11-19 Mcafee, Inc. Prioritizing network traffic
US8108323B2 (en) * 2008-05-19 2012-01-31 Yahoo! Inc. Distributed spam filtering utilizing a plurality of global classifiers and a local classifier
US8291054B2 (en) 2008-05-27 2012-10-16 International Business Machines Corporation Information processing system, method and program for classifying network nodes
JP5324824B2 (ja) * 2008-05-27 2013-10-23 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム
US20090300012A1 (en) * 2008-05-28 2009-12-03 Barracuda Inc. Multilevel intent analysis method for email filtration
US20090300127A1 (en) * 2008-06-03 2009-12-03 Qiang Du E-mail forwarding method and system
US8812377B2 (en) 2008-06-25 2014-08-19 Telefonaktiebolaget Lm Ericsson (Publ) Service brokering using domain name servers
US20090327849A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Link Classification and Filtering
CN102077201A (zh) 2008-06-30 2011-05-25 网圣公司 用于网页的动态及实时归类的系统及方法
US20100011420A1 (en) * 2008-07-02 2010-01-14 Barracuda Networks Inc. Operating a service on a network as a domain name system server
US8219644B2 (en) * 2008-07-03 2012-07-10 Barracuda Networks, Inc. Requesting a service or transmitting content as a domain name system resolver
US9077684B1 (en) 2008-08-06 2015-07-07 Mcafee, Inc. System, method, and computer program product for determining whether an electronic mail message is compliant with an etiquette policy
US10027688B2 (en) * 2008-08-11 2018-07-17 Damballa, Inc. Method and system for detecting malicious and/or botnet-related domain names
US20100042687A1 (en) * 2008-08-12 2010-02-18 Yahoo! Inc. System and method for combating phishing
US7818686B2 (en) 2008-09-04 2010-10-19 International Business Machines Corporation System and method for accelerated web page navigation using keyboard accelerators in a data processing system
US8826450B2 (en) * 2008-09-19 2014-09-02 Yahoo! Inc. Detecting bulk fraudulent registration of email accounts
US20100082749A1 (en) * 2008-09-26 2010-04-01 Yahoo! Inc Retrospective spam filtering
CN101364955B (zh) * 2008-09-28 2010-10-20 杭州电子科技大学 一种分析和提取电子邮件客户端证据的方法
US9070116B2 (en) * 2008-10-09 2015-06-30 At&T Mobility Ii Llc On-demand spam reporting
JP5366504B2 (ja) * 2008-11-05 2013-12-11 Kddi株式会社 メール受信サーバ、スパムメールの受信拒否方法およびプログラム
US8364765B2 (en) * 2008-11-13 2013-01-29 International Business Machines Corporation Prioritizing electronic messages based upon geographical location of the recipient
US8447856B2 (en) * 2008-11-25 2013-05-21 Barracuda Networks, Inc. Policy-managed DNS server for to control network traffic
US20100174829A1 (en) * 2009-01-06 2010-07-08 Barracuda Networks, Inc Apparatus for to provide content to and query a reverse domain name system server
US20100229236A1 (en) * 2009-02-08 2010-09-09 Rybak Michal Andrzej Method and system for spam reporting with a message portion
US8631080B2 (en) * 2009-03-12 2014-01-14 Microsoft Corporation Email characterization
US8166104B2 (en) * 2009-03-19 2012-04-24 Microsoft Corporation Client-centered usage classification
US9112850B1 (en) 2009-03-25 2015-08-18 The 41St Parameter, Inc. Systems and methods of sharing information through a tag-based consortium
US20100257035A1 (en) * 2009-04-07 2010-10-07 Microsoft Corporation Embedded content brokering and advertisement selection delegation
US20100262547A1 (en) * 2009-04-14 2010-10-14 Microsoft Corporation User information brokering
US20100281224A1 (en) * 2009-05-01 2010-11-04 International Buisness Machines Corporation Prefetching content from incoming messages
CN102598007B (zh) 2009-05-26 2017-03-01 韦伯森斯公司 有效检测采指纹数据和信息的系统和方法
US8549627B2 (en) * 2009-06-13 2013-10-01 Microsoft Corporation Detection of objectionable videos
US8925087B1 (en) * 2009-06-19 2014-12-30 Trend Micro Incorporated Apparatus and methods for in-the-cloud identification of spam and/or malware
US8959157B2 (en) * 2009-06-26 2015-02-17 Microsoft Corporation Real-time spam look-up system
JP2011034416A (ja) * 2009-08-04 2011-02-17 Kddi Corp 電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム
JP2011034417A (ja) * 2009-08-04 2011-02-17 Kddi Corp 迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム
CN102045667A (zh) * 2009-10-23 2011-05-04 中兴通讯股份有限公司 防范垃圾电子邮件的实现方法和系统
US8654655B2 (en) * 2009-12-17 2014-02-18 Thomson Licensing Detecting and classifying anomalies in communication networks
US8578497B2 (en) 2010-01-06 2013-11-05 Damballa, Inc. Method and system for detecting malware
US8826438B2 (en) 2010-01-19 2014-09-02 Damballa, Inc. Method and system for network-based detecting of malware from behavioral clustering
US8316094B1 (en) * 2010-01-21 2012-11-20 Symantec Corporation Systems and methods for identifying spam mailing lists
US9838349B2 (en) 2010-03-08 2017-12-05 Microsoft Technology Licensing, Llc Zone classification of electronic mail messages
US20110225076A1 (en) * 2010-03-09 2011-09-15 Google Inc. Method and system for detecting fraudulent internet merchants
US9652802B1 (en) 2010-03-24 2017-05-16 Consumerinfo.Com, Inc. Indirect monitoring and reporting of a user's credit data
US9049247B2 (en) 2010-04-01 2015-06-02 Cloudfare, Inc. Internet-based proxy service for responding to server offline errors
US8751633B2 (en) 2010-04-01 2014-06-10 Cloudflare, Inc. Recording internet visitor threat information through an internet-based proxy service
US8086684B2 (en) 2010-04-20 2011-12-27 The Go Daddy Group, Inc. Detecting and mitigating undeliverable email
US8621638B2 (en) 2010-05-14 2013-12-31 Mcafee, Inc. Systems and methods for classification of messaging entities
US20110289434A1 (en) * 2010-05-20 2011-11-24 Barracuda Networks, Inc. Certified URL checking, caching, and categorization service
US8707420B2 (en) * 2010-05-21 2014-04-22 Microsoft Corporation Trusted e-mail communication in a multi-tenant environment
EP2593873B1 (en) * 2010-07-16 2022-08-10 First Wave Technology Pty Ltd Methods and systems for analysis and/or classification of information
US9516058B2 (en) 2010-08-10 2016-12-06 Damballa, Inc. Method and system for determining whether domain names are legitimate or malicious
WO2012033563A1 (en) 2010-09-10 2012-03-15 Darren Gardner System and method for providing a plurality of prioritised email domain names
US8498998B2 (en) * 2010-10-11 2013-07-30 International Business Machines Corporation Grouping identity records to generate candidate lists to use in an entity and relationship resolution process
US9148432B2 (en) * 2010-10-12 2015-09-29 Microsoft Technology Licensing, Llc Range weighted internet protocol address blacklist
US8396876B2 (en) 2010-11-30 2013-03-12 Yahoo! Inc. Identifying reliable and authoritative sources of multimedia content
US8695092B2 (en) 2010-12-06 2014-04-08 Microsoft Corporation Host IP reputation
US8885931B2 (en) * 2011-01-26 2014-11-11 Microsoft Corporation Mitigating use of machine solvable HIPs
US9461878B1 (en) 2011-02-01 2016-10-04 Palo Alto Networks, Inc. Blocking download of content
US8631489B2 (en) 2011-02-01 2014-01-14 Damballa, Inc. Method and system for detecting malicious domain names at an upper DNS hierarchy
US8554907B1 (en) * 2011-02-15 2013-10-08 Trend Micro, Inc. Reputation prediction of IP addresses
EP2676197B1 (en) 2011-02-18 2018-11-28 CSidentity Corporation System and methods for identifying compromised personally identifiable information on the internet
US8626856B2 (en) * 2011-04-11 2014-01-07 Microsoft Corporation Geo-data spam filter
RU2453916C1 (ru) * 2011-05-05 2012-06-20 Игорь Викторович Лебедев Способ поиска информационных ресурсов с использованием переадресаций
US9117074B2 (en) 2011-05-18 2015-08-25 Microsoft Technology Licensing, Llc Detecting a compromised online user account
US8285808B1 (en) 2011-05-20 2012-10-09 Cloudflare, Inc. Loading of web resources
US8621556B1 (en) * 2011-05-25 2013-12-31 Palo Alto Networks, Inc. Dynamic resolution of fully qualified domain name (FQDN) address objects in policy definitions
US9087324B2 (en) 2011-07-12 2015-07-21 Microsoft Technology Licensing, Llc Message categorization
US9065826B2 (en) 2011-08-08 2015-06-23 Microsoft Technology Licensing, Llc Identifying application reputation based on resource accesses
US9442881B1 (en) 2011-08-31 2016-09-13 Yahoo! Inc. Anti-spam transient entity classification
US11030562B1 (en) 2011-10-31 2021-06-08 Consumerinfo.Com, Inc. Pre-data breach monitoring
US10754913B2 (en) 2011-11-15 2020-08-25 Tapad, Inc. System and method for analyzing user device information
US8954492B1 (en) * 2011-11-30 2015-02-10 F5 Networks, Inc. Methods for inlining content externally referenced in a web page prior to providing the web page to a requestor and devices thereof
KR101253616B1 (ko) * 2011-12-09 2013-04-11 한국인터넷진흥원 네트워크 경로 추적 장치 및 방법
US9633201B1 (en) 2012-03-01 2017-04-25 The 41St Parameter, Inc. Methods and systems for fraud containment
US8819227B1 (en) * 2012-03-19 2014-08-26 Narus, Inc. Discerning web content and services based on real-time DNS tagging
US9521551B2 (en) 2012-03-22 2016-12-13 The 41St Parameter, Inc. Methods and systems for persistent cross-application mobile device identification
TWI478561B (zh) * 2012-04-05 2015-03-21 Inst Information Industry 網域追蹤方法與系統及其電腦可讀取記錄媒體
US8396935B1 (en) * 2012-04-10 2013-03-12 Google Inc. Discovering spam merchants using product feed similarity
EP2880619A1 (en) 2012-08-02 2015-06-10 The 41st Parameter, Inc. Systems and methods for accessing records via derivative locators
US10547674B2 (en) 2012-08-27 2020-01-28 Help/Systems, Llc Methods and systems for network flow analysis
US10084806B2 (en) 2012-08-31 2018-09-25 Damballa, Inc. Traffic simulation to identify malicious activity
US9166994B2 (en) 2012-08-31 2015-10-20 Damballa, Inc. Automation discovery to identify malicious activity
US9680861B2 (en) 2012-08-31 2017-06-13 Damballa, Inc. Historical analysis to identify malicious activity
US9894088B2 (en) 2012-08-31 2018-02-13 Damballa, Inc. Data mining to identify malicious activity
US8667074B1 (en) * 2012-09-11 2014-03-04 Bradford L. Farkas Systems and methods for email tracking and email spam reduction using dynamic email addressing schemes
US8898272B1 (en) 2012-10-02 2014-11-25 Amazon Technologies, Inc. Identifying information in resource locators
US9326218B2 (en) 2012-11-02 2016-04-26 Telefonaktiebolaget L M Ericsson (Publ) Base-station-to-base-station gateway and related devices, methods, and systems
WO2014078569A1 (en) 2012-11-14 2014-05-22 The 41St Parameter, Inc. Systems and methods of global identification
US9241259B2 (en) 2012-11-30 2016-01-19 Websense, Inc. Method and apparatus for managing the transfer of sensitive information to mobile devices
US9531736B1 (en) 2012-12-24 2016-12-27 Narus, Inc. Detecting malicious HTTP redirections using user browsing activity trees
US9027128B1 (en) * 2013-02-07 2015-05-05 Trend Micro Incorporated Automatic identification of malicious budget codes and compromised websites that are employed in phishing attacks
US8812387B1 (en) 2013-03-14 2014-08-19 Csidentity Corporation System and method for identifying related credit inquiries
CN103179024B (zh) * 2013-03-18 2016-01-20 北京二六三企业通信有限公司 邮件过滤方法及装置
CN103198396A (zh) * 2013-03-28 2013-07-10 南通大学 基于社会网络行为特征的邮件分类方法
US9571511B2 (en) 2013-06-14 2017-02-14 Damballa, Inc. Systems and methods for traffic classification
ITTO20130513A1 (it) * 2013-06-21 2014-12-22 Sisvel Technology Srl Sistema e metodo per il filtraggio di messaggi elettronici
US9811830B2 (en) 2013-07-03 2017-11-07 Google Inc. Method, medium, and system for online fraud prevention based on user physical location data
US9258260B2 (en) 2013-08-19 2016-02-09 Microsoft Technology Licensing, Llc Filtering electronic messages based on domain attributes without reputation
US10902327B1 (en) 2013-08-30 2021-01-26 The 41St Parameter, Inc. System and method for device identification and uniqueness
RU2595533C2 (ru) * 2013-10-02 2016-08-27 Общество С Ограниченной Ответственностью "Яндекс" Система отображения почтовых вложений на странице веб-почты
CN104601736B (zh) * 2013-10-30 2018-10-23 腾讯科技(深圳)有限公司 一种短url服务的实现方法及装置
US9239737B2 (en) 2013-11-15 2016-01-19 Sap Se Concise resource addressing
CN103634422B (zh) * 2013-11-29 2017-03-08 北京奇安信科技有限公司 一种cdn源站的ip地址识别方法及装置
US11568280B1 (en) * 2019-01-23 2023-01-31 Amdocs Development Limited System, method, and computer program for parental controls and recommendations based on artificial intelligence
US10778618B2 (en) * 2014-01-09 2020-09-15 Oath Inc. Method and system for classifying man vs. machine generated e-mail
JP5986338B2 (ja) * 2014-03-13 2016-09-06 日本電信電話株式会社 監視装置、監視方法、および、監視プログラム
KR101561289B1 (ko) 2014-03-13 2015-10-16 (주)코리아센터닷컴 메시지 편집 장치
US10079791B2 (en) * 2014-03-14 2018-09-18 Xpedite Systems, Llc Systems and methods for domain- and auto-registration
US20180053114A1 (en) 2014-10-23 2018-02-22 Brighterion, Inc. Artificial intelligence for context classifier
US10896421B2 (en) 2014-04-02 2021-01-19 Brighterion, Inc. Smart retail analytics and commercial messaging
US9928465B2 (en) * 2014-05-20 2018-03-27 Oath Inc. Machine learning and validation of account names, addresses, and/or identifiers
US10027702B1 (en) 2014-06-13 2018-07-17 Trend Micro Incorporated Identification of malicious shortened uniform resource locators
US10078750B1 (en) 2014-06-13 2018-09-18 Trend Micro Incorporated Methods and systems for finding compromised social networking accounts
US9571452B2 (en) * 2014-07-01 2017-02-14 Sophos Limited Deploying a security policy based on domain names
US11838851B1 (en) 2014-07-15 2023-12-05 F5, Inc. Methods for managing L7 traffic classification and devices thereof
US9280661B2 (en) 2014-08-08 2016-03-08 Brighterion, Inc. System administrator behavior analysis
US20150339673A1 (en) 2014-10-28 2015-11-26 Brighterion, Inc. Method for detecting merchant data breaches with a computer network server
US20160055427A1 (en) 2014-10-15 2016-02-25 Brighterion, Inc. Method for providing data science, artificial intelligence and machine learning as-a-service
US20150032589A1 (en) 2014-08-08 2015-01-29 Brighterion, Inc. Artificial intelligence fraud management solution
US20150066771A1 (en) 2014-08-08 2015-03-05 Brighterion, Inc. Fast access vectors in real-time behavioral profiling
US9560074B2 (en) * 2014-10-07 2017-01-31 Cloudmark, Inc. Systems and methods of identifying suspicious hostnames
US10091312B1 (en) 2014-10-14 2018-10-02 The 41St Parameter, Inc. Data structures for intelligently resolving deterministic and probabilistic device identifiers to device profiles and/or groups
US11080709B2 (en) 2014-10-15 2021-08-03 Brighterion, Inc. Method of reducing financial losses in multiple payment channels upon a recognition of fraud first appearing in any one payment channel
US20160071017A1 (en) 2014-10-15 2016-03-10 Brighterion, Inc. Method of operating artificial intelligence machines to improve predictive model training and performance
US20160063502A1 (en) 2014-10-15 2016-03-03 Brighterion, Inc. Method for improving operating profits with better automated decision making with artificial intelligence
US20160078367A1 (en) 2014-10-15 2016-03-17 Brighterion, Inc. Data clean-up method for improving predictive model training
US10546099B2 (en) 2014-10-15 2020-01-28 Brighterion, Inc. Method of personalizing, individualizing, and automating the management of healthcare fraud-waste-abuse to unique individual healthcare providers
US10290001B2 (en) 2014-10-28 2019-05-14 Brighterion, Inc. Data breach detection
US10339527B1 (en) 2014-10-31 2019-07-02 Experian Information Solutions, Inc. System and architecture for electronic fraud detection
TWI544764B (zh) 2014-11-17 2016-08-01 緯創資通股份有限公司 垃圾郵件判定方法及其郵件伺服器
RU2580424C1 (ru) * 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер
US10182013B1 (en) 2014-12-01 2019-01-15 F5 Networks, Inc. Methods for managing progressive image delivery and devices thereof
US20200067861A1 (en) * 2014-12-09 2020-02-27 ZapFraud, Inc. Scam evaluation system
US11895138B1 (en) 2015-02-02 2024-02-06 F5, Inc. Methods for improving web scanner accuracy and devices thereof
US10701085B2 (en) * 2015-03-05 2020-06-30 Nippon Telegraph And Telephone Corporation Communication partner malignancy calculation device, communication partner malignancy calculation method, and communication partner malignancy calculation program
US9930065B2 (en) 2015-03-25 2018-03-27 University Of Georgia Research Foundation, Inc. Measuring, categorizing, and/or mitigating malware distribution paths
US9736185B1 (en) 2015-04-21 2017-08-15 Infoblox Inc. DNS or network metadata policy for network control
US9521157B1 (en) * 2015-06-24 2016-12-13 Bank Of America Corporation Identifying and assessing malicious resources
US11151468B1 (en) 2015-07-02 2021-10-19 Experian Information Solutions, Inc. Behavior analysis using distributed representations of event data
US10671915B2 (en) 2015-07-31 2020-06-02 Brighterion, Inc. Method for calling for preemptive maintenance and for equipment failure prevention
US9762542B2 (en) * 2015-08-04 2017-09-12 Farsight Security, Inc. Parallel detection of updates to a domain name system record system using a common filter
US10057198B1 (en) 2015-11-05 2018-08-21 Trend Micro Incorporated Controlling social network usage in enterprise environments
US10305839B2 (en) * 2015-11-17 2019-05-28 Clover Leaf Environmental Solutions, Inc. Electronic information system enabling email-based transactions with forms
US11856260B2 (en) * 2016-03-30 2023-12-26 Covenant Eyes, Inc. Applications, systems and methods to monitor, filter and/or alter output of a computing device
CN107294834A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种识别垃圾邮件的方法和装置
CN105912674A (zh) * 2016-04-13 2016-08-31 精硕世纪科技(北京)有限公司 数据降噪及分类方法、装置及系统
CN106028297B (zh) * 2016-04-28 2019-11-08 北京小米移动软件有限公司 携带网址的短信处理方法及装置
US10397256B2 (en) * 2016-06-13 2019-08-27 Microsoft Technology Licensing, Llc Spam classification system based on network flow data
EP3297221B1 (en) 2016-09-19 2018-11-14 retarus GmbH Technique for detecting suspicious electronic messages
US10313348B2 (en) * 2016-09-19 2019-06-04 Fortinet, Inc. Document classification by a hybrid classifier
US10346223B1 (en) * 2016-11-23 2019-07-09 Google Llc Selective obfuscation of notifications
US10284579B2 (en) * 2017-03-22 2019-05-07 Vade Secure, Inc. Detection of email spoofing and spear phishing attacks
EP3389237B1 (de) * 2017-04-10 2019-04-03 ise Individuelle Software und Elektronik GmbH Verfahren, vorrichtung, computerlesbares medium und system zum aufbau von verbindungen zwischen einem client und einem ziel- oder endgerät
US11757914B1 (en) * 2017-06-07 2023-09-12 Agari Data, Inc. Automated responsive message to determine a security risk of a message sender
US10805259B2 (en) 2017-06-30 2020-10-13 Microsoft Technology Licensing, Llc Geolocation using reverse domain name server information
CN109218162B (zh) * 2017-07-05 2021-04-27 北京二六三企业通信有限公司 邮件投递方法及装置
US10708297B2 (en) 2017-08-25 2020-07-07 Ecrime Management Strategies, Inc. Security system for detection and mitigation of malicious communications
US10778717B2 (en) 2017-08-31 2020-09-15 Barracuda Networks, Inc. System and method for email account takeover detection and remediation
US11665195B2 (en) 2017-08-31 2023-05-30 Barracuda Networks, Inc. System and method for email account takeover detection and remediation utilizing anonymized datasets
US11563757B2 (en) 2017-08-31 2023-01-24 Barracuda Networks, Inc. System and method for email account takeover detection and remediation utilizing AI models
US10891373B2 (en) * 2017-08-31 2021-01-12 Micro Focus Llc Quarantining electronic messages based on relationships among associated addresses
JP6698952B2 (ja) * 2017-09-14 2020-05-27 三菱電機株式会社 メール検査装置、メール検査方法およびメール検査プログラム
US10699028B1 (en) 2017-09-28 2020-06-30 Csidentity Corporation Identity security architecture systems and methods
US10896472B1 (en) 2017-11-14 2021-01-19 Csidentity Corporation Security and identity verification system and architecture
RU2672616C1 (ru) * 2017-11-22 2018-11-16 Акционерное общество "МаксимаТелеком" Комплекс и способ для предотвращения блокировки рекламного контента
US11044213B2 (en) * 2017-12-19 2021-06-22 Nice Ltd. Systems and methods for invisible identification of agents participating in on-line communication sessions
US20190342297A1 (en) 2018-05-01 2019-11-07 Brighterion, Inc. Securing internet-of-things with smart-agent technology
EP3614280A1 (de) * 2018-08-20 2020-02-26 Siemens Aktiengesellschaft Bestimmen eines ergebniswerts einer uniform resource identifier-, uri, zeichenfolge
US10965691B1 (en) * 2018-09-28 2021-03-30 Verizon Media Inc. Systems and methods for establishing sender-level trust in communications using sender-recipient pair data
US11431738B2 (en) 2018-12-19 2022-08-30 Abnormal Security Corporation Multistage analysis of emails to identify security threats
US11824870B2 (en) 2018-12-19 2023-11-21 Abnormal Security Corporation Threat detection platforms for detecting, characterizing, and remediating email-based threats in real time
US11050793B2 (en) 2018-12-19 2021-06-29 Abnormal Security Corporation Retrospective learning of communication patterns by machine learning models for discovering abnormal behavior
US10686826B1 (en) * 2019-03-28 2020-06-16 Vade Secure Inc. Optical scanning parameters computation methods, devices and systems for malicious URL detection
WO2021025785A1 (en) * 2019-08-07 2021-02-11 Acxiom Llc System and method for ethical collection of data
US11710137B2 (en) 2019-08-23 2023-07-25 Yandex Europe Ag Method and system for identifying electronic devices of genuine customers of organizations
US11411919B2 (en) 2019-10-01 2022-08-09 EXFO Solutions SAS Deep packet inspection application classification systems and methods
CN111046283A (zh) * 2019-12-04 2020-04-21 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及存储介质
RU2752241C2 (ru) 2019-12-25 2021-07-23 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для выявления вредоносной активности предопределенного типа в локальной сети
US11050879B1 (en) * 2019-12-31 2021-06-29 First Orion Corp. Call traffic data monitoring and management
CN110874531B (zh) * 2020-01-20 2020-07-10 湖南蚁坊软件股份有限公司 一种话题分析方法、装置和存储介质
US11784948B2 (en) * 2020-01-29 2023-10-10 International Business Machines Corporation Cognitive determination of message suitability
US11252189B2 (en) 2020-03-02 2022-02-15 Abnormal Security Corporation Abuse mailbox for facilitating discovery, investigation, and analysis of email-based threats
WO2021178423A1 (en) 2020-03-02 2021-09-10 Abnormal Security Corporation Multichannel threat detection for protecting against account compromise
US10945051B1 (en) 2020-04-06 2021-03-09 Bank Of America Corporation System and method for intentionally distorting digital media to reduce the accuracy of generative machine learning algorithms
WO2021217049A1 (en) 2020-04-23 2021-10-28 Abnormal Security Corporation Detection and prevention of external fraud
US11108714B1 (en) * 2020-07-29 2021-08-31 Vmware, Inc. Integration of an email client with hosted applications
KR102527260B1 (ko) * 2020-09-15 2023-04-27 주식회사 카카오 스팸 url을 판단하는 방법 및 시스템
US11563659B2 (en) 2020-10-13 2023-01-24 Vmware, Inc. Edge alert coordinator for mobile devices
US11528242B2 (en) * 2020-10-23 2022-12-13 Abnormal Security Corporation Discovering graymail through real-time analysis of incoming email
US11687648B2 (en) 2020-12-10 2023-06-27 Abnormal Security Corporation Deriving and surfacing insights regarding security threats
CN112733898A (zh) * 2020-12-30 2021-04-30 光通天下网络科技股份有限公司 基于特征权重的数据鉴别方法、装置、电子设备及介质
US11882131B1 (en) * 2020-12-31 2024-01-23 Proofpoint, Inc. Systems and methods for prioritizing URL review for sandboxing based on accelerated velocities of URL features in network traffic
US11277375B1 (en) * 2021-01-04 2022-03-15 Saudi Arabian Oil Company Sender policy framework (SPF) configuration validator and security examinator
US11570149B2 (en) 2021-03-30 2023-01-31 Palo Alto Networks, Inc. Feedback mechanism to enforce a security policy
US11831661B2 (en) 2021-06-03 2023-11-28 Abnormal Security Corporation Multi-tiered approach to payload detection for incoming communications
US11829423B2 (en) * 2021-06-25 2023-11-28 Microsoft Technology Licensing, Llc Determining that a resource is spam based upon a uniform resource locator of the webpage
TWI774582B (zh) 2021-10-13 2022-08-11 財團法人工業技術研究院 惡意超文本傳輸協定請求的偵測裝置和偵測方法
WO2023096964A1 (en) * 2021-11-23 2023-06-01 Insurance Services Office, Inc. Systems and methods for automatic url identification from data
US20230336571A1 (en) * 2022-04-19 2023-10-19 Akamai Technologies, Inc. Real-time detection and prevention of online new-account creation fraud and abuse
KR102472447B1 (ko) * 2022-06-13 2022-11-30 (주)유알피시스템 머신러닝을 이용한 복합 문서내 특정 콘텐츠 자동 차단 시스템 및 방법

Family Cites Families (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8918553D0 (en) 1989-08-15 1989-09-27 Digital Equipment Int Message control system
US5758257A (en) 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5619648A (en) 1994-11-30 1997-04-08 Lucent Technologies Inc. Message filtering techniques
US5638487A (en) 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
WO1996035994A1 (en) 1995-05-08 1996-11-14 Compuserve Incorporated Rules based electronic message management system
US5845077A (en) 1995-11-27 1998-12-01 Microsoft Corporation Method and system for identifying and obtaining computer software from a remote computer
US6101531A (en) 1995-12-19 2000-08-08 Motorola, Inc. System for communicating user-selected criteria filter prepared at wireless client to communication server for filtering data transferred from host to said wireless client
US5704017A (en) 1996-02-16 1997-12-30 Microsoft Corporation Collaborative filtering utilizing a belief network
US5884033A (en) 1996-05-15 1999-03-16 Spyglass, Inc. Internet filtering system for filtering data transferred over the internet utilizing immediate and deferred filtering actions
US6151643A (en) 1996-06-07 2000-11-21 Networks Associates, Inc. Automatic updating of diverse software products on multiple client computer systems by downloading scanning application to client computer and generating software list on client computer
US6453327B1 (en) 1996-06-10 2002-09-17 Sun Microsystems, Inc. Method and apparatus for identifying and discarding junk electronic mail
US6072942A (en) 1996-09-18 2000-06-06 Secure Computing Corporation System and method of electronic mail filtering using interconnected nodes
DE69607166T2 (de) * 1996-10-15 2000-12-14 St Microelectronics Srl Elektronische Anordnung zur Durchführung von Konvolutionsoperationen
US5905859A (en) 1997-01-09 1999-05-18 International Business Machines Corporation Managed network device security method and apparatus
US5805801A (en) 1997-01-09 1998-09-08 International Business Machines Corporation System and method for detecting and preventing security
US6122657A (en) 1997-02-04 2000-09-19 Networks Associates, Inc. Internet computer system with methods for dynamic filtering of hypertext tags and content
US6742047B1 (en) 1997-03-27 2004-05-25 Intel Corporation Method and apparatus for dynamically filtering network content
DE69724235T2 (de) 1997-05-28 2004-02-26 Siemens Ag Computersystem und Verfahren zum Schutz von Software
US7117358B2 (en) 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US20050081059A1 (en) * 1997-07-24 2005-04-14 Bandini Jean-Christophe Denis Method and system for e-mail filtering
US6199102B1 (en) 1997-08-26 2001-03-06 Christopher Alan Cobb Method and system for filtering electronic messages
US6041324A (en) 1997-11-17 2000-03-21 International Business Machines Corporation System and method for identifying valid portion of computer resource identifier
RU2127959C1 (ru) 1997-11-17 1999-03-20 Борис Семенович Пинскер Способ исключения нежелательной информации в режиме приема программ телевизионным приемником и устройство для его осуществления
US6003027A (en) 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6393465B2 (en) 1997-11-25 2002-05-21 Nixmail Corporation Junk electronic mail detector and eliminator
US6351740B1 (en) * 1997-12-01 2002-02-26 The Board Of Trustees Of The Leland Stanford Junior University Method and system for training dynamic nonlinear adaptive filters which have embedded memory
US6023723A (en) 1997-12-22 2000-02-08 Accepted Marketing, Inc. Method and system for filtering unwanted junk e-mail utilizing a plurality of filtering mechanisms
WO1999032985A1 (en) 1997-12-22 1999-07-01 Accepted Marketing, Inc. E-mail filter and method thereof
US6052709A (en) * 1997-12-23 2000-04-18 Bright Light Technologies, Inc. Apparatus and method for controlling delivery of unsolicited electronic mail
GB2334116A (en) 1998-02-04 1999-08-11 Ibm Scheduling and dispatching queued client requests within a server computer
US6484261B1 (en) 1998-02-17 2002-11-19 Cisco Technology, Inc. Graphical network security policy management
US6504941B2 (en) 1998-04-30 2003-01-07 Hewlett-Packard Company Method and apparatus for digital watermarking of images
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6074942A (en) * 1998-06-03 2000-06-13 Worldwide Semiconductor Manufacturing Corporation Method for forming a dual damascene contact and interconnect
US6308273B1 (en) 1998-06-12 2001-10-23 Microsoft Corporation Method and system of security location discrimination
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6161130A (en) 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US7275082B2 (en) * 1998-07-15 2007-09-25 Pang Stephen Y F System for policing junk e-mail messages
US6167434A (en) 1998-07-15 2000-12-26 Pang; Stephen Y. Computer code for removing junk e-mail messages
US6112227A (en) 1998-08-06 2000-08-29 Heiner; Jeffrey Nelson Filter-in method for reducing junk e-mail
US6434600B2 (en) 1998-09-15 2002-08-13 Microsoft Corporation Methods and systems for securely delivering electronic mail to hosts having dynamic IP addresses
US6732273B1 (en) 1998-10-21 2004-05-04 Lucent Technologies Inc. Priority and security coding system for electronic mail messages
GB2343529B (en) 1998-11-07 2003-06-11 Ibm Filtering incoming e-mail
US6546416B1 (en) 1998-12-09 2003-04-08 Infoseek Corporation Method and system for selectively blocking delivery of bulk electronic mail
US6643686B1 (en) * 1998-12-18 2003-11-04 At&T Corp. System and method for counteracting message filtering
US6615242B1 (en) 1998-12-28 2003-09-02 At&T Corp. Automatic uniform resource locator-based message filter
US6654787B1 (en) 1998-12-31 2003-11-25 Brightmail, Incorporated Method and apparatus for filtering e-mail
US6266692B1 (en) 1999-01-04 2001-07-24 International Business Machines Corporation Method for blocking all unwanted e-mail (SPAM) using a header-based password
US6330590B1 (en) 1999-01-05 2001-12-11 William D. Cotten Preventing delivery of unwanted bulk e-mail
US6424997B1 (en) 1999-01-27 2002-07-23 International Business Machines Corporation Machine learning based electronic messaging system
US6449634B1 (en) 1999-01-29 2002-09-10 Digital Impact, Inc. Method and system for remotely sensing the file formats processed by an E-mail client
US6477551B1 (en) 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
US7032030B1 (en) 1999-03-11 2006-04-18 John David Codignotto Message publishing system and method
US6732149B1 (en) 1999-04-09 2004-05-04 International Business Machines Corporation System and method for hindering undesired transmission or receipt of electronic messages
US6370526B1 (en) 1999-05-18 2002-04-09 International Business Machines Corporation Self-adaptive method and system for providing a user-preferred ranking order of object sets
US6592627B1 (en) 1999-06-10 2003-07-15 International Business Machines Corporation System and method for organizing repositories of semi-structured documents such as email
EP1232431A4 (en) * 1999-09-01 2005-06-08 Peter L Katsikas UNAUTHORIZED ELECTRONIC MAIL REMOVAL SYSTEM
US6449636B1 (en) 1999-09-08 2002-09-10 Nortel Networks Limited System and method for creating a dynamic data file from collected and filtered web pages
US6321267B1 (en) 1999-11-23 2001-11-20 Escom Corporation Method and apparatus for filtering junk email
US6728690B1 (en) 1999-11-23 2004-04-27 Microsoft Corporation Classification system trainer employing maximum margin back-propagation with probabilistic outputs
US6915344B1 (en) * 1999-11-30 2005-07-05 Microsoft Corporation Server stress-testing response verification
US6633855B1 (en) 2000-01-06 2003-10-14 International Business Machines Corporation Method, system, and program for filtering content using neural networks
US6701440B1 (en) 2000-01-06 2004-03-02 Networks Associates Technology, Inc. Method and system for protecting a computer using a remote e-mail scanning device
US7822977B2 (en) 2000-02-08 2010-10-26 Katsikas Peter L System for eliminating unauthorized electronic mail
US6438584B1 (en) * 2000-03-07 2002-08-20 Letter Services, Inc. Automatic generation of graphically-composed correspondence via a text email-interface
US6691156B1 (en) 2000-03-10 2004-02-10 International Business Machines Corporation Method for restricting delivery of unsolicited E-mail
US6684201B1 (en) 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US7210099B2 (en) 2000-06-12 2007-04-24 Softview Llc Resolution independent vector display of internet content
US20040073617A1 (en) 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
US6990513B2 (en) 2000-06-22 2006-01-24 Microsoft Corporation Distributed computing services platform
US7003555B1 (en) * 2000-06-23 2006-02-21 Cloudshield Technologies, Inc. Apparatus and method for domain name resolution
TW533702B (en) * 2000-07-28 2003-05-21 Wistron Corp Network communication system and dynamic message routing method therefor
US6779021B1 (en) 2000-07-28 2004-08-17 International Business Machines Corporation Method and system for predicting and managing undesirable electronic mail
US6842773B1 (en) 2000-08-24 2005-01-11 Yahoo ! Inc. Processing of textual electronic communication distributed in bulk
US6757830B1 (en) 2000-10-03 2004-06-29 Networks Associates Technology, Inc. Detecting unwanted properties in received email messages
US6971023B1 (en) 2000-10-03 2005-11-29 Mcafee, Inc. Authorizing an additional computer program module for use with a core computer program
US6748422B2 (en) 2000-10-19 2004-06-08 Ebay Inc. System and method to control sending of unsolicited communications relating to a plurality of listings in a network-based commerce facility
US7243125B2 (en) 2000-12-08 2007-07-10 Xerox Corporation Method and apparatus for presenting e-mail threads as semi-connected text by removing redundant material
JP3554271B2 (ja) 2000-12-13 2004-08-18 パナソニック コミュニケーションズ株式会社 情報通信装置
US6775704B1 (en) 2000-12-28 2004-08-10 Networks Associates Technology, Inc. System and method for preventing a spoofed remote procedure call denial of service attack in a networked computing environment
US20050159136A1 (en) * 2000-12-29 2005-07-21 Andrew Rouse System and method for providing wireless device access
US20020129111A1 (en) * 2001-01-15 2002-09-12 Cooper Gerald M. Filtering unsolicited email
US6941466B2 (en) * 2001-02-22 2005-09-06 International Business Machines Corporation Method and apparatus for providing automatic e-mail filtering based on message semantics, sender's e-mail ID, and user's identity
US20020124025A1 (en) 2001-03-01 2002-09-05 International Business Machines Corporataion Scanning and outputting textual information in web page images
GB2373130B (en) 2001-03-05 2004-09-22 Messagelabs Ltd Method of,and system for,processing email in particular to detect unsolicited bulk email
US6928465B2 (en) 2001-03-16 2005-08-09 Wells Fargo Bank, N.A. Redundant email address detection and capture system
US6751348B2 (en) 2001-03-29 2004-06-15 Fotonation Holdings, Llc Automated detection of pornographic images
US8949878B2 (en) 2001-03-30 2015-02-03 Funai Electric Co., Ltd. System for parental control in video programs based on multimedia content information
US6920477B2 (en) 2001-04-06 2005-07-19 President And Fellows Of Harvard College Distributed, compressed Bloom filter Web cache server
US7188106B2 (en) 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US8095597B2 (en) 2001-05-01 2012-01-10 Aol Inc. Method and system of automating data capture from electronic correspondence
US7103599B2 (en) 2001-05-15 2006-09-05 Verizon Laboratories Inc. Parsing of nested internet electronic mail documents
US6768991B2 (en) 2001-05-15 2004-07-27 Networks Associates Technology, Inc. Searching for sequences of character data
US20030009698A1 (en) * 2001-05-30 2003-01-09 Cascadezone, Inc. Spam avenger
US7502829B2 (en) 2001-06-21 2009-03-10 Cybersoft, Inc. Apparatus, methods and articles of manufacture for intercepting, examining and controlling code, data and files and their transfer
US7328250B2 (en) 2001-06-29 2008-02-05 Nokia, Inc. Apparatus and method for handling electronic mail
US20030009495A1 (en) 2001-06-29 2003-01-09 Akli Adjaoute Systems and methods for filtering electronic content
TW533380B (en) 2001-07-23 2003-05-21 Ulead Systems Inc Group image detecting method
US6769016B2 (en) * 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
US7146402B2 (en) 2001-08-31 2006-12-05 Sendmail, Inc. E-mail system providing filtering methodology on a per-domain basis
KR100369282B1 (ko) 2001-09-28 2003-01-24 주식회사 케이티 가상 전자우편주소를 이용한 스팸메일 방지 서비스 시스템및 그 방법
JP3590936B2 (ja) 2001-10-06 2004-11-17 テラス テクノロジーズ,インコーポレイテッド 動的ipフィルタリングモジュールを有する電子メールサービスシステム及び動的ipアドレスフィルタリング方法
US20060036701A1 (en) * 2001-11-20 2006-02-16 Bulfer Andrew F Messaging system having message filtering and access control
US8561167B2 (en) * 2002-03-08 2013-10-15 Mcafee, Inc. Web reputation scoring
JP2003263391A (ja) 2002-03-11 2003-09-19 Nec Corp 迷惑メールのフィルタリング方式
US6785820B1 (en) 2002-04-02 2004-08-31 Networks Associates Technology, Inc. System, method and computer program product for conditionally updating a security program
US20030204569A1 (en) 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US20030229672A1 (en) 2002-06-05 2003-12-11 Kohn Daniel Mark Enforceable spam identification and reduction system, and method thereof
US8046832B2 (en) 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
US8924484B2 (en) 2002-07-16 2014-12-30 Sonicwall, Inc. Active e-mail filter with challenge-response
US7363490B2 (en) 2002-09-12 2008-04-22 International Business Machines Corporation Method and system for selective email acceptance via encoded email identifiers
US7188369B2 (en) 2002-10-03 2007-03-06 Trend Micro, Inc. System and method having an antivirus virtual scanning processor with plug-in functionalities
US20040083270A1 (en) 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail
US7149801B2 (en) 2002-11-08 2006-12-12 Microsoft Corporation Memory bound functions for spam deterrence and the like
US6732157B1 (en) 2002-12-13 2004-05-04 Networks Associates Technology, Inc. Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages
AU2003288515A1 (en) 2002-12-26 2004-07-22 Commtouch Software Ltd. Detection and prevention of spam
US7533148B2 (en) 2003-01-09 2009-05-12 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7171450B2 (en) 2003-01-09 2007-01-30 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7725544B2 (en) * 2003-01-24 2010-05-25 Aol Inc. Group based spam classification
US7249162B2 (en) 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
US7543053B2 (en) 2003-03-03 2009-06-02 Microsoft Corporation Intelligent quarantining for spam prevention
US7219148B2 (en) 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US7366761B2 (en) * 2003-10-09 2008-04-29 Abaca Technology Corporation Method for creating a whitelist for processing e-mails
US20040177120A1 (en) 2003-03-07 2004-09-09 Kirsch Steven T. Method for filtering e-mail messages
US7320020B2 (en) * 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
US7653698B2 (en) 2003-05-29 2010-01-26 Sonicwall, Inc. Identifying e-mail messages from allowed senders
US7293063B1 (en) 2003-06-04 2007-11-06 Symantec Corporation System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection
US7263607B2 (en) 2003-06-12 2007-08-28 Microsoft Corporation Categorizing electronic messages based on trust between electronic messaging entities
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7155484B2 (en) 2003-06-30 2006-12-26 Bellsouth Intellectual Property Corporation Filtering email messages corresponding to undesirable geographical regions
US7051077B2 (en) 2003-06-30 2006-05-23 Mx Logic, Inc. Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers
US20050015455A1 (en) 2003-07-18 2005-01-20 Liu Gary G. SPAM processing system and methods including shared information among plural SPAM filters
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US20050050150A1 (en) * 2003-08-29 2005-03-03 Sam Dinkin Filter, system and method for filtering an electronic mail message
US7451487B2 (en) 2003-09-08 2008-11-11 Sonicwall, Inc. Fraudulent message detection
US7257564B2 (en) 2003-10-03 2007-08-14 Tumbleweed Communications Corp. Dynamic message filtering
US7930351B2 (en) 2003-10-14 2011-04-19 At&T Intellectual Property I, L.P. Identifying undesired email messages having attachments
US7451184B2 (en) * 2003-10-14 2008-11-11 At&T Intellectual Property I, L.P. Child protection from harmful email
US7610341B2 (en) * 2003-10-14 2009-10-27 At&T Intellectual Property I, L.P. Filtered email differentiation
US7373385B2 (en) 2003-11-03 2008-05-13 Cloudmark, Inc. Method and apparatus to block spam based on spam reports from a community of users
US20050102366A1 (en) 2003-11-07 2005-05-12 Kirsch Steven T. E-mail filter employing adaptive ruleset
US20050120019A1 (en) 2003-11-29 2005-06-02 International Business Machines Corporation Method and apparatus for the automatic identification of unsolicited e-mail messages (SPAM)
US7359941B2 (en) * 2004-01-08 2008-04-15 International Business Machines Corporation Method and apparatus for filtering spam email
US7590694B2 (en) 2004-01-16 2009-09-15 Gozoom.Com, Inc. System for determining degrees of similarity in email message information
US7693943B2 (en) 2004-01-23 2010-04-06 International Business Machines Corporation Classification of electronic mail into multiple directories based upon their spam-like properties
US20050182735A1 (en) * 2004-02-12 2005-08-18 Zager Robert P. Method and apparatus for implementing a micropayment system to control e-mail spam
WO2005082101A2 (en) 2004-02-26 2005-09-09 Truefire, Inc. Systems and methods for producing, managing, delivering, retrieving, and/or tracking permission based communications
US20050204159A1 (en) * 2004-03-09 2005-09-15 International Business Machines Corporation System, method and computer program to block spam
US7627670B2 (en) * 2004-04-29 2009-12-01 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
EP1767010B1 (en) 2004-06-15 2015-11-11 Tekelec Global, Inc. Method, system, and computer program products for content-based screening of MMS messages
US20060123083A1 (en) * 2004-12-03 2006-06-08 Xerox Corporation Adaptive spam message detector
US7937480B2 (en) * 2005-06-02 2011-05-03 Mcafee, Inc. Aggregation of reputation data
US7971137B2 (en) * 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents

Also Published As

Publication number Publication date
CA2467869C (en) 2013-03-19
US7409708B2 (en) 2008-08-05
EP1484893A2 (en) 2004-12-08
AU2004202268B2 (en) 2009-12-03
RU2004116904A (ru) 2005-11-10
RU2378692C2 (ru) 2010-01-10
US7464264B2 (en) 2008-12-09
KR101137065B1 (ko) 2012-07-02
EP1484893A3 (en) 2006-05-24
ZA200404018B (en) 2005-05-20
MY142668A (en) 2010-12-15
JP2004362559A (ja) 2004-12-24
TWI353146B (en) 2011-11-21
US20050022031A1 (en) 2005-01-27
AU2004202268A1 (en) 2004-12-23
US7665131B2 (en) 2010-02-16
BRPI0401849A (pt) 2005-02-09
PL368364A1 (en) 2004-12-13
EP1484893B1 (en) 2017-07-05
US20070118904A1 (en) 2007-05-24
KR20040104902A (ko) 2004-12-13
CA2467869A1 (en) 2004-12-04
JP4672285B2 (ja) 2011-04-20
US20040260922A1 (en) 2004-12-23
CN1573784A (zh) 2005-02-02
MXPA04005335A (es) 2005-03-31
TW200509615A (en) 2005-03-01
US20050022008A1 (en) 2005-01-27
CN1573784B (zh) 2012-11-07
US7272853B2 (en) 2007-09-18

Similar Documents

Publication Publication Date Title
BRPI0401849B1 (pt) sistema e método que facilita a extração de dados em conexão com processamento de spam
US9501746B2 (en) Systems and methods for electronic message analysis
US8194564B2 (en) Message filtering method
US8527592B2 (en) Reputation-based method and system for determining a likelihood that a message is undesired
US8914883B2 (en) Securing email communications
JP4880675B2 (ja) 参照リソースの確率的解析に基づく不要な電子メールメッセージの検出
US7660865B2 (en) Spam filtering with probabilistic secure hashes
US8392357B1 (en) Trust network to reduce e-mail spam
US20080028029A1 (en) Method and apparatus for determining whether an email message is spam
US8291024B1 (en) Statistical spamming behavior analysis on mail clusters
US20080177843A1 (en) Inferring email action based on user input
Heron Technologies for spam detection
US20060075099A1 (en) Automatic elimination of viruses and spam
Dalkılıç et al. Spam filtering with sender authentication network
Wu et al. A multi-faceted approach towards spam-resistible mail
Caha et al. Spam filter based on geographical location of the sender
Choi Transactional behaviour based spam detection
Dantu et al. Classification of phishers
Sanchez A sender-centric approach to spam and phishing control

Legal Events

Date Code Title Description
B03H Publication of an application: rectification [chapter 3.8 patent gazette]
B25A Requested transfer of rights approved

Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC (US)

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 11/04/2017, OBSERVADAS AS CONDICOES LEGAIS.

B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 20A ANUIDADE.