BRPI0401849B1

BRPI0401849B1 - sistema e método que facilita a extração de dados em conexão com processamento de spam

Info

Publication number: BRPI0401849B1
Application number: BRPI0401849A
Authority: BR
Inventors: T Starbuck Bryan; Gwozdz Daniel; D Mehr John; T Goodman Joshua; C Rupersburg Micah; D Howell Nathan; L Rounthwaite Robert
Original assignee: Microsoft Corp; Microsoft Technology Licensing Llc
Priority date: 2003-06-04
Filing date: 2004-05-27
Publication date: 2017-04-11
Also published as: CA2467869C; US7409708B2; EP1484893A2; AU2004202268B2; RU2004116904A; RU2378692C2; US7464264B2; KR101137065B1; EP1484893A3; ZA200404018B; MY142668A; JP2004362559A; TWI353146B; US20050022031A1; AU2004202268A1; US7665131B2; BRPI0401849A; PL368364A1; EP1484893B1; US20070118904A1

Abstract

"características de procedência/destinação e listas para prevenção de inundação". a presente invenção envolve um sistema e método que facilita extração de dados a partir de mensagens para filtragem de inundação. os dados extraídos podem estar na forma de características, as quais podem ser empregadas em conexão com sistemas de aprendizagem de máquina para elaborar filtros aperfeiçoados. dados associados com informação de procedência bem como outra informação embutida no corpo da mensagem que permite que um recebedor da mensagem contate e/ou responda ao remetente da mensagem podem ser extraídos como características. as características, ou um subconjunto delas, podem ser normalizadas e/ou desofuscadas antes de serem empregadas como características dos sistemas de aprendizagem de máquina. as características (desofuscadas) podem ser empregadas para encher uma pluralidade de listas de características que facilitam a detecção e prevenção de inundação. características exemplares incluem um endereço de correio eletrônico, um endereço ip, um url, uma imagem embutida apontando para um url, e/ou partes da mesma.

Description

Relatório Descritivo da Patente de Invenção para "SISTEMA E MÉTODO QUE FACILITA A EXTRAÇÃO DE DADOS EM CONEXÃO COM PROCESSAMENTO DE SPAM", CAMPO TÉCNICO

[001] Esta invenção se refere a sistemas e métodos para identificar correspondência legítima (por exemplo, correspondência de interesse) assim como correspondência indesejada e, mais especificamente, para processar mensagens eletrônicas para extrair dados para facilitar prevenção de spam.

FUNDAMENTOS DA INVENÇÃO

[002] O advento de redes de comunicação globais tais como a Internet tem apresentado oportunidades comerciais para se atingir um vasto número de usuários potenciais. Troca de mensagens eletrônicas e,. partí cuia rmente, correio eletrônico (“e-mail”), tornam-se cada vez mais difundidos como um meio para disseminar propagandas, e promoções indesejadas (também chamadas de “spam”), para os usuários da rede, [003] A Radicati Group, Inc., uma firma de consultoria e pesquisa de mercado, avalia que em agosto de 2002, dois bilhões de mensagens de correio eletrônico sem interesse são enviadas diariamente -esse número deve triplicar a cada dois anos. Indivíduos e entidades (por exemplo, empresas, agências governamentais) estão sendo, cada vez mais, importunados e frequentemente ofendidos por mensagens sem interesse, Como tal, spam é no momento ou logo se tomará uma principal ameaça para a computação digna de confiança.

[004] Uma técnica muito importante utilizada para impedir spam é o emprego de sistemas/metodologias de filtragem. Uma técnica de filtragem comprovada baseia-se em uma abordagem de aprendizagem de máquina - filtros de aprendizagem de máquina atribuem a uma mensagem que chega uma probabilidade de que a mensagem seja uma spam. Nessa abordagem, características são extraídas tipicamente a partir de duas classes exemplares de mensagem (por exemplo, mensagens de spam e mensagens que não são de spam), e um filtro de aprendizagem é aplicado para discriminar de modo probabilístico entre as duas classes. Uma vez que muitas características da mensagem são relacionadas ao conteúdo (por exemplo, palavras e frases no tema e/ou corpo da mensagem), tais tipos de filtros são comumente referidos como "filtros baseados em conteúdo”.

[005] Com o avanço das técnicas de filtragem de spam, muitos dos inundadores conceberam formas de disfarçar suas identidades para evitar e/ou contornar os filtros de spam. Dessa forma, filtros adaptáveis e baseados em conteúdo, convencionais, podem se tornar ineficazes no reconhecimento e bloqueio de mensagens de spam disfarçadas.

SUMÁRIO DA INVENÇÃO

[006] O que se segue apresenta um sumário simplificado da invenção para prover um entendimento básico de alguns aspectos da invenção. Esse sumário não é uma visão geral extensiva da invenção. O mesmo não se destina a identificar elementos criticos/fundamentais da invenção ou delinear o escopo da invenção. Seu único propósito é o de apresentar alguns conceitos da invenção em uma forma simplificada como um prelúdio para a descrição mais detalhada que é apresentada posteriormente.

[007] Os inundadores podem disfarçar quase que toda a informação em suas mensagens, Por exemplo, eles podem embutir imagens de modo que não haja palavras a serem usadas como características para um sistema de aprendizagem de máquina. As imagens podem até mesmo ser distorcidas de forma que seria difícil ou pelo menos demorado utilizar software OCR, Ainda assim, não importando quantas características eles removam, ainda haverá informação útil. Primeira- mente, os inundadores devem enviar a mensagem a partir de algum lugar. Podemos detectar de qual endereço IP a mensagem foi recebida. Em segundo lugar, os inundadores estão quase sempre tentando vender algo e, portanto, devem incluir uma forma de serem contatados. Isso podería ser um número de tarifa gratuita, porém, os inundadores podem relutar em utilizar isso, devido aos elevados custos de reclamações. O mesmo poderia ser um número de tarifa não gratuita, porém os inundadores poderíam estar relutantes em usar isso, devido à taxa de resposta inferior. Alternativa mente, o mesmo poderia ser um URL (por exemplo, http://www.spamcorp.com /buyenlarger.htm). Esse URL poderia ser embutido em uma imagem para tornar mais difícil aos filtros e/ou software a sua detecção. Contudo, os inundadores poderíam estar relutantes em fazer isso porque o usuário precisaria digitar o URL no seu navegador, o que poderia diminuir os índices de resposta.

[008] As formas mais prováveis para os inundadores serem contatados são vínculos embutidos, ou através de um endereço de correio eletrônico embutido, de algum tipo. Por exemplo, Hclique aqui para aprender mais" em que o "clique aqui" contém um vínculo para uma página específica da rede que o sistema de aprendizagem de máquina pode detectar e usar de acordo com um aspecto da presente invenção. Similarmente, o endereço para o qual se deve responder (por exemplo, tipicamente o endereço "de" porém algumas vezes o endereço "responder para" se houver algum), ou qualquer enviar correspon-dência-para embutida: vínculos (vínculos que permitem que uma mensagem de correio seja enviada mediante ação de clicar no vínculo), ou quaisquer outros endereços embutidos de correio eletrônico. Adicional mente, os inundadores incluem freqüentemente imagens nas mensagens. Devido ao fato de ser dispendioso enviar por correspondência imagens grandes repetidamente, os inundadores frequentemente embutem apenas um vínculo especial para a imagem, que faz com que a imagem seja transferida. Os locais para os quais esses vínculos apontam também podem ser usados como características.

[009] Com relação à informação extraída a partir do endereço de correspondência-de, endereço de correspondência responder-para, endereços de enviar correspondência-para, embutidos, vínculos externos, e vínculos de imagens externas, pelo menos uma parte de tal informação pode ser usada como uma característica de um sistema de aprendizagem de máquina, ao qual um peso ou probabilidade é associado, ou a informação pode ser adicionada a uma lista. Por exemplo, podemos manter listas de endereços IP ou a partir de endereços que enviam apenas spam, ou apenas correspondência de interesse, ou mais do que 90% de correspondência de interesse, etc. O fato de um vínculo ou endereço específico estar em uma tal lista pode ser usado quer seja como uma característica de um sistema de aprendizagem de máquina, ou como parte de qualquer outro sistema de filtragem de spam, ou ambos.

[0010] A presente invenção provê um sistema e método que facilitam identificar mensagens disfarçadas de spam mediante exame de partes específicas da mensagem. Mais especificamente, a presente invenção envolve processar uma mensagem tal como correio eletrônico (e-mail) para extrair dados de procedência e/ou destinação para distinguir mensagens de spam das mensagens legítimas. O processamento inclui várias técnicas para identificar e analisar informação de endereço IP, informação de endereço de correio eletrônico, e/ou informação de localizador de recurso universal (URL) e associar os dados extraídos com atributos de spam (por exemplo, usuário bom versus usuário ruim ou remetente bom versus remetente ruim). Um usuário ruim ou remetente ruim, por exemplo, seria considerado um inun-dador (por exemplo, aquele que envia spam).

[0011] Os dados extraídos, ou pelo menos uma parte dos mes- mos, poderíam ser usados para gerar conjuntos de características para sistemas de aprendizagem de máquina. Técnicas de aprendizagem de máquina examinam o conteúdo das mensagens para determinar se as mensagens são spam. Inundadores podem ofuscar a maior parte do conteúdo de uma mensagem tal como mediante ação de colocar a maior parte de sua informação em imagens de difícil processamento. Contudo, a origem da mensagem não pode ser totalmente disfarçada uma vez que os inundadores precisam prover alguma forma para que um recebedor facilmente entre em contato com eles. Exemplos disso incluem o uso de um vínculo (por exemplo, URL) e/ou um endereço de correio eletrônico (por exemplo, endereço IP). Esses tipos de informação ou variações de porções dos mesmos podem ser empregados como características de um detector de spam. Especificamente, a informação pode ser usada para treinar um detector de spam e/ou filtro de spam, por exemplo, por intermédio dos sistemas de aprendizagem de máquina.

[0012] A presente invenção também pode ser cooperativa com sistemas de controle parental. Sistemas de controle parental podem notificar um usuário de que uma mensagem é inadequada e também podem indicar uma razão para tal impropriedade tal como “inclui material pornográfico”. De acordo com um aspecto da presente invenção, uma ou mais características extraídas e normalizadas (por exemplo, um URL) podem ser passadas através de um sistema de controle parental ou filtro para obter a classificação do sistema de controle parental. Essa classificação pode ser empregada como uma característica adicional do sistema de aprendizagem de máquina para facilitar elaboração e/ou aperfeiçoamento dos filtros de spam.

[0013] Além disso, características extraídas podem ser classificadas pelo tipo, podem ser ponderadas de acordo com um grau de capacidade de spam, e podem ser designadas quer seja como caracte- rísticas positivas (por exemplo, mais provavelmente não é uma spam) ou características negativas (por exemplo, mais provavelmente é uma spam). As características também podem ser utilizadas, por exemplo, para criar listas tais como listas de nâo-inundadores e listas de ínun-dadores.

[0014] Para realização das finalidades correlatas e anteriormente mencionadas, alguns aspectos ilustrativos da invenção são descritos aqui em conexão com a descrição que se segue e com os desenhos anexos. Esses aspectos são indicativos, contudo, de apenas umas poucas formas diversas nas quais os princípios da invenção podem ser empregados e pretende-se que a invenção inclua todos os tais aspectos e seus equivalentes. Outras vantagens e características inovadoras da invenção podem se tornar evidentes a partir da descrição detalhada da invenção,a seguir, quando considerada em conjunto com os desenhos.

DESCRiCÃO RESUMIDA DOS DESENHOS

[0015] A Figura 1 é um diagrama de blocos de alto nível de um sistema que facilita prevenção de spam de acordo com um aspecto da presente invenção.

[0016] A Figura 2 é um diagrama de blocos de um sistema que facilita prevenção de spam mediante extração de uma ou mais características a partir das mensagens que chegam de acordo com um aspecto da presente invenção.

[0017] A Figura 3 é um diagrama esquemãtíco de uma pluralidade de características que podem ser extraídas a partir de um endereço IP de acordo com um aspecto da presente invenção.

[0018] A Figura 4 é um diagrama esquemãtico de uma pluralidade de características que podem ser extraídas a partir de um FQDN de acordo com um aspecto da presente invenção.

[0019] A Figura 5 é um diagrama esquemãtico de uma pluralidade de características que podem ser extraídas de um endereço de correio eletrônico de acordo com um aspecto da presente invenção.

[0020] A Figura 6 é um diagrama esquemático de uma pluralidade de características que podem ser extraídas de um URL ou de um endereço da rede de acordo com um aspecto da presente invenção.

[0021] A Figura 7 é um fluxograma de um método exemplar em conexão com o treinamento de filtro de acordo com um aspecto da presente invenção.

[0022] A Figura 8 é um fluxograma de um método exemplar em conexão com o emprego de um filtro treinado de acordo com um aspecto da presente invenção.

[0023] A Figura 9 é um fluxograma de um método exemplar em conexão com a elaboração de listas de acordo com um aspecto da presente invenção.

[0024] A Figura 10 é um fluxograma de um método exemplar em conexão com o emprego de listas para treinar filtros de acordo com um aspecto da presente invenção.

[0025] A Figura 11 é um fluxograma de um processo referido nos métodos pelo menos das Figuras 7 e 8, de acordo com um aspecto da presente invenção.

[0026] A Figura 12 é um fluxograma de um processo que facilita distinguir entre endereços IP recebidos-de legítimos e falsos de acordo com um aspecto da presente invenção.

[0027] A Figura 13 é um fluxograma de um método que incorpora um sistema de controle parental na geração e/ou extração de características a partir de mensagens que chegam de acordo com um aspecto da presente invenção.

[0028] A Figura 14 é um fluxograma de um método que facilita a criação de conjuntos de características a serem empregados no sistema de aprendizagem de máquina de acordo com um aspecto da pre- sente invenção, [0029] A Figura 15 é um ambiente exemplar para implementação de diversos aspectos da invenção.

DESCRIÇÃO DETALHADA DA INVENÇÃO

[0030] A presente invenção é descrita agora com referência aos desenhos, em que numerais de referência semelhantes são usados para se referir a elementos semelhantes do princípio ao fim. Na descrição que se segue, com o propósito de explanação, vários detalhes específicos são apresentados para prover um entendimento completo da presente invenção, Pode ser evidente, contudo, que a presente invenção pode ser praticada sem esses detalhes específicos. Em outros casos, estruturas e dispositivos bem conhecidos são mostrados na forma de diagrama de blocos para facilitar a descrição da presente invenção.

[0031] Como usados nesse pedido, os termos: “componente” e ‘sistema", são para referência a uma entidade relacionada a computador, quer seja hardware, uma combinação de hardware e software, software, ou software em execução. Por exemplo, um computador pode ser, porém não é limitado a ser, um processo sendo executado em um processador, um processador, um objeto, um executável, um encadea mento de execução, um programa, e/ou um computador. Como ilustração, tanto uma aplicação sendo executada em um servidor como o servidor, podem constituir um componente. Um ou mais componentes podem residir dentro de um processo e/ou de um encadeamento de execução e um componente pode estar localizado em um computador e/ou distribuído entre dois ou mais computadores, [0032] A presente invenção pode incorporar vários esquemas e/ou técnicas de dedução em conexão com a geração de dados de treinamento para filtragem de spam aprendida pela máquina. Como usado aqui, o termo "dedução” se refere genericamente ao processo de raci- ocínio sobre, ou estados de dedução do sistema, ambiente, e/ou usuário a partir de um conjunto de observações captadas através de eventos e/ou dados. Dedução pode ser empregada para identificar um contexto ou ação específica ou, por exemplo, pode gerar uma distribuição de probabilidade em relação aos estados. A dedução pode ser proba-bilística - isto é, a computação de uma distribuição de probabilidade em relação aos estados de interesse com base em uma consideração de dados e eventos. Dedução também pode se referir a técnicas empregadas para composição de eventos de nível superior a partir de um conjunto de eventos e/ou dados. Tal dedução resulta na construção de novos eventos ou ações a partir de um conjunto de eventos observados e/ou dados de eventos armazenados, sejam ou não os eventos correlacionados em proximidade temporal estreita, e se os eventos e dados provêm de uma ou de várias fontes de dados e eventos.

[0033] Deve ser considerado que embora o termo mensagem seja empregado de forma ampla por toda a especificação, tal termo não é limitado a correio eletrônico em si, porém pode ser adaptado de forma adequada para incluir troca de mensagens eletrônicas de qualquer forma que possam ser distribuídas através de uma arquitetura de comunicação adequada. Por exemplo, aplicações de conferência que facilitam uma conferência entre duas ou mais pessoas (por exemplo, programas interativos de bate-papo, e programas de troca instantânea de mensagens) também podem utilizar os benefícios de filtragem revelados aqui, uma vez que texto indesejado pode ser entremeado eletronicamente em mensagens normais de bate-papo quando os usuários permutam mensagens e/ou inseridos como uma mensagem de início, uma mensagem de encerramento, ou todos os mencionados acima. Nessa aplicação específica, um filtro pode ser treinado para filtrar automaticamente conteúdo específico de mensagem (texto e imagens) com a finalidade de capturar e rotular como spam o conteúdo indese- jável (por exemplo, comerciais, promoções ou anúncios).

[0034] Na presente invenção, o termo “recebedor” se refere a um destinatário de uma mensagem que chega ou item de correspondência. O termo “usuário” pode se referir a um recebedor ou a um remetente, dependendo do contexto. Por exemplo, um usuário pode se referir a um usuário de correio eletrônico que envia spam e/ou um usuário pode se referir a um recebedor de correio eletrônico que recebe a spam, dependendo do contexto e aplicação do termo.

[0035] Um endereço de Protocolo da Internet (IP) é um número de 32 bits representando tipicamente uma máquina na Internet. Esses números são usados quando duas máquinas se comunicam. Eles são representados tipicamente na forma “xxx.xxx.xxx.xxx” - onde cada xxx está entre 0 e 255. Infelizmente, endereços IP são difíceis de serem lembrados. Devido a isso, as convenções de “nome de domínio” e “nome de host” foram criadas. Um “nome de domínio” é o nome de um grupo de máquinas na Internet (talvez uma única máquina), e é tipicamente da forma “x.com”, ou “y.edu”, ou “courts.wa.gov”.

[0036] Um Nome de Domínio Totalmente Qualificado (FQDN) é uma máquina específica na Internet, por exemplo, “b.x.com” ou “c.y.edu” ou “www.courts.wa.gov”; a parte de nome de domínio é “x.com” ou “y.edu” ou “courts.wa.gov”, respectivamente. As partes “b”, “c”, e “www”, respectivamente, são chamadas de parte de nome de host do FQDN. Em geral, um endereço IP pode ser usado em qualquer situação na qual um nome de domínio pode ser usado (por exemplo, “DN/IP” indica que ambas as possibilidades existem). Também em geral, um endereço IP pode ser usado em qualquer situação na qual um FQDN pode ser usado (por exemplo, “FQDN/IP” indica que existem ambas as possibilidades). Um endereço de correio eletrônico consiste em um nome de usuário e um nome de domínio ou endereço IP (DN/IP), por exemplo, “a@x.com” ou “a@1.2.3.4”. Em ambos os exemplos, o nome de usuário é “a”.

[0037] Localizadores de Recursos Uniformes (URLs) são tipicamente da forma “service.name:FQDN/IP/url-path”. Por exemplo, “http://www.microsoft.com/windows/help.htm” é um URL. A parte “http” é o nome de serviço. A parte “www.microsoft.com” é o FQDN e “win-dows/help.htm” é o caminho URL. Isso é algo como uma simplificação de URLs, porém suficiente para a presente discussão.

[0038] Com referência agora à Figura 1, é ilustrado um diagrama geral de blocos de um sistema 100 de extração e treinamento de características de acordo com um aspecto da presente invenção. O sistema 100 de extração e treinamento de característica envolve processar mensagens 110 que chegam para extrair dados ou características a partir das mensagens. Tais características podem ser extraídas a partir de pelo menos uma parte da informação de procedência e/ou destinação provida na mensagem e/ou suas variações. Especificamente, uma ou mais mensagens 110 que chegam podem ser recebidas pelo sistema 100 através de um componente 120 de recebimento de mensagem. O componente 120 de recebimento de mensagem pode estar localizado em um servidor de mensagem ou correio eletrônico, por exemplo, para receber as mensagens 110 que chegam. Embora algumas mensagens (por exemplo, pelo menos uma) possam ser vulneráveis a um filtro existente (por exemplo, filtro de spam, de correspondência sem interesse, de controle parental), e dessa forma desviadas para uma lixeira ou pasta de correspondência sem interesse, pelo menos uma parte dos dados de procedência e/ou destinação pode ser extraída e desofuscada para uso em conexão com um sistema de aprendizagem de máquina ou com o preenchimento de uma lista de características.

[0039] O componente 120 de recebimento de mensagem pode passar as mensagens que chegam, ou um subconjunto das mesmas, para um componente 130 de extração de características. O componente 130 de extração de características pode extrair os dados a partir das mensagens 110 respectivas para gerar conjuntos de características para facilitar treinamento de filtro e finalmente detecção de spam. Os dados ou características extraídas a partir das mensagens são relacionados à informação de procedência e/ou destinação encontrada e/ou embutida nas mesmas. Exemplos de dados ou características incluem um endereço IP recebido-de, um endereço de correio eletrônico responder-para, um endereço de correio eletrônico cc: (por exemplo, cópia de cortesia), URLs de diversos tipos (incluindo vínculos baseados em texto, vínculos baseados em imagem, e URLs ou partes dos mesmos na forma de texto), um número telefônico de tarifa não gratuita (por exemplo, particularmente um código de área), número telefônico de tarifa gratuita, um vínculo de endereço de correio eletrônico de enviar correspondência-para:, um endereço de correio eletrônico na forma de texto, um FQDN em um comando HELO SMTP, um endereço de caminho de retorno/endereço CORRESPONDÊNCIA-DE SMTP, e/ou pelo menos uma parte de qualquer um dos mencionados acima.

[0040] O componente 130 de extração de característica pode realizar qualquer número adequado de processos para extrair vários conjuntos de características a partir da mensagem 110 para uso subse-qüente em sistemas de aprendizagem de máquina. Além disso, ou alternativamente, os conjuntos de características podem ser usados para encher listas para outras técnicas de treinamento de filtro.

[0041] FQDNs tal como a.x.com, por exemplo, podem ser convertidos em números geralmente referidos como um endereço IP. O endereço IP é tipicamente observado em um formato decimal de pontos compreendendo quatro blocos de números. Cada bloco é separado por um ponto ou por um ponto decimal e cada bloco de números pode variar de 0 a 255, em que cada variação de números corresponde a um nome diferente da Internet. Por exemplo, a.x.com poderia ser convertido em 123.124.125.126 ao passo que 121.124.125.126 poderia representar qrstuv.com. Devido ao fato dos números não serem facilmente reconhecíveis ou memorizáveis como palavras, os endereços IP são normalmente referidos por seus FQDNs respectivos. O mesmo endereço IP no formato decimal de pontos também pode ser expresso em formatos alternativos que serão discutidas abaixo.

[0042] De acordo com um aspecto da presente invenção, o componente 130 de extração de características pode se concentrar no en-dereço(s) IP recebido-de incluído na mensagem 110. O endereço IP recebido-de se baseia pelo menos em parte na informação IP recebi-do-de. Geralmente, correspondência enviada através da Internet é transportada de servidor para servidor envolvendo, de vez em quando, tão poucos quanto dois servidores (por exemplo, um remetente e um destinatário). Em ocorrências ainda mais raras, um cliente pode enviar diretamente para um servidor. Em alguns casos, um número muito maior de servidores pode estar envolvido de tal modo que correspondência, ou mensagens, é enviada a partir de um servidor para um outro devido à presença de barreiras de proteção, por exemplo. Especificamente, alguns servidores podem estar localizados no lado interno de uma barreira de proteção, e dessa forma podem se comunicar apenas com os servidores designados no outro lado da barreira de proteção. Isso causa um aumento no número de hops que a mensagem realiza para ir do remetente até o destinatário. As linhas recebido-de compreendendo os endereços IP facilitam rastrear o caminho da mensagem para se certificar da procedência da mensagem.

[0043] À medida que a mensagem 110 se desloca de servidor para servidor, cada servidor que é contatado acrescenta a identidade do endereço IP do qual ele recebeu a mensagem a um campo recebido- de (isto é, campo “Recebido”) da mensagem, bem como o nome do suposto FQDN do servidor com o qual ele está se comunicando. Esse FQDN é comunicado ao servidor recebedor pelo servidor remetente, através do comando HELO do protocolo SMTP, e dessa forma não deve merecer confiança se o servidor que envia estiver fora da organização. Por exemplo, a mensagem pode ter cinco linhas de recebido-de com cinco endereços IP e FQDNs acrescentados, dessa forma indicando que a mesma passou através de seis servidores diferentes (isto é, passou 5 vezes), com as linhas na ordem inversa na qual elas foram acrescentadas (isto é, a última em primeiro lugar). Contudo, cada servidor tem a capacidade de modificar quaisquer linhas inferiores (anexadas anteriormente). Isso pode ser particularmente problemático especialmente quando a mensagem tiver se deslocado entre múltiplos servidores. Devido ao fato de cada servidor intermediário ser capaz de alterar quaisquer linhas de recebido-de anteriormente escritas (inferiores), os inundadores podem anexar endereços IP falsos às linhas re-cebido-de da mensagem para disfarçar a informação IP recebido-de ou remetente da mensagem de spam. Por exemplo, uma mensagem de spam pode aparecer inicialmente como se ela tivesse sido enviada de trusteddomain.com, dessa forma deturpando a fonte verdadeira da mensagem para o recebedor.

[0044] É importante para o software de spam identificar prontamente um endereço IP fora da organização que enviou para um servidor dentro da organização. Uma vez que esse endereço IP é escrito pelo servidor que recebe, dentro da organização, pode-se confiar que o mesmo é o endereço IP correto. Todos os outros endereços IP fora da organização não podem ser considerados de confiança, uma vez que eles foram escritos por servidores fora da organização, e dessa forma, possivelmente modificados. Pode haver muitos endereços IP dos servidores remetentes envolvidos no caminho para a organização recebedora, porém como apenas um pode ser de confiança, nos referimos a esse digno de confiança como o endereço IP do “remetente”.

[0045] Uma forma do software de filtragem de spam descobrir o endereço IP do remetente é saber as configurações do servidor de correspondência em uma organização. Em geral, se se sabe quais máquinas passam para quais outras máquinas, em quais situações, pode se determinar o endereço IP do remetente. Contudo, pode não ser conveniente descrever a configuração do servidor, especial mente para software de filtragem de spam instalado em clientes de correio eletrônico. Uma abordagem alternativa envolve utilizar registros MX para determinar a fonte verdadeira de uma mensagem. Registros MX relacionam, para cada nome de domínio, os FQDNs de destinatários de correio eletrônico para aquele domínio. Pode-se rastrear de volta através da lista de recebí d o-de até que um endereço IP seja encontrado que corresponda a um FQDN correspondendo a uma entrada no registro MX do domínio. O endereço IP recebido por essa máquina é o endereço IP do remetente. Imagine que 1.2.3.101 é o único registro MX para x.com. Então se descobrindo a linha que recebeu de 1.2.3.101, pode-se saber a próxima linha que corresponde ao servidor de correio que chega do x.com, e dessa forma que o endereço IP naquela linha corresponde ao endereço IP que enviou para x.com.

[0046] A tabela abaixo ilustra uma análise exemplar, como discutido acima, de determinar a fonte verdadeira de uma mensagem: Linha Comentário Recebido: de a.x.com Interno ao x.com {[1.2.3.100]} por b.x.com Terça-feira, 22 de abril de 2003; 13:11:46-0700 Recebido: de mailserver x.com 1.2.3.101 é um registro MX para {[1.2.3.103]} por b.x.com Terça- x.com de modo que sabemos que feira, 22 de abril de 2003; a próxima linha é a primeira inter-12:30:46-0700 naaox.com Recebido: de outside.com Isso é onde x.com recebeu a {[4.5.6.7]} por mensagem; essa é a última linha mailserver.x.com Terça-feira, 22 de confiança. Usar 4.5.6.7 como de abril de 2003; 11:11:48-0700 endereço IP do remetente Recebido: de trustedsender.com Essa linha pode ser falsa, constru-{[8.9.10.11]} por outside.com ida pelo servidor em 4.5.6.7 Terça-feira, 22 de abril de 2003: 10:11:48-0700 [0047] Atualmente, nâo existe padrão aceito para relacionar servidores de correspondência de saída, e essa heurística pode falhar se, por exemplo, endereços IP internos de uma organização forem diferentes daqueles externos a uma organização, ou se uma organização envia correspondência a partir de uma máquina relacionada em um registro MX indireta mente para uma outra máquina relacionada em um registro MX. Além disso, no caso especial onde o IP do remetente como encontrado acima é descoberto como sendo interno da organização, como poder ia acontecer se uma máquina no registro MX tivesse enviado para uma outra, no registro MX, o processo é continuado como acima. Além disso, certos endereços IP podem ser detectados como internos (porque eles são da forma 10-x.y.z ou 172.16.y.z até 172.31.y.z ou 192.168.0.z até 192.168.255.z, uma forma usada apenas para endereços IP internos); qualquer endereço interno de uma organização pode ser digno de confiança. Final mente, se uma linha recebido-de é da forma "recebido de a.x.com[1.2.3.100] e uma consulta de endereço IP de a.x.com produzir 1.2.3.100 ou uma consulta de endereço IP inversa de 1.2.3.100 produzir a.x.com e se x.com for a organização, então a próxima linha também pode ser digna de confiança.

[0048] Utilizando essas observações, freqüentemente é possível achar o endereço IP do remetente. Pseudocódigo exemplar é como a seguir: bool fFoundHostlnMX; if (externai IP address of MX records matches internai IP address of MX records) t fFoundHostΙηΜΧ = FALSE; # it's worth looking for } else { fFoundHostlnMX = TRUE; # it's not worth looking for, pretend we already found it } for each received from line of the form Received from a.b.c [i·j-k.l] { if i.j.k.l in MX records of receiver domain { fFoundHostlnMX = TRUE; continue; } if not fFoundHostInMX { # Has not yet gone through an MX record, must be internai continue; } if i.j.k.l is of form 10.x.y.z or 172.16.y.z to 172.31.y.z or 192.168.0.Z to 192.168.255.z { # Must be internai continue; } if DNS lookup of a.b.c yields i.j.k.l and b.c is receiver domain ' { # Must be internai continue; } Output sender's alleged FQDN a.b.c and sender's actual IP address i . j . k . k } If we reach here, then Error: unable to identify sender's alleged FQDN and sender's actual IP address [0049] Muitas coisas podem ser feitas com o endereço IP do remetente, bem como com outras características de procedência e destina-ção. Primeiramente, elas podem ser adicionadas a uma lista de remetentes, uniformemente ruins, às vezes conhecida como Lista Negra. As Listas Negras podem ser empregadas subseqüentemente para filtrar, bloquear, ou redirecionar mensagens que não são dignas de confiança para uma pasta ou local apropriado onde elas podem ser investigadas adicionalmente.

[0050] Outros tipos de listas também podem ser gerados e implementados como filtros em arquiteturas baseadas em servidor assim como em arquiteturas baseadas em cliente. Na arquitetura de cliente, um usuário pode informar o software de correio eletrônico do cliente de quem ele estará recebendo correspondência (por exemplo, listas de correspondência, indivíduos, etc.). Uma lista de registros correspondendo a endereços de correio eletrônico, dignos de confiança, pode ser gerada quer seja manual ou automaticamente pelo usuário. Consequentemente, imagine que um remetente tendo um endereço de correio eletrônico b@zyx.com envia ao usuário uma mensagem de correio eletrônico. O endereço de correio eletrônico do usuário b@zyx.com compreende um nome de usuário, “b”, e um FQDN/IP “zyx.com”. Quando o cliente recebe a mensagem 110 que chega a partir do remetente (b@zyx.com), ele pode pesquisar uma lista de remetentes de confiança no sentido do endereço de correio eletrônico do usuário para determinar se o usuário indicou que “b@zyx.com” é um endereço válido e de confiança. Para arquiteturas de servidor, as listas podem estar localizadas diretamente no servidor. Portanto, à medida que as mensagens chegam no servidor de mensagem, suas características respectivas (por exemplo, endereço IP do remetente, nome(s) de domínio em campos CORRESPONDÊNCIA DE ou HELO, e outra informação de procedência e/ou destinação) podem ser comparadas com as listas localizadas no servidor de mensagens. Mensagens que são determinadas como provenientes de remetentes válidos podem ser distribuídas para os destinatários pretendidos de acordo com protocolos de distribuição baseados em cliente ou protocolos de distribuição baseados em servidor. Contudo, mensagens determinadas como incluindo características de procedência ou destino em listas de características questionáveis ou ruins podem ser movidas para uma pasta de correspondência sem interesse ou de spam para serem descartadas, ou de outra forma tratadas especialmente.

[0051] Como uma alternativa ao enchimento de listas de características de procedência ruim ou de confiança, as características de procedência do remetente (por exemplo, endereço IP, suposto endereço DE) podem ser extraídas como uma ou mais características e posteriormente usadas em conexão com técnicas de aprendizagem de máquina para elaboração e/ou treinamento de filtro.

[0052] O endereço IP pode ser derivado de um endereço de correio eletrônico (por exemplo, consulta de IP no FQDN no endereço do remetente ou endereço responder-para) em qualquer parte de um cabeçalho de mensagem ou a partir de uma consulta de endereço IP da parte de nome de domínio de um vínculo URL embutido em um corpo da mensagem, ou diretamente a partir de um endereço IP se a mesma ocorrer como a parte IP/FQDN de um URL. Além disso, como será descrito posteriormente, o endereço IP tem vários atributos, cada um dos quais pode ser utilizado como uma característica de um sistema de aprendizagem de máquina ou como um elemento em uma lista preenchida pelo usuário. Dessa forma, em uma segunda abordagem, o componente 130 de extração de característica pode explorar as muitas subpartes do endereço(s) IP para gerar características adicionais.

[0053] Qualquer combinação de características como descrito acima pode ser extraída de cada mensagem 110 que chega. Mensagens podem ser selecionadas de forma aleatória, automaticamente, e/ou manualmente para participar em extração de característica, embora tipicamente todas as mensagens possam ser usadas. Os conjuntos extraídos de características são subseqüentemente aplicados a um componente 140 de treinamento de filtro tais como sistemas de aprendizagem de máquina ou qualquer outro sistema que elabora e/ou treina filtros 150 tais como filtros de spam.

[0054] Com referência agora à Figura 2, é ilustrado um sistema 200 de extração de característica que facilita a ação de desofuscar ou normalizar uma ou mais características de uma mensagem 210 que chega de acordo com um aspecto da presente invenção. Finalmente, um filtro(s) pode ser elaborado com base pelo menos em parte em uma ou mais das características normalizadas. O sistema 200 compreende um componente 220, extrator de característica que recebe uma mensagem 210 que chega quer seja diretamente como mostrado ou indiretamente por intermédio de um recebedor de mensagem (Figura 1), por exemplo, mensagens que chegam selecionadas para, ou participando em extração de característica podem ser submetidas ao sistema 200, de acordo com preferências de usuário. Alternativamente, substancialmente todas as mensagens que chegam podem estar disponíveis para e participar na extração de característica.

[0055] Extração de característica envolve extrair uma ou mais características 230 (também referidas como Característicai 232, Caracte-rística2 234, e características 236, onde M é um número inteiro maior do que ou igual a 1) associadas à informação de procedência e/ou destinação a partir da mensagem 210. Informação de procedência pode se relacionar a elementos indicando o remetente da mensagem bem como nomes de domínio de servidor e informação de identificação correlata que especifica de onde veio a mensagem. Informação de destinação pode se relacionar a elementos de uma mensagem indicando para quem ou para onde o recebedor pode enviar sua resposta à mensagem. Informação de procedência e destinação pode ser encontrada em um cabeçalho da mensagem bem como no corpo da mensagem quer seja de forma visível ou invisível (por exemplo, embutida como texto ou em imagem) para o recebedor da mensagem.

[0056] Devido ao fato dos inundadores tenderem a disfarçar e/ou ofuscar sua identidade, freqüentemente, para evitar detecção pelos filtros convencionais de spam, o sistema 200 compreende um componente 240 normalizador de característica que facilita ação de desofus-car uma ou mais características extraídas 230, ou pelo menos partes das mesmas. O componente 240 normalizador de característica pode processar e/ou decompor as características extraídas 230 tal como mediante análise das características extraídas 230 (por exemplo, o FQDN - consultando um diretório de blocos e registros MX e/ou convertendo o FQDN de acordo com seu formato atual) e então comparando as mesmas com um banco(s) de dados de listas existentes de inundadores, listas de não-inundadores, e/ou listas de controle paren-tal, por exemplo. Em alguns casos, como discutido infra na Figura 4, tal como quando a característica extraída é um URL, prefixos e/ou sufixos também podem ser removidos para facilitar a normalização da característica e identificação de se o URL aponta para um sítio da rede do inundador ou para uma fonte legítima.

[0057] Quando as características são normalizadas, pelo menos um subconjunto das mesmas 250 pode então ser empregado median- te um sistema 260 de treinamento tal como um sistema de aprendizagem de máquina, para elaborar e/ou atualizar um filtro(s) 270. O filtrais) pode ser treinado para uso como um filtro de spam e/ou um filtro de correspondência sem interesse, por exemplo. Além disso, o filtro(s) pode ser elaborado e/ou treinado com características positivas tais como aquelas que indicam uma fonte de não-spam (por exemplo, endereço de correspondência DE do remetente, endereço IP do remetente, números telefônicos embutidos, e/ou URL) e/ou um remetente de não-spam bem como com características negativas tais como aquelas que identificam e são associadas a um inundador.

[0058] Alternativamente ou adicionalmente, o conjunto de características pode ser utilizado para preencher uma nova lista ou para adição a uma lista 280 de características de spam existente. Outras listas também podem ser geradas para corresponder às características extraídas específicas tal como uma lista de endereços bons, uma lista de endereços ruins, uma lista de URLs bons, uma lista de URLs ruins, uma lista de números telefônicos bons, e uma lista de números telefônicos ruins. Listas de características boas podem identificar não-inundadores, historicamente remetentes legítimos, e/ou remetentes tendo uma probabilidade maior de não serem de spam (por exemplo, 90% de não ser uma chance de não ser uma fonte de spam). Inversamente, listas de características ruins podem corresponder a inundado-res, potenciais inundadores, e/ou remetentes com uma probabilidade relativamente superior de serem de spam (por exemplo, 90% de probabilidade de ser fonte de spam).

[0059] Com referência agora às Figuras 3-6 são ilustradas características exemplares que podem ser derivadas e extraídas de um endereço IP, de um FQDN, de um endereço de correio eletrônico e de um URL, respectivamente, para facilitar detecção e prevenção de spam de acordo com vários aspectos da presente invenção.

[0060] A Figura 3 ilustra uma decomposição exemplar de um endereço IP 300 de acordo com um aspecto da presente invenção. Um endereço IP 300 tem 32 bits de comprimento e é alocado em blocos (por exemplo blocos da internet) quando expressos no formato decimal de pontos (por exemplo, 4 blocos de até 3 dígitos cada um, em que cada bloco é separado por períodos e em que cada bloco de 3 dígitos é qualquer número divisível entre 0 e 255). Os blocos são atribuídos a classes tais como Classe A, Classe B, e Classe C. Cada bloco compreende um número determinado de endereços IP em que o número de endereços IP por bloco varia de acordo com a classe. Isto é, dependendo da classe (isto é, A, B ou C), pode haver mais ou menos endereços atribuídos por bloco. O tamanho do bloco é normalmente uma potência de dois, e um conjunto de endereços IP no mesmo bloco compartilhará os primeiros k dígitos binários e diferem nos últimos 32-k (por exemplo 32-k) dígitos binários. Dessa forma, cada bloco pode ser identificado (ID de bloco 302) de acordo com seus primeiros k bits compartilhados. Para determinar o ID de bloco 302 associado ao endereço IP 300 específico, um usuário pode consultar um diretório de blocos tal como arin.net. Além disso, o ID de bloco 302 pode ser extraído e empregado como uma característica.

[0061] Em algumas circunstâncias, contudo, o ID de bloco 302 não pode ser prontamente determinado mesmo mediante referência a arin.net porque grupos de endereços IP dentro de um bloco podem ser vendidos, divididos e revendidos qualquer número em determinado de vezes. Em tais casos, um usuário ou sistema de extração pode fazer uma ou mais suposições nos IDs de bloco 302 para os endereços IP respectivos. Por exemplo, o usuário pode extrair pelo menos um primeiro 1 bit 304, pelo menos os primeiros 2 bits 306, pelo menos os primeiros 3 bits 308, pelo menos os primeiros M bits 310 (isto é, M é um número inteiro maior do que ou igual a 1) e/ou até pelo menos os primeiros 31 bits 312 como características separadas para utilização subseqüente por um sistema de aprendizagem de máquina e/ou como elementos em uma lista(s) de características (por exemplo, listas de características boas, listas de características de spam, etc.).

[0062] Na prática, por exemplo, o primeiro 1 bit de um endereço IP pode ser extraído e empregado como uma característica para determinar se o endereço IP aponta para um inundador ou não-inundador. O primeiro 1 bit a partir de outros endereços IP extraídos a partir de outras mensagens pode ser comparado para facilitar a determinação de pelo menos um ID de bloco. Identificar pelo menos um ID de bloco pode então auxiliar a discernir se a mensagem é proveniente de um inundador. Além disso, endereços IP que compartilham os primeiros M bits podem ser comparados com relação a suas outras características extraídas para se certificar se os endereços IP são provenientes de remetentes legítimos e/ou se as mensagens respectivas são inundações.

[0063] Endereços IP também podem ser arranjados hierarquicamente (314). Isto é, um conjunto de bits de ordem superior pode ser alocado a um país específico. Esse país pode alocar um subconjunto para um ISP (Provedor de Serviço da Internet), e esse ISP pode então alocar um subconjunto para uma companhia específica. Consequentemente, vários níveis podem ser significativos para o mesmo endereço IP. Por exemplo, o fato de que um endereço IP é proveniente de um bloco alocado para a Coréia poderia ser útil na determinação se o endereço IP é associado a um inundador. Se o endereço IP é parte de um bloco alocado para um ISP com uma política rigorosa contra inun-dadores, isso também poderia ser útil na determinação de se o endereço IP não está associado a um inundador. Portanto, mediante emprego de cada um dos primeiros 1-31 bits de um endereço IP em combinação com o arranjo hierárquico 314 de pelo menos um subconjunto de endereços IP, um usuário pode aprender automaticamente informação em níveis diferentes sem na realidade saber a forma na qual um endereço IP foi alocado (por exemplo, sem saber os IDs de bloco).

[0064] Além das características discutidas acima, uma raridade 316 da característica (por exemplo, ocorrência de característica não é comum o suficiente) pode ser determinada mediante realização de cálculos adequados e/ou emprego de dados estatísticos comparando a freqüência ou contagem na qual a característica aparece em uma amostragem de mensagens que chegam, por exemplo. Na prática, um endereço IP 300 incomum pode ser um exemplo de uma linha de discagem sendo usada para distribuir correio eletrônico, que é uma tática freqüentemente usada pelos inundadores. Os inundadores tendem a modificar sua identidade e/ou local freqüentemente. Dessa forma, o fato de que uma caracterizada pelo fato de que é comum ou incomum pode ser informação útil. Portanto, uma raridade 316 da característica pode ser usada como uma característica do sistema de aprendizagem de máquina e/ou como uma parte de pelo menos uma lista (por exemplo, listas de características raras).

[0065] A Figura 4 demonstra uma decomposição exemplar de características de um FQDN 400, tal como por exemplo, b.x.com. O FQDN 400 pode ser extraído de um campo HELO, por exemplo (por exemplo FQDN suposto do remetente) e compreender tipicamente um nome 402 de host e um nome 404 de domínio. O nome 402 de host se refere a um computador específico, o qual é “b” de acordo com o exemplo. O nome 404 de domínio se refere ao nome de pelo menos uma máquina ou um grupo de máquinas na Internet. No presente exemplo, “x.com” representa o nome de domínio 404. Uma decomposição hierárquica do FQDN 400 é representada por 406. Especificamente, B.X.COM 408 (FQDN 400 completo) pode ser parcialmente reduzido para X.COM 410 (FQDN parcial), o qual pode ser então re- duzido para COM 412 (FQDN parcial), pelo que cada FQDN parcial pode ser empregado como uma característica.

[0066] Algumas características, tais como informação recebida-de, existe principalmente como endereços IP. Dessa forma, pode ser útil converter o FQDN 400 em um endereço IP 300 que pode ser decomposto em características adicionais (como mostrado na Figura 3) porque é relativamente fácil criar novos nomes de host e nomes de domínio, porém relativamente difícil obter novos endereços IP.

[0067] Infelizmente, proprietários de um domínio podem fazer com que máquinas aparentemente diferentes mapeiem todas para o mesmo local. Por exemplo, o proprietário de uma máquina denominada “a.x.com” poderia ser o mesmo proprietário de “b.x.com” que poderia ser o mesmo proprietário de “x.com”. Dessa forma, o inundador poderia facilmente enganar um filtro convencional para acreditar que a mensagem é do FQDN 400 “b.x.com” em vez de a partir do domínio 404 “x.com”, dessa forma permitindo que a mensagem passe pelo filtro de spam quando na realidade, o domínio 404 “x.com” teria indicado que a mensagem era spam ou mais provavelmente seria uma spam. Portanto, pode ser útil reduzir o endereço para simplesmente o nome de domínio 404 ao se extrair a informação de procedência e/ou desti-nação da mensagem. Alternativamente, ou em adição, o FQDN 400 integral pode ser extraído como uma característica.

[0068] Em alguns casos, recursos adicionais estão disponíveis, tais como sistemas de controle parental. Esses recursos freqüente-mente podem atribuir uma avaliação qualitativa ou “tipo”, tal como pornográfico ou violento, aos nomes de host e/ou aos URLs. As características extraídas podem ser classificadas adicionalmente por tipo, utilizando um tal recurso. O tipo 414 de característica, da característica, pode então ser usado como uma característica adicional em conexão com a elaboração e/ou treinamento de filtros aperfeiçoados relaciona- dos à spam. Alternativamente, podem ser geradas listas correspondendo a tipos diferentes de característica que foram previamente identificados. Os tipos 414 de característica podem incluir, porém não são limitados a: características relacionadas a matéria pornográfica ou sexo; características relacionadas a discurso racial e/ou radical; características de aperfeiçoamento físico; características de soluções financeiras ou de renda; características de compras a partir da residência, etc., que identificam o tema geral das mensagens.

[0069] Finalmente, a raridade de uma característica 316 ou de um tipo de característica (vide Figura 3 acima) pode ser uma outra característica como discutido acima na Figura 3. Por exemplo, uma característica extraída de uma mensagem tal como o nome de host “B” 402 a partir do FQDN 400 “b.x.com” pode ser um exemplo comum do tipo de característica: material pornográfico. Portanto, quando essa característica é extraída da mensagem e então encontrada em uma lista de características de material pornográfico, pode ser concluído que a mensagem mais provavelmente é uma spam, ou é inadequa-da/inapropriada para todas as idades, ou constitui conteúdo para adultos (por exemplo, classificação para adultos), e semelhante. Dessa forma, cada lista pode compreender as características mais comuns daquele tipo específico. Alternativamente, o endereço IP correspondente pode ser encontrado comumente em mensagens de spam em geral e, dessa forma, designado como uma característica comum de spam. Além disso, uma raridade e/ou aspecto comum da característica pode ser empregado como uma característica separada para aprendizagem de máquina ou outros sistemas baseados em regra.

[0070] A Figura 5 demonstra uma decomposição exemplar de característica de um endereço 500 de correio eletrônico: a@b.x.com. que inclui um FQDN 400 bem como umas poucas características adicionais, tal como um nome 502 de usuário. O endereço 500 de correio eletrônico pode ser extraído do campo DE, do campo cc: (cópia de cortesia), e do campo responder-para, de uma mensagem, bem como a partir de qualquer um dentre vínculos enviar correspondência para: no corpo da mensagem (por exemplo, vínculos de enviar correspondência para: são um tipo especial de vínculo que quando clicado, gera correspondência para um endereço específico), e, se disponível, a partir do comando CORRESPONDÊNCIA PARA usado no protocolo SMTP. Endereços 500 de correio eletrônico também podem ser embutidos como texto no corpo da mensagem. Em alguns casos, o conteúdo da mensagem pode orientar um recebedor para utilizar a função “responder para todos” ao responder à mensagem. Em tais casos, os endereços no campo cc e/ou pelo menos uma parte desses incluídos no campo “para” (se mais do que um destinatário for relacionado) também teriam resposta. Dessa forma, cada um desses endereços podería ser extraído como uma ou mais características para facilitar identificação e prevenção de inundador.

[0071] O endereço 500 de correio eletrônico “a.@b.x.com” pode ser decomposto em vários elementos ou subpartes e esses elementos também podem ser extraídos e empregados como características. Especificamente, o endereço de correio eletrônico compreende um nome 502 de usuário e um FQDN 504 (por exemplo, vide FQDN 400 na Figura 4) o qual pode ser decomposto ainda mais em características adicionais. Por várias razões práticas, tal como facilidade de uso, reconhecimento e lembrança, os endereços de correio eletrônico são normalmente assinalados utilizando FQDNs mais propriamente do que endereços IP.

[0072] No presente exemplo, “a@b.x.com” compreende o nome 502 de usuário “a”. Dessa forma, “a” pode ser extraído como uma característica. De forma semelhante, o FQDN 504 “b.x.com” pode ser extraído a partir do endereço de correio eletrônico como pelo menos uma outra característica. A parte FQDN 504 do endereço 500 de correio eletrônico pode ser passada através de um filtro de controle parental para facilitar determinação do tipo 414 de característica, que é descrito em mais detalhe, acima, na Figura 4. Portanto, o tipo de característica como relacionado à parte FQDN do endereço 500 de correio eletrônico pode ser usado como uma característica adicional.

[0073] Além de endereços de correio eletrônico, os inundadores freqüentemente são contatados através de URLs. A Figura 6 ilustra um URL 600 exemplar (por exemplo, x.y.com/a/b/c) junto com uma pluralidade de características extraídas a partir do mesmo de acordo com um aspecto da presente invenção. O URL 600 pode ser embutido como texto no corpo da mensagem e/ou como uma imagem no corpo da mensagem. Por exemplo, mensagens de spam podem incluir indicadores para sítios da rede, dessa forma dirigindo um recebedor para a página da rede do inundador ou sítio correlato.

[0074] URLs podem ser desofuscados de uma maneira similar com relação aos endereços IP. Inicialmente, qualquer prefixo (por exemplo, nome de serviço) tal como http://, https://, ftp://, telnet://, por exemplo, pode ser removido antes de desofuscar o URL 600. Além disso, se um símbolo (por exemplo %4G em notação hexadecimal) aparecer no meio do URL, qualquer coisa entre o prefixo (por exemplo, http://) e o símbolo pode ser removida antes de normalizar o URL 400. Incorporar texto entre o prefixo e o símbolo pode ser uma outra tática ou forma de truque utilizado por inundadores para confundir o recebedor da mensagem em relação ao verdadeiro local da página para o qual o recebedor está sendo dirigido.

[0075] Por exemplo, http://www.amazon.com@121.122.123.124 /info.htm aparece para o recebedor da mensagem como se essa página estivesse localizada em www.amazon.com. Dessa forma, o recebedor pode estar mais inclinado a confiar no vínculo e mais importan- te, no remetente da mensagem. Ao contrário, o local verdadeiro da página está em “121.122.123.124” que pode na realidade corresponder a uma página da rede relacionada à spam. Em alguns casos, contudo, remetentes legítimos podem incorporar informação de autenticação tal como um nome de conexão e senha nessa parte do URL 400 para facilitar uma conexão automática.

[0076] Quando normalizado e desofuscado, o URL 600 pode ser essencialmente expresso como x.y.com/a/b/c, onde x.y.com 630 é o nome da máquina (FQDN) e a/b/c (por exemplo, sufixo(s)) é o local de um arquivo naquela máquina. Se x.y.com/a/b/c 600 identifica um inun-dador(es), então x.y.com/a/b 610 e x.y.com/a 620 mais provavelmente identificam também o mesmo inundador ou um inundador(es) correlato. Dessa forma, a parte de extremidade ou caminho do URL 600 pode ser reduzido uma parte de cada vez, por exemplo, para se obter características adicionais para um sistema de aprendizagem de máquina ou lista. Isso torna mais difícil para os inundadores criar muitos locais diferentes que na realidade conduzam todos aos mesmos de tal forma que um padrão não seja percebido.

[0077] Quando os sufixos tiverem sido reduzidos, o FQDN 630 pode ser analisado adicionalmente para se obter características adicionais como discutido previamente acima na Figura 4. Além disso, o FQDN 630 também pode ser convertido em um endereço IP como demonstrado na Figura 3 acima. Consequentemente, várias características relacionadas ao endereço IP também podem ser usadas como características.

[0078] Alguns URLs são escritos com um endereço IP em vez de um FQDN (por exemplo, formato decimal de pontos) tal como nnn.nnn.nnn.nnn/a/b/c. Os sufixos podem ser removidos em ordem sucessiva começando com o “c” e em cada estágio, o URL resultante (parcial) pode ser usado como uma característica (por exemplo, nnn.nnn.nnn.nnn/a/b:nnn.nnn.nnn.nnn/a; e nnn.nnn.nnn.nnn são todas características possíveis a serem extraídas a partir do URL no formato decimal de pontos). A seguir, o endereço IP (por exemplo livre de sufixos e prefixos) pode ser usado como uma característica. O mesmo pode, então, ser mapeado para seu bloco da Internet. Se o bloco da internet não for de confiança, então múltiplas suposições podem ser feitas utilizando cada um dos primeiros 1.2... e até os primeiros 31 bits do endereço IP como características separadas (vide Figura 3).

[0079] Além do formato decimal de pontos, o endereço IP pode ser expresso em formato de palavra dupla (por exemplo, duas palavras binárias de 16 bits cada na base 10), no formato octal (por exemplo, base 8) e no formato hexadecimal (por exemplo base 16). Na prática, os inundadores podem ofuscar um endereço IP, um URL, um vínculo CORRESPONDÊNCIA PARA, e/ou um FQDN mediante, por exemplo, codificação da parte de nome de domínio utilizando notação %nn (onde nn é um par de dígitos hexadecimais).

[0080] Alguns URLs podem incluir meios de redirecionamento que podem ser empregados para confundir ou enganar o usuário. Um meio de redirecionamento é um parâmetro ou conjunto de parâmetros após um “?” no endereço IP do URL que instrui um navegador a se redirecionar para uma outra página da rede. Por exemplo, o URL pode aparecer como www.intendedpage.com7www.actualpage.com, em que o navegador na realidade aponta para “www.actualpage.com” e carrega aquela página em vez da página antecipada “www.intendedpage.com”. Portanto, parâmetros contidos dentro de um URL também podem ser considerados para extração como características.

[0081] Várias metodologias de acordo com a presente invenção serão descritas agora através de uma série de ações. Deve ser entendido e considerado que a presente invenção não é limitada pela ordem de ações, uma vez que algumas ações podem, de acordo com a pre- sente invenção, ocorrer em ordens diferentes e/ou simultaneamente com outras ações a partir daquelas mostradas e descritas aqui. Por exemplo, aqueles versados na técnica entenderão e considerarão que uma metodologia poderia alternativamente ser representada como uma série de estados ou eventos inter-relacionados, tal como em um diagrama de estado. Além disso, nem todas as ações ilustradas podem ser exigidas para implementar uma metodologia de acordo com a presente invenção.

[0082] Com referência à Figura 7, é ilustrado um fluxograma de um processo 700, exemplar, que facilita o treinamento de um filtro de acordo com um aspecto da presente invenção. O processo 700 pode começar com o recebimento de uma mensagem (por exemplo, pelo menos uma mensagem) em 710. A mensagem(ns) pode ser recebida por um servidor, por exemplo, onde um filtro existente (por exemplo, um filtro de spam) pode classificar aquela mensagem como provavelmente spam ou como não provavelmente uma spam com base pelo menos em parte em um conjunto de critérios previamente aprendidos pelo filtro. A mensagem pode ser analisada para se extrair uma ou mais características a partir da mesma em 720. A extração de características é descrita em detalhe adicional em 725 (infra na Figura 11). Exemplos de características incluem informação (por exemplo, endereço IP do remetente) localizada em um campo recebido-de, campo responder-para, campo cc, campo correspondência para, comando SMTP correspondência de, campo HELO, endereço URL embutido no texto ou como uma imagem, e/ou um número telefônico de tarifa não gratuita (por exemplo código de área para mapear geograficamente a região), bem como texto no corpo da mensagem.

[0083] As características extraídas (e/ou normalizadas), e a classificação da mensagem (por exemplo, spam ou não-spam), podem ser adicionadas a um conjunto de treinamento de dados em 730. Em 740, o mencionado acima (por exemplo, 710, 720 e 730) pode ser repetido para substancialmente todas as outras mensagens que chegam até que elas sejam processadas conformemente. Em 750, características que parecem ser úteis ou as características mais úteis podem ser selecionadas a partir do conjunto(s) de treinamento. Tais características selecionadas podem ser selecionadas para treinar um filtro, tal como um filtro de aprendizagem de máquina, por exemplo, por intermédio de um algoritmo de aprendizagem de máquina em 760.

[0084] Quando treinado, um filtro de aprendizagem de máquina pode ser utilizado para facilitar detecção de spam como descrito mediante uma metodologia exemplar 800 na Figura 8. A metodologia 800 começa com o recebimento de uma mensagem em 810. Em 820, uma ou mais características são extraídas a partir da mensagem como descrito infra com relação à Figura 11. Em 830, as características extraídas são passadas através de um filtro treinado por um sistema de aprendizagem de máquina, por exemplo. A seguir, um veredicto tal como “spam”, “não-spam”, ou uma probabilidade da mensagem ser spam é obtido a partir do sistema de aprendizagem de máquina. Quando o veredicto é obtido com relação ao conteúdo da mensagem, ação apropriada pode ser realizada. Tipos de ações incluem, porém, não são limitados a: deletar a mensagem; mover a mensagem para uma pasta especial; deixar a mensagem em quarentena; e permitir que o recebedor acesse a mensagem.

[0085] Alternativamente, atividades baseadas em lista podem ser realizadas com características extraídas das mensagens. Com referência à Figura 9, é ilustrado um fluxograma de um processo exemplar 900 para elaborar e preencher listas com base pelo menos em parte em características extraídas e sua ocorrência em mensagens recebidas classificadas quer seja como spam, ou não-spam (ou provavelmente, ou de modo improvável, como sendo spam). O processo 900 começa mediante recebimento de uma mensagem em 910. A seguir, alguma característica de interesse é extraída em 920 tal como o endereço IP do remetente da mensagem, por exemplo. Em algum momento após a mensagem ser recebida, a mensagem pode ser classificada como spam ou não-spam, por exemplo, mediante um filtro existente. Em 930, a característica pode ser contada de forma incrementai de acordo com a classificação da mensagem (por exemplo, spam ou não-spam). Isso pode ser repetido em 940 até que substancialmente todas as mensagens sejam processadas (por exemplo, em 910, 920, e 930). Posteriormente em 950, listas de características podem ser criadas. Por exemplo, uma lista pode ser criada para endereços IP de remetente os quais são 90% bons (por exemplo, 90% das vezes não são spam, ou não são spam, em 90% das mensagens que chegam). De forma semelhante, uma outra lista pode ser criada para endereços IP de remetente que são 90% ruins (spam). Outras listas para outras características podem ser criadas de forma semelhante.

[0086] Deve ser considerado que essas listas podem ser dinâmicas. Isto é, as mesmas podem ser atualizadas quando grupos adicionais de novas mensagens forem processados. Portanto, é possível que um endereço IP do remetente inicialmente seja encontrado em uma lista de bons; e então em algum momento posterior, ser encontrado em uma lista de ruins, uma vez que é comum para alguns inun-dadores inicialmente enviar correspondência boa (por exemplo, para obter a “confiança” dos filtros bem como dos destinatários) e então começar a enviar de forma substancial apenas spam.

[0087] Essas listas podem ser utilizadas de várias formas. Por exemplo, elas podem ser usadas para gerar conjuntos de treinamento para uso por um sistema de aprendizagem de máquina para treinar os filtros. Isso é ilustrado através de um processo exemplar 1000 descrito a seguir na Figura 10. De acordo com a Figura 10, o processo 1000 pode começar mediante recebimento de uma mensagem em 1010. A mensagem pode ser classificada, por exemplo, como spam ou não-spam. Em 1020, características incluindo, porém não limitadas a, endereço IP do remetente podem ser extraídas da mensagem. Em 1030, as características extraídas e a classificação da mensagem são adicionadas a um conjunto de treinamento que é subseqüentemente usado para treinar um sistema de aprendizagem de máquina.

[0088] A seguir, em 1040, uma característica especial correspondendo a uma lista específica no qual consta o endereço IP do remetente é incluída no conjunto de treinamento. Por exemplo, se o endereço IP do remetente estava na lista de “90% boas”, então a característica adicionada ao conjunto de treinamento estaria na lista de 90% boas. Em 1050, as etapas precedentes (por exemplo, 1010, 1020, 1030 e 1040) podem ser repetidas para processar substancialmente todas as mensagens que chegam. Uma vez que algumas características podem ser de mais utilidade, para fins de treinamento de filtro, do que outras, a característica, ou características, de mais utilidade é selecionada com base em parte nas preferências de usuário em 1060 e empregadas para treinar um filtro(s), tal como um filtro de spam, utilizando um algoritmo de aprendizagem de máquina.

[0089] Além disso, listas dinâmicas de endereços IP, por exemplo, podem ser construídas para comparação com mensagens de teste, novas mensagens, e/ou mensagens suspeitas. Contudo, os próprios endereços IP não são características nesse caso. Em vez disso, a qualidade do endereço IP é a característica. Alternativamente ou adicionalmente, as listas podem ser utilizadas em outras formas. Na prática, por exemplo, uma lista de endereços IP suspeitos pode ser usada para sinalizar um remetente como ruim, e conformemente, tratar suas mensagens com suspeição.

[0090] De acordo agora com a Figura 11, é ilustrado um fluxogra- ma de um método exemplar 1100 de extração de características a partir de uma mensagem em conjunto com os processos 700, 800, 900 e 1000 descritos acima nas Figuras 7-10, respectivamente. O método 1100 pode começar em que um endereço IP recebido-de, ou uma parte do mesmo, é extraído e normalizado em 1110. Também em 1110, o endereço IP pode ser submetido a processamento na forma de bits (por exemplo, primeiro 1 bit, primeiros 2 bits...até primeiros 31 bits -como discutido na Figura 3) para extrair características adicionais a partir do endereço IP recebido-de. Além disso, o suposto nome de host do remetente também pode ser extraído em 1110. O endereço IP re-cebido-de normalizado e as características de nome de host de remetente podem ser agora usados como características de um sistema de aprendizagem de máquina ou sistema de treinamento correlato.

[0091] Opcionalmente, em 1120, conteúdo da linha “De:” pode ser extraído e/ou normalizado e subseqüentemente empregado como características. Em 1130, conteúdo do comando - “CORRESPONDÊNCIA DE SMTP” - pode ser similarmente extraído e/ou normalizado para uso como características.

[0092] O método 1100 pode então prosseguir procurando outras características possíveis que podem ser incluídas na mensagem. Por exemplo, o mesmo pode opcionalmente extrair e normalizar (se necessário) conteúdo em um campo responder-para em 1140. Em 1150, conteúdo do campo cc: pode opcionalmente extraído e/ou normalizado para uso como pelo menos uma característica. Em 1160, números telefônicos de tarifa não-gratuita podem ser opcionalmente extraídos a partir do corpo da mensagem e também atribuídos como características. Números que não são telefônicos podem ser úteis para identificar inundadores porque o código de área e/ou primeiros três dígitos do número telefônico podem ser usados para mapear o local do inunda-dor. Se existir mais do que um número telefônico de tarifa não-gratuita na mensagem, cada número pode ser extraído e usado como características separadas em 1160.

[0093] De forma semelhante, um ou mais URLs e/ou vínculos CORRESPONDÊNCIA PARA, ou partes dos mesmos, podem opcionalmente ser extraídos e/ou normalizados, respectivamente em 1170 e 1180. Especificamente, o URL pode ser submetido à remoção de caminho (por exemplo parte do nome de arquivo do URL), em que um ou mais sufixos anexados à extremidade da parte FQDN do URL podem ser removidos. Isto pode resultar em um ou mais URLs parciais dependendo do número de sufixos no caminho. Cada URL parcial pode ser empregado como uma característica separada de acordo com a presente invenção.

[0094] O método 1100 pode continuar para explorar o corpo da mensagem procurando outros endereços de correio eletrônico bem como palavras de muita importância e/ou frases (por exemplo previamente selecionadas ou determinadas) que podem ser encontradas mais provavelmente em uma mensagem de spam do que em uma mensagem legítima e vice-versa. Cada palavra ou frase pode ser extraída e usada como uma característica quer seja para os sistemas de aprendizagem de máquina ou como um elemento de uma lista, ou ambos.

[0095] Como previamente discutido, mensagens enviadas através da Internet podem ser enviadas de servidor para servidor com um número tão pequeno quanto dois servidores envolvidos. O número de servidores que têm contato com a mensagem aumenta como um resultado da presença de barreiras de proteção e arquiteturas de rede correlatas. Quando a mensagem é passada de servidor para servidor, cada servidor acrescenta seu endereço IP ao campo recebido-de. Cada servidor também tem a capacidade de modificar quaisquer endereços recebido-de anexados anteriores. Inundadores, infelizmente, po- dem tirar proveito dessa habilidade e podem introduzir endereços falsos nos campos recebido-de para disfarçar sua localização e/ou identidade e para enganar o recebedor em relação à fonte da mensagem.

[0096] A Figura 12 ilustra um fluxograma de um processo exemplar 1200 para disfarçar entre endereços IP de servidor anexados legítimos e falsos na linha recebido-de de uma mensagem que chega. Os endereços recebido-de anexados podem ser examinados na ordem na qual eles são adicionados (por exemplo o primeiro é o mais recentemente adicionado). Dessa forma, um usuário pode monitorar de volta através da cadeia de endereços IP de servidor remetente para determinar um último endereço IP de servidor de confiança em 1210. Em 1220, o último endereço IP de servidor de confiança (aquele diretamente fora da organização) pode ser extraído como uma característica a ser usada por um sistema de aprendizagem de máquina. Qualquer outro endereço IP, após o último de confiança,pode ser considerado questionável, ou não-digno de confiança, e pode ser ignorado, porém, poderia ser comparado a listas de endereços IP (na maioria) bons e endereços IP (na maioria) ruins.

[0097] Em 1230, o suposto FQDN do remetente também pode ser extraído para facilitar a determinação de se o remetente é legítimo ou um inundador. Mais especificamente, o suposto FQDN pode ser decomposto mediante remoção de domínio para produzir mais do que um FQDN parcial. Por exemplo, imagine que o suposto FQDN é a.b.c.x.com. Esse suposto FQDN seria removido da seguinte maneira para produzir: b.c.x.com -> c.x.com -> x.com -> com. Dessa forma, cada segmento FQDN parcial, bem como o FQDN integral, podem se empregados como uma característica separada para auxiliar na determinação de remetentes falsos e legítimos.

[0098] A presente invenção também pode fazer uso de sistemas de controle parental. sistemas de controle parental podem classificar uma mensagem como inadequada para assistência com base pelo menos em parte em algum conteúdo da mensagem e prover uma razão para a classificação de inadequada. Por exemplo, um URL pode ser embutido em uma mensagem como um vínculo que pode ser cli-cado (quer seja baseado em texto ou imagem), ou como texto dentro do corpo da mensagem. O sistema de controle parental pode comparar o URL embutido com um ou mais de suas listas de URL bom e/ou ruim para determinar a classificação adequada da mensagem, ou usar outras técnicas para classificação de controle parental. A classificação pode então ser usada como uma característica adicional quer seja no sistema de aprendizagem de máquina ou em uma lista de características, ou ambos.

[0099] Na Figura 13, um fluxograma de um processo 1300 exemplar para incorporar pelo menos um aspecto de um sistema de controle parental na presente invenção, é demonstrado. Após receber um conjunto de mensagens em 1310, a mensagem pode ser explorada no sentido de URLs, vínculos de correspondência para, ou outro texto que lembre um vínculo de correspondência para, um URL, ou alguma parte de um URL em 1320. Se a mensagem aparentemente não contém quaisquer dos acima em 1330, então o processo 1300 retorna para 1310. Contudo, se a mensagem indicar tal, então pelo menos uma parte dos caracteres detectados pode ser passada para pelo menos um sistema de controle parental em 1340.

[00100] Em 1350, o sistema de controle parental pode classificar o vínculo correspondência para, URL, ou parte da mesma mediante consulta de um ou mais banco de dados de URLs, vínculos de correspondência para, nomes de serviço URL, caminhos URL, e FQDNs (por exemplo, tal como as partes FQDN de URLs, endereços de correio eletrônico, etc.). Por exemplo, a mensagem pode ser classificada como contendo pelo menos um dentre material pornográfico, livre-se de dívidas, jogo, e outro material similar. Tal classificação pode ser extraída como característica adicional em 1360. Uma vez que o tema da maioria de mensagens de spam inclui tal material a incorporação do sistema de controle parental pode ser útil para se obter características adicionais com as quais o sistema de aprendizagem de máquina pode usar para treinar e elaborar filtros aperfeiçoados. Também existem outras classificações incluindo, porém não limitadas a: discurso radical, material sexual, arma-violência, e material relacionado a drogas, em que tais classificações podem ser usadas também como características. Mensagens de spam podem ou não envolver tema relacionado a esses tipos de materiais, porém um usuário ainda pode desejar bloquear esses tipos de mensagens.

[00101] Na prática, as classificações diferentes podem indicar graus diferentes de capacidade de spam. Por exemplo, mensagens classificadas como discurso radical podem significar substancialmente nenhum grau de capacidade de spam (por exemplo, porque a mesma provavelmente não é spam). Inversamente, mensagens classificadas como conteúdo/material sexual pode refletir um grau relativamente superior de capacidade de spam (por exemplo, aproximadamente 90% de certeza de que a mensagem é spam). Sistemas de aprendizagem de máquina podem elaborar filtros que consideram o grau de capacidade de spam. Dessa forma, um filtro pode ser personalizado e feito sob medida para atender às preferências do usuário.

[00102] Como já discutido, diversas características podem ser extraídas de uma mensagem e usadas como dados de treinamento por um sistema de aprendizagem de máquina ou como elementos em uma lista(s) identificando características boas e ruins. As qualidades das características, além das próprias características, podem ser úteis na detecção e prevenção de spam. Por exemplo, imagine que uma característica é o endereço de correio eletrônico do remetente. O endereço de correio eletrônico poderia ser usado como uma característica e a freqüência ou contagem daquele endereço de correio eletrônico aparecendo em novas mensagens que chegam poderia ser usada como uma outra característica.

[00103] A Figura 14 ilustra um fluxograma de um processo 1400, exemplar, para extrair esse tipo de característica (por exemplo relacionada à qualidade de ser comum ou de ser raridade da característica extraída). Os inundadores freqüentemente tentam mudar seus locais rapidamente, e como resultado, é mais provável que a maioria dos usuários envie correspondência a partir de um endereço previamente não visto ou envie correspondência com URLs apontando para uma máquina previamente desconhecida, por exemplo. Portanto, para cada tipo de característica (por exemplo, endereço IP recebido-de, URL, endereço de correio eletrônico, nome de domínio, etc.) que é extraído, considerando que uma lista de características para cada tipo está sendo mantida, uma taxa, freqüência ou contagem de ocorrência da característica específica pode ser monitorada.

[00104] O processo 1400 pode começar com uma extração de uma ou mais características a partir de uma mensagem que chega e/ou normalização da característica(s) em 1410. A característica pode então ser comparada com uma ou mais listas de características que foram previamente extraídas ou observadas em uma pluralidade de mensagens anteriores em 1420. O processo 1400 pode então determinar se a presente característica é comum. A qualidade de ser comum de uma característica pode ser determinada através de uma freqüência calculada da aparição da característica em mensagens que chegam recentes e/ou prévias. Se a mensagem não é comum ou não é comum o suficiente (por exemplo, não satisfaz um limite de qualidade de ser comum) em 1430, então sua raridade pode ser usada como uma característica adicional em 1440. Caso contrário, a qualidade de ser comum da característica também pode ser usada como uma característica em 1450.

[00105] De acordo com a presente invenção como descrito acima, o pseudocódigo a seguir pode ser empregado para realizar pelo menos um aspecto da invenção. Nomes variáveis são indicados em letras maiúsculas. Como uma observação adicional, duas funções, add-machine-features e add-ip-features são definidas no término do pseudocódigo. Notação como “PREFIX-machine-MACHINE” é usada para indicar a seqüência composta de qualquer coisa que esteja na variável PREFIX concatenada com a palavra “machine” concatenada com o que quer que esteja na variável MACHINE. Finalmente, a função add-to-feature-list escreve a característica para a lista de características associada à mensagem atual.

[00106] O pseudocódigo exemplar é como a seguir: # for a given message, extract all the features IPADDRESS := the last externai IP address in the received-from 11 st; add-ipfeatures(received, IPADDRESS); SENDERS-ALLEGED-FQDN := FQDN in the last externai IP address in the received-from list; add-machine-features(sendersfqdn, SENDERS-ALLEGED-FQDN); for each email address type ΤΥΡΕ in (from, CC, to, reply-to, embedded-mai 1 to-1 ink, ernbedded-address, and SMTP MAIL FROM) ( for each address ADDRESS of type ΤΥΡΕ in the message { deobfuscate ADDRESS if necessary; add-to-feature-list TYPE-ADDRESS; if ADDRESS is of the form NAME0MACHINE then { add-machine-features (TYPE, MACHINE) ; } el se { # ADDRESS is of form NAME0IPADDRESS add-ip-features(TYPE, IPADDRESS); ) } } for each uri type TYPE in (clickable-1inks, text-based-links, embedded-image-1inks) i l for each URL in the message of type TYPE ( deobfuscate URL; . add-to-feature-list TYPE-URL; set PARENTALCLASS := parental control system class of URL; add-to-feature-list TYPE-class-PARENTCLASS; while URL has a location suffix { remove location suffix from URL, i.e. x.y/a/b/c -> x.y/a/b; x.y/a/b -> x.y/a; x.y/a; } # All suffixes have been removed; URL is now either machine name or IP address if URL is machine name { add-machine-features(TYPE, URL); ' } else { add-ip-features(TYPE, URL); } } } function add-machine-features (PRF.FIX, MACHINE) í add-ip-features(PREFIX-ip, nslookup(MACHINE) ) ; while MACHINE not equal "" ( add-to-feature-list PREFIX-machine-MACHINE; remove beginning from MACHINE # (i.e. a.x.com -> x.com, or x.com -> com); ) } function add-ip-features(PREFIX, IPADDRESS) 1 add-to-feature-list PREFIX-ipaddress-IPADDRESS; find netblock NETBLOCK oi IPADDRESS; add-to-feature-list PREFIX-netblock-NETBLOCK; for N = 1 to 31 { MASKED - first N bits of IPADDRESS; add-to-feature-list PREFIX-masked-N-MASKED; } J________________________________________________________________ [00107] Para proporcionar contexto adicional para diversos aspectos da presente invenção, a Figura 15, e a discussão a seguir, têm a finalidade de prover uma descrição resumida, geral, de um ambiente operacional 1510, adequado, no qual vários aspectos da presente invenção podem ser implementados. Embora a invenção seja descrita no contexto geral de instruções executáveis por computador, tais como módulos de programa, executados por um ou mais computadores ou outros dispositivos, aqueles versados na técnica reconhecerão que a invenção também pode ser implementada em combinação com outros módulos de programa e/ou como uma combinação de hardware e software.

[00108] Genericamente, contudo, módulos de programa incluem rotinas, programas, objetos, componentes, estruturas de dados, etc. que realizam tarefas específicas ou implementam tipos específicos de dados. O ambiente operacional 1510 é apenas um exemplo de um ambiente operacional adequado e não tem a finalidade de sugerir qualquer limitação em relação ao escopo de uso ou funcionalidade da invenção. Outros sistemas de computador bem conhecidos, ambientes, e/ou configurações que podem ser adequados para uso com a invenção incluem porém não são limitados a, computadores pessoais, dispositivos portáteis ou laptops, sistemas de múltiplos processadores, sistemas baseados em microprocessador, meios eletrônicos progra-máveis de consumidor, PCs de rede, minicomputadores, computadores de grande porte, ambientes distribuídos de computação que incluem os sistemas ou dispositivos acima, e semelhante.

[00109] Com referência à Figura 15, um ambiente exemplar 1510 para implementar vários aspectos da invenção inclui um computador 1512. O computador 1512 inclui uma unidade de processamento 1514, uma memória 1516 de sistema, e um barramento 1518 de sistema. O barramento 1518 de sistema acopla os componentes de sistema incluindo, porém não limitados a, memória 1516 de sistema à unidade 1514 de processamento. A unidade 1514 de processamento pode ser qualquer um dos vários processadores disponíveis. Microprocessadores duplos e outras arquiteturas de múltiplos processadores também podem ser empregadas como a unidade 1514 de processamento.

[00110] O barramento 1518 de sistema pode ser qualquer um de vários tipos de estrutura(s) de barramento incluindo o barramento de memória ou controlador de memória, um barramento periférico ou barramento externo, e/ou um barramento local utilizando qualquer variedade de arquiteturas de barramento disponíveis incluindo, porém não limitadas a, barramento de 11-bits, Arquitetura Padrão Industrial (ISA), Arquitetura de Microcanal (MAS), ISA Estendida (EISA), Meios Eletrônicos de Unidade Inteligente (IDE), Barramento Local VESA (VLB), Interconexão de Componentes Periféricos (PCI), Barramento Serial Universal (USB), Porta Gráfica Avançada (AGP), Barramento da Asso- ciação Internacional de Placa de Memória de Computador Pessoal (PCMCIA), e Interface de Sistema de Computadores Pequenos (SCSI).

[00111] A memória 1516 de sistema inclui memória volátil 1520 e memória não-volátil 1522. O sistema de entrada/saída básico (BIOS), contendo as rotinas básicas para transferir informação entre elementos dentro do computador 1512, tal como durante a partida, é armazenado na memória não-volátil 1522. Como ilustração, e não limitação, a memória não-volátil 1522 pode incluir memória exclusiva de leitura (ROM), ROM programável (PROM), ROM eletricamente programável (EPROM), ROM eletricamente apagável (EEPROM), memória flash. A memória volátil 1520 inclui memória de acesso aleatório (RAM), que atua como memória cache externa. Como ilustração, e não limitação, RAM está disponível em muitas formas tais como RAM síncrona (SRAM), RAM dinâmica (DRAM), DRAM síncrona (SDRAM), SDRAM de taxa dupla de dados (DDR SDRAM), SDRAM otimizada (ESDRAM), DRAM de ligação síncrona (SLDRAM), e RAM rambus direta (DRRAM).

[00112] O computador 1512 também inclui meios de armazenamento de computador removíveis/não-removíveis, voláteis/não-voláteis. A Figura 15 ilustra, por exemplo, um meio de armazenamento 1524 de disco. O meio de armazenamento 1524 de disco inclui, porém não é limitado a, dispositivos como uma unidade de disco magnético, unidade de disquete, unidade de fita, unidade Jaz, unidade Zip, unidade LS-100, placa de memória flash, ou pente de memória. Além disso, o meio de armazenamento 1524 de disco pode incluir meios de armazenamento separadamente ou em combinação com outros meios de armazenamento separadamente ou em combinação com outros meios de armazenamento incluindo, porém não limitados a, unidade de disco ótico tais como um dispositivo ROM de disco a laser (CD-ROM), uni- dade de CD que pode ser gravado (unidade CD-R), unidade de CD que pode ser regravado (unidade CD-RW) ou uma unidade ROM de disco digital versátil (DVD-ROM). Para facilitar conexão dos dispositivos 1524 de armazenamento de disco ao barramento 1518 de sistema, uma interface removível ou não-removível é usada tipicamente tal como a interface 1526.

[00113] Deve ser considerado que a Figura 15 descreve software que atua como um intermediário entre usuários e os recursos básicos de computador descritos no ambiente 1510 operacional adequado. Tal software inclui um sistema 1528 operacional. O sistema 1528 operacional que pode ser armazenado no meio de armazenamento 1524 de disco, atua para controlar e alocar recursos do sistema 1512 de computador. Aplicações 1530 de sistema tiram proveito do gerenciamento de recursos pelo sistema operacional 1528 através de módulos de programa 1532 e dados de programa 1534 armazenados quer seja na memória 1516 de sistema ou em meio de armazenamento 1524 de disco. Deve ser considerado que a presente invenção pode ser implementada com vários sistemas operacionais ou combinações de sistemas operacionais.

[00114] Um usuário introduz comandos ou informação no computador 1512 através do dispositivo(s) 1536 de entrada. Os dispositivos 1536 de entrada incluem, porém não são limitados a, um dispositivo indicador tal como um mouse, trackball, caneta, mesa de toque, teclado, microfone, joystick, mesa de jogos, antena de prato de satélite, scanner, placa de sintonizador de TV, câmera digital, câmera de vídeo digital, câmera da rede, e semelhante. Esses e outros dispositivos de entrada são conectados à unidade 1514 de processamento através do barramento 1518 de sistema através de porta(s) 1538 de interface. Porta(s) 1538 de interface inclui, por exemplo, uma porta serial, uma porta paralela, uma porta de jogos, e um barramento serial universal (USB). Dispositivo(s) 1540 de saída usa algum do mesmo tipo de portas como dispositivo(s) 1536 de entrada. Dessa forma, por exemplo, uma porta USB pode ser usada para prover entrada para o computador 1512, e para emitir informação a partir do computador 1512 para um dispositivo 1540 de saída. Adaptador 1542 de saída é provido para ilustrar que há alguns dispositivos 1540 de saída como monitores, alto-falantes, e impressoras dentre outros dispositivos 1540 de saída que exigem adaptadores especiais. Os adaptadores 1542 de saída incluem, como ilustração e não limitação, placas de vídeo e som que proporcionam um meio de conexão entre o dispositivo 1540 de saída e o barramento 1518 de sistema. Deve ser observado que outros dispositivos e/ou sistemas de dispositivos proporcionam capacidades de entrada e de saída tal como computador(es) remoto 1544.

[00115] Computador 1512 pode operar em um ambiente de rede utilizando conexões lógicas para um ou mais computadores remotos, tal como computador(es) remoto 1544. O computador(es) remoto 1544 pode ser um computador pessoal, um servidor, um roteador, um PC de rede, uma estação de trabalho, um aparelho baseado em microprocessador, um dispositivo de rede não hierárquica ou outro nó de rede comum, e semelhante, e inclui tipicamente muitos ou todos os elementos descritos em relação ao computador 1512. Com o propósito de brevidade, apenas um dispositivo 1546 de armazenamento de memória é ilustrado com o computador(es) remoto 1544. O computador(es) remoto 1544 é conectado de forma lógica ao computador 1512 através de uma interface 1548 de rede e então conectado fisicamente através da conexão 1550 de comunicação. A interface 1548 de rede abrange redes de comunicação tais como redes de área local (LAN) e redes remotas (WAN). Tecnologias LAN incluem Interface de Dados Distribuída de Fibra (FDDI), Interface de Dados Distribuída de Cobre (CDDI), Ethernet/IEEE 1102.3, Token Ring/IEEE 1102.5 e semelhante. Tecno- logias WAN incluem, porém não são limitadas a, ligações de ponto a ponto, redes de comutação de circuito como as Redes Digitais de Serviços Integrados (ISDN) e variações das mesmas, redes de comutação de pacote, e Linhas Digitais de Assinante (DSL).

[00116] Conexão(ões) 1550 de comunicação se refere a hardwa-re/software empregado para conectar a interface 1548 de rede ao bar-ramento 1518. Embora conexão 1550 de comunicação seja mostrada para clareza ilustrativa dentro do computador 1512, a mesma também pode ser externa ao computador 1512. O hardware/software necessário para conexão à interface 1548 de rede inclui, apenas com propósitos de exemplo, tecnologias internas e externas tais como modems, incluindo modems de tipo para telefone comum, modems a cabo e modems DSL, adaptadores ISDN, placas Ethernet.

[00117] O que foi descrito acima inclui exemplos da presente invenção. Evidentemente, não é possível descrever cada combinação concebível de componentes ou metodologias com o propósito de descrever a presente invenção, porém aqueles versados na técnica podem reconhecer que são possíveis muitas combinações e permutações adicionais da presente invenção. Consequentemente, pretende-se que a presente invenção abranja todas as tais alterações, modificações e variações que estejam compreendidas no espírito e escopo das reivindicações anexas. Além disso, até o ponto em que o termo “inclui” é usado quer seja na descrição detalhada ou nas reivindicações, pretende-se que tal termo seja inclusivo de uma maneira similar ao termo “compreendendo”, como “compreendendo” é interpretado ao ser empregado como uma palavra transitiva em uma reivindicação.

REIVINDICAÇÕES

Claims

1. Sistema que facilita a extração de dados em conexão com processamento de spam compreendendo: uma memória (1516); um processador (1514) acoplado à memória (1516); um componente (120,130,220) adaptado para receber um item (110,210) e extrair um conjunto de características (232-236) associado a uma origem de uma mensagem ou parte dela e/ou informação que permite que um destinatário pretendido contatar um remetente da mensagem, responder ou receber em ligação com a mensagem, em que o componente que recebe o item é ainda adaptado para determinar um último endereço de IP do servidor confiável para distinguir entre endereços de IP de servidor pré-estabelecidos confiável e falsos e para extrair o último endereço de IP do servidor confiável como um recurso a partir do item, em que um endereço de IP de servidor confiável se refere a um servidor que está localizado dentro de uma organização; e caracterizado pelo fato de que ainda compreende um componente (140) adaptado para empregar um subconjunto das características extraídas em ligação com a construção de um filtro (150,270) ao adicionar o subconjunto das características extraídas a um conjunto de formação de dados utilizado para treinar e atualizar o filtro, em que o filtro determina uma probabilidade de que a mensagem seja spam quando o subconjunto de recursos extraídos passa pelo filtro, em que o filtro é um filtro de spam.

2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende um componente de normalização (240) que desofusca um subconjunto de características.

3. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende um componente de sistema de aprendizagem de máquina (260) que emprega as características deso-fuscadas para aprender pelo menos um dentre spam e não spam.

4. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende pelo menos um endereço de IP, o pelo menos um endereço de IP sendo pelo menos uma parte de qualquer um dentre um endereço de res-ponder-para, um endereço de cópia, um endereço de correspondên-cia-para, um endereço de recebido-de, e um URL localizado na mensagem.

5. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que o endereço de IP compreende um ID de bloco, em que o ID de bloco pode ser extraído como pelo menos uma característica.

6. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que o ID de bloco é determinado pelo menos em parte mediante consulta a um diretório de blocos.

7. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de que o diretório de blocos é arin.net.

8. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que o ID de bloco é determinado pelo menos em parte mediante suposição, dessa forma extraindo como característica qualquer um dentre pelo menos um primeiro 1 bit (304), pelo menos os primeiros 2 bits (306), pelo menos os primeiros 3 bits (308), e até pelo menos os primeiros 31 bits (312) do endereço de IP.

9. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende cada um de um primeiro 1 bit até os primeiros 31 bits de endereço de IP.

10. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende um URL (600).

11. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que o endereço URL está localizado em pelo menos um dentre um corpo da mensagem; embutido como texto na mensagem, e embutido em uma imagem na mensagem.

12. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende um componente que emprega pelo menos um subconjunto das características extraídas para encher pelo menos uma lista de características.

13. Sistema, de acordo com a reivindicação 12, caracterizado pelo fato de que pelo menos uma lista de características é qualquer uma dentre uma lista de usuários bons, uma lista de inundadores, uma lista de características positivas indicando remetente legítimo, e uma lista de características indicando spam.

14. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende pelo menos um URL.

15. Sistema, de acordo com a reivindicação 14, caracterizado pelo fato de que o URL é embutido como texto em um corpo da mensagem.

16. Sistema, de acordo com a reivindicação 14, caracterizado pelo fato de que o URL é pelo menos uma parte de um vínculo em um corpo da mensagem.

17. Sistema, de acordo com a reivindicação 14, caracterizado pelo fato de que o URL é pelo menos uma parte de um vínculo embutido como uma imagem em uma mensagem.

18. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende pelo menos um dentre um nome de host (402) e um nome de domínio (404) extraído a partir de um endereço de correio eletrônico.

19. Sistema, de acordo com a reivindicação 1, caracteriza- do pelo fato de que o subconjunto de características compreende pelo menos uma parte de um FQDN extraído de qualquer um dentre um endereço de correio eletrônico e um URL.

20. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o subconjunto de características compreende pelo menos uma parte de um nome de domínio extraído de qualquer um dentre um endereço de correio eletrônico e um URL.

21. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos uma parte do subconjunto das características extraídas é normalizada antes de ser usada em conexão com um sistema de aprendizagem de máquina.

22. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos uma parte do subconjunto das características extraídas é normalizada (240) antes de ser usada para encher pelo menos uma lista de características (280).

23. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende um componente de classificação, que classifica pelo menos uma parte de pelo menos um dentre um URL, um endereço de correio eletrônico, e um endereço de IP como qualquer um dentre: adultos, conteúdo para adultos, inadequado, inadequado para algumas idades, adequado para todas as idades, não apropriado e apropriado.

24. Sistema, de acordo com a reivindicação 23, caracterizado pelo fato de que o componente de classificação é um sistema de controle parental.

25. Sistema, de acordo com a reivindicação 23, caracterizado pelo fato de que o componente de classificação atribui pelo menos um tipo de característica à parte classificada de pelo menos um dentre: URL, endereço de sítio da rede e o endereço de IP.

26. Sistema, de acordo com a reivindicação 1, caracteriza- do pelo fato de que o conjunto de características compreende pelo menos um número telefônico de tarifa não gratuita, o número telefônico compreendendo pelo menos um código de área para facilitar mapear uma localização geográfica de um remetente ou contato associado à mensagem.

27. Método que facilita a extração de dados em conexão com processamento de spam compreendendo as etapas de: receber (710,810,910,1010,1310) uma mensagem; extrair (720,820,920,1010) um conjunto de características associadas a uma procedência da mensagem ou parte da mesma e/ou informação que permita que um recebedor pretendido contate um remetente da mensagem, responda ou receba em conexão com a mensagem; determinar um último endereço de IP do servidor confiável a partir da mensagem para distinguir entre endereços de IP de servidor confiáveis e falsos, em que um endereço de IP de servidor confiável refere-se a um servidor que está localizado dentro de uma organização; e caracterizado pelo fato de que ainda compreende a etapa de empregar (760,1060) um subconjunto das características extraídos em ligação com a construção de um filtro ao adicionar o subconjunto das características extraídas a um conjunto de formação de dados utilizado para treinar e atualizar o filtro, em que o filtro determina uma probabilidade de que a mensagem seja spam quando o subconjunto de recursos extraídos passa através do filtro, e em que o filtro é um filtro de spam.

28. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o conjunto de características compreende pelo menos uma parte de um endereço de IP.

29. Método, de acordo com a reivindicação 28, caracteri- zado pelo fato de que extrair pelo menos uma parte do endereço de IP compreende realizar pelo menos uma das seguintes ações: consultar um diretório de ID de bloco para determinar pelo menos um ID de bloco correspondendo ao endereço IP de tal modo que o ID de bloco é extraído como uma característica adicional; e extrair cada um de pelo menos um primeiro 1 bit até os primeiros 31 bits a partir do endereço IP.

30. Método, de acordo com a reivindicação 28, caracterizado pelo fato de que pelo menos um endereço de IP extraído corresponde a pelo menos um servidor.

31. Método, de acordo com a reivindicação 30, caracterizado pelo fato de que ainda compreende extrair pelo menos um servidor como uma característica adicional.

32. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende desofuscar pelo menos um subconjunto das características extraídas a partir da mensagem.

33. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende desofuscar pelo menos uma parte de pelo menos uma característica extraída da mensagem.

34. Método, de acordo com a reivindicação 33, caracterizado pelo fato de que desofuscar um endereço de IP recebido-de extraído a partir da mensagem compreende rastrear de volta através de uma pluralidade de endereços de IP anexados-a para verificar a identidade dos endereços de IP anexados-a.

35. Método, de acordo com a reivindicação 33, caracterizado pelo fato de que ainda compreende extrair características adicionais a partir de um endereço de sítio da rede compreende realizar pelo menos uma das seguintes ações: remover pelo menos um sufixo de uma vez dessa forma produzindo características adicionais respectivas; e remover pelo menos um prefixo de uma vez, dessa forma produzindo características adicionais respectivas.

36. Método, de acordo com a reivindicação 33, caracterizado pelo fato de que o conjunto de características compreende pelo menos uma parte de qualquer um dentre um endereço responder-para, um endereço de cópia de cortesia, um endereço correspondên-cia-para, um URL, um vínculo, e um endereço recebido-de.

37. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que pelo menos um subconjunto das características extraídas é embutido como um de texto e imagens em um corpo da mensagem.

38. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o conjunto de características compreende um nome de host e um nome de domínio.

39. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende classificar (1350) uma ou mais características extraídas e/ou partes das mesmas para indicar qualquer um dentre conteúdo adequado e inadequado associado à mensagem e usar (1360) tal classificação como uma característica adicional.

40. Método, de acordo com a reivindicação 27 caracterizado pelo fato de que ainda compreende atribuir um tipo de característica às características extraídas respectivas para notificar um usuário de conteúdo de mensagem com base pelo menos em parte nas características extraídas respectivas e usar o tipo de característica como uma característica adicional.

41. Método, de acordo com a reivindicação 40, caracterizado pelo fato de que ainda compreende determinar (1430) que pelo menos um dentre um tipo de característica e uma característica é qualquer uma dentre rara e comum e usar (1440,1460) uma qualidade de raridade e uma qualidade de ser comum de uma característica como uma característica adicional.

42. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o subconjunto de características é empregado em conexão com a elaboração de um filtro através de um sistema de aprendizagem de máquina.

43. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o subconjunto de características é empregado em conexão com a elaboração de um filtro de controle parental.

44. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende empregar pelo menos um subconjunto de características extraídas a partir da mensagem para encher uma ou mais listas de característica.

45. Método, de acordo com a reivindicação 44, caracterizado pelo fato de que a lista de características compreende pelo menos uma dentre listas de características positivas incluindo não-inundadores e listas de características ruins indicando inundadores.

46. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que as características extraídas são desofuscadas pelo menos em parte antes de serem empregadas como características de um sistema de aprendizagem de máquina.

47. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que as características extraídas são desofuscadas pelo menos em parte antes de serem empregadas como características para encher listas de características.