RU2013125984A - Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама - Google Patents

Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама Download PDF

Info

Publication number
RU2013125984A
RU2013125984A RU2013125984/08A RU2013125984A RU2013125984A RU 2013125984 A RU2013125984 A RU 2013125984A RU 2013125984/08 A RU2013125984/08 A RU 2013125984/08A RU 2013125984 A RU2013125984 A RU 2013125984A RU 2013125984 A RU2013125984 A RU 2013125984A
Authority
RU
Russia
Prior art keywords
shingles
text
messages
found
message
Prior art date
Application number
RU2013125984/08A
Other languages
English (en)
Other versions
RU2583713C2 (ru
Inventor
Сергей Геннадьевич Загорский
Дарья Владимировна Лосева
Владимир Александрович Скворцов
Original Assignee
Закрытое акционерное общество "Лаборатория Касперского"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Закрытое акционерное общество "Лаборатория Касперского" filed Critical Закрытое акционерное общество "Лаборатория Касперского"
Priority to RU2013125984/08A priority Critical patent/RU2583713C2/ru
Priority to US14/069,889 priority patent/US8996638B2/en
Priority to EP13194359.9A priority patent/EP2811699B1/en
Publication of RU2013125984A publication Critical patent/RU2013125984A/ru
Priority to US14/623,977 priority patent/US9391936B2/en
Application granted granted Critical
Publication of RU2583713C2 publication Critical patent/RU2583713C2/ru

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

1. Система исключения шинглов, которые встречались только в сообщениях, не содержащих спам, при фильтрации спама, которая содержит:а) средство обработки текста, предназначенное для поиска частей текста, которые встречались только в сообщениях, не содержащих спам, которые следует исключить, путем анализа текста сообщения на наличие известных образцов текста, хранимых в базе данных образцов текста, исключения из текста сообщения найденных частей текста, которые встречались только в сообщениях, не содержащих спам, передачи сокращенного текста сообщения средству обработки шинглов;б) база данных образцов текста, предназначенная для хранения известных образцов текста, характерных для частей сообщения, которые встречались только в сообщениях, не содержащих спам;в) средство обработки шинглов, предназначенное для вычисления набора шинглов на основе сокращенного текста сообщения, поиска шинглов, которые следует исключить, путем сравнения шинглов из вычисленного набора шинглов с известными шинглами, которые хранятся в базе данных шинглов, исключения совпадающих шинглов.г) база данных шинглов, предназначенная для хранения известных шинглов, характерных для частей сообщения, которые встречались только в сообщениях, не содержащих спам.2. Система по п.1, в которой средство обработки шинглов после исключения совпадающих шинглов передает сокращенный набор шинглов средству фильтрации.3. Система по п.1, в которой дополнительно используют средство фильтрации, предназначенное для анализа сокращенного набора шинглов, по крайней мере, по одному из методов фильтрации.4. Система по п.3, в которой средство фильтрации производит

Claims (18)

1. Система исключения шинглов, которые встречались только в сообщениях, не содержащих спам, при фильтрации спама, которая содержит:
а) средство обработки текста, предназначенное для поиска частей текста, которые встречались только в сообщениях, не содержащих спам, которые следует исключить, путем анализа текста сообщения на наличие известных образцов текста, хранимых в базе данных образцов текста, исключения из текста сообщения найденных частей текста, которые встречались только в сообщениях, не содержащих спам, передачи сокращенного текста сообщения средству обработки шинглов;
б) база данных образцов текста, предназначенная для хранения известных образцов текста, характерных для частей сообщения, которые встречались только в сообщениях, не содержащих спам;
в) средство обработки шинглов, предназначенное для вычисления набора шинглов на основе сокращенного текста сообщения, поиска шинглов, которые следует исключить, путем сравнения шинглов из вычисленного набора шинглов с известными шинглами, которые хранятся в базе данных шинглов, исключения совпадающих шинглов.
г) база данных шинглов, предназначенная для хранения известных шинглов, характерных для частей сообщения, которые встречались только в сообщениях, не содержащих спам.
2. Система по п.1, в которой средство обработки шинглов после исключения совпадающих шинглов передает сокращенный набор шинглов средству фильтрации.
3. Система по п.1, в которой дополнительно используют средство фильтрации, предназначенное для анализа сокращенного набора шинглов, по крайней мере, по одному из методов фильтрации.
4. Система по п.3, в которой средство фильтрации производит анализ сокращенного набора шинглов по методу кластеризации.
5. Система по п.3, в которой средство фильтрации производит анализ сокращенного набора шинглов по методу Байеса.
6. Система по п.1, в которой средство обработки текста производит канонизацию текста.
7. Система по п.1, в которой в базе данных образцов текста хранятся образцы текста, которые встречались только в сообщениях, не содержащих спам.
8. Система по п.1, в которой в базе данных шинглов хранятся шинглы, которые встречались только в сообщениях, не содержащих спам.
9. Система по п.1, в которой база данных образцов текста и база данных шинглов заполняются образцами текста и шинглами из сообщений, не содержащих спам, получаемых от пользователей персональных компьютеров посредством антивирусного сервера.
10. Способ исключения шинглов, которые встречались только в сообщениях, не содержащих спам, при фильтрации спама, в котором:
а) при помощи средства обработки текста производят поиск частей сообщения, которые встречались только в сообщениях, не содержащих спам;
б) при помощи средства обработки текста исключают части сообщения, которые встречались только в сообщениях, не содержащих спам;
в) при помощи средства обработки шинглов вычисляют набор шинглов на основе сокращенного сообщения;
г) при помощи средства обработки шинглов производят поиск шинглов, которые встречались только в сообщениях, не содержащих спам;
д) при помощи средства обработки шинглов исключают из набора шинглов, вычисленного на основе сокращенного сообщения, найденные шинглы для последующей фильтрации.
11. Способ по п.10, в котором производят поиск частей сообщения, которые встречались только в сообщениях, не содержащих спам, которые следует исключить, путем анализа текста сообщения на наличие известных образцов текста.
12. Способ по п.10, в котором хранят известные образцы текста, которые встречались только в сообщениях, не содержащих спам.
13. Способ по п.10, в котором при исключении частей сообщения, которые встречались только в сообщениях, не содержащих спам, производят канонизацию текста.
14. Способ по п.10, в котором производят поиск шинглов, которые следует исключить, путем сравнения шинглов из вычисленного набора шинглов с известными шинглами.
15. Способ по п.10, в котором хранят известные шинглы, которые встречались только в сообщениях, не содержащих спам.
16. Способ по п.10, в котором после исключения из набора шинглов, вычисленного на основе сокращенного сообщения, найденных при поиске шинглов, получают сокращенный набор шинглов.
17. Способ по п.16, в котором анализ сокращенного набора шинглов производится по методу Байеса.
18. Способ по п.16, в котором анализ сокращенного набора шинглов производится по методу кластеризации.
RU2013125984/08A 2013-06-06 2013-06-06 Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама RU2583713C2 (ru)

Priority Applications (4)

Application Number Priority Date Filing Date Title
RU2013125984/08A RU2583713C2 (ru) 2013-06-06 2013-06-06 Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама
US14/069,889 US8996638B2 (en) 2013-06-06 2013-11-01 System and method for spam filtering using shingles
EP13194359.9A EP2811699B1 (en) 2013-06-06 2013-11-26 System and method for spam filtering using shingles
US14/623,977 US9391936B2 (en) 2013-06-06 2015-02-17 System and method for spam filtering using insignificant shingles

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013125984/08A RU2583713C2 (ru) 2013-06-06 2013-06-06 Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама

Publications (2)

Publication Number Publication Date
RU2013125984A true RU2013125984A (ru) 2014-12-20
RU2583713C2 RU2583713C2 (ru) 2016-05-10

Family

ID=52006420

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013125984/08A RU2583713C2 (ru) 2013-06-06 2013-06-06 Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама

Country Status (2)

Country Link
US (2) US8996638B2 (ru)
RU (1) RU2583713C2 (ru)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9910925B2 (en) * 2013-11-15 2018-03-06 International Business Machines Corporation Managing searches for information associated with a message
RU2634180C1 (ru) * 2016-06-24 2017-10-24 Акционерное общество "Лаборатория Касперского" Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте
RU2710739C1 (ru) * 2019-03-29 2020-01-10 Акционерное общество "Лаборатория Касперского" Система и способ формирования эвристических правил для выявления писем, содержащих спам

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073617A1 (en) 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
US7533148B2 (en) * 2003-01-09 2009-05-12 Microsoft Corporation Framework to enable integration of anti-spam technologies
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US7899866B1 (en) * 2004-12-31 2011-03-01 Microsoft Corporation Using message features and sender identity for email spam filtering
US20080219495A1 (en) 2007-03-09 2008-09-11 Microsoft Corporation Image Comparison
US9123027B2 (en) 2010-10-19 2015-09-01 QinetiQ North America, Inc. Social engineering protection appliance
RU85247U1 (ru) * 2008-12-26 2009-07-27 ЗАО "Лаборатория Касперского" Идентификация спама с помощью лексических векторов (варианты)
US8874663B2 (en) * 2009-08-28 2014-10-28 Facebook, Inc. Comparing similarity between documents for filtering unwanted documents
US9922129B2 (en) 2010-09-27 2018-03-20 International Business Machines Corporation Systems and methods for cluster augmentation of search results
RU2474870C1 (ru) * 2011-11-18 2013-02-10 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ автоматизированного анализа текстовых документов

Also Published As

Publication number Publication date
US9391936B2 (en) 2016-07-12
US8996638B2 (en) 2015-03-31
US20150163183A1 (en) 2015-06-11
RU2583713C2 (ru) 2016-05-10
US20140365585A1 (en) 2014-12-11

Similar Documents

Publication Publication Date Title
CN106033416B (zh) 一种字符串处理方法及装置
Weber et al. What makes an open source code popular on git hub?
CL2019000968A1 (es) Método y sistema para el acceso selectivo de datos bioinformáticos almacenados o transmitidos.
JP2015526797A5 (ru)
RU2014112242A (ru) Метод анализа тональности текстовых данных
MX343548B (es) Metodo y dispositivo para el establecimiento de una libreria de etiquetas, metodo y dispositivo para la busqueda de un usuario.
RU2017115659A (ru) Контекстные действия в голосовом пользовательском интерфейсе
GB2506081A (en) Detecting undesirable content on a social network
MX2015011167A (es) Aparato y metodo para el procesamiento de multiples interfaces abiertas de programacion de aplicacion (apis).
BR112016007163A8 (pt) métodos implementado por computador de processamento de documentação clínica para um esquema de codificação multiaxial, sistema de computador, meio de armazenagem legível em computador não volátil
US20180012109A1 (en) Generating and utilizing normalized scores for classifying digital objects
WO2016004594A3 (en) Managing datasets produced by alert-triggering search queries
EA201300375A1 (ru) Способ организации поисковой базы данных с использованием нечетких критериев
MX2016002666A (es) Metodo y aparato para adquirir resultados de busqueda.
WO2014183956A3 (en) Social media content analysis and output
RU2015105706A (ru) Предложения поисковых запросов, частично основанные на предшествующем поиске, и поиск, основанный на таких предложениях
RU2013125984A (ru) Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама
RU2017108906A (ru) Поиск в многочисленных источниках
Zou et al. Mining streaming tweets for real-time event credibility prediction in twitter
Zubiaga et al. Early detection of social media hoaxes at scale
CN104281710A (zh) 一种网络数据挖掘方法
US10733213B2 (en) Structuring unstructured machine-generated content
CN104123393A (zh) 一种短信文本的分类方法和系统
Schöngart Growth-Oriented Logging (GOL): a new concept towards sustainable forest management in Central Amazonian varzea floodplains
Romero Hernández Technology and child pornography in Colombia, 2013-2015: Interpretation from a victimology approach