RU2013125984A - Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама - Google Patents
Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама Download PDFInfo
- Publication number
- RU2013125984A RU2013125984A RU2013125984/08A RU2013125984A RU2013125984A RU 2013125984 A RU2013125984 A RU 2013125984A RU 2013125984/08 A RU2013125984/08 A RU 2013125984/08A RU 2013125984 A RU2013125984 A RU 2013125984A RU 2013125984 A RU2013125984 A RU 2013125984A
- Authority
- RU
- Russia
- Prior art keywords
- shingles
- text
- messages
- found
- message
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
1. Система исключения шинглов, которые встречались только в сообщениях, не содержащих спам, при фильтрации спама, которая содержит:а) средство обработки текста, предназначенное для поиска частей текста, которые встречались только в сообщениях, не содержащих спам, которые следует исключить, путем анализа текста сообщения на наличие известных образцов текста, хранимых в базе данных образцов текста, исключения из текста сообщения найденных частей текста, которые встречались только в сообщениях, не содержащих спам, передачи сокращенного текста сообщения средству обработки шинглов;б) база данных образцов текста, предназначенная для хранения известных образцов текста, характерных для частей сообщения, которые встречались только в сообщениях, не содержащих спам;в) средство обработки шинглов, предназначенное для вычисления набора шинглов на основе сокращенного текста сообщения, поиска шинглов, которые следует исключить, путем сравнения шинглов из вычисленного набора шинглов с известными шинглами, которые хранятся в базе данных шинглов, исключения совпадающих шинглов.г) база данных шинглов, предназначенная для хранения известных шинглов, характерных для частей сообщения, которые встречались только в сообщениях, не содержащих спам.2. Система по п.1, в которой средство обработки шинглов после исключения совпадающих шинглов передает сокращенный набор шинглов средству фильтрации.3. Система по п.1, в которой дополнительно используют средство фильтрации, предназначенное для анализа сокращенного набора шинглов, по крайней мере, по одному из методов фильтрации.4. Система по п.3, в которой средство фильтрации производит
Claims (18)
1. Система исключения шинглов, которые встречались только в сообщениях, не содержащих спам, при фильтрации спама, которая содержит:
а) средство обработки текста, предназначенное для поиска частей текста, которые встречались только в сообщениях, не содержащих спам, которые следует исключить, путем анализа текста сообщения на наличие известных образцов текста, хранимых в базе данных образцов текста, исключения из текста сообщения найденных частей текста, которые встречались только в сообщениях, не содержащих спам, передачи сокращенного текста сообщения средству обработки шинглов;
б) база данных образцов текста, предназначенная для хранения известных образцов текста, характерных для частей сообщения, которые встречались только в сообщениях, не содержащих спам;
в) средство обработки шинглов, предназначенное для вычисления набора шинглов на основе сокращенного текста сообщения, поиска шинглов, которые следует исключить, путем сравнения шинглов из вычисленного набора шинглов с известными шинглами, которые хранятся в базе данных шинглов, исключения совпадающих шинглов.
г) база данных шинглов, предназначенная для хранения известных шинглов, характерных для частей сообщения, которые встречались только в сообщениях, не содержащих спам.
2. Система по п.1, в которой средство обработки шинглов после исключения совпадающих шинглов передает сокращенный набор шинглов средству фильтрации.
3. Система по п.1, в которой дополнительно используют средство фильтрации, предназначенное для анализа сокращенного набора шинглов, по крайней мере, по одному из методов фильтрации.
4. Система по п.3, в которой средство фильтрации производит анализ сокращенного набора шинглов по методу кластеризации.
5. Система по п.3, в которой средство фильтрации производит анализ сокращенного набора шинглов по методу Байеса.
6. Система по п.1, в которой средство обработки текста производит канонизацию текста.
7. Система по п.1, в которой в базе данных образцов текста хранятся образцы текста, которые встречались только в сообщениях, не содержащих спам.
8. Система по п.1, в которой в базе данных шинглов хранятся шинглы, которые встречались только в сообщениях, не содержащих спам.
9. Система по п.1, в которой база данных образцов текста и база данных шинглов заполняются образцами текста и шинглами из сообщений, не содержащих спам, получаемых от пользователей персональных компьютеров посредством антивирусного сервера.
10. Способ исключения шинглов, которые встречались только в сообщениях, не содержащих спам, при фильтрации спама, в котором:
а) при помощи средства обработки текста производят поиск частей сообщения, которые встречались только в сообщениях, не содержащих спам;
б) при помощи средства обработки текста исключают части сообщения, которые встречались только в сообщениях, не содержащих спам;
в) при помощи средства обработки шинглов вычисляют набор шинглов на основе сокращенного сообщения;
г) при помощи средства обработки шинглов производят поиск шинглов, которые встречались только в сообщениях, не содержащих спам;
д) при помощи средства обработки шинглов исключают из набора шинглов, вычисленного на основе сокращенного сообщения, найденные шинглы для последующей фильтрации.
11. Способ по п.10, в котором производят поиск частей сообщения, которые встречались только в сообщениях, не содержащих спам, которые следует исключить, путем анализа текста сообщения на наличие известных образцов текста.
12. Способ по п.10, в котором хранят известные образцы текста, которые встречались только в сообщениях, не содержащих спам.
13. Способ по п.10, в котором при исключении частей сообщения, которые встречались только в сообщениях, не содержащих спам, производят канонизацию текста.
14. Способ по п.10, в котором производят поиск шинглов, которые следует исключить, путем сравнения шинглов из вычисленного набора шинглов с известными шинглами.
15. Способ по п.10, в котором хранят известные шинглы, которые встречались только в сообщениях, не содержащих спам.
16. Способ по п.10, в котором после исключения из набора шинглов, вычисленного на основе сокращенного сообщения, найденных при поиске шинглов, получают сокращенный набор шинглов.
17. Способ по п.16, в котором анализ сокращенного набора шинглов производится по методу Байеса.
18. Способ по п.16, в котором анализ сокращенного набора шинглов производится по методу кластеризации.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013125984/08A RU2583713C2 (ru) | 2013-06-06 | 2013-06-06 | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама |
US14/069,889 US8996638B2 (en) | 2013-06-06 | 2013-11-01 | System and method for spam filtering using shingles |
EP13194359.9A EP2811699B1 (en) | 2013-06-06 | 2013-11-26 | System and method for spam filtering using shingles |
US14/623,977 US9391936B2 (en) | 2013-06-06 | 2015-02-17 | System and method for spam filtering using insignificant shingles |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013125984/08A RU2583713C2 (ru) | 2013-06-06 | 2013-06-06 | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2013125984A true RU2013125984A (ru) | 2014-12-20 |
RU2583713C2 RU2583713C2 (ru) | 2016-05-10 |
Family
ID=52006420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013125984/08A RU2583713C2 (ru) | 2013-06-06 | 2013-06-06 | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама |
Country Status (2)
Country | Link |
---|---|
US (2) | US8996638B2 (ru) |
RU (1) | RU2583713C2 (ru) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9910925B2 (en) * | 2013-11-15 | 2018-03-06 | International Business Machines Corporation | Managing searches for information associated with a message |
RU2634180C1 (ru) * | 2016-06-24 | 2017-10-24 | Акционерное общество "Лаборатория Касперского" | Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте |
RU2710739C1 (ru) * | 2019-03-29 | 2020-01-10 | Акционерное общество "Лаборатория Касперского" | Система и способ формирования эвристических правил для выявления писем, содержащих спам |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073617A1 (en) | 2000-06-19 | 2004-04-15 | Milliken Walter Clark | Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail |
US7533148B2 (en) * | 2003-01-09 | 2009-05-12 | Microsoft Corporation | Framework to enable integration of anti-spam technologies |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US7899866B1 (en) * | 2004-12-31 | 2011-03-01 | Microsoft Corporation | Using message features and sender identity for email spam filtering |
US20080219495A1 (en) | 2007-03-09 | 2008-09-11 | Microsoft Corporation | Image Comparison |
US9123027B2 (en) | 2010-10-19 | 2015-09-01 | QinetiQ North America, Inc. | Social engineering protection appliance |
RU85247U1 (ru) * | 2008-12-26 | 2009-07-27 | ЗАО "Лаборатория Касперского" | Идентификация спама с помощью лексических векторов (варианты) |
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
US9922129B2 (en) | 2010-09-27 | 2018-03-20 | International Business Machines Corporation | Systems and methods for cluster augmentation of search results |
RU2474870C1 (ru) * | 2011-11-18 | 2013-02-10 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ автоматизированного анализа текстовых документов |
-
2013
- 2013-06-06 RU RU2013125984/08A patent/RU2583713C2/ru active
- 2013-11-01 US US14/069,889 patent/US8996638B2/en active Active
-
2015
- 2015-02-17 US US14/623,977 patent/US9391936B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9391936B2 (en) | 2016-07-12 |
US8996638B2 (en) | 2015-03-31 |
US20150163183A1 (en) | 2015-06-11 |
RU2583713C2 (ru) | 2016-05-10 |
US20140365585A1 (en) | 2014-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106033416B (zh) | 一种字符串处理方法及装置 | |
Weber et al. | What makes an open source code popular on git hub? | |
CL2019000968A1 (es) | Método y sistema para el acceso selectivo de datos bioinformáticos almacenados o transmitidos. | |
JP2015526797A5 (ru) | ||
RU2014112242A (ru) | Метод анализа тональности текстовых данных | |
MX343548B (es) | Metodo y dispositivo para el establecimiento de una libreria de etiquetas, metodo y dispositivo para la busqueda de un usuario. | |
RU2017115659A (ru) | Контекстные действия в голосовом пользовательском интерфейсе | |
GB2506081A (en) | Detecting undesirable content on a social network | |
MX2015011167A (es) | Aparato y metodo para el procesamiento de multiples interfaces abiertas de programacion de aplicacion (apis). | |
BR112016007163A8 (pt) | métodos implementado por computador de processamento de documentação clínica para um esquema de codificação multiaxial, sistema de computador, meio de armazenagem legível em computador não volátil | |
US20180012109A1 (en) | Generating and utilizing normalized scores for classifying digital objects | |
WO2016004594A3 (en) | Managing datasets produced by alert-triggering search queries | |
EA201300375A1 (ru) | Способ организации поисковой базы данных с использованием нечетких критериев | |
MX2016002666A (es) | Metodo y aparato para adquirir resultados de busqueda. | |
WO2014183956A3 (en) | Social media content analysis and output | |
RU2015105706A (ru) | Предложения поисковых запросов, частично основанные на предшествующем поиске, и поиск, основанный на таких предложениях | |
RU2013125984A (ru) | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама | |
RU2017108906A (ru) | Поиск в многочисленных источниках | |
Zou et al. | Mining streaming tweets for real-time event credibility prediction in twitter | |
Zubiaga et al. | Early detection of social media hoaxes at scale | |
CN104281710A (zh) | 一种网络数据挖掘方法 | |
US10733213B2 (en) | Structuring unstructured machine-generated content | |
CN104123393A (zh) | 一种短信文本的分类方法和系统 | |
Schöngart | Growth-Oriented Logging (GOL): a new concept towards sustainable forest management in Central Amazonian varzea floodplains | |
Romero Hernández | Technology and child pornography in Colombia, 2013-2015: Interpretation from a victimology approach |