KR100496771B1 - Email blocking algorithm and system based on phone number pattern matching method - Google Patents

Email blocking algorithm and system based on phone number pattern matching method Download PDF

Info

Publication number
KR100496771B1
KR100496771B1 KR10-2002-0045994A KR20020045994A KR100496771B1 KR 100496771 B1 KR100496771 B1 KR 100496771B1 KR 20020045994 A KR20020045994 A KR 20020045994A KR 100496771 B1 KR100496771 B1 KR 100496771B1
Authority
KR
South Korea
Prior art keywords
mail
text
phone number
email
spam
Prior art date
Application number
KR10-2002-0045994A
Other languages
Korean (ko)
Other versions
KR20040013181A (en
Inventor
황건순
Original Assignee
(주)이월리서치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이월리서치 filed Critical (주)이월리서치
Priority to KR10-2002-0045994A priority Critical patent/KR100496771B1/en
Publication of KR20040013181A publication Critical patent/KR20040013181A/en
Application granted granted Critical
Publication of KR100496771B1 publication Critical patent/KR100496771B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/60Business processes related to postal services

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

본 발명은 인터넷 및 무선망 등과 같은 통신망을 통하여 전달되는 전자 메일 중, 수신자의 의도와 무관하게 무분별하게 전송되는 광고성 메일이나 스팸 메일 등을 차단하기 위한 시스템 및 방법에 관한 것으로서, 메일의 헤더와 본문을 분석하여 전화번호를 추출해 내고, 이를 이미 저장된 데이터베이스 또는 외부 데이터베이스 등을 참조하여 일치되는 내용이 들어 있는 경우에 수신자가 받고 싶지 않은 메일로 분류하여 수신을 차단한다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system and method for blocking advertisement mail or spam mail transmitted indiscriminately regardless of the intention of a recipient among electronic mails transmitted through a communication network such as the Internet and a wireless network. Analyze the phone number and extract the phone number, and if it contains the matching contents by referring to the database or external database already stored, it is classified as an e-mail that the recipient does not want to receive and blocks the reception.

Description

전화번호 추출 비교 기법을 이용한 전자 메일 차단 시스템 및 방법{Email blocking algorithm and system based on phone number pattern matching method}Email blocking algorithm and system based on phone number pattern matching method

본 발명은 전자 메일 차단 시스템 및 방법에 관한 것으로, 특히 인터넷 통신망을 통해 사용자의 동의 없이 발송되는 메일인 스팸 메일을 구별하고 사용자의 목적에 따라 걸러내거나 차단하기 위한 시스템 및 방법에 관한 것이다. The present invention relates to an electronic mail blocking system and method, and more particularly, to a system and method for distinguishing spam mail, which is mail sent without a user's consent, through an internet communication network, and filtering or blocking it according to a user's purpose.

도1은 인터넷 상에서 송신자와 수신자 간의 이메일 전달 방식을 보여준다. 송신자는 자신이 사용하는 메일클라이언트인 MUA(Mail User Agent)에 이메일 전송을 의뢰하면 송신측 메일서버인 MTA(Mail Transfer Agent)를 이용하여 수신자에게 메일을 발송하고, 송신측 메일서버는 이를 SMTP 프로토콜을 이용하여 수신측 메일서버에 전달하게 되어, 수신자의 메일클라이언트는 이를 POP3/IMAP/CGI 프로토콜 등을 통하여 수신자의 메일 사서함으로부터 수신된 메일을 가져오게 된다.1 shows a method of delivering an email between a sender and a receiver on the Internet. When the sender sends an email to MUA (Mail User Agent), the mail client used by the sender, the sender sends the mail to the recipient by using the MTA (Mail Transfer Agent), which is the sending mail server, and the sending mail server sends the mail to the recipient. It is delivered to the receiving mail server by using the receiver, and the recipient's mail client retrieves the mail received from the recipient's mail mailbox through the POP3 / IMAP / CGI protocol.

도2는 기존에 사용되고 있는 스팸메일 필터링 방식의 프로세스 개념도이다. 먼저 수신된 메일(201)에서 Header와 Body를 분리해 내고(202), 분리된 Header정보 중의 송신자 주소, 송신경로 등을 분석하여 패턴DB(M220)와 비교하는 Header 패턴검사(203)를 실시한다. 다음으로 Body에 포함되어 있는 Content를 분리(204)하게 되고 각 content부분에서 다시 패턴DB(M220)에서 일치하는 구문이 있는지를 파악하는 Body 패턴검사(205)를 실시한다. 이후, Body의 Content부분에서 text부분을 추출하고(206), 이 부분을 해석 가능한 문자로 재변환하기 위하여 Decode 실시(207)와 Character Set변환(208) 단계를 거친 후, Text의 패턴을 패턴DB(M220)와 비교 검사하는 Text 패턴검사(209)를 실시한다. 각 조건 단계인 패턴 검사 단계(203, 205, 209)에서 패턴DB(M220) 내에서 일치하는 구문이 발견되면 해당 메일을 수신을 원치 않는 메일로 분류하여 수신을 차단(211)하고, 일치되는 구문이 없으면 메일을 정상적으로 수신(210)하게 되어 수신자의 MUA로 가져오게 된다.2 is a process conceptual diagram of a spam mail filtering method used in the related art. First, the header and body are separated from the received mail 201 (202), and the header pattern check (203) for analyzing the sender address, transmission path and the like in the separated header information is compared with the pattern DB (M220). . Next, the content included in the body is separated (204) and the body pattern check (205) is performed to determine whether there is a matching phrase in the pattern DB (M220) in each content part. Then, after extracting the text part from the content part of the body (206) and converting this part into a character that can be interpreted, the process of decoding (207) and character set conversion (208) is performed. A text pattern test 209 is performed for comparison with (M220). If a matching phrase is found in the pattern DB (M220) in each of the condition checking patterns (203, 205, and 209), the message is classified as an unsolicited mail and blocked from receiving (211). If there is no mail, the mail is received 210 normally and brought to the recipient's MUA.

이러한 기존 방법으로는 스팸메일 발송자로부터 스팸메일을 효율적으로 차단 또는 구분하는 것이 원천적으로 불가능한데 그 이유는 다음과 같다. Header에 포함된 정보를 이용하여 패턴검사를 실시하는 방법인 경우, IETE(Internet Engineering Task Force)에서 규약하고 있는 RFC822: Standard for ARPA Internet Text Messages 에 기술되어 있는 형식으로 기록되는 헤더 자체가 신뢰도가 낮기 때문에, 즉 송신자가 목적하는 의도대로 내용을 바꿀 수 있기 때문에, 단순한 패턴 검사 방식으로는 스팸메일을 정확히 걸러내는 것이 어렵다. 예를 들어, 헤더 상의 송신자(From: )를 가지고 분류하는 경우 보내는 사람이 계속 임의의 내용으로 바꾸어 보낸다면 분류할 방법이 없는 것이다. 이와 비슷하게 Header정보에 기록되어 있는 발신 경로로 메일을 분류하거나 차단하는 방법 역시, 송신자의 의도대로 송신자의 주소, 송신자가 사용한 메일 서버의 주소 또는 배달 경로 상의 서버 주소를 배달에 관계하는 표준 규약인 RFC 821: Simple Mail Transfer Protocol (SMTP) 에 의거하여 얼마든지 바꿀 수 있으므로 적용되기 어렵다. 제목 또는 본문 등의 Body정보에 특정 구문을(예: 광고) 포함하는 경우를 차단하는 경우에도, 이러한 구문을 쉽게 감지 못하도록 중간에 문자를 삽입하는 경우 (예: 광***고) 및 한자로 쓰는 경우 등 그 표현이 다양하여 이러한 경우를 모두 감지하는 것은 무리가 있다. 본문의 Text를 검사하는 경우도 비슷한 의미나 연상되는 의미를 가지는 단어로 대체해서 쓰기 때문에 차단의 어려움이 많으며, 요즘은 본문에 그림을 포함할 수 있기 때문에 아예 그림으로 문장을 표현하는 경우도 허다하기 때문에 스팸메일의 차단에 어려움이 많다.In this conventional method, it is fundamentally impossible to effectively block or distinguish spam mails from spammers because of the following reasons. In the case of a pattern inspection method using information included in the header, the header itself recorded in a format described in RFC822: Standard for ARPA Internet Text Messages prescribed by IETE (Internet Engineering Task Force) has low reliability. That is, since the sender can change the content as desired, it is difficult to accurately filter spam mail by a simple pattern checking method. For example, if you classify with the From: on the header, there is no way to classify if the sender keeps changing the contents. Similarly, the method of classifying or blocking mail by the outgoing route recorded in the header information is also a standard protocol related to the delivery of the sender's address, the address of the mail server used by the sender, or the server address on the delivery route. 821: Difficult to apply, as can be changed according to Simple Mail Transfer Protocol (SMTP). Even when blocking certain phrases (e.g. advertisements) in the body information such as the title or body, if characters are inserted in the middle (e.g., wide ***) and Chinese characters so that such phrases are not easily detected. The expressions are diverse, such as writing, so it is not easy to detect all of these cases. In the case of checking the text of the text, it is difficult to block because it is replaced by a word having a similar or reminiscent meaning, and nowadays, the text can be included in the text. Therefore, it is difficult to block spam mail.

본 발명은 스팸메일이 가지는 본질적인 측면, 즉 스팸메일이 다수에게 발송자의 의도를 알려 발송자의 유무선 전화를 통해 수신자와 연결되고자 하는 의도를 가지고 있다는 측면을 고찰하여 고안된 효율적인 전자메일 차단 방법이다. 즉, 송신자의 의도에 따라 조작 가능한 정보를 단순한 구문의 패턴을 검사하는 방법에 의해 걸러내는 기존 스팸메일 차단방식이 아닌, 스팸메일을 발송하는 송신자가 반드시 메일 내에 포함시켜야 하는 정보 중 하나인 유무선 전화번호, 팩스번호 등을 추출하여 차단 목록과 비교하는 방법을 사용한다는 것이 본 발명의 핵심 원리이며, 이를 이용한 스팸메일 차단기술을 수신측의 MTA 또는 MUA에 적용하여 수신자가 수신하게 되는 스팸메일의 숫자를 비약적으로 감소시키는 것이 본 발명의 목적이다.The present invention is an efficient e-mail blocking method devised in consideration of the essential aspect of spam mail, that is, the spam mail is intended to be connected to the recipient through the sender's wired or wireless telephone by informing the sender of the intention of the sender. In other words, the wired / wireless telephone, which is one of information that the sender of spam mail must include in the mail, not the existing spam mail blocking method that filters information that can be manipulated according to the sender's intention by checking a pattern of simple syntax. The key principle of the present invention is to use a method of extracting a number, a fax number, etc. and comparing it with a block list, and the number of spam mails received by the receiver by applying the spam blocking technology using the same to the receiving MTA or MUA. It is an object of the present invention to drastically reduce.

만일 스팸으로 전송되는 메일 내에 발송자가 문구를 변경하는 등의 방법으로 조작할 수 없는 특정 부분이 있고, 이 부분을 추출해 내어 패턴 매칭을 실시하여 스팸 메일로 분류할 수 있다면 스팸 메일로부터 메일 수신자를 보호할 수 있을 것이다.If there are certain parts in the e-mail sent to spam that cannot be manipulated by the sender by changing the phrase, and can extract these parts and perform pattern matching to classify them as spam, protect the recipients of the mail from spam. You can do it.

도3은 본 발명의 원리를 이해하기 위하여 제시하는 일반적인 이메일의 구성을 보여준다. 수신된 이메일(300)을 부분으로 분석하면 크게 Header(310)와 Body(320)로 분리될 수 있으며, Body(320)는 다시 Message부분(321)과 여러 개의 content를 보유한 Contents부분(322)으로 나뉠 수 있다. Contents부분(322)은 주로 첨부 파일 등을 의미하며 여러 개의 content를 가질 수 있으며, Message부분(321)은 text/plain(331)형식 또는 text/html(332) 형식으로 구성된다. 메일에 따라서는 Contents부분(322)이 존재하지 않을 경우도 있으며, text/plain(331)과 text/html(332)을 동시에 포함하고 있거나 text/plain(331) 또는 text/html(332) 형식 중 어느 하나의 단독으로만 구성되어 있을 경우가 있다. 본 발명은 수신된 메일에서 도 1에서 제시된 text/plain부분(331)과 text/html부분(332)을 추출하여 분석하는 것으로부터 기능하기 시작한다.Fig. 3 shows the structure of a general e-mail presented to understand the principles of the present invention. When the received email 300 is analyzed as a part, it can be largely divided into a header 310 and a body 320, and the body 320 is again a message part 321 and a contents part 322 having a plurality of contents. Can be divided. The contents part 322 mainly means an attached file or the like and may have a plurality of contents. The message part 321 is configured in a text / plain 331 format or a text / html 332 format. Depending on the mail, the Contents section 322 may not be present, and it may contain text / plain (331) and text / html (332) at the same time, or may be in the form of text / plain (331) or text / html (332). It may be comprised only by any one. The present invention begins by extracting and analyzing the text / plain portion 331 and the text / html portion 332 shown in FIG. 1 from the received mail.

스팸 메일 역시 text/html형식 또는 text/plain 형식의 Message부분을 포함하고 있는데 이 부분에 스팸 메일의 목적 상, 회사 또는 발송자 개인과 연락될 수 있는 다양한 연락처를 포함하고 있다. 만일 이러한 연락처를 특정 구문으로 추출 및 인식하여 스팸 메일을 차단하기 위하여 사용한다면, 일반적으로 연락처 구문이 구문의 변경이나 조작 대상으로 선택되지 않는 다는 특성 때문에 스팸 메일 차단율을 비약적으로 향상시킬 수 있다.Spam mail also includes a Message part in text / html format or text / plain form, which contains a variety of contacts that can be contacted with the company or individual sender for the purpose of spam mail. If such contacts are extracted and recognized as specific phrases and used to block spam mails, the spam blocking rate can be dramatically improved due to the fact that contact phrases are generally not selected for the syntax change or manipulation.

본 발명은 상기한 점을 발견하고 이에 근거하여 착안한 것으로, 본 발명에 따른 전자 메일차단 시스템은 수신자 측의 메일 서버에 수신된 이메일로부터 Header와 Body를 분리해 내는 Header/Body분리기, 분리된 Body로부터 Message와 Contents를 분리해 내는 Message/Contents분리기, 추출된 Message부분을 Decode하게 되는 Decode수행기, Decode한 Message부분의 Character Set을 변환해 주는 Character Set변환기, Message가 text/html형식일 때 html구문을 해석하여 html태그 부분을 제거하고 남은 유효 Text부분만을 추출해 내는 유효 Text추출기, 얻어진 Text에서 특정 전화번호 패턴을 추출해 내는 전화번호패턴추출기, 그리고 추출된 전화번호 패턴을 스팸 메일 송신자의 연락처가 저장되어 있는 전화번호 패턴 DB와 비교하여 매칭되는 구문이 있을 경우 정상적으로 수신자가 메일을 수신하게 하며 그렇지 않을 경우에는 메일을 스팸 메일로 분류하여 수신자로의 메일 수신을 차단하는 기능을 하는 패턴 매칭 분석기를 포함한다. 본 발명의 전자 메일 차단 시스템은 패턴매칭분석기의 요구에 따라 스팸 메일을 처리함으로써 사용자를 스팸 메일로부터 보호하게 된다.The present invention has been made in view of the above, and based on this, the e-mail blocking system according to the present invention is a header / body separator, separated body to separate the header and body from the e-mail received by the mail server of the recipient side Message / Contents separator that separates message and contents from, Decode executor that decodes extracted message part, Character Set converter that converts decoded message set character set, html syntax when message is text / html format The valid text extractor extracts the remaining valid text parts after removing the html tag part by analyzing, the phone number pattern extractor extracting a specific phone number pattern from the obtained text, and the contact number of the spam mail sender. If there is a matching phrase compared to the phone number pattern DB, the receiver will receive the mail normally. If you have reotji to classify messages as spam it includes pattern matching analyzer for the ability to block incoming email to the recipient. The electronic mail blocking system of the present invention protects the user from spam mail by processing the spam mail according to the request of the pattern matching analyzer.

이하 본 발명의 원리와 실시 예를 첨부된 도면을 참조하여 더욱 상세히 설명한다.Hereinafter, with reference to the accompanying drawings the principles and embodiments of the present invention will be described in more detail.

도4는 본 발명의 바람직한 실시 예에 따른 전자 메일 차단기의 동작원리와 기능 모듈의 구성을 보여준다.Figure 4 shows the operation principle and configuration of the functional module of the electronic mail blocker according to an embodiment of the present invention.

Header/Body분리기(401)는 수신측의 MTA또는 MUA에 메일이 도착하게 되어 메일이 수신되었을 때 수신메일(400)의 Header와 Body를 분리하는 기능을 한다.The header / body separator 401 functions to separate the header and the body of the received mail 400 when the mail arrives at the receiving MTA or the MUA.

Message/Contents분리기(402)는 Header/Body분리기(401)에 의하여 얻어진 메일의 Body부분을 다시 Message부분과 Contents부분으로 분리해 내는 기능을 한다.The message / contents separator 402 functions to separate the body part of the mail obtained by the header / body separator 401 back into the message part and the content part.

분리되어진 Message부분이 text/plain형식만으로 이루어져 있는지를 검사하는 단계(403)에서는 만일 text/plain형식만으로 구성된 경우와 text/html형식이 포함되어 있는 경우를 검사하여 Message부분을 다음의 단계로 각각 전달하는 조건 수행 기능을 한다. In the step (403) of checking whether the separated message part is composed of text / plain format only, if the text / plain format is included and if the text / html format is included, the message part is passed to the next step. It performs conditional execution.

Decode수행기(410, 411)는 encode된 이메일을 판독 가능한 형태로 변환하는 decode 기능을 한다. 일반적으로 이메일은 발송자가 발송할 때, MTA에서 8bit, quoated-printable, base64 등의 기준에 따라 변환되어 발송되게 되는 데 이를 encode라 하며, 수신자 측에서 이를 재해석 하기 위해 다시 원문상태로 풀어내는 것을 decode라 한다. Decode executors 410 and 411 function to decode the encoded email into a readable form. In general, when an e-mail is sent by the sender, the MTA is converted and sent according to 8 bit, quoated-printable, base64, etc., and it is called encode. It is decoded by the recipient to re-analyze it in order to reinterpret it. It is called.

Character Set변환기(420, 421)는 decode된 이메일의 character set을 변환시켜 판독 가능한 문자로 식별하게 만드는 기능을 한다. 이메일에 영어가 아닌 문자가 사용되었을 경우 등에는 decode 과정을 거친 후에도 이메일 내용에 판독 불가능한 부분을 포함하고 있다. 예를 들어, 한글의 경우 euc-kr, iso-2022kr 등의 character set을 이용하여 메일이 전송되는 데, 이렇게 전송되어 판독 불가능한 이메일의 character set을 다시 변환하여 주어야 판독 가능한 문자로 식별될 수가 있다.The character set converters 420 and 421 convert a character set of a decoded email to identify them as readable characters. If the e-mail contains non-English characters, the e-mail contains unreadable parts after the decode process. For example, in the case of Hangul, mail is transmitted using a character set such as euc-kr, iso-2022kr, and the like, so that it can be identified as a readable character only by converting the character set of the transmitted and unreadable email again.

유효 Text추출기(430)는 decode과정과 character set변환 과정을 거쳐 판독 가능한 문자로 변환된 text/html형식을 포함하는 이메일의 Message 부분에 존재하는 html문장을 판독하고 해석하여, html 문장 내에 포함된 태그 부분을 찾아내고 태그 부분과 텍스트 부분을 분리해 내는 기능을 한다.The effective text extractor 430 reads and interprets the html sentence present in the message part of the e-mail including the text / html format converted into readable characters through the decode process and the character set conversion process, and then includes a tag included in the html sentence. It finds the part and separates the tag part from the text part.

전화번호 패턴 추출기(440)는 decode되고 character set이 변환된 text/plain형식의 Message 부분 또는 decode되고 character set이 변환된 text/html형식의 Message부분에서 html 태그부분이 제거되고 남은 텍스트 부분에 특정한 전화번호 패턴이 존재하는지를 검사하고 전화번호로 추정되는 문구를 추출해 내는 기능을 한다. 전화번호 패턴 추출기(440)에서 감지하게 되는 전화번호 구문의 예로는, phone, call, fax, 전화, 국가번호, 지역번호, 서비스번호 등의 문구 또는 ☎, ☏ 등과 같은 특수문자가 포함된 전화번호 형태의 구문 전체 또는 1-000-000-0000, (000)000-0000 등의 각종 전화번호 형태를 띄고 있는 구문 등이 있다.The phone number pattern extractor 440 removes the html tag portion from the message portion of the decoded and character set converted text / plain format or the decoded and character set converted text / html formatted message portion, and calls the phone specific to the remaining text portion. It checks whether a number pattern exists and extracts a phrase that is supposed to be a telephone number. Examples of the phone number syntax detected by the phone number pattern extractor 440 include phone, call, fax, phone, country code, area code, service number, and the like, or phone numbers containing special characters such as ☎ and ☏. All phrases in the form or phrases having various telephone number forms such as 1-000-000-0000 and (000) 000-0000.

패턴 매칭 분석기(450)는 전화번호 패턴 추출기(440)로부터 추출된 전화번호 추정 구문을 이미 등록되어 있는 전화번호 구문과 비교하고 동일한 패턴이 존재하면 해당 메일의 수신을 차단하고 동일 패턴이 없을 경우에는 정상적으로 메일을 수신할 수 있도록 MTA나 MUA에 전달하는 기능을 한다.The pattern matching analyzer 450 compares the phone number estimation phrase extracted from the phone number pattern extractor 440 with the phone number syntax that is already registered. If the same pattern exists, the pattern matching analyzer 450 blocks reception of the corresponding mail. It delivers mail to MTA or MUA to receive mail normally.

Pre-made DB(451)는 스팸메일 송신자의 전화번호 패턴이 저장되어 있는 데이터베이스로, 기관, 법인 또는 개인이 제공하는 목록을 의미한다. Custom DB(452)는 스팸메일 송신자의 전화번호 패턴이 저장되어 있는 데이터베이스로, 전자메일 차단기를 설치한 서버의 관리자 또는 전자메일 차단기의 적용을 받는 사용자가 직접 구축하는 목록을 의미한다. Pre-made DB(451)와 Custom DB(452)는 전화번호 패턴 추출기(440)에 의해 메일에서 추출된 전화번호 패턴을 비교하는 검색 기준으로 사용된다.Pre-made DB (451) is a database that stores the telephone number pattern of spammers, and means a list provided by an institution, corporation or individual. Custom DB (452) is a database that stores the phone number pattern of spammers, and means a list directly created by an administrator of a server on which an email blocker is installed or a user subject to the email blocker. The pre-made DB 451 and the custom DB 452 are used as search criteria for comparing the telephone number pattern extracted from the mail by the telephone number pattern extractor 440.

도5는 본 발명의 바람직한 실시 예에 따라 전자 메일 차단기를 MTA 또는 MUA에 설치한 설치 구성도이다. 메일이 수신측의 MTA에 수신(500)되면, 수신측MTA(510)는 새로운 메일이 도착하였음을 전자 메일 차단기(520)에 알림과 동시에 분석을 의뢰(511)하게 된다. 전자 메일 차단기(520)는 해당 메일의 내용을 분석하여 전화번호 패턴을 추출하게 되며 이 패턴을 기존 DB와 패턴 매칭을 실시하게 된다. 매칭되는 전화번호 패턴이 존재하게 될 경우에는 스팸 메일로 간주하여 해당 이메일을 스팸메일로 분류처리(530)하게 되고, 매칭되는 전화번호 패턴이 존재하지 않을 경우에는 해당 메일을 다시 정상적으로 MTA(510)가 처리할 수 있도록 되돌려 준다. 이후 수신자가 사용하는 MUA가 해당 메일을 불러오도록 MTA(510)에 요청하게 될 때 POP3/IMAP/CGI 등의 프로토콜에 따라 MUA의 메일 보관함으로 메일이 전송되게 된다. 또한 이러한 전자 메일 차단기를 MUA(540)에도 설치할 수 있는데, 이렇게 설치된 전자 메일 차단기(U511)는 MTA에 설치된 전자 메일 차단기(511)와 마찬가지의 기능을 MUA(540)에 수행하게 된다. MTA에 설치된 전자 메일 차단기(511) 또는 MUA에 설치된 전자 메일 차단기(U511)에 의하여 스팸메일이 제거된 메일리스트를 최종적으로 수신자가 확인(550)하게 된다.전술한 내용은 후술할 발명의 특허 청구 범위를 보다 잘 이해할 수 있도록 본 발명의 특징과 기술적 장점을 다소 폭넓게 개설하였다. 본 발명의 특허 청구 범위를 구성하는 부가적인 특징과 장점들은 이하에서 상술될 것이다. 개시된 본 발명의 개념과 특정 실시예는 본 발명과 유사 목적을 수행하기 위한 다른 구조의 설계나 수정의 기본으로 즉시 사용될 수 있음이 당해 기술 분야의 숙련된 사람들에 의해 인식되어야 한다.또한, 본 발명에서 개시된 발명 개념과 실시예가 본 발명의 동일 목적을 수행하기 위하여 다른 구조로 수정하거나 설계하기 위한 기초로서 당해 기술 분야의 숙련된 사람들에 의해 사용되어질 수 있을 것이다. 또한, 당해 기술 분야의 숙련된 사람에 의한 그와 같은 수정 또는 변경된 등가 구조는 특허 청구 범위에서 기술한 발명의 사상이나 범위를 벗어나지 않는 한도 내에서 다양한 변화, 치환 및 변경이 가능하다.5 is a block diagram illustrating an installation of an e-mail blocker in an MTA or a MUA according to a preferred embodiment of the present invention. When the mail is received 500 at the receiving MTA, the receiving MTA 510 notifies the e-mail blocker 520 of the arrival of the new mail and requests the analysis at the same time (511). The e-mail blocker 520 analyzes the contents of the mail and extracts a phone number pattern. The e-mail blocker 520 performs pattern matching with the existing DB. If there is a matching phone number pattern, the mail is regarded as spam mail and classified as a spam mail (530). If there is no matching phone number pattern, the mail is normally returned to the MTA (510). Returns it for processing. Then, when the MUA used by the recipient requests the MTA 510 to retrieve the mail, the mail is transmitted to the mail deposit box of the MUA according to a protocol such as POP3 / IMAP / CGI. In addition, the e-mail blocker may be installed in the MUA 540. The e-mail blocker U511 thus installed performs the same function as the e-mail blocker 511 installed in the MTA. The recipient finally checks the mail list from which spam mail has been removed by the e-mail blocker 511 installed in the MTA or the e-mail blocker U511 installed in the MUA. In order to better understand the scope, the features and technical advantages of the present invention have been outlined somewhat broadly. Additional features and advantages that make up the claims of the present invention will be described below. It should be appreciated by those skilled in the art that the conception and specific embodiment of the invention disclosed can be readily used as a basis for designing or modifying other structures for carrying out similar purposes to the invention. The inventive concepts and embodiments disclosed herein can be used by those skilled in the art as a basis for modifying or designing other structures for carrying out the same purposes of the present invention. In addition, such modifications or altered equivalent structures by those skilled in the art may be variously changed, substituted, and changed without departing from the spirit or scope of the invention described in the claims.

본 발명에 따르면 스팸 메일 내부에 포함되는 송신자측의 유무선 전화번호를 추출하여 비교하여 스팸 메일 여부를 판단하기 때문에, 조작 가능한 다른 구문을 추출하여 비교하는 기존 방법에 비하여 정확성과 신뢰성이 높으며, 특히 스팸 메일 내부에 전화번호 등이 포함되어 있는 경우에는 스팸 메일 차단 성과가 높다. According to the present invention, since it is determined whether spam mail is obtained by extracting and comparing the wired / wireless telephone number of the sender side included in the spam mail, the accuracy and reliability are higher than that of the conventional method of extracting and comparing other operable phrases. If the phone number is included in the e-mail, spam mail blocking results are high.

도1은 이메일 소통 개념도.1 is a conceptual diagram of email communication.

도2는 종래 문구 필터링 방식의 전자메일 차단 프로세스 개념도.Figure 2 is a conceptual diagram of the e-mail blocking process of the conventional phrase filtering method.

도3은 이메일의 구성 요소 개념도.3 is a conceptual diagram of components of an email.

도4는 전화번호추출과 패턴매칭분석을 적용한 전자 메일 차단기의 기능 모듈 구성도.Figure 4 is a functional module configuration of the email blocker applying the phone number extraction and pattern matching analysis.

도5는 전자 메일 차단기의 서버 설치 구성도.5 is a server installation configuration diagram of an email blocker.

Claims (3)

네트워크를 통해 전송되는 이메일에 대해 스팸 여과를 하는 방법에 있어서,In a method of spam filtering on email sent over a network, (a) 상기 수신된 이메일에 대하여 파싱(parsing) 과정을 통해 헤더(310)와 바디(320)로 분리하여 식별하고, 상기 바디(320)는 다시 메시지(321)와 컨텐츠(322)로 분리하여 추출하는 단계;(a) The received email is identified and separated into a header 310 and a body 320 through a parsing process, and the body 320 is separated into a message 321 and a content 322 again. Extracting; (b) 상기 메시지(321) 부분은 text/plain 형식(331) 또는/및 text/html 형식(332)이 있는지를 검사 및 분리하고, 컨텐츠(322) 부분은 여러개의 컨텐츠로 구분하는 단계; 및 (b) checking and separating the message 321 portion for text / plain format 331 or / and text / html format 332 and dividing the content 322 portion into a plurality of contents; And (c) 상기 메시지(321)를 문자 세트 변환하여 디코딩된 텍스트를 판독 가능한 문자열로 변환하여 텍스트 부분을 분리해 내고, 그 텍스트 부분에 phone, call, fax, 국가번호, 지역번호 또는 서비스 번호 중의 어느 하나를 포함한 전화 관련 문자 또는 ☏, ☎ 과 같은 특수 문자가 포함된 선정된 전화번호 패턴이 존재하는지, 또는 선정된 전화번호 패턴이 패턴 데이터베이스에 존재하는지 여부를 파싱하여 검사하고, 그 결과 존재하는 경우 해당 이메일을 여과하는 단계(c) converting the message 321 into a character set and converting the decoded text into a readable string to separate the text portion, and the text portion includes any of phone, call, fax, country code, area code or service number. Parses and checks whether there is a selected phone number pattern with one phone related character or a special character such as ☏, ☎, or whether the selected phone number pattern exists in the pattern database, and if so exists. Steps to filter this email 를 포함하는 이메일 여과 방법.Email filtering method comprising a. 삭제delete 삭제delete
KR10-2002-0045994A 2002-08-03 2002-08-03 Email blocking algorithm and system based on phone number pattern matching method KR100496771B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0045994A KR100496771B1 (en) 2002-08-03 2002-08-03 Email blocking algorithm and system based on phone number pattern matching method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0045994A KR100496771B1 (en) 2002-08-03 2002-08-03 Email blocking algorithm and system based on phone number pattern matching method

Publications (2)

Publication Number Publication Date
KR20040013181A KR20040013181A (en) 2004-02-14
KR100496771B1 true KR100496771B1 (en) 2005-06-23

Family

ID=37320537

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0045994A KR100496771B1 (en) 2002-08-03 2002-08-03 Email blocking algorithm and system based on phone number pattern matching method

Country Status (1)

Country Link
KR (1) KR100496771B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738421B1 (en) * 2005-10-12 2007-07-11 에스케이 텔레콤주식회사 Method and System for Providing Mobile E-mail Filtering Service by Using Phone Book of Mobile Communication Terminal
CN101702840A (en) * 2009-11-12 2010-05-05 中兴通讯股份有限公司 Method and device for automatically processing message content

Also Published As

Publication number Publication date
KR20040013181A (en) 2004-02-14

Similar Documents

Publication Publication Date Title
US7103599B2 (en) Parsing of nested internet electronic mail documents
US7433923B2 (en) Authorized email control system
CN1801854B (en) Detection of unwanted messages (spam)
KR100460322B1 (en) System and Method for preventing spam mails
US8214438B2 (en) (More) advanced spam detection features
EP1675334B1 (en) Storing anti-spam black lists
EP2446411B1 (en) Real-time spam look-up system
US20060026242A1 (en) Messaging spam detection
CN100476852C (en) Method against refuse E-mail
GB2373130A (en) Method and system for processing e-mail to detect unsolicited bulk and/or commercial e-mail.
CN103404086B (en) For processing the system and method for junk information in a communication network
JP2008502998A (en) Communication information about the contents of the electronic message to the server
CN106453249B (en) network mail service monitoring method
US20020147783A1 (en) Method, device and e-mail server for detecting an undesired e-mail
KR100496767B1 (en) Email blocking algorithm based on url pattern matching method
KR100496771B1 (en) Email blocking algorithm and system based on phone number pattern matching method
CN102132264B (en) Relay device, relay method, and recording medium
KR100473051B1 (en) Automatic Spam-mail Dividing Method
EP1733521B1 (en) A method and an apparatus to classify electronic communication
JP2005135024A (en) Anti-spam method and anti-spam program
JP2008234437A (en) Electronic mail incorrect transmission prevention device and electronic mail incorrect transmission prevention method and program
JP2011018193A (en) Method for avoiding fault of mail gateway
CN109495372B (en) Junk mail identification method and device
JP2017054533A (en) Illegal mail determination device and program
KR20110022245A (en) Spam filtering system using a front-end processing and spam filtering method thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130614

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140613

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160812

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee