KR20140117217A

KR20140117217A - 빅데이터 분석을 이용한 유해 정보 수집 방법 및 장치

Info

Publication number: KR20140117217A
Application number: KR1020130032390A
Authority: KR
Inventors: 이왕봉; 박상길
Original assignee: 한국전자통신연구원
Priority date: 2013-03-26
Filing date: 2013-03-26
Publication date: 2014-10-07
Also published as: US20140298457A1

Abstract

네트워크상에서 실시간으로 수집되는 다수의 패킷들을 실시간으로 분석하여 유해 사이트 정보를 수집하기 위한 유해 정보 수집 장치 및 방법이 개시된다. 이를 위한 유해 정보 수집 장치 및 방법은 적어도 하나의 패킷 수집부에서 수집한 다수의 패킷들을 수신하는 패킷 수신 단계, 수신한 패킷이 유해 정보를 포함하는지 여부를 분석하는 패킷 분석 단계, 분석한 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출하는 유해 사이트 정보 추출 단계 및 추출한 유해 사이트 정보를 데이터베이스에 저장하는 유해 사이트 정보 저장 단계를 포함할 수 있다.

Description

빅데이터 분석을 이용한 유해 정보 수집 방법 및 장치{METHOD AND APPARATUS OF THE TRAFFIC CLASSIFICATION USING BIG DATA ANALYSIS}

데이터 분석 방법, 보다 상세하게는 데이터 분석을 이용한 유해 정보 수집 장치 및 방법에 관한 기술이 개시된다.

인터넷이 발달함에 따라 불법적인 성인물 등 유해정보는 인터넷상에 쉽게 노출이 되고 있다. 이러한 유해정보에 접근하기 위해서는 해당 사이트의 주소를 인터넷 검색 주소창에 타이핑하면 되므로, 쉽게 유해정보를 접할 수 있게 된다.

이에 따라 최근에는 유해정보에 관한 사이트를 적발하여 폐쇄하도록 하고, 해당 사이트의 키워드의 접속을 원천적으로 봉쇄하는 등의 노력을 하고 있다. 그로 인해 유해 사이트를 운영하는 운영자는 접속 주소를 변경하거나 접속 주소를 해외로 옮기는 등의 수법으로 단속을 피하고 있다.

종래의 불법 유해 사이트를 추출하는 방법으로 저장된 패킷(packet) 혹은 데이터를 분석하여 유해 사이트 정보를 추출하는 방법이 있다. 또는 관리자나 사용자의 신고에 의해 유해 사이트 정보를 업데이트한다. 이러한 기존 방법은 즉각적인 정보 업데이트가 가능하지 않아 유해 사이트에 대해 실시간으로 대처할 수 없었다.

대한민국 등록특허번호 10-0835820 (2008.05.30)

네트워크상에서 실시간으로 수집되는 다수의 패킷들을 실시간으로 분석하여 유해 사이트 정보를 수집하기 위한 방법 및 장치를 제공하는데 있다.

일 양상에 따르면, 유해 정보 수집 방법은 적어도 하나의 패킷 수집부에서 수집한 다수의 패킷들을 수신하는 패킷 수신 단계, 수신한 패킷이 유해 정보를 포함하는지 여부를 분석하는 패킷 분석 단계, 분석한 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출하는 유해 사이트 정보 추출 단계 및 추출한 유해 사이트 정보를 데이터베이스에 저장하는 유해 사이트 정보 저장 단계를 포함할 수 있다.

일 양상에 따르면, 유해 정보 수집 방법의 패킷 수신 단계는 적어도 하나의 패킷 수집부에서 미리 정해진 정책 기반의 수집 제어에 의해 수집한 패킷의 메타데이터(metadata)를 실시간으로 수신하는 것을 특징으로 할 수 있다.

일 양상에 따르면, 유해 정보 수집 방법의 패킷 분석 단계는 수신한 패킷을 미리 정해진 단위로 재조립하여 재조립한 패킷이 유해 정보를 포함하는지 여부를 분석하는 것을 특징으로 할 수 있다.

일 양상에 따르면, 유해 정보 수집 방법의 패킷 분석 단계는 재조립된 패킷에 포함된 텍스트 데이터, 멀티미디어 데이터 또는 이미지 데이터 중 적어도 어느 하나에 대하여 유해성을 분석하는 것을 특징으로 할 수 있다.

일 양상에 따르면, 유해 정보 수집 방법은 데이터베이스에 저장한 유해 사이트 정보를 적어도 하나의 보안 장비에 송신하는 유해 사이트 정보 송신 단계를 더 포함할 수 있다.

다른 일 양상에 따르면, 유해 정보 수집 장치는 적어도 하나의 네트워크에서 다수의 패킷들을 수집하는 적어도 하나의 패킷 수집부, 적어도 하나의 패킷 수집부에서 수집한 다수의 패킷들을 수신하고, 수신한 패킷을 분석하여 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출하는 패킷 분석부 및 추출한 유해 사이트 정보를 저장하기 위한 데이터베이스를 포함할 수 있다.

일 양상에 따르면, 유해 정보 수집 장치의 패킷 수집부는 미리 정해진 정책에 따라 패킷 수집 인터페이스를 제어하는 수집 제어부 및 수집 제어부의 제어에 따라 패킷을 수집하고 수집한 패킷의 메타데이터를 추출하여 패킷 분석부에 송신하기 위한 패킷 수집 인터페이스를 포함할 수 있다.

일 양상에 따르면, 유해 정보 수집 장치의 패킷 분석부는 적어도 하나의 패킷 수집부로부터 다수의 패킷들을 수신하는 패킷 인터페이스, 수신한 패킷의 분석을 위하여 수신한 패킷을 미리 정해진 단위로 재조립하는 패킷 재조립부, 재조립된 패킷의 유해성을 분석하는 패킷 유해성 분석부 및 분석한 재조립된 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 사이트에 대한 정보를 추출하는 유해사이트 데이터 추출부를 포함할 수 있다.

일 양상에 따르면, 패킷 분석부의 패킷 유해성 분석부는 재조립된 패킷에 포함된 텍스트 데이터에 대하여 유해성을 분석하는 텍스트 데이터 분석부, 재조립된 패킷에 포함된 멀티미디어 데이터에 대하여 유해성을 분석하는 멀티미디어 데이터 분석부 및 재조립된 패킷에 포함된 이미지 데이터에 대하여 유해성을 분석하는 이미지 데이터 분석부를 포함할 수 있다.

일 양상에 따르면, 패킷 분석부의 패킷 인터페이스는 데이터베이스에 저장한 유해 사이트 정보를 적어도 하나의 보안장비로 송신하는 것을 특징으로 할 수 있다.

개시된 유해 정보 수집 방법 및 장치는 다수의 패킷들을 수집하여 유해성을 분석함으로써 보다 정확도 높은 유해 사이트 정보의 수집이 가능할 수 있다.

또한, 개시된 유해 정보 수집 방법 및 장치는 대용량의 인터넷 트래픽을 분산구조를 이용하여 실시간 분석하여 유해 정보를 추출할 수 있다.

또한, 개시된 유해 정보 수집 방법 및 장치는 미리 정해진 정책에 따라 정책 기반의 패킷 수집이 가능하도록 할 수 있다.

또한, 개시된 유해 정보 수집 방법 및 장치는 패킷 내의 텍스트, 이미지, 멀티미디어 중 적어도 하나에 대한 유해성 분석이 가능할 수 있다.

또한, 개시된 유해 정보 수집 방법 및 장치는 대용량의 패킷에 대하여 상관관계를 분석함으로써 유해 판단의 정밀도를 높일 수 있다.

도 1은 일 실시예에 따른 유해 정보 수집 방법의 흐름도이다.
도 2는 다른 일 실시예에 따른 유해 정보 수집 방법의 흐름도이다.
도 3은 일 실시예에 따른 유해 정보 수집 장치의 블록도이다.
도 4는 일 실시예에 따른 패킷 수집부의 블록도이다.
도 5는 일 실시예에 따른 패킷 분석부의 블록도이다.
도 6은 일 실시예에 따른 패킷 유해성 분석부의 블록도이다.
도 7은 일 실시예에 따른 유해 정보 수집 장치의 구조를 설명하기 위한 도면이다.

전술한, 그리고 추가적인 발명의 양상들은 후술하는 실시예들을 통해 명백해질 것이다. 본 명세서에서 선택적으로 기재된 양상이나 선택적으로 기재된 실시예의 구성들은 비록 도면에서 단일의 통합된 구성으로 도시되었다 하더라도 달리 기재가 없는 한 당업자에게 기술적으로 모순인 것이 명백하지 않다면 상호 간에 자유롭게 조합될 수 있는 것으로 이해된다.

도 1은 일 실시예에 따른 유해 정보 수집 방법의 흐름도이다.

유해 정보 수집 방법은 적어도 하나의 패킷 수집부에서 수집한 다수의 패킷들을 수신하는 패킷 수신 단계(710), 수신한 패킷이 유해 정보를 포함하는지 여부를 분석하는 패킷 분석 단계(730), 분석한 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출하는 유해 사이트 정보 추출 단계(750) 및 추출한 유해 사이트 정보를 데이터베이스에 저장하는 유해 사이트 정보 저장 단계(770)를 포함할 수 있다.

패킷 수신 단계(710)에서는 적어도 하나의 패킷 수집부에서 수집한 다수의 패킷들을 수신할 수 있다. 패킷 수집부는 유해성 감시 대상인 임의의 네트워크(network)에 접속되어 패킷을 실시간으로 수집할 수 있다. 일 실시예에 따라 패킷 수집부는 PCI(Peripheral Component Interconnect)기반의 네트워크가 사용된 서버로 구현할 수 있다. 또는 사용하는 네트워크의 용량에 따라 적합한 패킷 수집 전용 장치를 이용할 수 있다.

임의의 네트워크에 연결된 적어도 하나의 패킷 수집부는 네트워크상에서 전송되는 다수의 패킷들을 실시간으로 수집할 수 있다. 다수의 패킷들이란 빅 데이터(big data)로 이용될 수 있을 정도의 패킷의 수를 의미할 수 있다. 패킷 수신 단계(710)에서는 적어도 하나의 패킷 수집부로부터 실시간으로 다수의 패킷들을 수신할 수 있다. 패킷 수집의 대상이 되는 임의의 네트워크의 수는 필요에 따라 정해질 수 있다.

빅 데이터란 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미할 수 있다.

패킷 분석 단계(730)에서는 수신한 패킷이 유해 정보를 포함하는지 여부를 분석할 수 있다. 유해 정보라 함은 불법적인 성인물 등을 의미할 수 있다. 패킷 수집부로부터 실시간으로 수신한 다수의 패킷들에 대하여 유해성 분석을 할 수 있다. 유해성 분석을 위하여 공지의 분류 및 분석 알고리즘을 이용할 수 있다. 일 실시예에 따라 유해성 분석을 위하여 다중 SVM(Support Vector Machine)에 의한 유해성 분류를 이용할 수 있다.

유해 사이트 정보 추출 단계(750)에서는 분석한 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출할 수 있다. 일 실시예에 따라 유해 정보를 포함하는 패킷의 헤더 부분을 분석하여 해당 패킷의 출처에 해당되는 사이트의 주소 등의 정보를 추출할 수 있다.

유해 사이트 정보 저장 단계(770)에서는 추출한 유해 사이트 정보를 데이터베이스에 저장할 수 있다. 유해 사이트 정보를 데이터베이스에 저장함으로써 유해 정보를 포함하는 사이트에 대한 정보를 수집할 수 있다.

일 양상에 따르면, 유해 정보 수집 방법의 패킷 수신 단계(710)는 적어도 하나의 패킷 수집부에서 미리 정해진 정책 기반의 수집 제어에 의해 수집한 패킷의 메타데이터(metadata)를 실시간으로 수신할 수 있다. 임의의 네트워크에서 패킷을 수집하는 패킷 수집부에서는 패킷을 수집하여 패킷 분석부로 송신할 수 있다. 또는 미리 정해진 정책에 따라 수집한 패킷에서 메타데이터를 추출하여 이를 패킷 분석부로 송신할 수 있다.

정책 기반의 수집 제어라 함은 수집한 패킷에서 추출할 특정의 정보를 정하는 정책을 미리 결정하는 것을 의미할 수 있다. 개시된 발명에서는 빅 데이터에 해당되는 다수의 패킷을 수집하여 유해성을 분석하기 위한 것으로 대용량의 처리를 위하여 패킷 수집 시 패킷 내의 특정 메타데이터만 추출할 수 있다. 일 실시예에 따르면 패킷의 헤더 부분에서 TCP 헤더 부분만을 추출한 메타데이터를 패킷 분석부에 송신할 수 있다.

여기에서의 메타데이터란 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터를 의미할 수 있다. 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터가 이에 해당할 수 있다. 메타데이터는 콘텐츠의 위치와 내용, 작성자에 관한 정보, 권리 조건, 이용 조건, 이용 내력 등을 포함할 수 있다.

메타데이터는 데이터를 빨리 찾기 위한 것으로, 컴퓨터에서 정보의 인덱스(Index) 구실을 할 수 있다. 패킷 분석부에서는 메타데이터를 이용하여 분석 대상이 되는 패킷에 포함된 유해 데이터를 검색엔진을 이용하여 쉽게 찾아낼 수 있다.

일 양상에 따르면 유해 정보 수집 방법의 패킷 분석 단계(730)는 수신한 패킷을 미리 정해진 단위로 재조립하여 재조립한 패킷이 유해 정보를 포함하는지 여부를 분석할 수 있다. 일 실시예에 따라 수신한 패킷을 플로우(flow) 단위, 프로토콜(protocol) 단위, 포트(port) 단위, 어플리케이션(application) 단위 중 어느 하나의 단위로 재조립할 수 있다. 다만 이에 한정되는 것은 아니며 분석을 위하여 필요한 그 외의 단위로 재조립할 수 있다.

일 양상에 따르면 유해 정보 수집 방법의 패킷 분석 단계(730)는 재조립된 패킷에 포함된 텍스트 데이터, 멀티미디어 데이터 또는 이미지 데이터 중 적어도 어느 하나에 대하여 유해성을 분석할 수 있다. 재조립된 패킷 내의 텍스트 데이터, 멀티미디어 데이터 또는 이미지 데이터에 대한 유해성 분석을 위하여 공지의 분류 및 분석 알고리즘을 이용할 수 있다. 일 실시예에 따라 유해성 분석을 위하여 다중 SVM(Support Vector Machine)에 의한 유해성 분류를 이용할 수 있다.

도 2는 다른 일 실시예에 따른 유해 정보 수집 방법의 흐름도이다.

일 양상에 따르면 유해 정보 수집 방법은 데이터베이스에 저장한 유해 사이트 정보를 적어도 하나의 보안 장비에 송신하는 유해 사이트 정보 송신 단계(790)를 더 포함할 수 있다. 유해 사이트의 차단을 위하여 데이터베이스에 저장한 유해 사이트 정보를 네트워크 상의 보안 장비에 실시간으로 송신할 수 있다. 일 실시예에 따라 보안 장비는 웹 방화벽, 유해 트래픽 제어기, IDS(Intrusion Detection System), IPS(Intrusion Protection System) 등이 될 수 있다. 다만 이에 한정되는 것을 아니며 유해 정보 차단이 가능한 장비가 포함될 수 있다.

도 3은 일 실시예에 따른 유해 정보 수집 장치의 블록도이다.

또 다른 양상에 따르면 유해 정보 수집 장치는 적어도 하나의 네트워크에서 다수의 패킷들을 수집하는 적어도 하나의 패킷 수집부(100), 적어도 하나의 패킷 수집부에서 수집한 다수의 패킷들을 수신하고, 수신한 패킷을 분석하여 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출하는 패킷 분석부(200) 및 추출한 유해 사이트 정보를 저장하기 위한 데이터베이스(300)를 포함할 수 있다.

적어도 하나의 패킷 수집부(100)는 적어도 하나의 네트워크에서 다수의 패킷들을 수집할 수 있다. 패킷 수집부(100)는 임의의 네트워크에서 다수의 패킷을 실시간으로 수집할 수 있다. 일 실시예에 따라 패킷 수집부(100)는 PCI(Peripheral Component Interconnect)기반의 네트워크가 사용된 서버로 구현할 수 있다. 또는 사용하는 네트워크의 용량에 따라 적합한 패킷 수집 전용 장치를 이용할 수 있다.

임의의 네트워크에 연결된 적어도 하나의 패킷 수집부(100)는 네트워크상에서 전송되는 다수의 패킷들을 실시간으로 수집할 수 있다. 다수의 패킷들이란 빅 데이터(big data)로 이용될 수 있을 정도의 패킷의 수를 의미할 수 있다. 패킷 수집의 대상이 되는 임의의 네트워크의 수는 필요에 따라 정해질 수 있다.

패킷 분석부(200)는 적어도 하나의 패킷 수집부(100)에서 수집한 다수의 패킷들을 수신하고, 수신한 패킷을 분석하여 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출할 수 있다. 유해 정보라 함은 불법적인 성인물 등을 의미할 수 있다.

패킷 분석부(200)는 패킷 수집부(100)로부터 실시간으로 수신한 다수의 패킷들에 대하여 유해성 분석을 할 수 있다. 유해성 분석을 위하여 공지의 분류 및 분석 알고리즘을 이용할 수 있다. 일 실시예에 따라 유해성 분석을 위하여 다중 SVM(Support Vector Machine)에 의한 유해성 분류를 이용할 수 있다.

분석한 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출할 수 있다. 일 실시예에 따라 유해 정보를 포함하는 패킷의 헤더 부분을 분석하여 해당 패킷의 출처에 해당되는 사이트의 주소 등의 정보를 추출할 수 있다.

데이터베이스(300)에는 추출한 유해 사이트 정보를 저장할 수 있다. 유해 사이트 정보를 데이터베이스(300)에 저장함으로써 유해 정보를 포함하는 사이트에 대한 정보를 수집할 수 있다.

도 4는 일 실시예에 따른 패킷 수집부의 블록도이다.

일 양상에 따르면, 유해 정보 수집 장치의 패킷 수집부(100)는 미리 정해진 정책에 따라 패킷 수집 인터페이스(interface)를 제어하는 수집 제어부(110) 및 수집 제어부의 제어에 따라 패킷을 수집하고 수집한 패킷의 메타데이터를 추출하여 패킷 분석부에 송신하기 위한 패킷 수집 인터페이스(130)를 포함할 수 있다.

수집 제어부(110)에서는 미리 정해진 정책에 따라 패킷 수집 인터페이스를 제어할 수 있다. 임의의 네트워크에서 다수의 패킷을 수집함에 있어서 수집 제어부(110)는 미리 정해진 정책에 따라 패킷 수집 인터페이스(130)를 제어하여 패킷을 수집할 수 있다. 일 실시예에 따라 수집 제어부(110)는 미리 정해진 정책 기반의 수집 제어에 의해 수집한 패킷의 메타데이터(metadata)를 추출하도록 패킷 수집 인터페이스(130)를 제어할 수 있다.

정책 기반의 수집 제어라 함은 수집한 패킷에서 추출할 특정의 정보를 정하는 정책을 미리 결정하는 것을 의미할 수 있다. 개시된 발명에서는 빅 데이터에 해당되는 다수의 패킷을 수집하여 실시간으로 유해성을 분석하기 위한 것이다. 따라서 패킷 수집 시 패킷 내의 특정 메타데이터만 추출하여 대용량 데이터의 효율적 처리를 가능할 수 있다. 일 실시예에 따르면 수집 제어부(110)는 패킷의 헤더 부분에서 TCP 헤더 부분만을 추출한 메타데이터를 패킷 분석부에 송신하도록 패킷 수집 인터페이스(130)를 제어할 수 있다.

패킷 수집 인터페이스(130)는 수집 제어부의 제어에 따라 패킷을 수집하고 수집한 패킷의 메타데이터를 추출하여 패킷 분석부에 송신할 수 있다. 일 실시예에 따라 패킷 수집 인터페이스(130)는 이더넷 인터페이스 또는 그 외 다양한 인터페이스를 가질 수 있다. 패킷의 수집이나 패킷 분석부에의 송신은 실시간으로 이루어질 수 있다.

일 실시예에 따라 패킷 수집부(100)는 수집 제어부(110)가 없이 캡쳐 카드만으로 구현될 수 있다. 또는 패킷 수집부(100)는 프로그램이 가능한 네트워크 프로세서를 사용한 패킷 전용 카드를 사용할 수 있다. 수집 제어부(110)의 구비 여부는 분석 대상이 되는 네트워크의 용량에 따라 결정될 수 있다.

도 5는 일 실시예에 따른 패킷 분석부의 블록도이다.

일 양상에 따르면, 유해 정보 수집 장치의 패킷 분석부(200)는 적어도 하나의 패킷 수집부로부터 다수의 패킷들을 수신하기 위한 패킷 인터페이스(210), 수신한 패킷의 분석을 위하여 수신한 패킷을 미리 정해진 단위로 재조립하기 위한 패킷 재조립부(230), 재조립된 패킷의 유해성을 분석하는 패킷 유해성 분석부(250) 및 분석한 재조립된 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 사이트에 대한 정보를 추출하는 유해사이트 데이터 추출부(270)를 포함할 수 있다.

패킷 인터페이스(210)는 적어도 하나의 패킷 수집부(100)로부터 다수의 패킷들을 수신할 수 있다. 패킷 인터페이스(210)는 다양한 표준의 인터페이스가 될 수 있다. 일 실시예에 따르면 이더넷(ethernet) 인터페이스가 될 수 있다.

패킷 재조립부(230)는 수신한 패킷의 분석을 위하여 수신한 패킷을 미리 정해진 단위로 재조립할 수 있다. 패킷 재조립부(230)는 필요에 따라 미리 정해진 단위로 수신한 패킷을 재조립할 수 있다. 일 실시예에 따라 수신한 패킷을 플로우 단위, 프로토콜 단위, 포트 단위, 어플리케이션 단위 중 어느 하나의 단위로 재조립할 수 있다. 다만 이에 한정되는 것은 아니며 분석을 위하여 필요한 그 외의 단위로 재조립할 수 있다.

패킷 유해성 분석부(250)는 재조립된 패킷의 유해성을 실시간으로 분석할 수 있다. 패킷 유해성 분석부(250)는 유해성 분석을 위한 분류 및 분석 알고리즘을 저장할 수 있다. 패킷 유해성 분석부(250)는 저장하고 있는 분류 및 분석 알고리즘을 이용하여 다수의 패킷에 대한 유해성 분석을 할 수 있다. 일 실시예에 따라 유해성 분석을 위하여 다중 SVM(Support Vector Machine)에 의한 유해성 분류를 이용할 수 있다. 다만 이에 한정되는 것은 아니며 공지의 분류 및 분석 알고리즘을 이용할 수 있다.

유해사이트 데이터 추출부(270)는 분석한 재조립된 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 사이트에 대한 정보를 추출할 수 있다. 일 실시예에 따라 유해 정보를 포함하는 패킷의 헤더 부분을 분석하여 해당 패킷의 출처에 해당되는 사이트의 주소 등의 정보를 추출할 수 있다.

도 6은 일 실시예에 따른 패킷 유해성 분석부의 블록도이다.

일 양상에 따르면, 패킷 분석부의 패킷 유해성 분석부(250)는 재조립된 패킷에 포함된 텍스트 데이터에 대하여 유해성을 분석하는 텍스트 데이터 분석부(251), 재조립된 패킷에 포함된 멀티미디어 데이터에 대하여 유해성을 분석하는 멀티미디어 데이터 분석부(253) 및 재조립된 패킷에 포함된 이미지 데이터에 대하여 유해성을 분석하는 이미지 데이터 분석부(255)를 포함할 수 있다. 유해성의 분석은 실시간으로 이루어질 수 있다.

텍스트 데이터 분석부(251)는 재조립된 패킷에 포함된 텍스트 데이터에 대하여 유해성을 분석할 수 있다. 일 실시예에 따라 텍스트 데이터 분석부(251)는 텍스트 분석 엔진으로 구현될 수 있다. 텍스트 데이터 분석부(251)는 재조립된 패킷에 포함된 텍스트 데이터의 유해성 분석을 위하여 공지의 분류 및 분석 알고리즘을 이용할 수 있다.

멀티미디어 데이터 분석부(253)는 재조립된 패킷에 포함된 멀티미디어 데이터에 대하여 유해성을 분석할 수 있다. 일 실시예에 따라 멀티미디어 데이터 분석부(253)는 멀티미디어 분석 엔진으로 구현될 수 있다. 멀티미디어 데이터 분석부(253)는 재조립된 패킷에 포함된 멀티미디어 데이터의 유해성 분석을 위하여 공지의 분류 및 분석 알고리즘을 이용할 수 있다.

이미지 데이터 분석부(255)는 재조립된 패킷에 포함된 이미지 데이터에 대하여 유해성을 분석할 수 있다. 일 실시예에 따라 이미지 데이터 분석부(255)는 이미지 분석 엔진으로 구현될 수 있다. 이미지 데이터 분석부(255)는 재조립된 패킷에 포함된 이미지 데이터의 유해성 분석을 위하여 공지의 분류 및 분석 알고리즘을 이용할 수 있다.

일 양상에 따르면, 패킷 분석부의 패킷 인터페이스(270)는 데이터베이스(300)에 저장한 유해 사이트 정보를 적어도 하나의 보안장비로 실시간으로 송신할 수 있다. 이를 통하여 실시간으로 유해하다고 판단된 사이트를 차단시킬 수 있다. 일 실시예에 따라 보안 장비는 웹 방화벽, 유해 트래픽 제어기, IDS(Intrusion Detection System), IPS(Intrusion Protection System) 등이 될 수 있다. 다만 이에 한정되는 것을 아니며 유해 정보 차단이 가능한 장비가 포함될 수 있다.

도 7은 일 실시예에 따른 유해 정보 수집 장치의 구조를 설명하기 위한 도면이다.

패킷 수집부(100)는 임의의 네트워크에서 패킷을 실시간으로 수집하는 네트워크 패킷 수집 장치일 수 있다. 일 실시예에 따라 패킷 수집부로 PCI기반의 네트워크가 사용된 서버를 이용할 수 있다. 또는 패킷 수집 전용 장치를 이용할 수 있다. 도 7의 N은 임의의 양의 정수로서 유해성 분석 대상이 되는 네트워크의 숫자를 의미한다. 도 7에서는 하나의 네트워크에 하나의 패킷 수집부가 대응되게 도시되었으나 이에 한정되는 것은 아니며 하나 이상의 패킷 수집부가 패킷을 수집할 수 있다.

패킷 분석부(200)는 라우터(router)(500)를 통하여 연결되는 네트워크를 선택할 수 있다. 패킷 분석부(200)는 네트워크 인터페이스를 가진 분석서버로 인터넷 패킷을 실시간으로 분석하여 유해 이미지를 찾아내어 유해 사이트 정보를 추출할 수 있다. 추출된 정보는 데이터베이스(300)에 저장될 수 있다. 저장된 정보는 실시간으로 보안장비(400)에 업데이트될 수 있다. 도 7에서는 하나의 네트워크에 하나의 보안장비가 대응되게 도시되었으나 이에 한정되는 것은 아니며 하나 이상의 보안장비가 유해 사이트를 차단할 수 있다.

패킷 수집부(100)의 수집 제어부(110)는 패킷 분석부(200)와 통신할 수 있다. 수집 제어부(110)는 패킷 수집 인터페이스(130)를 제어할 수 있다. 패킷 수집 인터페이스는 이더넷 인터페이스 등 다양한 인터페이스를 가질 수 있으며, 패킷을 송수신할 수 있다.

수집 제어부(110)를 통해 패킷 수집 인터페이스(130)는 수집하는 패킷이 무엇인지 판단할 수 있다. 패킷 수집부(100)는 수집 제어부가 없는 캡쳐카드를 사용할 수도 있고, 프로그램이 가능한 네트워크 프로세서를 사용한 패킷 전용 카드를 사용할 수 있다. 이것은 사용하는 네트워크의 용량에 따라 결정할 수 있다.

일 실시예에 따라 수집 제어의 예는 TCP헤더 정보만 추출하여 패킷 분석부(200)로 전송하는 것이 될 수 있다. 다만 이에 한정되는 것을 아니며 필요에 따라 수집 제어를 수행할 수 있다. 수집제어를 통해 인터넷 패킷 관련하여 다양한 메타데이터를 추출할 수 있다. 수집 제어 기능을 통해 정책기반의 수집을 수집장치가 수행하기 때문에 대규모 인터넷 트래픽을 빅데이터로써 처리하여 유해 정보를 획득할 수 있다.

패킷 분석부(200)는 분산된 패킷 수집부(100)를 통해 전달받은 패킷을 분석할 수 있다. 패킷 인터페이스(210)를 통해 패킷이 수신된다. 패킷 인터페이스는 다양한 표준의 인터페이스로 구현될 수 있다. 일 실시예에 따라 10Gbps 이더넷 인터페이스가 될 수 있다.

수신되는 패킷은 실시간으로 패킷 재조립부(230)를 통해 플로우 단위, 프로토콜 단위, 포트 단위, 어플리케이션 단위 중 어느 하나의 단위로 재조립할 수 있다. 다만 이에 한정되는 것은 아니며 분석을 위하여 필요한 그 외의 단위로 재조립할 수 있다.

재조립된 패킷은 패킷 유해성 분석부(230)에서 텍스트 데이터 분석부(251), 멀티미디어 데이터 분석부(253), 이미지 데이터 분석부(255)에 입력되어 유해성을 판단받을 수 있다. 유해사이트 데이터 추출부(270)는 유해성이 판단된 패킷의 플로우가 어떤 웹과 관련되어 있는지, 어떤 인터넷 주소와 연관되어 있는지에 대해 정보를 추출할 수 있다. 추출된 정보는 데이터베이스(300)에 저장할 수 있다.

유해성 분석 기법은 다양하게 존재한다. 일 실시예에 따르면 다중 SVM(Support Vector Machine)에 의한 유해성 분류를 할 수 있다. 이에 한정되는 것은 아니며 공지의 분류 및 분석 알고리즘을 이용할 수 있다. 패킷 분석부에서는 분류 기법에서 추론되는 값들의 연관성과 입력데이터의 분산 대용량 성질을 통해 유해성 판단의 정밀도를 높일 수 있다.

도 7에서는 패킷 수집부(100), 패킷 분석부(200), 데이터베이스(300)를 구분하여 도시하였으나, 이에 한정되는 것은 아니며 일 실시예에 따라 하나의 장치로 구현될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 패킷 수집부 110: 수집 제어부
130: 패킷 수집 인터페이스 200: 패킷 분석부
210: 패킷 인터페이스 230: 패킷 재조립부
250: 패킷 유해성 분석부 251: 텍스트 분석부
253: 멀티미디어 분석부 255: 이미지 분석부
270: 유해사이트 데이터 추출부 300: 데이터베이스
400: 보안장비 500: 라우터

Claims

적어도 하나의 패킷 수집부에서 수집한 다수의 패킷들을 수신하는 패킷 수신 단계;
수신한 패킷이 유해 정보를 포함하는지 여부를 분석하는 패킷 분석 단계;
분석한 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출하는 유해 사이트 정보 추출 단계; 및
추출한 유해 사이트 정보를 데이터베이스에 저장하는 유해 사이트 정보 저장 단계;
를 포함하는 것을 특징으로 하는 유해 정보 수집 방법.
제 1 항에 있어서, 패킷 수신 단계는
적어도 하나의 패킷 수집부에서 미리 정해진 정책 기반의 수집 제어에 의해 수집한 패킷의 메타데이터를 실시간으로 수신하는 것
을 특징으로 하는 유해 정보 수집 방법.
제 1 항에 있어서, 패킷 분석 단계는
수신한 패킷을 미리 정해진 단위로 재조립하여 재조립한 패킷이 유해 정보를 포함하는지 여부를 분석하는 것
을 특징으로 하는 유해 정보 수집 방법.
제 3 항에 있어서, 패킷 분석 단계는
재조립된 패킷에 포함된 텍스트 데이터, 멀티미디어 데이터 또는 이미지 데이터 중 적어도 어느 하나에 대하여 유해성을 분석하는 것
을 특징으로 하는 유해 정보 수집 방법.
제 1 항에 있어서, 유해 정보 수집 방법은
데이터베이스에 저장한 유해 사이트 정보를 적어도 하나의 보안 장비에 송신하는 유해 사이트 정보 송신 단계;
를 더 포함하는 것을 특징으로 하는 유해 정보 수집 방법.
적어도 하나의 네트워크에서 다수의 패킷들을 수집하는 적어도 하나의 패킷 수집부;
적어도 하나의 패킷 수집부에서 수집한 다수의 패킷들을 수신하고, 수신한 패킷을 분석하여 유해 정보를 포함하는 경우 해당 패킷을 송신한 유해 사이트 정보를 추출하는 패킷 분석부; 및
추출한 유해 사이트 정보를 저장하기 위한 데이터베이스;
를 포함하는 것을 특징으로 하는 유해 정보 수집 장치.
제 6 항에 있어서, 패킷 수집부는
미리 정해진 정책에 따라 패킷 수집 인터페이스를 제어하는 수집 제어부; 및
수집 제어부의 제어에 따라 패킷을 수집하고 수집한 패킷의 메타데이터를 추출하여 패킷 분석부에 송신하기 위한 패킷 수집 인터페이스;
를 포함하는 것을 특징으로 하는 유해 정보 수집 장치.
제 6 항에 있어서, 패킷 분석부는
적어도 하나의 패킷 수집부로부터 다수의 패킷들을 수신하는 패킷 인터페이스;
수신한 패킷의 분석을 위하여 수신한 패킷을 미리 정해진 단위로 재조립하는 패킷 재조립부;
재조립된 패킷의 유해성을 분석하는 패킷 유해성 분석부; 및
분석한 재조립된 패킷이 유해 정보를 포함하는 경우 해당 패킷을 송신한 사이트에 대한 정보를 추출하는 유해사이트 데이터 추출부;
를 포함하는 것을 특징으로 하는 유해 정보 수집 장치.
제 8 항에 있어서, 패킷 유해성 분석부는
재조립된 패킷에 포함된 텍스트 데이터에 대하여 유해성을 분석하는 텍스트 데이터 분석부;
재조립된 패킷에 포함된 멀티미디어 데이터에 대하여 유해성을 분석하는 멀티미디어 데이터 분석부; 및
재조립된 패킷에 포함된 이미지 데이터에 대하여 유해성을 분석하는 이미지 데이터 분석부;
를 포함하는 것을 특징으로 하는 유해 정보 수집 장치.
제 8 항에 있어서, 패킷 인터페이스는
데이터베이스에 저장한 유해 사이트 정보를 적어도 하나의 보안장비로 송신하는 것
을 특징으로 하는 유해 정보 수집 장치.