JP2016053956A

JP2016053956A - ウェブ基盤の悪性コード探知システムおよび方法

Info

Publication number: JP2016053956A
Application number: JP2015168747A
Authority: JP
Inventors: ヒュンチョウ，ラエ; Rae Hyun Cho; ジャエリー，ウー; Woo Jae Lee; ホアン，セウン; Seung Ho Ahn; クカン，ヨン; Yong Kuk Kang
Original assignee: SK Infosec Co Ltd
Current assignee: SK Infosec Co Ltd
Priority date: 2014-09-02
Filing date: 2015-08-28
Publication date: 2016-04-14
Also published as: US20160065613A1

Abstract

【課題】システムを破壊したり情報を流出するなどの活動を行う、ウェブ基盤の悪性コード探知システムおよび方法を提供する。
【解決手段】少なくとも一つ以上のウェブサーバーのＵＲＬ情報を収集しＳ３１０、貯蔵されたＵＲＬ情報を基盤としてウェブサイト内に存在するコンテンツデータをクローリングして貯蔵しＳ３２０、データクローリング段階で貯蔵されたデータで既保存された悪性パターン情報と一致するパターンを探知Ｓ３３０した後、探知されたパターンを含むイベントを悪性コード候補として抽出しＳ３５０、抽出された悪性コード候補で既保存された安全さが知られた安全パターンと一致するパターンを探知した後、探知されたパターンを含むイベントを抽出された悪性コード候補でフィルタリングしＳ３６０、残った悪性コード候補を悪性コードに出力するＳ３７０。
【選択図】図３

Description

本発明はウェブ基盤の悪性コード探知システムおよび方法に関し、より詳しくは、保安上の弱点を利用してハッキングされたウェブページを通じて悪性コード（ＭａｌｉｃｉｏｕｓＣｏｄｅ，悪意のあるコード）を流布したり経由サイトに悪用されることを事前に探知し対応可能な技術に関する。

悪性コードとは、使用者の意志と利益に反してシステムを破壊したりまたは情報を流出するなど悪意のある活動を行うように意図的に製作されたソフトウェアである。

代表的な悪性コードの流布経路はインターネットで容易に求められる各種無料ソフトウェアによることでファイル共有プログラムである場合が多く、これは当該プログラムが設置される時に悪性コードが共に設置されるようにする。

このようなプログラムはすでに長期間インターネットに露出していてコンピュータワクチンプログラムで探知する場合が多いが、このような感染経路以外にウェブサイトに悪性コードが挿入されている場合もある。

図１は従来の技術において、ウェブサイトを通じた悪性コードの感染経路を説明するための一実施例である。図１は使用者端末器１１０、ウェブサイト１２０、ウェブサーバー１３０および攻撃者サーバー１４０を示している。

使用者が使用者端末器１１０を通じてウェブサイト１２０を訪問しようと要請する場合、ウェブサーバー１３０は使用者端末器１１０にウェブサイト１２０を提供することができる。このとき、使用者が訪問したウェブサイト１２０にハッカーによる意図的攻撃で悪性コードが挿入されたり、または非意図的攻撃で協力社などで製作したコンテンツにすでに悪性コードが挿入されていると、使用者が単純にウェブサイト１２０の特定ページを訪問するだけで特定ページに隠している悪性コードが実行され、以降悪性コードリンク１５０を通じて使用者端末器１１０が攻撃者サーバー１４０に接近するようになるので、使用者端末器１１０は攻撃者サーバー１４０から悪性プログラム１６０をダウンロードして設置することになる。このとき、従来の技術ではこのような悪性コードの設置および実行を予め探知できない実情である。

このような保安上の弱点を利用した攻撃をエクスプロイト（ｅｘｐｌｏｉｔ）といい、これはジャバスクリプト（ＪａｖａＳｃｒｉｐｔ（登録商標））に作成された場合が多く、通常コード難読化（ｏｂｆｕｓｃａｔｉｏｎ）を通じてコードを読みにくくする場合が多い。さらに、使用者が当該ページに訪問するごとに動的に変更される属性を持ったりもする。

こういう形態の攻撃コードはコンピュータワクチンから探知するためのパターン化作業を難しくし、特に、動的に自動変更されるコードはワクチンから探知できない場合が大部分である。

一方、韓国登録特許第１３０８２２８号“悪性コードの自動探知方法”はプログラムを構成するイベントの種類と順序を共に活用して悪性コードを分析し、機能的に類似の行為をするプログラムを同じ種類に分類することによって、悪性コード分類装置の性能を向上させる技術を提示する。

しかし、前記先行技術は同じイベントフルで選択されたイベントからなる二つの悪性コードの順次的特性を活用して類似度を計算することによって、計算された類似度により同種の悪性コードを探知することができるという長所があるが、悪性コードの設置および実行を予め探知できないので、ウェブサイトに予め挿入された悪性コードの場合、つまり、保安上の弱点を利用したエクスプロイト攻撃の場合にはこれを対応できず依然として悪性コードの攻撃から感染する危険がある。

韓国登録特許第１３０８２２８号（登録日付：２０１３．０９．０６．）

本発明は、このような従来技術の問題点を解決するために導出されたものであって、ウェブ基盤の悪性コード探知システムおよび方法を提供することを目的とする。

本発明は、保安上の弱点を利用してハッキングされたウェブページを通じて悪性コードを流布したり経由サイトに悪用されることを事前に探知して対応しようとすることを目的とする。

本発明は新種または変種の悪性コードに対する未探（探知すべき悪性コードを探知できない現象）を減らすことを目的とする。

本発明はウェブページの点検の際、不必要なリソースおよび時間消耗を減らすことを目的とする。

このような目的を達成するために本発明の一実施例に係るウェブ基盤の悪性コード探知システムは、ＵＲＬ収集部、データクローリング部、悪性パターンデータベース、悪性コード候補抽出部、安全パターンデータベース、安全パターンフィルタリング部およびパターン学習部を含む。

前記ＵＲＬ収集部は少なくとも一つ以上のウェブサーバーのＵＲＬ情報を収集して貯蔵する。前記データクローリング部は前記貯蔵されたＵＲＬ情報を基盤としてウェブサイト内に存在するコンテンツデータをクローリングして貯蔵する。前記悪性コード候補抽出部は前記データクローリング部に貯蔵されたデータで前記悪性パターンデータベースに既保存された（既に保存された、予め保存された）悪性パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを悪性コード候補として抽出する。このとき、前記悪性パターンデータベースに既保存された悪性パターンは既存に悪性コードと知られた特定文字列の一部を除いた残りの文字列を利用して生成することができる。前記安全パターンフィルタリング部は前記抽出された悪性コード候補で安全パターンデータベースに既保存された安全さが知られた安全パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを前記抽出された悪性コード候補でフィルタリングし、残った悪性コード候補を悪性コードに出力する。前記パターン学習部は前記出力された悪性コードを基盤として悪性パターンの規則性または安全パターンと悪性パターンとの間の関連性を分析して新たな悪性パターン情報を生成し、前記生成された悪性パターン情報を前記既保存された悪性パターン情報に追加する。

また、前記データクローリング部は前記ウェブサイトのソースコードだけでなく前記ウェブサイトをＩＥコンポーネントモジュールを利用して接近することによって収集されたイメージ、エンコーディングジャバスクリプトおよびスタイルシートデータを前記コンテンツデータとして保存できる。

また、前記データクローリング部は前記貯蔵されたデータで前記既保存された悪性パターン情報と一致しないデータをハッシュ（ｈａｓｈ）値に保存することができ、前記悪性コード候補抽出部は前記データクローリング部に既保存されたハッシュ値と前記ウェブサイトのコンテンツデータを周期的にクローリングして獲得された追加コンテンツデータのハッシュ値を比較することによって変化したハッシュ値を探知し、前記探知された変化したハッシュ値を基盤として悪性コード候補を抽出することができる。

一方、本発明の一実施例に係るウェブ基盤の悪性コードの探知方法はＵＲＬ収集段階、データクローリング段階、悪性コード候補抽出段階、安全パターンフィルタリング段階およびパターン学習段階を含む。

前記ＵＲＬ収集段階は少なくとも一つ以上のウェブサーバーのＵＲＬ情報を収集して貯蔵する。前記データクローリング段階は前記貯蔵されたＵＲＬ情報を基盤としてウェブサイト内に存在するコンテンツデータをクローリングして貯蔵する。前記悪性コード候補抽出段階は前記データクローリング段階で貯蔵されたデータで悪性パターンデータベース部に既保存された悪性パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを悪性コード候補として抽出する。このとき、前記悪性パターンデータベースに既保存された悪性パターンは既存に悪性コードと知られた特定文字列の一部を除いた残りの文字列を利用して生成することができる。前記安全パターンフィルタリング段階は前記抽出された悪性コード候補で安全パターンデータベース部に既保存された安全さが知られた安全パターンと一致するパターンを探知した後、前記探知されたパターンを含むイベントを前記抽出された悪性コード候補でフィルタリングし、残った悪性コード候補を悪性コードに出力する。前記パターン学習段階は前記出力された悪性コードを基盤として悪性パターンの規則性または安全パターンと悪性パターンとの間の関連性を分析して新たな悪性パターン情報を生成し、前記生成された悪性パターン情報を前記既保存された悪性パターン情報に追加する。

また、前記データクローリング段階は前記ウェブサイトのソースコードだけでなく前記ウェブサイトをＩＥコンポーネントモジュールを利用して接近することによって収集されたイメージ、エンコーディングジャバスクリプトおよびスタイルシートデータを前記コンテンツデータとして保存できる。

また、前記データクローリング段階は前記貯蔵されたデータで前記既保存された悪性パターン情報と一致しないデータをハッシュ（ｈａｓｈ）値に保存でき、前記悪性コード候補抽出段階は前記データクローリング段階で既保存されたハッシュ値と前記ウェブサイトのコンテンツデータを周期的にクローリングして獲得された追加コンテンツデータのハッシュ値を比較することによって変化したハッシュ値を探知し、前記探知された変化したハッシュ値を基盤として悪性コード候補を抽出することができる。

本発明のまた他のウェブ基盤の悪性コードの探知方法は、一次ＵＲＬサイトに含まれているウェブ文書に悪性コードまたはエクスプロイトイベント（ｅｘｐｌｏｉｔｅｖｅｎｔ）を探知するのはもちろん、そのサイト内のコードによってリンクされるイベントを追跡して複数の段階を経てリンクされる他のサイトを追跡し、結果として悪性コードが実行できるように誘導するイベントを検出することができる。このとき、リンクされるサイトのウェブ文書も全てクローリングして収集されることによって、リンクされるサイトのウェブ文書に対する保安もチェックすることができる。このとき、リンクされるサイトが同じドメイン内部のサイトである場合には本発明のまた他のウェブ基盤の悪性コードの探知方法は内部リンカーについては一時的にイベント探知プロセスを省略することができる。ドメイン内部のサイトであれば結果的にクローリングして収集されることによって悪性コードの検出が別のプロセスで実行されるので、悪性コード探知過程が重複して実行されることを防止するためである。

本発明は保安上の弱点を利用してハッキングされたウェブページを通じて悪性コードを流布したり経由サイトに悪用されることを事前に探知し対応できる効果がある。

本発明は悪性コードの探知の際、広い範囲のパターンで探知した後、安全さが知られた安全パターンをフィルタリングするので、新種または変種悪性コードに対する未探を減らすことができる効果がある。

本発明はＩＥコンポーネントモジュールを利用してウェブサイトをエミュレーションするので、ＩＥウェブブラウザーを実際に実行しなくてもウェブブラウザーを利用したウェブ接近と同等な結果を収集することができ、これによって、リソース消耗を減らし、悪性コードの探知範囲を拡大することができる効果がある。

本発明はＨＴＭＬに対する単純分析だけでなくイメージ、エンコーディングジャバスクリプトおよびスタイルシートなど多様なコンテンツ分析を通じてＩＥ水準の分析が可能である。

本発明はデータクローリング部に既保存されたハッシュ値とウェブサイトのコンテンツデータを周期的にクローリングして獲得された追加コンテンツデータのハッシュ値を比較して変化したハッシュ値を探知し、前記探知された変化したハッシュ値に相当するデータだけ悪性コード検査を行うので、不必要なリソースおよび時間消耗を減らすことができる効果がある。

また、本発明はウェブサイトの安全性を確保するためにクローリングされたウェブ文書でリンクされる別個のサイトまで分析対象を拡大することができ、このような過程を複数の段階を繰り返すことによってウェブサイトの安全性を一層高めることができる。このとき、ウェブサイト内のリンクは多くの場合にドメイン内部の文書／サイトに対するリンクであるので、ウェブ文書に対する悪性コード分析プロセスによって検出可能なイベントを検出するまで多くの演算量およびメモリを使用する必要がないので、リンクイベントが内部の文書に対するリンクである場合には一時的に悪性コードの探知プロセスを解除して演算量およびメモリ使用量を減らすことができる。つまり、悪性コードの探知範囲を広げる過程で重複する探知プロセスについては一回の探知プロセスだけが実行されるようにして重複する演算およびメモリ使用量を減らすことができる。

従来の技術において、ウェブサイトを通じた悪性コードの感染経路を説明するための一実施例である。本発明の一実施例に係るウェブ基盤の悪性コード探知システムを示した図である。本発明の一実施例に係るウェブ基盤の悪性コードの探知方法を示した図である。本発明の一実施例に係るコンテンツデータを周期的にクローリングするときの悪性コードの探知方法を示した図である。図３に示された本発明の一実施例に係るウェブ基盤の悪性コードの探知方法の一段階をさらに詳しく示した図である。本発明の一実施例に係るウェブ基盤の悪性コードの探知方法でサイトリンクイベントを追跡して悪性コードの誘引を検出する過程を示した図である。本発明の一実施例に係るウェブ基盤の悪性コードの探知方法の過程および探知されるイベントの種類を示した一例である。本発明の一実施例に係るウェブ基盤の悪性コードの探知方法で一次ＵＲＬと検出されたｈｔｍｌ文書ドキュメントを通じて隠された悪性コードを探知する過程を示した一例である。

以下、本発明の望ましい実施例を添付図面を参照して詳しく説明する。本発明を説明するにあたって、関連した公知構成または、機能に対する具体的な説明が本発明の要旨を曇ることができると判断される場合には、その詳細な説明は、省略する。また、本発明の実施例を説明するにあたって、具体的な数値は実施例に過ぎないものである。

本発明はウェブ基盤の悪性コード探知システムおよび方法に関し、より詳しくは、保安上の弱点を利用してハッキングされたウェブページを通じて悪性コードを流布したり経由サイトに悪用されることを事前に探知し対応することができる技術を提示する。

図２は本発明の一実施例に係るウェブ基盤の悪性コード探知システムを示した図である。
図２を参照すれば、本発明のウェブ基盤の悪性コード探知システム２００はＵＲＬ収集部２１０、データクローリング部２２０、悪性パターンデータベース２３０、悪性コード候補抽出部２４０、安全パターンデータベース２５０、安全パターンフィルタリング部２６０およびパターン学習部２７０を含む。

ＵＲＬ収集部２１０は少なくとも一つ以上のウェブサーバーのＵＲＬ情報を収集して貯蔵する。ウェブ基盤の悪性コード探知システム２００はＵＲＬのようなリンク情報を利用してウェブサイトに接近することができる。

データクローリング部２２０はＵＲＬ収集部２１０に貯蔵されたＵＲＬ情報を基盤としてウェブサイト内に存在するコンテンツデータをクローリングして貯蔵する。

このとき、ウェブ基盤の悪性コード探知システム２００はＩＥコンポーネントモジュールを利用してウェブページに接近することができ、これはウェブブラウザーを利用した接近と同等な結果を収集できるようになる。このとき、ＩＥコンポーネントモジュールを利用すれば一般使用者がウェブページに接続した時に接近（ａｃｃｅｓｓ）するようになるコードだけでなくコンテンツその他データを同等に収集することによって悪性コードに露出可能な使用者環境をより実際状況に近く再現することができる。つまり、ウェブ基盤の悪性コード探知システム２００はＩＥコンポーネントモジュールを利用してウェブに接近することによってエミュレーションが可能である。このとき、エミュレーション（ｅｍｕｌａｔｉｏｎ）とは、デジタル情報を生産した時点で使用されたハードウェア、媒体、運営体制、ソフトウェアの運用をそのままエミュレート（ｅｍｕｌａｔｅ）してその内容を読み出すプログラムを通じて再現する保存戦略である。一方、ＩＥコンポーネントモジュールとは、このようなエミュレーションを可能にするための目的で本発明が採択したウェブデータ収集モジュールの一実施例に過ぎないものであって、本発明が追求しようとするのはウェブデータを収集するとき、実際使用者が悪性コードに露出できる使用者環境をより実際状況に近く再現できる収集モジュールである。ＩＥコンポーネントモジュールとは、当業界に知られた公知のソフトウェアモジュールであって、このような本発明の目的に符合するように選択した一実施例に過ぎないものであって、本発明の思想がこのような実施例によって限定されるものではない。

したがって、ウェブ基盤の悪性コード探知システム２００は従来にＩＥウェブブラウザーに接近時にロードされるコンテンツの検証が行われなくてコンテンツロードの際、悪性コードに感染する危険が存在した問題を解決することができ、また、ウェブ基盤の悪性コード探知システム２００はＩＥコンポーネントモジュールを利用してＩＥウェブブラウザーを実際に実行せずにウェブに接近するようになるので、リソース消耗を減らすことができ、悪性コードの探知範囲を拡大することができる。

データクローリング部２２０はウェブサイトのソースコード（ＨＴＭＬ）だけでなく、ＩＥコンポーネントモジュールを利用してウェブに接近することによって付随的に収集されたイメージ（ｉｍａｇｅ）、エンコーディングジャバスクリプト（ｅｎｃｏｄｉｎｇＪａｖａＳｃｒｉｐｔ（登録商標））およびスタイルシートなどのデータを共にクローリングして貯蔵する。

また、データクローリング部２２０は貯蔵されたデータで悪性パターンデータベース２３０に既保存された悪性パターン情報と一致しないデータ（つまり、悪性コード候補として抽出されないデータ）および安全パターンフィルタリング部２６０で安全パターンによって安全なものでフィルタリングされたデータ（つまり、悪性コードではないデータ）をハッシュ（ｈａｓｈ）値に保存することができる。

また、データクローリング部２２０はウェブサイトのコンテンツデータを周期的にクローリングし、悪性コード候補抽出部２４０はデータクローリング部２２０に既保存されたハッシュ値と前記ウェブサイトを周期的にクローリングして獲得された追加コンテンツデータのハッシュ値を比較することによって変化したハッシュ値を探知し、前記探知された変化したハッシュ値を基盤として悪性コード候補を抽出する。

悪性パターンデータベース２３０は既存に悪性コードと知られた特定文字列の情報だけでなく、既存に悪性コードと知られた特定文字列の一部を除いた残りの文字列を利用して生成された悪性コードパターン情報を貯蔵する。つまり、悪性パターンデータベース２３０は既存に知られた悪性コードの情報だけでなく、前記既存に知られた悪性コードとパターンが類似の同種の悪性コードの情報までデータベース化して貯蔵する。

悪性コード候補抽出部２４０はデータクローリング部２２０に貯蔵されたデータで悪性パターンデータベース２３０に既保存された悪性パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを悪性コード候補として抽出する。

従来は悪性コードを探知する時、既存に知られた悪性コード情報と同じであるか否かによって探知したので、偵察率は増加するが、新規または同種の悪性コードを探知できない未探の場合が多く発生した。

しかし、本発明の悪性コード候補抽出部２４０は悪性パターンデータベース２３０が既存に悪性コードと知られた特定文字列の情報だけでなく、既存に悪性コードと知られた特定文字列の一部を除いた残りの文字列を利用して生成された悪性コードパターン情報を保存しているので、悪性コード候補を抽出する時に従来とは異なるように幅広い範囲のパターンで悪性コード探知が可能で、以降抽出された悪性コード候補で安全パターンデータベース２５０に貯蔵された安全パターン情報と一致するパターンをフィルタリングすることによって未探率を下げることができるようになる。

例えば、既存に知られた悪性コードをＡＢＣＤＥＦと仮定すると、悪性コードが進化または変形してＡＢＣＣＥＦも悪性コードと同様の機能を遂行することができるので、本発明の一実施例ではＡＢＣ／Ｃ／ＥＦのように既存に知られた悪性コードの一部が異なるパターンで代替された形態のコードも悪性コード候補として探知されることができる。

このとき、悪性コード候補の範囲が過度に広くなるので過誤探（悪性コードではないものを悪性コードとして認識する）が問題となることができるが、本発明ではすでに安全であると知らされた安全パターンを探知してこのような誤探を防止することができる。

また、悪性パターンデータベース２３０にはパターン学習部２７０によって分析された新たな悪性パターン情報を追加することができる。

また、悪性コード候補抽出部２４０は悪性コード候補として抽出されたイベント情報をリスト構造（ｌｉｓｔｓｔｒｕｃｔｕｒｅ）形態に保存することができ、また、悪性コード候補抽出部２４０は抽出されたイベントがどんな悪性パターンによって悪性コード候補として抽出されたかに対するヒストリーを全て保存することができる。

したがって、悪性コード候補抽出部２４０は以降安全パターンをフィルタリングするために、抽出されたイベントがどんな悪性パターンによって抽出され、抽出された悪性パターンの当該文字列がある位置にあるかに対する詳細情報をデータベース化して保存することができる。

安全パターンデータベース２５０は既存に知られた安全さが知られたパターンを貯蔵する。これは悪性パターンと安全パターンの文字列が類似する場合、悪性コード候補抽出部２４０で誤探知されたイベントを安全パターンデータベース２５０に貯蔵された安全パターンを利用してフィルタリングすることによって誤探を除去することができる。

また、安全パターンデータベース２５０に貯蔵された安全パターンはどんな悪性パターンに対する例外規定であるかによって定義され、安全パターンフィルタリング部２６０はこのように悪性パターンと安全パターンとの間の関連性によって定義された安全パターンを利用することによって、抽出された悪性コード候補で誤探をフィルタリングすることができる。

言い換えると、安全パターンが探知されたとき、無条件安全なものと認識すれば、様々な悪性コード類似パターンによって一つの安全パターンによって安全なものと認識される可能性（悪性コード候補と認識されたコードが実際には安全ではないが、安全なものと誤認識される余地）もあるので、このときは悪性コード候補がどんな悪性パターンと類似して悪性コード候補と認識されたかに対する探知ヒストリーも共に貯蔵して安全パターンによって過度に未探率が高くなる現象も防止することができる。悪性コード候補が複数の悪性パターンと類似して悪性コード候補として選ばれた場合には、各悪性パターンに対する安全度が全て検証された場合にだけ悪性コード候補から除外するなどの例外処理規定が追加的に備えられる。

安全パターンフィルタリング部２６０は悪性コード候補抽出部２４０で抽出された悪性コード候補で安全パターンデータベース部２５０に既保存された安全さが知られた安全パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを前記抽出された悪性コード候補でフィルタリングし、残った悪性コード候補を悪性コードに出力する。

このとき、安全パターンフィルタリング部２８０でフィルタリングされた安全なデータはデータクローリング部２２０にハッシュ値に保存され、反面、フィルタリングして残った悪性コード候補データは悪性コードとして使用者に知られる（ａｌｅｒｔ）。

安全パターンフィルタリング部２６０は悪性コード候補で安全パターンを含むイベントをフィルタリングすることによって偵察の可能性の高いイベントだけを残ることになるので、新規または同種の悪性コードに対する探知脱落を減らすことができる。

パターン学習部２７０は安全パターンフィルタリング部２６０から出力された悪性コードを基盤として悪性パターンの規則性または安全パターンと悪性パターンとの間の関連性を分析して新たな悪性パターン情報を生成し、前記生成された悪性パターン情報を悪性パターンデータベース２３０に追加する。

したがって、パターン学習部２７０は安全パターンフィルタリング部２６０でフィルタリングが続くことによって漸次に残っているイベントの偵察率が増加することになり、新たな悪性パターン情報をさらに多く確報することができるようになる。

図３は本発明の一実施例に係るウェブ基盤の悪性コードの探知方法を示した図である。
図３を参照すれば、ＵＲＬ収集部２１０は少なくとも一つ以上のウェブサーバーのＵＲＬ情報を収集して保存する（Ｓ３１０）。これはウェブ基盤の悪性コード探知システム２００がＵＲＬのようなリンク情報を利用してウェブサイトに接近することができるようにするためである。

そして、データクローリング部２２０はＵＲＬ収集部２１０に貯蔵されたＵＲＬ情報を基盤としてウェブサイト内に存在するコンテンツデータをクローリングして保存する（Ｓ３２０）。このとき、クローリングして保存されるデータはウェブサイトのソースコード（ＨＴＭＬ）だけでなく、ＩＥコンポーネントモジュールを利用してウェブに接近することによって付随的に収集されたイメージ（ｉｍａｇｅ）、エンコーディングジャバスクリプト（ｅｎｃｏｄｉｎｇＪａｖａＳｃｒｉｐｔ（登録商標））およびスタイルシートなどのデータであることができる。

このとき、本発明のウェブ基盤の悪性コード探知システム２００はＩＥコンポーネントモジュールを利用してウェブページに接近することができ、これはウェブブラウザーを利用した接近と同等な結果が収集可能になる。つまり、ウェブ基盤の悪性コード探知システム２００はＩＥコンポーネントモジュールを利用してウェブに接近することによってエミュレーションが可能である。

したがって、ウェブ基盤の悪性コード探知システム２００は従来にＩＥウェブブラウザーに接近の際、ロードされるコンテンツの検証が行われなくてコンテンツロードの際に悪性コードに感染する恐れが存在する問題を解決することができ、また、ウェブ基盤の悪性コード探知システム２００はＩＥコンポーネントモジュールを利用してＩＥウェブブラウザーを実際に実行せずにウェブに接近することになるので、リソース消耗を減らすことができ、悪性コードの探知範囲を拡大することができる効果がある。

次に、悪性コード候補抽出部２４０はデータクローリング部２２０に貯蔵されたデータで悪性パターンデータベース２３０に既保存された悪性パターン情報と一致するパターンがあるか否かを確認する（Ｓ３３０）。

このとき、悪性パターンデータベース２３０に既保存された悪性パターン情報は既存に悪性コードと知られた特定文字列の情報だけでなく、既存に悪性コードと知られた特定文字列の一部を除いた残りの文字列を利用して生成された悪性コードパターン情報であることができる。つまり、悪性パターンデータベース２３０は既存に知られた悪性コードの情報だけでなく、前記既存に知られた悪性コードとパターンが類似の同種の悪性コードの情報までデータベース化して保存することができる。

次に、悪性コード候補抽出部２４０はデータクローリング部２２０に貯蔵されたデータで既保存された悪性パターン情報と一致するパターンが探知された場合（Ｓ３３０−Ｙ）、前記探知されたパターンを含むイベントを悪性コード候補として抽出し（Ｓ３５０）、データクローリング部２２０に貯蔵されたデータで既保存された悪性パターン情報と一致しないデータ（つまり、悪性コード候補として抽出されないデータ（Ｓ３３０−Ｎ））はハッシュ（ｈａｓｈ）値に保存する（Ｓ３４０）。

このとき、段階Ｓ３５０は悪性コード候補を抽出するとき、悪性パターンデータベース２３０が既存に悪性コードと知られた特定文字列の情報だけでなく既存に悪性コードと知られた特定文字列の一部を除いた残りの文字列を利用して生成された悪性コードパターン情報を保存しているので、従来とは異なるように幅広い範囲のパターンで悪性コード探知が可能であり、これによって、未探率を減らすことができる効果がある。

また、段階Ｓ３５０で悪性コード候補を抽出する悪性コード候補抽出部２４０は悪性コード候補として抽出されたイベント情報をリスト構造（ｌｉｓｔｓｔｒｕｃｔｕｒｅ）形態に保存することができ、また、悪性コード候補抽出部２４０は抽出されたイベントがどんな悪性パターンによって悪性コード候補として抽出されたかに対するヒストリーを全て保存することができる。つまり、悪性コード候補抽出部２４０は以降安全パターンをフィルタリングするために、抽出されたイベントがどんな悪性パターンによって抽出され、抽出された悪性パターンの当該文字列がある位置にあるかに対する詳細情報をデータベース化して保存することができる。

次に、悪性コード候補が抽出された後（Ｓ３５０）、安全パターンフィルタリング部２６０は悪性コード候補抽出部２４０で抽出された悪性コード候補で安全パターンデータベース部２５０に既保存された安全さが知られた安全パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを前記抽出された悪性コード候補でフィルタリングし（Ｓ３６０）、残った悪性コード候補を悪性コードに出力する（Ｓ３７０）。

このとき、安全パターンデータベース２５０は既存に知られた安全さが知られたパターンを保存しており、これは悪性パターンと安全パターンが似た文字列が類似する場合、悪性コード候補抽出部２４０で誤探知されたイベントを安全パターンデータベース２５０に貯蔵された安全パターンを利用してフィルタリングすることによって誤探を除去することができる。

また、安全パターンフィルタリング部２８０でフィルタリングされた安全なデータはデータクローリング部２２０にハッシュ値に保存され、反面、フィルタリングして残った悪性コード候補データは悪性コードとして使用者に知られる（ａｌｅｒｔ）。

また、安全パターンフィルタリング部２６０は悪性コード候補で安全パターンを含むイベントをフィルタリングすることによって偵察の可能性の高いイベントだけを残ることになるので、新規または同種の悪性コードに対する探知脱落を減らすことができる。

次に、悪性コードが出力された後（Ｓ３７０）、パターン学習部２７０は安全パターンフィルタリング部２６０から出力された悪性コードを基盤として悪性パターンの規則性または安全パターンと悪性パターンとの間の関連性を分析して新たな悪性パターン情報を生成し（Ｓ３８０）、前記生成された悪性パターン情報を悪性パターンデータベース２３０に追加する（Ｓ３９０）。

したがって、本発明は安全パターンフィルタリング部２６０で安全パターンを継続してフィルタリングすることによって、漸次に残っているイベントの偵察率が増加することなり、新たな悪性パターン情報をさらに多く確報することができる。

図４は本発明の一実施例に係るコンテンツデータを周期的にクローリングするときの悪性コードの探知方法を示した図である。
図４を参照すれば、データクローリング部２２０はＵＲＬ収集部２１０に収集されたＵＲＬ情報（Ｓ３１０）を基盤として、ウェブサイト内に存在するコンテンツデータを周期的にクローリング（Ｓ４１０）して貯蔵する。

そして、悪性コード候補抽出部２４０はデータクローリング部２２０に既保存されたハッシュ値と前記ウェブサイトを周期的にクローリングして獲得された追加コンテンツデータのハッシュ値を比較して変化したハッシュ値を探知し（Ｓ４２０）、前記探知された変化したハッシュ値に相当するデータだけ悪性コード検査を遂行する（Ｓ４３０）。

このとき、周期的にクローリングして獲得される追加コンテンツのデータはウェブサイトのソースコード（ＨＴＭＬ）だけでなく、ＩＥコンポーネントモジュールを利用してウェブに接近することによって付随的に収集されたイメージ（ｉｍａｇｅ）、エンコーディングジャバスクリプト（ｅｎｃｏｄｉｎｇＪａｖａＳｃｒｉｐｔ（登録商標））およびスタイルシートなどのデータであることができる。

また、段階Ｓ４３０は変化したハッシュ値に相当するデータだけ悪性コード検査を行うので、従来にウェブページ点検の際、変動事項のない場合にも点検が行われて不必要なリソースおよび時間消耗が発生した問題を効果的に減らすことができる。

また、段階Ｓ４３０で悪性コードを検査する段階は、図３の段階Ｓ３３０ないし段階Ｓ３９０と同じ過程を通じて遂行することができ、以下、これに対する説明は上記に詳しく記述されているので省略する。

図５は図３に示された発明の一実施例に係るウェブ基盤の悪性コードの探知方法の一段階をさらに詳しく示した図である。
図５を参照すれば、安全パターンに対するフィルタリングに関する段階（Ｓ３６０）が実行された以後、ウェブ基盤の悪性コードの探知方法は環境基盤フィルタリング条件と一致するイベントをフィルタリングすることができる（Ｓ３６１）。このとき、環境基盤フィルタリング条件は悪性コード探知環境によって設定される重複プロセスを防止するためのフィルタリング条件である。つまり、悪性コード探知が別のプロセスによって行われるので重複検出を防止し、不必要な演算量およびメモリ使用量を減らすために環境基盤フィルタリング条件をもって重複プロセスとなるイベントを予めフィルタリングする。一例に、ドメイン内部の文書を全てクローリングして悪性コード文字列およびコード実行による悪性コードの探知プロセスが別途進行の場合、ドメイン内部のリンクによって誘引される悪性コードリンクイベントについては、あえて重複して検出する必要がない。このとき、環境基盤フィルタリング条件は“ドメイン内部のリンクイベント”であることができ、ドメイン内部のリンクイベントはフィルタリングされて悪性コード検出過程で一時的に除外することができる。

図６は本発明の一実施例に係るウェブ基盤の悪性コードの探知方法でサイトリンクイベントを追跡して悪性コードの誘引を検出する過程を示した図である。
図６を参照すれば、本発明のウェブ基盤の悪性コードの探知方法は、サイトＡ６１０の特定コード６１１によってリンクされる他のサイトＡ’６２０に対するクローリングを通じてウェブ文書の安全性を分析することができる。このとき、サイトＡ’６２０内の特定コード６２１によってリンクされるまた他のサイトＡ’’６３０に対してもクローリングまたは文書コード分析を通じてまた他のサイトＡ’’’６４０にリンクされるコード６３１を探知することができる。

このように本発明のウェブ基盤の悪性コードの探知方法は、サイトＡ６１０内部の文書だけを検証するのではなく、これによってリンク可能な他のサイト６２０ないし６４０に対する安全性を検証することもできる。サイトＡ６１０をおいた状態で使用者が意識的、無意識的に、コード６１１のリンクをマウスにクリックした場合、リンクイベントによってサイトＡ’６２０が実行されるので、このような偶発的なイベントまでも考慮してサイトの安全性を検証することができる。もちろん、図６のような方法を使用して、使用者の偶然なクリックによるリンクだけでなく、隠しプロセス（ｈｉｄｄｅｎｐｒｏｃｅｓｓ）に自動的に実行されるリンクイベントまでも検証することができる。

図７は本発明の一実施例に係るウェブ基盤の悪性コードの探知方法の過程および探知されるイベントの種類を示した一例である。
図７を参照すれば、本発明のウェブ基盤の悪性コードの探知方法はウェブ文書外部のタグ（ｔａｇ）を使用した悪性コードホームページにリダイレクション（ｒｅ−ｄｉｒｅｃｔｉｏｎ）を誘導するスクリプト（外部のリンカー）を探知してこれを悪性コードとしてアラート（ａｌｅｒｔｉｎｇ）することを基本機能にすることができる。このとき、ウェブ文書外部のリンカーが難読化されていたり、エンコーディング（Ｅｎｃｏｄｉｎｇ）された場合にも解読またはデコーディング（ｄｅｃｏｄｉｎｇ）してリンカーを検出しこれをフィルタリングすることができる。このとき、利用されるエンコーディング／デコーディング方法は公知の方法を利用するため、本発明の主な範囲には属しないので詳しい説明は省略する。

また、本発明のウェブ基盤の悪性コードの探知方法は、ウェブ文書の内部に存在し、またタグ（ｔａｇ）を使用して悪性コードホームページにリダイレクションを誘導するスクリプト（内部のリンカー）については次の段階の悪性コード検出アルゴリズムに分担させ、現段階では自動フィルタリングして悪性コード探知ロジックの負担を減らすことができる。このとき、内部のリンカーを探知する過程でも難読化やエンコーディングされたリンカーに対する取り扱いは内部のリンカーに対する取り扱いと同一である。

また、本発明のウェブ基盤の悪性コードの探知方法は、シェルコード（ｓｈｅｌｌｃｏｄｅ）を探知して悪性コードを探知することができ、このときにも難読化されたりエンコーディングされたシェルコードを探知することができる。また、このときには本発明のウェブ基盤の悪性コードの探知方法は、特定パッカー（ｐａｃｋｅｒ）によってパッキング（ｐａｃｋｉｎｇ）されたコードを探知して隠された悪性コードに誘引するシェルコードを検出することができる。

このとき、探知されるイベントの３種類はｓｃｒｉｐｔ、ｉｆｒａｍｅｔａｇなどを使用するｔａｇｅｖｅｎｔ、ｔａｇを利用するｌｉｎｋｅｖｅｎｔ、実際悪性コードを実行するエクスプロイトイベントを全て含むことができる。

本発明の一実施例に係るウェブ基盤の悪性コードの探知方法で悪性コード探知過程の演算量／メモリ使用量を減少する方法は次の通りである。本発明の一実施例に係るウェブ基盤の悪性コードの探知方法でタグイベント（ｔａｇｅｖｅｎｔ）の場合、同じドメイン内でロード（ｌｏａｄ）されるのは一次に信頼可能であると仮定して自動フィルタリングし悪性コードに検出しない。このような内部文書のリンクの場合、リンクされる文書はどうせ別のプロセスでクローリングされて悪性コードの検出が行われるので重複するプロセスによって演算量／メモリ使用量が不必要に増加することを防止することができる。

本発明の一実施例に係るウェブ基盤の悪性コードの探知方法でタグイベント（ｔａｇｅｖｅｎｔ）が他のドメインでロード（ｌｏａｄ）されるのは信頼できないのでイベントアラート（ａｌｅｒｔ）する。これは、他のドメインについては別個の検証方法がないので、必ず必要な手続である。

本発明の一実施例に係るウェブ基盤の悪性コードの探知方法でリンクイベント内のＵＲＬには接近してレスポンス（ｒｅｓｐｏｎｓｅ）値を検出する。当該レスポンス（ｒｅｓｐｏｎｓｅ）値でタグイベント（ｔａｇｅｖｅｎｔ）はリンクイベントのＵＲＬのような場合、次のデップス（ｄｅｐｔｈ）の検出過程で検証されるのでフィルター処理することができる。

本発明の一実施例に係るウェブ基盤の悪性コードの探知方法でエクスプロイト（ｅｘｐｌｏｉｔ）関連イベントはすべてのドメインで信頼できないものと見なし、無条件アラート（Ａｌｅｒｔ）することができる。

図７のイベント検出ロジックは一つのデップス（ｄｅｐｔｈ）内で実行することができる。

図８は本発明の一実施例に係るウェブ基盤の悪性コードの探知方法で一次ＵＲＬと検出されたｈｔｍｌ文書ドキュメントを通じて隠された悪性コードを探知する過程を示した一例である。
図８を参照すれば、特定サイトのＵＲＬとそのウェブ文書のＲＡＷ−ＤＡＴＡが一次的にクローリングされて悪性コードの可否が探知される。このとき、タグなどによるリンクイベントを追跡してリンクされるサイト／文書の悪性コード実行の可否を探知することができる。このとき、図８では３段階まで外部リンクを追跡する過程が示されているが、本発明の思想はこのような実施例によって限定されない。

本発明のウェブ基盤の悪性コードの探知方法は、実行される悪性コードに誘導するサイト／文書内のコードを悪性コード配布コードまたは誘発コードに認識して悪性コード認識のためのデータベースを追加的にアップデートすることができる。

このとき、ドメイン内部的にリンクされるタグイベントは、独立的に実行される別のプロセスで当該ドメイン内部文書ＲＡＷ−ＤＡＴＡがクローリングされてチェックされるので、イベント検出過程では悪性コードとして認識されずに自動的にフィルタリングされることができる。しかし、このような悪性コードは、結局、内部文書に対する別個の検証過程で発見されて排除される。

また、図示していないが、本発明のウェブ基盤の悪性コードの探知方法は、各リクエスト（ｒｅｑｕｅｓｔ）ＵＲＬとそれに対応するレスポンスデータ（ｒｅｓｐｏｎｓｅｄａｔａ）を選択的に一覧できる使用者インターフェースを提供し、これらそれぞれはＲＡＷ−ＤＡＴＡ、ＵＲＬ−ｌｉｓｔなどのカテゴリーに区分して提供することができる。

本発明のウェブ基盤の悪性コードの探知方法は、一次ＵＲＬサイトに含まれているウェブ文書に悪性コードまたはエクスプロイトイベントを探知するのはもちろん、そのサイト内のコードによってリンクされるイベントを追跡して複数の段階を経てリンクされる他のサイトを追跡し、結果として悪性コードが実行可能に誘導するイベントを検出することができる。このとき、リンクされるサイトのウェブ文書も全てクローリングして収集されることによって、リンクされるサイトのウェブ文書に対する保安もチェックすることができる。このとき、リンクされるサイトが同じドメイン内部のサイトである場合、本発明のまた他のウェブ基盤の悪性コードの探知方法は、内部リンカーについては一時的にイベント探知プロセスを省略することができる。ドメイン内部のサイトであれば結果的にクローリングして収集されることによって悪性コードの検出が別のプロセスで実行されるので、悪性コード探知過程が重複して実行されることを防止するためである。

本発明の一実施例に係るウェブ基盤の悪性コードの探知方法は、多様なコンピュータ手段を通じて遂行可能なプログラム命令形態に具現されてコンピュータ読取可能媒体に記録される。前記コンピュータ読取可能媒体はプログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記媒体に記録されるプログラム命令は本発明のために特に設計され構成されたものであるかコンピュータソフトウェア当業者に公知されて使用可能なものであることができる。コンピュータ読取可能記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスクおよび磁気テープのような磁気媒体（ｍａｇｎｅｔｉｃｍｅｄｉａ）、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体（ｏｐｔｉｃａｌｍｅｄｉａ）、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびロム（ＲＯＭ）、ラム（ＲＡＭ）、フラッシュメモリなどのようなプログラム命令を貯蔵し行うように特に構成されたハードウェア装置が含まれる。プログラム命令の例としてはコンパイラーによって作られるような機械語コードだけでなく、インタープリタなどを使用してコンピュータにより実行できる高級言語コードを含む。前記ハードウェア装置は本発明の動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成することができ、その逆も同様である。

以上のように、本発明では具体的な構成要素などのような特定事項と限定された実施例および図面によって説明したが、これは本発明のより全般的な理解を助けるために提供されたものであり、本発明は前記の実施例に限定されるものではなく、本発明の属する分野で通常の知識を有する者であればこのような記載から多様な修正および変形が可能である。

したがって、本発明の思想は前述した実施例に限定して決めてはならないし、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等にまたは等価的に変形された全てのものは、本発明の思想の範疇に属すると言える。

２００ウェブ基盤の悪性コード探知システム
２１０ＵＲＬ収集部
２２０データクローリング部
２３０悪性パターンデータベース
２４０悪性コード候補抽出部
２５０安全パターンデータベース
２６０安全パターンフィルタリング部
２７０パターン学習部

Claims

ウェブサーバーに悪性コードが挿入される攻撃を探知するシステムにおいて、
少なくとも一つ以上のウェブサーバーのＵＲＬ情報を収集して貯蔵するＵＲＬ収集部と、
前記貯蔵されたＵＲＬ情報を基盤としてウェブサイト内に存在するコンテンツデータをクローリングして貯蔵するデータクローリング部と、
前記データクローリング部に貯蔵されたデータで既保存された悪性パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを悪性コード候補として抽出する悪性コード候補抽出部と、
前記抽出された悪性コード候補で既保存された安全さが知られた安全パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを前記抽出された悪性コード候補でフィルタリングし、残った悪性コード候補を悪性コードに出力する安全パターンフィルタリング部とを含むことを特徴とするウェブ基盤の悪性コード探知システム。
前記既保存された悪性パターンは、
既存に悪性コードと知られた特定文字列の一部を除いた残りの文字列を利用して生成されることを特徴とする請求項１に記載のウェブ基盤の悪性コード探知システム。
前記出力された悪性コードを基盤として悪性パターンの規則性または安全パターンと悪性パターンとの間の関連性を分析して新たな悪性パターン情報を生成し、前記生成された悪性パターン情報を前記既保存された悪性パターン情報に追加するパターン学習部をさらに含むことを特徴とする請求項１に記載のウェブ基盤の悪性コード探知システム。
前記データクローリング部は、
前記ウェブサイトのソースコードだけでなく前記ウェブサイトをＩＥコンポーネントモジュールを利用して接近することによって収集されたイメージ、エンコーディングジャバスクリプトおよびスタイルシートデータを前記コンテンツデータに保存することを特徴とする請求項１に記載のウェブ基盤の悪性コード探知システム。
前記データクローリング部は、
前記貯蔵されたデータで前記既保存された悪性パターン情報と一致しないデータをハッシュ（ｈａｓｈ）値に貯蔵し、
前記悪性コード候補抽出部は、
前記データクローリング部に既保存されたハッシュ値と前記ウェブサイトのコンテンツデータを周期的にクローリングして獲得された追加コンテンツデータのハッシュ値を比較することによって変化したハッシュ値を探知し、前記探知された変化したハッシュ値を基盤として悪性コード候補を抽出することを特徴とする請求項１に記載のウェブ基盤の悪性コード探知システム。
ウェブサーバーに悪性コードが挿入される攻撃を探知する方法において、
少なくとも一つ以上のウェブサーバーのＵＲＬ情報を収集して貯蔵するＵＲＬ収集段階と、
前記貯蔵されたＵＲＬ情報を基盤としてウェブサイト内に存在するコンテンツデータをクローリングして貯蔵するデータクローリング段階と、
前記データクローリング段階で貯蔵されたデータで既保存された悪性パターン情報と一致するパターンを探知した後、前記探知されたパターンを含むイベントを悪性コード候補として抽出する悪性コード候補抽出段階と、
前記抽出された悪性コード候補で既保存された安全さが知られた安全パターンと一致するパターンを探知した後、前記探知されたパターンを含むイベントを前記抽出された悪性コード候補でフィルタリングし、残った悪性コード候補を悪性コードに出力する安全パターンフィルタリング段階とを含むことを特徴とするウェブ基盤の悪性コードの探知方法。
前記既保存された悪性パターンは、
既存に悪性コードと知られた特定文字列の一部を除いた残りの文字列を利用して生成されることを特徴とする請求項６に記載のウェブ基盤の悪性コードの探知方法。
前記出力された悪性コードを基盤として悪性パターンの規則性または安全パターンと悪性パターンとの間の関連性を分析して新たな悪性パターン情報を生成し、前記生成された悪性パターン情報を前記既保存された悪性パターン情報に追加するパターン学習段階をさらに含むことを特徴とする請求項６に記載のウェブ基盤の悪性コードの探知方法。
前記データクローリング段階は、
前記貯蔵されたデータで前記既保存された悪性パターン情報と一致しないデータをハッシュ（ｈａｓｈ）値に貯蔵し、
前記悪性コード候補抽出段階は、
前記データクローリング段階で既保存されたハッシュ値と前記ウェブサイトのコンテンツデータを周期的にクローリングして獲得された追加コンテンツデータのハッシュ値を比較することによって変化したハッシュ値を探知し、前記探知された変化したハッシュ値を基盤として悪性コード候補を抽出することを特徴とする請求項６に記載のウェブ基盤の悪性コードの探知方法。
請求項６乃至９のうちいずれか一項に記載の方法を実行するためのプログラムが記録されていることを特徴とするコンピュータで読取可能な記録媒体。