JP2017016626A

JP2017016626A - 悪質な脆弱性のあるファイルを検出する方法、装置及び端末

Info

Publication number: JP2017016626A
Application number: JP2015234043A
Authority: JP
Inventors: ▲張▼壮; Zhuang Zhang; ▲趙▼▲長▼坤; Changkun Zhao; 曹▲亮▼; Liang Cao; 董志▲強▼; Zhiqiang Dong
Original assignee: Anyi Hengtong Beijing Technology Co Ltd
Current assignee: Anyi Hengtong Beijing Technology Co Ltd
Priority date: 2015-06-30
Filing date: 2015-11-30
Publication date: 2017-01-19
Anticipated expiration: 2035-11-30
Also published as: KR20170003356A; CN106295337B; US10176323B2; KR101711882B1; JP6138896B2; US20170004306A1; CN106295337A

Abstract

【課題】悪質な脆弱性のあるファイルに対する検出削除の効率を向上させる。【解決手段】検出すべきファイルを取得し１０１、前記検出すべきファイルのエントロピーベクトルを確定する１０２。トレーニングされた検出モデルを利用して前記検出すべきファイルのエントロピーベクトルを検出して前記検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定する１０３。ここで、前記検出すべきファイルのファイルタイプは前記検出モデルに対応するファイルタイプと同一である。【選択図】図１

Description

本願はコンピュータの技術分野に関し、具体的には脆弱性検出の技術分野に関し、特に悪質な脆弱性のあるファイルを検出する方法、装置及び端末に関する。

従来、コンピュータ技術が絶え間なく発展するにつれて、コンピュータは人々の日常生活に幅広く用いられ、且つ機能もますます多くなり、人々の生活や仕事の重要なツールになる。しかしながら、いくつかの個人や組織は、高度な攻撃手法により特定のターゲットに対して、長時間にわたり持続的ネットワーク攻撃を行うので、悪質なコードの実行及び機密情報の漏洩を招き、ネットワークセキュリティを脅威にさらしてしまう。

従来の悪質な脆弱性のあるファイルを検出する方法としては静的検出方法と動的実行検出方法との２種類がある。静特性の検出方法は一般的な方法であり、検出方式が２種類ある。Ａ、ファイルフォーマットの異常により異常ドキュメントを検出する。Ｂ、脆弱性を検出することによりファイルの固定特性を利用して異常ドキュメントを検出する。動的実行検出方法は発見的検出方法である。比較的高級な発見的環境において、シミュレーション環境を用いて実行すべきドキュメントを実行し、通常のドキュメントにない挙動を検出する。ドキュメントがｓｈｅｌｌｃｏｄｅ（充填データであり、脆弱性コードに属する）をトリガーすると、ドキュメント自体に存在すべきでない挙動が発生してしまう。例えば、ネットワークへのリンク、プログラムの実行、プロセスのインジェクションなどが挙げられる。

しかしながら、静的検出方法について、ドキュメント構造を構築しｓｈｅｌｌｃｏｄｅを変更することにより、静的検出方法を簡単に回避することができる。従って、静的検出方法の発見的検出削除の能力が劣り、新たに発生した悪質な脆弱性のあるファイルに対して検出削除の作用がほとんどない。動的実行検出方法について、動的実行の仮想環境を検出できる方法は多種あるので、関連するウイルスコードをトリガーしなくなり、それにより検出を失敗してしまう。従って、動的実行検出方法はある程度の発見的能力があるが、効率が低く、速度が遅く、且つ発見的能力がそれほど高くない。

本願は悪質な脆弱性のあるファイルを検出する方法、装置及び端末を提供する。従来技術において悪質な脆弱性のあるファイルに対して検出削除の速度が遅く、検出削除能力や効率が低いという問題を解決する。

第１態様によれば、本願は悪質な脆弱性のあるファイルを検出する方法を提供する。検出すべきファイルを取得するステップと、前記検出すべきファイルのエントロピーベクトルを確定するステップと、トレーニングされた検出モデルを利用して前記検出すべきファイルのエントロピーベクトルを検出して前記検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定するステップと、を含んでおり、ここで、前記検出すべきファイルのファイルタイプが前記検出モデルに対応するファイルタイプと同一である。

ある実施形態において、ファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得するステップと、前記セキュリティカテゴリーに応じて前記トレーニングファイルに対してセキュリティカテゴリーを標識するステップと、前記トレーニングファイルのエントロピーベクトルを確定するステップと、前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力するステップと、によって前記検出モデルを取得し、ここで、前記セキュリティカテゴリーが悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含む。

ある実施形態において、前記の検出モデルをトレーニングして出力するステップにおいては、前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて初期検出モデルを取得するステップと、
前記初期検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップと、
前記初期検出モデルの誤判定率が所定閾値より小さくない場合に、現在の検出モデルを補正するステップ及び補正後の検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップを繰り返すステップと、補正後の検出モデルの誤判定率が所定閾値より小さいことに応じて、繰り返しを停止して前記補正後の検出モデルを出力するステップと、を含む。

ある実施形態において、前記の初期検出モデルを取得するステップにおいては、前記トレーニングファイルから一部のファイルを第１ファイルとして取得するステップと、前記第１ファイルのエントロピーベクトルに対して特徴分類を行うステップと、前記特徴分類の結果及び前記第１ファイルのセキュリティカテゴリー識別子に基づいて、学習して初期検出モデルを取得するステップと、を含む。

ある実施形態において、検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップにおいては、前記トレーニングファイルから一部のファイルを第２ファイルとして取得するステップと、テストすべき検出モデルを利用して前記第２ファイルのエントロピーベクトルを検出するステップと、検出結果及び前記第２ファイルのセキュリティカテゴリー識別子に基づき誤判定率を確定するステップと、前記誤判定率を前記所定閾値と比較し、前記誤判定率が所定閾値より小さいか否かを確定するステップと、を含んでおり、ここで、前記第１ファイルが前記第２ファイルに含まれない。

ある実施形態において、前記の現在の検出モデルを補正するステップにおいては、第１ファイルの数を増やして再学習することによって検出モデルを取得するステップ、及びエントロピーベクトルの次元数を調整して再学習することによって検出モデルを取得するステップのうちの少なくとも一つのステップを含む。

ある実施形態において、ファイルを所定数のセグメントに分けるステップと、各前記セグメントのエントロピー値を取得するステップと、前記セグメントの数をエントロピーベクトルの次元数とし、各前記セグメントが１つのエントロピーベクトルの方向に対応し、各前記セグメントのエントロピー値に基づいてファイルのエントロピーベクトルを確定するステップと、によってファイルのエントロピーベクトルを確定する。

第２態様によれば、本願は悪質な脆弱性のあるファイルを検出する装置を提供し、検出すべきファイルを取得する取得手段と、前記検出すべきファイルのエントロピーベクトルを確定する確定手段と、トレーニングされた検出モデルを利用して前記検出すべきファイルのエントロピーベクトルを検出して前記検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定する検出手段と、を備えており、ここで、前記検出すべきファイルのファイルタイプが前記検出モデルに対応するファイルタイプと同一である。

ある実施形態において、前記の検出モデルをトレーニングして出力するステップにおいては、前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて初期検出モデルを取得するステップと、前記初期検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップと、前記初期検出モデルの誤判定率が所定閾値より小さくない場合に、現在の検出モデルを補正するステップ及び補正後の検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップを繰り返すステップと、補正後の検出モデルの誤判定率が所定閾値より小さいことに応じて、繰り返しを停止して前記補正後の検出モデルを出力するステップと、を含む。

ある実施形態において、前記の現在の検出モデルを補正するステップにおいては、第１ファイルの数を増やして再学習することによって検出モデルを取得するステップ、及びエントロピーベクトルの次元数を調整して再学習ことによって検出モデルを取得するステップのうちの少なくとも一つのステップを含む。

ある実施形態において、前記確定手段は、ファイルを所定数のセグメントに分け、各前記セグメントのエントロピー値を取得し、前記セグメントの数をエントロピーベクトルの次元数とし、各前記セグメントが１つのエントロピーベクトルの方向に対応し、各前記セグメントのエントロピー値に基づいてファイルのエントロピーベクトルを確定するように構成される。

第３態様によれば、本願は端末を提供し、トレーニングされた検出モデルを記憶するメモリと、検出すべきファイルを取得し、前記検出すべきファイルのエントロピーベクトルを確定し、且つトレーニングされた検出モデルを利用して前記検出すべきファイルのエントロピーベクトルを検出して前記検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定するプロセッサと、を備えており、ここで、前記検出すべきファイルのファイルタイプが前記検出モデルに対応するファイルタイプと同一である。

ある実施形態において、ファイルタイプが同一でセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得するステップと、前記セキュリティカテゴリーに応じて前記トレーニングファイルに対してセキュリティカテゴリーを標識するステップと、前記トレーニングファイルのエントロピーベクトルを確定するステップと、前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力するステップと、によって前記検出モデルを取得し、ここで、セキュリティカテゴリーが悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含む。

本願に係るジェスチャーを標識する方法、装置及び端末は、検出すべきファイルのエントロピーベクトルを抽出し、且つ検出すべきファイルのエントロピーベクトルに基づき、当該検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定する。従来技術において悪質な脆弱性のあるファイルへの検出削除速度が遅く、検出削除能力や効率が低いという問題を解決し、悪質な脆弱性のあるファイルへの検出削除効率を向上させる。

以下の図面を参照しながら非限定的な実施例を詳しく説明することにより、本願の他の特徴、目的及び利点はより明らかになる。

本願の実施例に係る悪質な脆弱性のあるファイルを検出する方法の一実施例のフローチャートである。本願の実施例に係る悪質な脆弱性のあるファイルのコンテンツのエントロピー値曲線の変化概略図である。本願の実施例に係るｓｈｅｌｌｃｏｄｅを含むファイルのコンテンツのエントロピー値曲線の変化概略図である。本願の実施例に係る検出モデルを取得する方法の一実施例のフローチャートである。本願の実施例に係る悪質な脆弱性のあるファイルを検出する装置の一実施例の構成概略図である。本願の実施例に係る端末の一実施例の構成概略図である。

以下、図面及び実施例を参照しながら、本願をさらに詳しく説明する。ただし、ここで説明される具体的な実施例は係る発明を解釈するためのものに過ぎず、本発明の範囲を制限するものではないことを理解することができる。なお、説明の便宜上、図面に本発明と関連する部分のみが示されている。

ただし、衝突がない限り、本願における実施例及び実施例における特徴は互いに組み合わせてもよい。以下、図面を参照しながら実施例に基づいて本願を詳しく説明する。
本願に係る端末は、スマートフォン、タブレットＰＣ、パーソナルデジタルアシスタント、ラップトップ型ＰＣ及びデスクトップパソコンなどを含むが、それらに限定されない。例示的説明の目的及び便宜上、以下、デスクトップパソコンを参照して本願の例示的な実施例を説明する。

本願に係る悪質な脆弱性のあるファイルを検出する方法の一実施例のフロー１００を示す図１を参照する。
図１に示すように、ステップ１０１において、検出すべきファイルを取得する。

続いて、ステップ１０２において、検出すべきファイルのエントロピーベクトルを確定する。
一般的には、悪質な脆弱性のあるファイルはドキュメントにおいて大量の重複文字列を作成し、次にＲＯＰ（Ｒｅｔｕｒｎ−ｏｒｉｅｎｔｅｄｐｒｏｇｒａｍｍｉｎｇ、リターン指向プログラミング）を作成し、ほかのモジュールにおけるコードを実行し、それによりＤＥＰ（ＤａｔａＥｘｅｃｕｔｉｏｎＰｒｅｖｅｎｔｉｏｎ、データ実行防止）を回避してウイルスを放出する。

本実施例において、悪質な脆弱性のあるファイルを徹底的に分析したところ、作成されたあやしいファイルはウイルスファイルを暗号化してテキストの末尾に収納し、この部分のコンテンツのエントロピー値が必ず非常に大きく、且つ大量の重複データで充填されるので、ファイルのエントロピー値曲線が末尾において急増するはずである。

たとえば、図２は悪質な脆弱性のあるファイルのコンテンツのエントロピー値曲線の変化概略図を示す。図２に示されるように、横座標がファイルのコンテンツの断片の位置、横座標の原点がファイルヘッダーの位置を示し、横座標の値が大きければ大きいほど、ファイルのコンテンツ断片が末尾に近くなる。縦座標はファイルの横座標位置に対応するコンテンツ断片のエントロピー値を示す。図２からわかるように、悪質な脆弱性のあるファイルのコンテンツにおいて末尾での断片のエントロピー値が急増する。

また、たとえば、図３はｓｈｅｌｌｃｏｄｅを含むファイルのコンテンツのエントロピー値曲線の変化概略図を示す。図３に示されるように、横座標がファイルのコンテンツの断片の位置、横座標の原点がファイルヘッダーの位置を示し、横座標の値が大きければ大きいほど、ファイルのコンテンツ断片が末尾に近くなる。縦座標はファイルの横座標位置に対応するコンテンツ断片のエントロピー値を示す。図３からわかるように、ｓｈｅｌｌｃｏｄｅを含むファイルのコンテンツのエントロピー値は大量で連続的な４前後のデータを含む。

従って、本実施例において、検出すべきファイルのエントロピーベクトルの特徴に基づいて検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを判定することができる。

ただし、ファイル断片のエントロピー値は当該ファイル断片の乱雑さを表し、例えば文字、ピクチャ、コード、圧縮ファイル、アプリケーションプログラム等は組織方式によってエントロピー値も異なる。たとえば、ピクチャが圧縮され、圧縮ファイルも圧縮され、そのエントロピー値がとても高くなり、且つ一定のルールがある。データコードの情報エントロピーでコードの状態を示すことができる。

本実施例において、以下のようにファイルのエントロピーベクトルを確定してもよい。まず、ファイルを所定数のセグメントに等価的に分け、各セグメントの情報エントロピーを算出してファイルコードの変化状況を示す。所定数はユーザが予め設定した値であってもよいが、本願は所定数についての具体的な数値を限定しないことが理解されるべきである。上記のセグメントの数をエントロピーベクトルの次元数とし、各セグメントが１つのエントロピーベクトルの方向に対応し、各セグメントのエントロピー値に基づいてファイルのエントロピーベクトルを確定する。たとえば、ファイルを３つのセグメントに等価的に分け、それぞれがセグメントｉ、セグメントｊ、セグメントｋであり、これらのセグメントに対応するエントロピー値を算出し、それぞれａ、ｂ、ｃとすると、当該ファイルのエントロピーベクトルが３次元ベクトルであり、エントロピーベクトルが

で示される。
最終的に、ステップ１０３において、トレーニングされた検出モデルを利用して上記の検出すべきファイルのエントロピーベクトルを検出して当該検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定する。

本実施例において、トレーニングされた検出モデルを利用して上記の検出すべきファイルのエントロピーベクトルを検出し、検出すべきファイルのエントロピーベクトルの特徴を分析し、検出すべきファイルのエントロピーベクトルの特徴に基づいて当該検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定することができる。

ただし、悪質な脆弱性のあるファイルのファイルタイプが異なれば、そのエントロピーベクトルの特徴も異なる。従って、各ファイルタイプが１種の検出モデルに対応し、検出すべきファイルを検出する際に、選択された検出モデルに対応するファイルタイプが検出すべきファイルのファイルタイプと同一である。

本願の上記した実施例に係る方法は、検出すべきファイルのエントロピーベクトルを抽出し、且つ検出すべきファイルのエントロピーベクトルに基づいて、当該検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定する。従来技術において、悪質な脆弱性のあるファイルに対して検出削除の速度が遅く、検出削除の能力や効率が低いという問題を解決し、悪質な脆弱性のあるファイルへの検出削除効率を向上させる。

検出モデルを取得する方法の一実施例のフロー４００を示す図４を更に参照する。
図４に示されるように、ステップ４０１において、ファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得する。

本実施例において、ファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして任意に取得し、ここで、セキュリティカテゴリーが悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含む。ただし、上記したトレーニングファイルのセキュリティカテゴリーはほかの方法により確定されてもよく、本願は上記したトレーニングファイルのセキュリティカテゴリーを確定する具体的な方法を限定しないことが理解されるべきである。

続いて、ステップ４０２において、セキュリティカテゴリーに応じて上記したトレーニングファイルに対してセキュリティカテゴリーを標識する。
本実施例において、トレーニングファイルのセキュリティカテゴリーに応じて上した記トレーニングファイルを標識し、本実施例の一形態において、特殊の色でトレーニングファイルに対してセキュリティカテゴリーを標識してもよく、異なる色が異なるセキュリティカテゴリーを示す。本実施例の別の形態において、特殊な符号でトレーニングファイルに対してセキュリティカテゴリーを標識してもよく、異なる符号が異なるセキュリティカテゴリーを示す。ほかの方式により上記したトレーニングファイルに対してセキュリティカテゴリーを標識してもよく、本願はこの点について限定しないことが理解されるべきである。

次に、ステップ４０３において、上記したトレーニングファイルのエントロピーベクトルを確定する。
最終的に、ステップ４０４において、上記したトレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力する。

本実施例において、まず、上記したトレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて初期検出モデルを取得する。具体的には、まず、トレーニングファイルから一部のファイルを第１ファイルとして取得し、第１ファイルのエントロピーベクトルに対して特徴分類を行う。ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、サポートベクターマシン）アルゴリズムを利用して第１ファイルのエントロピーベクトルに対して特徴分類を行ってもよい。ほかの方式により第１ファイルのエントロピーベクトルに対して特徴分類を行ってもよく、本願は特徴分類に用いられる具体的な方式を限定しないことが理解されるべきである。次に、特徴分類の結果及び第１ファイルのセキュリティカテゴリー識別子に基づいて学習することによって初期検出モデルを取得する。

続いて、上記した初期検出モデルの誤判定率が所定閾値より小さいか否かをテストする。具体的には、トレーニングファイルのうち第１ファイルを含まない一部のファイルから複数のファイルを第２ファイル（第２ファイルに第１ファイルが含まれない）として取得し、初期検出モデル（テストすべき検出モデル）を利用して各第２ファイルのエントロピーベクトルを検出し、各第２ファイルのセキュリティカテゴリーを判定する。次に初期検出モデルによる判定結果を各第２ファイルのセキュリティカテゴリー識別子と比較する。初期検出モデルによる判定結果がある第２ファイルのセキュリティカテゴリー識別子に対応するセキュリティカテゴリーに合致する場合、当該判定結果は正確である。初期検出モデルによる判定結果がある第２ファイルのセキュリティカテゴリー識別子に対応するセキュリティカテゴリーに合致しない場合、当該判定結果は不正確である。判定結果にミスが発生する回数でテストの総回数を割って当該初期検出モデルの誤判定率を取得する。当該誤判定率を所定閾値と比較して誤判定率が所定閾値より小さいか否かを確定する。

次に、初期検出モデルの誤判定率が所定閾値以上で場合には、当該モデルの正確率が十分には高くないことを表すので、現在の検出モデルを補正するステップ及び補正後の検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップを繰り返す。具体的には、現在の検出モデルを補正するステップは、第１ファイルの数を増やして再学習することによって検出モデルを取得するステップ、及びエントロピーベクトルの次元数を調整して再学習することによって検出モデルを取得するステップのうちの少なくとも一つのステップを含んでもよい。

最終的に、補正後の検出モデルの誤判定率が所定閾値より小さく、つまり当該モデルの正確率が条件を満たすことに応じて、繰り返しを停止して補正後の検出モデルを出力する。

ただし、図面において特定の順序で本発明の方法の操作が説明されたが、当該特定の順序でそれらの操作を実行しなければ、或いは示された全ての操作を実行しなければ所望する結果を達成できないと要求又は示唆するわけではない。一方、フローチャートに記載のステップは実行順序が変更されてもよい。たとえば、図４のフロー４００において、まず、ステップ４０３を実行し、上記したトレーニングファイルのエントロピーベクトルを確定してから、ステップ４０２を実行し、セキュリティカテゴリーに応じて上記トレーニングファイルに対してセキュリティカテゴリーを標識してもよい。付加的または選択的には、あるステップを省略してもよく、複数のステップを１つのステップに合併して実行してもよく、及び／または１つのステップを複数のステップに分解して実行してもよい。

本願に係る悪質な脆弱性のあるファイルを検出する装置の一実施例の構成概略図を示す図５を更に参照する。
図５に示されるように、本実施例の装置５００は、取得手段５０１、確定手段５０２及び検出手段５０３を含む。取得手段５０１は検出すべきファイルを取得する。確定手段５０２は検出すべきファイルのエントロピーベクトルを確定する。検出手段５０３はトレーニングされた検出モデルを利用して検出すべきファイルのエントロピーベクトルを検出して、検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定する。検出すべきファイルのファイルタイプが検出モデルに対応するファイルタイプと同一である。

いくつかの代替的な実施形態において、ファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得するステップと、セキュリティカテゴリーに応じてトレーニングファイルに対してセキュリティカテゴリーを標識するステップと、トレーニングファイルのエントロピーベクトルを確定するステップと、トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力するステップと、によって検出モデルを取得し、ここで、セキュリティカテゴリーは悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含む。

いくつかの代替的な実施形態において、検出モデルをトレーニングして出力するステップにおいては、トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて初期検出モデルを取得するステップと、初期検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップと、初期検出モデルの誤判定率が所定閾値より小さくない場合に、現在の検出モデルを補正するステップ及び補正後の検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップを繰り返すステップと、補正後の検出モデルの誤判定率が所定閾値より小さいことに応じて、繰り返しを停止して補正後の検出モデルを出力するステップと、を含む。

いくつかの代替的な実施形態において、初期検出モデルを取得するステップにおいては、トレーニングファイルから一部のファイルを第１ファイルとして取得するステップと、第１ファイルのエントロピーベクトルに対して特徴分類を行うステップと、特徴分類の結果及び第１ファイルのセキュリティカテゴリー識別子に基づいて、学習して初期検出モデルを取得するステップとを含む。

いくつかの代替的な実施形態において、検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップにおいては、トレーニングファイルから一部のファイルを第２ファイルとして取得するステップと、テストすべき検出モデルを利用して第２ファイルのエントロピーベクトルを検出するステップと、検出結果及び第２ファイルのセキュリティカテゴリー識別子に基づいて誤判定率を確定するステップと、誤判定率を所定閾値と比較し、誤判定率が所定閾値より小さいか否かを確定するステップと、を含んでおり、ここで、第１ファイルが第２ファイルに含まれない。

いくつかの代替的な実施形態において、現在の検出モデルを補正するステップは、第１ファイルの数を増やして再学習することによって検出モデルを取得するステップ、及びエントロピーベクトルの次元数を調整して再学習することによって検出モデルを取得するステップのうちの少なくとも一つのステップを含む。

いくつかの代替的な実施形態において、確定手段は、ファイルを所定数のセグメントに分け、各セグメントのエントロピー値を取得し、セグメントの数をエントロピーベクトルの次元数とし、各セグメントが１つのエントロピーベクトルの方向に対応し、各セグメントのエントロピー値に基づいてファイルのエントロピーベクトルを確定するように構成される。

装置５００に記載の各手段またはモジュールは図１〜４を参照して説明される方法の各ステップに対応することが理解されるべきである。それにより、前述した方法に対して説明される操作及び特徴は装置５００及びそれに備えられた手段に同様に適用でき、ここで重複説明を省略する。装置５００は端末にあらかじめ設置されてもよく、ダウンロード等の方式により端末にロードされてもよい。ジェスチャー識別に用いられる案を達成するために、装置５００における相応の手段は端末の手段と協働してもよい。

本願に係る端末の一実施例の構成概略図を示す図６を更に参照する。
図６に示されるように、本実施例の端末６００は、少なくとも１つのプロセッサ６０１、たとえばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）、少なくとも１つの通信インターフェース６０２、少なくとも１つのユーザインターフェース６０３、メモリ６０４、及び少なくとも１つの通信バス６０５を含む。通信バス６０５は上記した部品同士の接続通信を達成する。任意で、端末６００は、ユーザインターフェース６０３、例えば表示ユニット、キーボード又はクリック装置（たとえば、マウス、トラックボール（ｔｒａｃｋｂａｌｌ）、タッチパネル又はタッチスクリーン）などを備えてもよい。メモリ６０４は高速ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）を含んでもよく、不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、たとえば、少なくとも１つのフレキシブルディスクメモリをさらに含んでもよい。メモリ６０４は上記したプロセッサ６０１から遠く離れる少なくとも１つの記憶装置を含んでもよい。

いくつかの実施形態において、メモリ６０４は、実行可能なモジュール又はデータ構造、又はそれらのサブセット、又はそれらの拡張セット、例えばオペレーティングシステム６１４、アプリケーションプログラム６２４が記憶される。

オペレーティングシステム６１４は、各種のシステムプログラムを含み、各種の基本的なサービスを実現してハードウェアに基づくタスクを処理する。
アプリケーションプログラム６２４は、各種のアプリケーションプログラムを含み、各種のアプリケーションサービスを実現する。

本実施例において、メモリ６０４はトレーニングされた検出モデルを記憶する。プロセッサ６０１は検出すべきファイルを取得し、検出すべきファイルのエントロピーベクトルを確定し、且つトレーニングされた検出モデルを利用して検出すべきファイルのエントロピーベクトルを検出して、検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定する。ここで、検出すべきファイルのファイルタイプが前記検出モデルに対応するファイルタイプと同一である。

更に、ファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得するステップと、セキュリティカテゴリーに応じてトレーニングファイルに対してセキュリティカテゴリーを標識するステップと、トレーニングファイルのエントロピーベクトルを確定するステップと、トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力するステップと、によって検出モデルを取得し、ここで、セキュリティカテゴリーが悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含む。

本願の実施例に記述された手段モジュールはソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記述された手段モジュールをプロセッサに設定してもよく、例えば、「取得手段、確定手段、及び検出手段を含むプロセッサ」と記述されてもよい。そのうち、それらの手段モジュールの名称はある場合に当該手段モジュール自体を限定するものではなく、例えば、取得手段は「検出すべきファイルを取得する手段」と呼ばれてもよい。

一方、本願はコンピュータ可読記憶媒体を更に提供し、当該コンピュータ可読記憶媒体は上記実施例の前記装置に含まれるコンピュータ可読記憶媒体であってもよく、独立に存在して、端末に組み立てされていないコンピュータ可読記憶媒体であってもよい。前記コンピュータ可読記憶媒体は、１つ以上のプロセッサが本願に記載の悪質な脆弱性のあるファイルを検出する方法を実行するための１つ以上のプログラムが記憶される。

以上の記述は本願の最適実施例及び使用された技術的原理の説明に過ぎない。当業者が理解すべきであることは、本願に係る発明の範囲は上記した技術的特徴の特定の組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記の技術的特徴または同等の特徴の任意の組合せからなる他の技術的解決手段も含むべきである。例えば、上記の特徴と本願に開示された（限定されていない）類似の機能を持っている技術的特徴を互いに置き換えてなる技術案が挙げられる。

Claims

検出すべきファイルを取得するステップと、
前記検出すべきファイルのエントロピーベクトルを確定するステップと、
トレーニングされた検出モデルを利用して前記検出すべきファイルのエントロピーベクトルを検出して前記検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定するステップと、を含んでおり、
前記検出すべきファイルのファイルタイプが前記検出モデルに対応するファイルタイプと同一であることを特徴とする、悪質な脆弱性のあるファイルを検出する方法。
ファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得するステップと、
前記セキュリティカテゴリーに応じて前記トレーニングファイルに対してセキュリティカテゴリーを標識するステップと、
前記トレーニングファイルのエントロピーベクトルを確定するステップと、
前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力するステップと、によって前記検出モデルを取得し、
ここで、前記セキュリティカテゴリーが悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含むことを特徴とする、請求項１に記載の方法。
前記の検出モデルをトレーニングして出力するステップにおいては、
前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて初期検出モデルを取得するステップと、
前記初期検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップと、
前記初期検出モデルの誤判定率が所定閾値より小さくない場合に、現在の検出モデルを補正するステップ及び補正後の検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップを繰り返すステップと、
補正後の検出モデルの誤判定率が所定閾値より小さいことに応じて、繰り返しを停止して前記補正後の検出モデルを出力するステップと、を含むことを特徴とする、請求項２に記載の方法。
前記の初期検出モデルを取得するステップにおいては、
前記トレーニングファイルから一部のファイルを第１ファイルとして取得するステップと、
前記第１ファイルのエントロピーベクトルに対して特徴分類を行うステップと、
前記特徴分類の結果及び前記第１ファイルのセキュリティカテゴリー識別子に基づいて、学習して初期検出モデルを取得するステップと、を含むことを特徴とする、請求項３に記載の方法。
検出モデルの誤判定率が所定閾値より小さいか否かをテストするステップにおいては、
前記トレーニングファイルから一部のファイルを第２ファイルとして取得するステップと、
テストすべき検出モデルを利用して前記第２ファイルのエントロピーベクトルを検出するステップと、
検出結果及び前記第２ファイルのセキュリティカテゴリー識別子に基づいて誤判定率を確定するステップと、
前記誤判定率を前記所定閾値と比較し、前記誤判定率が所定閾値より小さいか否かを確定するステップと、を含んでおり、
ここで、前記第１ファイルが前記第２ファイルに含まれないことを特徴とする、請求項４に記載の方法。
前記の現在の検出モデルを補正するステップは、
第１ファイルの数を増やして再学習することによって検出モデルを取得するステップ、及び
エントロピーベクトルの次元数を調整して再学習することによって検出モデルを取得するステップのうちの少なくとも一つのステップを含むことを特徴とする、請求項５に記載の方法。
ファイルを所定数のセグメントに分けるステップと、
各前記セグメントのエントロピー値を取得するステップと、
前記セグメントの数をエントロピーベクトルの次元数とし、各前記セグメントが１つのエントロピーベクトルの方向に対応し、各前記セグメントのエントロピー値に基づいてファイルのエントロピーベクトルを確定するステップと、によってファイルのエントロピーベクトルを確定することを特徴とする、請求項１〜６のいずれかに記載の方法。
検出すべきファイルを取得する取得手段と、
前記検出すべきファイルのエントロピーベクトルを確定する確定手段と、
トレーニングされた検出モデルを利用して前記検出すべきファイルのエントロピーベクトルを検出して前記検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定する検出手段と、を備えており、
ここで、前記検出すべきファイルのファイルタイプが前記検出モデルに対応するファイルタイプと同一であることを特徴とする、悪質な脆弱性のあるファイルを検出する装置。
ファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得するステップと、
前記セキュリティカテゴリーに応じて前記トレーニングファイルに対してセキュリティカテゴリーを標識するステップと、
前記トレーニングファイルのエントロピーベクトルを確定するステップと、
前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力するステップと、によって前記検出モデルを取得し、
ここで、前記セキュリティカテゴリーが悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含むことを特徴とする、請求項８に記載の装置。
前記確定手段は
ファイルを所定数のセグメントに分け、
各前記セグメントのエントロピー値を取得し、
前記セグメントの数をエントロピーベクトルの次元数とし、各前記セグメントが１つのエントロピーベクトルの方向に対応し、各前記セグメントのエントロピー値に基づいてファイルのエントロピーベクトルを確定するように構成されることを特徴とする、請求項８または９に記載の装置。
トレーニングされた検出モデルを記憶するメモリと、
検出すべきファイルを取得し、前記検出すべきファイルのエントロピーベクトルを確定し、且つトレーニングされた検出モデルを利用して前記検出すべきファイルのエントロピーベクトルを検出して前記検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定するプロセッサと、を備えており、
ここで、前記検出すべきファイルのファイルタイプが前記検出モデルに対応するファイルタイプと同一であることを特徴とする、端末。
ファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得するステップと、
前記セキュリティカテゴリーに応じて前記トレーニングファイルに対してセキュリティカテゴリーを標識するステップと、
前記トレーニングファイルのエントロピーベクトルを確定するステップと、
前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力するステップと、によって前記検出モデルを取得し、
ここで、前記セキュリティカテゴリーが悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含むことを特徴とする、請求項１１に記載の端末。
不揮発性のコンピュータ記憶媒体であって、コンピュータ可読命令を記憶しており、前記コンピュータ可読命令がプロセッサにより実行される場合に、前記プロセッサは、
検出すべきファイルを取得し、
前記検出すべきファイルのエントロピーベクトルを確定し、
トレーニングされた検出モデルを利用して前記検出すべきファイルのエントロピーベクトルを検出して前記検出すべきファイルが悪質な脆弱性のあるファイルであるか否かを確定するように操作可能であり、
前記検出すべきファイルのファイルタイプが前記検出モデルに対応するファイルタイプと同一であることを特徴とする、不揮発性のコンピュータ記憶媒体。
前記検出モデルを取得するように、前記プロセッサはファイルタイプが同一で且つセキュリティカテゴリーが既知の複数のファイルをトレーニングファイルとして取得し、
前記セキュリティカテゴリーに応じて前記トレーニングファイルに対してセキュリティカテゴリーを標識し、
前記トレーニングファイルのエントロピーベクトルを確定し、
前記トレーニングファイルのエントロピーベクトル及びセキュリティカテゴリー識別子に基づいて検出モデルをトレーニングして出力するように操作可能であり、
ここで、前記セキュリティカテゴリーが悪質な脆弱性のあるファイルカテゴリー及び悪質な脆弱性のないファイルカテゴリーを含むことを特徴とする、不揮発性のコンピュータ記憶媒体。