JP2017102566A - 不正ファイル検知装置、不正ファイル検知方法、および、不正ファイル検知プログラム - Google Patents

不正ファイル検知装置、不正ファイル検知方法、および、不正ファイル検知プログラム Download PDF

Info

Publication number
JP2017102566A
JP2017102566A JP2015233555A JP2015233555A JP2017102566A JP 2017102566 A JP2017102566 A JP 2017102566A JP 2015233555 A JP2015233555 A JP 2015233555A JP 2015233555 A JP2015233555 A JP 2015233555A JP 2017102566 A JP2017102566 A JP 2017102566A
Authority
JP
Japan
Prior art keywords
file
comparison
comparison source
section
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015233555A
Other languages
English (en)
Inventor
慎也 高田
Shinya Takada
慎也 高田
敏浩 元田
Toshihiro Motoda
敏浩 元田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015233555A priority Critical patent/JP2017102566A/ja
Publication of JP2017102566A publication Critical patent/JP2017102566A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利用者端末内のファイルについて効率よく不正ファイルの検知を行う。【解決手段】利用者端末2は、利用者端末2内のファイルを比較元ファイルとして区間に分割する区間分割部23と、分割された比較元ファイルの区間ごとのエントロピー値である比較元区間特徴量を算出する区間特徴量算出部24と、比較先ファイルである正当なファイルの区間ごとのエントロピー値を比較先区間特徴量として保持する特徴量リスト記憶部203と、比較先区間特徴量および比較元区間特徴量それぞれに対し、DPマッチングによる補正を行う補正部25と、補正が行われた比較元区間特徴量と比較先区間特徴量との差分の各区間での平均値を算出し、算出した平均値が所定の閾値以下の場合、比較元ファイルが比較先ファイルと類似すると判定し、当該比較元ファイルを不正ファイルとして検知しない判定部26とを備える。【選択図】図3

Description

本発明は、不正ファイル検知装置、不正ファイル検知方法、および、不正ファイル検知プログラムに関する。
利用者端末内に存在する不正ファイルを検知する手法としては、いわゆるウィルススキャンソフトが知られている。このウィルススキャンソフトでは、特徴量リスト配布サーバが定期的に利用者端末に不正ファイルの特徴量リスト(この場合、不正ファイルのハッシュ値群のブラックリスト。ソフトによっては、ウィルス定義データベースと呼称したり、パターンファイルと呼称したりする)を配布する。そして、利用者端末内の不正ファイル検知機能は、例えば、定期または不定期に利用者端末内に含まれるファイルの部分ハッシュ値を計算し、この部分ハッシュ値と特徴量リストを比較し、一致した場合に当該ファイルを不正ファイルとして検疫(退避)または削除する。
また、利用者端末内に含まれるファイル群をサーバに送信し、サーバ側で当該ファイル群と不正ファイルそれぞれについて区間ごとのエントロピー値群を計算し、区間ごとのエントロピー値群のDP(Dynamic Programming)マッチング処理を行ってから比較し、不正ファイルとの類似度を評価する技術がある(非特許文献1参照)。
高田慎也他、情報処理学会第77回全国大会、「エントロピーとDP Matchingを用いたファイル類似度評価システムに関する考察」、情報処理学会、2015年
ここで、ウィルススキャンソフトは、特徴量リストを用いて不正ファイルの検知を行うので、まだ特徴量リストに載っていない不正ファイル(早期発生不正ファイル)については検知できないおそれがある。また、ウィルススキャンソフトの場合、部分マッチングとはいえ、エグザクトマッチであるため利用者端末内の特徴量リストを高頻度で更新する必要がある。
また、非特許文献1に記載の技術は、利用者端末のファイルと不正ファイルとの比較をサーバ側で行うため、利用者端末内の特徴量リストの更新の必要はないものの、利用者端末からサーバへ検知対象のファイル(または当該ファイルの特徴量)を送信する必要がある。そのため、利用者端末内のファイル(例えば、百万オーダの大量のファイル)について効率よく不正ファイルの検知をできないという問題がある。そこで、本発明は、前記した問題を解決し、利用者端末内のファイルについて効率よく不正ファイルの検知を行うことを課題とする。
前記した課題を解決するため、本発明は、利用者端末内のファイルを比較元ファイルとして区間に分割する区間分割部と、分割された前記比較元ファイルの区間ごとのエントロピー値である比較元区間特徴量を算出する区間特徴量算出部と、比較先ファイルである正当なファイルの区間ごとのエントロピー値を比較先区間特徴量として保持する特徴量リスト記憶部と、前記比較先区間特徴量および前記比較元区間特徴量それぞれに対し、DP(Dynamic Programming)マッチングによる補正を行う補正部と、補正が行われた前記比較元区間特徴量と前記比較先区間特徴量とを比較することにより、前記比較元ファイルが前記比較先ファイルと類似しているか否かを判定し、前記比較元ファイルが前記比較先ファイルと類似していると判定した場合、前記比較元ファイルを正当なファイルと判定する判定部と、を備えることを特徴とする。
本発明によれば、利用者端末内のファイルについて効率よく不正ファイルの検知を行うことができる。
図1は、不正ファイル検知システムの構成の一例を示す図である。 図2は、特徴量リスト配信装置の構成を説明するための図である。 図3は、利用者端末の構成を説明するための図である。 図4は、システムの処理手順の一例を示すフローチャートである。 図5は、システムの処理手順の一例を示すフローチャートである。 図6は、利用者端末の構成を説明するための図である。 図7は、バージョンの異なる2つの実行ファイル(アドビ社のAcroRd32.exeファイルのバージョン11.0.0およびバージョン11.0.05)の区間ごとのエントロピー値の分布を示すグラフである。
以下、図面を参照しながら、本発明を実施するための形態(実施形態)を第1の実施形態〜第3の実施形態に分けて説明する。なお、本発明は各実施形態に限定されない。
まず、各実施形態における、ファイルのエントロピー値を用いたファイル間の類似度の算出方法を説明する。
ファイルのエントロピー値の算出は順序性を考慮しない場合には式(1)により行われる。順序性を考慮する場合には式(2)により行われる。以下、順序性を考慮したエントロピー値は、M1エントロピーと呼ぶ。式(1)および(2)において、Piは対象ファイルの中で値がiとなる確率である。
Figure 2017102566
このようにファイルのエントロピー値により類似度を評価することで、例えば、ファイルに対して意図的に変更を加えて検知を逃れるタイプのマルウェアやアンチフォレンジック手法が用いられた場合でもこれを検知しやすくなる。
(第1の実施形態)
(構成)
図1を参照して、第1の実施形態の不正ファイル検知システム(システム)の構成例を説明する。システムは、1以上の利用者端末(不正ファイル検知装置)2と、特徴量リスト配信装置3とを含む。利用者端末2と特徴量リスト配信装置3はネットワーク4に接続される。ネットワーク4は、接続される各装置が相互に通信可能なように構成されていればよく、例えばインターネットやLAN(Local Area Network)、WAN(Wide Area Network)等で構成することができる。なお、各装置は必ずしもネットワーク4を介してオンラインで通信可能である必要はない。例えば、利用者端末2の出力する情報を磁気テープやUSB(Universal Serial Bus)メモリ等の可搬型記録媒体に記憶し、その可搬型記録媒体からオフラインで特徴量リスト配信装置3へ入力するように構成してもよい。
図2を参照して、特徴量リスト配信装置3の構成例を説明する。特徴量リスト配信装置3は、制御部301と、メモリ302と、特徴量リスト記憶部31と、特徴量リスト送信部32とを備える。特徴量リスト配信装置3は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)等を有するコンピュータにより実現される。
制御部301は、特徴量リスト配信装置3全体の制御を司る。メモリ302は、特徴量リスト配信装置3に入力されたデータや各処理で得られたデータが格納される。このメモリ302に格納されたデータは必要に応じて読み出されて他の処理に利用される。
特徴量リスト記憶部31は、特徴量リストを記憶する。この特徴量リストは、各比較先ファイルの区間ごとのエントロピー値(比較先区間特徴量)を示したリストである。なお、以下では、比較先ファイルが不正ファイルではないファイル(正当なファイル)であり、特徴量リストは、正当なファイルごとに、当該正当なファイルの区間ごとのエントロピー値(比較先区間特徴量)を示したリスト(ホワイトリスト)である場合を例に説明するが、これに限定されない。つまり、比較先ファイルを不正ファイルとし、不正ファイルごとに、当該ファイルの区間ごとのエントロピー値(比較先区間特徴量)を示したリスト(ブラックリスト)であってもよい。特徴量リストがブラックリストである場合の実施形態については後記する。なお、以下の説明において、上記のホワイトリストの特徴量リストを用いた比較元ファイルが正当なファイルか否かの判定と、ブラックリストの特徴量リストを用いた比較元ファイルが不正ファイルか否かの判定とを総称して、適宜、「不正ファイルの検知」と表記する。
特徴量リスト送信部32は、各利用者端末2に特徴量リストを送信(配信)する。
なお、特徴量リスト配信装置3は、各比較先ファイル(例えば、正当なファイル)の入力を受け付けると、当該比較先ファイルを複数の区間に分割し、当該比較先ファイルの区間ごとのエントロピー値(比較先区間特徴量)を算出する手段をさらに備えていてもよい。
次に、図3を参照して、利用者端末2の構成例を説明する。利用者端末2は、制御部201と、メモリ202と、特徴量リスト記憶部203と、ファイル記憶部204と、特徴量リスト受信部21と、特徴量リスト更新部22と、区間分割部23と、区間特徴量算出部24と、補正部25と、ファイル退避部27と、判定部26と、表示部28とを備える。全体特徴量算出部29、全体類似度評価部30は装備される場合と装備されない場合とがあり、装備される場合については後記する。利用者端末2は、例えば、CPU、RAM等を有するコンピュータにより実現される。
制御部201は、利用者端末2全体の制御を司る。メモリ202は、利用者端末2に入力されたデータや各処理で得られたデータが格納される。このメモリ202に格納されたデータは必要に応じて読み出されて他の処理に利用される。
特徴量リスト記憶部203は、特徴量リスト配信装置3から送信された特徴量リストを記憶する。ファイル記憶部204は2以上のファイルが記憶されている。特徴量リスト記憶部203およびファイル記憶部204は、例えば、RAM等の主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ等の半導体メモリ素子により構成される補助記憶装置等により構成することができる。
特徴量リスト受信部21は、特徴量リスト配信装置3から特徴量リストを受信する。特徴量リスト更新部22は、特徴量リスト受信部21で受信した特徴量リストを用いて、特徴量リスト記憶部203の特徴量リストを更新する。
区間分割部23は、ファイル記憶部204に記憶されたファイル(比較元ファイル)を複数の区間に分割し、比較元分割ファイルを生成する。例えば、区間分割部23は、ファイル記憶部204のファイルが実行されるタイミングで、当該ファイルを所定サイズ(例えば、10Kバイト)ごとに区間に分割し、比較元分割ファイルを生成する。分割点は、特徴量リスト配信装置3で保持する特徴量リストにおける比較先ファイルと必ずしも一致している必要はなく、どちらかのファイルの波形に直線外挿することで比較する。
区間特徴量算出部24は、比較元分割ファイルの区間ごとの所定のエントロピー値を示す比較元区間特徴量を生成する。ここでのエントロピー値の算出は、例えば、前記した式(1)または式(2)を用いる。
補正部25は、比較元区間特徴量および特徴量リスト記憶部203に記憶された比較先区間特徴量に対し、DPマッチングを適用した補正を行う。例えば、比較元区間特徴量が以下の式(3)に示すX(x,x,…,x)であり、比較先区間特徴量が以下の式(3)に示すY(y,y,…,y)であるとする。なお、x,x,…,xは比較元ファイルの各区間のエントロピー値であり、y,y,…,yは比較先ファイルの各区間のエントロピー値である。
Figure 2017102566
補正部25は、以下の式(4)により上記のXとYとの距離D(X,Y)をできるだけ小さくするようにX,Yの補正を行う。このように、補正部25が比較元区間特徴量および比較先区間特徴量についてDPマッチングによる補正を行うことで、比較元区間特徴量と比較先区間特徴量の対応付け(整列化)を行うことができる。これにより、特徴量リスト配信装置3は、例えば、比較対象のファイルの区間ごとのエントロピー値の分布のパターン(波形)がずれている場合(図7参照)であっても、ファイル間の類似度を精度よく評価することができる。
Figure 2017102566
判定部26は、補正が行われた比較元区間特徴量と比較先区間特徴量とを区間ごとに比較することにより比較元ファイルと比較先ファイルとの類似度を評価する。ここでの類似度の評価は、例えば、以下の式(5)により、比較元区間特徴量に含まれる区間ごとのエントロピー値と、比較先区間特徴量に含まれる区間ごとのエントロピー値との差をそれぞれ算出し、その平均を算出することにより行われる。
Figure 2017102566
なお、式(5)におけるnは区間の総数であり、H1は比較元ファイルの区間iのエントロピー値であり、H2は比較先ファイルの区間iのエントロピー値である。
そして、判定部26は、式(5)で算出した平均(D)を所定の閾値と比較することにより比較元ファイルが比較先ファイル(正当なファイル)と類似しているか否かの判定を行う。例えば、判定部26は、式(5)で算出した平均(D)が所定の閾値を超える場合、比較元ファイルについて比較先ファイル(正当なファイル)と類似していないと判定する。そして、判定部26は、当該比較元ファイルを不正ファイルとして検知し、比較元ファイルの実行を許可せず、当該比較元ファイルを退避するようファイル退避部27を呼び出す。一方、判定部26は、判定の結果、式(5)で算出した平均(D)が所定の閾値以下の場合、比較元ファイルについて比較先ファイル(正当なファイル)と類似していると判定し、当該比較元ファイルを正当なファイルと判定する。そして、判定部26は、当該比較元ファイルを不正ファイルとして検知せず、当該比較元ファイルの実行を許可する。
ファイル退避部27は、ファイルを退避させる。例えば、ファイル退避部27は、判定部26により不正ファイルとして検知された比較元ファイルを記憶部(図示省略)の所定領域に退避させる。また、ファイル退避部27はファイルの退避に代えて当該ファイルの削除を行ってもよい。
表示部28は、判定部26による判定の結果(比較元ファイルが不正ファイルか否か)を画面等に表示する。例えば、表示部28は、利用者端末2に接続されたディスプレイ等に判定部26による判定の結果を表示する。表示の方法はどのような方法であってもよい。例えば、表示部28は、判定の結果を、利用者端末2のディスプレイに整形して表示してもよいし、利用者端末2に設定された所定のプリンタへあらかじめ定めた書式で出力してもよい。
(処理手順)
次に、図4を参照して、システムの処理手順の例を説明する。なお、利用者端末2は、予め、特徴量リスト配信装置3から特徴量リストを受信し、受信した特徴量リストを特徴量リスト記憶部203に記憶しているものとする。
まず、利用者端末2の制御部201がファイル記憶部204のファイルの実行を検知すると(S11でYes)、区間分割部23は、当該ファイル(比較元ファイル)を複数の区間に分割する(S12:当該ファイルを区間分割)。一方、制御部201がファイル記憶部204のファイルの実行を検知しなかった場合(S11でNo)、S11へ戻る。
S12の後、区間特徴量算出部24は、当該比較元ファイルの区間ごとに所定のエントロピー値(比較元区間特徴量)を算出する(S13:区間ごとの特徴量を算出)。算出するエントロピー値は、例えば、上記の式(1)で算出されるエントロピー値でもよいし、上記の式(2)で算出されるM1エントロピー値でもよい。
S13の後、補正部25は、比較元区間特徴量および特徴量リスト記憶部203に記憶される比較先区間特徴量それぞれに対し、DPマッチングによる補正を行う(S14)。例えば、比較元区間特徴量が式(3)に示すX(x,x,…,x)であり、比較先区間特徴量が式(3)に示すY(y,y,…,y)であるとすると、補正部25は、式(4)によりXとYとの距離D(X,Y)をできるだけ小さくするようにX(x,x,…,x)およびY(y,y,…,y)の補正を行う。
S14の後、判定部26は、補正後の区間特徴量の差の平均(D)が所定の閾値以下か否かを判定する(S15)。つまり、判定部26は、式(5)を用いて、補正後の比較元区間特徴量に含まれる区間ごとのエントロピー値と、補正後の比較先区間特徴量に含まれる区間ごとのエントロピー値との差をそれぞれ算出し、その差の平均(D)を求める。そして、判定部26は、補正後の区間特徴量の差の平均(D)が所定の閾値を超える場合(S15でNo)、比較元ファイルの実行を許可せず(S16)、ファイル退避部27を呼び出し、ファイル退避部27は当該ファイル(比較元ファイル)の退避を行う(S17)。つまり、判定部26は、補正後の区間特徴量の差の平均(D)が所定の閾値を超えていれば、比較元ファイルについて比較先ファイル(正当なファイル)に類似していないと判定し、比較元ファイルを不正ファイルとして検知する。そして、当該比較元ファイルを退避させる。
一方、判定部26は、補正後の区間特徴量の差の平均(D)が所定の閾値以下の場合(S15でYes)、比較元ファイルの実行を許可する(S18)。つまり、判定部26は、補正後の区間特徴量の差の平均(D)が所定の閾値以下の場合、比較元ファイルについて比較先ファイル(正当なファイル)に類似していると判定し、当該比較元ファイルを正当なファイルと判定する。そして、判定部26は、比較元ファイルを不正ファイルとして検知せず、当該比較元ファイルの実行を許可する。
このようなシステムによれば、例えば、比較先ファイル(例えば、正当なファイル)と比較元ファイルとで区間ごとのエントロピー値の分布のパターン(波形)がずれている場合であっても、両者が類似しているか否かを精度よく判定することができる。
つまり、このようなシステムによれば、利用者端末2内の不正ファイルまたはその派生ファイルを精度よく検知することができる。その結果、利用者端末2において、早期発生不正ファイルについても検知しやすくなる。また、利用者端末2は、従来のウィルススキャンソフトのように完全一致の特徴量リストは必ずしも必要ではないため、従来のウィルススキャンソフトのように特徴量リストを頻繁に更新する必要がない。
さらに、このようなシステムによれば、不正ファイルの検知を利用者端末2に閉じて行うことができるため、例えば、非特許文献1に記載の技術のように、不正ファイルの検知に必要なデータをサーバと頻繁に送受信する必要がない。これにより、利用者端末2内の大量の(例えば、百万オーダの)ファイルについて、効率的に不正ファイルの検知を行うことができる。また、システムは、不正ファイルの検知の際、エントロピー値の計算とDPマッチングの計算とを行っているが、この計算は、例えば、従来のウィルススキャンソフトで用いられているハッシュ値の計算よりも処理負荷が低いため、高速に不正ファイルの検知を行うことができる。
なお、前記したシステムにおける特徴量リストは、正当なファイルごとに、当該正当なファイルの区間ごとのエントロピー値(比較先区間特徴量)を示したリスト(ホワイトリスト)である場合を例に説明したが、当該特徴量リストは、不正ファイルごとに、当該不正ファイルの区間ごとのエントロピー値(比較先区間特徴量)を示したリスト(ブラックリスト)であってもよい。
また、特徴量リストとして上記のブラックリストを用いる場合、判定部26は、補正部25による補正後の区間特徴量の差の平均(D)が所定の閾値を超えるとき、比較元ファイルが比較先ファイル(不正ファイル)に類似していないと判定する。そして、判定部26は、当該比較元ファイルを不正ファイルとして検知せず、当該比較元ファイルの実行を許可する。また、判定部26は、補正部25による補正後の区間特徴量の平均(D)が所定の閾値以下のとき、比較元ファイルについて比較先ファイル(不正ファイル)に類似していると判定する。そして、判定部26は、比較元ファイルの実行を許可せず、比較元ファイルを不正ファイルとして検知する。そして、判定部26は、当該比較元ファイルを退避させる。
このようにすることでも、システムは、利用者端末2内の不正ファイル(またはその派生ファイル)を検知することができる。
また、前記した実施形態では、利用者端末2の制御部201が、ファイル記憶部204のファイルの実行を検知したとき、不正ファイルの検知処理を行うこととしたが、これに限定されない。例えば、制御部201は、定期的または不定期に、ファイル記憶部204内のファイルを抽出し、不正ファイルの検知処理を行うこととしてもよい。
この場合の処理手順を、図5を用いて説明する。なお、比較先ファイルは正当なファイルであり、特徴量リストは、正当なファイルごとに、当該ファイルの区間ごとのエントロピー値(比較先区間特徴量)を示したリスト(ホワイトリスト)である場合を例に説明する。
例えば、利用者端末2の制御部201はファイル記憶部204のファイルを抽出し(S21)、抽出したファイル(比較元ファイル)に対し、S22〜S24の処理を行う。このS22〜S24の処理は、前記した図4のS12〜S14の処理と同様なので説明を省略する。
S24の後、判定部26は、補正後の区間特徴量の差の平均(D)が所定の閾値以下か否かを判定し(S25)、補正後の区間特徴量の差の平均(D)が所定の閾値を超えていれば(S25でNo)、ファイル退避部27を呼び出し、ファイル退避部27は当該ファイル(比較元ファイル)の退避を行う(S26)。つまり、判定部26は、補正後の区間特徴量の差の平均(D)が所定の閾値を超えていれば、比較元ファイルについて比較先ファイル(正当なファイル)に類似していないと判定し、比較元ファイルを不正ファイルとして検知する。そして、判定部26は、ファイル退避部27により当該比較元ファイルを退避させる。
一方、判定部26は、補正後の区間特徴量の差の平均(D)が所定の閾値以下の場合(S25でYes)、比較元ファイルについて比較先ファイル(正当なファイル)に類似していると判定し、S26の処理を実行しない。そして、判定部26は、ファイル記憶部204のすべてのファイルを抽出したか否かを判定し(S27)、まだ抽出していないファイルがあれば(S27でNo)、S21へ戻り、制御部201はファイル記憶部204から未抽出のファイルを抽出する。一方、判定部26は、ファイル記憶部204のすべてのファイルを抽出済みと判定した場合(S27でYes)、処理を終了する。
利用者端末2は上記のS21〜S27の処理を定期的または不定期に実行する。このようにすることでも、システムは利用者端末2内の不正ファイル(またはその派生ファイル)を検知することができる。
なお、上記のフローにおいて、特徴量リストとして上記のブラックリストを用いる場合、判定部26は、補正部25による補正後の区間特徴量の平均(D)が所定の閾値を超えるとき、比較元ファイルが比較先ファイル(不正ファイル)に類似していないと判定する。そして、判定部26は、当該比較元ファイルを不正ファイルとして検知しない。また、判定部26は、補正部25による補正後の区間特徴量の平均(D)が所定の閾値以下のとき、比較元ファイルが比較先ファイル(不正ファイル)に類似していると判定する。そして、判定部26は、当該比較元ファイルを不正ファイルとして検知し、ファイル退避部27を呼び出し、ファイル退避部27は当該比較元ファイルの退避を行う。
このようにすることでも、システムは、利用者端末2内の不正ファイル(またはその派生ファイル)を検知することができる。
(第2の実施形態)
次に図6を用いて、第2の実施形態のシステムを説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。
第2の実施形態のシステムの利用者端末2aは、図6に示すように、制御部201と、メモリ202と、実行形式ファイル群記憶部2041と、オープン対象ファイル群記憶部2042と、ファイルシステム207と、不正ファイル検知部20と、表示部28とを備える。実行形式ファイル群記憶部2041は、実行形式ファイル群を記憶する。オープン対象ファイル群記憶部2042は、実行形式ファイル群によるアクセス対象のファイル群を記憶する。ファイルシステム207は、オープン対象ファイル群記憶部2042のファイル群へのアクセスを管理する。破線で示す全体特徴量算出部29、全体類似度評価部30については装備される場合と、装備されない場合とがあり、装備される場合については後記する。
不正ファイル検知部20は、特徴量リスト受信部21と、特徴量リスト更新部22と、区間分割部23と、区間特徴量算出部24と、補正部25と、判定部26と、特徴量リスト記憶部203とを備える。
不正ファイル検知部20は、実行形式ファイル群記憶部2041のファイルがメモリ202上に展開され、ファイルシステム207経由でオープン対象ファイル群記憶部2042のファイルにアクセスしようとしたとき、当該アクセスのI/Oをトリガとしてメモリ202上に展開されたファイルが比較先ファイル(例えば、正当なファイル)と類似しているか否かの判定を行う。
そして、不正ファイル検知部20が当該ファイルについて比較先ファイル(例えば、正当なファイル)と類似していないと判定した場合、当該ファイルのオープン対象ファイル群記憶部2042のファイルへのアクセスを許可しない。一方、不正ファイル検知部20が当該ファイルについて比較先ファイル(例えば、正当なファイル)と類似していると判定した場合、当該ファイルのオープン対象ファイル群記憶部2042のファイルへのアクセスを許可する。
つまり、区間分割部23は、メモリ202上に実行形式ファイル群記憶部2041のファイルが展開されると、当該ファイル(比較元ファイル)を複数の区間に分割する。そして、区間特徴量算出部24は、当該比較元ファイルの区間特徴量(比較元区間特徴量)を算出し、補正部25は、比較元区間特徴量および特徴量リスト記憶部203に記憶された比較先区間特徴量に対し、DPマッチングを適用した補正を行う。その後、判定部26は、補正後の比較元区間特徴量および比較先区間特徴量に基づき、比較元ファイルについて比較先ファイル(例えば、正当なファイル)と類似していないと判定した場合、当該比較元ファイルのオープン対象ファイル群記憶部2042のファイルへのアクセスを許可しない。一方、判定部26が比較元ファイルについて比較先ファイル(例えば、正当なファイル)と類似していると判定した場合、オープン対象ファイル群記憶部2042のファイルへのアクセスを許可する。
このようにすることで、利用者端末2aは、実行形式ファイル群記憶部2041の正当なファイルに、オープン対象ファイル群記憶部2042のファイルにアクセスさせ、正当ではないファイル(不正ファイルである可能性の高いファイル)に、オープン対象ファイル群記憶部2042のファイルにアクセスさせないようにできる。
なお、上記の場合も、特徴量リストとして上記のブラックリストを用いてよい。この場合、判定部26は、補正後の比較元区間特徴量および比較先区間特徴量に基づき、比較元ファイルについて比較先ファイル(不正ファイル)と類似していないと判定したとき、判定部26は、当該比較元ファイルを不正ファイルとして検知しない。そして、判定部26は、当該比較元ファイルのオープン対象ファイル群記憶部2042のファイルへのアクセスを許可する。また、判定部26は、補正後の比較元区間特徴量および比較先区間特徴量に基づき、比較元ファイルについて比較先ファイル(不正ファイル)と類似していると判定したとき、判定部26は、当該比較元ファイルを不正ファイルとして検知する。そして、判定部26は、当該比較元ファイルを不正ファイルとして検知し、ファイル退避部27を呼び出し、ファイル退避部27は当該比較元ファイルの退避を行う。
(第3の実施形態)
次に図3を用いて、第3の実施形態のシステムを説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第3の実施形態のシステムは、特徴量リスト配信装置3bと、1以上の利用者端末2bとを備える(図1参照)。
この利用者端末2bは、比較先ファイル(例えば、正当なファイル)全体の特徴量(比較先全体特徴量)を用いて、ファイル記憶部204のファイル(比較元ファイル)がファイル全体として比較先ファイルと類似しているか否かを判定する。そして、利用者端末2bが、ファイル記憶部204のファイル(比較元ファイル)についてファイル全体として比較先ファイルと類似していると判定した場合、比較先ファイルおよび比較元ファイルそれぞれの区間特徴量を用いて、不正ファイルの検知を行う。
このような特徴量リスト配信装置3bは、特徴量リストして、各比較先ファイル(例えば、正当なファイル)の区間ごとのエントロピー値(比較先区間特徴量)を示したリストの他に、各比較先ファイルのファイル全体のエントロピー値(比較先全体特徴量)を示したリストを利用者端末2bへ送信する。
つまり、利用者端末2bの特徴量リスト受信部21は、特徴量リストして、各比較先ファイル(例えば、正当なファイル)の区間ごとのエントロピー値(比較先区間特徴量)を示したリストの他に、各比較先ファイルのファイル全体のエントロピー値(比較先全体特徴量)を示したリストを受信する。そして、特徴量リスト更新部22は、当該特徴量リストを用いて特徴量リスト記憶部203の特徴量リストを更新する。
また、利用者端末2bは、破線で示す全体特徴量算出部29と、全体類似度評価部30とを備える。
全体特徴量算出部29は、ファイル記憶部204のファイル(比較元ファイル)のファイル全体から所定のエントロピー値を算出し、比較元全体特徴量を生成する。ここでのエントロピー値の算出も、例えば、前記した式(1)または式(2)を用いる。
全体類似度評価部30は、比較元全体特徴量と、特徴量リスト記憶部203に記憶される比較先全体特徴量からファイル全体としての類似度(全体類似度)を算出する。そして、全体類似度評価部30は、算出した全体類似度を所定の閾値と比較することにより、ファイル全体として、ファイル記憶部204のファイル(比較元ファイル)が比較先ファイルと類似しているか否かの判定を行う。
例えば、比較先全体特徴量が正当なファイルの全体特徴量(ホワイトリスト)である場合、全体類似度評価部30は、算出した全体類似度が所定の閾値以下のときに、比較元ファイルがファイル全体として、正当なファイルと類似していると判定する。また、比較先全体特徴量が不正ファイルの全体特徴量(ブラックリスト)である場合、全体類似度評価部30は、算出した全体類似度が所定の閾値以下のときに、比較元ファイルがファイル全体として、不正ファイルと類似していると判定する。
全体類似度は、例えば、ファイル全体のエントロピー値とファイルサイズから式(6)により算出してもよい。式(6)における、Eは比較元ファイルの重み付きエントロピー値であり、Eは比較先ファイルの重み付きエントロピー値であり、Sは比較元ファイルのファイルサイズであり、Sは比較先ファイルのファイルサイズである。
Figure 2017102566
そして、全体類似度評価部30において、ファイル記憶部204のファイル(比較元ファイル)が、ファイル全体として正当なファイルと類似していると判定された場合、利用者端末2bは、区間特徴量を用いて当該比較元ファイルが正当なファイルであるか否かの判定を行う。すなわち、区間分割部23による当該比較元ファイルの区間分割、区間特徴量算出部24による当該比較元ファイルの区間特徴量の算出、補正部25による比較元ファイルおよび比較先ファイルの区間特徴量に対する、DPマッチングを適用した補正、および、判定部26による正当なファイルか否かの判定を行う。一方、全体類似度評価部30において、ファイル記憶部204のファイル(比較元ファイル)がファイル全体として正当なファイルと類似していないと判定された場合、利用者端末2bは、区間特徴量を用いた当該比較元ファイルが正当なファイルであるか否かの判定を行わない。
また、全体類似度評価部30において、ファイル記憶部204のファイル(比較元ファイル)が、ファイル全体として不正ファイルと類似していると判定された場合、利用者端末2bは、区間特徴量を用いて当該比較元ファイルが不正ファイルであるか否かの判定を行う。すなわち、区間分割部23による当該比較元ファイルの区間分割、区間特徴量算出部24による当該比較元ファイルの区間特徴量の算出、補正部25による比較元ファイルおよび比較先ファイルの区間特徴量に対する、DPマッチングを適用した補正、および、判定部26による不正ファイルか否かの判定を行う。一方、全体類似度評価部30において、ファイル記憶部204のファイル(比較元ファイル)がファイル全体として不正ファイルと類似していないと判定された場合、利用者端末2bは、区間特徴量を用いた当該比較元ファイルが不正ファイルであるか否かの判定を行わない。
このように利用者端末2bは、ファイル記憶部204のファイル(比較元ファイル)について区間特徴量を用いた不正ファイルの検知を行う前に、比較元ファイルがファイル全体として正当なファイルと類似している(あるいは不正ファイルと類似している)か否かの判定を行う。そして、利用者端末2bは、ファイル全体として正当なファイルと類似している(あるいは不正ファイルと類似している)ファイルに絞り込んで区間特徴量を用いた不正ファイルの検知を行うので、不正ファイルの検知を効率よく行うことができる。
また、前記した利用者端末2aにおいても、区間特徴量を用いて当該比較元ファイルが不正ファイルであるか否かの判定を行う前に、全体類似度評価部30が、ファイル記憶部204のファイル(比較元ファイル)が、ファイル全体として正当なファイルと類似している(あるいは不正ファイルと類似している)か否かの判定を行ってもよい。そして、利用者端末2aは、ファイル全体として正当なファイルと類似している(あるいは不正ファイルと類似している)ファイルに絞り込んで区間特徴量を用いた不正ファイルの検知を行ってもよい。
(その他の実施形態)
なお、各実施形態における判定部26は、比較元ファイルが比較先ファイルと類似するか否かの判定に、補正後の比較元区間特徴量および比較先区間特徴量についての各種の統計を用いてもよい。
例えば、判定部26は、補正後の比較元区間特徴量および比較先区間特徴量それぞれの標準偏差を算出し、標準偏差の差が閾値未満であれば比較元ファイルが比較先ファイルと類似すると判定してもよい。
また、判定部26は、比較元ファイルが比較先ファイルと類似するか否かの判定に相関係数を用いてもよい。例えば、判定部26は、補正後の比較元区間特徴量および比較先区間特徴量の相関係数を求め、その相関係数が閾値以上であれば、比較元ファイルが比較先ファイルと類似すると判定する。
さらに、判定部26は、比較元ファイルが比較先ファイルと類似するか否かの判定に、最長一致系列比較を用いてもよい。例えば、判定部26は、補正後の比較元区間特徴量および比較先区間特徴量で対応する区間エントロピー値が連続して一致する区間の長さを求め、その一致する区間の長さが閾値以上であれば比較元ファイルが比較先ファイルと類似すると判定する。
また、判定部26は、比較元ファイルが比較先ファイルと類似するか否かの判定にフーリエ解析を用いてもよい。例えば、判定部26は、補正後の比較元区間特徴量と比較先区間特徴量それぞれをフーリエ変換し、得られたパワースペクトルの系列を比較して一致する要素の数が閾値以上であれば比較元ファイルが比較先ファイルと類似すると判定する。
さらに、判定部26は、比較元ファイルが比較先ファイルと類似するか否かの判定にΧスクエア検定を用いてもよい。例えば、判定部26は、補正後の比較元区間特徴量と比較先区間特徴量をそれぞれ所定の関数に近似させて検定統計量を算出することにより、あらかじめ定めた閾値を有意水準として比較元ファイルが比較先ファイルと類似するか否かの仮説検定を行う。
この発明は上述の各実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD(Digital Versatile Disc)、CD−ROM(Compact Disc Read Only Memory)等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
2,2a,2b 利用者端末
3,3b 特徴量リスト配信装置
20 不正ファイル検知部
21 特徴量リスト受信部
22 特徴量リスト更新部
23 区間分割部
24 区間特徴量算出部
25 補正部
26 判定部
27 ファイル退避部
28 表示部
29 全体特徴量算出部
30 全体類似度評価部
31,203 特徴量リスト記憶部
32 特徴量リスト送信部
204 ファイル記憶部
207 ファイルシステム
2041 実行形式ファイル群記憶部
2042 オープン対象ファイル群記憶部

Claims (8)

  1. 利用者端末内のファイルを比較元ファイルとして区間に分割する区間分割部と、
    分割された前記比較元ファイルの区間ごとのエントロピー値である比較元区間特徴量を算出する区間特徴量算出部と、
    比較先ファイルである正当なファイルの区間ごとのエントロピー値を比較先区間特徴量として保持する特徴量リスト記憶部と、
    前記比較先区間特徴量および前記比較元区間特徴量それぞれに対し、DP(Dynamic Programming)マッチングによる補正を行う補正部と、
    補正が行われた前記比較元区間特徴量と前記比較先区間特徴量とを比較することにより、前記比較元ファイルが前記比較先ファイルと類似しているか否かを判定し、前記比較元ファイルが前記比較先ファイルと類似していると判定した場合、前記比較元ファイルを正当なファイルと判定する判定部と、
    を備えることを特徴とする不正ファイル検知装置。
  2. 前記比較先ファイルが不正ファイルである場合、
    前記判定部は、
    前記比較元ファイルが前記比較先ファイルと類似していると判定したとき、前記比較元ファイルを不正ファイルとして検知することを特徴とする請求項1に記載の不正ファイル検知装置。
  3. 前記判定部は、
    前記補正が行われた前記比較元区間特徴量と前記比較先区間特徴量との差分の各区間での平均値を算出し、前記算出した平均値が所定の閾値以下であるとき、前記比較元ファイルが前記比較先ファイルと類似していると判定することを特徴とする請求項1または請求項2に記載の不正ファイル検知装置。
  4. ファイルの退避を行うファイル退避部をさらに備え、
    前記判定部は、
    前記比較元ファイルを、前記正当なファイルと判定しなかった場合、または、不正ファイルとして検知した場合、前記ファイル退避部に、当該比較元ファイルを退避させることを特徴とする請求項1または請求項2に記載の不正ファイル検知装置。
  5. 前記区間分割部は、
    前記比較元ファイルが実行されるとき、前記比較元ファイルを区間に分割し、
    前記区間特徴量算出部は、
    分割された前記比較元ファイルの区間ごとのエントロピー値である比較元区間特徴量を算出し、
    前記判定部は、
    前記比較元ファイルを、前記正当なファイルと判定しなかった場合、または、不正ファイルとして検知した場合、当該比較元ファイルの実行を許可せず、前記比較元ファイルを前記正当なファイルと判定した場合、または、不正ファイルとして検知しなかった場合、当該比較元ファイルの実行を許可することを特徴とする請求項1または請求項2に記載の不正ファイル検知装置。
  6. 前記区間分割部は、
    定期的または不定期に、前記利用者端末の記憶部に記憶される比較元ファイルを区間に分割し、
    前記区間特徴量算出部は、
    分割された前記比較元ファイルの区間ごとのエントロピー値である比較元区間特徴量を算出することを特徴とする請求項1または請求項2に記載の不正ファイル検知装置。
  7. 利用者端末内のファイルを比較元ファイルとして区間に分割するステップと、
    分割された前記比較元ファイルの区間ごとのエントロピー値である比較元区間特徴量を算出するステップと、
    比較先ファイルである正当なファイルの区間ごとのエントロピー値を比較先区間特徴量および前記比較元区間特徴量それぞれに対し、DP(Dynamic Programming)マッチングによる補正を行うステップと、
    補正が行われた前記比較元区間特徴量と前記比較先区間特徴量とを比較することにより、前記比較元ファイルが前記比較先ファイルと類似しているか否かを判定し、前記比較元ファイルが前記比較先ファイルと類似していると判定した場合、前記比較元ファイルを正当なファイルとして判定するステップと、
    を含んだことを特徴とする不正ファイル検知方法。
  8. 利用者端末内のファイルを比較元ファイルとして区間に分割するステップと、
    分割された前記比較元ファイルの区間ごとのエントロピー値である比較元区間特徴量を算出するステップと、
    比較先ファイルである不正ファイルの区間ごとのエントロピー値を比較先区間特徴量および前記比較元区間特徴量それぞれに対し、DP(Dynamic Programming)マッチングによる補正を行うステップと、
    補正が行われた前記比較元区間特徴量と前記比較先区間特徴量とを比較することにより、前記比較元ファイルが前記比較先ファイルと類似しているか否かを判定し、前記比較元ファイルが前記比較先ファイルと類似していると判定した場合、前記比較元ファイルを正当なファイルと判定するステップと、
    をコンピュータに実行させることを特徴とする不正ファイル検知プログラム。
JP2015233555A 2015-11-30 2015-11-30 不正ファイル検知装置、不正ファイル検知方法、および、不正ファイル検知プログラム Pending JP2017102566A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015233555A JP2017102566A (ja) 2015-11-30 2015-11-30 不正ファイル検知装置、不正ファイル検知方法、および、不正ファイル検知プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015233555A JP2017102566A (ja) 2015-11-30 2015-11-30 不正ファイル検知装置、不正ファイル検知方法、および、不正ファイル検知プログラム

Publications (1)

Publication Number Publication Date
JP2017102566A true JP2017102566A (ja) 2017-06-08

Family

ID=59015458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015233555A Pending JP2017102566A (ja) 2015-11-30 2015-11-30 不正ファイル検知装置、不正ファイル検知方法、および、不正ファイル検知プログラム

Country Status (1)

Country Link
JP (1) JP2017102566A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019096088A (ja) * 2017-11-24 2019-06-20 日本電信電話株式会社 距離測定装置、通信システム、作成装置及び距離測定プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008537224A (ja) * 2005-04-15 2008-09-11 マイクロソフト コーポレーション 安全な起動方法およびシステム
JP2010146566A (ja) * 2008-12-18 2010-07-01 Symantec Corp マルウェア検出方法およびシステム
JP2012185745A (ja) * 2011-03-07 2012-09-27 Kddi Corp 携帯端末、プログラム、および通信システム
JP2015138331A (ja) * 2014-01-21 2015-07-30 日本電信電話株式会社 情報端末、実行形式監視方法、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008537224A (ja) * 2005-04-15 2008-09-11 マイクロソフト コーポレーション 安全な起動方法およびシステム
JP2010146566A (ja) * 2008-12-18 2010-07-01 Symantec Corp マルウェア検出方法およびシステム
JP2012185745A (ja) * 2011-03-07 2012-09-27 Kddi Corp 携帯端末、プログラム、および通信システム
JP2015138331A (ja) * 2014-01-21 2015-07-30 日本電信電話株式会社 情報端末、実行形式監視方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高田 慎也: "エントロピーとDP Matchingを用いたファイル類似度評価システムに関する考察", 第77回(平成27年)全国大会講演論文集(2) 人工知能と認知科学, JPN6018042603, 17 March 2015 (2015-03-17), pages 49 - 2, ISSN: 0004163088 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019096088A (ja) * 2017-11-24 2019-06-20 日本電信電話株式会社 距離測定装置、通信システム、作成装置及び距離測定プログラム

Similar Documents

Publication Publication Date Title
RU2551820C2 (ru) Способ и устройство для проверки файловой системы на наличие вирусов
US10073916B2 (en) Method and system for facilitating terminal identifiers
TWI720932B (zh) 用於藉由分析已知及/或未知網路安全威脅的形態來偵測資料異常的系統和方法
US9111094B2 (en) Malware detection
US9336389B1 (en) Rapid malware inspection of mobile applications
US11475133B2 (en) Method for machine learning of malicious code detecting model and method for detecting malicious code using the same
US9578044B1 (en) Detection of anomalous advertising content
US8621634B2 (en) Malware detection based on a predetermined criterion
US8813229B2 (en) Apparatus, system, and method for preventing infection by malicious code
US10757087B2 (en) Secure client authentication based on conditional provisioning of code signature
KR20100005518A (ko) 확장자를 위장한 파일을 탐지하는 방법 및 그 장치
US11580220B2 (en) Methods and apparatus for unknown sample classification using agglomerative clustering
Faruki et al. Droidolytics: robust feature signature for repackaged android apps on official and third party android markets
US8413246B2 (en) Evaluating shellcode findings
JP6169497B2 (ja) 接続先情報判定装置、接続先情報判定方法、及びプログラム
JP2017102566A (ja) 不正ファイル検知装置、不正ファイル検知方法、および、不正ファイル検知プログラム
US10051004B2 (en) Evaluation system
US20210211272A1 (en) Unauthorized use detection system, information processing apparatus, computer-readable recording medium and unanthorized use detection method
JP6204318B2 (ja) 類似度評価装置、類似度評価システム、類似度評価装置方法、および、類似度評価プログラム
JP2015138331A (ja) 情報端末、実行形式監視方法、プログラム
KR101893504B1 (ko) 리눅스 환경에서 파일 무결성 검증 장치 및 방법
US20210273963A1 (en) Generation device, generation method, and generation program
WO2022153415A1 (ja) 改竄検知装置、改竄検知方法および改竄検知プログラム
KR20120031963A (ko) 악성 코드 차단 장치
RU108870U1 (ru) Система увеличения количества обнаружений вредоносных объектов

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190604

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191203