JP2501771B2

JP2501771B2 - 不所望のソフトウェア・エンティティの複数の有効なシグネチャを得る方法及び装置

Info

Publication number: JP2501771B2
Application number: JP5332235A
Authority: JP
Inventors: ジェフリー・オーウェン・ケパート
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-01-19
Filing date: 1993-12-27
Publication date: 1996-05-29
Anticipated expiration: 2011-05-29
Also published as: US5452442A; JPH06250861A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は全般的にディジタル・デ
ータ・プロセッサに関し、具体的にはディジタル・デー
タ・プロセッサの動作保全性を提供するための方法及び
装置に関する。

【０００２】

【従来の技術】コンピュータ・ウィルスはそれ自体の1
つのバージョン、おそらくは進化したバージョンを含む
ように他のプログラムを修正することによって他のプロ
グラムに感染させることのできるプログラムであるとフ
レデリック・ビー・コーエン(Frederick B. Cohen)によ
り定義されている(A Short Course on Computer Viruse
s、p.11)。

【０００３】本明細書では、コンピュータ・ウィルスは
コンピュータ・プログラムに付加する能力を有するコン
ピュータ命令又はコンピュータ・コードの実行可能な組
合せを指すものとする。ウィルス・コードがその後に実
行されると、ウィルスを宿したコンピュータの動作に有
害な結果をもたらす可能性がある。一部のウィルスはそ
れを構成するコードを修正する能力を有し、このためウ
ィルスの識別及び除去の作業が厄介になる。

【０００４】もう1つの不所望なタイプのソフトウェア
・エンティティはトロイの木馬として知られるものであ
る。トロイの木馬とは、望ましいコードの1ブロックに
故意に隠された不所望のコード・ブロックである。

【０００５】コンピュータ・ウィルス及び他の不所望の
ソフトウェア・エンティティを検出するために広く使用
されている方法はスキャナとして知られるものである。
スキャナは実行可能ファイル、ブート・レコード、メモ
リ及び実行可能コードが隠されている可能性のある他の
区域を既知の不所望のソフトウェア・エンティティが存
在するかどうか探索する。通常は、専門家が特定の不所
望のソフトウェア・エンティティを詳細に検査し、得ら
れた情報を使用してどこでその不所望のソフトウエア・
エンティティが発生しようともそれを検出する方法を作
り出す。コンピュータ・ウィルス、トロイの木馬及び他
のいくつかのタイプの不所望のソフトウェア・エンティ
ティの場合、典型的に使用される検出方法はそのエンテ
ィティ内にあるシグネチャと称する1つ又は複数の短い
バイト・シーケンスの存在について探索するものであ
る。シグネチャは、適当なスキャナと共に使用された場
合にエンティティが存在すれば高い確率でそれを検出す
るが、偽肯定として知られる偽警告を与えることがほと
んどないように注意して選定されなければならない。低
い偽肯定率の要求はコンピュータ上で通常実行されるプ
ログラムにシグネチャの現れる可能性が低いことを要求
することになる。通常そのエンティティが2進機械コー
ドの形である場合、専門家がその2進機械コードをアセ
ンブラ・コードなど人間に可読なフォーマットに変換し
た後に人間に可読なコードを分析することによってシグ
ネチャを選択する。そのエンティティがコンピュータ・
ウィルスである場合、専門家は通常ウィルスのインスタ
ンスが変わると実質的に変化する可能性が十分にあるコ
ード部分を破棄する。その後、専門家はそのエンティテ
ィのコードのうち正常で正当なプログラムに現れる可能
性が低いと思われる1つ又は複数のセクションを選択
し、2進機械コード中の対応するバイト群を識別してシ
グネチャを作る。また専門家はこの選択を行う際に、コ
ンピュータ・ウィルス、トロイの木馬又は他のタイプの
不所望のソフトウェア・エンティティのいずれであろう
と、問題のエンティティのタイプにとって典型的である
ように見える命令シーケンスの影響を受ける可能性があ
る。

【０００６】しかし、新しいウィルスや既知のウィルス
の新しい変形が現れる速度が加速しているので、専門家
にとって負担が重くなる。さらに、ウィルス・スキャン
の効力はあるウィルスが全世界のコンピュータ群に初め
て導入されてからそのウィルスを認識できるシグネチャ
がコンピュータ群のかなりの部分に配布されるまでの時
間遅延によって損なわれる。

【０００７】

【発明が解決しようとする課題】本発明の目的はコンピ
ュータ・ウィルス・シグネチャを抽出し評価するための
コンピュータで実施される自動手順を提供することであ
る。

【０００８】本発明のもう1つの目的はウィルスの機械
コードからシグネチャを自動的に抽出し、抽出されたシ
グネチャのウィルスの後続のインスタンスを識別するた
めの確率的な有効性を評価するためのコンピュータで実
施される統計的技法を提供することである。

【０００９】本発明のもう1つの目的は手動又は他の手
順によって事前に選択されたコンピュータ・ウィルス・
シグネチャを自動的に評価するためのコンピュータで実
施される統計的技法を提供することである。

【００１０】

【課題を解決するための手段】前記及びその他の問題
は、コンピュータ・ウィルスの機械コードからシグネチ
ャを自動的に抽出するためのまた他の何らかの手段によ
って以前に選択されたウィルス・シグネチャを評価する
ための統計的方法によって克服され、本発明の目的が達
成される。結果として得られるシグネチャは偽肯定を起
こす可能性が非常に低く、既知のウィルスの新しい変形
を捕捉するのに十分な柔軟性を有する。

【００１１】本発明に従って動作するコンピュータ・ウ
ィルス抽出評価機構はウィルス・コードの変動に対して
堅牢であり、ウィルスのシグネチャを含む部分に含まれ
るコードの多少の変動をも許容する。これは所与のシグ
ネチャに正確にではなく近似的に一致するバイト列を認
識することによって達成される。バイトの列とシグネチ
ャの間の一定の量の不一致だけが許容されるので、偽肯
定の生成が防止される。ユーザは堅牢さと認識精度の間
のトレードオフを定めることが出来る。

【００１２】本発明によれば、ディジタル・データ・プ
ロセッサを動作させてコンピュータ・ウィルスの有効な
シグネチャを得る方法が提供される。この方法はコンピ
ュータ・ウィルスの少なくとも1部分をディジタル・デ
ータ・プロセッサに入力する第1ステップを含む。この
少なくとも1部分はコンピュータ・ウィルスのインスタ
ンスが変わっても実質的に不変のままに留まる可能性が
高いコンピュータ・ウィルスのバイト・シーケンスを含
み、この部分からコンピュータ・ウィルス・シグネチャ
の候補が引き出される。第2ステップでは、ディジタル
・データ・プロセッサを用いて上記のバイト・シーケン
スから一義的nグラムのリストを構築する。この一義的n
グラムはそれぞれ1乃至ある選択された最大数の順次バ
イトからなる。第3ステップでは、一義的nグラムのそれ
ぞれについて、本明細書でコンピュータ・プログラムの
本体と称する複数のコンピュータ・プログラムから得ら
れたバイト・シーケンス内で、一義的nグラムの発生す
る確率を推定する。これは通常ディジタル・データ・プ
ロセッサ上で実行される。

【００１３】1つ又は複数の一義的nグラムからなる各ウ
ィルス・シグネチャ候補について、第4ステップで、本
体から得られたバイト・シーケンス内でウィルス・シグ
ネチャ候補が発生する確率を推定する。本明細書では、
これをシグネチャ候補の偽肯定確率と称する。第5ステ
ップで、1つ又は複数の最適シグネチャ候補を有効なも
のとして選択する。シグネチャのメリットは偽肯定確率
の低下に伴って増加し、他の判断基準に依存する可能性
もある。シグネチャを有効なものとして受け入れること
ができるのは、その推定偽肯定確率が閾値確率より低い
場合だけである。閾値確率は、過剰の偽肯定を生じるシ
グネチャを拒絶するのに十分な低さであるが、少なくと
も一部のシグネチャ候補が確実に受け入れられるに十分
な高さになるように選択される。

【００１４】コンピュータ・ウィルス・シグネチャ評価
モードで動作する際、入力ステップは1つ又は複数のウ
ィルス・シグネチャ候補を入力するステップを含む。1
つ又は複数のウィルス・シグネチャ候補はそれぞれコン
ピュータ・ウィルスの少なくとも1部分を含み、この少
なくとも1部分には、コンピュータ・ウィルスの機械コ
ード命令を表すバイトのシーケンスが含まれる。

【００１５】コンピュータ・ウィルス・シグネチャ抽出
モードで動作する際、入力ステップはコンピュータ・ウ
ィルスの少なくとも1つのインスタンスを生成する初期
ステップと、コンピュータ・ウィルスのインスタンスが
変わっても不変のまま留まる少なくとも1部分を識別す
るためにその少なくとも1つのインスタンスを評価する
初期ステップとを含む。通常この不変部分には、コンピ
ュータ・ウィルスの機械コード命令を表すバイト・シー
ケンスが含まれる。

【００１６】

【実施例】図1は本発明の教示を実施するのに適したデ
ータ処理システム10のブロック図である。システム・バ
ス12は中央演算処理装置(CPU) 14と他の多数のシステム
・バス・ユニットの間でアドレス、データ及び制御信号
を運ぶための複数の信号線からなる。RAM 16はシステム
・バス12に結合され、CPU 14にプログラム命令記憶域と
作業用メモリを提供する。端末制御サブシステム18はシ
ステム・バス12に結合され、表示装置20、通常はCRTモ
ニタに出力を提供し、手動入力装置22、通常はキーボー
ドから入力を受け取る。手動入力はマウスなどのポイン
ティング装置から供給することもできる。ハード・ディ
スク制御サブシステム24は回転式固定ディスク又はハー
ド・ディスク26とシステム・バス12を両方向に結合す
る。ハード・ディスク制御サブシステム24とハード・デ
ィスク26はCPU命令及びデータ用の大容量記憶域を提供
する。フロッピ・ディスク制御サブシステム28は1つ又
は複数のフロッピ・ディスク駆動装置30とシステム・バ
ス12を両方向に結合する。フロッピ・ディスク駆動装置
30は取外し可能のフロッピ・ディスク30aと共に動作す
る。

【００１７】図1に示した構成要素はパーソナル・コン
ピュータ、ポータブル・コンピュータ、ワークステーシ
ョン、ミニコンピュータ、メインフレーム・コンピュー
タ又はスーパーコンピュータ中で実施できる。従って、
システム・バス12の構造やそのバスに結合されるCPU 14
の数などデータ処理システム10の物理実施態様の詳細は
本発明の動作にとって重要でなく、以下でこれ以上詳細
に説明することはしない。

【００１８】図2は本発明の方法及び装置によってコン
ピュータ・ウィルスのシグネチャ抽出前に実行される前
処理ステップを示す流れ図である。この前処理ステップ
の最終目標はコンピュータ・ウィルスのうち、コンピュ
ータ・ウィルスのインスタンスが変わっても不変のまま
留まる可能性の高いセクションを識別することである。
従って、これらのセクションから引き出される候補シグ
ネチャはウィルスが存在する時に必ずそのウィルスを識
別する可能性が高い。

【００１９】ブロックAで、通常はホストの(感染した)
実行可能プログラムに埋め込まれたコンピュータ・ウィ
ルスの1つ又は複数のサンプルが与えられる。オプショ
ンとして、ブロックBで、感染したホスト・プログラム
を走行させ、特別に設計された犠牲プログラム(デコイ
と称する)を故意に感染させるように試みることによっ
て、そのウィルスの1つ又は複数の追加サンプルを生成
する。ブロックBはこの手順によってウィルスがうっか
り拡散しないように、専用の隔離されたシステム上で実
行することが好ましい。別法として、ブロックBをホス
ト・コンピュータのレジスタ、記憶装置及びファイル・
システムのアーキテクチャのモデルを含む仮想計算機内
で実行することもできる。ブロックBでウィルスの追加
サンプルを生成した場合又はブロックAで複数のサンプ
ルが与えられた場合、ブロックCで、そのウィルスのう
ちウィルスのインスタンス同士の間で変化が観察された
セクションを選別して除く。この手順を図4に示す。図4
では、ウィルスの変動部分と不変部分がウィルスの3つ
のインスタンスを比較することによって識別される。図
4では、各バイトが16進表現で示され、不変部分が識別
されている。不変バイト・シーケンスの長さは例示的な
ものである。実際には、不変バイト・シーケンスはしば
しば5バイトをかなり超え、通常は1つのウィルス内に複
数のそのような部分が現れる。ブロックCで識別された
不変バイト・シーケンスの各バイトにマークが付され、
次の処理のためブロックDに渡される。実質的に類似の
区域が存在しない場合は、かなり洗練された自己変化ウ
ィルスの存在を示す可能性があり、警告メッセージを生
成してユーザに表示すべきである。ブロックBを使用せ
ず、ブロックAで1つのサンプルしか与えられない場合、
ブロックCで行うべき作業はなく、ウィルス全体が不変
としてマークされ、ブロックDに渡される。

【００２０】ブロックB及びブロックCを使用したかどう
かにかかわらず、ブロックDでは、仮に不変として分類
された1つ又は複数のウィルス・セクションが存在す
る。しかし、ブロックB及びブロックCを使用した場合で
も、潜在的な変形のすべてが捕捉されてはいない可能性
がある。ブロックDでは、ヒューリスティックスを用い
て、ウィルスの不変セクションのうち、本質的にウィル
スのインスタンス同士の間で変化する可能性の低い部分
を識別する。具体的に言うと、機械命令を表すウィルス
のコード部分(アドレスを表すバイトという例外はあり
得る)は通常は不変である。例えば数値定数、文字列、
画面イメージ、計算用の作業区域、アドレスなど、ウィ
ルスのデータ部分はやはり不変である場合も多いが、ウ
ィルスがそれ自体を複製する時にウィルス自体によって
修正されたり、ウィルスがウィルス・スキャナを回避す
るのを助けるため故意にウィルスを修正する人間によっ
て修正される可能性がはるかに高い。

【００２１】図2に戻って、ブロックDで、不変コード部
分と不変データ部分を互いに分離し、不変コード部分だ
けを次の処理のために保持する。この時点で、ウィルス
・シグネチャの選択源となる1つ又は複数の不変機械コ
ード・バイト・シーケンスが存在する。この1組の候補
ウィルス・シグネチャはこれらのバイト・シーケンス内
に見出されるすべての可能なS個のバイトの連続ブロッ
クである。ただし、Sはユーザによって指定されるある
いは本発明の方法によって決定されるシグネチャ長であ
る。通常Sは約12バイト乃至36バイトの範囲の値であ
る。

【００２２】前に選択されたシグネチャを評価しようと
する場合、この1組の候補シグネチャは前に選択された
シグネチャを含んでいる。抽出の場合でも評価の場合で
も、考察中のウィルス(又はウィルス・シグネチャ)が複
数存在し得る。従って各ウィルスにどの候補シグネチャ
が属するかに関する記録を維持する。

【００２３】一般に、図3の流れ図に関して以下で説明
する技法では各候補シグネチャがランダムに選択された
プログラムの機械コード内のランダムに選択されたバイ
トのブロックと正確に一致する又は指定された個数のも
しくは指定されたパターンの不一致を含んで一致する確
率を推定する。抽出の場合は、すべての候補シグネチャ
のうちで最低の値であり且つ所定の閾値より小さい推定
偽肯定確率を有する1つ又は複数のシグネチャが選択さ
れる。他の選択判断基準を適用することもできる。評価
の場合は、あるシグネチャの推定偽肯定確率が所定の閾
値より小さい場合、そのシグネチャが以後使用できるも
のとして承認される。過去に作成されたすべてのプログ
ラム又は今後作成されるすべてのプログラムに対してシ
グネチャを検査することは技術的に不可能なので、確率
推定はウィルス・スキャナを使用する特定のハードウェ
ア及びオペレーティング・システム上で一般的に使用さ
れているソフトウェア・プログラムの本体に基づくこと
が好ましい。この本体を使用して存在するプログラムの
部分集合から可能なプログラムのはるかに大きい集合に
外挿する。

【００２４】[抽出/評価手順の説明] 第1ステップで、ユーザは(a)評価しようとするウィルス
・シグネチャのリストを含むファイルあるいは(b) 1つ
又は複数のウィルス・シグネチャの抽出源となる不変ウ
ィルス・コードの1つ又は複数の部分をそれぞれ含む1つ
又は複数のファイルを供給する。入力ファイル32(図1の
IF)は手動入力、他の記憶媒体からのファイルのコピー
又は同一の物理装置上で以前に実行された他のソフトウ
ェア・プログラムによるファイルの自動作成によって、
ハード・ディスク26又はフロッピ・ディスク30aに記憶
することができる。

【００２５】さらに、考察中のコンピュータ・ウィルス
の目標となる特定のハードウェア及びオペレーティング
・システム上で一般に使用されるソフトウェア・プログ
ラムの本体を供給する。例えば、DOS(ディスク・オペレ
ーティング・システム)で走るIBM PC及び互換機に影響
するウィルスの場合、本体は複数の実行可能プログラム
(通常は拡張子.COM又は.EXEを有するファイルとして記
憶される)を含む。本発明の好ましい実施例では、プロ
グラムの本体34(図1のCP)はハード・ディスク26などこ
の方法を実行するコンピュータ・システムがアクセスで
きる記憶装置に記憶される。以下で詳細に説明する代替
実施態様では、本体を他の場所に記憶できる。この場
合、本体の正しく要約されたバージョンを含むファイル
がこの方法を実行するコンピュータ・システムがアクセ
スできる記憶装置に記憶される。このファイルをnグラ
ム確率のテーブルと称し、以下で詳細に説明する。

【００２６】最後に、ユーザは通常は入力装置22を介し
て適当なコマンドを発行することによって以下で説明す
る方法をデータ処理システム10上で実行させる。本発明
の方法を実施するコンピュータ・プログラムはハード・
ディスク26又はフロッピ・ディスク30aに記憶でき、ユ
ーザによるこのプログラムの呼出しに応答して、ディス
クからRAM 16にロードされる。その後、CPU 14がプログ
ラムを実行する。ユーザがパラメータ自体又はパラメー
タを含む入力ファイルの名前を手動入力することによっ
て、この方法に入力パラメータを供給する必要がある場
合もある。これらの入力パラメータには、例えば前に述
べた確率推定用の所定の閾値や入力ファイル32のファイ
ル名が含まれる。

【００２７】本発明の方法を実行するデータ処理システ
ム10はウィルス・スキャナ・プログラムが使用する1つ
又は複数の有効なウィルス・シグネチャを生成するシス
テムと同一のシステムである必要はない。

【００２８】次に図3を参照して本発明の方法のステッ
プを全般的に説明する。

【００２９】ブロックAで、入力ファイル32のデータに
含まれるn≦選択された最大長を満たすすべてのnグラム
からリストが形成される。nグラムとは、n個の連続する
バイトのインスタンスであり、nは1(ユニグラム)から任
意の大きさの値までである。入力ファイル32は抽出モー
ドでの実行時にはウィルス・コードのセクションからな
り、評価モードでの実行時には候補シグネチャからな
る。抽出モードと評価モードのどちらを実行するのかは
入力パラメータによって制御できるが、入力ファイル32
の形態に基づいて自動的に判断することもできる。

【００３０】ブロックBで、プログラムの本体34内の各n
グラムのインスタンスの数を数え、単純な数値計算を使
用することによってnグラムのリスト中のすべてのnグラ
ムについて確率を推定する。

【００３１】ブロックC₁で、候補シグネチャごとに完全
一致の確率を推定し、ブロックC₂で、指定された1組の
不完全一致又はファジイ一致(例えば不一致が指定され
たものとして、シグネチャ又はその連続する断片との一
致)の確率を推定する。

【００３２】ブロックDで、推定された完全一致確率と
ファジイ一致確率を組み合わせて各候補シグネチャの総
合評価を得る。

【００３３】ブロックEで、候補シグネチャのある部分
集合に関する結果を報告する。この出力報告は表示装置
20に表示することもでき、操作員が後で再検討できるよ
うにハード・ディスク26上又はフロッピ・ディスク30a
上のファイルに記憶することもできる。また、この報告
をウィルス・スキャナなどこの報告を利用する他のソフ
トウェア・プログラムに入力として供給することもでき
る。

【００３４】次に前述のブロックA乃至Eを詳細に説明す
る。

【００３５】[必要なnグラムのリストの作成(図3、ブロ
ックA)] 抽出モードでは、通常1つ又は複数のウィルスのそれぞ
れからのウィルス・コード(2進機械コード)の1つ又は複
数のセクションが存在する。必須ではないがこれらのセ
クションから大きなデータ区域を除外して、機械命令を
表す部分だけを残すことが望ましい。図2の流れ図の説
明で述べたように、これは専門家により又は何らかの自
動手順によって実施できる。不変部分、通常はコードを
得るためにどんな手段を使用するかは本発明の以下の説
明に特に関係ない。

【００３６】nグラムを抽出しこれをnグラム・テーブル
36(図1のNGT)に入れるのに適した手順の1つは下記の擬
似コードで表される。

【００３７】手順：Build_Ngram_List(抽出モード) For each ウィルス For each ウィルス・コード・セクション For i＝1 to length_of_section For n＝1 to n_Max If (i＋n−1<セクション長) nグラム＝セクションのバイトiからバイトi＋n−1まで If (nグラムがnグラム・テーブル内にない) nグラムをnグラム・テーブルに記憶する

【００３８】nグラム・テーブル36は例えばRAM 16内又
はハード・ディスク26もしくはフロッピ・ディスク30a
上に記憶されるファイル内で維持される。セクション長
はウィルス・コードの所与のセクションのバイト単位に
よる長さを表し、n_Maxはnグラムのバイト単位による選
択された最大長を表す。n_Maxの典型的な値は3乃至8の範
囲内にある。

【００３９】評価モードでは、手順は各ウィルスごとに
1つ又は複数の候補シグネチャの所与のリストから始ま
る。このリストは人間の専門家により又は適当な手順に
よって生成したものでよい。評価モードでは、nグラム
の集合体は概念上は抽出モードの場合と同じであり、各
候補シグネチャがウィルス・コードの1セクションであ
るかのように扱われる。nグラムを抽出し、これをnグラ
ム・テーブル36に入れるのに適した手順の1つは下記の
擬似コードで表される。

【００４０】手順：Build_Ngram_List(評価モード) For each ウィルス For each 候補シグネチャ For i＝1 to シグネチャ長 For n＝1 to n_Max If (i＋n−l<シグネチャ長) nグラム＝シグネチャのバイトiからバイトi＋n−1まで If (nグラムが有効且つnグラムがnグラム・テーブル内にない) nグラムをnグラム・テーブルに記憶する

【００４１】nグラムが無効になる唯一の条件はワイル
ドカードが含まれる場合であり、その場合、ワイルドカ
ードはどうでもよいバイトとみなされる。例えば、ある
シグネチャの第iバイトがワイルドカードである場合、
どんなバイトもその第iバイトに一致するとみなされる
ことを意味する。ワイルドカードが一部のウィルス・シ
グネチャに含まれるのは以下で説明するようにウィルス
の変動に対する堅牢さを高めるためである。

【００４２】[nグラム確率の推定(図3、ブロックB)] すべてのnグラムのリストを取得し、そのリストをnグラ
ム・テーブル36に記憶した後、次のステップで、各nグ
ラムが本体からランダムに選択されたnバイト・シーケ
ンスと正確に一致する確率を推定する。この抽出/評価
手順では、2つの推定方法のいずれかを使用する。

【００４３】[推定方法1] nグラム確率推定のための本発明の好ましい手法では、n
グラム・テーブル36にリストされたnグラムだけを求め
て、プログラムの本体34全体を探索する。この方法で
は、プログラムの本体34内での各nグラムの発生頻度を
数え、その発生頻度をnグラム・テーブル36に挿入す
る。

【００４４】具体的に言うと、nグラム統計を集めるた
めの方法は下記の通りである。 (a) nグラム・テーブル36内のnグラムB₁B₂..B_nのそれぞ
れについて、プログラムの本体34内でのそのnグラムの
発生回数f(B₁B₂...B_n)を記録する(これはハッシュ・テ
ーブルを使用して効率的に実施できる)。 (b) nグラム・テーブル36に長さnのnグラムの数T_nを記
録する。

【００４５】ユニグラム(n＝1)の場合、単純に観察され
た頻度を推定確率とみなす。即ちp(B₁)＝f(B₁)/T₁であ
る。n≧2の場合、推定確率は観察された頻度と、より短
いnグラムを互いに組み合わせることによって計算され
た確率との加重平均によって与えられる。2つの(n−1)
グラム確率と1つの(n−2)グラム確率を組み合わせて1つ
のnグラム確率を形成するのに使用される好ましい方法
は次の通りである。

【数２】

【００４６】従って、nグラム確率を計算する方法は下
記によって与えられる。手順：Calculate n-grams

【数３】上式で、α_f(B₁B₂...B_n)はB₁B₂...B_nの発生がプログラ
ムの本体34内にどのように現れるかに依存するヒューリ
スティック加重関数である。m＝0の時にα_m＝0、m≧1の
時にα_m＝1になる加重関数α_mが実際に良好に機能する
ことが判っている。n＝2の場合に数式3を適用するため
に0グラム確率を1と定義する。実際には、まずユニグラ
ム(n＝1)とバイグラム(n＝2)の確率を表にし、その後こ
れらを使用してトライグラム(n＝3)の確率を決定する。
次に、バイグラムとトライグラムを使用して4グラムの
確率を決定し、以下同様にして、最後に(n_Max−1)グラ
ムと(n_Max−2)グラムの確率からn_Maxグラム確率を決定
する。

【００４７】[推定方法2] 第2の手法では、図6に示す事前計算されたnグラム確率
のテーブル50を参照し、結果をnグラム・テーブルに置
く。この事前計算されたテーブルはどの1組のウィルス
・コード部分又は候補シグネチャにも使用され、プログ
ラムの本体34を一回通過して、各nグラム(n≦n_Maxのそ
れぞれについて)がプログラムの本体34内に現れる回数
を決定し、プログラムの本体34内の長さnのnグラムの総
数で割ることによって構築される。しかし、事前計算さ
れたnグラム確率のテーブル50はその本体に絶対に現れ
ないnグラムを省略したとしてもn_Max＞2の場合に実行不
可能なほどに大きくなる可能性がある。

【００４８】この問題に対する解決策の1つがnグラムの
選択された部分集合を記憶し、残りをより短いnグラム
から組み立てることである。適当な部分集合の1つは最
も一般的なK個のnグラムである。もう1つの適当な部分
集合は数式2に従って2つの(n−1)グラムと1つの(n−2)
グラムを組み合わせることによって推定された頻度から
所定の量を超えて逸脱する測定頻度を有するnグラムの
集合である。

【００４９】後者の場合、数式2を繰返し適用してまず
ユニグラムとバイグラムの確率を使用してトライグラム
を推定し、次にバイグラムとトライグラムを使用して4
グラムを推定し、以下同様にして、最後に(n_Max−1)グ
ラムと(n_Max−2)グラムの確率からn_Maxグラム確率を推
定する。各段階で、数式2によって頻度が低く推定され
たnグラムだけが事前計算されたnグラム確率のテーブル
50に含まれる。計算量はかなり多いが、1回実行するだ
けでよい。ただし、新しいコンパイラでコンパイルされ
た人気のある新プログラムの本体への追加を考慮に入れ
ると、周期的な更新が可能性である。

【００５０】事前計算されたnグラム確率のテーブル50
の内容を決定するための本発明の好ましい方法は下記の
ステップを含む。1.プログラムの本体34内でのモノグラ
ム及びバイグラムのすべての発生の回数(絶対頻度)を数
え、それぞれをT_1又はT_2で割ってモノグラムとバイグ
ラムのそれぞれの相対頻度を得る。モノグラムの頻度と
バイグラムの頻度をすべて事前計算されたnグラム確率
のテーブルに記憶する。2.k＝3からkの選択された最大
値までについて最初の(k−1)バイトが事前計算されたn
グラム・テーブル内の(k−1)グラムとなる各kグラムの
相対頻度を決定する(この条件はすべてのトライグラム
にあてはまるが、k＞3の場合には必ずしもあてはまらな
い)。この観察された相対頻度を(k−1)グラムと(k−2)
グラムを使用して数式2から得られた推定頻度で割る。
この量の対数の絶対値が選択された閾値を超える場合、
このkグラムとその測定された絶対頻度を事前計算され
たnグラム確率のテーブル50に記憶する。

【００５１】これは事前計算されたnグラム確率のテー
ブル50の内容を導出するのに適した複数の方法のうちの
1つにすぎないことに留意されたい。

【００５２】一般に、推定方法1は推定方法2よりも必要
な記憶域が少なく精度が高いが、ウィルス・コード又は
シグネチャの新しいセクションが提示されるたびに本体
全体を探索するので、実行に要する時間がかなり長くな
る可能性がある。

【００５３】[候補シグネチャ確率の推定(図3、ブロッ
クC)] 応用例によっては、候補シグネチャと本体(又はそれに
匹敵する寸法のプログラムの統計的に類似の集合)に含
まれるバイト列の間の完全一致又は部分一致(通常は断
片又は不一致)の確率を推定することが望ましいことが
ある。しかし、部分不一致計算は計算コストが高くなる
可能性があり、抽出モードでは、候補シグネチャの集合
が非常に大きくなる可能性がある。従って、CPU 14の速
度によっては、完全一致確率だけを使用して候補シグネ
チャの集合を刈り込むことが望ましい場合がある。これ
が完全一致計算ブロック(C₁)からファジイ一致計算ブロ
ック(C₂)に向かう矢印の理由である。例えば、n個の最
低完全一致確率を有する候補シグネチャをその後の断片
確率及び不一致確率の計算のために選択することができ
る。

【００５４】評価モードでは、候補ウィルス・シグネチ
ャのリストが既に存在している。各候補シグネチャの確
率推定に適した手順は下記の擬似コードによって与えら
れる。

【００５５】手順：X_Probability_Evaluation_Mode For each ウィルス For each シグネチャ≡B₁B₂...B_S p_x(シグネチャ)＝X_Probability(シグネチャ)を記憶する

【００５６】ただし、XはExact Match(完全一致)、Frag
ment(断片)、Mismatch(不一致)及び以下でさらに説明す
る指示された確率計算の代替実施態様を記述する何らか
の事前に未決定の修飾子を表す。

【００５７】抽出モードでは、候補シグネチャのリスト
をウィルス・コードのセクションから構築しなければな
らない。適当な方法の1つでは、所望のシグネチャ長Sを
選択し、各ウィルス・コード・セクション内のS個のバ
イトの連続ブロックのそれぞれを候補として扱う。この
場合、各候補シグネチャの確率推定に適した手順は下記
の擬似コードによって与えられる。

【００５８】手順:X_Probability_Extraction_Mode For each ウィルス For each ウィルス・コード・セクション For i ＝ 1 to (セクション長−S＋1) For j ＝ 1 to S B_j＝バイトi＋j−1 候補シグネチャ＝B₁B₂...B_S p_x(シグネチャ)＝X_Probability(B₁B₂...B_S)を記憶する

【００５９】別法として、Sをユーザ指定の確率閾値を
満足する最短の長さに調節することもできる。

【００６０】次に、提示されたシグネチャが体に含まれ
るバイト列と完全に一致する確率を推定する問題を論
じ、その後2種類の部分一致、即ち断片と不一致につい
て論ずる。

【００６１】[所与のシグネチャに対する完全一致の確
率] 所与のシグネチャに関する完全一致確率p
_Exact-Match(シグネチャ)を計算するには、まずワイル
ドカードで置換すべきバイトがあるかどうかを判定しな
ければならない。一部のプロセッサ・アーキテクチャで
は、プログラム(この場合はウィルス)のインスタンスの
間で潜在的に変化し得るアドレスを含む命令が存在す
る。本発明の教示をワイルドカードを許容するウィルス
・スキャナと共に使用することを意図する場合、この潜
在的な可変バイトをワイルドカードによって識別し置換
することができる。既存の又はこのステップで導入され
たワイルドカードの位置を完全一致確率計算で使用す
る。下記の擬似コードは完全一致確率の決定に適した実
施態様を記述したものである。

【００６２】手順:Exact_Match_Probability(シグネチャ) 望むならば、シグネチャ内の潜在的な可変バイトをワイルドカードで置換する。 W＝シグネチャ内のワイルドカードの数ワイルドカード位置のリスト： P≡(P₁，P₂...，P_w)；P_iP_jを形成する。 for i ＜ j P_Exact-Match(シグネチャ)＝ Calculate_Sequence_Probability(シグネチャ；P) Calculate_Sequence_Probability(シグネチャ；P)は位
置P≡(P₁P₂...，P_W)にワイルドカードを有するバイト・
シーケンスB₁B₂...B_Sが見つかる確率p(B₁B₂...B_S；P)を
推定する手順である。整数P_i≦Sは単調増加の順になっ
ており、0≦W＝ワイルドカードの数≦Sである。

【００６３】下記の擬似コードで記述される本発明の好
ましい実施態様では、シグネチャをワイルドカードを含
まない連続ブロックのバイトに分離する。これらの連続
ブロックの確率を乗算してそのシグネチャの完全一致確
率を近似する。

【００６４】手順：Calculate_Sequence_Probability(バイト・シーケンス；P) P₀＝−1 P_k+1＝S ＋ 1 p(バイト・シーケンス；P)＝1 For j ＝ 0 to K バイト・ブロック＝バイト・シーケンス内のバイトP_j＋1からバイトP_j+1−1まで p(バイト・シーケンス；P)＝p(バイト・シーケンス；P)＊ Calculate_Block_Probability(バイト・ブロック)

【００６５】Calculate_Block_Probability(バイト・ブ
ロック)は本体内のワイルドカードのない連続ブロック
のバイトB₁B₂...B_Kの確率p(B₁B₂...B_K)を推定する手順
である。好ましい実施態様は次の通りである。

【００６６】手順：Calculate_Block_Probability(バイ
ト・ブロック)

【数４】

【００６７】条件K＞n_Maxが発生するのは、ワイルドカ
ードのないブロックの長さがnグラム・テーブル36に集
められたnグラムの最大寸法を超える時である。

【００６８】[断片] ウィルス・スキャナが既知のウィルスのわずかに変更さ
れたバージョンを検出できるようにするため、一部のウ
ィルス・スキャナはスキャン中に長さSのシグネチャ内
のFバイトの連続ブロックが発見された時、ユーザに警
告する。この種の可能な断片は(S−F＋1)個ある。各断
片の最初の数バイトの確率が所与の閾値未満であること
を必要とするなど他の判断基準を用いると、断片の総数
を減らして、有効な断片のより小さな部分集合にするこ
とができる。この場合に考察中の量はその部分集合内の
断片が、本体内で又はそれに匹敵する寸法のプログラム
の統計的に類似の集合中で発見されない確率である。こ
の確率の簡単に計算できる上限は個々の断片の確率の和
であることを示すことができる。推定確率ではなくこの
推定上限を使用すると、精度は多少低下するが、一般的
にこれで十分であり、正確な計算より計算コストが低く
なる。

【００６９】従って、特定の候補シグネチャB₁B₂...B_S
について下記の擬似コードが総合断片確率(実際にはそ
の上限)を推定する手順を提供する。

【００７０】手順：Fragment_Probability(シグネチャ) 望むならば、シグネチャ内の潜在的な可変バイトをワイルドカードで置換する。 P_Fragment(シグネチャ)＝0 For i ＝ 1 to (S−F＋1) 断片＝バイトiからバイト(i＋F−1)まで If (断片が有効な断片である) W＝断片内のワイルドカードの数断片内のワイルドカードの位置のリスト： p≡(P₁，P₂...，P_W)；P_i＜P_j for i ＜ j を形成する p(断片)＝Calculate_Sequence_Probability(断片；P) p_Fragment(シグネチャ)＝p_Fragment(シグネチャ)＋p(断片)

【００７１】上記の手順は完全一致の場合の手順に類似
しているが、可能な断片の所望の部分集合内のすべての
断片について繰返しがされること及び総合断片確率が個
々の断片確率の累計であることが異なる。

【００７２】[不一致] 既知のウィルスの変更されたバージョンを検出するため
のもう1つの方法では、あるバイトの列がシグネチャに
ほぼ一致する時にユーザに警告する。正確に言うと、列
内の多くともMバイトを除くすべてのバイトがシグネチ
ャ内の対応する位置のバイトと一致する時である。この
場合、候補シグネチャB₁B₂...B_Sに対する不一致がM個以
下のシグネチャが見つかる確率を推定する必要がある。
M不一致確率に対する妥当な近似は可能な不一致位置の
組合せ数のすべての確率を加算することによって得られ
る。例えば、Sバイト(ワイルドカードは含まない)の所
与の列のうちせいぜい2バイトが不一致である確率は次
式で近似される。

【数５】

【００７３】ただし、X_iとX_jはそれぞれ本明細書で位置
i及びjでの可変位置ワイルドカードと称するものを表
す。合計はi及びjの可能なすべての位置に対して行われ
る。

【００７４】候補シグネチャB₁B₂...B_S内に既にワイル
ドカードが存在する場合(本明細書では、これを固定位
置ワイルドカードと称する)、状況はわずかに複雑にな
る。固定位置ワイルドカードの数Wが許容される不一致
の数Mを超える場合、そのシグネチャはM不一致に関して
無効であり、それ以上の計算は不要である。W＝Mの場
合、M不一致確率は完全一致確率と同一であり、その推
定は既に説明済みである。W＜Mの場合は、M−W個の可変
位置ワイルドカードをW固定位置ワイルドカードに追加
する。M−W個の可変位置の可能な集合の組合せ数のすべ
ての確率を加算して、M不一致確率を得る。下記の擬似
コードはp_Mismatch(B₁B₂...B_S；M)と表される総合不一
致確率を推定するための本発明の好ましい手順を提供す
る。

【００７５】手順：Mismatch_Probability(シグネチャ；M) 望むならば、シグネチャ内の潜在的な可変バイトをワイルドカードで置換する。 W＝ワイルドカードの数 m＝M−W If (m＜0) エラー：停止 −− ワイルドカードの数が許容される不一致を超えた Else if (m＝0) For i＝1 to S＋1 For j＝i to S＋1 Q(0，i，j)＝Exact_Match_Probability(B_iB_i+1...B_j-1) p_Mismatch(シグネチャ；M)＝Q(0，1，S＋1) Else if (m＞0) For i＝1 to S＋1−m For j＝i＋m to S＋1 Q(m，i，j)＝0 For k＝i to k＝j−m If (kがどの固定位置ワイルドカードの指標でもない) Q(m，i，j)＝ Q(m，i，j)＋Q(0，i，k)＊ Q(m−1，k＋1，j) p_Mismatch(シグネチャ；M)＝Q(m，1，S＋1)

【００７６】m＝0の時は、手順Exact_Match_Probabilit
yを使用して、候補シグネチャの全関連サブシーケンス
の完全一致確率Q(0，i，j)を計算することに留意された
い。Q(0，1，S＋1)即ちシグネチャ全体からなるサブシ
ーケンスの確率だけが必要である。しかし、i≠1且つj
≠S＋ｌの確率Q(0，i，j)はm＞0の場合の計算に有用で
あり、その計算で使用するために保存する。

【００７７】可変位置ワイルドカードの数mが非0の時、
m個の可変位置ワイルドカードを有するシグネチャの全
関連サブシーケンスの確率Q(m，i，j)はm−1個の可変位
置ワイルドカードを有するシグネチャと可変位置ワイル
ドカードのないシグネチャのサブシーケンスの確率(k番
目のバイトが固定位置ワイルドカードでないすべてのk
について、Q(m−1，k＋1，j)とQ(0，i，k))によって表
すことができる。やはり、この段階では確率Q(m，1，S
＋1)だけが必要であるがi≠1且つj≠S＋ｌの確率Q(m，
i，j)はmをm＋1で置換した時の計算に有用であり、その
計算で使用するために保存する。

【００７８】実際には、まずM＝Wの場合、手順Mismatch
_Probabilityを呼び出すことが最も効率的になるはずで
ある。これによって完全一致確率が得られることに留意
されたい。その後、M＝W＋1についてMismatch_Probabil
ityを呼び出し、次にM＝W＋2など、以下同様にして、シ
グネチャ長Sの所定の関数p_Mismatch(シグネチャ；M)の
所定の関数又は他の判断基準によって与えられるMの値
までMismatch_Probabilityを呼び出す。

【００７９】[結果の組合せと報告(図3、ブロックD及び
ブロックE)] 実際には、完全一致、断片及び不一致の確率推定は一般
に絶対尺度ではいくぶん不正確であるが、十分に大きい
n_Maxの場合、確率推定と実際の確率の間によい相関があ
る。

【００８０】応用例によっては、様々な確率推定の結果
を組み合わせて最終的な使用可能な結果を得る方法がい
くつかあり得る。ある方法では、3つの確率(とおそらく
は不一致の数M)のなんらかの組合せに基づいてシグネチ
ャにスコアを割り当て、次に所定の閾値を使用してその
シグネチャの受入れ又は拒絶を行う。

【００８１】シグネチャを完全一致だけを許容するウィ
ルス・スキャナと共に使用しようとする場合、スコアの
適当な選択肢は完全一致確率だけになるはずである。こ
の場合、シグネチャはそのスコアが何らかの閾値より低
い場合は受け入れられ、そうでない場合は拒絶される。

【００８２】ウィルス・スキャナが断片及び不一致を許
容する場合、スコアの適当な選択肢は断片確率と不一致
確率の和になるはずである。その結果、断片又は不一致
のいずれかの確率がわずかに過大評価される。というの
は、これらの確率が完全に独立ではないからである。し
かし、本発明の目的では、この技法は妥当な近似を提供
する。この場合も、閾値を使用してシグネチャの受入れ
又は拒絶を行うことができる。

【００８３】さらに洗練された戦略も、本発明の教示の
範囲に含まれる。例えば、断片確率とM不一致確率を別
々に断片閾値又はM不一致閾値と比較する。断片スコア
は許容できるがM不一致スコアは許容できない場合、ウ
ィルス・スキャナは断片の一致を許容するが、M不一致
は許容せず、逆も同様である。

【００８４】さらに、ある所定のMの値についてM不一致
スコアを完全に拒絶するのではなく、所与のシグネチャ
について、M不一致確率が所与の閾値よりも低くなる最
大のMを手順に決定させることも本発明の教示の範囲に
含まれる。この手法では、このステップと前に説明した
不一致計算の間での何度かの相互作用が必要である。

【００８５】閾値確率を使用する場合、適当な閾値を選
択するための現時点で好ましい手法を図5の流れ図に示
し、以下で説明する。まずブロックAで、プログラムの
本体34を3つの構成要素即ちプローブ・セット、トレー
ニング・セット及びテスト・セットに分解する。これは
本体34内のプログラムにこの3つのセットのうちの1つを
ランダムに割り当てることによって実行できる。プロー
ブ・セットは比較的小さくすることができ、トレーニン
グ・セットとテスト・セットはそれより大きく、寸法が
互いにほぼ匹敵することが好ましい。ブロックBで、複
数(好ましくは数千個以上)のバイト列をプローブ・セッ
トからランダムに選択する。このバイト列はそれぞれ典
型的なシグネチャ長Sに匹敵する長さを有する。ブロッ
クCで、トレーニング・セットを本体であるかのように
扱い、上記で詳細に説明した1組の手順を使用して、各
シグネチャの完全一致確率と典型的な1組のファジイ一
致確率を推定する。ブロックDで、テスト・セット内で
の各シグネチャの頻度とそのシグネチャに対する適当な
ファジイ一致をカウントする。

【００８６】ブロックEで、プローブ・セット内の各シ
グネチャごとに完全一致及び所望のすべてのタイプのフ
ァジイ一致(例えば、断片、1不一致、2不一致など)に関
して、推定確率(トレーニング・セットから得られた値)
対測定相対頻度(テスト・セットから得られた値)のリス
トを作る。各一致タイプの妥当な確率閾値を確立するた
め、ブロックFで、次の計算を実行する。まず、多数(通
常は数十個)の密な間隔の確率閾値T(i)のそれぞれにつ
いて、テスト・セット内に1回以上現れた推定確率がT
(i)より低いシグネチャの総数S_bad(T)を数える。次に、
指定された確率閾値T(i)のそれぞれについて、推定確率
がTより低いシグネチャの総数S_total(T)を数える。閾値
Tの偽肯定確率はFP(T)＝S_bad(T)/S_total(T)によって与
えられる。

【００８７】その後、テスト・セット内に一度も現れな
かったプローブ・セット内のシグネチャ(よい(good)シ
グネチャと称する)の総数S_goodを数える。次に、Tのそ
れぞれについて、推定確率がTより低いよいシグネチャ
の割合GoodSigs(T)を計算する。ブロックGで、偽肯定確
率FP(T)は許容できるほどに小さい(通常は1％未満)が閾
値GoodSigs(T)によって受け入れられると期待されるシ
グネチャの割合がウィルス・コード内のどこかで有効な
シグネチャを発見できることを実質上保証するのに十分
なほど大きい(即ち5％乃至25％又はそれ以上である)閾
値Tが(セット判断基準を使用して自動的に又はユーザに
よって)選択される。

【００８８】各一致タイプについて妥当な確率閾値を確
立するため、ブロックFで、推定確率が指定された閾値
より低く、テスト・セットに1回以上現れたシグネチャ
の比率を計算する。これによって、その閾値の偽肯定確
率が得られる。ブロックGで、許容できるほど小さい偽
肯定確率を与えるが多数のシグネチャを排除しない閾値
を選択する。

【００８９】存在する又は存在し得るプログラムの数が
本体34内のプログラムの数をかなり上回るという事実を
考慮に入れると、閾値確率を1/10又は1/100に減らすこ
とが望ましい可能性がある。実際には、ウィルス・コー
ドは現代のソフトウェア・アプリケーションの大半が記
述される高水準言語ではなく、アセンブラで記述される
傾向を有するので、これは慎重になりすぎる可能性があ
る。従って、本体自体から取ったプローブの調査に基づ
く閾値の選択は幾分非典型的なソフトウェアであるウィ
ルスに関して悲観的になりすぎる可能性がある。実際に
は、10乃至100の安全率を見込まない時でも、本発明の
手順によって偽肯定を生じるシグネチャが得られること
はまれである。

【００９０】評価モードでは、各候補シグネチャ(おそ
らく潜在的可変バイト位置へのワイルドカードの自動挿
入によって変更されている)がその完全一致確率、M不一
致確率、断片確率、M自体及びそのシグネチャが有効な
シグネチャとして受け入れられたかどうかの指示と共に
報告される。

【００９１】評価モードでは、各ウィルスごとに最高の
スコアを有する1つ又は複数の候補シグネチャが選択さ
れる可能性がある。この場合、スコアがMの値の大きさ
を反映し、選択されたシグネチャが可能な最大量の変化
を捕捉するようになっていることが好ましい。具体的な
選択判断基準の詳細がどうであれ、評価モードに関して
上記で説明したのと同じ情報が報告される。

【００９２】最終結果として、候補ウィルス・シグネチ
ャの発生の推定確率が閾値確率より低い場合に、1つ又
は複数の有効なウィルス・シグネチャが生成され又は受
け入れられる。この場合、閾値確率は後でウィルス・ス
キャナでそれを使用する際にあまりに多くの偽肯定を生
じる可能性の高いシグネチャを拒絶するのに十分なほど
低いが、少なくとも幾つかの候補シグネチャを受け入れ
るのに十分なほど高い値を有する。

【００９３】一般に、完全一致確率、断片確率及びM不
一致確率には、別々の閾値(Mごとに異なる閾値)が存在
することに留意されたい。スキャナと共に使用するため
に受け入れられるには、シグネチャは閾値より低い推定
偽肯定確率を有する必要がある。スキャナの性質によっ
ては、完全一致閾値を満足するが、断片又はM不一致あ
るいはその両方の閾値を満足しないシグネチャを受け入
れることができる。この場合は、シグネチャ・データベ
ース内で適当なフォーマットを使用してそのシグネチャ
に関して断片又は不一致を使用してはならないことをス
キャナに伝える。不一致の場合、M不一致の推定偽肯定
確率がM不一致閾値より低くなるようにMを調節すること
ができる。

【００９４】閾値を満たすことに加えて、他の判断基準
が存在する。まず、推定偽肯定確率はすべての候補シグ
ネチャのうちで最低の確率でなければならない。この判
断基準をMをできる限り大きく保つという要望とトレー
ドオフを行うことができる。

【００９５】さらに、十分に変わったバイト・シーケン
スから始まるシグネチャを優先的に選択するようにバイ
アスをかけるなど他の判断基準を利用することが望まし
い場合もある。

【００９６】一例として、以下に本発明の好ましい技法
のステップを示す。 1.最初の2バイトが所与の閾値よりも一般的である候補
シグネチャをすべて破棄する。 2.残りの候補シグネチャのすべてについて、完全一致確
率を評価する。 3.完全一致閾値より高い完全一致偽肯定確率を有する候
補シグネチャをすべて破棄する。 4.最も低い推定確率を有するn(通常は約10乃至20)個の
候補シグネチャを保存する。 5.残りの各候補シグネチャiについて、断片偽肯定確率f
rag_iを評価する。 6.残りの各候補シグネチャiについて、M不一致偽肯定確
率がM不一致確率閾値を超えるかどうかも評価する。超
える場合は、M_i＝m−1にセットする。M_iの最大値はシグ
ネチャの長さSの線形関数に制限することが好ましい。 7.特定のウィルスVに対応するすべての候補シグネチャ
について、Mの値が最大のシグネチャを最適シグネチャ
として選択する。同じ値を有するものがある場合は、最
も低いM不一致偽肯定確率を有するシグネチャを選択す
る。 8.各ウィルスごとに最適シグネチャをMの値、断片が受
け入れられる(即ち、断片偽肯定確率が断片閾値より低
い)か否か及び他の適当な情報と共に、シグネチャ・デ
ータベースに記録する。

【００９７】この技法には、多数の可能な変形が存在す
る。上記に記載の技法は特定のウィルス・スキャナ用に
最適化されている。

【００９８】先に指摘したように、シグネチャ報告は通
常は表示装置20に表示されあるいは他のソフトウェア・
プログラム、具体的にはウィルス・スキャナによる使用
に適したフォーマットで記憶媒体上のファイルに書き込
まれる。

【００９９】図1のデータ処理システム10に関して本発
明の方法を説明したので、次に図6のウィルス抽出評価
システム38を参照する。入力ファイル32、プログラムの
本体34及びnグラム・テーブル36は図1と同様に機能し、
図1と同じ番号を付けてある。nグラム・プロセッサ40は
スイッチ42に接続された入力を有し、抽出モードではウ
ィルス・コードのセクション32aを評価モードでは候補
シグネチャ32bを受け取る。nグラム・プロセッサ40は手
順Build_Ngram_List(抽出モード)及びBuild_Ngram_List
(評価モード)に従って動作する。LOS 44は抽出モードで
はlength_of_section情報を供給し、評価モードではlen
gth_of_signature情報を供給する。LOS 44は通常入力で
あるウィルス・コードのセクション32a又は候補シグネ
チャ32bの形式から決定される内部変数であることに留
意されたい。n_Max46は通常は3乃至8の範囲内にある値を
供給する。nグラム・プロセッサ40は一義的nグラムをn
グラム・テーブル36に記憶するため、nグラム・テーブ
ル36に両方向に結合される。

【０１００】nグラム・テーブル36の出力にnグラム確率
推定機構48が結合されている。nグラム確率推定機構48
は方法1又は方法2で数式2及び数式3に従って動作する。
方法1で動作する時、nグラム確率推定機構48はnグラム
・テーブル36からnグラムを受け取り、またプログラム
の本体34からバイト列を受け取る。方法2で動作する時
はnグラム確率推定機構48はプログラムの本体34の代わ
りに事前計算されたnグラム確率のテーブル50に結合さ
れる。nグラム確率推定機構48はブロック52からαの値
を受け取り、nグラム・テーブル36に上で説明したf、T_n
及びpの値を供給する。

【０１０１】ウィルス抽出評価システム38は下記の手順
及び数式に従って動作する候補シグネチャ確率推定機構
54も含む。 X_Probability_Evaluation_Mode、 X_Probability_Extraction_Mode、 Exact_Match_Probability(シグネチャ)、 Calculate_Sequence_Probability(バイト・シーケン
ス；P)、 Calculate_Block_Probability(バイト・ブロック)−(数
式4)、 Fragment_Probability(シグネチャ)、数式5、 Mismatch_Probability(シグネチャ；M)

【０１０２】候補シグネチャ確率推定機構54はブロック
56からシグネチャ長(S)を表す入力を受け取り、ブロッ
ク58から許容される不一致の数(M)を表す入力を受け取
る。リストQ及び他の必要な記憶要素は候補シグネチャ
確率推定機構54によって内部で維持される。候補シグネ
チャ確率推定機構54の1出力が候補シグネチャ確率のリ
スト60を提供するメモリに結合され、これにp_Exact、p
_Fragment及びp_Mismatchの値を供給する。

【０１０３】候補シグネチャ確率のリスト60の出力に確
率組合せ/有効シグネチャ選択機構62が結合されてい
る。確率組合せ/有効シグネチャ選択機構62は図3のブロ
ックD及びブロックEに従い、必要があれば図5の流れ図
に従って動作する。確率組合せ/有効シグネチャ選択機
構62に閾値ブロック64が結合されている。閾値ブロック
64は確率組合せ/有効シグネチャ選択機構62に現閾値を
供給する。確率組合せ/有効シグネチャ選択機構62の出
力はシグネチャ報告である。この出力は適当な表示装置
に又は例えばウィルス・スキャナ・プログラムに入力す
るためにファイルに供給することができる。

【０１０４】ブロック70及びブロック72は閾値確率を決
定しようとする場合に使用される。ブロック70は図5の
ブロックE及びブロックFに従って動作し、nグラム確率
推定機構48、候補シグネチャ確率推定機構54及びブロッ
ク72から入力を受け取る。ブロック70は閾値ブロック64
に出力を供給する。nグラム確率推定機構48はプローブ
・セットから取ったバイト・シーケンスを候補シグネチ
ャとして扱い、トレーニング・セットを本体として扱っ
て候補シグネチャ確率推定機構54が確率推定の計算に必
要とする情報を供給する。これらの確率推定はブロック
70に入力される。さらに、nグラム確率推定機構48は同
じバイト・シーケンスを候補シグネチャとして扱い、テ
スト・セットを本体として使用して各候補シグネチャの
頻度を数え、その頻度(f)をブロック70に供給する。ブ
ロック70では、前に図5のブロックE及びブロックFに関
して説明したように、推定確率と数えられた頻度を組み
合わせて、閾値の関数としての偽肯定確率と偽拒絶確率
を計算する。ブロック72は一実施例で、この2つの量を
最小化する必要の間での妥当なトレードオフを行うため
のヒューリスティックを表す。別の実施例では、ブロッ
ク72はユーザの対話入力を表す。後者の実施例の場合、
ユーザは偽肯定曲線と偽拒絶曲線の表示を与えられ、こ
の情報に基づく閾値の選択を入力する。どちらの場合で
も、閾値は確率組合せ/有効シグネチャ選択機構62が使
用できるように閾値ブロック64に記憶される。

【０１０５】nグラム・プロセッサ40、nグラム確率推定
機構48、候補シグネチャ確率推定機構54、確率組合せ/
有効シグネチャ選択機構62及びブロック70は別々の専用
処理装置として実施することも、本発明の方法に従って
動作する単一処理装置によって実施することもできる。
入力ファイル32、プログラムの本体34、nグラム・テー
ブル36、事前計算されたnグラム確率のテーブル50及び
候補シグネチャ確率のリスト60は別々の記憶装置を用い
て実施することもRAMやディスクなど単一の記憶装置を
用いて実施することもできる。LOS 44、n_Max46、ブロッ
ク52、ブロック56、ブロック58及び閾値ブロック64はレ
ジスタを用いて実施することも、記憶装置内の位置とし
て実施することもできる。スイッチ42は物理スイッチ又
は論理スイッチであるものと理解される。

【０１０６】以上、コンピュータ・ウィルス及び他の不
所望のソフトウェア・エンティティのシグネチャを評価
し抽出するための方法及び装置に関して本発明を説明し
てきたが、本発明の教示が広い応用範囲を有することを
理解されたい。即ち、本発明の教示は考察中のエンティ
ティと総称される物体又は事象を複数の特徴によって特
徴づけることができる分野に適用可能である。効率的な
認識に関してあるいは関連する物体又は事象のクラスへ
と一般化するため、小さな1組の特徴を使用して、物体
又は事象を高い信頼性で認識することができる。本発明
の方法では、典型的に発生する他の物体又は事象の大き
な本体を統計的に特徴づけ、この情報を使用して認識す
べき物体又は事象のシグネチャを決定する。

【０１０７】本発明の教示から利益を得ることのできる
応用分野には、例えば指紋認識、声紋認識及び網膜パタ
ーン認識がある。本発明の教示は例えばテキスト・ファ
イルを走査して既知のテキスト・シーケンスのインスタ
ンスを検出することなどによる剽窃の検出に使用するこ
ともできる。本発明の教示はコンピュータ・ネットワー
ク上の活動のログ記録を含む様々なタイプの監査記録内
の異常を検出するのに使用することもできる。

【図面の簡単な説明】

【図１】本発明の実施に使用するのに適したコンピュー
タ・システムのブロック図である。

【図２】シグネチャ抽出モードの動作で使用するための
前処理方法を示す流れ図である。

【図３】本発明の統計に基づくコンピュータ・ウィルス
・シグネチャ抽出評価方法の動作を示す流れ図である。

【図４】3つの部分がそれぞれ不変部分と可変部分を含
むコンピュータ・ウィルスの3つのインスタンスの部分
の例を示す図である。

【図５】候補シグネチャの受入れ又は拒絶に使用される
確率閾値を選択する方法を示す流れ図である。

【図６】本発明の方法を実行するのに適したシステムの
ブロック図である。

【符号の説明】

10 データ処理システム 12 システム・バス 14 中央演算処理装置(CPU) 32 入力ファイル(IF) 32a ウィルス・コードのセクション 32b 候補シグネチャ 34 プログラムの本体(CP) 36 nグラム・テーブル(NGT) 38 ウィルス抽出評価システム 40 nグラム・プロセッサ 44 LOS 46 n_Max 48 nグラム確率推定機構 50 事前計算されたnグラム確率のテーブル 54 候補シグネチャ確率推定機構 60 候補シグネチャ確率のリスト 62 確率組合せ/有効シグネチャ選択機構 64 閾値ブロック

フロントページの続き (56)参考文献特開平３−233629（ＪＰ，Ａ) 特開平３−502263（ＪＰ，Ａ) 「ＭＯＮＴＨＬＹＴｈｅＢＡＳＩＣ」1991〜１！通巻92号（1990−12− 18）（株）技術評論社Ｐ．26−Ｐ．28 （ウイルスの対策方法の章を参照)

Claims

(57)【特許請求の範囲】

【請求項１】ディジタル・データ・プロセッサを動作さ
せて不所望のソフトウェア・エンティティの有効なシグ
ネチャを得る方法であって、不所望のソフトウェア・エンティティのインスタンスが
変わっても実質的に不変のまま留まる可能性の高い不所
望のソフトウェア・エンティティの、バイト・シーケン
スを含む少なくとも1部分をディジタル・データ・プロ
セッサに入力する入力ステップと、前記不所望のソフトウェア・エンティティの少なくとも
1部分から1つ又は複数の候補シグネチャを選択する選択
ステップと、それぞれ1乃至ある選択された最大数の順次バイトのバ
イト・シーケンスで構成された一義的nグラムのリスト
を前記バイト・シーケンスから構築する構築ステップ
と、前記一義的nグラムのそれぞれについてコンピュータ・
プログラムの本体から得られたバイト・シーケンス内で
の一義的nグラムの発生確率を推定するために、前記コ
ンピュータ・プログラムの本体から得られたバイト・シ
ーケンス内のnグラムの発生頻度を記録し、n＝1のユニ
グラムについては、発生確率を記録された発生頻度をユ
ニグラムの総数で除した商で与え、n≧2のnグラムにつ
いては、発生確率を記録された発生頻度及びより短いn
グラムの組み合わせにより決まる確率の加重平均で与え
るnグラム発生確率推定ステップと、 1つ又は複数の一義的nグラムで構成される候補シグネチ
ャのそれぞれについて前記コンピュータ・プログラムの
本体から得られたバイト・シーケンス内での候補シグネ
チャの発生の偽肯定確率を推定するために、候補シグネ
チャ及び前記コンピュータプログラムの本体から得られ
たバイト・シーケンスの間の完全一致の確率及び部分一
致の確率を推定し、前記完全一致の確率及び前記部分一
致の確率を組み合わせて前記偽肯定確率を推定する偽肯
定確率推定ステップと、推定された候補シグネチャの偽肯定確率を1組の閾値確
率と比較する比較ステップとを含み、前記閾値確率は偽肯定確率が該閾値より低いシグネチャ
の使用中の偽肯定表示の発生の確率が低下するように選
択されていることを特徴とする不所望のソフトウェア・
エンティティの有効なシグネチャを得る方法。
【請求項２】前記入力ステップは1つ又は複数の不所望
のソフトウェア・エンティティ・シグネチャを入力する
ステップを含み、前記1つ又は複数の不所望のソフトウ
ェア・エンティティシグネチャはそれぞれ不所望のソフ
トウェア・エンティティの、不所望のソフトウェア・エ
ンティティのインスタンスが変わっても実質的に不変の
まま留まる可能性の高いバイト・シーケンスを含む少な
くとも1部分を含むことを特徴とする、請求項1に記載の
方法。
【請求項３】前記入力ステップは不所望のソフトウェア
・エンティティの少なくとも1つのインスタンスを得る
ステップ及び少なくとも1つのインスタンスを評価して
不所望のソフトウェア・エンティティのインスタンスが
変わっても実質的に不変のまま留まる可能性の高い少な
くとも1部分を識別するステップを含むことを特徴とす
る、請求項1に記載の方法。
【請求項４】B₁乃至B_nが順次発生するバイトであるとし
て、【数１】に従って2つの(n−1)グラム発生確率及び1つの(n−2)グ
ラム発生確率を組み合わせてnグラム発生確率を形成す
ることを特徴とする、請求項1に記載の方法。
【請求項５】前記偽肯定確率推定ステップにおける完全
一致の確率を推定するステップは不所望のソフトウェア
・エンティティのインスタンス間で潜在的に変化する可
能性のあるすべてのバイトを起こりうる各バイトとの完
全一致を有するワイルドカード・バイトで置換するステ
ップを含むことを特徴とする、請求項1に記載の方法。
【請求項６】前記偽肯定確率推定ステップにおける完全
一致の確率を推定するステップは候補シグネチャをワイ
ルドカード・バイトを含まない複数の連続バイト・ブロ
ックに分離するステップを含み、完全一致の確率は前記
複数の連続バイト・ブロックの確率を互いに乗算するこ
とによって得られることを特徴とする、請求項5に記載
の方法。
【請求項７】前記偽肯定確率推定ステップにおける部分
一致の確率を推定するステップは不所望のソフトウェア
・エンティティのインスタンス間で変化する可能性のあ
るすべてのバイトを前記コンピュータ・プログラムの本
体から得られたバイト・シーケンス内の各バイトとの完
全一致を有するワイルドカード・バイトで置換するステ
ップを含むことを特徴とする、請求項1に記載の方法。
【請求項８】不所望のソフトウェア・エンティティの有
効なシグネチャを得る装置であって、不所望のソフトウェア・エンティティのインスタンスが
変わっても実質的に不変のまま留まる可能性の高い不所
望のソフトウェア・エンティティの、バイト・シーケン
スを含む少なくとも1部分を入力する入力手段と、前記不所望のソフトウェア・エンティティの少なくとも
1部分から1つ又は複数の候補シグネチャを選択する選択
手段と、それぞれ1乃至ある選択された最大数の順次バイトのバ
イト・シーケンスで構成された一義的nグラムのリスト
を前記バイト・シーケンスから構築する構築手段と、前記一義的nグラムのそれぞれについてコンピュータ・
プログラムの本体から得られたバイト・シーケンス内で
の一義的nグラムの発生確率を推定するために、前記コ
ンピュータ・プログラムの本体から得られたバイト・シ
ーケンス内のnグラムの発生頻度を記録し、n＝1のユニ
グラムについては、発生確率を記録された発生頻度をユ
ニグラムの総数で除した商で与え、n≧2のnグラムにつ
いては、発生確率を記録された発生頻度及びより短いn
グラムの組み合わせにより決まる確率の加重平均で与え
るnグラム発生確率推定手段と、 1つ又は複数の一義的nグラムで構成される候補シグネチ
ャのそれぞれについて前記コンピュータ・プログラムの
本体から得られたバイト・シーケンス内での候補シグネ
チャの発生の偽肯定確率を推定するために、候補シグネ
チャ及び前記コンピュータプログラムの本体から得られ
たバイト・シーケンスの間の完全一致の確率及び部分一
致の確率を推定し、前記完全一致の確率及び前記部分一
致の確率を組み合わせて前記偽肯定確率を推定する偽肯
定確率推定手段と、推定された候補シグネチャの偽肯定確率を1組の閾値確
率と比較する比較手段とを含み、前記閾値確率は偽肯定確率が該閾値より低いシグネチャ
の使用中の偽肯定表示の発生の確率が低下するように選
択されていることを特徴とする不所望のソフトウェア・
エンティティの有効なシグネチャを得る装置。
【請求項９】前記入力手段は1つ又は複数の不所望のソ
フトウェア・エンティティ・シグネチャを入力する手段
を含み、前記1つ又は複数の不所望のソフトウェア・エ
ンティティシグネチャはそれぞれ不所望のソフトウェア
・エンティティの、不所望のソフトウェア・エンティテ
ィのインスタンスが変わっても実質的に不変のまま留ま
る可能性の高いバイト・シーケンスを含む少なくとも1
部分を含むことを特徴とする、請求項8に記載の装置。
【請求項１０】前記入力手段は不所望のソフトウェア・
エンティティの少なくとも1つのインスタンスを得る手
段及び少なくとも1つのインスタンスを評価して不所望
のソフトウェア・エンティティのインスタンスが変わっ
ても実質的に不変のまま留まる可能性の高い少なくとも
1部分を識別する手段を含むことを特徴とする、請求項8
に記載の装置。
【請求項１１】前記偽肯定確率推定手段における完全一
致の確率を推定する手段は不所望のソフトウェア・エン
ティティのインスタンス間で潜在的に変化する可能性の
あるすべてのバイトを起こりうる各バイトとの完全一致
を有するワイルドカード・バイトで置換する手段を含む
ことを特徴とする、請求項8に記載の装置。
【請求項１２】前記偽肯定確率推定手段における完全一
致の確率を推定する手段は候補シグネチャをワイルドカ
ード・バイトを含まない複数の連続バイト・ブロックに
分離する手段を含み、完全一致の確率は前記複数の連続
バイト・ブロックの確率を互いに乗算することによって
得られることを特徴とする、請求項11に記載の装置。
【請求項１３】前記偽肯定確率推定手段における部分一
致の確率を推定する手段は不所望のソフトウェア・エン
ティティのインスタンス間で変化する可能性のあるすべ
てのバイトを前記コンピュータ・プログラムの本体から
得られたバイト・シーケンス内の各バイトとの完全一致
を有するワイルドカード・バイトで置換する手段を含む
ことを特徴とする、請求項8に記載の装置。
【請求項１４】ディジタル・データ・プロセッサを動作
させて不所望のソフトウェア・エンティティの有効なシ
グネチャを得る方法であって、不所望のソフトウェア・エンティティのインスタンスが
変わっても実質的に不変のまま留まる可能性の高い不所
望のソフトウェア・エンティティの、バイト・シーケン
スを含む少なくとも1部分をディジタル・データ・プロ
セッサに入力する入力ステップと、前記不所望のソフトウェア・エンティティの少なくとも
1部分から1つ又は複数の候補シグネチャを選択する選択
ステップと、一義的nグラムのリストを前記バイト・シーケンスから
構築する構築ステップと、一義的nグラムのそれぞれについて前記コンピュータ・
プログラムの本体から得られたバイト・シーケンス内で
の一義的nグラムの発生の確率を用いて推定するnグラム
発生確率推定ステップと、 1つ又は複数の一義的nグラムで構成される候補シグネチ
ャのそれぞれについて前記コンピュータ・プログラムの
本体から得られたバイト・シーケンス内での候補シグネ
チャの発生の偽肯定確率を推定する偽肯定確率推定ステ
ップと、前記候補シグネチャの推定偽肯定確率を1組の閾値確率
と比較するステップとを含み、前記閾値確率は偽肯定確率が該閾値より低いシグネチャ
の使用中の偽肯定表示の発生の確率が低下するように選
択されており、比較ステップは、所定数のバイトが所定の閾値よりも一層コモンであるよ
うな候補シグネチャを破棄するステップと、残りのすべての候補シグネチャについて完全一致確率を
評価するステップと、完全一致閾値より高い完全一致偽肯定確率を有するすべ
ての候補シグネチャを破棄するステップと、最低の推定確率を有するn個の候補シグネチャを保存す
るステップと、残りの各候補シグネチャiについて、断片偽肯定確率fra
g_iを評価するステップと、残りの各候補シグネチャiについて、m＝1から始めて、
偽肯定確率がm不一致閾値を超えるまでmを増分しなが
ら、m不一致偽肯定確率を評価するステップと、 M_i＝m−1にセットするステップと、特定の不所望のソフトウェア・エンティティに対応する
すべての候補シグネチャについて、最大値Mを有するシ
グネチャを最適シグネチャとして選択するステップと、不所望の各ソフトウェア・エンティティについて、選択
された最適シグネチャをシグネチャ・データベースに記
録するステップとを含むことを特徴とする不所望のソフトウェア・エンテ
ィティの有効なシグネチャを得る方法。
【請求項１５】m不一致偽肯定確率を評価するステップ
の実行中、M_iの最大値がシグネチャの長さの線形関数に
制限されることを特徴とする、請求項14に記載の方法。
【請求項１６】前記選択ステップで、最大値を有するも
のが2以上ある場合に、最低のm不一致偽肯定確率を有す
るシグネチャを選択することを特徴とする、請求項14に
記載の方法。