JP5569935B2 - ソフトウェア検出方法及び装置及びプログラム - Google Patents
ソフトウェア検出方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP5569935B2 JP5569935B2 JP2010166150A JP2010166150A JP5569935B2 JP 5569935 B2 JP5569935 B2 JP 5569935B2 JP 2010166150 A JP2010166150 A JP 2010166150A JP 2010166150 A JP2010166150 A JP 2010166150A JP 5569935 B2 JP5569935 B2 JP 5569935B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- malware
- software
- determination
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 26
- 238000010801 machine learning Methods 0.000 claims description 25
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 6
- 210000002784 stomach Anatomy 0.000 claims description 2
- 238000000034 method Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009931 harmful effect Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Description
ファイルあるいは送受信する通信データ(以下、ファイルあるいは通信データをまとめて「オブジェクト」と記す)を記憶するオブジェクト記憶手段と、
予め用意した静的な単語辞書を参照して、または、ネットワーク上の検索エンジンの結果を用いて、前記オブジェクト記憶手段に記録されたオブジェクトより文字列として印字及び可読なバイト列を単語として抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語の集合を元に、サポートベクターマシンを用いてオブジェクトごとに特徴ベクトルを構成する特徴抽出手段と、
前記特徴ベクトルに機械学習システムを適用することにより新たに観測した特徴ベクトルを元に前記オブジェクトがマルウェアであるか否かを判定する判定手段と、
を有し、
前記単語抽出手段は、
文字列の英数字以外を区切り文字に置換し、大文字が2文字以上連続している場合には、該当した大文字を一つの単語としてマークし、マークされた以外に大文字がある場合は、該当した大文字の前に区切り文字を挿入し、該文字列を区切り文字によって分割し、分割した各々の文字列を単語として抽出する手段を含む。
任意に設定が可能な周期が到来する毎に新たな学習データをフィードバックすることによって再学習を可能とする。
任意の単語辞書を参照して、印字可能な文字から可読な単語集合を抽出する手段を含む。
マルウェアであるか否かのみならず、マルウェアの種別に関して学習並びに判定を行う手段を含む。
前記オブジェクトの全体または一部のみを使って判定する手段を含む。
前記単語抽出手段は、ファイルあるいは送受信する通信データ(以下、ファイルあるいは通信データをまとめて「オブジェクト」と記す)を記憶する前記オブジェクト記憶手段に記録されたオブジェクトより文字列として、予め用意した静的な単語辞書を参照して、または、ネットワーク上の検索エンジンの結果を用いて、印字及び可読なバイト列を単語として抽出する単語抽出ステップと、
前記特徴抽出手段が、前記単語抽出ステップによって抽出された単語の集合を元に、サポートベクターマシンを用いてオブジェクトごとに特徴ベクトルを構成する特徴抽出ステップと、
前記判定手段が、前記特徴ベクトルに機械学習システムを適用することにより新たに観測した特徴ベクトルを元に前記オブジェクトがマルウェアであるか否かを判定する判定ステップと、
を行い、
前記単語抽出ステップにおいて、
文字列の英数字以外を区切り文字に置換し、大文字が2文字以上連続している場合には、該当した大文字を一つの単語としてマークし、マークされた以外に大文字がある場合は、該当した大文字の前に区切り文字を挿入し、該文字列を区切り文字によって分割し、分割した各々の文字列を単語として抽出する。
任意に設定が可能な周期が到来する毎に新たな学習データをフィードバックすることによって再学習を可能とする前記機械学習システムを用いる。
マルウェアであるか否かのみならず、マルウェアの種別に関して学習並びに判定を行う。
前記オブジェクトの全体または一部のみを使って判定する。
ファイルX_i (i=1,2,…,N)の特徴ベクトル
V_i = {v_i1,v_i2,…,v_ij,…,v_iM}
を各々のファイルX_iに含まれる各単語w_j(j=1,2,…,M)を用い、
v_ij = g(w_j,X_i,X,a)
のように、w_j,X_i,X,aの関数で定義する。ここで、Xは全てのファイルの集合であり、aは任意に定義可能な重みパラメータである。
v_ij = tf_ij * idf_j
であり、
tf_ij = n_ij / sum_k n_k, j
idf_j = log(N / c)
である。ここで、
・n_ijはファイルF_iにおいて単語w_jが生起した回数;
・sum_k n_kjは単語w_jが全てのファイルで生起した回数の合計;
・Nは全てのファイルの総数;
・cは単語w_jを含むファイルの総数;
である。なお、*は乗算を示す演算子である。
20 オブジェクト記憶部
30 単語抽出部
35 単語辞書
40 特徴抽出部
50 機械学習システム
60 判定部
100 検出装置
200 ネットワーク
Claims (9)
- 悪意のあるソフトウェア(以下、「マルウェア」と記す)あるいはマルウェアを送受信する通信を検出する悪意のあるソフトウェアを検出するソフトウェア検出装置であって、
ファイルあるいは送受信する通信データ(以下、ファイルあるいは通信データをまとめて「オブジェクト」と記す)を記憶するオブジェクト記憶手段と、
予め用意した静的な単語辞書を参照して、または、ネットワーク上の検索エンジンの結果を用いて、前記オブジェクト記憶手段に記録されたオブジェクトより文字列として印字及び可読なバイト列を単語として抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語の集合を元に、サポートベクターマシンを用いてオブジェクトごとに特徴ベクトルを構成する特徴抽出手段と、
前記特徴ベクトルに機械学習システムを適用することにより新たに観測した特徴ベクトルを元に前記オブジェクトがマルウェアであるか否かを判定する判定手段と、
を有し、
前記単語抽出手段は、
文字列の英数字以外を区切り文字に置換し、大文字が2文字以上連続している場合には、該当した大文字を一つの単語としてマークし、マークされた以外に大文字がある場合は、該当した大文字の前に区切り文字を挿入し、該文字列を区切り文字によって分割し、分割した各々の文字列を単語として抽出する手段を含む
ことを特徴とするソフトウェア検出装置。 - 前記機械学習システムは、
任意に設定が可能な周期が到来する毎に新たな学習データをフィードバックすることによって再学習を可能とする
請求項1記載のソフトウェア検出装置。 - 前記判定手段は、
マルウェアであるか否かのみならず、マルウェアの種別に関して学習並びに判定を行う手段を含む
請求項1記載のソフトウェア検出装置。 - 前記判定手段は、
前記オブジェクトの全体または一部のみを使って判定する手段を含む
請求項1または3記載のソフトウェア検出装置。 - オブジェクト記憶手段、単語抽出手段、特徴抽出手段、判定手段を有し、悪意のあるソフトウェア(以下、「マルウェア」と記す)あるいはマルウェアを送受信する通信を検出する装置における、悪意のあるソフトウェアを検出するソフトウェア検出方法であって、
前記単語抽出手段は、ファイルあるいは送受信する通信データ(以下、ファイルあるいは通信データをまとめて「オブジェクト」と記す)を記憶する前記オブジェクト記憶手段に記録されたオブジェクトより、予め用意した静的な単語辞書を参照して、または、ネットワーク上の検索エンジンの結果を用いて、文字列として印字及び可読なバイト列を単語として抽出する単語抽出ステップと、
前記特徴抽出手段が、前記単語抽出ステップによって抽出された単語の集合を元に、サポートベクターマシンを用いてオブジェクトごとに特徴ベクトルを構成する特徴抽出ステップと、
前記判定手段が、前記特徴ベクトルに機械学習システムを適用することにより新たに観測した特徴ベクトルを元に前記オブジェクトがマルウェアであるか否かを判定する判定ステップと、
を行い、
前記単語抽出ステップにおいて、
文字列の英数字以外を区切り文字に置換し、大文字が2文字以上連続している場合には、該当した大文字を一つの単語としてマークし、マークされた以外に大文字がある場合は、該当した大文字の前に区切り文字を挿入し、該文字列を区切り文字によって分割し、分割した各々の文字列を単語として抽出する
ことを特徴とするソフトウェア検出方法。 - 前記判定ステップにおいて、
任意に設定が可能な周期が到来する毎に新たな学習データをフィードバックすることによって再学習を可能とする前記機械学習システムを用いる、
請求項5記載のソフトウェア検出方法。 - 前記判定ステップにおいて、
マルウェアであるか否かのみならず、マルウェアの種別に関して学習並びに判定を行う請求項5記載のソフトウェア検出方法。 - 前記判定ステップにおいて、
前記オブジェクトの全体または一部のみを使って判定する
請求項5または7記載のソフトウェア検出方法。 - 請求項1乃至4のいずれか1項に記載のソフトウェア検出装置を構成する各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010166150A JP5569935B2 (ja) | 2010-07-23 | 2010-07-23 | ソフトウェア検出方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010166150A JP5569935B2 (ja) | 2010-07-23 | 2010-07-23 | ソフトウェア検出方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012027710A JP2012027710A (ja) | 2012-02-09 |
JP5569935B2 true JP5569935B2 (ja) | 2014-08-13 |
Family
ID=45780565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010166150A Expired - Fee Related JP5569935B2 (ja) | 2010-07-23 | 2010-07-23 | ソフトウェア検出方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5569935B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9798981B2 (en) | 2013-07-31 | 2017-10-24 | Entit Software Llc | Determining malware based on signal tokens |
CN105431859A (zh) * | 2013-07-31 | 2016-03-23 | 惠普发展公司,有限责任合伙企业 | 指示恶意软件的信号标记 |
US10268820B2 (en) | 2014-06-11 | 2019-04-23 | Nippon Telegraph And Telephone Corporation | Malware determination device, malware determination system, malware determination method, and program |
US9330264B1 (en) * | 2014-11-26 | 2016-05-03 | Glasswall (Ip) Limited | Statistical analytic method for the determination of the risk posed by file based content |
EP3329412A4 (en) | 2015-07-31 | 2019-01-23 | Bluvector, Inc. | SYSTEM AND METHOD FOR REFORMING AN IN SITU CLASSIFIER FOR IDENTIFYING MALWARE SOFTWARE AND HETEROGENEITY OF A MODEL |
US9690938B1 (en) | 2015-08-05 | 2017-06-27 | Invincea, Inc. | Methods and apparatus for machine learning based malware detection |
US10289843B2 (en) * | 2016-04-06 | 2019-05-14 | Nec Corporation | Extraction and comparison of hybrid program binary features |
WO2017187999A1 (ja) * | 2016-04-26 | 2017-11-02 | 日本電気株式会社 | プログラム分析システム、プログラム分析方法、及び、記録媒体 |
US10318735B2 (en) | 2016-06-22 | 2019-06-11 | Invincea, Inc. | Methods and apparatus for detecting whether a string of characters represents malicious activity using machine learning |
KR101863615B1 (ko) * | 2017-05-24 | 2018-06-01 | (주)이스트소프트 | 신경망 학습 기반의 변종 악성 코드를 탐지하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
WO2019145912A1 (en) | 2018-01-26 | 2019-08-01 | Sophos Limited | Methods and apparatus for detection of malicious documents using machine learning |
US11941491B2 (en) | 2018-01-31 | 2024-03-26 | Sophos Limited | Methods and apparatus for identifying an impact of a portion of a file on machine learning classification of malicious content |
US11947668B2 (en) | 2018-10-12 | 2024-04-02 | Sophos Limited | Methods and apparatus for preserving information between layers within a neural network |
US11714905B2 (en) | 2019-05-10 | 2023-08-01 | Sophos Limited | Attribute relevance tagging in malware recognition |
US20210089992A1 (en) * | 2019-09-20 | 2021-03-25 | Nec Laboratories America, Inc. | Method for automated code reviewer recommendation |
JP6856162B2 (ja) * | 2019-09-24 | 2021-04-07 | ダイキン工業株式会社 | 制御システム |
JP7272446B2 (ja) * | 2019-09-27 | 2023-05-12 | 日本電気株式会社 | 学習装置、判別システム、学習方法及び学習プログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0750487B2 (ja) * | 1986-11-26 | 1995-05-31 | 松下電器産業株式会社 | 情報抽出装置 |
US7519998B2 (en) * | 2004-07-28 | 2009-04-14 | Los Alamos National Security, Llc | Detection of malicious computer executables |
US8037535B2 (en) * | 2004-08-13 | 2011-10-11 | Georgetown University | System and method for detecting malicious executable code |
JP4460417B2 (ja) * | 2004-10-08 | 2010-05-12 | 日本電信電話株式会社 | 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置 |
JP2008192122A (ja) * | 2007-01-09 | 2008-08-21 | Nec Corp | 悪意メール検出装置、検出方法およびプログラム |
IL191744A0 (en) * | 2008-05-27 | 2009-02-11 | Yuval Elovici | Unknown malcode detection using classifiers with optimal training sets |
-
2010
- 2010-07-23 JP JP2010166150A patent/JP5569935B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012027710A (ja) | 2012-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5569935B2 (ja) | ソフトウェア検出方法及び装置及びプログラム | |
Li et al. | Textbugger: Generating adversarial text against real-world applications | |
Ahmed et al. | A system call refinement-based enhanced Minimum Redundancy Maximum Relevance method for ransomware early detection | |
Cohen et al. | SFEM: Structural feature extraction methodology for the detection of malicious office documents using machine learning methods | |
Nissim et al. | Detection of malicious PDF files and directions for enhancements: A state-of-the art survey | |
Smutz et al. | Malicious PDF detection using metadata and structural features | |
EP2588983B1 (en) | Systems and methods for alternating malware classifiers in an attempt to frustrate brute-force malware testing | |
Alazab et al. | Malware detection based on structural and behavioural features of API calls | |
US9043247B1 (en) | Systems and methods for classifying documents for data loss prevention | |
Nissim et al. | Keeping pace with the creation of new malicious PDF files using an active-learning based detection framework | |
Han et al. | {SIGL}: Securing software installations through deep graph learning | |
Niakanlahiji et al. | A natural language processing based trend analysis of advanced persistent threat techniques | |
CN109983464B (zh) | 检测恶意脚本 | |
CN112241530B (zh) | 恶意pdf文档的检测方法及电子设备 | |
Li et al. | {TextShield}: Robust text classification based on multimodal embedding and neural machine translation | |
Malisa et al. | Mobile application impersonation detection using dynamic user interface extraction | |
Carlin et al. | Dynamic analysis of malware using run-time opcodes | |
Thunga et al. | Identifying metamorphic virus using n-grams and hidden markov model | |
Zhang et al. | Smartdetect: a smart detection scheme for malicious web shell codes via ensemble learning | |
Deepa et al. | Investigation of feature selection methods for android malware analysis | |
Tajiri et al. | Detection of malicious powershell using word-level language models | |
Rasheed et al. | Adversarial attacks on featureless deep learning malicious URLs detection | |
US11321453B2 (en) | Method and system for detecting and classifying malware based on families | |
US8402545B1 (en) | Systems and methods for identifying unique malware variants | |
Kutlay et al. | Static based classification of malicious software using machine learning methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20121029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20121029 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140610 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5569935 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |